چکیده

:

درک عمیق از دنیای بصری ما چیزی بیش از یک ادراک مجزا از یک سری اشیاء است و روابط بین آنها نیز حاوی اطلاعات معنایی غنی است. به خصوص برای آن دسته از تصاویر سنجش از دور ماهواره ای، گستره آن به قدری بزرگ است که اشیاء مختلف همیشه در اندازه های مختلف و ترکیبات فضایی پیچیده هستند. بنابراین، شناخت روابط معنایی برای تقویت درک صحنه های سنجش از دور مساعد است. در این مقاله، ما یک شبکه ترکیبی معنایی چند مقیاسی جدید (MSFN) پیشنهاد می‌کنیم. در این چارچوب، کانولوشن گشاد شده به یک شبکه کانولوشن گراف (GCN) بر اساس یک مکانیسم توجه برای ترکیب و اصلاح بافت معنایی چند مقیاسی معرفی می‌شود، که برای تقویت توانایی شناختی مدل ما بسیار مهم است. بر اساس نگاشت بین ویژگی‌های بصری و تعبیه‌های معنایی، ما یک ماژول استخراج رابطه پراکنده برای حذف ارتباطات بی‌معنا بین موجودیت‌ها و بهبود کارایی تولید نمودار صحنه طراحی می‌کنیم. در همین حال، برای ترویج بیشتر تحقیق درک صحنه در زمینه سنجش از دور، این مقاله همچنین یک مجموعه داده نمودار صحنه سنجش از دور (RSSGD) را پیشنهاد می‌کند. ما آزمایش‌های گسترده‌ای انجام می‌دهیم و نتایج نشان می‌دهد که مدل ما به طور قابل‌توجهی از روش‌های قبلی در تولید نمودار صحنه بهتر عمل می‌کند. علاوه بر این، RSSGD به طور موثر شکاف معنایی عظیم بین ادراک سطح پایین و شناخت سطح بالا از تصاویر سنجش از دور را پر می کند. در همین حال، برای ترویج بیشتر تحقیق درک صحنه در زمینه سنجش از دور، این مقاله همچنین یک مجموعه داده نمودار صحنه سنجش از دور (RSSGD) را پیشنهاد می‌کند. ما آزمایش‌های گسترده‌ای انجام می‌دهیم و نتایج نشان می‌دهد که مدل ما به طور قابل‌توجهی از روش‌های قبلی در تولید نمودار صحنه بهتر عمل می‌کند. علاوه بر این، RSSGD به طور موثر شکاف معنایی عظیم بین ادراک سطح پایین و شناخت سطح بالا از تصاویر سنجش از دور را پر می کند. در همین حال، برای ترویج بیشتر تحقیق درک صحنه در زمینه سنجش از دور، این مقاله همچنین یک مجموعه داده نمودار صحنه سنجش از دور (RSSGD) را پیشنهاد می‌کند. ما آزمایش‌های گسترده‌ای انجام می‌دهیم و نتایج نشان می‌دهد که مدل ما به طور قابل‌توجهی از روش‌های قبلی در تولید نمودار صحنه بهتر عمل می‌کند. علاوه بر این، RSSGD به طور موثر شکاف معنایی عظیم بین ادراک سطح پایین و شناخت سطح بالا از تصاویر سنجش از دور را پر می کند.

 

1. مقدمه

با توسعه سریع فناوری اکتشاف فضا، تصاویر سنجش از دور بسیار با وضوح بالا انباشته شده است که یک پشتیبانی داده محکم برای درک عمیق صحنه های سنجش از دور فراهم می کند [ 1 ، 2 ، 3 ، 4 ]. فناوری‌های پردازش تصویر سنجش از دور موجود عمدتاً بر وظایف سطح ادراک مانند طبقه‌بندی [ 5 ]، تشخیص اشیا [ 6 ، 7 ] و تقسیم‌بندی معنایی [ 8 ، 9 ] تمرکز می‌کنند.]. به طور خاص، با پیشرفت تکنیک‌های هوش مصنوعی (AI) که توسط یادگیری عمیق نشان داده می‌شود، دقت تشخیص دسته‌بندی بدون توجه به سطح تصویر یا سطح پیکسل از نظر کیفی بهبود یافته است [ 10 ]. با این حال، برای درک کامل یک صحنه سنجش از دور، ماندن در سطح ادراکی کافی نیست. همانطور که در شکل 1 a,c نشان داده شده است، تشخیص شی نمی تواند تفاوت های اساسی بین زمین بیس بال و صحرا را که دارای دسته بندی های یکسانی هستند (به عنوان مثال، “جاده”، “زمین بایر”، “چمنزار”) تشخیص دهد. دلیل اصلی این است که این مدل ها نسبت به روابط فضایی بین موجودیت ها کور هستند [ 11 ]. به منظور دستیابی به روابط معنایی غنی از صحنه تصویر، بسیاری از محققین مجموعه ای از مطالعات ارزشمند را انجام داده اند [ 12 ].، 13 ، 14 ]. یکی از موثرترین روش ها بیان صحنه بصری به عنوان یک نمودار ساخت یافته است [ 15 ]. در این نوع نمودارها، تعامل معنایی بین گره ها (شامل موضوع و شی) را می توان به شکلی مانند ستوبjهجتیپrهدمنجآتیهoبjهجتی. به طور خلاصه، استدلال رابطه معنایی شامل شناسایی و بومی سازی جفت گره ها در یک تصویر، در عین حال، طبقه بندی رابطه تعاملی هر جفت است. بنابراین، تفاوت های معنایی بین زمین بیس بال و صحرا را می توان به وضوح بر اساس تحلیل های شکل 1 ب، د شناسایی کرد، بدیهی است که زمین بیس بال معمولاً دارای رابطه است. مترهآدowستوrroتوnدبآrهلآnد، متفاوت با roآدتیساعتroتوgساعتبآrهلآnددر بیابان در نتیجه، نمودار صحنه به عنوان یک پیوند طبیعی بین وظایف ادراکی سطح پایین (به عنوان مثال، طبقه بندی تصویر، تشخیص اشیا) و وظایف شناختی سطح بالا مانند شرح تصویر [ 16 ، 17 ]، پاسخ به سؤالات بصری [ 18 ] عمل می کند. ] و بازیابی تصویر [ 19 ].
تولید نمودار صحنه تبدیل به روش استدلال رابطه نگران کننده در زمینه تصاویر طبیعت شده است و دستاوردهای متعددی به دست آورده است [ 20 ، 21 ، 22 ]. با این حال، تحقیقات مربوطه نادر است و پیشرفت در سنجش از دور نسبتا کند است. با توجه به تنوع آشکار بین تصاویر طبیعی و تصاویر سنجش از دور، انتقال مستقیم از مدل های موجود به سنجش از دور اغلب بی اثر است [ 23 ]. با توجه به اندازه‌های مختلف، نسبت‌های ابعادی و توزیع فضایی پراکنده اجسام زمینی در تصاویر سنجش از دور، پیچیدگی گشاد شده [ 24 ] را معرفی می‌کنیم.] به شبکه کانولوشن گراف توجهی برای ساخت یک طرح ترکیبی معنایی چند مقیاسی برای استدلال رابطه سنجش از دور. با تنظیم میدان دریافت شناختی، مدل ما به توجه به اطلاعات زمینه مربوط به محدوده‌های معنایی مختلف هدایت می‌شود و محتوای معنایی را می‌توان به طور موثر از طریق یک مکانیسم ارسال پیام خاص ادغام کرد.
از نظر مجموعه داده های شناخت معنایی، محققان [ 25 ، 26 ] در سال های اخیر توجه بیشتری به درک صحنه سنجش از دور داشتند. از جمله، لو و همکاران. [ 23 ] بزرگترین مجموعه داده را برای شرح تصویر سنجش از راه دور پیشنهاد کرد – RSICD، که تنوع درون طبقه‌ای بالا و تفاوت بین طبقاتی کم دارد. بر اساس تجزیه و تحلیل آماری، این مجموعه داده شامل 10921 تصویر سنجش از دور با اندازه 224 × 224، 24333 جمله توصیفی مختلف از 3323 کلمه است و هر تصویر مربوط به پنج جمله است. RSICD [ 23 ] به مجموعه داده جهانی از کار شرح تصویر سنجش از راه دور تبدیل شده است و به طور گسترده اعمال می شود [ 27 ].
با این حال، RSICD [ 23 ] تنها حاوی عبارات توصیفی بدون حاشیه‌نویسی‌های اضافی و معنی‌دار در مورد موجودیت‌های مختلف در تصاویر سنجش از دور، مانند برچسب‌ها، جعبه‌های محدودکننده ناحیه، ویژگی‌ها و روابط است که نقشی ضروری در کاوش بازنمایی صحنه به طور جامع بازی می‌کنند. به طور خاص، بر اساس این اطلاعات، می‌توانیم نمودار صحنه سنجش از دور بسازیم، که یک پیوند ارتباطی بین وظایف استخراج ویژگی بصری [ 5 ، 6 ، 7 ] و وظایف شناخت معنایی سطح بالا [ 26 ، 28 ] ایجاد می‌کند.]. بنابراین، یک مجموعه داده نمودار صحنه سنجش از دور برای بهبود بیشتر توسعه شناخت رابطه معنایی در زمینه سنجش از دور پیشنهاد شده است.
به طور خلاصه، مشارکت های اصلی این مقاله شامل چهار جنبه است:
  • برای پرداختن به ویژگی‌های ذاتی در تصاویر سنجش از دور، مانند گستره‌های بزرگ و توزیع فضایی خاص موجودیت‌ها، این مقاله کانولوشن گشاد شده [ 24 ] را در روش ما معرفی می‌کند و یک شبکه کانولوشنی گراف چند مقیاسی را به طور خلاقانه می‌سازد، که برای گسترش آن مفید است. بینش شناختی اطلاعات معنایی
  • یک شبکه ترکیبی معنایی چند مقیاسی جدید برای تولید نمودار صحنه ارائه شده است. علاوه بر این، برای بهبود کارایی استدلال رابطه، تعبیه ترجمه (TransE) [ 29 ] برای محاسبه نمرات همبستگی بین گره ها و حذف بیشتر یال های نامعتبر به کار گرفته شده است.
  • با هدف ساختن گراف صحنه سنجش از دور، یک مجموعه داده مناسب برای شکستن مانع معنایی بین درک مقوله و شناخت رابطه پیشنهاد شده است. تا آنجا که ما می دانیم، RSSGD اولین مجموعه داده نمودار صحنه در زمینه سنجش از دور است.
بقیه این مقاله به شرح زیر سازماندهی شده است. در بخش 2 ، آثار مرتبط به اختصار بررسی می شود. مدل و مجموعه داده پیشنهادی در بخش 3 معرفی و تحلیل شده است. نتایج آزمایش و بحث در بخش 4 نشان داده شده است. سپس، نتیجه گیری در بخش 5 آورده شده است.

2. آثار مرتبط

2.1. تولید نمودار صحنه

در واقع، ایده استفاده از محتوای معنایی متنی برای بهبود درک صحنه برای مدت طولانی مورد مطالعه قرار گرفته است [ 30 ، 31 ، 32 ، 33 ]. در سال‌های اخیر ، جانسون و همکاران ، با الهام از یک سری مطالعات پربار در وظایف بینایی کامپیوتری [ 34 ، 35 ]. 19 ] موضوع استخراج نمودار صحنه از تصویر، و گسترش تشخیص شی [ 36 ] به وظیفه شناختی استنتاج روابط معنایی را پیشنهاد کرد. شوستر و همکاران [ 37] مدلی را برای تولید نمودار صحنه شامل دو ماژول ارائه کرد: یک شبکه مبتنی بر قانون و یک شبکه مبتنی بر طبقه‌بندی، که نمایش‌های نحو وابستگی را در نمودار صحنه ترسیم می‌کند. با الهام از پیشرفت های TransE [ 29 ] در استدلال رابطه ای، برخی از مدل های مرتبط برای تشخیص رابطه بصری [ 38 ، 39 ] ساخته شده اند.]. این روش‌های مبتنی بر TransE اطلاعات معنایی را در یک فضای نگاشت کم‌بعدی قرار می‌دهند، جایی که روابط به عنوان بردارهای ترجمه ارزشمند نشان داده می‌شوند. بسیاری از کارهای قبلی بر ساختن نمودار صحنه از یک تصویر ورودی تمرکز می‌کنند، اما از بافت اطراف غفلت می‌کنند، در نتیجه، این پیش‌بینی‌های محلی اغلب از یکدیگر جدا می‌شوند. با این حال، تولید نمودار صحنه بر اساس اطلاعات زمینه می تواند مشکل ابهام فوق را حل کند. با الهام از این، خو و همکاران. [ 40 ] مدلی را با استفاده از ارسال پیام تکراری برای استخراج روابط صحنه پیشنهاد کرد. هو و همکاران [ 41] سه ساختار گراف توجه را برای تجزیه بیان پیشوندی به موضوع، رابطه و شی به ترتیب ادغام کرد و چارچوب عصبی مدولار را برای تطبیق نمادهای بافت استخراج شده با مناطق تصویر معرفی کرد. زلرز و همکاران [ 42 ] دریافتند که برخی از الگوهای رابطه ذاتی حتی در زیرگراف‌های بزرگ‌تر نیز وجود دارند، و بیش از نیمی از تصاویر حاوی این زیرساخت‌ها هستند که اغلب قبلاً رخ داده‌اند. بر اساس تحلیل فوق، ساختار شبکه عصبی به نام Motifs پیشنهاد شده است. Motifs [ 42 ] یک مکانیسم محاسباتی زمینه جهانی جدید ایجاد می کند و برچسب ها را به روابط تعاملی بین گره ها با ترکیب اطلاعات ناحیه سر، دم و مرز مشترک با محصول بیرونی اختصاص می دهد. یک شبکه توصیف صحنه چند سطحی (MSDN) [ 43] تشخیص شی، تولید نمودار صحنه و شرح تصویر را در یک مدل یکپارچه برای دستیابی به درک جامع تصویر ادغام می کند، و عملیات اصلی MSDN [ 43 ] انتقال و به روز رسانی اطلاعات زمینه در بین سه وظیفه بصری با ساخت زیرگراف های پویا است. یک ماژول رابطه ای مبتنی بر تانسور از قبل آموزش دیده [ 44 ] به عنوان دانش حوزه قبلی برای اصلاح استدلال رابطه استفاده می شود، علاوه بر این، یک طرح ارسال پیام با واحدهای بازگشتی دروازه ای (GRU) برای بهبود دقت تشخیص رابطه معنایی معرفی شده است. هرزیگ و همکاران [ 45] یک پیش بینی گراف صحنه برای تقویت نمایش رابطه با کاوش در وابستگی های متقابل بین گره ها و روابط پیشنهاد کرد. برای بهبود عملکرد نهایی تولید نمودار صحنه، لو و همکاران. [ 15 ] به ترتیب یک ماژول استخراج ویژگی و یک ماژول پیشین زبان را آموزش داد و سپس آنها را از طریق یک تابع هدف با هم ترکیب کرد. یو و همکاران [ 46 ] دانش قبلی آمار زبانی را برای عادی سازی یادگیری ویژگی های بصری و کاهش هزینه آموزش مدل اتخاذ کنید. یک شبکه انتشار وابسته به زمینه [ 47] دانش معنایی را از طریق یک نمودار کلمه آموخت و با استخراج ویژگی‌های سطح پایین، بازنمایی فضایی را به دست آورد، سپس این دو نوع اطلاعات زمینه جهانی به طور تطبیقی ​​توسط یک شبکه انتشار ادغام شدند تا روابط معنایی بالقوه را استنتاج کنند.

2.2. مجموعه داده نمودار صحنه

جانسون و همکاران [ 19 ] یک مجموعه داده نمودار صحنه در دنیای واقعی (RW-SGD) را پیشنهاد کرد، که اولین مجموعه داده ای است که به صراحت برای تولید نمودار صحنه ایجاد شده است. RW-SGD [ 19 ] با جمع‌آوری 5000 تصویر از مایکروسافت COCO [ 48 ]، و استفاده از Mechanical Turk آمازون برای تولید نمودارهای صحنه تولید شده توسط انسان مطابق با این تصاویر انتخاب شده ساخته شده است. VRD [ 15 ] برای کار استنتاج روابط معنایی ساخته شده است که دارای 100 کلاس شی استخراج شده از 5000 تصویر و شامل 37993 رابطه است. با این حال، توزیع این روابط تعاملی در VRD [ 15 ] دارای یک مشکل مشترک دم بلند در مجموعه داده های نمودار صحنه است. ژنوم بصری (VG) [ 49] یک مجموعه داده رابطه با مقیاس بزرگ است که از مؤلفه‌های زیادی مانند ویژگی‌ها، روابط، جفت‌های پاسخ سؤال تشکیل شده است. در حال حاضر، VG [ 49 ] به طور گسترده برای تولید نمودار صحنه، عنوان تصویر و پاسخگویی به سؤالات بصری به دلیل تعداد زیادی از تصاویر و روابط آن استفاده شده است. علاوه بر این، مجموعه داده نمودار صحنه دیگری VrR-VG [ 50 ] بر اساس VG [ 49 ] تولید می شود. UnRel-D [ 51 ] یک مجموعه داده چالش برانگیز جدید از روابط غیرمعمول شامل بیش از 1000 تصویر است که می توان با 76 پرس و جو سه گانه پرس و جو کرد.

2.3. مکانیسم توجه

در زمینه سنجش از دور، هاوت و همکاران. [ 52 ] یک شبکه مبتنی بر توجه کانال باقیمانده را پیشنهاد کرد که ماژول توجه را در لایه‌های شبکه عصبی کانولوشنال باقیمانده (CNN) یکپارچه کرد. لو و همکاران [ 53 ] مکانیسم توجه کانال را به شبکه کاملاً کانولوشن (FCN) برای انتخاب ویژگی‌های مناسب معرفی کرد. وانگ و همکاران [ 54 ] با اتخاذ یک مدل توجه ویژه کلاس، FCN را بهبود بخشید. با و همکاران [ 55 ] شبکه‌های توجه فضایی و کانالی را در معماری‌های CNN برای افزایش ویژگی‌ها و تشخیص دود آتش از تصاویر ماهواره‌ای گنجانده است. به منظور پرداختن به وظیفه تقسیم بندی معنایی تصاویر سنجش از دور، لی و همکاران. [ 56] یک شبکه توجه مسیر دوگانه، طراحی یک ماژول توجه فضایی برای استخراج بافت فضایی در سطح پیکسل و معرفی یک ماژول توجه کانالی برای بهره‌برداری از ویژگی‌های محلی کلیدی در مناطق مختلف، پیشنهاد کرد.

2.4. گراف شبکه کانولوشن

به دلیل توانایی عالی برای گرفتن ویژگی های فضایی، CNN در بسیاری از وظایف بینایی استفاده شده است [ 5 ، 53 ، 55 ]. با این حال، اکثر مدل‌های CNN در مدل‌سازی روابط بین اشیا ضعیف هستند. برای شکستن محدودیت‌های نمونه‌گیری شبکه‌ای، شبکه کانولوشن گراف [ 57 ] پیشنهاد شده است و اخیراً با موفقیت در نمایش و تحلیل داده‌های نامنظم یا غیرشبکه‌ای استفاده شده است [ 58 ]. به عنوان مثال، برای پیش بینی دقیق ترافیک شهری بر اساس نقشه راه دیجیتال، ژائو و همکاران. [ 59 ] یک شبکه کانولوشن گراف زمانی (T-GCN) را پیشنهاد کرد که از یک شبکه کانولوشن گراف و یک واحد بازگشتی دردار تشکیل شده است. در T-CGN [ 59]، از GCN برای یادگیری نمایش معنایی چند سطحی برای به دست آوردن اطلاعات مکانی و واحد بازگشتی دروازه‌ای برای یادگیری تغییرات دینامیکی داده‌های ترافیک برای گرفتن بافت زمانی استفاده می‌شود.
چند کار مرتبط با GCN در زمینه سنجش از دور وجود دارد. شهرکی و همکاران [ 60 ] یک GCN آبشاری برای طبقه بندی تصاویر ابرطیفی پیشنهاد کرد. کوین و همکاران [ 61 ] GCN اصلی را با در نظر گرفتن هم‌زمان همسایگی‌های فضایی و طیفی به نسخه‌ای درجه دوم گسترش داد. وان و همکاران [ 62 ] تقسیم‌بندی سوپرپیکسلی را روی تصاویر سنجش از راه دور انجام داد و نتایج را به GCN برای کاهش هزینه‌های محاسباتی برای بهبود کارایی تشخیص داد. بر اساس یک ساختار گراف خاص، Mou et al. [ 63] یک عملگر پیچیدگی جدید ارائه کرد و آن را با یک شبکه عصبی ترکیب کرد تا یک مدل یادگیری جدید برای تجزیه و تحلیل داده‌های برداری فضایی بدون ساختار بسازد. به منظور استخراج ویژگی های متمایز از ساختارهای نامنظم، خان و همکاران. [ 64 ] یک تکنیک جدید تشخیص صحنه چند برچسبی برای طبقه بندی تصاویر سنجش از دور با استفاده از GCN عمیق پیشنهاد کرد. شی و همکاران [ 65 ] GCN و تعبیه ویژگی ساختاری عمیق (DSFE) را در یک چارچوب انتها به انتها یکپارچه کرد. علاوه بر این، به جای اتخاذ یک GCN کلاسیک، DSFF [ 65] از یک شبکه کانولوشن گراف دردار استفاده کرد که می‌تواند مرزهای واضحی ایجاد کند و با اصلاح پیش‌بینی معنایی ضعیف و درشت، تشخیص سطح پیکسل ریزدانه را در سنجش از دور پردازش کند. در این مقاله، GCN عمدتاً برای انتقال اطلاعات و ادغام در نمودار صحنه تصاویر سنجش از راه دور، و همچنین تجدید وضعیت گره استفاده می‌شود.

3. مواد و روشها

3.1. مدل تولید نمودار صحنه برای تصویر سنجش از دور

در زمینه شناخت صحنه معنایی، محققان مطالعات مقدماتی را در زمینه سنجش از دور انجام داده و دستاوردهای هیجان انگیز زیادی را به دست آورده اند. با این حال، اگر مدلی مستقیماً از درک ویژگی سطح پایین به درک صحنه سطح بالا عبور کند، اما فاقد پشتیبانی لازم از روابط معنایی بین موجودیت‌ها باشد، به طور مکانیکی با داده‌های برچسب‌گذاری شده بیش از حد تطبیق می‌کند و در درک واقعی صحنه‌های سنجش از دور ناکام می‌ماند. به عنوان مثال، لو و همکاران. [ 23 ] فقط به دلیل وجود همزمانی زیاد بین “درخت” و “ساختمان” اشاره کرد، حتی اگر یک تصویر دارای درخت باشد اما بدون ساختمان، برچسب “ساختمان” اغلب در نتیجه تشخیص ظاهر می شود.
نمودار صحنه یک نمایش توپولوژیکی است که اشیاء و روابط آنها را در یک صحنه بصری رمزگذاری می کند. به طور خلاصه، وظیفه تولید گراف صحنه، ساختن یک ساختار گرافیکی است که گره‌ها و لبه‌های آن با موجودیت‌ها و روابط تصویر ورودی مرتبط هستند، به‌گونه‌ای که به جای اینکه صرفاً با یک تصویر به‌عنوان مجموعه‌ای از اشیاء برخورد کنیم، درک را در مورد صحنه عمیق‌تر کنیم. از یکدیگر جدا شده اند [ 66 ].
از منظر نمودار صحنه G ، یک تصویر I از مجموعه گره B و مجموعه لبه E تشکیل شده است ، که در آن این گره های رابطه ای از نظر معنایی با موضوع S و شی O مطابقت دارند . ستوبjهجتیپrهدمنجآتیهoبjهجتیسه قلو، به ترتیب. علاوه بر این، R توسط روابط معنایی برچسب‌گذاری شده با محمولات تعاملی بین موضوعات و اشیاء شکل می‌گیرد. بنابراین، تولید نمودار صحنه را می توان به صورت زیر توصیف کرد:

پجی،من=پب|منپاس،O|ب،منپآر|اس،O،من.
برخلاف نمودار R-CNN [ 66 ]، ما TransE [ 29 ] را برای محاسبه امتیازات رابطه بین گره ها در صحنه های بصری برای هرس کردن اتصالات بی معنی معرفی می کنیم. علاوه بر این، با توجه به تغییرات شدید مقیاس موجودیت و نسبت ابعاد در میدان سنجش از دور، مکانیسم پیچیدگی گشاد شده به مدل پیچیدگی گراف برای پالایش و پخش اطلاعات معنایی صحنه‌های سنجش از دور در مقیاس‌های مختلف معرفی می‌شود. چارچوب پیشنهادی در این مقاله می‌تواند محتوای معنایی به‌دست‌آمده را به‌طور کامل یکپارچه کند و روابط معنایی بالقوه بین گره‌ها را به‌طور مؤثر پیش‌بینی کند. در نتیجه، روش ما به طور طبیعی برای درک تصویر سنجش از دور مناسب است.
همانطور که در شکل 2 نشان داده شده است، سه ماژول فرعی در MSFN ما وجود دارد .
  • شبکه تشخیص اشیا تکه های هدف با دسته های اولیه خود توسط این چارچوب تشخیص از تصاویر ورودی شناسایی می شوند. به طور کلی، مناطق با گروهی از جعبه های مرزی یک به یک مشخص می شوند. جزئیات در شکل 3 نشان داده شده است.
  • شبکه استخراج رابطه پراکنده (SREN). این ماژول برای محاسبه و مرتب‌سازی نمرات روابط بین همه جفت گره‌ها (جعبه قرمز نشان‌دهنده موضوع و کادر آبی نشان‌دهنده شی) طراحی شده است تا جفت‌های گره همبستگی نامعتبر یا ضعیف را حذف کند تا ترکیب‌های معنایی سوژه‌ها و اشیا را روشن کند.
  • شبکه کانولوشن گراف چند مقیاسی (MS-GCN). بر اساس جفت‌های گره انتخاب شده با ارتباط معنایی قوی، اطلاعات زمینه‌ای چند مقیاسی در صحنه بصری منتشر شده و برای استنتاج مقوله‌های روابط ترکیب می‌شود و در نهایت یک نمودار صحنه تولید می‌شود.

3.1.1. شبکه تشخیص اشیا

برای مقایسه منصفانه با روش‌های کلاسیک موجود [ 39 ، 42 ، 66 ]، این مقاله از معماری عمومی تشخیص شی [ 35 ] برای شناسایی موجودیت‌ها و استخراج ویژگی‌های بصری استفاده می‌کند. از شکل 3 می‌توانیم برای هر تصویر I ، گروهی از نقشه‌های ویژگی ابتدا توسط عملیات کانولوشن در شبکه ستون فقرات استخراج می‌شوند که چارچوب آن در جدول 1 توضیح داده شده است. سپس بر اساس ویژگی‌های استخراج‌شده، ادغام شبکه پیشنهادی منطقه (RPN) و منطقه مورد علاقه (ROI) مجموعه‌ای از جعبه‌های مرزی را پیش‌بینی می‌کنند. ب={ب1،ب2،،بسی}، C تعداد موجودیت های موجود در I است. در نهایت، تمام جعبه های محدود کننده توسط Softmax طبقه بندی می شوند. برای هر پیشنهاد بمنب، مربوط به یک بردار ویژگی است fمنآرن×1و یک بردار احتمال لمنآر1×Yاز برچسب گره اولیه، و Y تعداد دسته ها است.
شکل 3. نمای کلی شبکه تشخیص اشیا.
لازم به ذکر است که این دسته بندی گره های اولیه پیش بینی شده توسط شبکه تشخیص اشیا عمدتاً برای غربالگری روابط بالقوه در بخش 3.1.2 استفاده می شود و برچسب های گره نهایی از طریق تعامل و ادغام زمینه چند مقیاسی در بخش 3.1.3 تعیین خواهند شد. علاوه بر این، fمنبرای پالایش بعدی اطلاعات معنایی چند مقیاسی اعمال خواهد شد.

3.1.2. شبکه استخراج رابطه پراکنده

اگرچه تصاویر سنجش از دور معمولاً مقیاس بزرگ و ساختار فضایی پیچیده ای دارند [ 67 ]، اما همه موجودیت ها به یکدیگر مرتبط نیستند و روابط بین آنها به طور کلی پراکنده است [ 66 ]. علاوه بر این، اگر یک تصویر شامل موجودیت های C باشد، پسسی(سی1)جفت گره های نامزد ایجاد خواهد شد. علاوه بر این، تصاویر سنجش از دور اغلب شامل تعداد زیادی اشیاء زمینی هستند، اگر روابط همه جفت ها پیش بینی شود، هزینه محاسبات بدون شک بسیار زیاد خواهد بود.
می توان آن را به وضوح در شکل 4 نشان دادکه اگر موجودیت‌ها به یک صحنه معنایی خاص تعلق داشته باشند (مثلاً «فرودگاه»، «زمین گلف»، «لنگرگاه»)، با هم جمع می‌شوند، در غیر این صورت، از یکدیگر دور می‌مانند (مانند «هواپیما»، «کشتی») . علاوه بر این، گره‌هایی با روابط معنایی زیربنایی در همان صحنه بسیار نزدیک‌تر می‌شوند، مانند «درخت» و «علف»، «هواپیما» و «پیاده‌رو»، «کشتی» و «آب». بر اساس تجزیه و تحلیل فوق، ابتدا امتیازات رابطه گره را در صحنه بصری محاسبه می کنیم، سپس این امتیازات را به ترتیب نزولی رتبه بندی می کنیم و در نهایت 70 درصد برتر از همه جفت ها را به عنوان روابط نامزد انتخاب می کنیم. هدف از انجام این کار، حذف لبه های نامعتبر و تضعیف تداخل آنها در شناخت روابط معنایی ارزشمند است، که برای بهبود کارایی و دقت ساخت و ساز تولید صحنه بسیار مهم است.
فرآیند محاسباتی امتیاز رابطه معنایی را می توان به صورت زیر تعریف کرد:

د=σ(frتیدبلیو(دبلیوofoدبلیوسfس)).

جایی که σیک تابع غیر خطی است. fس، foو fr آرن×1ویژگی های بصری سوژه، ابژه و رابطه (اتحاد موضوع و ابژه) است. دبلیوس، دبلیوo آرم×نو دبلیوآرن×مبه ترتیب ماتریس های تبدیلی هستند که باید یاد بگیرند.

با الهام از ترجمه بین ویژگی‌های بصری و روابط معنایی در VTransE [ 39 ]، ما ویژگی‌های بصری و تعبیه‌های معنایی گره‌ها را در یک فضای بالقوه همانطور که در شکل 5 نشان داده شده است ، ترسیم می‌کنیم، و محدودیت نگاشت توسط معادله ( 3 ) انجام می‌شود. برای اندازه گیری دقیق تر نمرات رابطه معنایی مفید است.

Lمترآپ=(س،o)(اس،O)دبلیوسfسدبلیوofo+vovس22.

جایی که vس، vo آرم×1برچسبی هستند که به ترتیب نمایش های موضوع و شی را در خود جای داده اند، .22نشان می دهد L2ضرر – زیان.

3.1.3. شبکه کانولوشن گراف چند مقیاسی

با توجه به تنوع آشکار اندازه موجودیت و توزیع فضایی در میدان سنجش از دور، اشیاء زمینی ممکن است معنای متفاوتی را با توجه به یک سری مقیاس‌های شناختی در صحنه سنجش از دور ارائه دهند [ 67 ، 69 ].
از شکل 6 می توان دریافت که با افزایش نرخ گشاد شده، که به فاصله بین دو نورون مجاور هسته کانولوشن اشاره دارد، میدان پذیرنده به طور تصاعدی رشد می کند. علاوه بر این، پیچیدگی گشاد شده [ 24 ] زمانی به پیچیدگی سنتی تبدیل می‌شود که نرخ گشاد شده برابر با 1 باشد. نتایج تجربی نشان می‌دهد که ادغام اطلاعات زمینه چند مقیاسی با اتخاذ کانولوشن گشاد شده [ 24 ] می‌تواند دقت وظایف تقسیم‌بندی معنایی را بدون افزایش قابل‌توجهی افزایش دهد. پارامترها و هزینه محاسبه [ 70 ]. دلیل این امر این است که پیچش خاص میدان گیرنده را بدون از دست دادن وضوح گسترش می دهد [ 71 ].
بر اساس تجزیه و تحلیل های فوق، ما معتقدیم که عملیات اتساع همچنین می تواند به تنظیم زمینه دریافتی بافت معنایی کمک کند. بنابراین، یک شبکه کانولوشن گراف چند مقیاسی جدید در این مقاله با معرفی کانولوشن متسع [ 24 ] پیشنهاد شده است. در این ساختار، زمینه‌های معنایی از سطوح مختلف با تنظیم نرخ‌های متسع متناظر، که کلید گسترش دیدگاه شناختی مدل ما و تقویت توانایی آن در درک صحنه‌های سنجش از دور است، در تعامل هستند. در این مقاله، ما همسایگان را در سطوح مختلف شناختی با تطبیق نرخ گشاد شده با فاصله رد شده بین گره‌ها جمع‌بندی می‌کنیم و عملیات خاص در شکل 7 نشان داده شده است.
همانطور که در شکل 7 نشان داده شده است ، در سطح اول، مجموعه لبه در تعامل با گره است n0است {r0،r1،r2،r3،r4}، و مجموعه گره مربوط به n0است {n1،n2،n3،n4،n5}. در سطح دوم، مجموعه لبه با n0است {r5،r6،r7}و مجموعه گره در حال تعامل با n0است {n6،n7،n8}. به طور مشابه، در سطح اول، مجموعه گره با لبه متصل می شود r1است {n0،n2}. در سطح دوم، مجموعه گره در تعامل با r1است {n1،n3،n4،n5،n7}.
در وظایف بینایی کامپیوتر، یکی از مسائل مهم استخراج ویژگی های بصری و طبقه بندی آنهاست. با توجه به اینکه موجودیت‌های موجود در تصاویر سنجش از دور بزرگ همیشه به‌طور ناهموار توزیع می‌شوند و به راحتی با یکدیگر اشتباه گرفته می‌شوند، بنابراین تحقیقات فوق در پردازش تصویر سنجش از دور حیاتی‌تر است. اخیراً، مکانیسم توجه مبتنی بر یادگیری عمیق [ 72 ] به عنوان یک راه حل عالی با درک ویژگی های سطح شی برای نشان دادن اطلاعات معنایی اصلی در صحنه های سنجش از دور در نظر گرفته می شود. به عنوان مثال، [ 21 ] از یک شبکه عصبی با مکانیسم توجه به خود برای جاسازی زمینه از طریق ساخت یک ماتریس مجاورت بر اساس موقعیت فضایی موجودیت ها استفاده کرد. یک شبکه نمودار توجه [ 73]، یک شبکه گراف توجه برای تولید نمودار صحنه به طور مستقیم از لایه بالایی یک ترانسفورماتور از پیش آموزش دیده پیشنهاد شده است، که مدل می تواند اطلاعات ویژگی و اتصال گره گراف را به طور همزمان بدست آورد.
با این حال، به دلیل ارائه پیچیده صحنه سنجش از دور، روش‌های توجه سنتی معمولاً نسبت به برخی از موجودات نامحسوس اما معنادار در پردازش تصاویر سنجش از دور حساس می‌شوند [ 27 ]. بنابراین، یکپارچه سازی اطلاعات محلی و جهانی برای بهبود دقت تشخیص ضروری است. در این مقاله، مکانیسم توجه وزن‌های متناظر را به مناطق مختلف تصویر اختصاص می‌دهد و مدل را به تمرکز بر روی اطلاعات زمینه در محدوده معنایی خاص هدایت می‌کند.
به منظور هدایت رویکرد ما به تمرکز کامل بر بافت معنایی در سطح خاص k ، ک=1،2،...،کK حداکثر نرخ گشاد شده است)، ما مکانیسم توجهی را معرفی می کنیم تا شبکه را به طور تطبیقی ​​اطلاعات را از گره ها و روابط همسایه تشخیص دهد. را jهفتموزن توجه گره مرتبط با توهفتمگره به صورت زیر بیان می شود:

αتوjک=انقضا(ϕ(آتی[ωfتو،ωfj]))nنتوکانقضا(ϕ(آتی[ωfتو،ωfn])).

جایی که نتوکمجموعه همسایه است توتیساعتگره در سطح k . ϕو [.]به ترتیب عملیات فعال سازی و الحاق غیر خطی ReLU هستند، A به پارامترهای توجه یک شبکه عصبی پیشخور تک لایه اشاره دارد. ωآرن×نیک ماتریس وزنی است که باید یاد گرفت.

یک شبکه کانولوشن گراف [ 74 ] برای درک صحنه ساخته شده است تا به طور مشترک ویژگی های موجودیت و معناشناسی رابطه ای را شناسایی کند. در این روش، برای نمایش مؤثر روابط معنایی، یک رمزگذار بصری برای تولید تعبیه‌های روابط متمایز و آگاه از نوع طراحی شده است، که هم توسط اطلاعات قبلی زبان و هم با اطلاعات زمینه محدود می‌شوند. با توجه به اتصال پراکنده نمودار صحنه، یک شبکه پیچیدگی گراف توجه (AGCN) [ 66 ] برای بهینه‌سازی ویژگی‌های بصری و بازنمایی‌های رابطه در میان همسایگان با عبور بافت معنایی در سراسر ساختار نمودار پیاده‌سازی می‌شود.
از نظر تعامل و ادغام اطلاعات معنایی در سطوح مختلف، ما همچنین از GCN برای به روز رسانی بافت گره استفاده می کنیم. ساعتمنو زمینه رابطه ساعتrبه طور مکرر، و فرآیند پالایش خاص به شرح زیر است:

ساعتمن0=fمن،
ساعتمنتی+1=ک=1کδ(1سیمنکvjنمنکvαمنjکدبلیوvکساعتj+1سیمنکهمترنمنکهαمنمترکدبلیوهکساعتمتر)+ساعتمنتی.

جایی که نمنکvمجموعه گره مجاور گره i در است کهفتممرحله، سیمنکvتعداد مجموعه گره است. نمنکهمجموعه روابط همسایه گره i در است کهفتمسطح، و سیمنکهتعداد عناصر است. دبلیوvو دبلیوهپارامترهای نقشه برداری هستند که باید یاد بگیرند. ساعتمن0توسط ویژگی بصری اصلی مقداردهی اولیه می شود fمنوقتی قدم تی=0δیک تابع غیر خطی است.

ساعتr0=fr،
ساعتrتی+1=ک=1کδ(1سیrکvqنrکvαrqکدبلیوvکساعتq)+ساعتrتی.

جایی که نrکvمجموعه گره همسایه رابطه r در است کهفتمسطح، و سیrکvتعداد این مجموعه است. ساعتr0توسط ویژگی بصری اصلی مقداردهی اولیه می شود frرابطه r در هنگام گام تی=0، یعنی ویژگی بصری منطقه اتحاد بین موضوع و شی که r مطابقت دارد.

برچسب پیش بینی شده رابطه معنایی با معادله زیر فرموله می شود:

rسo=سofتیمترآایکس(φ([ساعتoساعتس،ساعتسo])).

جایی که ساعتس،ساعتoساعتمناطلاعات زمینه موضوع و شی با رابطه معنایی بالقوه است که توسط شبکه استخراج روابط پراکنده غربال شده است، و ساعتسoساعتrزمینه رابطه است. φیک پرسپترون چند لایه است.

در این مرحله تابع از دست دادن آنتروپی متقابل Lrهلبرای بهینه سازی فرآیند استدلال رابطه استفاده می شود:

Lrهل=(س،o)(اس،O)rسoورود به سیستمrسo.

جایی که rسoبرچسب حقیقت پایه رابطه r است. S و O مجموعه موضوع و مجموعه شی مرتبط با تصویر ورودی هستند.

برچسب گره پیش بینی شده را می توان به صورت زیر نشان داد:

پمن=سofتیمترآایکس(τ([fمن،ساعتمن])).

جایی که fمنو ساعتمنبه ترتیب ویژگی بصری و بافت معنایی گره i هستند. τیک پرسپترون چند لایه است.

به طور مشابه، تابع از دست دادن آنتروپی متقابل Lجلسبرای بهینه سازی فرآیند پیش بینی برچسب گره اعمال می شود:

Lجلس=من=1سیپمنورود به سیستمپمن.

جایی که پمنبرچسب حقیقت پایه گره i است و C تعداد موجودات موجود در تصویر I است.

تابع ضرر کلی روش ما را می توان به صورت زیر توصیف کرد:

L=ω1Lجلس+ω2Lمترآپ+ω3Lrهل.

جایی که ω1،ω2و ω3هایپر پارامترها هستند.

3.2. مجموعه داده نمودار صحنه برای تصویر سنجش از راه دور

هدف بلندمدت بینایی کامپیوتری ایجاد یک سری مدل‌ها است که می‌توانند اطلاعات بصری داخل یک صحنه را به طور مستقیم تشخیص دهند و سرنخ‌های معنایی نامرئی را با زیرکی از بافت بصری استنتاج کنند. از نظر تکنیک‌های فعلی هوش مصنوعی، عملکرد مدل مربوطه هنوز به شدت به دانش آموخته‌شده از مجموعه داده‌های حاشیه‌نویسی بستگی دارد. دسترسی روزافزون به حجم زیادی از داده ها، توسعه سیستم های هوشمند را هدایت می کند، که زیربنای پیشرفت در درک صحنه تصویر است. علاوه بر این، برای تعمیق توانایی استنتاج مدل به دنیای بصری، لازم است ظرفیت‌های تشخیص اشیا و استدلال تعاملی آن با تجربه شناخت انسانی تکمیل شود [ 49 ]]. مجموعه داده های برچسب گذاری شده در مقیاس بزرگ برای وظایف خاص، کلید ایجاد شبکه بینایی کامپیوتری است. با این حال، در زمینه سنجش از دور، هنوز هیچ مجموعه داده نمودار صحنه موجود وجود ندارد. اگر یک مدل موجود از مجموعه داده اصلی به دیگری بدون زمینه آشنا منتقل شود، عملکرد آن به طور چشمگیری کاهش می یابد یا حتی کار نمی کند [ 23 ].
با توجه به تحلیل های فوق، به منظور بهبود تحقیق در مورد درک صحنه سنجش از دور و باز کردن کانال بین ادراک ویژگی و شناخت رابطه، مجموعه داده نمودار صحنه برای تصویر سنجش از دور -RSSGD- در این مقاله بر اساس جملات ارائه شده است. در RSICD [ 23 ]. RSSGD از برچسب‌های گره (به عنوان مثال، “چمنزار”، “جاده”)، ویژگی‌ها (به عنوان مثال، “بزرگ”، “سبز”) موجود در محتوای توصیفی اصلی، مختصات منطقه و روابط (به عنوان مثال، “کنار”، تشکیل شده است. “دارا”، “in”) بین گره ها.
RSSGD یک پلت فرم یادگیری چند سطحی برای تصاویر سنجش از راه دور فراهم می کند. به عبارت دیگر، این مجموعه داده از مطالعات چند بعدی در بینایی کامپیوتر پشتیبانی می کند. با افزایش قابلیت تشخیص گره ها و ارتقای سطح شناختی در روابط تعاملی، مدل های آموزش دیده در RSSGD به درک سیستماتیک تری از صحنه های سنجش از دور دست خواهند یافت.
قوانین دقیق ساخت و ساز به شرح زیر است:
  • اگر بیش از یک توصیف از رابطه در یک جفت گره وجود داشته باشد، توصیفی که با صحنه تصویر واقعی یا با بیشترین فراوانی وقوع مطابقت دارد انتخاب خواهد شد.
  • برچسب باید به صورت مفرد باشد. با این حال، برای توصیف های متعدد، مانند “برخی سطوح”، راه حل این است: “بعضی” نشان دهنده ویژگی و “صفحه” نشان دهنده برچسب است. به طور مشابه، “دو ماشین” به عنوان دو گره با برچسب “ماشین” در نظر گرفته می شود که در نمایش بصری با “car_1” و “car_2” قابل تشخیص هستند.
  • برای حفظ جهانی بودن و گسترش‌پذیری حاشیه‌نویسی‌ها، اگر برچسب‌های یک نوع موجودیت‌ها متفاوت باشند، برچسبی که بیشتر با محتوای تصویر واقعی یا با بیشترین فراوانی وقوع مطابقت دارد، غالب خواهد بود. به عنوان مثال، “ساختمان اداری” و “ساختمان تجاری” در مجموع “ساختمان” نامیده می شود و “باند فرودگاه” به عنوان “باند فرودگاه” بیان می شود.
RSSGD یک مجموعه داده گراف صحنه سنجش از دور است که بر اساس جملات توصیفی RSICD ساخته شده است. با این حال، علاوه بر این عبارات توصیفی، RSSGD به اندازه کافی صحنه های معنایی عملی تصاویر را در طول فرآیند ساخت در نظر می گیرد. بنابراین، تعداد موجودیت‌ها و دسته‌ها در دو مجموعه داده کاملاً مطابقت ندارند. علاوه بر این، برای جلوگیری از تناسب بیش از حد مدل‌های آموزش‌دیده در روابط با فرکانس بالا، ما همیشه عمداً آن روابط غیرمعمول با ارزش شناختی عمیق را برای یک صحنه خاص استخراج می‌کنیم. هدف RSSGD حذف فضای خالی معنایی بین ادراک و شناخت و حمایت از تحقیق درک صحنه سنجش از دور است.

3.2.1. آمار و تجزیه و تحلیل

در این بخش، بینش و تجزیه و تحلیل آماری را برای مجموعه داده پیشنهادی خود -RSSGD ارائه می‌کنیم. به طور خاص، ابتدا یک نمودار صحنه را به سه مؤلفه تقسیم می کنیم – دسته ها، ویژگی ها و روابط – و سپس تعداد یا درصد توزیع هر قسمت را به صورت جداگانه مطالعه می کنیم. بر اساس این نتایج آماری، ما می‌توانیم به دقت تجزیه و تحلیل کنیم که آیا مجموعه داده‌های ما موجودیت‌های معمولی و روابط لازم بین آنها را پوشش می‌دهد یا خیر. علاوه بر این، ما همچنین می توانیم به وضوح مشاهده کنیم که آیا نوسان توزیع بیش از حد است. اگر این نتایج آماری انتظارات را برآورده نکند، ما اقدامات مناسبی را برای بهینه سازی RSSGD انجام خواهیم داد، مانند کاوش در دسته های گمشده از تصاویر سنجش از راه دور تا حد امکان. علاوه بر این،
از شکل 8 و شکل 9 ، به راحتی می توان دریافت که RSSGD دسته بندی های معمول (به عنوان مثال، “درخت”، “ساختمان”، “جاده”)، ویژگی ها (به عنوان مثال، “سبز”، “طولانی”، “آبی”) را پوشش می دهد. و روابط (به عنوان مثال، “در اطراف”، “در”، “کنار”) در تصاویر سنجش از دور. علاوه بر این، توزیع درصد بدون نوسانات شدید نسبتاً متعادل است و حداکثر شکاف کمتر از 4٪ است که در شکل 9 نشان داده شده است. بنابراین، مدل‌های آموزش‌دیده شده در RSSGD می‌توانند روابط فرکانس بالا (به عنوان مثال، “نزدیک”، “روشن”) و روابط فرکانس پایین (مانند، “در امتداد”، “پوشش”) را به‌طور مساوی بدون تبعیض رفتار کنند. هدف این امر کاهش عملکرد مغرضانه مدل است که ناشی از تفاوت های کمی بزرگ بین روابط است.75 ].
به طور خاص، به منظور بهبود توانایی مدل در شناسایی موجودیت ها، ما به اطلاعات قابل تشخیص مانند شکل و رنگ توجه بیشتری می کنیم. متاثر از رنگ‌های اصلی شکل‌های زمین واقعی و تصاویر سنجش از دور ماهواره‌ای، تعداد «سبز» و «سفید» نسبتاً زیاد است و پس از آن رنگ «خاکستری» و «قرمز» کمترین موارد را دارد که اساساً با وضعیت واقعی از نظر روابط، برای به دست آوردن درک عمیق‌تر از صحنه‌های سنجش از راه دور، ما بیشتر بر تعاملات (به‌عنوان “محافظه” و “از طریق”) بین موجودیت‌ها تمرکز می‌کنیم. از آنجایی که اطلاعات جهت از تصویر سنجش از دور همیشه واضح نیست [ 23 ]، ما آن روابطی را که جهت گیری را نشان می دهند (مانند چپ، راست) تعریف نکرده ایم.

3.2.2. بازنمایی بصری

با ترکیب دسته‌ها، جعبه‌های ناحیه، ویژگی‌ها و روابط مرتبط با موجودیت‌ها در یک تصویر سنجش از راه دور، می‌توانیم یک نمایش گراف جهت‌دار برای درک صحنه همانطور که در شکل 10 ب نشان داده شده است، ایجاد کنیم، که یک نمایش ساختار یافته از تصویر در شکل 10 a است. پیوندهایی که دو گره را در شکل 10 ب به هم وصل می کنند همیشه از یک موضوع شروع می شوند و به شی مرتبط ختم می شوند. در خطی که 2 موجودیت (موضوع و شی) را به هم پیوند می دهد، یک رابطه معنایی مانند “شامل”، “کنار” مربوط به آن وجود دارد. ویژگی ها نیز مانند بیضی های آبی در شکل 10 به موجودیت های موجود در نمودار متصل می شوند.ب با تصاویر و نمودارهای مربوطه، RSSGD ما نه تنها برای آموزش آن دسته‌بندی و مدل‌های تشخیص، بلکه برای الگوریتم‌های تولید نمودار صحنه نیز قابل استفاده است.
علاوه بر این، RSSGD همچنین می‌تواند تحقیقات در مورد توصیف منطقه را به دلیل این حاشیه‌نویسی‌های نسبتاً خوب، مانند کادر محدود، رابطه، ویژگی، و غیره بهبود بخشد . و «چمنزار سبز است»)، و اطلاعات معنایی فراوان تری («خانه خاکستری در کنار چمنزار سبز است») را می توان با اتصال آنها از طریق رابطه تعاملی آنها («کنار») به دست آورد.
به طور خلاصه، این کار با ساخت مجموعه داده‌های نمودار صحنه، به سمت درک جامع‌تری از تصاویر سنجش از دور سوق می‌دهد، که از آن می‌توانیم نه تنها حاشیه‌نویسی‌های دسته‌بندی سطح پایین، بلکه بازنمایی‌های معنایی سطح بالا مانند ویژگی‌ها و روابط را ثبت کنیم.

4. نتایج و بحث

4.1. تنظیم آزمایش

  • مجموعه داده ها برای تأیید تعمیم و سازگاری روش پیشنهادی به طور کامل، آزمایش‌هایی را روی مجموعه داده‌های RSSGD و VG [ 49 ] انجام می‌دهیم. VG [ 49 ] یک معیار محبوب برای تولید نمودار صحنه در زمینه تصاویر طبیعی است. این شامل 108077 تصویر با هزاران گره منحصربه‌فرد و دسته‌های رابطه است، اما بیشتر این دسته‌ها نمونه‌های بسیار محدودی دارند. بنابراین، کارهای قبلی [ 40 ، 75 ، 76 ] تقسیم بندی های مختلف VG [ 49 ] را برای حذف دسته های نادر پیشنهاد کردند. ما محبوب‌ترین مورد را از IMP انتخاب می‌کنیم [ 40]، که 150 دسته شیء برتر و 50 دسته روابط برتر را بر اساس فرکانس انتخاب می کند. کل مجموعه داده به ترتیب 70٪، 30٪ به مجموعه آموزشی و مجموعه آزمایشی تقسیم می شود.
  • وظایف _ با توجه به یک تصویر، وظیفه تولید نمودار صحنه، مکان یابی مجموعه ای از گره ها، طبقه بندی برچسب های دسته آنها و پیش بینی رابطه بین هر جفت گره است. ما مدل خود را در سه کار فرعی ارزیابی می کنیم.
    وظیفه فرعی طبقه بندی گزاره ها ( PredCls ) پیش بینی محمول های همه روابط زوجی است. این کار فرعی فقط عملکرد مدل را در طبقه بندی گزاره جدا از عوامل دیگر تأیید می کند.
    وظیفه فرعی طبقه‌بندی نمودار صحنه ( SGCls ) پیش‌بینی گزاره و همچنین دسته‌های گره موضوع و مفعول در هر رابطه زوجی با توجه به مجموعه‌ای از گره‌های موضعی است.
    وظیفه فرعی تولید نمودار صحنه ( SGGen ) شناسایی همزمان مجموعه ای از گره ها و پیش بینی محمول بین هر جفت گره شناسایی شده است.
  • متریک ارزیابی مدل‌های قبلی مانند IMP [ 40 ]، VTransE [ 39 ] و Motifs [ 42 ] از روش سنتی استفاده می‌کنند.آرهجآلل(ایکس)آر@ایکس) به عنوان متریک ارزیابی، که کسری از زمان هایی را محاسبه می کند که روابط به درستی در پیش بینی های بالای X رابطه مطمئن استدلال شده اند. با این حال، به دلیل حاشیه نویسی ناقص و انحراف ذهنی، مجموعه داده نمودار صحنه معمولاً دارای مشکل دنباله های بلند است [ 75 ]، که منجر به ارائه مدل برای روابط با فرکانس بالا می شود، اما نسبت به روابط فرکانس پایین غیر حساس است. برای پرداختن به این مشکل، ما میانگین را اتخاذ می کنیم آرهجآلل@ایکسمترآر@ایکس) به عنوان معیار ارزیابی این مقاله به جای آر@ایکس. با پیمایش هر رابطه به طور جداگانه و میانگین گیری آر@ایکساز همه روابط، مترآر@ایکسبرای کاوی روابط معنایی صحنه های خاص موثرتر است و می تواند به صورت زیر محاسبه شود:

    آرهجآلل=تیپتیپ+افن.

    جایی که تیپ، افنبه ترتیب اعداد مثبت درست و منفی کاذب هستند.

    مترآر@ایکس=1ایکسایکس=1ایکسآرهجآلل(ایکس).

    جایی که آرهجآلل(ایکس)نرخ فراخوانی است ایکستیساعترابطه مطمئن

4.2. جزئیات پیاده سازی

به دنبال کارهای کلاسیک [ 40 ، 42 ] تولید نمودار صحنه، R-CNN سریعتر [ 35 ] را اتخاذ کردیم.] به عنوان خط پایه مبتنی بر پلتفرم Pytorch برای شناسایی جعبه های محدود کننده منطقه و استخراج ویژگی های اولیه. ما آشکارساز را روی مجموعه داده هدف با استفاده از بهینه‌ساز گرادیان تصادفی (SGD) با اندازه دسته‌ای 20، تکانه 0.9 و کاهش وزن 0.0001 آموزش می‌دهیم. نرخ یادگیری به صورت 0.001 مقداردهی اولیه می شود و در هر دوره بر 10 تقسیم می شود تا زمانی که عملکرد اعتبارسنجی همگرا شود. پس از آن، وزن تمام لایه‌های کانولوشن را در شبکه تشخیص شی و ماژول استدلال رابطه قطار با استفاده از بهینه‌ساز Adam با اندازه دسته‌ای 10 منجمد می‌کنیم. در این فرآیند، نرخ یادگیری را به 0.0001 مقداردهی اولیه می‌کنیم. در طول آموزش، ابتدا از 256 جعبه پیشنهاد منطقه تولید شده توسط RPN نمونه برداری می کنیم و سپس برای هر کلاس با آستانه تقاطع بیش از اتحادیه (IoU) 0.4، سرکوب غیر حداکثری (NMS) را انجام می دهیم. هنگام آزمایش، ما 128 منطقه پیشنهادی را نمونه برداری کردیم و آستانه IoU را 0.7 تعیین کردیم. حداکثر میزان گشاد شدنK 3 است. ω1= 0.2، ω2= 0.3، ω3= 0.5. علاوه بر این، حداکثر تعداد t در تکرارهای زمینه 4 است.

4.3. مقایسه مدل ها

ما مدل خود را با چندین روش تشخیص رابطه بصری مقایسه می کنیم:
  • IMP [ 40 ]: این روش پیام ها را بین زیرگراف اصلی و دوگانه در امتداد توپولوژی نمودار صحنه تکرار می کند. علاوه بر این، عملکرد پیش‌بینی را با ترکیب نشانه‌های متنی بهبود می‌بخشد.
  • VTransE [ 39 ]: این مدل شبکه TransE [ 29 ] را برای استنتاج روابط بصری گسترش می دهد. در VTransE [ 39 ]، موضوع و هدف شناسایی شده در یک فضای نمایش مشترک نگاشت می شوند و رابطه آنها به عنوان یک بردار ترجمه برای تولید نمودار صحنه تبدیل می شود.
  • موتیف ها [ 42 ]: یک مدل سه مرحله ای شامل پیش بینی های مربوط به مناطق مرزی، مقوله های منطقه و روابط معنایی. زمینه کلی در هر فاز از طریق یک حافظه کوتاه مدت دو طرفه (LSTM) [ 77 ] محاسبه می شود و سپس برای مراحل بعدی استفاده می شود.
  • نمودار R-CNN [ 66 ]: بر اساس شبکه کانولوشن گراف، این مدل به طور موثر از نظم های رابطه ای برای استدلال هوشمندانه بر روی نمودارهای صحنه کاندید برای تولید نمودار صحنه استفاده می کند.
  • دانش تعبیه شده [ 78 ]: برای مقابله با مشکل توزیع نامتعادل روابط، این مدل از همبستگی های آماری بین جفت گره ها به عنوان مقدمات معرفی شده برای تولید نمودار صحنه استفاده می کند.
  • VCTree [ 75 ]: این مدل یک ساختار درختی پویا را برای به تصویر کشیدن زمینه بصری یک کار خاص پیشنهاد می کند. علاوه بر این، از آنجا که ساخت VCTree [ 75 ] می تواند به طور مستقل انجام شود و ماتریس کسری قابل تمایز نیست، یک استراتژی یادگیری ترکیبی نیز پیشنهاد شده است.

4.4. نتایج تجربی و بحث

نتایج کمی در جدول 2 و جدول 3 ذکر شده است. به دلیل معرفی ماژول هرس رابطه‌ای و شبکه کانولوشن گراف، Graph R-CNN [ 66 ] می‌تواند نرخ‌های یادآوری بالاتری نسبت به Motifs [ 42 ] ایجاد کند. در مدل جاسازی شده دانش [ 78 ]، یک شبکه گراف خاص برای انتشار ویژگی‌های گره‌ها برای مقابله با چالش حاشیه‌نویسی‌های ناهموار استفاده می‌شود، بنابراین این مدل پیشرفت خاصی در مترآر@کدر مقایسه با نمودار R-CNN [ 66 ]. بر اساس ساختار درختی منحصر به فرد، VCTree [ 75 ] برای روابط سلسله مراتبی تبعیض آمیزتر است و می تواند به خوبی به تغییر تم صحنه پاسخ دهد. در نتیجه، این روش مزایای آشکاری در تولید نمودار صحنه دارد.
در مجموعه داده VG [ 49 ]، اگرچه مدل ما کمتر از VCTree [ 75 ] در مترآر@20، مدل ما بهترین عملکرد را در مترآر@100. این نشان می‌دهد که روش پیشنهادی در این مقاله می‌تواند روابط فرکانس پایین را با شدت بیشتری نسبت به مدل‌های دیگر تشخیص دهد، که برای درک بیشتر صحنه‌های معنایی با روابط متنوع و خاص ضروری است. در RSSGD، مزایای مدل ما حتی برجسته تر است. همانطور که در جدول 3 نشان داده شده است ، روش ما عملکرد فوق العاده ای در استدلال روابط معنایی تصاویر سنجش از دور دارد.
علاوه بر این، نتایج مطالعات فرسایش نشان می دهد که همه زیر ماژول ها در MSFN می توانند به خوبی کار کنند. در میان آنها، معرفی شبکه استخراج روابط پراکنده هر متریک را به طور متوسط ​​2٪ بهبود می بخشد. عمدتاً به این دلیل است که این ساختار می تواند به طور مؤثر لبه های بی معنی بین گره ها را قطع کند و از تداخل با شناخت بافت معنایی ارزشمند به دلیل انتقال اطلاعات نامعتبر جلوگیری کند. قابل ستایش است که شبکه کانولوشن گراف چند مقیاسی عملکرد کلی را به طور متوسط ​​4% بهبود می بخشد، که به طور کامل نشان می دهد که گسترش دید شناختی نقش فوق العاده ای در ارتقاء تولید نمودار صحنه سنجش از دور بازی می کند.
علاوه بر این، با مقایسه شکل 11 با شکل 12 ، می توان دریافت که:
  • RSSGD حاوی حاشیه نویسی های فراوانی است که مربوط به تصاویر سنجش از راه دور است که در شکل 12 نشان داده شده است، مانند بآrهلآnدآلongrمنvهr، بrمندgهآجroسسrمنvهr، roآدتیساعتroتوgساعتforهستیو غیره که نقشی بی بدیل در بهبود درک جامع و عمیق در صحنه های سنجش از دور دارند.
  • از شکل 11 به راحتی می توان دریافت که مدل ما می تواند روابطی را که برای یک صحنه خاص مناسب تر است، به دقت پیش بینی کند. به عنوان مثال، در شکل 11 e، خانه به شدت نزدیک به چمنزار است، و مدل ما دقیقاً “بعدی” را برای نشان دادن رابطه تعاملی بین آنها اعمال می کند. در مقابل، خانه دقیقاً نزدیک ماشین است اما مجاور آن نیست، بنابراین مدل ما به جای استفاده از «بعدی»، «نزدیک» را برای نشان دادن تفاوت انتخاب می‌کند. به همین ترتیب، در شکل 11ج، پل و جاده نازک و طولانی هستند، بنابراین “صلیب” می تواند به درستی تعامل بین آنها را منعکس کند. علاوه بر این، از آنجایی که رودخانه بسیار گسترده‌تر از جاده است، بنابراین روش ما به طرز ماهرانه‌ای از «در عرض» استفاده می‌کند تا بر رابطه بین پل و رودخانه از یک طرف به سمت دیگر تأکید کند. همه مثال‌ها روند واضحی را نشان می‌دهند که مدل ما به آن روابط آموزنده معنایی بسیار حساس‌تر است به جای روابط بی‌اهمیت.
  • مشابه کارهای قبلی در تجزیه نمودار صحنه [ 39 ، 42 ]، سریعتر R-CNN [ 35 ] به عنوان آشکارساز شی در همه آزمایش ها استفاده می شود. با این حال، این مدل نمی تواند به طور موثر ویژگی های بصری عمیق [ 66 ] را استخراج کند، که به طور اجتناب ناپذیری با پیش بینی در دسته بندی گره ها تداخل خواهد داشت. به عنوان مثال، در شکل 11 الف، درخت به طور نامناسب به عنوان “علفزار” شناسایی شده است، در نتیجه، تمام این روابط شناسایی شده مربوط به آن منفی در نظر گرفته می شود.

5. نتیجه گیری ها

در این مقاله، ما یک رویکرد جدید – MSFN – برای تولید نمودار صحنه سنجش از دور پیشنهاد می‌کنیم. در این چارچوب، ما SREN را که بر اساس نگاشت بین ویژگی‌های بصری و تعبیه‌های معنایی است، اتخاذ می‌کنیم تا از آلوده کردن بافت معنایی ارزشمند اطلاعات نامعتبر جلوگیری کنیم و کارایی ساخت نمودار صحنه را بهبود ببخشیم. علاوه بر این، برای مقابله موثر با ساختار و اندازه متنوع اشیاء زمینی، ما پیچش گشاد شده را به شبکه کانولوشن گراف معرفی کرده و MS-GCN را برای گسترش افق شناختی مدل خود پیشنهاد می‌کنیم. برای ترویج بیشتر تحقیق درک صحنه سنجش از دور، یک مجموعه داده رابطه جدید – RSSGD – در این مقاله پیشنهاد شده است که برای ایجاد ارتباط از درک ویژگی سطح پایین به شناخت معنایی سطح بالا استفاده می شود. این مجموعه داده تقریباً تمام موجودیت ها و روابط رایج در زمینه سنجش از دور را پوشش می دهد. علاوه بر این، برای جلوگیری از سوگیری نامتعادل عملکرد مدل، تفاوت کمیت معنی‌داری بین دسته‌های رابطه وجود ندارد. آزمایشات عظیمی بر روی VG [49 ] مجموعه داده و RSSGD، و نتایج نشان می‌دهند که رویکرد ما در پیش‌بینی روابط معنایی سنجش از دور به مزایای بسیار زیادی دست می‌یابد.
علاوه بر این، از شکل 9 a می توانیم دریابیم که روابط موجود در RSSGD نسبتا ساده هستند. به منظور بهبود بیشتر توانایی شناختی مدل در صحنه سنجش از دور، اطلاعات خصوصیات موجودیت ها (به عنوان مثال، اندازه، شکل، رنگ) را ترکیب می کنیم و فناوری ترکیب چند وجهی را در آینده برای استخراج محتوای معنایی ارزشمندتر معرفی می کنیم، که بسیار مهم است. برای تقویت درک در مورد تصاویر سنجش از دور.

مشارکت های نویسنده

مفهوم سازی، پنگ لی و دژنگ ژانگ. روش، پنگ لی و آزیگولی ولامو. نرم افزار، پنگ لی و پنگ چن. تحقیق، شین لیو و پنگ چن. نوشتن-پیش نویس اصلی، پنگ لی و شین لیو. نوشتن – بررسی و ویرایش، پنگ لی و پنگ چن. نظارت، دژنگ ژانگ؛ مدیریت پروژه، دژنگ ژانگ؛ کسب بودجه، دژنگ ژانگ، آزیگولی وولامو و شین لیو. همه نویسندگان نسخه منتشر شده نسخه خطی را خوانده و با آن موافقت کرده اند.

منابع مالی

این تحقیق تا حدی توسط برنامه تحقیق و توسعه کلید ملی چین تحت گرنت 2018YFC0823002، تا حدی توسط برنامه تحقیق و توسعه کلیدی منطقه خودمختار نینگشیا هوی (فناوری های کلیدی برای نظارت هوشمند برنامه ریزی فضایی بر اساس سنجش از راه دور با وضوح بالا پشتیبانی شد. ) تحت Grant 2019BFG02009، و بخشی توسط بنیاد ملی علوم طبیعت چین تحت Grant 61801019.

بیانیه هیئت بررسی نهادی

قابل اجرا نیست.

بیانیه رضایت آگاهانه

قابل اجرا نیست.

بیانیه در دسترس بودن داده ها

داده های ارائه شده در این مطالعه به درخواست نویسنده مسئول در دسترس است. داده‌ها به‌طور عمومی در دسترس نیستند، زیرا شامل درخواست بعدی حق اختراع، حق نسخه‌برداری نرم‌افزار و انتشار محصولات تحویلی پروژه می‌شوند و قرار است در آدرس زیر منتشر شوند: https://github.com/lpsunny/RSSGD (دسترسی در 10 ژوئن 2021). ).

تضاد علاقه

نویسندگان هیچ تضاد منافع را اعلام نمی کنند.

منابع

  1. دو، ز. لی، ایکس. Lu, X. یادگیری ساختار محلی در بازیابی تصویر سنجش از دور با وضوح بالا. محاسبات عصبی 2016 ، 207 ، 813-822 . [ Google Scholar ] [ CrossRef ]
  2. گو، ی. وانگ، کیو. Xie، B. نمایش پراکنده هسته چندگانه برای طبقه‌بندی داده‌های هوابرد LiDAR. IEEE Trans. Geosci. Remote Sens. 2017 , 55 , 1085–1105. [ Google Scholar ] [ CrossRef ]
  3. لو، ایکس. ژنگ، ایکس. یوان، ی. طبقه‌بندی صحنه سنجش از دور توسط آموزش بازنمایی بدون نظارت. IEEE Trans. Geosci. Remote Sens. 2017 , 55 , 5148–5157. [ Google Scholar ] [ CrossRef ]
  4. چنگ، جی. هان، جی. Lu, X. طبقه بندی صحنه تصویر سنجش از دور: معیار و وضعیت هنر. Proc. IEEE 2017 ، 105 ، 1865-1883. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  5. ماگیوری، ای. تارابالکا، ی. چارپیات، جی. Alliez، P. شبکه های عصبی کانولوشن برای طبقه بندی تصاویر سنجش از دور در مقیاس بزرگ. IEEE Trans. Geosci. Remote Sens. 2017 , 55 , 645–657. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  6. هان، ایکس. ژونگ، ی. Zhang, L. یک چارچوب کارآمد و قوی یکپارچه تشخیص شی جغرافیایی برای تصاویر سنجش از دور با وضوح فضایی بالا. Remote Sens. 2017 , 9 , 666. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  7. هان، جی. ژانگ، دی. چنگ، جی. گوا، ال. Ren, J. تشخیص شیء در تصاویر سنجش از دور نوری بر اساس یادگیری با نظارت ضعیف و یادگیری ویژگی های سطح بالا. IEEE Trans. Geosci. Remote Sens. 2015 , 53 , 3325–3337. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  8. یوان، جی. وانگ، دی. Li, R. تقسیم بندی تصویر سنجش از دور با ترکیب ویژگی های طیفی و بافت. IEEE Trans. Geosci. Remote Sens. 2014 ، 52 ، 16-24. [ Google Scholar ] [ CrossRef ]
  9. ما، اف. گائو، اف. سان، ج. ژو، اچ. Hussain، A. تقسیم‌بندی ضعیف تصاویر SAR با نظارت با استفاده از سوپرپیکسل و CRF متخاصم سلسله مراتبی. Remote Sens. 2019 , 11 , 512. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  10. چن، اف. رن، آر. د وورد، تلویزیون؛ خو، دبلیو. ژو، جی. Zhou، Y. تشخیص سریع خودکار فرودگاه در تصاویر سنجش از دور با استفاده از شبکه‌های عصبی کانولوشنال. Remote Sens. 2018 , 10 , 443. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  11. دای، بی. ژانگ، ی. Lin, D. تشخیص روابط بصری با شبکه های عمیق رابطه. در مجموعه مقالات کنفرانس IEEE در مورد دید رایانه و تشخیص الگو، هونولولو، HI، ایالات متحده آمریکا، 21 تا 26 ژوئیه 2017؛ صص 3298-3308. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  12. فرهادی، ع. هجرتی، اس ام ام; صادقی، م. جوان، پ. رشتچیان، سی. هاکن مایر، جی. Forsyth، DA Every Picture Tells a Story: Generating Sentences from Images. در مجموعه مقالات یازدهمین کنفرانس اروپایی بینایی کامپیوتر، هراکلیون، یونان، 5 تا 11 سپتامبر 2010. صص 15-29. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  13. پلامر، کارشناسی; وانگ، ال. سروانتس، سی ام. Caicedo, JC; هاکن مایر، جی. Lazebnik، S. Flickr30k Entities: جمع آوری تناظرهای منطقه به عبارت برای مدل های تصویر به جمله غنی تر. بین المللی جی. کامپیوتر. Vis. 2017 ، 123 ، 74-93. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  14. ترسانی، ال. سومر، ام. Fitzgibbon، تشخیص رده شی کارآمد AW با استفاده از Classemes. در مجموعه مقالات یازدهمین کنفرانس اروپایی بینایی کامپیوتر، هراکلیون، یونان، 5 تا 11 سپتامبر 2010. صص 776-789. [ Google Scholar ] [ CrossRef ]
  15. لو، سی. کریشنا، آر. برنشتاین، ام اس; Li، FF تشخیص رابطه بصری با زبان قبلی. در مجموعه مقالات چهاردهمین کنفرانس اروپایی بینایی کامپیوتر، آمستردام، هلند، 11 تا 14 اکتبر 2016؛ صص 852-869. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  16. کارپاتی، ا. Li، FF ترازهای بصری معنایی عمیق برای تولید توضیحات تصویر. IEEE Trans. الگوی مقعدی ماخ هوشمند 2017 ، 39 ، 664-676. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  17. خو، ک. با، ج. کیروس، آر. چو، ک. کورویل، AC; سالاخوتدینوف، ر. زمل، آر اس؛ Bengio، Y. نمایش، حضور و گفتن: ایجاد شرح تصویر عصبی با توجه بصری. در مجموعه مقالات سی و دومین کنفرانس بین المللی یادگیری ماشین، لیل، فرانسه، 6 تا 11 ژوئیه 2015؛ صفحات 2048–2057. [ Google Scholar ]
  18. بن یونس، اچ. کادن، آر. توم، ن. Cord, M. BLOCK: Fusion SuperDiagonal Bilinear for Visual Question Responsing and Visual Relationship Detection. در مجموعه مقالات کنفرانس AAAI در مورد هوش مصنوعی، هونولولو، HI، ایالات متحده، 27 ژانویه تا 1 فوریه 2019؛ صص 8102-8109. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  19. جانسون، جی. کریشنا، آر. استارک، ام. لی، ال. Shamma، DA; برنشتاین، ام اس; Li، FF بازیابی تصویر با استفاده از نمودار صحنه. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، بوستون، MA، ایالات متحده آمریکا، 7 تا 12 ژوئن 2015. صص 3668–3678. [ Google Scholar ] [ CrossRef ]
  20. لی، ی. اویانگ، دبلیو. ژو، بی. شی، ج. ژانگ، سی. وانگ، ایکس. شبکه قابل فاکتورسازی: یک چارچوب کارآمد مبتنی بر زیرگراف برای تولید نمودار صحنه. در مجموعه مقالات پانزدهمین کنفرانس اروپایی بینایی کامپیوتر، مونیخ، آلمان، 8 تا 14 سپتامبر 2018؛ صص 346-363. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  21. چی، م. لی، دبلیو. یانگ، ز. وانگ، ی. Luo, J. شبکه های ارتباطی توجه برای نگاشت تصاویر به نمودارهای صحنه. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 16 تا 20 ژوئن 2019؛ صص 3957–3966. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  22. کلاون، ام. Heim, E. ایجاد سه‌گانه با شبکه‌های متخاصم برای ساخت نمودار صحنه. در مجموعه مقالات کنفرانس AAAI در مورد هوش مصنوعی، نیواورلئان، لس آنجلس، ایالات متحده آمریکا، 2 تا 7 فوریه 2018؛ صفحات 6992–6999. [ Google Scholar ]
  23. لو، ایکس. وانگ، بی. ژنگ، ایکس. لی، ایکس. کاوش مدل‌ها و داده‌ها برای تولید عنوان تصویر سنجش از دور. IEEE Trans. Geosci. Remote Sens. 2018 , 56 , 2183–2195. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  24. یو، اف. کلتون، V. تجمع زمینه چند مقیاسی توسط پیچیدگی های متسع. در مجموعه مقالات چهارمین کنفرانس بین المللی بازنمایی های یادگیری، سان خوان، روابط عمومی، ایالات متحده آمریکا، 2 تا 4 مه 2016. [ Google Scholar ]
  25. کو، بی. لی، ایکس. تائو، دی. لو، ایکس. درک معنایی عمیق تصویر سنجش از دور با وضوح بالا. در مجموعه مقالات کنفرانس بین المللی اطلاعات کامپیوتری و سیستم های مخابراتی، کونمینگ، چین، 6 تا 8 ژوئیه 2016. صص 1-5. [ Google Scholar ] [ CrossRef ]
  26. شی، ز. Zou, Z. آیا ماشینی می‌تواند توصیفات زبانی انسان‌مانند را برای تصویر سنجش از راه دور ایجاد کند؟ IEEE Trans. Geosci. Remote Sens. 2017 , 55 , 3623–3634. [ Google Scholar ] [ CrossRef ]
  27. ژانگ، ایکس. وانگ، ایکس. تانگ، ایکس. ژو، اچ. Li, C. توضیحات نسل برای تصاویر سنجش از دور با استفاده از مکانیسم توجه ویژگی. Remote Sens. 2019 , 11 , 612. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  28. وانگ، بی. لو، ایکس. ژنگ، ایکس. Li, X. توضیحات معنایی تصاویر سنجش از دور با وضوح بالا. IEEE Geosci. سنسور از راه دور Lett. 2019 ، 16 ، 1274-1278. [ Google Scholar ] [ CrossRef ]
  29. بوردس، آ. یوسونیر، ن. گارسیا-دوران، آ. وستون، جی. Yakhnenko، O. ترجمه جاسازی ها برای مدل سازی داده های چند رابطه ای. در مجموعه مقالات بیست و هفتمین کنفرانس سالانه سیستم های پردازش اطلاعات عصبی، دریاچه تاهو، NV، ایالات متحده، 5-8 دسامبر 2013. صص 2787–2795. [ Google Scholar ]
  30. لدیکی، ال. راسل، سی. کهلی، پ. Torr، استنتاج مبتنی بر برش نمودار PHS با آمارهای همزمانی. در مجموعه مقالات یازدهمین کنفرانس اروپایی بینایی کامپیوتر، هراکلیون، یونان، 5 تا 11 سپتامبر 2010. صص 239-253. [ Google Scholar ] [ CrossRef ]
  31. اولیوا، ا. Torralba، A. نقش زمینه در تشخیص شی. روند. شناخت. علمی 2007 ، 11 ، 520-527. [ Google Scholar ] [ CrossRef ]
  32. پریخ، د. Zitnick، CL; Chen, T. از ظاهر تا تشخیص مبتنی بر زمینه: برچسب زدن متراکم در تصاویر کوچک. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، Anchorage، AK، ایالات متحده، 24-26 ژوئن 2008. [ Google Scholar ] [ CrossRef ]
  33. رابینوویچ، آ. ودالدی، ع. گالگیلو، سی. ویویورا، ای. Belongie، SJ Objects in Context. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، ریودوژانیرو، برزیل، 14 تا 20 اکتبر 2007. صص 1-8. [ Google Scholar ] [ CrossRef ]
  34. Girshick، RB; دوناهو، جی. دارل، تی. Malik, J. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، کلمبوس، OH، ایالات متحده آمریکا، 23 تا 28 ژوئن 2014. صص 580-587. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  35. رن، اس. او، ک. Girshick، RB; Sun, J. Faster R-CNN: Towards towards realtime object detection with region proposal networks. IEEE Trans. الگوی مقعدی ماخ هوشمند 2017 ، 39 ، 1137-1149. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  36. ردمون، جی. Divvala، SK; Girshick، RB; فرهادی، الف. شما فقط یک بار نگاه می کنید: یکپارچه، تشخیص شی در زمان واقعی. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، لاس وگاس، NV، ایالات متحده، 27-30 ژوئن 2016. صص 779-788. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  37. شوستر، اس. کریشنا، آر. چانگ، تبر. لی، FF; منینگ، سی دی، نمودارهای صحنه دقیق معنایی را از توضیحات متنی برای بهبود بازیابی تصویر ایجاد می کند. در مجموعه مقالات چهارمین کارگاه آموزشی بینش و زبان، لیسبون، پرتغال، 18 سپتامبر 2015; صص 70-80. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  38. وو، اس. کیم، دی. چو، دی. Kweon، IS LinkNet: جاسازی رابطه ای برای نمودار صحنه. در مجموعه مقالات کنفرانس سالانه سیستم‌های پردازش اطلاعات عصبی، مونترال، QC، کانادا، 3 تا 8 دسامبر 2018؛ صص 558-568. [ Google Scholar ]
  39. ژانگ، اچ. کیاو، ز. چانگ، اس. Chua، T. شبکه جاسازی ترجمه بصری برای تشخیص ارتباط بصری. در مجموعه مقالات کنفرانس IEEE در مورد دید رایانه و تشخیص الگو، هونولولو، HI، ایالات متحده آمریکا، 21 تا 26 ژوئیه 2017؛ صص 3107–3115. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  40. خو، دی. زو، ی. Choy، CB; Li، تولید نمودار صحنه FF با ارسال پیام تکراری. در مجموعه مقالات کنفرانس IEEE در مورد دید رایانه و تشخیص الگو، هونولولو، HI، ایالات متحده آمریکا، 21 تا 27 ژوئیه 2017؛ صص 3097–3106. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  41. هو، آر. رورباخ، م. آندریاس، جی. دارل، تی. Saenko، K. مدل سازی روابط در عبارات ارجاعی با شبکه های مدولار ترکیبی. در مجموعه مقالات کنفرانس IEEE در مورد دید رایانه و تشخیص الگو، هونولولو، HI، ایالات متحده آمریکا، 21 تا 26 ژوئیه 2017؛ صص 4418-4427. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  42. زلرز، آر. یاتسکار، م. تامسون، اس. چوی، Y. نقوش عصبی: تجزیه نمودار صحنه با زمینه جهانی. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، سالت لیک سیتی، UT، ایالات متحده آمریکا، 18 تا 22 ژوئن 2018؛ صص 5831–5840. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  43. لی، ی. اویانگ، دبلیو. ژو، بی. وانگ، ک. وانگ، X. تولید نمودار صحنه از اشیاء، عبارات و شرح‌های منطقه. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، ونیز، ایتالیا، 22 تا 29 اکتبر 2017؛ ص 1270–1279. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  44. هوانگ، اس جی. راوی، SN; تائو، ز. کیم، اچ جی. کالینز، MD؛ Singh, V. Tensorize, Factorize and Regularize: Robust Visual Relationship Learning. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، سالت لیک سیتی، UT، ایالات متحده آمریکا، 18 تا 22 ژوئن 2018؛ صص 1014-1023. [ Google Scholar ] [ CrossRef ]
  45. هرزیگ، آر. رابوح، م. چچیک، جی. برانت، جی. Globerson، A. نگاشت تصاویر به نمودارهای صحنه با پیش‌بینی ساختاری تغییر ناپذیر. در مجموعه مقالات کنفرانس سالانه سیستم‌های پردازش اطلاعات عصبی، مونترال، QC، کانادا، 3 تا 8 دسامبر 2018؛ صص 7211–7221. [ Google Scholar ]
  46. یو، آر. لی، ا. موراریو، VI; دیویس، LS تشخیص رابطه بصری با تقطیر دانش زبانی داخلی و خارجی. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، ونیز، ایتالیا، 22 تا 29 اکتبر 2017؛ صص 1068-1076. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  47. کوی، ز. خو، سی. ژنگ، دبلیو. یانگ، جی. شبکه انتشار وابسته به زمینه برای تشخیص رابطه بصری. در مجموعه مقالات بیست و ششمین کنفرانس بین المللی ACM در چند رسانه ای، سئول، کره، 22 تا 26 اکتبر 2018؛ ص 1475-1482. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  48. لین، تی. مایر، م. Belongie, SJ; هیز، جی. پرونا، پی. رامانان، دی. دلار، پی. Zitnick، CL مایکروسافت COCO: اشیاء مشترک در زمینه. در مجموعه مقالات سیزدهمین کنفرانس اروپایی بینایی کامپیوتر، زوریخ، سوئیس، 6 تا 12 سپتامبر 2014. صص 740-755. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  49. کریشنا، آر. زو، ی. گروت، او. جانسون، جی. هاتا، ک. کراویتز، جی. چن، اس. کالانتیدیس، ی. لی، ال. Shamma، DA; و همکاران ژنوم بصری: اتصال زبان و دید با استفاده از حاشیه‌نویسی‌های تصویر متراکم Crowdsourced. بین المللی جی. کامپیوتر. Vis. 2017 ، 123 ، 32-73. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  50. لیانگ، ی. بای، ی. ژانگ، دبلیو. کیان، ایکس. زو، ال. Mei، T. VrR-VG: تمرکز مجدد بر روابط بصری مرتبط. در مجموعه مقالات کنفرانس بین المللی IEEE/CVF در بینایی کامپیوتر، سئول، کره، 2 نوامبر تا 27 اکتبر 2019؛ ص 10402–10411. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  51. پیر، جی. لاپتف، آی. اشمید، سی. سیویک، جی. یادگیری با نظارت ضعیف روابط بصری. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، ونیز، ایتالیا، 22 تا 29 اکتبر 2017؛ صص 5189–5198. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  52. Haut، JM; فرناندز-بلتران، آر. پائولتی، من؛ پلازا، جی. Plaza, A. رزولوشن فوق العاده تصویر سنجش از دور با استفاده از توجه کانال باقیمانده عمیق. IEEE Trans. Geosci. Remote Sens. 2019 , 57 , 9277–9289. [ Google Scholar ] [ CrossRef ]
  53. لو، اچ. چن، سی. نیش، ال. زو، ایکس. Lu, L. تقسیم بندی معنایی تصاویر هوایی با وضوح بالا با استفاده از شبکه کاملاً پیچیده عمیق با مکانیسم توجه کانال. IEEE J. Sel. بالا. Appl. زمین Obs. Remote Sens. 2019 , 12 , 3492–3507. [ Google Scholar ] [ CrossRef ]
  54. وانگ، جی. شن، ال. کیائو، دبلیو. دای، ی. Li, Z. Deep Feature Fusion با ادغام اتصال باقیمانده و مدل توجه برای طبقه بندی تصاویر سنجش از دور VHR. Remote Sens. 2019 , 11 , 1617. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  55. بار.؛ چن، سی. یوان، جی. آهنگ، دبلیو. Lo, S. SmokeNet: تشخیص صحنه دود ماهواره ای با استفاده از شبکه عصبی کانولوشن با توجه فضایی و کانالی. Remote Sens. 2019 ، 11 ، 1702. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  56. لی، جی. ژیو، جی. یانگ، ز. لیو، سی. شبکه توجه دو مسیر برای تقسیم بندی تصویر معنایی سنجش از دور. ISPRS Int. J. Geo-Inf. 2020 ، 9 ، 571. [ Google Scholar ] [ CrossRef ]
  57. رن، اس. ژو، اف. طبقه بندی نیمه نظارتی داده های PolSAR با شبکه کانولوشنال نمودار وزنی چند مقیاسی. در مجموعه مقالات سمپوزیوم بین المللی علوم زمین و سنجش از دور IEEE، Waikoloa، HI، ایالات متحده آمریکا، 26 سپتامبر تا 2 اکتبر 2020؛ صفحات 1715-1718. [ Google Scholar ] [ CrossRef ]
  58. وان، اس. گونگ، سی. ژونگ، پی. دو، بی. ژانگ، ال. یانگ، جی. شبکه کانولوشن گراف پویا چند مقیاسی برای طبقه‌بندی تصویر فراطیفی. IEEE Trans. Geosci. Remote Sens. 2020 , 58 , 3162–3177. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  59. ژائو، ال. آهنگ، ی. ژانگ، سی. لیو، ی. وانگ، پی. لین، تی. دنگ، م. Li، H. T-GCN: یک شبکه کانولوشنال نمودار زمانی برای پیش بینی ترافیک. IEEE Trans. هوشمند ترانسپ سیستم 2020 ، 21 ، 3848-3858. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  60. شهرکی، اف.ف. پراساد، S. نمودار شبکه های عصبی کانولوشنال برای طبقه بندی داده های فراطیفی. در مجموعه مقالات کنفرانس جهانی IEEE در مورد پردازش سیگنال و اطلاعات، آناهیم، ​​کالیفرنیا، ایالات متحده آمریکا، 26-29 نوامبر 2018؛ ص 968-972. [ Google Scholar ] [ CrossRef ]
  61. Qin، A.; شانگ، ز. تیان، جی. وانگ، ی. ژانگ، تی. تانگ، شبکه‌های کانولوشنال نمودار طیفی-فضایی YY برای طبقه‌بندی تصویر ابرطیفی نیمه‌نظارت‌شده. IEEE Geosci. سنسور از راه دور Lett. 2019 ، 16 ، 241-245. [ Google Scholar ] [ CrossRef ]
  62. وان، اس. گونگ، سی. ژونگ، پی. پان، اس. لی، جی. یانگ، جی. طبقه‌بندی تصویر فراطیفی با شبکه کانولوشنال گراف دینامیکی آگاه از زمینه. IEEE Trans. Geosci. Remote Sens. 2021 , 59 , 597–612. [ Google Scholar ] [ CrossRef ]
  63. مو، ال. لو، ایکس. لی، ایکس. Zhu، XX گراف غیرمحلی شبکه‌های کانولوشن برای طبقه‌بندی تصویر فراطیفی. IEEE Trans. Geosci. Remote Sens. 2020 , 58 , 8246–8257. [ Google Scholar ] [ CrossRef ]
  64. خان، ن. چاودوری، یو. بانرجی، بی. Chaudhuri، S. Graph شبکه کانولوشن برای تشخیص صحنه سنجش از راه دور VHR چند برچسبی. محاسبات عصبی 2019 ، 357 ، 36-46. [ Google Scholar ] [ CrossRef ]
  65. شی، ی. لی، کیو. تقسیم بندی ساختمان زو، XX از طریق یک شبکه عصبی کانولوشن گراف دردار با تعبیه ویژگی ساختار یافته عمیق. ISPRS J. Photogramm. Remote Sens. 2020 , 159 , 184–197. [ Google Scholar ] [ CrossRef ]
  66. یانگ، جی. لو، جی. لی، اس. باترا، دی. Parikh, D. Graph R-CNN for Scene Graph Generation. در مجموعه مقالات پانزدهمین کنفرانس اروپایی بینایی کامپیوتر، مونیخ، آلمان، 8 تا 14 سپتامبر 2018؛ صص 690-706. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  67. کیو، اچ. لی، اچ. وو، کیو. منگ، اف. نگان، KN; Shi, H. A 2 RMNet: شبکه چند مقیاسی نسبت ابعاد تطبیقی ​​برای تشخیص اشیا در تصاویر سنجش از دور. Remote Sens. 2019 , 11 , 1594. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  68. ون در ماتن، ال. هینتون، جی. تجسم داده ها با استفاده از t-SNE. جی. ماخ. فرا گرفتن. Res. 2008 ، 9 ، 2579-2605. [ Google Scholar ]
  69. ژانگ، جی. لین، اس. دینگ، ال. Bruzzone، L. تجمع زمینه چند مقیاسی برای تقسیم بندی معنایی تصاویر سنجش از دور. Remote Sens. 2020 , 12 , 701. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  70. چن، ال. پاپاندرو، جی. کوکینوس، آی. مورفی، ک. Yuille، AL DeepLab: Semantic Segmentation image with Deep Convolutional Nets، Atrous Convolution، و CRFهای کاملاً متصل. IEEE Trans. الگوی مقعدی ماخ هوشمند 2018 ، 40 ، 834-848. [ Google Scholar ] [ CrossRef ]
  71. لی، جی. مولر، ام. ثابت، AK; غانم، ب. DeepGCN: آیا GCN ها می توانند به عمق CNN ها بروند؟ در مجموعه مقالات کنفرانس بین المللی IEEE/CVF در بینایی کامپیوتر، سئول، کره، 27 اکتبر تا 2 نوامبر 2019؛ ص 9266-9275. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  72. جادربرگ، م. سیمونیان، ک. زیسرمن، آ. Kavukcuoglu، K. شبکه های ترانسفورماتور فضایی. در مجموعه مقالات کنفرانس سالانه سیستم‌های پردازش اطلاعات عصبی، مونترال، QC، کانادا، 7 تا 12 دسامبر 2015. صفحات 2017–2025. [ Google Scholar ]
  73. اندروز، ام. چیا، YK; Witteveen، S. نمودار صحنه تجزیه با توجه نمودار. arXiv 2019 ، arXiv:1909.06273. [ Google Scholar ]
  74. یانگ، ز. Qin، Z. یو، جی. Hu, Y. استدلال نمودار صحنه با رابطه بصری قبلی برای پاسخ به سؤال بصری. arXiv 2018 , arXiv:1812.09681. [ Google Scholar ]
  75. تانگ، ک. ژانگ، اچ. وو، بی. لو، دبلیو. لیو، دبلیو. آموزش نوشتن ساختارهای درختی پویا برای زمینه های بصری. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 16 تا 20 ژوئن 2019؛ صص 6619–6628. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  76. ژانگ، جی. الحسینی، م. کوهن، اس. چانگ، دبلیو. الگامال، شبکه های پیشنهادی رابطه AM. در مجموعه مقالات کنفرانس IEEE در مورد دید رایانه و تشخیص الگو، هونولولو، HI، ایالات متحده آمریکا، 21 تا 26 ژوئیه 2017؛ صص 5226–5234. [ Google Scholar ] [ CrossRef ]
  77. هوکرایتر، اس. اشمیدهابر، جی. حافظه کوتاه مدت طولانی. محاسبات عصبی 1997 ، 9 ، 1735-1780. [ Google Scholar ] [ CrossRef ]
  78. چن، تی. یو، دبلیو. چن، آر. Lin, L. شبکه مسیریابی جاسازی شده دانش برای تولید نمودار صحنه. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 16 تا 20 ژوئن 2019؛ صص 6163–6171. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
شکل 1. تصویر مقایسه ای تشخیص شی و نمودار صحنه. ( الف ) نتیجه تشخیص شی در زمین بیس بال، که در آن گره‌ها با جعبه‌های منطقه و دسته‌های متعلق حاشیه‌نویسی می‌شوند. ( ب ) نمودار صحنه مربوط به میدان بیس بال، که در آن بیضی های جامد نشان دهنده گره ها و خطوط با فلش نشان دهنده روابط تعاملی بین گره ها هستند. ج ) نتیجه کشف شیء بیابان. ( د ) نمودار صحنه مربوط به صحرا.
شکل 2. نمای کلی MSFN پیشنهادی ما.
شکل 4. سه صحنه سنجش از دور و تجسم t-SNE [ 68 ] مربوطه.
شکل 5. تصویر تبدیل معنایی. نقشه برداری از ویژگی های بصری (به عنوان مثال، fس، fo) و جاسازی ها را برچسب گذاری کنید (به عنوان مثال، vس، vo) به یک فضای معنایی مشترک از طریق ماتریس های تبدیل آموخته شده (به عنوان مثال، دبلیوس، دبلیوo).
شکل 6. میدان های پذیرنده هسته پیچشی 3 × 3 مربوط به نرخ های متسع مختلف. ( الف ) دارای میدان دریافتی 3 × 3 وقتی سرعت اتساع 1 است. ( ب ) میدان پذیرای 7 × 7 دارد وقتی سرعت اتساع 2 است. ( ج ) میدان دریافتی 15 × 15 دارد وقتی سرعت اتساع 3 است. .
شکل 7. تصویری از تعامل چند مقیاسی. مستطیل ها نشان دهنده گره ها و الماس ها نشان دهنده روابط هستند.
شکل 8. توزیع کمی دسته های اصلی در RSSGD.
شکل 9. نتایج آماری عمدتاً روابط و ویژگی ها در RSSGD. الف ) نتیجه آماری در مورد روابط است. ب ) نتیجه آماری در مورد صفات است.
شکل 10. نتایج تجسم در RSSGD. ( الف ) نتیجه تجسم تشخیص شی است. ( ب ) نتیجه تجسم درک صحنه است.
شکل 11. نمونه های کیفی بر اساس RSSGD. از ( a – h ) نتایج تجربی تشخیص شی ( سمت چپ ) و تولید نمودار صحنه ( راست ) هستند. در تشخیص اشیا، کادرهای سبز گره‌های پیش‌بینی‌شده‌ای هستند که با برچسب‌های حقیقت زمین مطابقت دارند و جعبه‌های قرمز نشان‌دهنده پیش‌بینی‌های نادرست هستند. در استدلال رابطه، بیضی سبز مثبت واقعی است که توسط مدل ما پیش‌بینی شده است، بیضی خاکستری منفی کاذب و بیضی قرمز مثبت کاذب است. برای اینکه تجسم قابل تفسیر باشد، ما فقط پیش‌بینی‌های رابطه را برای جفت گره‌هایی نشان می‌دهیم که حاشیه‌نویسی حقیقت پایه دارند.
شکل 12. تجسم حقیقت زمین در RSSGD. از ( a – h ) حاشیه نویسی تشخیص شی ( سمت چپ ) و تولید نمودار صحنه ( راست ) مربوط به شکل 11 است، که نه تنها صحنه های مصنوعی مانند زمین بیسبال و منطقه مسکونی را پوشش می دهد، بلکه شامل صحنه های طبیعی مانند رودخانه و حوض نیز می شود. .

بدون دیدگاه

دیدگاهتان را بنویسید