چکیده
:
درک صحنه سنجش از دور ; شناخت رابطه معنایی ; تولید نمودار صحنه ; آمیختگی معنایی چند مقیاسی ; مکانیسم توجه ؛ شبکه کانولوشن گراف ; پیچش گشاد شده
1. مقدمه
-
برای پرداختن به ویژگیهای ذاتی در تصاویر سنجش از دور، مانند گسترههای بزرگ و توزیع فضایی خاص موجودیتها، این مقاله کانولوشن گشاد شده [ 24 ] را در روش ما معرفی میکند و یک شبکه کانولوشنی گراف چند مقیاسی را به طور خلاقانه میسازد، که برای گسترش آن مفید است. بینش شناختی اطلاعات معنایی
-
یک شبکه ترکیبی معنایی چند مقیاسی جدید برای تولید نمودار صحنه ارائه شده است. علاوه بر این، برای بهبود کارایی استدلال رابطه، تعبیه ترجمه (TransE) [ 29 ] برای محاسبه نمرات همبستگی بین گره ها و حذف بیشتر یال های نامعتبر به کار گرفته شده است.
-
با هدف ساختن گراف صحنه سنجش از دور، یک مجموعه داده مناسب برای شکستن مانع معنایی بین درک مقوله و شناخت رابطه پیشنهاد شده است. تا آنجا که ما می دانیم، RSSGD اولین مجموعه داده نمودار صحنه در زمینه سنجش از دور است.
2. آثار مرتبط
2.1. تولید نمودار صحنه
2.2. مجموعه داده نمودار صحنه
2.3. مکانیسم توجه
2.4. گراف شبکه کانولوشن
3. مواد و روشها
3.1. مدل تولید نمودار صحنه برای تصویر سنجش از دور
-
شبکه تشخیص اشیا تکه های هدف با دسته های اولیه خود توسط این چارچوب تشخیص از تصاویر ورودی شناسایی می شوند. به طور کلی، مناطق با گروهی از جعبه های مرزی یک به یک مشخص می شوند. جزئیات در شکل 3 نشان داده شده است.
-
شبکه استخراج رابطه پراکنده (SREN). این ماژول برای محاسبه و مرتبسازی نمرات روابط بین همه جفت گرهها (جعبه قرمز نشاندهنده موضوع و کادر آبی نشاندهنده شی) طراحی شده است تا جفتهای گره همبستگی نامعتبر یا ضعیف را حذف کند تا ترکیبهای معنایی سوژهها و اشیا را روشن کند.
-
شبکه کانولوشن گراف چند مقیاسی (MS-GCN). بر اساس جفتهای گره انتخاب شده با ارتباط معنایی قوی، اطلاعات زمینهای چند مقیاسی در صحنه بصری منتشر شده و برای استنتاج مقولههای روابط ترکیب میشود و در نهایت یک نمودار صحنه تولید میشود.
3.1.1. شبکه تشخیص اشیا

3.1.2. شبکه استخراج رابطه پراکنده
جایی که σیک تابع غیر خطی است. fس، foو fr ∈آرن×1ویژگی های بصری سوژه، ابژه و رابطه (اتحاد موضوع و ابژه) است. دبلیوس، دبلیوo ∈آرم×نو دبلیو∈آرن×مبه ترتیب ماتریس های تبدیلی هستند که باید یاد بگیرند.
جایی که vس، vo ∈آرم×1برچسبی هستند که به ترتیب نمایش های موضوع و شی را در خود جای داده اند، .22نشان می دهد L2ضرر – زیان.
3.1.3. شبکه کانولوشن گراف چند مقیاسی
جایی که نتوکمجموعه همسایه است توتیساعتگره در سطح k . ϕو [.]به ترتیب عملیات فعال سازی و الحاق غیر خطی ReLU هستند، A به پارامترهای توجه یک شبکه عصبی پیشخور تک لایه اشاره دارد. ω∈آرن“×نیک ماتریس وزنی است که باید یاد گرفت.
جایی که نمنکvمجموعه گره مجاور گره i در است کهفتممرحله، سیمنکvتعداد مجموعه گره است. نمنکهمجموعه روابط همسایه گره i در است کهفتمسطح، و سیمنکهتعداد عناصر است. دبلیوvو دبلیوهپارامترهای نقشه برداری هستند که باید یاد بگیرند. ساعتمن0توسط ویژگی بصری اصلی مقداردهی اولیه می شود fمنوقتی قدم تی=0. δیک تابع غیر خطی است.
جایی که نrکvمجموعه گره همسایه رابطه r در است کهفتمسطح، و سیrکvتعداد این مجموعه است. ساعتr0توسط ویژگی بصری اصلی مقداردهی اولیه می شود frرابطه r در هنگام گام تی=0، یعنی ویژگی بصری منطقه اتحاد بین موضوع و شی که r مطابقت دارد.
جایی که ساعتس،ساعتo∈ساعتمناطلاعات زمینه موضوع و شی با رابطه معنایی بالقوه است که توسط شبکه استخراج روابط پراکنده غربال شده است، و ساعتس→o∈ساعتrزمینه رابطه است. φیک پرسپترون چند لایه است.
جایی که rس→o“برچسب حقیقت پایه رابطه r است. S و O مجموعه موضوع و مجموعه شی مرتبط با تصویر ورودی هستند.
جایی که fمنو ساعتمنبه ترتیب ویژگی بصری و بافت معنایی گره i هستند. τیک پرسپترون چند لایه است.
جایی که پمن“برچسب حقیقت پایه گره i است و C تعداد موجودات موجود در تصویر I است.
جایی که ω1،ω2و ω3هایپر پارامترها هستند.
3.2. مجموعه داده نمودار صحنه برای تصویر سنجش از راه دور
-
اگر بیش از یک توصیف از رابطه در یک جفت گره وجود داشته باشد، توصیفی که با صحنه تصویر واقعی یا با بیشترین فراوانی وقوع مطابقت دارد انتخاب خواهد شد.
-
برچسب باید به صورت مفرد باشد. با این حال، برای توصیف های متعدد، مانند “برخی سطوح”، راه حل این است: “بعضی” نشان دهنده ویژگی و “صفحه” نشان دهنده برچسب است. به طور مشابه، “دو ماشین” به عنوان دو گره با برچسب “ماشین” در نظر گرفته می شود که در نمایش بصری با “car_1” و “car_2” قابل تشخیص هستند.
-
برای حفظ جهانی بودن و گسترشپذیری حاشیهنویسیها، اگر برچسبهای یک نوع موجودیتها متفاوت باشند، برچسبی که بیشتر با محتوای تصویر واقعی یا با بیشترین فراوانی وقوع مطابقت دارد، غالب خواهد بود. به عنوان مثال، “ساختمان اداری” و “ساختمان تجاری” در مجموع “ساختمان” نامیده می شود و “باند فرودگاه” به عنوان “باند فرودگاه” بیان می شود.
3.2.1. آمار و تجزیه و تحلیل
3.2.2. بازنمایی بصری
4. نتایج و بحث
4.1. تنظیم آزمایش
-
مجموعه داده ها برای تأیید تعمیم و سازگاری روش پیشنهادی به طور کامل، آزمایشهایی را روی مجموعه دادههای RSSGD و VG [ 49 ] انجام میدهیم. VG [ 49 ] یک معیار محبوب برای تولید نمودار صحنه در زمینه تصاویر طبیعی است. این شامل 108077 تصویر با هزاران گره منحصربهفرد و دستههای رابطه است، اما بیشتر این دستهها نمونههای بسیار محدودی دارند. بنابراین، کارهای قبلی [ 40 ، 75 ، 76 ] تقسیم بندی های مختلف VG [ 49 ] را برای حذف دسته های نادر پیشنهاد کردند. ما محبوبترین مورد را از IMP انتخاب میکنیم [ 40]، که 150 دسته شیء برتر و 50 دسته روابط برتر را بر اساس فرکانس انتخاب می کند. کل مجموعه داده به ترتیب 70٪، 30٪ به مجموعه آموزشی و مجموعه آزمایشی تقسیم می شود.
-
وظایف _ با توجه به یک تصویر، وظیفه تولید نمودار صحنه، مکان یابی مجموعه ای از گره ها، طبقه بندی برچسب های دسته آنها و پیش بینی رابطه بین هر جفت گره است. ما مدل خود را در سه کار فرعی ارزیابی می کنیم.وظیفه فرعی طبقه بندی گزاره ها ( PredCls ) پیش بینی محمول های همه روابط زوجی است. این کار فرعی فقط عملکرد مدل را در طبقه بندی گزاره جدا از عوامل دیگر تأیید می کند.وظیفه فرعی طبقهبندی نمودار صحنه ( SGCls ) پیشبینی گزاره و همچنین دستههای گره موضوع و مفعول در هر رابطه زوجی با توجه به مجموعهای از گرههای موضعی است.وظیفه فرعی تولید نمودار صحنه ( SGGen ) شناسایی همزمان مجموعه ای از گره ها و پیش بینی محمول بین هر جفت گره شناسایی شده است.
-
متریک ارزیابی مدلهای قبلی مانند IMP [ 40 ]، VTransE [ 39 ] و Motifs [ 42 ] از روش سنتی استفاده میکنند.آرهجآلل(ایکس)( آر@ایکس) به عنوان متریک ارزیابی، که کسری از زمان هایی را محاسبه می کند که روابط به درستی در پیش بینی های بالای X رابطه مطمئن استدلال شده اند. با این حال، به دلیل حاشیه نویسی ناقص و انحراف ذهنی، مجموعه داده نمودار صحنه معمولاً دارای مشکل دنباله های بلند است [ 75 ]، که منجر به ارائه مدل برای روابط با فرکانس بالا می شود، اما نسبت به روابط فرکانس پایین غیر حساس است. برای پرداختن به این مشکل، ما میانگین را اتخاذ می کنیم آرهجآلل@ایکس( مترآر@ایکس) به عنوان معیار ارزیابی این مقاله به جای آر@ایکس. با پیمایش هر رابطه به طور جداگانه و میانگین گیری آر@ایکساز همه روابط، مترآر@ایکسبرای کاوی روابط معنایی صحنه های خاص موثرتر است و می تواند به صورت زیر محاسبه شود:آرهجآلل=تیپتیپ+افن.
جایی که تیپ، افنبه ترتیب اعداد مثبت درست و منفی کاذب هستند.
مترآر@ایکس=1ایکس∑ایکس=1ایکسآرهجآلل(ایکس).جایی که آرهجآلل(ایکس)نرخ فراخوانی است ایکستیساعترابطه مطمئن
4.2. جزئیات پیاده سازی
4.3. مقایسه مدل ها
-
IMP [ 40 ]: این روش پیام ها را بین زیرگراف اصلی و دوگانه در امتداد توپولوژی نمودار صحنه تکرار می کند. علاوه بر این، عملکرد پیشبینی را با ترکیب نشانههای متنی بهبود میبخشد.
-
نمودار R-CNN [ 66 ]: بر اساس شبکه کانولوشن گراف، این مدل به طور موثر از نظم های رابطه ای برای استدلال هوشمندانه بر روی نمودارهای صحنه کاندید برای تولید نمودار صحنه استفاده می کند.
-
دانش تعبیه شده [ 78 ]: برای مقابله با مشکل توزیع نامتعادل روابط، این مدل از همبستگی های آماری بین جفت گره ها به عنوان مقدمات معرفی شده برای تولید نمودار صحنه استفاده می کند.
4.4. نتایج تجربی و بحث
-
RSSGD حاوی حاشیه نویسی های فراوانی است که مربوط به تصاویر سنجش از راه دور است که در شکل 12 نشان داده شده است، مانند 〈بآrهلآnد–آلong–rمنvهr〉، 〈بrمندgه–آجroسس–rمنvهr〉، 〈roآد–تیساعتroتوgساعت–forهستی〉و غیره که نقشی بی بدیل در بهبود درک جامع و عمیق در صحنه های سنجش از دور دارند.
-
از شکل 11 به راحتی می توان دریافت که مدل ما می تواند روابطی را که برای یک صحنه خاص مناسب تر است، به دقت پیش بینی کند. به عنوان مثال، در شکل 11 e، خانه به شدت نزدیک به چمنزار است، و مدل ما دقیقاً “بعدی” را برای نشان دادن رابطه تعاملی بین آنها اعمال می کند. در مقابل، خانه دقیقاً نزدیک ماشین است اما مجاور آن نیست، بنابراین مدل ما به جای استفاده از «بعدی»، «نزدیک» را برای نشان دادن تفاوت انتخاب میکند. به همین ترتیب، در شکل 11ج، پل و جاده نازک و طولانی هستند، بنابراین “صلیب” می تواند به درستی تعامل بین آنها را منعکس کند. علاوه بر این، از آنجایی که رودخانه بسیار گستردهتر از جاده است، بنابراین روش ما به طرز ماهرانهای از «در عرض» استفاده میکند تا بر رابطه بین پل و رودخانه از یک طرف به سمت دیگر تأکید کند. همه مثالها روند واضحی را نشان میدهند که مدل ما به آن روابط آموزنده معنایی بسیار حساستر است به جای روابط بیاهمیت.
-
مشابه کارهای قبلی در تجزیه نمودار صحنه [ 39 ، 42 ]، سریعتر R-CNN [ 35 ] به عنوان آشکارساز شی در همه آزمایش ها استفاده می شود. با این حال، این مدل نمی تواند به طور موثر ویژگی های بصری عمیق [ 66 ] را استخراج کند، که به طور اجتناب ناپذیری با پیش بینی در دسته بندی گره ها تداخل خواهد داشت. به عنوان مثال، در شکل 11 الف، درخت به طور نامناسب به عنوان “علفزار” شناسایی شده است، در نتیجه، تمام این روابط شناسایی شده مربوط به آن منفی در نظر گرفته می شود.
5. نتیجه گیری ها
مشارکت های نویسنده
منابع مالی
بیانیه هیئت بررسی نهادی
بیانیه رضایت آگاهانه
بیانیه در دسترس بودن داده ها
تضاد علاقه
منابع
- دو، ز. لی، ایکس. Lu, X. یادگیری ساختار محلی در بازیابی تصویر سنجش از دور با وضوح بالا. محاسبات عصبی 2016 ، 207 ، 813-822 . [ Google Scholar ] [ CrossRef ]
- گو، ی. وانگ، کیو. Xie، B. نمایش پراکنده هسته چندگانه برای طبقهبندی دادههای هوابرد LiDAR. IEEE Trans. Geosci. Remote Sens. 2017 , 55 , 1085–1105. [ Google Scholar ] [ CrossRef ]
- لو، ایکس. ژنگ، ایکس. یوان، ی. طبقهبندی صحنه سنجش از دور توسط آموزش بازنمایی بدون نظارت. IEEE Trans. Geosci. Remote Sens. 2017 , 55 , 5148–5157. [ Google Scholar ] [ CrossRef ]
- چنگ، جی. هان، جی. Lu, X. طبقه بندی صحنه تصویر سنجش از دور: معیار و وضعیت هنر. Proc. IEEE 2017 ، 105 ، 1865-1883. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- ماگیوری، ای. تارابالکا، ی. چارپیات، جی. Alliez، P. شبکه های عصبی کانولوشن برای طبقه بندی تصاویر سنجش از دور در مقیاس بزرگ. IEEE Trans. Geosci. Remote Sens. 2017 , 55 , 645–657. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- هان، ایکس. ژونگ، ی. Zhang, L. یک چارچوب کارآمد و قوی یکپارچه تشخیص شی جغرافیایی برای تصاویر سنجش از دور با وضوح فضایی بالا. Remote Sens. 2017 , 9 , 666. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- هان، جی. ژانگ، دی. چنگ، جی. گوا، ال. Ren, J. تشخیص شیء در تصاویر سنجش از دور نوری بر اساس یادگیری با نظارت ضعیف و یادگیری ویژگی های سطح بالا. IEEE Trans. Geosci. Remote Sens. 2015 , 53 , 3325–3337. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- یوان، جی. وانگ، دی. Li, R. تقسیم بندی تصویر سنجش از دور با ترکیب ویژگی های طیفی و بافت. IEEE Trans. Geosci. Remote Sens. 2014 ، 52 ، 16-24. [ Google Scholar ] [ CrossRef ]
- ما، اف. گائو، اف. سان، ج. ژو، اچ. Hussain، A. تقسیمبندی ضعیف تصاویر SAR با نظارت با استفاده از سوپرپیکسل و CRF متخاصم سلسله مراتبی. Remote Sens. 2019 , 11 , 512. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- چن، اف. رن، آر. د وورد، تلویزیون؛ خو، دبلیو. ژو، جی. Zhou، Y. تشخیص سریع خودکار فرودگاه در تصاویر سنجش از دور با استفاده از شبکههای عصبی کانولوشنال. Remote Sens. 2018 , 10 , 443. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- دای، بی. ژانگ، ی. Lin, D. تشخیص روابط بصری با شبکه های عمیق رابطه. در مجموعه مقالات کنفرانس IEEE در مورد دید رایانه و تشخیص الگو، هونولولو، HI، ایالات متحده آمریکا، 21 تا 26 ژوئیه 2017؛ صص 3298-3308. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- فرهادی، ع. هجرتی، اس ام ام; صادقی، م. جوان، پ. رشتچیان، سی. هاکن مایر، جی. Forsyth، DA Every Picture Tells a Story: Generating Sentences from Images. در مجموعه مقالات یازدهمین کنفرانس اروپایی بینایی کامپیوتر، هراکلیون، یونان، 5 تا 11 سپتامبر 2010. صص 15-29. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- پلامر، کارشناسی; وانگ، ال. سروانتس، سی ام. Caicedo, JC; هاکن مایر، جی. Lazebnik، S. Flickr30k Entities: جمع آوری تناظرهای منطقه به عبارت برای مدل های تصویر به جمله غنی تر. بین المللی جی. کامپیوتر. Vis. 2017 ، 123 ، 74-93. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- ترسانی، ال. سومر، ام. Fitzgibbon، تشخیص رده شی کارآمد AW با استفاده از Classemes. در مجموعه مقالات یازدهمین کنفرانس اروپایی بینایی کامپیوتر، هراکلیون، یونان، 5 تا 11 سپتامبر 2010. صص 776-789. [ Google Scholar ] [ CrossRef ]
- لو، سی. کریشنا، آر. برنشتاین، ام اس; Li، FF تشخیص رابطه بصری با زبان قبلی. در مجموعه مقالات چهاردهمین کنفرانس اروپایی بینایی کامپیوتر، آمستردام، هلند، 11 تا 14 اکتبر 2016؛ صص 852-869. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- کارپاتی، ا. Li، FF ترازهای بصری معنایی عمیق برای تولید توضیحات تصویر. IEEE Trans. الگوی مقعدی ماخ هوشمند 2017 ، 39 ، 664-676. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- خو، ک. با، ج. کیروس، آر. چو، ک. کورویل، AC; سالاخوتدینوف، ر. زمل، آر اس؛ Bengio، Y. نمایش، حضور و گفتن: ایجاد شرح تصویر عصبی با توجه بصری. در مجموعه مقالات سی و دومین کنفرانس بین المللی یادگیری ماشین، لیل، فرانسه، 6 تا 11 ژوئیه 2015؛ صفحات 2048–2057. [ Google Scholar ]
- بن یونس، اچ. کادن، آر. توم، ن. Cord, M. BLOCK: Fusion SuperDiagonal Bilinear for Visual Question Responsing and Visual Relationship Detection. در مجموعه مقالات کنفرانس AAAI در مورد هوش مصنوعی، هونولولو، HI، ایالات متحده، 27 ژانویه تا 1 فوریه 2019؛ صص 8102-8109. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- جانسون، جی. کریشنا، آر. استارک، ام. لی، ال. Shamma، DA; برنشتاین، ام اس; Li، FF بازیابی تصویر با استفاده از نمودار صحنه. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، بوستون، MA، ایالات متحده آمریکا، 7 تا 12 ژوئن 2015. صص 3668–3678. [ Google Scholar ] [ CrossRef ]
- لی، ی. اویانگ، دبلیو. ژو، بی. شی، ج. ژانگ، سی. وانگ، ایکس. شبکه قابل فاکتورسازی: یک چارچوب کارآمد مبتنی بر زیرگراف برای تولید نمودار صحنه. در مجموعه مقالات پانزدهمین کنفرانس اروپایی بینایی کامپیوتر، مونیخ، آلمان، 8 تا 14 سپتامبر 2018؛ صص 346-363. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- چی، م. لی، دبلیو. یانگ، ز. وانگ، ی. Luo, J. شبکه های ارتباطی توجه برای نگاشت تصاویر به نمودارهای صحنه. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 16 تا 20 ژوئن 2019؛ صص 3957–3966. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- کلاون، ام. Heim, E. ایجاد سهگانه با شبکههای متخاصم برای ساخت نمودار صحنه. در مجموعه مقالات کنفرانس AAAI در مورد هوش مصنوعی، نیواورلئان، لس آنجلس، ایالات متحده آمریکا، 2 تا 7 فوریه 2018؛ صفحات 6992–6999. [ Google Scholar ]
- لو، ایکس. وانگ، بی. ژنگ، ایکس. لی، ایکس. کاوش مدلها و دادهها برای تولید عنوان تصویر سنجش از دور. IEEE Trans. Geosci. Remote Sens. 2018 , 56 , 2183–2195. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- یو، اف. کلتون، V. تجمع زمینه چند مقیاسی توسط پیچیدگی های متسع. در مجموعه مقالات چهارمین کنفرانس بین المللی بازنمایی های یادگیری، سان خوان، روابط عمومی، ایالات متحده آمریکا، 2 تا 4 مه 2016. [ Google Scholar ]
- کو، بی. لی، ایکس. تائو، دی. لو، ایکس. درک معنایی عمیق تصویر سنجش از دور با وضوح بالا. در مجموعه مقالات کنفرانس بین المللی اطلاعات کامپیوتری و سیستم های مخابراتی، کونمینگ، چین، 6 تا 8 ژوئیه 2016. صص 1-5. [ Google Scholar ] [ CrossRef ]
- شی، ز. Zou, Z. آیا ماشینی میتواند توصیفات زبانی انسانمانند را برای تصویر سنجش از راه دور ایجاد کند؟ IEEE Trans. Geosci. Remote Sens. 2017 , 55 , 3623–3634. [ Google Scholar ] [ CrossRef ]
- ژانگ، ایکس. وانگ، ایکس. تانگ، ایکس. ژو، اچ. Li, C. توضیحات نسل برای تصاویر سنجش از دور با استفاده از مکانیسم توجه ویژگی. Remote Sens. 2019 , 11 , 612. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- وانگ، بی. لو، ایکس. ژنگ، ایکس. Li, X. توضیحات معنایی تصاویر سنجش از دور با وضوح بالا. IEEE Geosci. سنسور از راه دور Lett. 2019 ، 16 ، 1274-1278. [ Google Scholar ] [ CrossRef ]
- بوردس، آ. یوسونیر، ن. گارسیا-دوران، آ. وستون، جی. Yakhnenko، O. ترجمه جاسازی ها برای مدل سازی داده های چند رابطه ای. در مجموعه مقالات بیست و هفتمین کنفرانس سالانه سیستم های پردازش اطلاعات عصبی، دریاچه تاهو، NV، ایالات متحده، 5-8 دسامبر 2013. صص 2787–2795. [ Google Scholar ]
- لدیکی، ال. راسل، سی. کهلی، پ. Torr، استنتاج مبتنی بر برش نمودار PHS با آمارهای همزمانی. در مجموعه مقالات یازدهمین کنفرانس اروپایی بینایی کامپیوتر، هراکلیون، یونان، 5 تا 11 سپتامبر 2010. صص 239-253. [ Google Scholar ] [ CrossRef ]
- اولیوا، ا. Torralba، A. نقش زمینه در تشخیص شی. روند. شناخت. علمی 2007 ، 11 ، 520-527. [ Google Scholar ] [ CrossRef ]
- پریخ، د. Zitnick، CL; Chen, T. از ظاهر تا تشخیص مبتنی بر زمینه: برچسب زدن متراکم در تصاویر کوچک. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، Anchorage، AK، ایالات متحده، 24-26 ژوئن 2008. [ Google Scholar ] [ CrossRef ]
- رابینوویچ، آ. ودالدی، ع. گالگیلو، سی. ویویورا، ای. Belongie، SJ Objects in Context. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، ریودوژانیرو، برزیل، 14 تا 20 اکتبر 2007. صص 1-8. [ Google Scholar ] [ CrossRef ]
- Girshick، RB; دوناهو، جی. دارل، تی. Malik, J. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، کلمبوس، OH، ایالات متحده آمریکا، 23 تا 28 ژوئن 2014. صص 580-587. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- رن، اس. او، ک. Girshick، RB; Sun, J. Faster R-CNN: Towards towards realtime object detection with region proposal networks. IEEE Trans. الگوی مقعدی ماخ هوشمند 2017 ، 39 ، 1137-1149. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- ردمون، جی. Divvala، SK; Girshick، RB; فرهادی، الف. شما فقط یک بار نگاه می کنید: یکپارچه، تشخیص شی در زمان واقعی. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، لاس وگاس، NV، ایالات متحده، 27-30 ژوئن 2016. صص 779-788. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- شوستر، اس. کریشنا، آر. چانگ، تبر. لی، FF; منینگ، سی دی، نمودارهای صحنه دقیق معنایی را از توضیحات متنی برای بهبود بازیابی تصویر ایجاد می کند. در مجموعه مقالات چهارمین کارگاه آموزشی بینش و زبان، لیسبون، پرتغال، 18 سپتامبر 2015; صص 70-80. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- وو، اس. کیم، دی. چو، دی. Kweon، IS LinkNet: جاسازی رابطه ای برای نمودار صحنه. در مجموعه مقالات کنفرانس سالانه سیستمهای پردازش اطلاعات عصبی، مونترال، QC، کانادا، 3 تا 8 دسامبر 2018؛ صص 558-568. [ Google Scholar ]
- ژانگ، اچ. کیاو، ز. چانگ، اس. Chua، T. شبکه جاسازی ترجمه بصری برای تشخیص ارتباط بصری. در مجموعه مقالات کنفرانس IEEE در مورد دید رایانه و تشخیص الگو، هونولولو، HI، ایالات متحده آمریکا، 21 تا 26 ژوئیه 2017؛ صص 3107–3115. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- خو، دی. زو، ی. Choy، CB; Li، تولید نمودار صحنه FF با ارسال پیام تکراری. در مجموعه مقالات کنفرانس IEEE در مورد دید رایانه و تشخیص الگو، هونولولو، HI، ایالات متحده آمریکا، 21 تا 27 ژوئیه 2017؛ صص 3097–3106. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- هو، آر. رورباخ، م. آندریاس، جی. دارل، تی. Saenko، K. مدل سازی روابط در عبارات ارجاعی با شبکه های مدولار ترکیبی. در مجموعه مقالات کنفرانس IEEE در مورد دید رایانه و تشخیص الگو، هونولولو، HI، ایالات متحده آمریکا، 21 تا 26 ژوئیه 2017؛ صص 4418-4427. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- زلرز، آر. یاتسکار، م. تامسون، اس. چوی، Y. نقوش عصبی: تجزیه نمودار صحنه با زمینه جهانی. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، سالت لیک سیتی، UT، ایالات متحده آمریکا، 18 تا 22 ژوئن 2018؛ صص 5831–5840. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- لی، ی. اویانگ، دبلیو. ژو، بی. وانگ، ک. وانگ، X. تولید نمودار صحنه از اشیاء، عبارات و شرحهای منطقه. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، ونیز، ایتالیا، 22 تا 29 اکتبر 2017؛ ص 1270–1279. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- هوانگ، اس جی. راوی، SN; تائو، ز. کیم، اچ جی. کالینز، MD؛ Singh, V. Tensorize, Factorize and Regularize: Robust Visual Relationship Learning. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، سالت لیک سیتی، UT، ایالات متحده آمریکا، 18 تا 22 ژوئن 2018؛ صص 1014-1023. [ Google Scholar ] [ CrossRef ]
- هرزیگ، آر. رابوح، م. چچیک، جی. برانت، جی. Globerson، A. نگاشت تصاویر به نمودارهای صحنه با پیشبینی ساختاری تغییر ناپذیر. در مجموعه مقالات کنفرانس سالانه سیستمهای پردازش اطلاعات عصبی، مونترال، QC، کانادا، 3 تا 8 دسامبر 2018؛ صص 7211–7221. [ Google Scholar ]
- یو، آر. لی، ا. موراریو، VI; دیویس، LS تشخیص رابطه بصری با تقطیر دانش زبانی داخلی و خارجی. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، ونیز، ایتالیا، 22 تا 29 اکتبر 2017؛ صص 1068-1076. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- کوی، ز. خو، سی. ژنگ، دبلیو. یانگ، جی. شبکه انتشار وابسته به زمینه برای تشخیص رابطه بصری. در مجموعه مقالات بیست و ششمین کنفرانس بین المللی ACM در چند رسانه ای، سئول، کره، 22 تا 26 اکتبر 2018؛ ص 1475-1482. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- لین، تی. مایر، م. Belongie, SJ; هیز، جی. پرونا، پی. رامانان، دی. دلار، پی. Zitnick، CL مایکروسافت COCO: اشیاء مشترک در زمینه. در مجموعه مقالات سیزدهمین کنفرانس اروپایی بینایی کامپیوتر، زوریخ، سوئیس، 6 تا 12 سپتامبر 2014. صص 740-755. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- کریشنا، آر. زو، ی. گروت، او. جانسون، جی. هاتا، ک. کراویتز، جی. چن، اس. کالانتیدیس، ی. لی، ال. Shamma، DA; و همکاران ژنوم بصری: اتصال زبان و دید با استفاده از حاشیهنویسیهای تصویر متراکم Crowdsourced. بین المللی جی. کامپیوتر. Vis. 2017 ، 123 ، 32-73. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- لیانگ، ی. بای، ی. ژانگ، دبلیو. کیان، ایکس. زو، ال. Mei، T. VrR-VG: تمرکز مجدد بر روابط بصری مرتبط. در مجموعه مقالات کنفرانس بین المللی IEEE/CVF در بینایی کامپیوتر، سئول، کره، 2 نوامبر تا 27 اکتبر 2019؛ ص 10402–10411. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- پیر، جی. لاپتف، آی. اشمید، سی. سیویک، جی. یادگیری با نظارت ضعیف روابط بصری. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، ونیز، ایتالیا، 22 تا 29 اکتبر 2017؛ صص 5189–5198. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- Haut، JM; فرناندز-بلتران، آر. پائولتی، من؛ پلازا، جی. Plaza, A. رزولوشن فوق العاده تصویر سنجش از دور با استفاده از توجه کانال باقیمانده عمیق. IEEE Trans. Geosci. Remote Sens. 2019 , 57 , 9277–9289. [ Google Scholar ] [ CrossRef ]
- لو، اچ. چن، سی. نیش، ال. زو، ایکس. Lu, L. تقسیم بندی معنایی تصاویر هوایی با وضوح بالا با استفاده از شبکه کاملاً پیچیده عمیق با مکانیسم توجه کانال. IEEE J. Sel. بالا. Appl. زمین Obs. Remote Sens. 2019 , 12 , 3492–3507. [ Google Scholar ] [ CrossRef ]
- وانگ، جی. شن، ال. کیائو، دبلیو. دای، ی. Li, Z. Deep Feature Fusion با ادغام اتصال باقیمانده و مدل توجه برای طبقه بندی تصاویر سنجش از دور VHR. Remote Sens. 2019 , 11 , 1617. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- بار.؛ چن، سی. یوان، جی. آهنگ، دبلیو. Lo, S. SmokeNet: تشخیص صحنه دود ماهواره ای با استفاده از شبکه عصبی کانولوشن با توجه فضایی و کانالی. Remote Sens. 2019 ، 11 ، 1702. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
- لی، جی. ژیو، جی. یانگ، ز. لیو، سی. شبکه توجه دو مسیر برای تقسیم بندی تصویر معنایی سنجش از دور. ISPRS Int. J. Geo-Inf. 2020 ، 9 ، 571. [ Google Scholar ] [ CrossRef ]
- رن، اس. ژو، اف. طبقه بندی نیمه نظارتی داده های PolSAR با شبکه کانولوشنال نمودار وزنی چند مقیاسی. در مجموعه مقالات سمپوزیوم بین المللی علوم زمین و سنجش از دور IEEE، Waikoloa، HI، ایالات متحده آمریکا، 26 سپتامبر تا 2 اکتبر 2020؛ صفحات 1715-1718. [ Google Scholar ] [ CrossRef ]
- وان، اس. گونگ، سی. ژونگ، پی. دو، بی. ژانگ، ال. یانگ، جی. شبکه کانولوشن گراف پویا چند مقیاسی برای طبقهبندی تصویر فراطیفی. IEEE Trans. Geosci. Remote Sens. 2020 , 58 , 3162–3177. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- ژائو، ال. آهنگ، ی. ژانگ، سی. لیو، ی. وانگ، پی. لین، تی. دنگ، م. Li، H. T-GCN: یک شبکه کانولوشنال نمودار زمانی برای پیش بینی ترافیک. IEEE Trans. هوشمند ترانسپ سیستم 2020 ، 21 ، 3848-3858. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- شهرکی، اف.ف. پراساد، S. نمودار شبکه های عصبی کانولوشنال برای طبقه بندی داده های فراطیفی. در مجموعه مقالات کنفرانس جهانی IEEE در مورد پردازش سیگنال و اطلاعات، آناهیم، کالیفرنیا، ایالات متحده آمریکا، 26-29 نوامبر 2018؛ ص 968-972. [ Google Scholar ] [ CrossRef ]
- Qin، A.; شانگ، ز. تیان، جی. وانگ، ی. ژانگ، تی. تانگ، شبکههای کانولوشنال نمودار طیفی-فضایی YY برای طبقهبندی تصویر ابرطیفی نیمهنظارتشده. IEEE Geosci. سنسور از راه دور Lett. 2019 ، 16 ، 241-245. [ Google Scholar ] [ CrossRef ]
- وان، اس. گونگ، سی. ژونگ، پی. پان، اس. لی، جی. یانگ، جی. طبقهبندی تصویر فراطیفی با شبکه کانولوشنال گراف دینامیکی آگاه از زمینه. IEEE Trans. Geosci. Remote Sens. 2021 , 59 , 597–612. [ Google Scholar ] [ CrossRef ]
- مو، ال. لو، ایکس. لی، ایکس. Zhu، XX گراف غیرمحلی شبکههای کانولوشن برای طبقهبندی تصویر فراطیفی. IEEE Trans. Geosci. Remote Sens. 2020 , 58 , 8246–8257. [ Google Scholar ] [ CrossRef ]
- خان، ن. چاودوری، یو. بانرجی، بی. Chaudhuri، S. Graph شبکه کانولوشن برای تشخیص صحنه سنجش از راه دور VHR چند برچسبی. محاسبات عصبی 2019 ، 357 ، 36-46. [ Google Scholar ] [ CrossRef ]
- شی، ی. لی، کیو. تقسیم بندی ساختمان زو، XX از طریق یک شبکه عصبی کانولوشن گراف دردار با تعبیه ویژگی ساختار یافته عمیق. ISPRS J. Photogramm. Remote Sens. 2020 , 159 , 184–197. [ Google Scholar ] [ CrossRef ]
- یانگ، جی. لو، جی. لی، اس. باترا، دی. Parikh, D. Graph R-CNN for Scene Graph Generation. در مجموعه مقالات پانزدهمین کنفرانس اروپایی بینایی کامپیوتر، مونیخ، آلمان، 8 تا 14 سپتامبر 2018؛ صص 690-706. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- کیو، اچ. لی، اچ. وو، کیو. منگ، اف. نگان، KN; Shi, H. A 2 RMNet: شبکه چند مقیاسی نسبت ابعاد تطبیقی برای تشخیص اشیا در تصاویر سنجش از دور. Remote Sens. 2019 , 11 , 1594. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- ون در ماتن، ال. هینتون، جی. تجسم داده ها با استفاده از t-SNE. جی. ماخ. فرا گرفتن. Res. 2008 ، 9 ، 2579-2605. [ Google Scholar ]
- ژانگ، جی. لین، اس. دینگ، ال. Bruzzone، L. تجمع زمینه چند مقیاسی برای تقسیم بندی معنایی تصاویر سنجش از دور. Remote Sens. 2020 , 12 , 701. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- چن، ال. پاپاندرو، جی. کوکینوس، آی. مورفی، ک. Yuille، AL DeepLab: Semantic Segmentation image with Deep Convolutional Nets، Atrous Convolution، و CRFهای کاملاً متصل. IEEE Trans. الگوی مقعدی ماخ هوشمند 2018 ، 40 ، 834-848. [ Google Scholar ] [ CrossRef ]
- لی، جی. مولر، ام. ثابت، AK; غانم، ب. DeepGCN: آیا GCN ها می توانند به عمق CNN ها بروند؟ در مجموعه مقالات کنفرانس بین المللی IEEE/CVF در بینایی کامپیوتر، سئول، کره، 27 اکتبر تا 2 نوامبر 2019؛ ص 9266-9275. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- جادربرگ، م. سیمونیان، ک. زیسرمن، آ. Kavukcuoglu، K. شبکه های ترانسفورماتور فضایی. در مجموعه مقالات کنفرانس سالانه سیستمهای پردازش اطلاعات عصبی، مونترال، QC، کانادا، 7 تا 12 دسامبر 2015. صفحات 2017–2025. [ Google Scholar ]
- اندروز، ام. چیا، YK; Witteveen، S. نمودار صحنه تجزیه با توجه نمودار. arXiv 2019 ، arXiv:1909.06273. [ Google Scholar ]
- یانگ، ز. Qin، Z. یو، جی. Hu, Y. استدلال نمودار صحنه با رابطه بصری قبلی برای پاسخ به سؤال بصری. arXiv 2018 , arXiv:1812.09681. [ Google Scholar ]
- تانگ، ک. ژانگ، اچ. وو، بی. لو، دبلیو. لیو، دبلیو. آموزش نوشتن ساختارهای درختی پویا برای زمینه های بصری. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 16 تا 20 ژوئن 2019؛ صص 6619–6628. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- ژانگ، جی. الحسینی، م. کوهن، اس. چانگ، دبلیو. الگامال، شبکه های پیشنهادی رابطه AM. در مجموعه مقالات کنفرانس IEEE در مورد دید رایانه و تشخیص الگو، هونولولو، HI، ایالات متحده آمریکا، 21 تا 26 ژوئیه 2017؛ صص 5226–5234. [ Google Scholar ] [ CrossRef ]
- هوکرایتر، اس. اشمیدهابر، جی. حافظه کوتاه مدت طولانی. محاسبات عصبی 1997 ، 9 ، 1735-1780. [ Google Scholar ] [ CrossRef ]
- چن، تی. یو، دبلیو. چن، آر. Lin, L. شبکه مسیریابی جاسازی شده دانش برای تولید نمودار صحنه. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 16 تا 20 ژوئن 2019؛ صص 6163–6171. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]











بدون دیدگاه