چکیده

تقسیم بندی معنایی به طور گسترده در کار اصلی استخراج اطلاعات از تصاویر استفاده شده است. با وجود این پیشرفت، هنوز دو چالش وجود دارد: (1) برای یک میدان گیرنده تک اندازه دشوار است که ویژگی های نمایشی به اندازه کافی قوی را به دست آورد، و (2) ساختار سنتی رمزگذار-رمزگشا به طور مستقیم ویژگی های کم عمق را با ویژگی های عمیق ادغام می کند. با این حال، به دلیل تعداد کم لایه‌های شبکه که ویژگی‌های کم عمق از آن‌ها عبور می‌کنند، توانایی نمایش ویژگی ضعیف است و اطلاعات نویز برای تأثیرگذاری بر عملکرد بخش‌بندی معرفی می‌شود. در این مقاله، یک ماژول چند مقیاسی تطبیقی ​​(AMSM) و ماژول فیوز تطبیقی ​​(AFM) برای حل این دو مشکل پیشنهاد شده‌اند. AMSM ایده کانال و توجه فضایی را اتخاذ می کند و به صورت تطبیقی ​​شاخه های سه کانال را با تنظیم ساختارهای انشعاب با نرخ های خالی مختلف ترکیب می کند و به طور انعطاف پذیر وزن ها را مطابق با محتوای تصویر تولید می کند. AFM از نقشه‌های ویژگی عمیق برای فیلتر کردن نقشه‌های ویژگی‌های کم عمق استفاده می‌کند و وزن نقشه‌های ویژگی عمیق و کم عمق را برای فیلتر کردن اطلاعات نویز در نقشه‌های ویژگی کم عمق به‌طور موثر به دست می‌آورد. بر اساس این دو مدول متقارن، آزمایش‌های گسترده‌ای انجام داده‌ایم. در مجموعه داده ISPRS Vaihingen، امتیاز F1 و دقت کلی (OA) به ترتیب به 86.79٪ و 88.35٪ رسید. AFM از نقشه‌های ویژگی عمیق برای فیلتر کردن نقشه‌های ویژگی‌های کم عمق استفاده می‌کند و وزن نقشه‌های ویژگی عمیق و کم عمق را برای فیلتر کردن اطلاعات نویز در نقشه‌های ویژگی کم عمق به‌طور موثر به دست می‌آورد. بر اساس این دو مدول متقارن، آزمایش‌های گسترده‌ای انجام داده‌ایم. در مجموعه داده ISPRS Vaihingen، امتیاز F1 و دقت کلی (OA) به ترتیب به 86.79٪ و 88.35٪ رسید. AFM از نقشه‌های ویژگی عمیق برای فیلتر کردن نقشه‌های ویژگی‌های کم عمق استفاده می‌کند و وزن نقشه‌های ویژگی عمیق و کم عمق را برای فیلتر کردن اطلاعات نویز در نقشه‌های ویژگی کم عمق به‌طور موثر به دست می‌آورد. بر اساس این دو مدول متقارن، آزمایش‌های گسترده‌ای انجام داده‌ایم. در مجموعه داده ISPRS Vaihingen، امتیاز F1 و دقت کلی (OA) به ترتیب به 86.79٪ و 88.35٪ رسید.

کلید واژه ها:

چند مقیاس کانولوشن ; بینایی کامپیوتری ؛ تقسیم بندی معنایی ; سنجش از دور ؛ شبکه عصبی ؛ ISPRS Vaihingen

1. مقدمه

تقسیم‌بندی معنایی تصاویر سنجش از دور، دسته‌هایی را به هر دسته در تصاویر سنجش از راه دور اختصاص می‌دهد، در نتیجه وظیفه طبقه‌بندی در سطح پیکسل را تکمیل می‌کند. کاربرد آن بسیار گسترده است و در زمینه هایی مانند نظارت بر استخراج پوشش گیاهی [ 1 ]، برنامه ریزی شهری [ 2 ، 3 ] و استخراج ساختمان [ 4 ، 5 ] و سایر موارد استفاده می شود.
در سال‌های اخیر، با توسعه یادگیری عمیق، الگوریتم‌های تقسیم‌بندی تصویر سنجش از دور مبتنی بر یادگیری عمیق به سرعت توسعه یافته‌اند. جوهر اطلاعات چند مقیاسی برای تشخیص هدف با مقیاس های مختلف به تدریج پدیدار شده است. مردم همچنین روش‌های زیادی را پیشنهاد کرده‌اند که می‌توانند برای تقسیم‌بندی معنایی تصویر اعمال شوند. در سال 2015، لانگ و همکاران. یک شبکه کاملاً کانولوشنال (FCN) [ 6 ] را پیشنهاد کرد، که لایه کانولوشنال آخرین لایه CNN سنتی را به یک لایه کاملاً متصل تبدیل می‌کند و از یک شبکه عصبی کانولوشن عمیق پایان به انتها برای تکمیل وظایف بخش‌بندی معنایی استفاده می‌کند. پس از آن، هوانگ و همکاران. U-Net را پیشنهاد کرد [ 7شبکه ] که یک مدل تقسیم بندی معنایی مبتنی بر رمزگذاری و رمزگشایی است. این مدل از اتصالات پرش برای اتصال ویژگی های به دست آمده توسط رمزگشا با نقشه های ویژگی مربوطه رمزگذار در هر سطح استفاده می کند. به این ترتیب می توان از اطلاعات معنایی بین سطوح مختلف به طور کامل استفاده کرد و مشکل از دست رفتن اطلاعات دقیق را به خوبی حل کرد. پس از این، PSPNet [ 8 ] و DeepLab [ 9 ] ساختار رمزگذار-رمزگشا را بیشتر بررسی کردند. PSPNet از ماژول هرم فضایی برای جمع آوری اطلاعات متنی در مناطق مختلف برای دستیابی به توانایی به دست آوردن اطلاعات جهانی استفاده می کند. مشابه این، DeepLabv3+ [ 10] اطلاعات ویژگی های چند مقیاسی را از طریق هرم ادغام کانولوشن فضای توخالی به دست می آورد. در تقسیم بندی معنایی تصاویر با وضوح بالا، شبکه هرمی متراکم (DPN) [ 11 ] داده های چند حسگر را پردازش می کند تا نقشه های ویژگی هر کانال را به طور جداگانه استخراج کند. اخیراً، در یک چارچوب پایان به انتها، شبکه پایش خوشه (ClusDet) [ 12 ] پایش اهداف چند مقیاسی خوشه را از طریق یکسان سازی خوشه‌بندی نرمال‌شده چند مقیاسی و مدل‌های ضمنی محقق کرد.
اگرچه تقسیم بندی معنایی تصاویر سنجش از دور پیشرفت قابل توجهی داشته است، هنوز دو محدودیت وجود دارد.
از یک طرف، تقریباً تمام تصاویر سنجش از دور، تصاویری با وضوح بالا هستند که در آنها پدیده چند مقیاسی اشیاء بسیار مشهود است، همانطور که در شکل 1 الف نشان داده شده است. بنابراین، برای یک میدان گیرنده تک اندازه دشوار است که ویژگی های شی را با توانایی توصیف کافی بدست آورد. ساختار ترکیبی هرم فضایی آتروس (ASPP) [ 10 ] ویژگی های چند مقیاسی تصویر را تا حد معینی از طریق نرخ انبساط پیوسته پیچش آتروس به دست می آورد [ 9 ، 10 ، 13 ، 14]. با این حال، این روش از یک وزن ثابت برای هر تصویر برای ترکیب ویژگی های چند مقیاسی هر شاخه استفاده می کند و نمی تواند بر اساس تنوع اندازه های تصویر یا تنظیم وزن تطبیقی ​​باشد. بنابراین، استفاده از این استراتژی برای شناسایی تصاویر سنجش از دور بهترین استراتژی نیست.
از سوی دیگر، ساختار رمزگذار-رمزگشای سنتی [ 15 ] به طور مستقیم نقشه ویژگی عمیق و نقشه ویژگی کم عمق را از طریق ADD یا CAT ادغام می کند. اگرچه این روش می تواند تا حدودی به ادغام نقشه ویژگی های کم عمق و نقشه ویژگی عمیق دست یابد، اما این ترکیب انتخابی نیست. اگرچه ساختار شبکه کم عمق اطلاعات دقیق تری دارد، اما تعداد لایه های شبکه عبور داده شده کمتر است و تعداد کانولوشن ها محدود است، بنابراین توانایی استخراج ویژگی ها محدود است. در نقشه ویژگی نویز زیادی وجود خواهد داشت که بر اثر تقسیم بندی تأثیر می گذارد. بنابراین، فیلتر کردن اطلاعات نویز از طریق انتخاب اطلاعات برای نقشه‌های ویژگی کم عمق قبل از ترکیب نقشه ویژگی بسیار ضروری است.
برای رفع نواقص فوق، دو ساختار را برای حل این مشکلات پیشنهاد می کنیم. با هدف اولین نقص، ما یک ماژول فیوژن چند مقیاسی تطبیقی ​​(AMSM) را پیشنهاد می‌کنیم. بر اساس استخراج ویژگی های چند شاخه ای کلاسیک، ما به طور تطبیقی ​​نسبت های وزن همجوشی مختلفی را برای هر تصویر با توجه به مقیاس تصویر ایجاد می کنیم. به عنوان مثال، برای تصاویر سنجش از دور با ویژگی‌های بارز مقیاس بزرگ، شاخه‌های مقیاس بزرگ از وزنه‌های همجوشی بزرگ‌تر استفاده می‌کنند. به طور مشابه، به شاخه های کوچکتر وزن بیشتری برای ادغام داده می شود.
از طریق روش های فوق، ماژول AMSM از یک روش تطبیقی ​​برای حل مشکل ویژگی های چند مقیاسی تصاویر سنجش از دور استفاده می کند.
با هدف کاستی دوم، در نظر گرفته می‌شود که اگرچه نقشه ویژگی عمیق اطلاعات دقیقی را از دست داده است، اما از تمایز ویژگی بهتری برخوردار است. بنابراین، ما ماژول فیوز تطبیقی ​​(AFM) را پیشنهاد می کنیم. این ماژول از ویژگی های عمیق برای فیلتر کردن نقشه های ویژگی های کم عمق استفاده می کند. پس از فیلتر شدن اطلاعات نویز، نقشه های ویژگی ترکیب می شوند.
از طریق ایده های بالا، AFM می تواند مشکل نویز در ویژگی های کم عمق تصاویر سنجش از دور را به خوبی حل کند.
به طور خلاصه، عمده ترین مطالب این مقاله به شرح زیر است:
(1)
یک ماژول ترکیبی چند مقیاسی جدید – ماژول ASMS (ماژول چند مقیاسی تطبیقی) پیشنهاد شده است که می تواند به طور تطبیقی ​​ویژگی های چند مقیاسی از شاخه های مختلف را با توجه به ویژگی های اندازه تصاویر سنجش از دور ترکیب کند و اثر بخش بندی بهتری در مجموعه داده ها دارد. با اندازه های پیچیده و متغیر.
(2)
ما یک AFM (ماژول فیوز تطبیقی) طراحی کردیم که می تواند اطلاعات کم عمق تصاویر سنجش از راه دور را فیلتر و استخراج کند. این ماژول می تواند اطلاعات ویژگی های کم عمق و عمیق را به طور موثر ترکیب کند. پس از به دست آوردن وزن لایه های کم عمق و عمیق، این وزن ها در وزن اصلی نقشه ویژگی ضرب می شوند تا بر اطلاعات مفید موجود در نقشه ویژگی های کم عمق تأکید شود و نویزهای بی فایده را مهار کنند. به طوری که نقشه ویژگی عمیق می تواند اطلاعات دقیق تری را به دست آورد.
(3)
نوع جدیدی از ساختار شبکه – شبکه وزنی تطبیقی ​​(AWNet) پیشنهاد شده است که یک ساختار شبکه تعبیه شده با AMSM و AFM است. AWNet یکی از بهترین دقت ها را در مجموعه داده های ISPRS Vaigingen به دست آورد که به دقت کلی 88.35 درصد رسید.

2. کارهای مرتبط

در این بخش، توسعه ساختار تقسیم بندی معنایی و مکانیسم توجه [ 16 ] را معرفی می کنیم تا در مورد کار خود بهتر بحث کنیم.

2.1. تقسیم بندی معنایی

در سال های اخیر، با توسعه یادگیری عمیق و قدرت محاسباتی واحدهای پردازش گرافیکی، تقسیم بندی معنایی نیز پیشرفت قابل توجهی داشته است. در سال 2015، FCN لایه کاملاً متصل شبکه طبقه‌بندی کلاسیک را با یک لایه کانولوشن جایگزین کرد و به آموزش انتها به انتها [ 6 ] دست یافت که به کار پیشگام تقسیم‌بندی معنایی تبدیل شد.
بعداً، بر این اساس، DeepLabv3+ [ 10 ]، MSCI [ 17 ]، SPGNet [ 18 ]، RefineNet [ 19 ] و DFN [ 20 ] همگی ساختار رمزگذار-رمزگشا را برای پیش‌بینی متراکم پذیرفتند. در میان آنها، شبکه های Refinenet و Global Convolutional Networks (GCNS) [ 21 ] به طور متوالی به پیشرفته ترین عملکرد رسیده اند. به تدریج، استفاده از تقسیم بندی معنایی در مقیاس چندگانه نیز پیشرفت جدیدی داشته است. برای مقابله با مقیاس‌ها و تغییر شکل‌های مختلف اجسام تقسیم‌بندی شده، افراد از شبکه‌های کانولوشن قابل تغییر شکل (DCN) [ 22 ] و پیچش‌های تطبیقی ​​مقیاس (SAC) [ 23 ] استفاده می‌کنند.] مدل برای بهبود عملگر پیچیدگی استاندارد. بلافاصله پس از این، CRF-RNN [ 24 ] و DPN [ 25 ] از مدل نمودار برای تقسیم بندی معنایی استفاده کردند. به منظور گرفتن و تطبیق رابطه معنایی بین پیکسل های مجاور در فضای برچسب، AAF [ 26 ]، با استفاده از یادگیری مخالف، به این هدف دست می یابد. BiSeNet [ 27 ] با بخش بندی معنایی بلادرنگ اعمال می شود. DenseDecoder [ 28 ] برای اولین بار یک اتصال پرش از راه دور در سطح عملکردی بر روی معماری آبشار ایجاد کرد، که اثر بخش‌بندی معنایی را بیشتر بهبود بخشید. بعداً CE2P [ 29] ساختار شبکه ای را پیشنهاد کرد که می تواند هم به تشخیص لبه و هم تعبیه زمینه محاسباتی دست یابد، که همچنین یک چارچوب کارآمد و مختصر است. بدیهی است که تقسیم بندی معنایی پیشرفت چشمگیری در زمینه های مختلف داشته است.

2.2. ماژول توجه

در حال حاضر، مکانیسم توجه به طور گسترده در بینایی کامپیوتر و پردازش زبان طبیعی استفاده شده است. ماژول مکانیسم توجه در دید افراد ظاهر شد. این یک طراحی نوآورانه برجسته است که شامل سه بخش است: فشار، تحریک و توجه. برای وظایف طبقه بندی چند برچسبی، هائو گوو و همکاران. از ثبات توجه [ 30 ] برای جبران نقص های افزایش داده ها در وظایف طبقه بندی تصویر استفاده کرد. این مدل از ساختار دو شاخه ای استفاده می کند و از دو نقشه حرارتی تولید شده توسط CAM [ 31 ] برای دستیابی به اثر تمرکز بر روی همان قسمت پس از تقویت داده ها استفاده می کند. پس از آن، به منظور تحقق بخشیدن به موقعیت اشیاء مشترک بین تصاویر، Bo Li، و همکاران. گیت به‌روزرسانی را تنظیم کنید و گیت را بازنشانی کنید [ 32] به طوری که به طور مداوم واحد پنهان را به روز می کند تا اطلاعات همه تصاویر را یکپارچه کند و سپس پارامترها را برای هدایت تولید مقادیر پیش بینی شده برای هر نمونه برمی گرداند. برای یادگیری چند وظیفه ای، لیو اس و همکاران. توجه به هر کار را به عنوان انتخابگر ویژگی [ 33 ] تطبیق داد و استخراج ویژگی های خاص هر کار را ممکن کرد. لو، ژیانکای و همکاران. ماژول هم‌توجه [ 34 ] را پیشنهاد کرد که فریم‌های مجاور را تراز می‌کند و سپس اطلاعات بین فریم‌های مجاور را برای دستیابی به تقسیم‌بندی اشیاء ویدیویی بدون نظارت یکپارچه می‌کند. برای وظیفه موقعیت یابی هدف، اگرچه هر کانال می تواند به یک شی خاص پاسخ دهد، نویز یک شی خیلی زیاد است. هلیانگ ژنگ و همکاران [ 35] از ایده توجه به خود استفاده کنید، هر کانال را به عنوان یک نقشه توجه فضایی در نظر بگیرید، آن را با یک قسمت مشخص مطابقت دهید، و موقعیت تطبیقی ​​و بدون نظارت ناحیه هر قسمت از جسم را درک کنید.

2.3. ادغام هرم فضایی و پیچش آتروس

در ساختار قبلی CNN، ورودی شبکه عصبی کانولوشن تنها می‌تواند تصاویری با اندازه ثابت وارد کند، که رفع نیازهای بینایی کامپیوتری مدرن را دشوار می‌کند. به منظور درک تشخیص اشیاء چند مقیاسی، مردم ادغام هرمی فضایی (SPP) را بر اساس یک شبکه عصبی کانولوشن پیشنهاد کردند [ 26 ]. ساختار SPP می تواند از اندازه های متفاوتی از یک تصویر به عنوان ورودی و خروجی از ویژگی ادغام یکسان استفاده کند. علاوه بر این، صرف نظر از ورودی هر اندازه ای از تصویر، تصویر پس از SPP می تواند اندازه خروجی ثابتی تولید کند. در نهایت، تمام نتایج تقسیم بندی برای به دست آوردن نتیجه تقسیم بندی معنایی تصویر ورودی اصلی ادغام می شوند.
بعداً مفهوم نمونه برداری موازی پیشنهاد شد و نسخه ارتقا یافته SPP به نام ASPP ظاهر شد. در این ماژول، تصویر ورودی را می توان به صورت موازی با پیچش نامنظم نمونه برداری کرد. پس از نمونه برداری از هر کانال و افزودن پیکسل ها، نتایج حاصل از پیچش نامنظم هر شاخه با هم ترکیب می شوند تا نتیجه پیش بینی نهایی به دست آید. ASPP همچنین از پیچیدگی آتروس استفاده کامل می‌کند و به طور موثر میدان دریافت را بدون افزایش مقدار پارامترها و ادغام اطلاعات زمینه بیشتر گسترش می‌دهد. کانولوشن توخالی یک روش کانولوشن است که در زمینه تقسیم بندی تصویر متولد شده است. ویژگی های تصویر ورودی را از طریق یک شبکه عصبی کانولوشن پیشنهاد می کند، و میدان دریافت را گسترش می دهد، در حالی که ادغام می شود تا اندازه تصویر را کاهش دهد. سپس، اندازه تصویر را با نمونه برداری مجدد برای تولید یک تصویر خروجی بازیابی می کند. با این حال، به دلیل محدودیت‌های الگوریتم نمونه‌برداری، بسیاری از جزئیات با ادغام از بین خواهند رفت. این مشکل با گسترش میدان گیرنده حل می شود. یک پارامتر مهم (r) در پیچ خوردگی آتروس وجود دارد. هنگامی که r = 1، یک فرآیند پیچیدگی استاندارد است. وقتی r > 1 باشد، از هر (r − 1) پیکسل یک بار نمونه برداری می شود. این ایده شبیه به پیچیدگی گشاد شده است [13 ].

3. مواد و روشها

با الهام از مکانیسم توجه [ 30 ]، ماژول AMSM و ماژول AFM را پیشنهاد کردیم. در این بخش، ما عمدتاً تحقق این مدل خاص را شرح می دهیم. ابتدا، معماری کلی مورد استفاده برای آزمایش هر دو ماژول، یعنی گردش کار AWNet را معرفی کردیم. پس از آن، معماری شبکه ماژول AMSM معرفی می شود. در نهایت، اصل ساخت ماژول AFM توضیح داده شده است.

3.1. بررسی اجمالی

همانطور که در شکل 2 نشان داده شده است ، این شبکه عمدتاً از سه بخش تشکیل شده است: رمزگذار پیش پردازش ResNet بر اساس بلوک باقیمانده. AMSM; و AFM ماژول توجه و بلوک نمونه برداری. ساختار رمزگذار – رمزگشا یکی از رایج ترین ساختارها در شبکه های قطعه بندی شده است. استخراج اطلاعات موثر جهانی و محلی با استخراج تصاویر سنجش از دور با وضوح بالا امکان پذیر است. در بخش رمزگذار، شبکه استفاده موثر از اطلاعات معنایی و مکانی را تضمین می کند. ابتدا، ما سطوح مختلف اطلاعات معنایی را از طریق Resnet101 خروجی می دهیم [ 36] شبکه. سپس از AMSM انباشته شده در قسمت رمزگذار به عنوان استخراج کننده ویژگی استفاده کردیم. هر سطح استخراج ویژگی های چند مقیاسی را بر روی اطلاعات معنایی تصویر با ابعاد ثابت انجام می دهد تا اطمینان حاصل شود که می تواند به طور تطبیقی ​​با تغییر مقیاس تصویر ترکیب شود. سپس، ما از AFM برای ادغام کامل اطلاعات معنایی عمیق و کم عمق استفاده کردیم. این ماژول یک استخراج کننده ویژگی بهتر است که برای اطمینان از وضوح ثابت طراحی شده است. پس از پایان پردازش، تعداد کانال های نقشه ویژگی به همان تعداد دسته کاهش یافت. بخش رمزگشا از نمونه برداری برای بازگرداندن نقشه ویژگی به اندازه تصویر اصلی و خروجی نتیجه نهایی استفاده می کند. حقایق ثابت کرده است که AWNet پیشنهادی ما، یک ساختارشکنی شبکه جدید که ترکیبی از AMSM و AFM است،

در عین حال، در نظر گرفتن جزئیات سطح پایین با حفظ اطلاعات معنایی سطح بالا برای دستیابی به تقسیم بندی معنایی دقیق تر، مهم است. به خصوص برای تصاویر سنجش از دور با وضوح بالا، اطلاعات دقیق تری نسبت به تصاویر طبیعی دارد. به طور کلی، شبکه های عمیق تر عملکرد بهتری خواهند داشت. با این حال، به دلیل ناپدید شدن گرادیان، نتایج آموزش رضایت بخش نخواهد بود، همانطور که در شکل 1 نشان داده شده است. این مشکل را می توان با استفاده از شبکه های عصبی باقیمانده، همانطور که در شکل 3 نشان داده شده است، حل کرد . مکانیسم بلوک های باقیمانده را می توان با فرمول زیر بیان کرد:

 YL=اچ(ایکسL)+اف(ایکسL،دبلیوL)
ایکسL+1=f(YL)
اینجا، ایکسLو ایکسL+1بلوک های باقیمانده ورودی یا خروجی را نشان می دهد و هر بلوک باقیمانده ممکن است دارای یک ساختار چند لایه باشد. تابع باقیمانده را می توان با نشان داد اف، که با وزن بدست می آید دبلیوLو خروجی ایکسLاز لایه قبلی اینجا اچ(ایکسL)ورودی لایه خاصی از شبکه عصبی است. اگر خروجی مورد انتظار، YL، یک نگاشت پنهان پیچیده است، آموزش چنین مدلی دشوارتر است. ورودی اچ(ایکسL)از شبکه عصبی این لایه می توان به طور مستقیم به عنوان نتیجه اولیه خروجی این لایه برای بهبود موثر اثر آموزشی استفاده کرد. f(ایکس)تابع فعال سازی واحد خطی Relu است.

3.2. پیش فرآوری

قبل از آموزش رسمی، ما از ResNet-101 توسعه یافته از پیش آموزش داده شده برای پیش پردازش تصویر ورودی برای استخراج ویژگی های معنایی در محدوده جهانی استفاده کردیم. کل جریان ورودی معنایی را می توان به صورت زیر بیان کرد:

افس=اسθ(من)
اینجا من∈آراچ×دبلیو×3تصویر سنجش از راه دور ورودی اصلی را نشان می دهد. W و H به ترتیب عرض و ارتفاع تصویر ورودی را نشان می دهند. θ به ترتیب پارامترهای جریان ورودی معنایی را نشان می دهد. اف∈آراچ8×دبلیو8×2048نقشه معنایی نقشه ویژگی خروجی را نشان می دهد. اسθ(من)نشان دهنده فرآیند پیش پردازش جریان معنایی ResNet تحت شرایط θ است. متغیر مستقل I جریان ورودی معنایی اصلی است.

3.3. ماژول چند مقیاسی تطبیقی ​​(AMSM)

از آنجایی که ساختار ASPP به طور مستقیم مقیاس های متعدد را ادغام می کند (نرخ آتروس متفاوت)، ادغام تطبیقی ​​اطلاعات شاخه را تضمین نمی کند، که منجر به ناسازگاری در کلاس می شود. به منظور حل مشکل تفاوت در ویژگی های مربوط به اشیاء با برچسب یکسان، ساختار AMSM را برای بهینه سازی تطبیقی ​​ویژگی ها با استفاده از مکانیسم توجه طراحی کردیم.
شکل 4 این ساختار را با جزئیات نشان می دهد. این ماژول توجه فضایی و ماژول توجه کانال را ترکیب می کند. به منظور افزایش کامل اثر خصوصیات ماژول، این دو ماژول با هم ترکیب می شوند. این سازه از سه ساختار موازی تشکیل شده است و وزن های به دست آمده با استفاده از مکانیسم توجه فضایی در خروجی ساختار موازی پیکسل به پیکسل ضرب می شوند. پس از آن، ماژول شبکه باقیمانده برای ضرب نمودار ویژگی پیکسل به پیکسل با وزن تولید شده توسط توجه چند کانالی استفاده می شود. در نهایت، نقشه ویژگی به اندازه تصویر ورودی اصلی از طریق بلوک فیوز (متشکل از 1 × 1 لایه کانولوشنال و 3 × 3 لایه کانولوشن به صورت سری) بازیابی می شود.

برای سه شاخه AMSM، هر شاخه با نرخ خالی متفاوتی مطابقت دارد تا وزن‌های متفاوتی با توجه به اندازه تصویر سنجش از راه دور بدست آید. تصویر ورودی از یک ماژول توجه فضایی عبور می کند. تعداد کانال های خروجی این ماژول سه کانال می باشد. ما فرض کردیم که خروجی ایکسمن( i = 1, 2, 3) ویژگی هر لایه است و نتایج خروجی سه کانال به عنوان وزن فضاهای مربوطه در نظر گرفته می شود. سپس، همانطور که در قسمت سمت راست شکل 4 نشان داده شده است ، از مکانیسم توجه فضایی برای تولید وزن SA وزن [ 37 ] استفاده کردیم . پس از بدست آوردن وزن توجه فضایی، در هر شاخه ضرب شد تا همجوشی حاصل شود. شکل 5 روند به دست آوردن وزن توجه فضایی و وزن توجه کانال را نشان می دهد. تصویر ورودی از یک ماژول توجه کانال عبور می کند و توجه کانال برای غربالگری بیشتر استفاده می شود، با این فرض که هر لایه خروجی دارد. Yمن( i = 1، 2). سپس ویژگی فیوژن نمناز هر کانال توجه فضایی است

نمن=ایکسمن⋅Yمن

علاوه بر این، خروجی سه لایه اضافه شده و ذوب می شود و f(ایکس)اتصال پرش است.

م=Yمن(ن1+ن2+ن3)+f(ایکس)
در نهایت، نتایج خروجی با ساختار باقیمانده از طریق دو لایه درگیر می‌شوند تا اثر کاهش تعداد کانال‌ها به دست آید.
شایان ذکر است که استفاده از AMSM بسیار ساده است و نیازی به پارامترهای اضافی یا محاسبات زیادی ندارد. برای مدل های مختلف شبکه، دو روش رایج تعبیه وجود دارد. یکی اضافه کردن AMSM بعد از هر لایه پیچشی برخی از ساختار شبکه است. دیگری اضافه کردن AMSM بین دو بلوک شبکه باقی مانده است.
ماژول توجه کانال با استفاده از اتصالات کانال بین ویژگی ها، نقشه های ویژگی توجه کانال را ایجاد می کند. هر کانال در نقشه ویژگی به عنوان یک آشکارساز ویژگی در نظر گرفته می شود. تمرکز مکانیسم توجه کانال عمدتاً بر آنچه در تصویر ورودی معنادار است است. توجه کانال از دو روش متداول برای جمع آوری اطلاعات مکانی استفاده می کند، یعنی عملیات جمع آوری حداکثر و میانگین عملیات.
توجه فضایی با توجه کانال بالا متفاوت است، عمدتاً بر روی اطلاعات موقعیت تصویر ورودی تمرکز می کند. ابتدا از ادغام متوسط ​​و حداکثر ادغام برای به دست آوردن دو توصیف ویژگی متفاوت استفاده می کند. در بعد کانال، دو توصیف ویژگی ادغام شده است. در نهایت، ما از عملیات concat برای تولید نقشه توجه فضایی استفاده کردیم.

3.4. ماژول فیوز تطبیقی ​​(AFM)

ورودی AFM یک نقشه ویژگی از اطلاعات معنایی از اندازه های مختلف هسته کانولوشن است. معماری ماژول فیوز تطبیقی ​​در شکل 6 نشان داده شده استو اعداد مشخص شده در شکل اندازه هسته کانولوشن در بلوک است. همانطور که مشاهده می شود، در این ماژول از دو شاخه نقشه های عمقی و کم عمق، نقشه های ویژگی با وضوح های مختلف دریافت کردیم. هنگامی که نقشه ویژگی ترکیبی به دست آمد، لازم است اطمینان حاصل شود که دو شاخه یک اندازه دارند، بنابراین لازم است پس از نقشه ویژگی عمیق، نمونه برداری انجام شود تا اندازه نقشه ویژگی بازیابی شود. نقشه های ویژگی های کم عمق حاوی اطلاعات و جزئیات مفید لبه و همچنین نویز آزاردهنده هستند. بنابراین، ما نقشه ویژگی های کم عمق را با کمک ویژگی های عمیق فیلتر کردیم، اطلاعات نویز غیر ضروری را فیلتر کردیم و فقط جزئیات مورد نیاز را حفظ کردیم. سپس عملیات فیوژن را انجام دادیم. فرآیند تولید وزن در شکل 6 نشان داده شده استآ. بلوک فیوز پس از ادغام نقشه های عمیق و کم عمق سه لایه کانولوشنال 1 × 1 به صورت سری است. لازم به ذکر است که این نقشه های ویژگی به جای ادغام ساده، پیکسل به پیکسل اضافه خواهند شد.
دلایل زیادی برای انتخاب این روش وجود دارد، از جمله دلایل اصلی زیر. ابتدا، می توانیم اطمینان حاصل کنیم که وزن دو شاخه را می توان به راحتی پس از نرمال سازی داده ها به دست آورد. علاوه بر این، هزینه محاسبه را می توان در حالی که اندازه یکنواخت است کاهش داد. اما ویژگی پردازش شده در این فرم برای محاسبه و استخراج مناسب نیست. بنابراین برای تجمیع اطلاعات مکانی بهتر، پس از ادغام یک لایه کانولوشن اضافه می کنیم تا این مشکل حل شود. ما دیگر از یک شاخه واحد برای محاسبه اطلاعات معنایی جهانی و اطلاعات مکانی استفاده نمی کنیم. پیشنهاد می شود از چند مقیاس برای جمع آوری وزنه ها از لایه های عمیق و کم عمق استفاده شود. نقشه ویژگی نهایی مجموع نقشه های ویژگی دو شاخه خواهد بود، همانطور که در شکل 6 ب نشان داده شده است.

4. آزمایشات

برای تأیید اعتبار مدل خود، یک سری آزمایش را با استفاده از مجموعه داده ISPRS Vaihingen انجام دادیم. مجموعه داده‌ها از https://www2.isprs.org/commissions/comm3/wg4/2d-sem-label-vaihingen.html در دسترس هستند (تاریخ دسترسی ۲۵ نوامبر ۲۰۲۰). در A، مجموعه داده و شاخص اندازه گیری را معرفی کردیم. در B، روش پیش پردازش مجموعه داده را معرفی کردیم. و در C، ما فراپارامترهای خاص مورد استفاده در آزمایش را معرفی کردیم.
مجموعه داده ISPRS Vaihingen در مجموع شامل 33 بلوک نمودار است و مجموعه داده را می توان برای نشان دادن نشانه گذاری معنایی هر بلوک نمودار تقسیم کرد. شکل 7 تصویر ورودی یک نمونه در مجموعه داده ISPRS و حقیقت زمین مربوط به این تصویر را نشان می دهد.
ما آزمایش‌های زیادی را روی مجموعه داده‌های ISPRS Vaihingen برای ارزیابی مدل الگوریتم پیشنهادی انجام دادیم. آزمایش های زیر با این به عنوان نمونه انجام خواهد شد.

4.1. مجموعه آزمایش ها

(1) مجموعه های پایگاه داده
مجموعه داده ISPRS Vaihingen از 33 تصویر هوایی تشکیل شده است که در جدول 1 نشان داده شده است.. این تصاویر دارای وضوح مکانی 9 سانتی متر هستند و از مساحتی به وسعت 1.38 کیلومتر مربع جمع آوری شده اند. در این مجموعه داده، اندازه متوسط ​​هر تصویر 2494*2064 پیکسل است و هر تصویر دارای سه باند سبز (G)، مادون قرمز نزدیک (NIR) و قرمز (R) است. شایان ذکر است که برای دستیابی به یک الگوی تعمیم یافته، از داده های DSM در آزمایش های انجام شده در این مقاله استفاده نکردیم. مجموعه داده ها به داده های آموزشی (ID 1، 3، 11، 13، 15، 17، 21، 26، 28، 30، 32، 34) و داده های تأیید (ID 5، 7، 23، 37) تقسیم می شود. در همین حال، در مطالعه ما، تمام پیکسل های تصویر به شش دسته تقسیم می شوند که سطح سفید نفوذ ناپذیر، ساختمان آبی، پوشش گیاهی کم فیروزه ای، درخت سبز، ماشین زرد و پس زمینه قرمز، همانطور که در شکل 8 نشان داده شده است.
(2) شاخص های ارزیابی
به منظور ارزیابی بهتر مدل خود، از امتیاز F1 و دقت کلی (OA) به عنوان شاخص های ارزیابی دقت شبکه استفاده کردیم. دو شاخص طبقه بندی در زیر به اختصار معرفی می شوند.

امتیاز F1 یک شاخص بسیار مهم در مسائل طبقه بندی است. این نشانگر هم نرخ دقت و هم نرخ فراخوان را در نظر می گیرد و از درصد پیکسل هایی که دسته صحیح را پیش بینی می کنند به عنوان دقت کلی استفاده می کند. در بین آنها، هر دو مقدار بین 0 و 1 هستند. هر چه مقدار به 1 نزدیکتر باشد، دقت بالاتری دارد. دو پارامتر مورد استفاده برای محاسبه امتیاز F1 شامل یادآوری و دقت است که به صورت زیر تعریف می شوند:

rهجآلل(ج)=تیپسی×100%
پrهجمنسمنon(ج)=تیپسی×100

در میان آنها، TP نشان دهنده تعداد دسته های C است که به درستی توسط مدل پیش بینی شده است. P نشان دهنده تعداد کل پیکسل های نمونه پیش بینی شده توسط مدل به عنوان دسته C است و C تعداد کل پیکسل های نمونه است. هنگامی که لازم است هم نرخ دقت و هم نرخ فراخوانی در نظر گرفته شود، می توان از شاخص امتیاز F1 مدل برای قضاوت در مورد مزایا و معایب مدل استفاده کرد. F1-socre دقت و فراخوانی مدل را نیز در نظر می گیرد که به صورت زیر تعریف می شود:

اف1=2×پrهجمنسمنon(سی)×rهجآلل(سی)پrهجمنسمنon(سی)+rهجآلل(سی)×100%
در میان آنها، دقت نشان دهنده دقت مدل است که نسبت نتایج صحیح در کل نتایج پیش بینی شده توسط مدل است. یادآوری نرخ فراخوانی مدل است که درصدی از نتایج صحیح پیش‌بینی‌شده توسط مدل در برچسب ارزش واقعی نمونه است. 1 میانگین هارمونیک دقت و یادآوری است. بنابراین، امتیاز F1 تنها زمانی بالا خواهد بود که شاخص‌های دقت و فراخوان متعادل باشند.
دقت کلی نشان دهنده نسبت نمونه هایی است که به درستی در همه نمونه ها طبقه بندی شده اند. این شاخص صحت طبقه بندی کلی نقشه را نشان می دهد و یک معیار کلی تقریبی است.

دقت کلی درصد پیکسل هایی با کلاس درست پیش بینی شده است و دقت به صورت تعریف می شود

آججتوrآجy=تیآ×100%
در این فرمول، T نشان دهنده تعداد پیکسل هایی است که دسته بندی صحیح را پیش بینی می کنند و A تعداد کل پیکسل ها است.
برای هر دسته، میانگین امتیاز F1 با محاسبه تمام امتیازات F1 برای دستیابی به یک مدل ارزیابی منصفانه به دست می آید. شایان ذکر است که هر چه امتیاز F1 بالاتر باشد، نتیجه ارزیابی مدل بهتر است.

4.2. پیش پردازش مجموعه داده ها

با توجه به محدود بودن حافظه واحد پردازش گرافیکی (GPU)، تصویر ورودی مدل را از طریق یک پنجره کشویی به اندازه پیکسل ثابت برش می دهیم و سپس آن را به مدل خود وارد می کنیم تا تصاویر موجود در مجموعه داده را آموزش و تأیید کنیم. مشابه روش‌های پردازش رایج فعلی، ما از برخی از استراتژی‌های رایج‌تر بهبود داده‌ها برای دستیابی به بهبود داده‌ها استفاده کردیم، مانند تاری گاوسی، چرخش تصویر، برش تصادفی، چرخش افقی، چرخش عمودی، چرخش 90 درجه، ماسک شبکه و غیره. این روش ها نه تنها در افزایش داده ها نقش دارند، بلکه تا حدودی از بروز بیش از حد برازش جلوگیری می کنند.

4.3. پیاده سازی

ما استراتژی آموزشی زیر را توسعه دادیم. برای بهینه ساز مورد استفاده، بهینه ساز ADAM را انتخاب کردیم و پارامترهای بهینه ساز را طبق پیشنهادات تنظیم کردیم و نرخ یادگیری اولیه را 1e-3 قرار دادیم. این مدل بر روی یک NVIDIA Tesla V100 آموزش داده شده است. ما اندازه دسته را روی 3 تنظیم کردیم، در مجموع 50 دوره آموزش دادیم، و زمانی که افت تأیید شروع به کاهش کرد، آموزش را متوقف می کنیم. به منظور کاهش ارتعاش مدل در دوره بعدی آموزش، ما استراتژی کاهش نرخ یادگیری تطبیقی ​​را اتخاذ کردیم. ما از U-Net با ResNet-101 به عنوان خط پایه استفاده کردیم. مشابه روش مورد استفاده در مطالعات مشابه، تابع آنتروپی متقاطع وزنی برای آموزش کل مدل استفاده می شود. ما شبکه خود را با استفاده از PyTorch پیاده‌سازی کردیم، جایی که نرخ یادگیری به 1e-3 راه‌اندازی شد، زمانی که از دست دادن اعتبارسنجی اشباع شد. و زمانی که تابع ضرر اعتبار سنجی کاهش پیدا نکرد، آموزش را متوقف کردیم. پس از تنظیم پارامترهای فوق، AWNet را آموزش و تست کردیم. آموزش مدل حدود 50 ساعت و آزمایش حدود 20 دقیقه به طول انجامید.

4.4. مطالعه Ablation برای ماژول های رابطه

ما هر جزء از مدل را ارزیابی کردیم، از ResNet-101 به عنوان خط پایه خود استفاده کردیم و AFM و AMSM را برای افزایش سازگاری مدل اضافه کردیم. به منظور تأیید عملکرد مدل‌های مختلفی که پیشنهاد کردیم، مجموعه‌ای از آزمایش‌های فرسایشی را انجام دادیم. نتایج تجربی مدل های مختلف در مجموعه داده های Vaihingen در جدول 2 ارائه شده است.
میزان دقت کلی ResNet101 + AMSM + AFM در آزمایش‌های ابلیشن 88.35 درصد است که بهتر از ResNet، ResNet + AMSM و ResNet + AFM است. همانطور که در شکل 9 نشان داده شده است ، در مقایسه با حقیقت زمین، می بینیم که وقتی فقط از خط مبنا برای تقسیم بندی استفاده می شود، چسبندگی بین دو جسم مشابه که در فاصله نزدیک هستند آشکارتر است و نویز آشکاری در لبه وجود دارد. پس از افزودن AMSM یا AFM، پدیده چسبندگی کاهش یافت و استقلال جسم بهبود یافت. شکل 9 را ببینیدf دوباره پس از استفاده همزمان از AMSM و AFM، تقریبا هیچ چسبندگی بین لبه های بین دو جسم نزدیک به هم وجود ندارد. نویز در لبه هر جسم نیز به میزان قابل توجهی کاهش می یابد و مرز نتیجه تقسیم بندی واضح تر می شود.

4.5. مقایسه با آثار موجود

به منظور ارزیابی جامع تر از تحقیق خود، ابتدا مدل را با پنج شبکه شاخص [ 6 ، 7 ، 14 ، 15 ، 38 ] آزمایش کردیم و نتایج آزمون به دست آمده در جدول 3 نشان داده شده است. تصویر خروجی در شکل 10 نشان داده شده است . در همان زمان، ما همچنین مدل خود را با پنج مدل موجود بر اساس پیشرفت‌های شبکه، از جمله FCN با CRF کاملاً متصل (FCN-dcrf)، انتشار فضایی CNN (SCNN) [ 39 ]، FCN با پیچش آتروس (FCN گسترده) مقایسه کردیم. [ 9 ]، FCN با بازسازی ویژگی (FCN-FR) [ 40]، شبکه عصبی کانولوشنال (CNN-FPL) با یادگیری برچسب‌گذاری پچ از طریق نمونه‌برداری یادگیری [ 41 ]، و VGG16 PSPNet شبکه اصلی [ 42 ] است و نتایج آزمون در جدول 4 نشان داده شده است.
نتایج عددی مجموعه داده های Vaihingen در جدول 3 و جدول 4 نشان داده شده است. نتایج نشان می‌دهد که چه یک شبکه کلاسیک برجسته باشد و چه یک شبکه بهبود یافته مبتنی بر شبکه کلاسیک، مدل ما از نظر میانگین امتیاز F1 و دقت کلی نسبت به سایر روش‌ها برتری دارد. به طور خاص، به عنوان مثال، در مقایسه با FCN-dCRF و SCNN، میانگین امتیاز F1 شبکه پیشنهادی ما به ترتیب 1.70٪ و 1.92٪ افزایش یافته است که عملکرد بالای ماژول ارتباط فضایی را در شبکه ما تأیید می کند. این نشان می دهد که ادغام ماژول های رابطه AMSM و AFM موثر است.
مدل ما مزایای آشکاری در برخورد با اشیاء کوچک دارد. به طور خاص، دسته «ماشین» مقوله‌ای است که مدیریت آن در مجموعه داده‌های Vaihingen دشوار است، زیرا در مقایسه با سایر دسته‌ها، «ماشین» یک شی نسبتا کوچک است. همانطور که در جدول 3 و شکل 11 نشان داده شده است ، تعداد پیکسل ها در سایر دسته ها بسیار بیشتر از تعداد پیکسل های دسته “خودرو” است و تفاوت های زیادی در اشیا بین این دسته وجود دارد. به عنوان مثال، تنوع رنگ خودرو در تصویر نیز منجر به تفاوت های فاحش در این دسته می شود. روش پیشنهادی ما به دقت 82.22 درصد در رده خودرو دست می یابد که به طور قابل توجهی بالاتر از مدل های دیگر است که تأثیر روش ما را بر اهداف کوچک ثابت می کند.
علاوه بر این، نتایج کیفی در شکل 11 نشان داده شده است. برای خط اول، اگرچه منطقه کم پوشش گیاهی حاوی اطلاعات بافت محلی پیچیده است و به راحتی به اشتباه شناسایی می شود، به دلیل عملکرد قدرتمند آن، شبکه ما می تواند نتایج دقیق تری را در مقایسه با روش های دیگر، برای حل مشکل تاری دید به دست آورد [ 43 ، 44 ، 45 ] با استفاده از روابط جهانی، و پدیده طبقه بندی نادرست طبقه بندی [ 46 ] بسیار کاهش می یابد. علاوه بر این، لبه مدل ما واضح تر و منسجم تر است، که ثابت می کند که مدل عملکرد حذف نقاط پرت را دارد و نویز در اطلاعات جزئیات تأثیر کمتری بر نتیجه دارد.

5. نتیجه گیری و کار آینده

در این مقاله، ما دو نوع ماژول شبکه موثر را برای حل مشکلات نویز و طبقه‌بندی در تصاویر سنجش از دور پیشنهاد می‌کنیم. ماژول چند مقیاسی تطبیقی ​​(AMSM) و ماژول فیوز تطبیقی ​​(AFM). در میان آن‌ها، ماژول چند مقیاسی تطبیقی ​​(AMSM) می‌تواند وزن فضایی را به‌طور تطبیقی ​​تولید کند که اثر بخش‌بندی بهتری در مجموعه داده‌ها با اندازه شی پیچیده و متغیر دارد. ماژول AFM (ماژول فیوز تطبیقی) که می تواند اطلاعات کم عمق تصاویر سنجش از راه دور را فیلتر و استخراج کند نیز طراحی شده است. این ماژول می تواند به طور موثر اطلاعات نویز را در تصویر ویژگی لایه کم عمق حذف کند و جزئیات را با استحکام بهتر در تصویر ویژگی لایه عمیق جبران کند. هر دو ماژول رابطه اطلاعات ارتباط کلی بین هدف و نمودار ویژگی را یاد می گیرند. تأیید شده در مجموعه داده Vaihingen، ما از شبکه دو ماژول رابطه برای شناسایی بهتر اهداف کوچکتر استفاده کردیم و در عین حال دقت کلی خوبی را حفظ کردیم. علاوه بر این، شبکه ویژگی کانولوشن چند مقیاسی AMSM و AFM از نظر دید و ارزش عددی نسبت به مدل‌های دیگر برتری دارد. امتیاز F1 AWNet به OA رسید و به 88.35 درصد رسید. با این حال، درک ما از نحوه برخورد این دو ماژول با مشکلات تقسیم بندی در تصاویر سنجش از راه دور هنوز در دسترس نیست و تحقیقات بیشتری مورد نیاز است.

اختصارات

در این نسخه از اختصارات زیر استفاده شده است:

AMSM ماژول چند مقیاسی تطبیقی
AFM ماژول فیوز تطبیقی
AWNet شبکه وزنی تطبیقی
ASPP ادغام هرم فضایی آتروس
لیسانس خط پایه
RGB قرمز-سبز-آبی
CNN شبکه عصبی کانولوشنال
OA دقت کلی

منابع

  1. ون، دی. هوانگ، ایکس. لیو، اچ. لیائو، دبلیو. Zhang، L. طبقه بندی معنایی درختان شهری با استفاده از تصاویر ماهواره ای با وضوح بسیار بالا. IEEE J. Sel. بالا. Appl. زمین Obs. Remote Sens. 2017 ، 10 ، 1413-1424. [ Google Scholar ] [ CrossRef ]
  2. شی، ی. چی، ز. لیو، ایکس. نیو، ن. ژانگ، اچ. استفاده از زمین شهری و طبقه بندی پوشش زمین با استفاده از تصاویر سنجش از دور چند منبعی و داده های رسانه های اجتماعی. Remote Sens. 2019 , 11 , 2719. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  3. ماتیکاینن، ال. Karila، K. نقشه برداری پوشش زمین مبتنی بر بخش از یک منطقه حومه شهر-مقایسه مجموعه داده های سنجش از دور با وضوح بالا با استفاده از درختان طبقه بندی و نقاط میدان آزمایشی. Remote Sens. 2011 ، 3 ، 1777-1804. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  4. خو، اس. پان، X. دروغ.؛ وو، بی. اتوبوس.؛ دونگ، دبلیو. شیانگ، اس. Zhang، X. استخراج خودکار از پشت بام ساختمان از تصاویر هوایی از طریق سلسله مراتبی RGB-D Priors. IEEE Trans. Geosci. Remote Sens. 2018 , 56 , 7369–7387. [ Google Scholar ] [ CrossRef ]
  5. لیو، دبلیو. یانگ، م. زی، ام. گوا، ز. دروغ.؛ ژانگ، ال. پی، تی. وانگ، دی. استخراج ساختمان دقیق از تصاویر DSM و پهپاد ذوب شده با استفاده از یک شبکه عصبی کاملاً پیچیده زنجیره ای. Remote Sens. 2019 , 11 , 2912. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  6. لانگ، جی. شلهامر، ای. دارل، تی. شبکه های کاملاً پیچیده برای تقسیم بندی معنایی. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، بوستون، MA، ایالات متحده آمریکا، 7 تا 12 ژوئن 2015. [ Google Scholar ]
  7. رونبرگر، او. فیشر، پی. Brox، T. U-Net: شبکه های کانولوشن برای تقسیم بندی تصویر زیست پزشکی. در مجموعه مقالات کنفرانس بین المللی محاسبات تصویر پزشکی و مداخله به کمک کامپیوتر، مونیخ، آلمان، 5 تا 9 اکتبر 2015. صص 234-241. [ Google Scholar ]
  8. ژو، جی. هائو، ام. ژانگ، دی. زو، پ. Zhang, W. Fusion روش مبتنی بر تقسیم‌بندی تصویر PSPnet برای ترکیب تصویر چند فوکوس. فوتون IEEE. J. 2019 ، 11 ، 1-12. [ Google Scholar ] [ CrossRef ]
  9. چن، L.-C.; پاپاندرو، جی. کوکینوس، آی. مورفی، ک. Yuille، AL DeepLab: Semantic Segmentation image with Deep Convolutional Nets، Atrous Convolution، و CRFهای کاملاً متصل. IEEE Trans. الگوی مقعدی ماخ هوشمند 2017 ، 40 ، 834-848. [ Google Scholar ] [ CrossRef ]
  10. چن، ال. زو، ی. پاپاندرو، جی. شروف، اف. آدام، اچ. رمزگذار-رمزگشا با پیچیدگی قابل جداسازی آتروس برای تقسیم بندی تصویر معنایی. در مجموعه مقالات کنفرانس اروپایی بینایی کامپیوتر (ECCV)، مونیخ، آلمان، 8 تا 14 سپتامبر 2018. [ Google Scholar ]
  11. پان، X. گائو، ال. ژانگ، بی. یانگ، اف. لیائو، دبلیو. برچسب‌گذاری معنایی تصاویر هوایی با وضوح بالا با شبکه هرمی متراکم. Sensors 2018 , 18 , 3774. [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
  12. یانگ، اف. فن، اچ. چو، پی. بلاش، ای. لینگ، اچ. تشخیص شی خوشه ای در تصاویر هوایی. در مجموعه مقالات کنفرانس بین المللی IEEE/CVF 2019 در بینایی کامپیوتر (ICCV)، سئول، کره، 27 اکتبر تا 2 نوامبر 2019؛ صص 8310–8319. [ Google Scholar ]
  13. وو، اس. کیم، دی. چو، دی. Kweon، IS LinkNet: جاسازی رابطه ای برای نمودار صحنه. arXiv 2018 , arXiv:1811.06410. [ Google Scholar ]
  14. چن، ال سی; پاپاندرو، جی. شروف، اف. Adam, H. Rethinking Convolution Atrous for Semantic Image Segmentation. arXiv 2017 , arXiv:1706.05587. [ Google Scholar ]
  15. بدرینارایانان، وی. کندال، ا. Cipolla، R. SegNet: معماری رمزگذار-رمزگشای پیچیده پیچیده برای تقسیم بندی تصویر. IEEE Trans. الگوی مقعدی ماخ هوشمند 2017 ، 39 ، 2481-2495. [ Google Scholar ] [ CrossRef ]
  16. منیح، وی. هیس، ن. گریوز، ا. Kavukcuoglu، K. مدل های تکرارشونده توجه بصری. arXiv 2014 ، arXiv:1406.6247. [ Google Scholar ]
  17. لین، دی. جی، ی. لیشینسکی، دی. کوهن-اور، دی. Huang, H. درهم تنیدگی زمینه چند مقیاسی برای تقسیم بندی معنایی. در مجموعه مقالات کنفرانس اروپایی بینایی کامپیوتر (ECCV)، مونیخ، آلمان، 8 تا 14 سپتامبر 2018. [ Google Scholar ]
  18. چنگ، بی. چن، L.-C.; وی، ی. زو، ی. هوانگ، ز. شیونگ، جی. هوانگ، تی. Hwu، W.-M.; شی، اچ. Uiuc، U. SPGNet: راهنمای پیش‌بینی معنایی برای تجزیه صحنه. در مجموعه مقالات کنفرانس بین المللی IEEE/CVF 2019 در بینایی کامپیوتر (ICCV)، سئول، کره، 27 اکتبر تا 2 نوامبر 2019؛ صص 5217–5227. [ Google Scholar ]
  19. لین، جی. میلان، آ. شن، سی. Reid, I. RefineNet: شبکه های اصلاح چند مسیری برای تقسیم بندی معنایی با وضوح بالا. در مجموعه مقالات سی امین کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، هونولولو، HI، ایالات متحده آمریکا، 22 تا 25 ژوئیه 2017؛ دوره 1396، صص 5168–5177. [ Google Scholar ]
  20. یو، سی. وانگ، جی. پنگ، سی. گائو، سی. یو، جی. سانگ، ن. یادگیری یک شبکه ویژگی متمایز برای تقسیم بندی معنایی. در مجموعه مقالات کنفرانس انجمن رایانه ای IEEE در مورد دید رایانه و تشخیص الگو، سالت لیک سیتی، UT، ایالات متحده آمریکا، 18 تا 22 ژوئن 2018؛ صفحات 1857–1866. [ Google Scholar ]
  21. کومار، BV; کارنیرو، جی. Reid، I. یادگیری توصیفگرهای تصویر محلی با شبکه‌های کانولوشنال سیامی عمیق و سه‌گانه با به حداقل رساندن توابع تلفات جهانی. در مجموعه مقالات کنفرانس IEEE 2016 در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، لاس وگاس، NV، ایالات متحده آمریکا، 27 تا 30 ژوئن 2016؛ صص 5385–5394. [ Google Scholar ]
  22. دای، جی. چی، اچ. Xiong، Y. لی، ی. ژانگ، جی. متعجب.؛ Wei, Y. شبکه های کانولوشن قابل تغییر شکل. در مجموعه مقالات کنفرانس بین المللی IEEE 2017 در بینایی کامپیوتر (ICCV)، ونیز، ایتالیا، 22 اکتبر 2017؛ صص 764-773. [ Google Scholar ]
  23. ژانگ، آر. تانگ، اس. ژانگ، ی. لی، جی. یان، S. پیچیدگی های تطبیقی ​​مقیاس برای تجزیه صحنه. در مجموعه مقالات کنفرانس بین المللی IEEE 2017 در بینایی کامپیوتر (ICCV)، ونیز، ایتالیا، 22 اکتبر 2017؛ صفحات 2050–2058. [ Google Scholar ]
  24. چنگ، جی. سان، ی. منگ، MQ-H. یک سیستم نگاشت معنایی متراکم مبتنی بر شبکه CRF-RNN. در مجموعه مقالات 2017 هجدهمین کنفرانس بین المللی رباتیک پیشرفته (ICAR)، هنگ کنگ، چین، 10 تا 12 ژوئیه 2017؛ صص 589-594. [ Google Scholar ]
  25. لیو، ز. لی، ایکس. لو، پی. لوی، سی.-سی. تانگ، X. تقسیم بندی تصویر معنایی از طریق شبکه تجزیه عمیق. در مجموعه مقالات کنفرانس بین المللی IEEE 2015 در بینایی کامپیوتر (ICCV)، سانتیاگو، شیلی، 7 تا 13 دسامبر 2015؛ صص 1377–1385. [ Google Scholar ]
  26. Ke، TW; هوانگ، جی جی؛ لیو، ز. Yu، SX میدان قرابت تطبیقی ​​برای تقسیم بندی معنایی. در مجموعه مقالات کنفرانس اروپایی بینایی کامپیوتر (ECCV)، مونیخ، آلمان، 8 تا 14 سپتامبر 2018. [ Google Scholar ]
  27. یو، سی. وانگ، جی. پنگ، سی. گائو، سی. یو، جی. سانگ، N. BiSeNet: شبکه تقسیم بندی دوطرفه برای تقسیم بندی معنایی زمان واقعی. ترانس. پتری نتس مدل های دیگر Concurr. 2018 ، 334-349. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  28. روآن، تی. لیو، تی. هوانگ، ز. وی، ی. وی، اس. ژائو، ی. شیطان در جزئیات: به سوی تجزیه دقیق انسانی تک و چندگانه. Proc. Conf. آرتیف AAAI. هوشمند 2019 ، 33 ، 4814–4821. [ Google Scholar ] [ CrossRef ]
  29. بیلینسکی، پ. Prisacariu، V. اتصالات میانبر رمزگشای متراکم برای تقسیم بندی معنایی تک گذر. در مجموعه مقالات کنفرانس IEEE/CVF 2018 در مورد دید رایانه و تشخیص الگو، سالت لیک سیتی، UT، ایالات متحده آمریکا، 18 تا 23 ژوئن 2018؛ صفحات 6596-6605. [ Google Scholar ]
  30. گوا، اچ. ژنگ، ک. فن، X. یو، اچ. وانگ، اس. سازگاری توجه بصری تحت تبدیل تصویر برای طبقه‌بندی تصویر چند برچسبی. در مجموعه مقالات کنفرانس IEEE/CVF 2019 در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 16 تا 20 ژوئن 2019؛ صص 729-739. [ Google Scholar ]
  31. سلواراجو، آر.آر. کگزول، ام. داس، ا. ودانتام، ر. پریخ، د. Batra, D. Grad-CAM: توضیحات تصویری از شبکه های عمیق از طریق محلی سازی مبتنی بر گرادیان. در مجموعه مقالات کنفرانس بین المللی IEEE 2017 در بینایی کامپیوتر (ICCV)، ونیز، ایتالیا، 22 تا 29 اکتبر 2017؛ صص 618-626. [ Google Scholar ]
  32. لی، بی. سان، ز. لی، کیو. وو، ی. انقی، اچ. تقسیم بندی مشترک شی عمیق گروهی با شبکه عصبی بازگشتی با توجه مشترک. در مجموعه مقالات کنفرانس بین المللی IEEE/CVF 2019 در بینایی کامپیوتر (ICCV)، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 16 تا 20 ژوئن 2019؛ صص 8518-8527. [ Google Scholar ]
  33. لیو، اس. جانز، ای. دیویسون، AJ End-To-End Multi-Task Learning با توجه. در مجموعه مقالات کنفرانس IEEE/CVF 2019 در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 16 تا 20 ژوئن 2019؛ صفحات 1871-1880. [ Google Scholar ]
  34. لو، ایکس. وانگ، دبلیو. مک.؛ شن، جی. شائو، ال. Porikli, F. بیشتر ببینید، بیشتر بدانید: تقسیم بندی اشیاء ویدیویی بدون نظارت با شبکه های سیامی. در مجموعه مقالات کنفرانس IEEE/CVF 2019 در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 16 تا 20 ژوئن 2019؛ صص 3618–3627. [ Google Scholar ]
  35. ژنگ، اچ. فو، جی. ژا، ز.-ج. Luo, J. به دنبال شیطان در جزئیات: یادگیری شبکه نمونه گیری توجه سه خطی برای تشخیص تصویر ریز. در مجموعه مقالات کنفرانس IEEE/CVF 2019 در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 15 تا 20 ژوئن 2019؛ صفحات 5007–5016. [ Google Scholar ]
  36. او، ک. ژانگ، ایکس. رن، اس. Sun, J. یادگیری باقیمانده عمیق برای تشخیص تصویر. arXiv 2015 , arXiv:1512.03385. [ Google Scholar ]
  37. وو، اس. پارک، جی. لی، جی.-ای. Kweon، IS CBAM: ماژول توجه بلوک کانولوشن. در مجموعه مقالات یادداشت های سخنرانی در علوم کامپیوتر ; Springer Science and Business Media LLC: برلین/هایدلبرگ، آلمان، 2018؛ صص 3-19. [ Google Scholar ]
  38. نصار، ع. لفور، اس. تطبیق نمونه چند نمای وگنر، JD با محدودیت‌های نرم هندسی آموخته شده. ISPRS Int. J. Geo-Inf. 2020 ، 9 ، 687. [ Google Scholar ] [ CrossRef ]
  39. پان، X. شی، ج. لو، پی. وانگ، ایکس. Tang, X. Spatial as Deep: Spatial CNN for Traffic Scene Understanding. در مجموعه مقالات کنفرانس AAAI در زمینه هوش مصنوعی، نیواورلئان، لس آنجلس، ایالات متحده آمریکا، 2 تا 7 فوریه 2018. [ Google Scholar ]
  40. ماگیوری، ای. تارابالکا، ی. چارپیات، جی. Alliez, P. برچسب گذاری تصویر هوایی با وضوح بالا با شبکه های عصبی کانولوشن. IEEE Trans. Geosci. Remote Sens. 2017 , 55 , 7092–7103. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  41. ولپی، م. Tuia، D. برچسب گذاری معنایی متراکم تصاویر با وضوح زیر دسی متر با شبکه های عصبی کانولوشن. IEEE Trans. Geosci. Remote Sens. 2017 , 55 , 881–893. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  42. ژائو، اچ. شی، ج. Qi، X. وانگ، ایکس. شبکه تجزیه صحنه هرمی جیا، جی. در مجموعه مقالات کنفرانس IEEE 2017 در مورد دید رایانه و تشخیص الگو (CVPR)، هونولولو، HI، ایالات متحده آمریکا، 21 تا 26 ژوئیه 2017؛ صص 1063-6919. [ Google Scholar ]
  43. ژو، ک. زی، ی. گائو، ز. میائو، اف. Zhang, L. FuNet: یک شبکه جدید استخراج جاده با ادغام داده های مکان و تصاویر سنجش از دور. ISPRS Int. J. Geo-Inf. 2021 ، 10 ، 39. [ Google Scholar ] [ CrossRef ]
  44. آهنگ، ا. کیم، ی. تقسیم بندی معنایی تصاویر سنجش از دور با استفاده از داده های بزرگ ناهمگن: انجمن بین المللی فتوگرامتری و سنجش از دور مجموعه داده های پتسدام و منظر شهری. ISPRS Int. J. Geo-Inf. 2020 ، 9 ، 601. [ Google Scholar ] [ CrossRef ]
  45. لیو، YF تحقیق در مورد الگوریتم تجزیه و تحلیل احساسات ویدئویی بر اساس یادگیری عمیق. در فارماکولوژی و سم شناسی پایه و بالینی ; وایلی: هوبوکن، نیوجرسی، ایالات متحده آمریکا، 2021؛ ص 183-184. [ Google Scholar ]
  46. کان، ک. یانگ، ز. لیو، پی. ژنگ، ی. Shene, L. مطالعه عددی جریان آشفته گذشته از یک پمپ جریان محوری دوار بر اساس یک روش مرزی غوطه‌ور در سطح. تمدید کنید. انرژی 2021 ، 168 ، 960-971. [ Google Scholar ] [ CrossRef ]
شکل 1. چند نمونه از تقسیم بندی معنایی چند مقیاسی و نقشه های ویژگی تصاویر سنجش از دور. ( الف ) مقایسه بین حقیقت زمین و اثر تقسیم بندی اشیاء چند مقیاسی در شبکه کاملاً کانولوشن (FCN) نشان داده شده است. ( ب ) تجسم نقشه ویژگی عمیق را نشان می دهد که در آن منطقه علامت گذاری شده نویز است. ( ج ) تجسم تصاویر کم عمق را نشان می دهد.
شکل 2. ساختار کلی شبکه. چارچوب رمزگذار/رمزگشا مورد استفاده در این شبکه عمدتاً برای آزمایش اثر بخش‌بندی ماژول چند مقیاسی تطبیقی ​​و ماژول فیوز تطبیقی ​​استفاده می‌شود.
شکل 3. قسمت سمت چپ ( a ) نمودار شماتیک توجه فضایی و توجه کانال است. قسمت سمت راست ( b ) نمودار شماتیک یک بلوک باقیمانده در شبکه باقیمانده است.
شکل 4. نمودار معماری AMSM. قسمت سمت چپ ساختار خاص و پارامترهای مختلف سه شاخه است و قسمت سمت راست تصویر توپولوژی یک ماژول چند مقیاسی تطبیقی ​​(AMSM) است.
شکل 5. مکانیسم تولید وزن توجه فضایی (وزن SA) و وزن توجه کانال (وزن CA) [ 36 ] در ماژول چند مقیاسی تطبیقی. عدد مشخص شده در زیر تصویر به اندازه هسته کانولوشن است.
شکل 6. نمودار معماری AFM. ماژول فیوز تطبیقی ​​از دو بخش تشکیل شده است. قسمت سمت چپ ( a ) فرآیند به دست آوردن وزن نقشه‌های ویژگی عمیق و نقشه‌های ویژگی کم عمق است، با هدف دستیابی به اثر فیلتر ویژگی‌های عمیق بر نویز کم عمق. قسمت سمت راست ( b ) یک نمودار شماتیک از مکانیسم عملکرد ماژول فیوز تطبیقی ​​است.
شکل 7. نمونه تصویر ورودی و حقیقت پایه آن در مجموعه داده ISPRS. ( الف ) این تصویر یکی از تصاویر ورودی مجموعه داده ISPRS را نشان می دهد. ( ب ) تصویر حقیقت زمینی مربوط به تصویر ( a ) را نشان می دهد .
شکل 8. نسبت پیکسل ها برای هر کلاس در مجموعه آموزشی.
شکل 9. در مجموعه داده‌های ISPRS Vaihingen، شش نتیجه آزمایش برای هم‌آمیزی پایه یکسان از ماژول‌های مختلف. ( الف ) تصویر ورودی اصلی؛ ( ب ) حقیقت پایه؛ ( ج ) تصویر خروجی پایه; ( د ) تصویر خروجی خط مبنا و AMSM. ( ه ) تصویر خروجی پایه و AFM. ( f ) خط پایه و ادغام AMSM و AFM. برچسب Vaihingen شامل شش دسته است: سطح غیر قابل نفوذ (سفید)، ساختمان (آبی)، پوشش گیاهی کم (فیروزه‌ای)، درخت (سبز)، ماشین (زرد)، و آشوب/پس زمینه (قرمز).
شکل 10. تصویر خروجی شبکه ما در مقایسه با شبکه کلاسیک. برچسب Vaihingen شامل شش دسته است: سطح غیر قابل نفوذ (سفید)، ساختمان (آبی)، پوشش گیاهی کم (فیروزه‌ای)، درخت (سبز)، ماشین (زرد)، و آشوب/پس زمینه (قرمز). ( الف ) تصویر ورودی. ( ب ) نتایج تقسیم‌بندی U-net. ( ج ) نتیجه تقسیم بندی DeepLab-v3. ( د ) نتیجه تقسیم بندی SegNet. ( ه ) ما نتیجه تقسیم بندی AWNet را پیشنهاد می کنیم. ( و) حقیقت پایه.
شکل 11. خروجی پیش بینی لبه مدل ما و شبکه تجزیه صحنه هرمی (PSPNet). برچسب Vaihingen شامل شش دسته است: سطح غیر قابل نفوذ (سفید)، ساختمان (آبی)، پوشش گیاهی کم (فیروزه‌ای)، درخت (سبز)، ماشین (زرد)، و آشوب/پس زمینه (قرمز). ( الف ) تصویر ورودی. ( ب ) حقیقت پایه. ( ج ) نمای بزرگ شده جزئی از نتیجه تقسیم بندی PSPNet. ( د ) نمای بزرگ شده جزئی از نتیجه تقسیم بندی AWNet پیشنهادی ما.

بدون دیدگاه

دیدگاهتان را بنویسید