خلاصه

تغییرات در دریاچه ها و رودخانه ها برای مطالعه تغییرات آب و هوای جهانی اهمیت زیادی دارد. تقسیم بندی دقیق دریاچه ها و رودخانه ها برای مطالعه تغییرات آنها حیاتی است. با این حال، روش‌های سنتی تقسیم‌بندی منطقه آب تقریباً همگی دارای نقص‌های زیر هستند: الزامات محاسباتی بالا، عملکرد تعمیم ضعیف و دقت استخراج پایین. در سال‌های اخیر، الگوریتم‌های تقسیم‌بندی معنایی مبتنی بر یادگیری عمیق در حال ظهور هستند. با پرداختن به مشکلات مربوط به تعداد بسیار زیادی از پارامترها، دقت کم و تخریب شبکه در طول فرآیند آموزش، این مقاله یک SegNet باقیمانده قابل تفکیک (SR-SegNet) را برای انجام تقسیم‌بندی ناحیه آب با استفاده از تصاویر سنجش از دور پیشنهاد می‌کند. از یک طرف، بدون به خطر انداختن توانایی استخراج ویژگی، مشکل تخریب شبکه با افزودن بلوک‌های باقیمانده اصلاح‌شده به رمزگذار کاهش می‌یابد، تعداد پارامترها با معرفی کانولوشن‌های قابل تفکیک در عمق محدود می‌شود و توانایی استخراج ویژگی با استفاده از پیچش‌های گشاد شده برای گسترش میدان گیرنده بهبود می‌یابد. از سوی دیگر، SR-SegNet لایه‌های کانولوشن را با هسته‌های کانولوشن نسبتاً بیشتری در مرحله رمزگذاری حذف می‌کند و از روش آبشاری برای ترکیب ویژگی‌های سطح پایین و سطح بالای تصویر استفاده می‌کند. در نتیجه کل شبکه می تواند اطلاعات فضایی بیشتری به دست آورد. نتایج تجربی نشان می‌دهد که روش پیشنهادی نسبت به چندین روش سنتی، از جمله FCN، DeconvNet و SegNet، پیشرفت‌های قابل‌توجهی را نشان می‌دهد. تعداد پارامترها با معرفی پیچش‌های قابل تفکیک در عمق محدود می‌شود و توانایی استخراج ویژگی با استفاده از پیچش‌های گشاد شده برای گسترش میدان پذیرنده بهبود می‌یابد. از سوی دیگر، SR-SegNet لایه‌های کانولوشن را با هسته‌های کانولوشن نسبتاً بیشتری در مرحله رمزگذاری حذف می‌کند و از روش آبشاری برای ترکیب ویژگی‌های سطح پایین و سطح بالای تصویر استفاده می‌کند. در نتیجه کل شبکه می تواند اطلاعات فضایی بیشتری به دست آورد. نتایج تجربی نشان می‌دهد که روش پیشنهادی نسبت به چندین روش سنتی، از جمله FCN، DeconvNet و SegNet، پیشرفت‌های قابل‌توجهی را نشان می‌دهد. تعداد پارامترها با معرفی پیچش‌های قابل تفکیک در عمق محدود می‌شود و توانایی استخراج ویژگی با استفاده از پیچش‌های گشاد شده برای گسترش میدان پذیرنده بهبود می‌یابد. از طرف دیگر، SR-SegNet لایه‌های کانولوشن را با هسته‌های کانولوشن نسبتاً بیشتر در مرحله رمزگذاری حذف می‌کند و از روش آبشاری برای ترکیب ویژگی‌های سطح پایین و سطح بالا استفاده می‌کند. در نتیجه کل شبکه می تواند اطلاعات فضایی بیشتری به دست آورد. نتایج تجربی نشان می‌دهد که روش پیشنهادی نسبت به چندین روش سنتی، از جمله FCN، DeconvNet و SegNet، پیشرفت‌های قابل‌توجهی را نشان می‌دهد. SR-SegNet لایه های کانولوشن را با هسته های پیچیدگی نسبتاً بیشتری در مرحله رمزگذاری حذف می کند و از روش آبشاری برای ترکیب ویژگی های سطح پایین و سطح بالای تصویر استفاده می کند. در نتیجه کل شبکه می تواند اطلاعات فضایی بیشتری به دست آورد. نتایج تجربی نشان می‌دهد که روش پیشنهادی نسبت به چندین روش سنتی، از جمله FCN، DeconvNet و SegNet، پیشرفت‌های قابل‌توجهی را نشان می‌دهد. SR-SegNet لایه‌های کانولوشن را با هسته‌های کانولوشن نسبتاً بیشتری در مرحله رمزگذاری حذف می‌کند و از روش آبشاری برای ترکیب ویژگی‌های سطح پایین و سطح بالای تصویر استفاده می‌کند. در نتیجه کل شبکه می تواند اطلاعات فضایی بیشتری به دست آورد. نتایج تجربی نشان می‌دهد که روش پیشنهادی نسبت به چندین روش سنتی، از جمله FCN، DeconvNet و SegNet، پیشرفت‌های قابل‌توجهی را نشان می‌دهد.

کلید واژه ها:

تقسیم بندی معنایی ; تقسیم بندی منطقه آب ; رمزگذار – رمزگشا ; پیچیدگی قابل تفکیک عمیق ; شبکه باقی مانده

1. معرفی

دریاچه ها و رودخانه ها نقاط اتصال متقابل جو، بیوسفر، لیتوسفر و هیدروسفر زمینی هستند [ 1 ]. آنها به تغییرات آب و هوایی بسیار حساس هستند و بنابراین قادرند نه تنها تغییرات آب و هوایی منطقه ای و جهانی، بلکه تغییرات دمای محلی را نیز منعکس کنند [ 2 ]. بنابراین مطالعه تغییرات دریاچه ها و رودخانه ها برای مطالعه تغییرات آب و هوای جهانی اهمیت زیادی دارد. تقسیم بندی دریاچه ها و رودخانه ها اولین گام مهم برای مطالعه تغییرات آنها است. روش‌های سنتی تقسیم‌بندی آب عمدتاً شامل آستانه‌سازی، خوشه‌بندی، ماشین بردار پشتیبان و غیره است. مک فیترز و همکاران [ 3] یک شاخص تفاوت نرمال شده آب (NDWI) را پیشنهاد کرد. این روش از ترکیب باند سبز تصویر و باند مادون قرمز نزدیک برای ساخت یک نوار موج برای تقسیم بندی استفاده می کند، اما این روش به شدت به محیط وابسته است. در سال 2000، Frazier و همکاران. [ 4 ] بدنه آبی ساحل رودخانه را بر اساس طبقه بندی حداکثر احتمال طبقه بندی کرد، اما عملکرد تعمیم روش او ضعیف است، زیرا تفاوت های آشکاری در تصاویر باند مادون قرمز مختلف وجود دارد. یوان و همکاران [ 5 ] یک روش خوشه‌بندی مبتنی بر مدل محدودیت فضایی جدید را پیشنهاد کرد، که اشیاء نامزد را از طریق پراکندگی خوشه‌بندی می‌کند، اما این روش توسط وضوح فضایی تصویر محدود می‌شود. لو و همکاران [ 6] از تقسیم‌بندی آستانه برای تحلیل تصاویر ماهواره‌ای چندطیفی استفاده کرد، اما تفاوت طیف در مناطق مختلف تأثیر زیادی بر دقت تقسیم‌بندی دارد. ژانگ و همکاران [ 7 ] یک روش ماشین بردار پشتیبانی را برای انجام استخراج خط ساحلی با به حداقل رساندن خطاها و به حداکثر رساندن ویژگی‌های لبه هندسی پیشنهاد کرد، اما در آموزش داده‌ها در مقیاس بزرگ مشکلاتی دارد. Feyisaet و همکاران. [ 8 ] شاخص تقسیم‌بندی خودکار ناحیه آب (AWEI) را پیشنهاد کرد که به طور قابل‌توجهی دقت تقسیم‌بندی ناحیه سایه و سطح تاریک را بهبود می‌بخشد، اما توانایی استخراج آن در اهداف کوچک خوب نیست. مایکل و همکاران [ 9] استخراج خط ساحلی tandem-x را بر اساس فیلتر غیر محلی پیشنهاد کرد. این روش تأثیر خوبی بر استخراج خطوط ساحلی دارد، اما اهداف کوچکی را در خط ساحلی از دست می دهد. دو و همکاران [ 10 ] روش جدیدی برای تشخیص آب های سطحی بر اساس مدل رقومی ارتفاع (DEM) طراحی کرد که دقت بالایی را به دست می آورد. با این حال، مشکل این است که تصاویر مادون قرمز مختلف تأثیر زیادی روی نتایج دارند. پارک و همکاران [ 11 ] یک الگوریتم خوشه‌بندی فضایی مبتنی بر چگالی (DBSCAN) پیشنهاد کرد، اما تفاوت‌های آشکاری در استخراج بین بخش‌های روشن و سایه تصویر وجود دارد. در همان سال، وانگ و همکاران. [ 12 ] روش جدیدی را با ترکیب NDWI با روش تقسیم‌بندی تصویر پیشنهاد کرد. چنگ و همکاران [ 13] از روش انتخاب محله تطبیقی ​​برای استخراج بدنه آب و ساختمان ها از تصاویر سنجش از دور استفاده کرد. به طور خلاصه، روش‌های فوق برای تقسیم‌بندی منطقه آب همگی نیازمندی‌های بالایی برای پردازش داده‌ها هستند و عملکرد تعمیم ضعیفی را نشان می‌دهند، یعنی نمی‌توانند دریاچه‌ها و رودخانه‌های دلخواه را به‌طور دقیق استخراج کنند.
از زمان ظهور هوش مصنوعی، یادگیری عمیق به طور گسترده در تشخیص گفتار، تشخیص تصویر، بازیابی اطلاعات و سایر زمینه ها استفاده شده است [ 14 ]. در مقایسه با روش‌های تقسیم‌بندی سنتی، روش یادگیری عمیق به هیچ شرایط قبلی برای انجام تقسیم‌بندی خودکار منطقه آب از تصاویر سنجش از دور نیاز ندارد. با افزایش قدرت محاسباتی و ظهور پردازنده‌های گرافیکی، مدل‌های شبکه عصبی کانولوشنال (CNN) بیشتر و بیشتری پیشنهاد شده‌اند، مانند شبکه گروه هندسه بصری (VGGNet) [ 15 ]، شبکه گوگل (GoogLeNet) [ 16 ]، شبکه کانولوشنال متصل متراکم (DenseNet) [ 17] و غیره. دقت طبقه بندی این مدل های شبکه عصبی به سطح انسانی رسیده است. روش شبکه عصبی می‌تواند ویژگی‌های عمیق تصاویر سنجش از دور را برای دستیابی به طبقه‌بندی بهتر [ 18 ] استخراج کند، به عنوان مثال، در تقسیم‌بندی ناحیه آب. با این حال، مدل‌های CNN فقط می‌توانند یک شی خاص را طبقه‌بندی کنند، اما توانایی استخراج مکان دقیق و اطلاعات مرزی آن را ندارند. بنابراین، برای تصاویر سنجش از دور، مانند دریاچه‌ها و رودخانه‌ها، که نیازمندی‌های بالایی برای مکان‌یابی و استخراج مرزی دارند، مدل‌های سنتی CNN به اندازه کافی دقیق نیستند. برای حل این مشکل، یک مدل تقسیم‌بندی معنایی که می‌تواند به طبقه‌بندی در سطح پیکسل دست یابد، در سال‌های اخیر پیشنهاد شده است.
الگوریتم تقسیم بندی معنایی می تواند تصاویر را در سطح پیکسل طبقه بندی کند و ویژگی های دقیق تری را استخراج کند. دقت بالا و سرعت سریع این الگوریتم، موضوع تحقیقاتی داغ در تقسیم بندی تصویر است. در سال 2014، لانگ و همکاران. [ 19 ] یک شبکه کاملاً کانولوشنال (FCN) برای تقسیم‌بندی معنایی پیشنهاد کرد، که در آن، دو لایه آخر کاملاً متصل VGGNet به لایه‌های کاملاً کانولوشنی تغییر داده می‌شوند و از اتصال پرش برای تحقق یک انتها به انتها و پیکسل به استفاده می‌شود. – شبکه های عصبی عمیق پیکسلی (DNN). در همان سال، شبکه decovolution (DeconvNet) توسط Noh و همکاران پیشنهاد شد. [ 20]، که از روش جدیدی برای نمونه برداری استفاده کرد: دکانولوشن. با این حال، جزئیات دقیق یک تصویر را نمی توان به طور کامل توسط DeconvNet نمایش داد، و درک شبکه از ویژگی ها کافی نیست. علاوه بر این، به دلیل وجود تعداد زیادی کرنل کانولوشن، تعداد پارامتر مدل بزرگ و بار محاسباتی آن زیاد است. در سال 2015، Badrinarayanan و همکاران. [ 21 ] همچنین یک شبکه تقسیم بندی پیکسلی معنایی (SegNet) مبتنی بر VGGNet را پیشنهاد کرد. SegNet از اطلاعات فهرست مکان در طول فرآیند کانولوشن استفاده کامل می‌کند و مصرف حافظه را تا حد زیادی کاهش می‌دهد، اما این تکنیک باعث افزایش زمان آموزش و کاهش کارایی می‌شود. در سال 2017، یک شبکه تجزیه صحنه هرمی (PSPNet) توسط ژائو و همکاران طراحی شد. [ 22 ] که پیچیدگی گشاد شده را اعمال می کند [ 23] به لایه های پیچیدگی، افزایش میدان گیرنده بدون افزایش تعداد پارامترها. امروزه الگوریتم‌های تقسیم‌بندی معنایی بیشتر و بیشتری بر اساس یادگیری عمیق پیشنهاد می‌شوند. این الگوریتم‌ها چشم‌انداز بسیار خوبی در پردازش تصاویر ماهواره‌ای سنجش از دور و بخش‌بندی سلول‌های پاتولوژیک در تصاویر پزشکی و سایر زمینه‌ها دارند. اگرچه الگوریتم‌های تقسیم‌بندی معنایی موجود در استخراج تصویر سنجش از دور به خوبی عمل می‌کنند، اما مشکل از بین رفتن گرادیان به دلیل عمیق‌تر شدن لایه‌های پیچشی در طول فرآیند آموزش وجود دارد و در نتیجه عملکرد شبکه کاهش می‌یابد و دقت تقسیم‌بندی تصویر تحت‌تاثیر قرار می‌گیرد. علاوه بر این، یک DNN به طور معمول دارای هسته های کانولوشن زیادی است که اعداد پارامتر شبکه آموزشی را افزایش می دهد و در نتیجه آموزش را زمان بر و دشوار می کند [ 24 ].]. برای حل این مشکلات، یک SegNet باقیمانده قابل تفکیک (SR-SegNet) در این مقاله پیشنهاد شده است. یک بلوک باقیمانده اصلاح شده به رمزگذار SegNet اضافه می شود تا مشکل کاهش عملکرد را حل کند. علاوه بر این، پیچیدگی‌های قابل تفکیک عمیق [ 25] برای کاهش تعداد پارامتر، کوتاه کردن زمان آموزش و کاهش هزینه محاسبه بدون به خطر انداختن عملکرد شبکه معرفی شده‌اند. در شبکه پیشنهادی، ویژگی‌های سطح بالا (لایه بالاتر لایه شبکه عصبی عمیق) و سطح پایین (لایه پایین لایه شبکه عصبی عمیق) با آبشاری به دست می‌آیند. علاوه بر این، پیچش های گشاد شده برای گسترش میدان گیرنده در لایه های پیچشی به منظور بهبود توانایی استخراج ویژگی بدون افزایش تعداد پارامترها استفاده می شود. در مقایسه با FCN، SegNet و DeconvNet، SR-SegNet پیشنهاد شده در این مقاله، امتیاز F1، تقاطع میانگین روی اتحاد (Miou)، و یادآوری را بهبود می‌بخشد، در حالی که زمان آزمایش را کاهش می‌دهد.
ادامه این مقاله به شرح زیر سازماندهی شده است. در بخش 2 ، ساختار SR-SegNet به تفصیل مورد بحث قرار گرفته است. بخش 3 جزئیات تجربی مدل پیشنهادی را با استفاده از مجموعه داده دریاچه و رودخانه ارائه می‌کند. در بخش 4 ، نتیجه گیری ارائه شده و جهت تحقیق آینده مورد بحث قرار گرفته است.

2. روش پیشنهادی

در این بخش، معماری SR-SegNet پیشنهادی به تفصیل ارائه شده است. SegNet کلاسیک از تعداد زیادی هسته کانولوشن و ساختار شبکه عمیق برای استخراج ویژگی‌های تصویر استفاده می‌کند، بنابراین آموزش آن کند است و گرادیان ناپدید شدن (شیب محو شدن: با افزایش تعداد لایه‌های شبکه عصبی، دقت طبقه‌بندی کاهش می‌یابد) همیشه اتفاق می‌افتد. . تقسیم بندی دریاچه ها و رودخانه ها در تصاویر سنجش از دور توسط طیف، وضوح، سایه و عوامل دیگر تصاویر محدود می شود. علاوه بر این، برخی از مشکلات در کاربرد روش‌های سنتی مانند عملکرد ضعیف تعمیم، تأثیر ضعیف تقسیم‌بندی مساحت آب و غیره وجود دارد. در این مقاله، ما یک SR-SegNet را برای حل این مشکلات پیشنهاد می کنیم. این روش می‌تواند زمینه‌های غنی و چند مقیاسی را برای تقسیم‌بندی دقیق‌تر بازیابی کند،

2.1. نمای کلی مدل

SegNet کلاسیک دارای تعداد زیادی پارامتر است. بنابراین، گرادیان ناپدید شدن همیشه اتفاق می‌افتد و توانایی استخراج ویژگی آن در طول فرآیند تمرین بدتر می‌شود. تعداد پارامتر آن بزرگ است زیرا هسته های پیچشی بسیار زیادی وجود دارد. علاوه بر این، پنج بار از نمونه‌برداری 2× در مرحله رمزگذاری انجام می‌شود که منجر به آموزش طولانی و آزمایش کند می‌شود. علاوه بر این، از آنجا که SegNet کلاسیک به سادگی نمونه برداری را در مرحله رمزگذاری انجام می دهد، فاقد ادغام اطلاعات معنایی سطح بالا و سطح پایین است. در نتیجه، اطلاعات مکان دقیق ممکن است در طول تقسیم‌بندی تصویر سنجش از دور منطقه آب از بین برود. برای حل این مشکلات، ما یک SegNet باقیمانده قابل جداسازی را پیشنهاد می‌کنیم. در SR-SegNet، یک بلوک باقیمانده اصلاح شده [ 26] در مرحله رمزگذاری معرفی شده است و اطلاعات دقیق در بخش 2.2.1 ارائه شده است . برای محدود کردن اعداد پارامترهای مرتبط با تعداد زیادی از هسته‌های کانولوشن، از پیچیدگی‌های قابل تفکیک عمیق برای کارایی استفاده می‌کنیم. در نهایت، پیچش های گشاد شده در رمزگذار ما اعمال می شوند تا اطلاعات فضایی منطقه آب بیشتری را به دست آورند. جزئیات بیشتر پیچیدگی قابل تفکیک در عمق را می توان در بخش 2.2.2 یافت .
شکل 1 معماری دقیق SR-SegNet پیشنهادی را نشان می دهد. کل شبکه به دو بخش تقسیم می شود: رمزگذار و رمزگشا. (1) در مرحله رمزگذاری، یک بلوک باقیمانده اصلاح شده به هر بلوک پیچشی اضافه می شود تا مشکل تخریب را که اغلب در فرآیند آموزش رخ می دهد کاهش دهد [ 27 ]]. (2) با توجه به اینکه فرآیند آموزش توسط تعداد زیادی از پارامترها پیچیده است، ما فقط چهار بار نمونه‌برداری را در مرحله رمزگذاری انجام می‌دهیم، به جای پنج بار نمونه‌برداری 2× در SegNet کلاسیک. ما همچنین پنج لایه کانولوشن آخر را در مرحله رمزگذاری حذف می کنیم. (3) برای به دست آوردن اطلاعات مکان دقیق یک بدنه آبی در یک تصویر سنجش از دور، از روش آبشاری برای ترکیب (افزودن) هر دو ویژگی عمیق و کم عمق تصویر استفاده می شود. (4) علاوه بر این، برای ساده کردن شبکه، کانولوشن های قابل تفکیک عمیق [ 25 ]] در مرحله رمزگذاری به لایه های کانولوشن معرفی می شوند تا میزان محاسبات و تعداد پارامترها در طول فرآیند آموزش کاهش یابد. بر اساس چهار تکنیک فوق، SR-SegNet v1 ساخته شده است. (5) از آنجایی که برخی از هسته های پیچشی 3 × 3 با هسته های پیچشی 2 × 2 در بلوک باقیمانده اصلاح شده جایگزین می شوند، میدان پذیرنده تا حد معینی کاهش می یابد، و از این رو استخراج مرزی از یک بدنه آبی منفرد خوب نیست. برای حل این مشکل، SR-SegNet v2 با پیچش های متسع نیز پیشنهاد شده است. آزمایش‌ها ثابت می‌کنند که v2 به نتایج خوبی دست می‌یابد و اثربخشی پیچش‌های متسع را نشان می‌دهد. میز 1اطلاعات دقیق SR-SegNet v2 پیشنهادی را نشان می دهد. ورودی یک تصویر سنجش از راه دور بدنه آب با سه کانال (قرمز، سبز و آبی) است و خروجی یک نقشه تقسیم بندی باینری است که در آن پیکسل به رنگ خاکستری نشان دهنده بدنه آب و پیکسل به رنگ سیاه نشان دهنده پس زمینه است.

2.2. طراحی رمزگذار

2.2.1. بلوک باقیمانده اصلاح شده

بلوک باقیمانده، پیشنهاد شده توسط He K و همکاران. [ 26 ] در سال 2015، با هدف حل این مشکل که خطای آموزشی با عمیق‌تر شدن شبکه افزایش می‌یابد، و کمک به کاهش مشکلات ناپدید شدن گرادیان و گرادیان انفجاری است. با الهام از بلوک باقیمانده، برای رسیدگی بیشتر به مشکل شناسایی نادرست شی کوچک در تقسیم‌بندی تصاویر سنجش از راه دور منطقه آب، یک بلوک باقیمانده اصلاح‌شده به SR-SegNet پیشنهادی در رمزگذار اضافه می‌شود. همانطور که در شکل 2 نشان داده شده استa، یک بلوک گلوگاه سنتی در ResNet-50 است. این روش با دور زدن مستقیم ورودی به خروجی از یکپارچگی اطلاعات محافظت می کند. بلوک باقیمانده در ResNet-50 فقط باید تفاوت بین ورودی و خروجی را یاد بگیرد. این تنظیم اهداف یادگیری را ساده می کند و مشکلات را کاهش می دهد و بنابراین مشکل تخریب را در طول فرآیند آموزش حل می کند [ 28 ]]. بلوک باقیمانده به ویژه برای تشخیص اشیاء با اندازه کوچک و متوسط ​​در تصاویر سنجش از راه دور بدن آب مناسب است. با این حال، استفاده از هسته های پیچشی 1×1 در بلوک گلوگاه سنتی ممکن است اطلاعات معنایی بدنه آب را از دست بدهد. برای عملکرد بهتر، دو هسته کانولوشن 2 × 2 متوالی در بلوک باقیمانده اصلاح شده ما در این مقاله اتخاذ شده و سپس یک هسته کانولوشن 1 × 1 به آنها متصل می شود. برای بزرگ‌تر کردن میدان پذیرنده برای به دست آوردن ویژگی‌های بیشتر بدنه آبی بدون افزایش تعداد پارامترها، 2 × 2 پیچش گشاد شده با نرخ اتساع 2 به دو لایه اول بلوک باقی‌مانده اصلاح‌شده وارد می‌شوند که همان میدان دریافتی 3 را ایجاد می‌کند. × 3 هسته کانولوشن.
در این مقاله، پیچش های گشاد شده به بلوک باقیمانده اصلاح شده در مرحله رمزگذاری، همانطور که در شکل 2 ب نشان داده شده است، اضافه می شود. در بلوک باقیمانده اصلاح شده، هسته های کانولوشن 3 × 3 به هسته های کانولوشن 2 × 2 تغییر می کنند که باعث کاهش پیچیدگی آموزش شبکه و صرفه جویی در زمان آموزش می شود. با این حال، با این ساختار، اطلاعات دقیق می تواند در استخراج بدنه آب از تصاویر سنجش از دور از بین برود. برای گسترش بیشتر میدان دریافت در طول نمونه برداری پایین و بهبود بیشتر استخراج ویژگی لبه و شناسایی اهداف کوچک در تصاویر سنجش از دور بدنه آبی، این مقاله SR-SegNet v2 را با معرفی پیچش های گشاد شده پیشنهاد می کند. توجه داشته باشید که SR-SegNet v1 از پیچش های گشاد شده در بلوک باقیمانده اصلاح شده خود استفاده نمی کند.

در مقایسه با SR-SegNet v1، SR-SegNet v2 3 × 3 هسته کانولوشن را در بلوک باقیمانده خود با 2 × 2 پیچش گشاد شده، با نرخ اتساع 2 جایگزین می کند. در شکل 2 b، شماره کانال اول × 22×2لایه پیچیدگی دو برابر دومی است و هسته های کانولوشن 1×1 نهایی به ترتیب از کانال های 64، 128، 256، 512 و 512 برای پنج بلوک باقیمانده اصلاح شده در SR-SegNet استفاده می کنند. با توجه به معادله ( 1 )، میدان پذیرنده هسته کانولوشن 3×3 استاندارد 3 است که m اندازه میدان پذیرنده لایه قبلی، گام اندازه گام پیچیدگی و K اندازه هسته کانولوشن است.

− × de + K.�=(متر-1)×ستی�منده+ک.
شکل 3 مقایسه ای بین پیچش استاندارد و پیچش گشاد شده را نشان می دهد. همانطور که در شکل 3 نشان داده شده است ، یک پیچش استاندارد 2×2 با یک پیچش گشاد شده با نرخ اتساع 2 جایگزین شده است که معادل قرار دادن یک صفر بین هر پیکسل مجاور است. به طور مشابه، یک هسته کانولوشن 3 × 3 با نسبت گشاد شده 2 معادل یک هسته کانولوشن 5 × 5 است. از آنجایی که این صفرهای پر شده نیازی به آموزش ندارند، پیچش گشاد شده می تواند به طور قابل ملاحظه ای میدان دریافت خود را بدون افزایش پیچیدگی محاسباتی گسترش دهد.

معادله ( 2 ) برای محاسبه میدان پذیرنده یک پیچش گشاد شده است، که در آن نرخ نشان دهنده نرخ اتساع، اندازه هسته پیچشی K و اندازه هسته پیچشی با پیچش گشاد شده K است.دد.

کدکK) × e − ) .کد=ک+(ک+1)×(�آتیه-1).
2.2.2. Depthwise Separable Convolution Construction
در دو بلوک کانولوشن آخر SegNet، هسته های کانولوشن 3×3 که هر کدام دارای 512 کانال هستند، در هر لایه برای افزایش عمق شبکه و در نتیجه استخراج ویژگی های بیشتر استفاده شده است. با این حال، این چیدمان تعداد زیادی پارامتر را تولید می کند که در نتیجه بار محاسباتی بالا و آموزش دشوار است. در عمل، بیشتر تصاویر سنجش از راه دور بدنه آب دارای وضوح متوسط ​​یا حتی بالا هستند و SegNet سنتی تقسیم بندی کندی خواهد داشت. برای کاهش تعداد پارامترها بدون به خطر انداختن استخراج ویژگی، پیچیدگی‌های قابل تفکیک عمیق به لایه‌های پیچیدگی معرفی می‌شوند. پیچیدگی‌های قابل تفکیک عمیق را می‌توان به دو بخش تقسیم کرد: پیچیدگی‌های عمقی و کانولوشن‌های نقطه‌ای. شکل 4ساخت کانولوشن های قابل تفکیک در عمق است. پیچیدگی عمقی به پیچیدگی‌های ابعادی فضایی در هر کانال تانسور ورودی اشاره دارد و پیچیدگی‌های نقطه‌ای کانولوشن‌های استاندارد 1×1 را برای فیوز کردن خروجی هر کانال اعمال می‌کنند [ 29 ].
شکل 5 مقایسه ای بین پیچش استاندارد و کانولوشن قابل تفکیک عمقی است. کانولوشن استاندارد ابتدا یک پیچیدگی 3 × 3 × C، سپس نرمال سازی دسته ای (BN) [ 30 ] و در نهایت تابع relu غیرخطی [ 31 ] را انجام می دهد. متفاوت از روش‌های کانولوشن سنتی، کانولوشن قابل تفکیک عمقی ابتدا یک پیچیدگی عمقی 3 × 3 × 1 را اعمال می‌کند، سپس نرمال‌سازی دسته‌ای و تابع relu غیرخطی، سپس یک پیچش نقطه 1 × 1 × C را اعمال می‌کند و دوباره نرمال‌سازی دسته‌ای و غیرخطی را انجام می‌دهد. تابع relu. کانولوشن استاندارد از هسته کانولوشن کامل 3 × 3 × C به طور مستقیم استفاده می کند، اما کانولوشن قابل تفکیک عمق از هسته های کانولوشن 3 × 3 C به طور همزمان استفاده می کند [ 32]. به عنوان مثال، اگر کانولوشن استاندارد NK × K هر کدام از کانال های C استفاده شود، تعداد پارامترها NCK خواهد بود. 22. با این حال، برای کانولوشن های قابل جداسازی عمقی، کانولوشن های عمقی KxK کانال های C هر کدام در هر کانال تصویر ورودی انجام می شود و بنابراین CK 22پارامترها ابتدا تولید می شوند. سپس، کانولوشن های نقطه ای N 1 × 1 × C برای تجمیع خروجی ها استفاده می شود و بنابراین پارامترهای NC تولید می شوند. بنابراین، کل پیچیدگی های قابل تفکیک عمق CK تولید می کند 22+ پارامترهای NC، بسیار کمتر از کانولوشن های استاندارد.
استفاده از پیچش‌های قابل تفکیک عمیق در تقسیم‌بندی منطقه آب نه تنها زمان آموزش را کوتاه می‌کند و محاسبات را کاهش می‌دهد، بلکه به طور موثر از برازش بیش از حد جلوگیری می‌کند. استفاده از پیچش های قابل تفکیک عمیق، آموزش مدل را آسان تر می کند. علاوه بر این، زمان آموزش و پیش بینی نیز کاهش می یابد.

2.3. طراحی رمزگشا

اگرچه مدل انتها به انتها می تواند مستقیماً از یک تصویر کامل به عنوان ورودی استفاده کند و یک تصویر کامل را به عنوان خروجی تولید کند [ 33 ]. اطلاعات مکانی تصویر ممکن است در مرحله رمزگشایی از بین برود. U-Net پیشنهاد شده توسط Ronneberger O و همکاران. [ 34 ] از الحاق در رمزگذار و رمزگشا برای ترکیب ویژگی های تصویر سطح بالا و سطح پایین برای به دست آوردن اطلاعات ویژگی های بیشتر استفاده می کند.
کار قبلی نشان می‌دهد که نمونه‌برداری لایه به لایه نتایج پیش‌بینی را بهبود نمی‌بخشد، اما در عوض پیچیدگی مدل را افزایش می‌دهد و تعداد زیادی پارامتر ایجاد می‌کند. اگر نمونه برداری به اندازه تصویر ورودی به طور مستقیم باشد، اطلاعات در لایه های رمزگذاری از بین می رود. با توجه به موقعیت‌های فوق، SR-SegNet پیشنهادی ما در این مقاله یک حالت آبشاری انتها به انتها را ترکیب می‌کند، و 4× unpooling را برای اولین upsampling، به جای 2× unpooling سنتی اتخاذ می‌کند. بعد، 2× unpooling لایه به لایه انجام می شود. در نتیجه، تنها چهار بار unpooling وجود دارد. در بلوک باقیمانده رمزگذار، چهار بلوک باقیمانده اول با نمونه‌برداری در مرحله رمزگشایی آبشاری می‌شوند. آبشار از روش همجوشی برای به دست آوردن موثر اطلاعات مکان فضایی استفاده می کند.35 ].

3. آزمایش و تجزیه و تحلیل نتایج

برای تأیید اثربخشی SR-SegNet پیشنهاد شده در این مقاله، آزمایش‌هایی بر روی مجموعه داده‌های دریاچه و رودخانه انجام شد. علاوه بر این، از مدل‌های تقسیم‌بندی معنایی به عنوان گروه‌های کنترل استفاده شد. همه آزمایش ها بر اساس چهار معیار اصلی، از جمله دقت (Ac)، تاس، امتیاز F1 (F1)، و میانگین تقاطع بیش از اتحادیه (Miou) مورد ارزیابی قرار گرفتند. نتایج تجربی نشان می‌دهد که شبکه پیشنهادی در این مقاله از تمام شبکه‌های مقایسه شده در معیارهای ارزیابی فراتر رفته است.

3.1. افزایش داده ها

مجموعه داده آزمایشی شامل تصاویر ماهواره‌ای سنجش از دور دریاچه Namtso در فلات چینگهای-تبت و رودخانه‌ای در چین مرکزی طی سال‌های 2015 تا 2019 از مرکز چین برای داده‌ها و برنامه‌های ماهواره‌ای منابع ( https://www.cresda.com/CN/ ) است. . پس از طبقه بندی تمایز نیافته، 32 تصویر آموزشی و 7 تصویر آزمایشی تهیه شد. از آنجایی که بدنه آب در یک تصویر تنها بخش کوچکی را به خود اختصاص می دهد، از نرم افزار Adobe Photoshop CS6 برای برش تصویر سنجش از راه دور به قطعات کوچک با ابعاد 512 × 512 پیکسل استفاده شد و از Labelme برای طبقه بندی و حاشیه نویسی استفاده شد. دریاچه به عنوان رده 1 و پس زمینه به عنوان رده 2 طبقه بندی شد. تصاویر برش خورده و برچسب های مربوط به آنها در شکل 6 نشان داده شده است.آ. شایان ذکر است که در مجموعه آموزشی تنها تصاویری از دریاچه نامتسو وجود داشت و هیچ تصویری از دریاچه ها و رودخانه های دیگر وجود نداشت. علاوه بر این، تصاویر سنجش از دور در مجموعه آموزشی و در مجموعه آزمایشی از یک رودخانه نبودند. برای تشخیص رودخانه های مختلف از رودخانه 1، رودخانه 2 و رودخانه 3 برای علامت گذاری آنها استفاده می شود.
شبکه عصبی عمیق به تعداد زیادی داده آموزشی نیاز دارد، اما به دست آوردن این نمونه های یادگیری دشوار است. بنابراین، استفاده از افزایش داده ها برای جلوگیری از برازش بیش از حد در زمانی که تنها چند نمونه آموزشی وجود دارد بسیار ضروری است [ 36 ]. بنابراین، 5000 تصویر با مقیاس بندی، ترجمه، چرخش و چرخش تولید شد. با توجه به نسبت 7:3، 3750 تصویر به مجموعه آموزشی و 1250 تصویر به مجموعه اعتبار سنجی تقسیم شدند. شکل 6 ب تصاویر و برچسب های مربوط به آنها را پس از تقویت داده ها نشان می دهد.

3.2. معیارهای ارزیابی

برای ارزیابی عملکرد کمی مدل‌های مختلف، چهار معیار ارزیابی انتخاب شدند: دقت، تاس، امتیاز F1 و Miou.

c =تیپتینتیپافپافنتینآج=تیپ+تینتیپ+افپ+افن+تین
e =TپTپافنافپ�منجه=2تیپ2تیپ+افن+افپ
پn =تیپتیپافپپ�هجمنسمن��=تیپتیپ+افپ
l =تیپتیپافنآرهجآلل=تیپتیپ+افن
اف1 = ×پn × lپn + lاف1=2×پ�هجمنسمن��×آرهجآللپ�هجمنسمن��+آرهجآلل
ممن یا تو =تیپتیپافپافنممن�تو=تیپتیپ+افپ+افن

که در آن “AC” به عنوان تعداد پیکسل هایی که به درستی در یک تصویر طبقه بندی شده اند تعریف می شود. تاس برای اندازه گیری شباهت بین دو تصویر استفاده می شود. «دقت» نسبت پیکسل‌های مثبت طبقه‌بندی شده به همه پیکسل‌های مثبت پیش‌بینی‌شده است. «یادآوری» درصدی از پیکسل‌های مثبت طبقه‌بندی شده به همه پیکسل‌های مثبت واقعی است. “F1” ترکیبی از دقت و نرخ فراخوان است. و ‘Miou’ برای توصیف دقت تقسیم بندی استفاده می شود [ 37 ]. TP مثبت واقعی، TN منفی واقعی، FP مثبت کاذب و FN منفی کاذب است. فرمول های محاسبه در معادلات ( 3 )-(8) نشان داده شده است.

3.3. تنظیم و آموزش آزمایش

در این آزمایش، VGGNet به عنوان شبکه ستون فقرات استفاده شد، و وزنه های رسمی VGGNet منتشر شده توسط keras به عنوان وزنه های قبل از تمرین استفاده شد. DeconvNet، FCN32s، FCN16s و FCN8s به عنوان شبکه های مقایسه انتخاب شدند. در این مقاله، SR-SegNet v1 و SR-SegNet v2 پیشنهاد شده است. بلوک باقیمانده SR-SegNet v1 از پیچش های گشاد شده استفاده نمی کند، و بلوک باقیمانده SR-SegNet v2 از 2 × 2 پیچش گشاد شده با نرخ اتساع 2 استفاده می کند. در طول مرحله تمرین، بهینه ساز SGD [ 38] با نرخ یادگیری اولیه 0001/0 استفاده شد. تکانه روی 0.9 و کاهش وزن روی 0.0005 تنظیم شد. همه مدل‌ها برای 300 دوره با اندازه کوچک 2 آموزش داده شدند. همه آزمایش‌ها در ویندوز 10 با پردازنده AMD Ryzen 7 2700 (3.2 گیگاهرتز)، 16 گیگابایت حافظه (رم) و NVIDIA GeForce RTX 2070 انجام شد. 8 گیگابایت). پایتون 3.6 استفاده شد و آزمایش ها بر اساس چارچوب برنامه نویسی keras انجام شد. علاوه بر این، آنتروپی متقاطع به عنوان تابع از دست دادن شبکه عصبی، همانطور که در معادله ( 9 ) نشان داده شده است، استفاده شد. ایکس منمننمونه را نشان می دهد. p (x) و q (x) به ترتیب نشان دهنده دو توزیع احتمال مجزا از متغیر تصادفی x هستند . و n تعداد نمونه ها است.

s =1n(ایکسمنg(ایکسمن) ) –1n(ایکسمنgق(ایکسمن) ) .��سس=∑من=1�پ(ایکسمن)ل��(پ(ایکسمن))-∑من=1�پ(ایکسمن)ل��(�(ایکسمن)).
سیستم تقسیم بندی منطقه آب پیشنهادی در شکل 7 نشان داده شده است . اول، مجموعه داده دریاچه و رودخانه برای تولید داده‌های بیشتر برای آموزش شبکه عصبی از طریق تقویت داده‌ها، پیش پردازش شد. این تکنیک پیچیدگی داده ها را افزایش می دهد و به طور موثر برازش بیش از حد آموزش را کاهش می دهد [ 39 ]. دوم، مجموعه داده به مجموعه آموزشی و مجموعه آزمایشی تقسیم شد و تصاویر مجموعه آموزشی در مدل برای آموزش قرار گرفتند. روش آموزش از الگوریتم نزول گرادیان استفاده کرد. برچسب ها با نتایج پیش بینی شده مقایسه شدند و پارامترها به طور مداوم با استفاده از انتشار برگشتی و محاسبه تابع تلفات به روز شدند [ 40 ]]. در نهایت، پارامترهای بهینه مدل برای پیش‌بینی و ارزیابی تصاویر دریاچه و رودخانه در مجموعه آزمایش ذخیره شدند.

3.4. تجزیه و تحلیل نتایج

آزمایش‌ها ثابت می‌کنند که SR-SegNet v1 و SR-SegNet v2 پیشنهادی در این مقاله تعداد پارامترها را به ترتیب 65 و 71 درصد در مقایسه با SegNet کلاسیک کاهش می‌دهد و سرعت آموزش v1 بیش از 10 بهبود می‌یابد. ٪. علاوه بر این، Miou of v2 2.37٪ بهبود یافته است. نتایج در جدول 2 و جدول 3 نشان داده شده است.
از آنجایی که SegNet کلاسیک از هسته‌های کانولوشن زیادی استفاده می‌کند، تعداد زیادی پارامتر تولید می‌کند که آموزش و همگرایی مدل را دشوار می‌کند. در این مقاله، دو شبکه بهبود یافته پیشنهاد شده است. برای لایه کانولوشن، ما به جای پیچیدگی‌های استاندارد، از کانولوشن‌های قابل تفکیک عمیق استفاده می‌کنیم، که اعداد پارامترها را به شدت کاهش می‌دهد، زمان آموزش را کوتاه می‌کند و همگرای مدل را آسان‌تر می‌کند. علاوه بر این، از دست دادن اطلاعات ناشی از استفاده از این تکنیک در سطح قابل قبولی است. در آزمایش، اعداد پارامتر SR-SegNet v1 71٪ کاهش یافته و زمان آموزش آن 18.3٪ کاهش یافته است. برای جبران از دست دادن اطلاعات ناشی از استفاده از پیچش‌های قابل تفکیک عمیق، پیچیدگی‌های گشاد شده را به بلوک باقیمانده اصلاح شده معرفی کرده و SR-SegNet v2 را پیشنهاد می‌کنیم.
برای مقایسه عملکرد هر مدل، هر مدل را در شرایط یکسان آزمایش کردیم. جدول 3 معیارهای تقسیم بندی هر مدل را در مجموعه آزمایش نشان می دهد. می توان مشاهده کرد که معیارهای SegNet نسبت به معیارهای FCN و DeconvNet برتری دارند. در مقایسه با FCN8s، SegNet’s Ac، Dice، F1 و Miou به ترتیب 4.88، 17.2، 7.83 درصد و 1.32 درصد بالاتر هستند. در مقایسه با SegNet کلاسیک، SR-SegNet v2 یک F1 بالاتر 0.1٪ (0.9949 در مقابل 0.9939)، یک Dice بالاتر با 1.2٪ (0.9437 در مقابل 0.9317) و یک Miou بالاتر با 2.37٪ (0.932) 2.37٪ (0.932) به دست می آورد. .
برای نشان دادن بیشتر عملکرد تعمیم شبکه، شبکه آموزش داده شده با استفاده از مجموعه داده دریاچه Namsto برای شناسایی دریاچه های دیگر استفاده شد. در شکل 8 ، ردیف اول دریاچه Namtso، ردیف دوم دریاچه Chaohu و ردیف سوم دریاچه Qinghai است. در شکل 8 مشاهده می شود که FCN و DeconvNet هر دو یک ساختار رمزگذاری-رمزگشایی ساده را اتخاذ می کنند و بنابراین آنها فقط می توانند لبه هدف را به طور کلی شناسایی کنند. اطلاعات فضایی تصویر در استخراج توسط FCN و DeconvNet نادیده گرفته می‌شود، و بنابراین هیچ یک از استخراج مرز دریاچه به اندازه کافی خوب نیست. SR-SegNet می تواند موقعیت دریاچه و اطلاعات مرزی را بهتر استخراج کند. در شکل 8f، مشاهده می شود که SegNet برای هر سه دریاچه قابلیت تقسیم بندی بهتری دارد، اما جزئیات دریاچه ها به درستی استخراج نشده و قسمت های غیر دریاچه ای دریاچه چائوهو به اشتباه شناسایی شده اند. توجه داشته باشید که SR-SegNet می تواند به طور موثر مشکل تخریب شبکه و شناسایی دریاچه های کوچک را حل کند.
شکل 9 منحنی های آموزشی SR-SegNet v2 و SegNet را نشان می دهد. مشاهده می شود که SR-SegNet v2 بهتر از SegNet عمل می کند و روند آموزش آن روان تر است، در حالی که SegNet دارای نوسانات زیادی است. نشان داده شده است که عملکرد مدل با اضافه شدن بلوک های باقیمانده اصلاح شده بیشتر بهبود می یابد.
برای نشان دادن برتری شبکه های پیشنهادی در این مقاله، SegNet، SR-SegNet v1 و SR-SegNet v2 به ترتیب مورد آزمایش و ارزیابی قرار گرفتند. توجه داشته باشید که نسبت دریاچه ها در یک تصویر سنجش از دور نسبتاً زیاد است و نسبت رودخانه ها در یک تصویر سنجش از دور نسبتاً کوچک است. تصاویر سنجش از دور دریاچه‌ها و رودخانه‌ها به ترتیب با پیکسل‌های مثبت بیشتر و پیکسل‌های مثبت کمتر، در این آزمایش مورد تجزیه و تحلیل قرار گرفتند. جدول 4 تعداد پیکسل های مثبت (جسم آبی) و پیکسل های منفی (پس زمینه) شش تصویر سنجش از دور انتخاب شده از تصاویر آزمایشی را نشان می دهد. نسبت نشان دهنده نسبت تعداد پیکسل های مثبت به کل پیکسل ها است. مشاهده می شود که در یک 512 × 512512×512تصویر سنجش از دور پیکسل، تعداد پیکسل های دریاچه 6 تا 10 برابر بیشتر از پیکسل های رودخانه ها است.
نتایج تقسیم بندی تصویر آزمایشی در شکل 10 نشان داده شده است. مشاهده می شود که SegNet توانایی تقسیم بندی خوبی برای تصاویر سنجش از دور دریاچه ها با پیکسل های مثبت بیشتر دارد. با این حال، در ردیف اول، “دریاچه کوچک” در نزدیکی دریاچه Namtso به رسمیت شناخته نمی شود، که ثابت می کند که توانایی تشخیص SegNet برای اهداف کوچک ضعیف است. در مقابل، SR-SegNet v2 این مشکل را با پیچش های گشاد شده در بلوک های باقیمانده اصلاح شده حل می کند. این اصلاح عملکرد بهتر شبکه را تضمین می کند و میدان دریافت لایه کانولوشن را افزایش می دهد. در ردیف دوم، دوز SegNet در تقسیم بندی دریاچه چائوهو خوب عمل نمی کند و صداهای زیادی در اطراف دریاچه وجود دارد. با این حال، دو شبکه بهبود یافته پیشنهاد شده در این مقاله از تخریب در طول فرآیند آموزش جلوگیری می‌کنند و نویزها را تا حد زیادی کاهش می‌دهند، در نتیجه معرفی بلوک‌های باقیمانده اصلاح‌شده. ردیف سوم تقسیم بندی دریاچه چینگهای است. برداشت از مرز دریاچه به اندازه کافی خوب نیست، که در آینده نیز مشکلی است که باید حل شود. شایان ذکر است که تصاویر سنجش از دور دریاچه Namtso در تمرین در این آزمایش مورد استفاده قرار گرفت و تصاویر سنجش از دور دریاچه Qinghai و دریاچه Chaohu در مجموعه آموزشی گنجانده نشد. با این حال، نتایج تقسیم بندی خوب برای دریاچه چینگهای و دریاچه چائوهو توسط SR-SegNet ارائه شده است که به وضوح توانایی های تعمیم شبکه های پیشنهادی را ثابت می کند.
در آزمایش‌ها مشخص شد که تقسیم‌بندی رودخانه SegNet به خوبی دریاچه نیست. این پدیده دو توضیح زیر را دارد: اول اینکه نسبت پیکسل های مثبت در تصویر رودخانه به مراتب کمتر از نسبت پیکسل های منفی است. و دوم، استخراج ویژگی های رودخانه پیچیده تر از ویژگی های دریاچه است. عملکرد کلاسیک SegNet کاهش می‌یابد زیرا لایه‌های عمیق زیادی وجود دارد، و تعداد زیادی پارامتر آموزشی برای مقابله با ویژگی‌های پیچیده مانند رودخانه‌ها مفید نیست. SR-SegNet V1 و SR-SegNet v2 برای کاهش زمان نمونه برداری و تعداد پارامترهای آموزشی با استفاده از کانولوشن های تفکیک پذیر عمق پیشنهاد شده اند. در عین حال، برای کاهش عمق شبکه بدون تأثیر بر استخراج ویژگی، بلوک باقیمانده اصلاح شده برای کاهش مشکل تخریب شبکه و استخراج اطلاعات بیشتر وارد مرحله کدگذاری می شود. همانطور که در نشان داده شده استشکل 10 ، SR-SegNet در تقسیم بندی رودخانه موثرتر است، نتایج آن به برچسب های واقعی نزدیک تر است، و می تواند ویژگی های پیچیده ای را استخراج کند که SegNet نمی تواند. SR-SegNet v2 کانولوشن های گشاد شده را به لایه های پیچش خود اضافه می کند تا میدان دریافت خود را بیشتر کند. در تقسیم بندی رودخانه های 1 و 3، SegNet در تشخیص رودخانه های کوچک به خوبی کار نمی کند، زیرا نمی تواند اطلاعات مکانی کافی را استخراج کند. در مقابل، با معرفی بلوک‌های باقیمانده اصلاح‌شده، روش پیشنهادی ما می‌تواند به طور موثر اطلاعات مکانی را برای شناسایی رودخانه‌های کوچک استخراج کند. در شکل 10SR-SegNet v2 قادر است رودخانه 3 را تقسیم بندی کند. همانطور که میدان گیرنده آن گسترش می یابد، SR-SegNet v2 نتیجه بهتری در تقسیم بندی دسترسی به رودخانه دارد و نتیجه کارایی پیچش های گشاد شده را کاملاً ثابت می کند.
زمان های آزمایش مدل در جدول 5 نشان داده شده است. پس از معرفی کانولوشن های قابل تفکیک عمیق و ساختار باقیمانده، شبکه ساده شده است. میانگین زمان تست SR-SegNet v1 27 درصد کمتر از SegNet کلاسیک است. در SR-SegNet v2، با پیچیدگی های گشاد شده اضافی، محاسبات شبکه افزایش می یابد. بنابراین، میانگین سرعت تست آن تنها حدود 10٪ سریعتر از SegNet کلاسیک است.
نتایج مقایسه کمی در جدول 6 خلاصه شده است. در آزمایشات روی سه دریاچه، می توان مشاهده کرد که SR-SegNet عملکرد زیادی نسبت به SegNet کلاسیک ندارد. فقط یک پیشرفت کوچک را نشان می دهد. SR-SegNet v2 دارای 99.56% Ac و 94.92% Miou در استخراج دریاچه است که به ترتیب 0.06% و 0.35% بیشتر از SegNet کلاسیک است.
با این حال، برای یک تصویر با رودخانه های پیچیده، که در آن تعداد پیکسل های مثبت به مراتب کمتر از تعداد پیکسل های منفی است، Ac و F1 این سه شبکه نسبتاً بالا هستند، زیرا دسته های کمتری برای طبقه بندی وجود دارد و نسبت منفی وجود دارد. پیکسل در هر تصویر بسیار بالا است. Miou انتخاب شده می تواند هر سه شبکه را با دقت بیشتری تشخیص دهد. برای Miou، SR-SegNet v2 بالاترین امتیاز را با افزایش 2.46٪ در مقایسه با SegNet کلاسیک (0.9311 در مقابل 0.9065) و SR-SegNet v1 به بهبود 2.39٪ نسبت به SegNet کلاسیک (0.9304 در مقابل 0.906) دست می یابد. برتری شبکه های پیشنهادی در این مقاله برای استخراج رودخانه تایید می شود.

3.5. آزمایش تأیید

برای تأیید بیشتر توانایی‌های تعمیم مدل‌های پیشنهادی در این مقاله، Cityscapes، یک مجموعه داده عمومی، برای آزمایش بیشتر انتخاب شد. به دلیل محدودیت حافظه کامپیوتر، این آزمایش از تمام دسته‌های مجموعه داده Cityscapes استفاده نکرد. تنها چهار دسته، یعنی انسان، ماشین، جاده و پس زمینه انتخاب شدند. سپس 2975 تصویر به عنوان مجموعه داده آموزشی و 2975 تصویر به عنوان مجموعه داده اعتبار سنجی استفاده شد. با بهینه ساز Adam، نرخ یادگیری اولیه 0.0001، نرخ کاهش وزن 0.0005، اندازه دسته تمرینی 3 و تکرار 160 بار بود.
موضوع تحقیق این مقاله تقسیم‌بندی مساحت آب است. برای تأیید عملکرد تعمیم و اثربخشی الگوریتم‌های پیشنهادی در این مقاله، مجموعه داده‌ای متفاوت را برای تأیید انتخاب کردیم. بزرگترین تفاوت بین مجموعه داده Cityscapes و مجموعه داده تقسیم‌بندی منطقه آب این است که اشیاء آنها متفاوت هستند، اما استفاده از اشیاء مختلف برای تأیید می‌تواند عملکرد تعمیم شبکه‌های پیشنهادی در این مقاله را بهتر نشان دهد. نتایج تجربی در جدول 7 نشان داده شده است. می بینیم که سرعت تمرین V2 حدود 8.3٪ افزایش یافته است و Miou آن نیز 1.01٪ افزایش یافته است. بنابراین، عملکرد تعمیم و اثربخشی شبکه پیشنهادی تأیید می‌شود.

4. نتیجه گیری

در این مقاله، تقسیم بندی دریاچه و رودخانه با استفاده از SR-SegNet بهبود می یابد. روش‌های رمزگشایی سنتی از 2× upsampling گام به گام استفاده می‌کنند، اما این مقاله پیشنهاد می‌کند که برای اولین بار، 4× upsampling اجرا شود و سپس سه لایه کانولوشن با 512 کانال در مرحله رمزگشایی حذف شود، بنابراین تعداد زیادی از پارامترها کاهش می‌یابد و آموزش بهبود می‌یابد. سرعت. در همان زمان، برای استخراج ویژگی‌های عمیق‌تر و اطمینان از دقت بخش‌بندی مدل، بلوک‌های باقیمانده بهبود یافته به مرحله رمزگذاری برای حل مشکل تخریب شبکه معرفی می‌شوند. علاوه بر این، برای به دست آوردن یک میدان دریافتی بزرگتر و به دست آوردن اطلاعات فضایی بیشتر، پیچش های گشاد شده نیز به لایه های پیچش اضافه می شوند و از روش آبشاری برای ترکیب ویژگی های سطح پایین و سطح بالا تصویر استفاده می شود.
نتایج مقایسه کمی با SegNet، FCN، و DeconvNet نشان می‌دهد که SR-SegNet از مدل‌های دیگر بهتر عمل می‌کند. در مقایسه با SegNet استاندارد، SR-SegNet 2.37٪ پیشرفت در Miou به دست می آورد و 10-27٪ در زمان آزمایش مدل در مجموعه داده دریاچه و رودخانه صرفه جویی می کند. با این حال، به دلیل پیچیدگی مدل، این مقاله همچنین نیاز به بهبود در جنبه‌های زیر دارد: (1) فرآیند آموزش سریع‌تر همگرا شود و سرعت آموزش و پیش‌بینی مدل را بهبود بخشد. (2) جستجوی داده های بیشتر و بهبود بیشتر عملکرد تعمیم مدل. و (3) مشکل شناسایی کوچک را حل کند.
داده ها و کد این مطالعه در صورت درخواست از نویسنده مسئول در دسترس است ( xiamin@nuist.edu.cn ).

منابع

  1. وان، دبلیو. شیائو، پی. فنگ، ایکس. لی، اچ. ما، ر. دوان، اچ. ژائو، ال. نظارت بر تغییرات دریاچه فلات چینگهای-تبت طی 30 سال گذشته با استفاده از داده های سنجش از دور ماهواره ای. چانه. علمی گاو نر 2014 ، 59 ، 1021-1035. [ Google Scholar ] [ CrossRef ]
  2. برو بالا.؛ بله، س. وی، کیو. تغییر یخ دریاچه در دریاچه Nam Co در فلات تبت در طول 2000-2013 و عوامل موثر. Prog. Geogr. 2015 ، 34 ، 1241-1249. [ Google Scholar ]
  3. McFeeters، S. استفاده از شاخص تفاوت عادی آب (NDWI) در ترسیم ویژگی های آب باز. بین المللی J. Remote Sens. 1996 ، 17 ، 1425-1432. [ Google Scholar ] [ CrossRef ]
  4. فریزر، پی. پیج، ک. تشخیص و ترسیم بدنه آب با داده های Landsat TM. فتوگرام مهندس Remote Sens. 2000 , 66 , 1461-1467. [ Google Scholar ]
  5. یوان، ایکس. Sarma، V. تشخیص و تقسیم‌بندی خودکار بدنه آب شهری از داده‌های Sparse ALSM از طریق خوشه‌بندی مبتنی بر مدل مبتنی بر فضای محدود. IEEE Geosci. سنسور از راه دور Lett. 2011 ، 8 ، 73-77. [ Google Scholar ] [ CrossRef ]
  6. لو، اس. وو، بی. یان، ن. وانگ، اچ. روش نقشه برداری بدنه آب با تصاویر ماهواره ای HJ-1A/B. بین المللی J. Appl. زمین Obs. Geoinf. 2011 ، 13 ، 428-434. [ Google Scholar ] [ CrossRef ]
  7. ژانگ، اچ. جیانگ، کیو. Xu, J. استخراج خط ساحلی با استفاده از ماشین بردار پشتیبان از تصویر سنجش از دور. J. Multimed. 2013 ، 8 ، 175-182. [ Google Scholar ]
  8. فییسا، جی. میلبی، اچ. فنشولت، آر. پراید، S. شاخص استخراج خودکار آب: یک تکنیک جدید برای نقشه برداری آب های سطحی با استفاده از تصویر Landsat. سنسور از راه دور محیط. 2014 ، 140 ، 23-35. [ Google Scholar ] [ CrossRef ]
  9. مایکل، اس. وی، ال. Zhu، X. تشخیص خودکار خط ساحلی در داده‌های پشت سر هم-X فیلتر نشده محلی. در مجموعه مقالات سمپوزیوم بین المللی علوم زمین و سنجش از دور IEEE 2015 (IGARSS)، میلان، ایتالیا، 26 تا 31 ژوئیه 2015؛ ص 1036-1039. [ Google Scholar ]
  10. دو، ی. فنگ، جی. لی، ز. پنگ، ایکس. رن، ز. Zhu, J. روشی برای تشخیص بدنه آب های سطحی و تولید دم با چند هندسه TanDEM-X aata. IEEE J. Sel. بالا. Appl. زمین Obs. Remote Sens. 2008 , 12 , 151-161. [ Google Scholar ] [ CrossRef ]
  11. پارک، سی. جئون، جی. ماه، ی. Eom، I. تشخیص شکوفه جلبکی مبتنی بر تصویر با استفاده از تقسیم‌بندی مناطق آبی و شاخص‌های احتمالی جلبک. IEEE Geosci. سنسور از راه دور Lett. 2019 ، 7 ، 8869–8878. [ Google Scholar ]
  12. وانگ، بی. وانگ، ک. لیائو، دبلیو. استخراج دریاچه فلات چینگهای-تبت بر اساس تقسیم بندی تصویر سنجش از دور. Remote Sens. Inf. 2018 ، 3 ، 117-122. [ Google Scholar ]
  13. چنگ، بی. کوی، اس. ما، ایکس. لیانگ، سی. تحقیق در مورد روش استخراج منطقه ساختمان شهری با تصویربرداری PolSAR با وضوح بالا بر اساس محله‌های انتخاب محله تطبیقی ​​برای حفظ جاسازی. ISPRS Int. J. Geo-Inf. 2020 ، 9 ، 109. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  14. Milosavljevic، A. شناسایی رسوبات نمک بر روی تصاویر لرزه ای با استفاده از روش یادگیری عمیق برای تقسیم بندی معنایی. ISPRS Int. J. Geo-Inf. 2020 ، 9 ، 24. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  15. سیمونیان، ک. Zisserman, A. شبکه های پیچیده بسیار عمیق برای تشخیص تصویر در مقیاس بزرگ. arXiv 2014 ، arXiv:1409.155. [ Google Scholar ]
  16. سگدی، سی. لوفه، اس. ونهوک، وی. عالمی، ع. Inception-v4، inception-resnet و تأثیر اتصالات باقیمانده بر یادگیری. در مجموعه مقالات سی و یکمین کنفرانس AAAI در مورد هوش مصنوعی، سانفرانسیسکو، کالیفرنیا، ایالات متحده آمریکا، 4 تا 9 فوریه 2017. [ Google Scholar ]
  17. هوانگ، جی. لیو، ز. واندر ماتن، ال. Weinberger، KQ شبکه های کانولوشنال به هم پیوسته متراکم. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، هونولولو، HI، ایالات متحده آمریکا، 21 تا 26 ژوئیه 2017. [ Google Scholar ]
  18. شیا، م. لی، ی. ژانگ، ی. ونگ، ال. لیو، جی. تشخیص ابر/برف تصاویر ابر ماهواره ای بر اساس شبکه توجه همجوشی چند مقیاسی. J. Appl. Remote Sens. 2020 , 14 , 032609. [ Google Scholar ] [ CrossRef ]
  19. لانگ، جی. شلهامر، ای. دارل، تی. شبکه های کاملاً پیچیده برای تقسیم بندی معنایی. در مجموعه مقالات کنفرانس IEEE 2015 در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، بوستون، MA، ایالات متحده آمریکا، 7 تا 12 ژوئن 2015؛ صص 3431–3440. [ Google Scholar ]
  20. نه، اچ. هونگ، اس. هان، بی. یادگیری شبکه دکانولوشن برای تقسیم بندی معنایی. arXiv 2015 ، arXiv:1505.04366. [ Google Scholar ]
  21. بدرینارایانان، وی. کندال، ا. Cipolla، R. SegNet: یک معماری رمزگذار-رمزگشا کانولوشنال عمیق برای تقسیم بندی تصویر. IEEE Trans. الگوی مقعدی ماخ هوشمند 2017 ، 39 ، 2481-2495. [ Google Scholar ] [ CrossRef ]
  22. ژائو، اچ. شی، ج. Qi، X. وانگ، ایکس. شبکه تجزیه صحنه هرم جیا، جی. در مجموعه مقالات کنفرانس IEEE 2017 در مورد دید رایانه و تشخیص الگو (CVPR)، هونولولو، HI، ایالات متحده آمریکا، 21 تا 26 ژوئیه 2017؛ صص 6230–6239. [ Google Scholar ]
  23. یو، اف. کلتون، V. تجمع بافت در مقیاس چندگانه توسط پیچیدگی گشاد شده. در مجموعه مقالات کنفرانس بین المللی در مورد بازنمایی های یادگیری 2016 (ICLR)، سان خوان، پورتوریکو، 2 تا 4 مه 2016. [ Google Scholar ]
  24. شیا، م. آهنگ، دبلیو. سان، ایکس. لیو، جی. هنوز.؛ Xu, Y. شبکه های کانولوشنال بهم پیوسته وزن دار برای یادگیری تقویتی. بین المللی ج. تشخیص الگو. آرتیف. هوشمند 2020 ، 34 ، 2052001. [ Google Scholar ] [ CrossRef ]
  25. Chollet، F. Xception: یادگیری عمیق با پیچیدگی های قابل جداسازی عمیق. در مجموعه مقالات کنفرانس IEEE 2017 در مورد دید کامپیوتری و تشخیص الگو (CVPR). IEEE، هونولولو، HI، ایالات متحده آمریکا، 21 تا 26 ژوئیه 2017؛ صفحات 1800–1807. [ Google Scholar ]
  26. او، ک. ژانگ، ایکس. رن، اس. Sun, J. یادگیری باقیمانده عمیق برای تشخیص تصویر. در مجموعه مقالات کنفرانس IEEE 2016 در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، لاس وگاس، NV، ایالات متحده، 26 ژوئن تا 1 ژوئیه 2016؛ صص 770-778. [ Google Scholar ]
  27. Xu, C. تحقیق و پیاده سازی تقسیم بندی عصبی بر اساس یادگیری عمیق. پایان نامه کارشناسی ارشد، دانشگاه پست و مخابرات پکن، پکن، چین، 2018. [ Google Scholar ]
  28. شیا، م. لیو، دبلیو. خو، ی. وانگ، ک. Zhang، X. شبکه توجه باقیمانده گشاد شده برای تفکیک بار. محاسبات عصبی Appl. 2019 ، 31 ، 8931–8953. [ Google Scholar ] [ CrossRef ]
  29. لیو، پی. لیو، ایکس. لیو، ام. شی، س. یانگ، جی. خو، X. Zhang, Y. استخراج ردپای ساختمان از تصاویر با وضوح بالا از طریق شبکه عصبی کانولوشنال آغاز باقیمانده فضایی. Remote Sens. 2019 , 11 , 830. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  30. آیوف، اس. Szegedy، C. نرمال سازی دسته ای: تسریع آموزش عمیق شبکه با کاهش تغییر متغیر داخلی. در مجموعه مقالات سی و دومین کنفرانس بین المللی یادگیری ماشین (ICML)، آتلانتا، GA، ایالات متحده آمریکا، 6 تا 11 ژوئیه 2015؛ صص 448-456. [ Google Scholar ]
  31. کریژفسکی، آ. سوتسکور، آی. هینتون، GE Imagenet طبقه بندی با شبکه عصبی کانولوشن عمیق. در مجموعه مقالات پیشرفت‌ها در سیستم‌های پردازش اطلاعات عصبی (NIPS)، دریاچه تاهو، ND، ایالات متحده، 5-8 دسامبر 2015. صص 1097–1105. [ Google Scholar ]
  32. سندلر، ام. هوارد، آ. زو، ام. ژموگینوف، آ. Chen, L. MobileNetV2: باقیمانده های معکوس و گلوگاه خطی. در مجموعه مقالات کنفرانس IEEE 2016 در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، سالت لیک سیتی، UT، ایالات متحده آمریکا، 27 تا 30 ژوئن 2016؛ ص 4510–4520. [ Google Scholar ]
  33. پان، پ. وانگ، ی. لو، ی. ژو، جی. تقسیم‌بندی خودکار نئوپلاسم نازوفارنکس در تصویر MR بر اساس مدل U-net. جی. کامپیوتر. Appl. 2019 ، 39 ، 1183-1188. [ Google Scholar ]
  34. رونبرگر، او. فیشر، پی. Brox، T. U-Net: شبکه های کانولوشن برای تقسیم بندی تصاویر زیست پزشکی. در مجموعه مقالات هجدهمین کنفرانس بین المللی محاسبات تصویر پزشکی و مداخله به کمک رایانه (MICCAI)، مونیخ، آلمان، 5 تا 9 اکتبر 2015؛ صص 234-241. [ Google Scholar ]
  35. شیا، م. کیان، جی. ژانگ، ایکس. لیو، جی. Xu, Y. تقسیم بندی رودخانه بر اساس شبکه باقی مانده توجه قابل جداسازی. J. Appl. Remote Sens. 2019 , 14 , 32602. [ Google Scholar ] [ CrossRef ]
  36. شیا، م. ژانگ، ایکس. لیو، دبلیو. ونگ، ال. Xu, Y. یادگیری محدودیت‌های ویژگی چند مرحله‌ای برای تخمین سن. IEEE Trans. Inf. پزشکی قانونی امن. 2020 ، 15 ، 2417-2428. [ Google Scholar ] [ CrossRef ]
  37. پولاک، م. ژانگ، اچ. Pi، M. یک معیار ارزیابی برای تقسیم‌بندی تصویر چندین شی. تصویر Vis. محاسبه کنید. 2009 ، 27 ، 1223-1227. [ Google Scholar ] [ CrossRef ]
  38. Bottou, L. یادگیری ماشینی در مقیاس بزرگ با نزول گرادیان تصادفی. در مجموعه مقالات COMPSTAT ; Springer: برلین/هایدلبرگ، آلمان، 2010; صص 177-186. [ Google Scholar ]
  39. شیا، م. ژانگ، سی. وانگ، ی. لیو، جی. لی، سی. تصمیم گیری مبتنی بر حافظه: مدل مدار عصبی اسپکینگ. شبکه عصبی جهان 2019 ، 29 ، 135–149. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  40. LeCun، Y.; بوزر، بی. دنکر، جی. هندرسون، دی. Jackel, L. تشخیص ارقام دست‌نویس با یک شبکه پس انتشار. Adv. عصبی Inf. روند. سیستم 1990 ، 396-404. [ Google Scholar ]
شکل 1. ساختار SR-SegNet پیشنهادی.
شکل 2. تصویر بلوک باقیمانده: ( الف ) واحد باقیمانده به شکل گلوگاه مورد استفاده در ResNet-50. و ( ب ) بلوک باقیمانده اصلاح شده پیشنهادی در این مقاله. Dilated Conv, dilated convolution; نرخ، نرخ اتساع.
شکل 3. پیچش استاندارد و پیچش متسع: ( الف ) پیچش استاندارد K = 3. ( ب ) پیچش متسع K = 3، نرخ = 2. و ( ج ) پیچش گشاد شده K = 2، نرخ = 2.
شکل 4. پیچیدگی قابل تفکیک عمقی برای هر کانال ورودی [ 29 ].
شکل 5. جزئیات پیچیدگی استاندارد و پیچیدگی قابل تفکیک عمیق: ( الف ) پیچش استاندارد. و ( ب ) پیچیدگی قابل تفکیک در عمق. BN، عادی سازی دسته ای؛ تابع Relu، واحد خطی اصلاح شده.
شکل 6. مثال تصویر و برچسب از مجموعه داده Lake and Rive: ( الف ) منشاء تصاویر سنجش از دور و حقیقت اصلی آنها. و ( ب ) داده ها نتایج تصاویر و صحت پایه آنها را افزایش می دهند.
شکل 7. گردش کار این مطالعه.
شکل 8. تصاویر آزمایشی، تصاویر برچسب پیش بینی شده آنها از پنج روش مقایسه شده است (خاکستری: بدنه آب؛ سیاه: پس زمینه): ( الف ) تصویر ورودی. ( ب ) FCN32s; ( ج ) FCN16s; ( د ) FCN8s; ( ه ) DeconvNet; و ( f ) SR-SegNet v2. ردیف اول: دریاچه نامتسو; ردیف دوم، دریاچه چائوهو؛ ردیف سوم، دریاچه چینگهای.
شکل 9. نمودار تکرار در مجموعه داده دریاچه و ریو از تغییرات روش های پیشنهادی: ( الف ) نمودار مدل Miou در مجموعه داده آموزشی برای SegNet و SR-SegNet v2. و ( ب ) نمودار از دست دادن مدل (آنتروپی متقابل) در مجموعه داده آموزشی برای SegNet و SR-SegNet v2.
شکل 10. نتایج تقسیم بندی روش های مختلف بر روی مجموعه داده دریاچه و رودخانه (خاکستری، بدنه آبی، سیاه، پس زمینه): ( الف ) تصویر ورودی. ( ب ) حقیقت پایه؛ ( ج ) SegNet; ( d ) SR-SegNet v1; و ( e ) SR-SegNet v2.

بدون دیدگاه

دیدگاهتان را بنویسید