1. معرفی
آب ماده اساسی برای تولید و توسعه جامعه بشری است [ 1 ]. آب های سطحی نقش مهمی در چرخه های مواد و انرژی زمین دارند [ 2 ، 3 ]. از آنجایی که دادههای سنجش از راه دور ماهوارهای میتوانند اطلاعات سطحی در مقیاس بزرگ را در زمان کم و با هزینه کم به دست آورند، این دادهها در بررسیهای بدنه آبی استفاده شدهاند [ 4 ]. دادههای سنجش از دور چندگانه، از جمله دادههای نوری [ 5 ] و دادههای راداری [ 6 ]، برای استخراج اطلاعات بدنه آبی استفاده شدهاند. روشهای فعلی استخراج اطلاعات آب شامل روش آستانه [ 7 ]، یادگیری ماشینی [ 8 ، 9 ] و یادگیری عمیق [7] است.10 ، 11 ] و غیره. روش آستانه یک روش مرسوم برای استخراج بدنه آبی است. روش آستانه، آستانه مناسبی را برای متمایز کردن اجسام آبی و سایر اجسام در یک یا چند باند انتخاب میکند [ 7 ]. از آنجایی که ویژگی های طیفی آب در باند مادون قرمز نزدیک (NIR) به طور قابل توجهی با سایر اجسام متفاوت است، باند NIR در تقسیم بندی آستانه بسیار محبوب است [ 12 ]. برای برجسته کردن بیشتر تفاوت بین بدنه های آبی و ویژگی های اطراف، شاخص های آب توسعه یافته اند [ 13]. با این حال، روش شاخص آب دارای مشکلاتی است. یکی این که اجسام با ویژگی های طیفی مشابه، مانند سایه های کوه، سایه ابرها و بزرگراه ها را می توان به راحتی با توده های آبی اشتباه گرفت، که انتخاب آستانه را دشوار می کند. علاوه بر این، آستانه انتخاب شده در استخراج آب در مقیاس بزرگ ممکن است برای مناطق محلی قابل اعمال نباشد [ 14 ]. با توسعه یادگیری ماشین، الگوریتمهای یادگیری ماشین سنتی، مانند درخت تصمیم (DT) [ 15 ]، ماشین بردار پشتیبان (SVM) [ 6 ] و جنگل تصادفی (RF) [ 9 ]]، به طور گسترده در استخراج بدنه آبی استفاده شده است. این الگوریتم ها با استفاده از ویژگی های طراحی شده مصنوعی، از جمله ویژگی های طیفی و بافتی، طبقه بندی را انجام می دهند. با این حال، ویژگیهای طراحیشده مصنوعی نیاز به دانش حرفهای قابلتوجهی دارد و ویژگیهای طراحی مصنوعی معمولاً بر اساس مقیاس خاصی از تصاویر است. یک روش استاندارد برای استخراج ویژگی های طراحی شده مصنوعی از تصاویر در مقیاس های مختلف، نمونه برداری مجدد از تصاویر در مقیاس های مختلف و استخراج ویژگی ها بر اساس تصاویر با مقیاس های مختلف است. بنابراین، این فرآیند نیازمند محاسبات فشرده با زمانبر است. علاوه بر این، بردارهای ویژگی متفاوتی برای تصاویر مختلف مورد نیاز است و بردارهای ویژگی تأثیر زیادی بر نتایج طبقهبندی نهایی دارند. این مسائل استفاده از یادگیری ماشینی برای استخراج آب را چالش برانگیز می کند.
یادگیری عمیق یک روش محبوب در پردازش تصویر در طول چندین سال گذشته است [ 16 ، 17 ]. شبکههای عصبی کانولوشنال (CNN) در طبقهبندی صحنه [ 18 ]، بخشبندی معنایی [ 19 ] و تشخیص شی [ 20 ، 21 ] استفاده شدهاند. مزیت CNN ها این است که ویژگی ها را از تصاویر خام مستقیماً توسط چندین لایه کانولوشن گرفته می شود [ 22 ]]، که می تواند از پردازش ویژگی های پیچیده جلوگیری کند. CNN ها برای تقسیم بندی معنایی قادر به انجام طبقه بندی تصویر در سطح پیکسل هستند، که برای استخراج اطلاعات از تصاویر سنجش از دور مهم است. در CNN، لایه های کانولوشن کم عمق قادر به گرفتن اطلاعات موقعیت پیکسل هستند و لایه های کانولوشن عمیق برای برچسب گذاری پیکسل ها استفاده می شوند [ 22 ]. شبکه کاملاً کانولوشنال (FCN) اولین CNN سرتاسری است که برای تقسیم بندی معنایی طراحی شده است [ 19 ]. FCN ویژگی های انتزاعی را از تصویر ورودی استخراج می کند و هر پیکسل را در نقشه های ویژگی استخراج شده توسط آخرین لایه کانولوشن برچسب گذاری می کند. با این حال، FCN اطلاعات موجود در ویژگی های سطح پایین استخراج شده توسط لایه های پیچیده کم عمق را از دست می دهد. در سالهای اخیر، بسیاری از مدلها مانند Unet [ 23] و Deeplab V3+ [ 24 ]، برای بهبود عملکرد CNN ها برای تقسیم بندی معنایی در زمینه بینایی کامپیوتر توسعه یافته اند. CNN ها به تدریج برای استخراج اطلاعات آب با تصاویر سنجش از راه دور اعمال می شوند. در [ 10 ]، CNN ابتدا برای استخراج بدنه آب در تصاویر Landsat ETM+ استفاده شد. ساختار CNN فقط شامل دو لایه کانولوشن و یک لایه کاملاً متصل بود. ساختار کم عمق به آن اجازه می دهد تا فقط ویژگی های سطح پایین را ثبت کند که منجر به استحکام ضعیف در صحنه های پیچیده می شود. علاوه بر این، کاشی ورودی (19 × 19) در مدل CNN کوچک است. بنابراین، نمی توان از آن برای استخراج ویژگی ها در مقیاس های بزرگ استفاده کرد. با بهبود وضوح فضایی تصاویر ماهواره ای [ 25]، روش های مختلفی مبتنی بر یادگیری عمیق برای استخراج بدنه آبی در تصاویر با وضوح بالا ارائه شده است. یک روش CNN که سوپر پیکسل را ترکیب می کند توسط Chen، Y و همکاران ارائه شده است. [ 11 ]. ایده اصلی ترکیب ویژگی های طراحی مصنوعی و ویژگی های استخراج CNN است. با این حال، این فرآیند سیالیت استخراج آب را کاهش می دهد و برخی از اطلاعات مفید را در طول انتشار به جلو از دست می دهد. در سالهای اخیر، CNNهای سرتاسر، مانند شبکه کاملاً کانولوشن (FCN) [ 26 ] و DeepWaterMap [ 27 ]] برای استخراج بدنه آبی استفاده شده است. این سیانانهای انتها به انتها دقت و کارایی استخراج بدنهی آب را تا حد زیادی بهبود بخشیدند. هنوز چالشهایی در کاربرد CNN در استخراج بدنه آبی وجود دارد: (1) در فرآیند انتشار رو به جلو، وضوح نقشههای ویژگی به دلیل تکرار لایههای max-pooling کاهش مییابد که منجر به از دست رفتن اطلاعات دقیق بدنه آب میشود. . (2) میدانهای دریافتی پیکسلها در نقشههای ویژگی استخراجشده توسط لایههای کانولوشن در اعماق مختلف متفاوت است، که به این نقشههای ویژگی اجازه میدهد تا حاوی اطلاعات ویژگی در مقیاسهای مختلف باشند [ 22 ]. ترکیبی از ویژگی های استخراج شده در مقیاس های چندگانه در استخراج بدنه آبی هنوز نیاز به بررسی دارد.
هدف این مقاله ارائه یک شبکه عصبی کانولوشنال (CNN)، به نام شبکه عصبی کانولوشنال استخراج چند مقیاسی (MWEN)، برای استخراج بدنه آب برای تصاویر GaoFen-1 است. برای اولین چالش، ساختار رمزگذار-رمزگشا در MWEN با الهام از Unet استفاده می شود [ 23]. رمزگذار ویژگی ها را از تصاویر ورودی استخراج می کند و نقشه های ویژگی را با وضوح پایین به دست می آورد. نقش رمزگشا نگاشت نقشه های ویژگی به نقشه های ویژگی وضوح ورودی است. برای چالش دوم، ساختاری به نام استخراجکننده ویژگی چند مقیاسی (MTFE) پیشنهاد شده است تا ویژگیها را در مقیاسهای چندگانه ثبت کند. اجسام در مقیاس های مختلف در تصاویر سنجش از دور وجود دارند و ممکن است همبستگی های زمین شناسی بین اجرام مجاور وجود داشته باشد. ویژگی های استخراج شده توسط CNN ها در مقیاس های مختلف حاوی اطلاعات مختلفی است [ 28 ]. در MTFE، چهار لایه کانولوشن گشاد شده با نرخ اتساع متفاوت برای یادگیری ویژگیها از تصاویر با میدانهای دریافتی مختلف استفاده میشود.
ساختار باقی مانده این مقاله به شرح زیر است. ابتدا، تصاویر ماهوارهای سنجش از دور GaoFen-1 با وضوح بالا در منطقه پکن-تیانجین-هبی، استان ژجیانگ و استان تبت در چین برای مجموعه داده جمعآوری شده و پیش پردازش میشوند. سپس، از چهار CNN برای استخراج اطلاعات بدنه آب استفاده می شود. در نهایت، دقت این الگوریتم ها بر اساس پنج معیار دقت و یک مقایسه بصری مقایسه شده است.
2. مواد و روشها
2.1. داده ها
در این مطالعه، 24 تصویر GaoFen-1 (17 تصویر برای آموزش و 7 تصویر برای آزمایش) واقع در منطقه پکن-تیانجین-هبی، استان ژجیانگ و استان تبت در چین به عنوان مجموعه داده آزمایش جمع آوری شد و این تصاویر در شکل 1 نشان داده شده است.. چهار باند چند طیفی با وضوح فضایی 8 متر و نوار پانکروماتیک با وضوح فضایی 2 متر در تصاویر GaoFen-1 گنجانده شده است. وضوح تابش هر دو باند پانکروماتیک و باند چند طیفی 16 بیت است. ویژگی های طیفی و بافتی بدنه های آبی در مناطق مختلف کاملاً متفاوت است و محیط های اطراف بدنه های آبی پیچیده است. برای آزمایش جهانی بودن این CNN ها برای استخراج بدنه آب، ویژگی های محیطی، مانند طیفی، بافتی، فصلی، ویژگی های محیط آبی و مناطق گیج کننده، مانند سایه ها، بزرگراه ها و یخ در مجموعه داده در نظر گرفته شده است. اطلاعات جزئیات مجموعه داده در جدول 1 نشان داده شده است .
2.2. مواد و روش ها
روش ها را می توان به چهار بخش تقسیم کرد: پیش پردازش تصویر، تولید نمونه، استخراج اطلاعات آب و ارزیابی دقت. در قسمت پیش پردازش تصویر، از مدل ضریب چند جمله ای گویا (RPC) برای تصحیح هندسی این تصاویر استفاده می شود [ 29 ]. سپس، ادغام تصاویر چند طیفی و پانکروماتیک با استفاده از روش PANSHARP [ 30 ] انجام شد.]. بخش پیش پردازش تصویر بر اساس نرم افزار PCI Geo Imaging Accelerator انجام شد. خطاهای هندسی تصاویر پس از پیش پردازش در 1 پیکسل بود. در قسمت دوم، اجسام آب در تصاویر ذوب شده برچسب گذاری شده اند. این تصاویر و برچسب ها به 512 × 512 پیکسل بریده شده و به یک مجموعه داده آموزشی و یک مجموعه داده اعتبار سنجی تقسیم می شوند. در مرحله سوم، MWEN (شبکه عصبی کانولوشن استخراج آب چندمقیاس)، MWEN «بدون MTFE»، FCN، Unet و Deeplab V3+ برای استخراج بدنههای آبی استفاده میشوند. در نهایت، مقایسه دقت برای روشهای مختلف با استفاده از مقایسه بصری و معیارهای ارزیابی کمی انجام میشود. نمودار جریان در شکل 2 نشان داده شده است .
2.2.1. تولید نمونه
برچسبهای موجود در مجموعه داده از تصاویر ترکیبی هستند و همه انواع آب ذکر شده در بخش 2.1 را پوشش میدهند . برچسب ها شامل مناطق آب و مناطق پس زمینه است. تمام برچسبهای مجموعه داده، تصاویر باینری هستند، که 1 نشان دهنده آب و 0 نشان دهنده پسزمینه است. همه تصاویر از طریق تفسیر بصری برچسب گذاری شدند. این تصاویر به دو دسته تصاویر آموزشی و تصاویر آزمایشی (17 برای آموزش و 7 برای تست) تقسیم شدند. هم تصاویر آموزشی و هم تصاویر آزمایشی شامل تمام انواع آب ذکر شده در جدول 1 می باشد. این تصاویر آموزشی و برچسب های آموزشی به نمونه هایی با 512 × 512 پیکسل بریده شدند. یک کتابخانه نمونه آموزشی شامل 13509 نمونه از تصاویر آموزشی به دست آمد. نمونه های موجود در کتابخانه نمونه آموزشی شامل تمام پیکسل های آب در تصاویر آموزشی می باشد. برخی از مناطق بدون آب های سطحی نیز در این نمونه ها موجود است. کتابخانه نمونه آموزشی به دو بخش تقسیم شد. 90 درصد از نمونه های آموزشی به عنوان مجموعه داده آموزشی و بخش کوچک باقی مانده برای مجموعه داده های اعتبار سنجی استفاده شد. نقش مجموعه داده اعتبارسنجی این است که توانایی تعمیم پارامترهای مدل را منعکس کند و نشان دهد که آیا مدل در طول فرآیند آموزش بیش از حد برازش دارد یا خیر. هم مجموعه داده اعتبارسنجی و هم مجموعه داده آموزشی از تصاویر آموزشی بودند، که نمایش عمومی مجموعه داده اعتبار سنجی را کاهش داد. برای بدست آوردن یک مدل آموزشی تعمیمیافتهتر، نمونههایی از تصاویر غیر از تصویر آموزشی برای مجموعه داده اعتبارسنجی مورد نیاز است. در این مطالعه، قسمتی تصادفی از هر تصویر در تصاویر آزمایشی انتخاب شد و به 512 × 512 پیکسل برش داده شد تا مجموعه داده اعتبار سنجی غنی شود. مجموعه داده اعتبار نهایی شامل 1651 نمونه از تصاویر آزمایشی و 1350 نمونه از تصاویر آموزشی بود.
2.2.2. استخراج کننده ویژگی چند مقیاسی
کانولوشن گشاد شده در اصل برای تبدیل موجک [ 31 ] استفاده شد و در شبکه های عصبی کانولوشن برای تقسیم بندی معنایی [ 32 ] استفاده شده است. هسته کانولوشن با سوراخ (یا شکاف) در پیچش گشاد شده استفاده می شود. تعداد شکاف های وارد شده در هسته به نرخ اتساع r بستگی دارد. نرخ اتساع زمانی که یک کرنل کانولوشن تعریف می شود پیش نیاز است. پیچش گشاد شده با نرخ اتساع فیلتر 0، 1 و 2 در شکل 3 نشان داده شده است.. هسته با نرخ اتساع 0 همانند هسته کانولوشن استاندارد است. هستههای پیچشی با نرخهای اتساع متفاوت، میدانهای دریافتی متفاوتی دارند. ترکیب پیچش های گشاد شده با هسته های نرخ اتساع مختلف می تواند ویژگی ها را در مقیاس های مختلف به تصویر بکشد.
در تصاویر سنجش از دور، اندازههای بدنههای آبی متنوع است و در تصاویر با وضوح بالا اشیاء گیجکننده زیادی وجود دارد، مانند سایههای ساختمان، سایههای کوهستانی و زمینهای ورزشی که ویژگیهای طیفی آنها شبیه به بدنه آبی است. ترکیب ویژگیهایی که در مقیاسهای چندگانه استخراج میشوند در برخورد با این مسائل مهم است. در این مطالعه، ساختاری به نام استخراج کننده ویژگی چند مقیاسی (MTFE) پیشنهاد شده است. پیچش های گشاد شده با نرخ های مختلف در MTFE برای استخراج ویژگی ها در مقیاس های مختلف استفاده می شود. ساختار MTFE در شکل 5 نشان داده شده است. نمونه ای از استخراج ویژگی در مقیاس های متعدد توسط پیچش گشاد شده با نرخ های مختلف در شکل 4 نشان داده شده است . همانطور که در شکل 4 می بینیمب، پیچیدگی استاندارد (پیچیدگی گشاد شده با نرخ 0) فقط می تواند اطلاعات 9 پیکسل اطراف را بدست آورد که همه آنها در سایه های ساختمان قرار دارند. شناسایی پیکسل در مرکز هسته پیچیدگی دشوار است زیرا سایه ها و اجسام آبی دارای ویژگی های طیفی مشابهی هستند. در پیچش های گشاد شده با نرخ های 2، 4 و 8، ویژگی ها در مقیاس های مختلف استخراج شده و اطلاعات ساختمان ها و چوب ها گرفته می شود. ترکیب ویژگی های استخراج شده در این مقیاس های مختلف برای تمایز سایه های ساختمان مهم است.
2.2.3. شبکه های عصبی کانولوشن (CNN) برای استخراج آب
یک شبکه عصبی کانولوشنال استخراج آب چند مقیاسی (MWEN) برای استخراج اطلاعات آب های سطحی پیشنهاد شده است. ساختار MWEN در شکل 5 نشان داده شده است. MWEN را می توان به سه بخش تقسیم کرد: رمزگذار، استخراج کننده ویژگی چند مقیاسی (MTFE) و رمزگشا. در قسمت اول داده های ورودی توسط رمزگذار کدگذاری شده و نقشه های ویژگی با گام خروجی 16 بدست می آید. در بخش استخراج کننده ویژگی چند مقیاسی (MTFE)، نقشههای ویژگی از رمزگذار به چهار پیچ گشاد با نرخهای مختلف تغذیه میشوند. این پیچش های گشاد شده با نرخ های مختلف می توانند ویژگی ها را در مقیاس های مختلف یاد بگیرند. سپس، نقشههای ویژگی تولید شده توسط این پیچشهای گشاد شده توسط سه لایه کانولوشن به هم پیوسته و یکپارچه میشوند. در بخش رمزگشایی، نقشههای ویژگی توسط رمزگشا رمزگشایی میشوند تا تصاویر تقسیمبندی شده در آب به دست آید.
برای بررسی اهمیت MTFE در نتایج تقسیمبندی، هر دو ساختار MWEN “با MTFE” و “بدون MTFE” برای استخراج بدنه آبی آموزش دیدند. سه نوع دیگر از شبکههای عصبی کانولوشنال (CNN) که برای بخشبندی معنایی استفاده میشوند، FCN [ 33 ]، Unet [ 23 ] و DeepLab V3+ [ 24 ] نیز در این مطالعه برای مقایسه انتخاب شدند. فرآیند استخراج بدنه آبی با استفاده از CNN شامل سه مرحله است: افزایش داده، انتشار به جلو و آموزش مدل.
سپس داده ها نرمال می شوند. داده های GF-1 ذوب شده دارای وضوح تشعشعی 16 بیت هستند، با مقادیر DN از 0 تا 65535. برای بهبود دقت و کارایی آموزش شبکه های عصبی کانولوشن (CNN)، تصاویر ورودی نرمال می شوند. نرمال سازی هر تصویر ورودی را با میانگین 0 و واریانس 1 به یک نقشه ویژگی تبدیل می کند. فرمول ها به شرح زیر است:
جایی که μ�میانگین آرایه تصویر ورودی است و w�، ساعتℎ، و ج�به ترتیب عرض، ارتفاع و تعداد کانال های تصویر ورودی هستند. Dنm ، n ، z���,�,�مقدار DN پیکسل در ردیف است n�، ستون متر�، و کانال z�. σ2�2واریانس تصویر ورودی است. Dنm ، n ، z¯¯¯¯¯¯¯¯¯¯¯¯���,�,�¯مقدار DN پیکسل در ردیف است n�، ستون متر�، و کانال z�پس از عادی سازی
-
انتشار رو به جلو: نمونه نرمال شده به CNN وارد می شود و پس از انتشار به جلو، نقشه ویژگی به دست می آید. خروجی CNN یک نقشه ویژگی با اندازه کانال 512 × 512 × (که کانال ها تعداد کلاس ها هستند) است. در این تحقیق تعداد کانال ها 2 کانال (آب و پس زمینه) می باشد. سپس، نقشه ویژگی توسط یک تابع فعال سازی فعال می شود. تابع log softmax به عنوان تابع فعال سازی و تابع argmax [ 34 ] برای بدست آوردن نقشه های نهایی آب در این مطالعه استفاده می شود. فرمول تابع فعال سازی برای هر پیکسل در نقشه های ویژگی به شرح زیر است:
جایی که پ( متر )�(�)مقدار داده پیکسل در کانال است متر�. ج�تعداد کلاس ها (2 در این مطالعه برای انعکاس آب و پس زمینه) است.
2.2.4. ارزیابی دقت
عملکرد این شبکه های عصبی کانولوشنال (CNN) به طور کامل از طریق مقایسه بصری و پنج معیار ارزیابی ارزیابی می شود. مقایسههای بصری شامل مقایسه بین MWEN “با MTFE” و “بدون MTFE” و مقایسه بین MWEN، FCN، Unet، و Deeplab V3+ در مناطقی با انواع مختلف آبهای سطحی و اشیاء گیجکننده است. با توجه به معیارهای ارزیابی، پنج معیار ارزیابی برای ارزیابی دقت در این مطالعه استفاده میشود، از جمله دقت کلی (OA) [ 30 ]، نرخ آب واقعی (TWR)، نرخ آب کاذب (FWR)، تقاطع آب بر روی اتحادیه. (WIoU) [ 30 ]، و میانگین تقاطع روی اتحادیه (MIoU) [ 39 ]. تعاریف و فرمول های این شاخص ها در فهرست آمده استجدول 2 .
3. نتایج
3.1. آموزش مدل
فرآیندهای آموزشی با استفاده از Python3.6، Keras و TensorFlow بر روی یک پردازنده گرافیکی NVIDIA Titan با شتاب cuDNN 10.0 انجام شد. دقت طبقهبندی مجموعه داده آموزشی و مجموعه داده اعتبارسنجی در پایان هر دوره آموزشی محاسبه میشود. در مراحل بعدی از وزنه هایی با بالاترین دقت طبقه بندی برای استخراج آب استفاده می شود. بالاترین دقت اعتبارسنجی این مدل ها در جدول 3 نشان داده شده است. منحنی های دقت آموزشی و صحت اعتبارسنجی در شکل 7 نشان داده شده است. منحنیهای دقت آموزش و اعتبارسنجی این مدلها پس از دوره پانزدهم به کندی رشد میکنند و حتی برخی از آنها پس از دوره 25 روند نزولی را نشان میدهند. فاصله زیادی بین منحنی دقت آموزش و منحنی صحت اعتبار سنجی Deeplab V3+ وجود دارد. Deeplab V3+ زمانی که مستقیماً در استخراج بدنه آب از تصاویر سنجش از راه دور استفاده می شود، بیش از حد مناسب است. کارایی مدل های آموزشی متاثر از عوامل زیادی است. کارایی CNNها به سادگی از طریق تعداد پارامترهای قابل آموزش و زمان آموزش در این مطالعه مقایسه شده است. مقایسه کارایی این CNN ها در جدول 4 نشان داده شده است. FCN دارای بیشترین پارامتر اما زمان آموزش کمتر است. Deeplab V3+ به دلیل ساختار مدل پیچیده و عمیق، طولانی ترین زمان قطار را دارد. MWEN و Unet پارامترهای کمتر و زمان آموزش کمتری دارند.
3.2. نتایج استخراج آب در مجموعه داده های آزمایشی
نتایج استخراج بدنه آبی با استفاده از این CNN ها بر روی تصاویر آزمایشی در شکل 8 نشان داده شده است. همانطور که از شکل مشاهده می شود، نتایج پیش بینی بدنه آبی این CNN ها متفاوت است. برای مناطق a و g، اشیاء گیج کننده بیشتری در این دو ناحیه نسبت به سایرین وجود دارد، که CNN ها را مستعد اشتباه کردن می کند. جاده ها و سایه های ساختمان با استفاده از Unet و Deeplab V3+ در این دو منطقه به اشتباه طبقه بندی شده اند. برای مناطق e و f، تعدادی آب دقیق وجود دارد که توسط FCN و MWEN “بدون MTFE” از قلم افتاده است. اگرچه عملکرد این CNN ها در مناطق b، c و d در این تصاویر مشابه است، اما هنوز تفاوت هایی در جزئیات وجود دارد. برخی از جزئیات از این نتایج مشتق شده و در بخش 3.3 نشان داده شده است. شکل 8نشان می دهد که MWEN توانایی گرفتن آب دقیق و سرکوب صدا را بهتر از سایرین دارد.
3.3. تجزیه و تحلیل دقت
برای تجزیه و تحلیل جهانی بودن روش MWEN، انواع مختلف آب مورد تجزیه و تحلیل قرار می گیرد. مقایسه دقت از طریق معیارهای ارزیابی در بخش 3.3.1 ، مقایسه بین MWEN “با MTFE” و “بدون MTFE” در بخش 3.3.2 نشان داده شده است ، و مقایسه دقت از طریق مقایسه بصری بین MWEN، FCN، Unet نشان داده شده است. و Deeplab V3+ در بخش 3.3.3 و بخش 3.3.4 نشان داده شده است.
3.3.1. مقایسه دقت از طریق معیارهای ارزیابی
برای تجزیه و تحلیل کمی دقت استخراج بدنه آبی، معیارهای ذکر شده در 2.2.3 بر اساس نقشه های آب پیش بینی شده توسط CNN ها و حقیقت زمین محاسبه شد. نتایج در جدول 5 خلاصه شده است. همانطور که از جدول مشاهده می شود، MWEN از سایرین در OA، FWR، WIoU و MIoU بهتر عمل می کند [ 30 ]. Deeplab V3+ یکی از بهترین CNN ها برای تقسیم بندی معنایی است. در این مطالعه، Deeplab V3+ در OA، FWR، WIoU و MIoU ضعیف عمل میکند، اما در TWR بهترین عملکرد را دارد. Deeplab V3+ ممکن است برای مجموعه دادههایی با صحنههای پیچیده مناسب باشد، اما به نظر میرسد هنگام آموزش استخراج آب بیش از حد مناسب باشد.
3.3.2. مقایسه عملکرد برای MWEN و MWEN “بدون استخراج کننده ویژگی چند مقیاسی (MTFE)”
نقشه های ویژه استخراج شده توسط CNN در مقیاس های مختلف حاوی اطلاعات مختلفی است. در این مطالعه، استخراج کننده ویژگی چند مقیاسی (MTFE) برای گرفتن ویژگی ها در مقیاس های چندگانه پیشنهاد شده است. به منظور بررسی اهمیت ویژگیهای استخراجشده توسط MTFE برای استخراج آب، نتایج حاوی حوضچهها و رودخانهها با اندازههای مختلف و سایههای ساختمان از نقشههای آب نتیجه ذکر شده در بخش 3.2 استخراج شدهاند . مقایسه بین MWEN “با MTFE” و “بدون MTFE” در شکل 9 نشان داده شده است.
برای استخرهای با اندازه های مختلف در شکل 9 الف، هر دو MWEN “با MTFE” و “بدون MTFE” می توانند حوضچه های بزرگتر را شناسایی کنند، اما دومی دارای معایب آشکاری برای پرداختن به اطلاعات استخر کوچکتر در شکل 9 (a4) است. علاوه بر این، رودخانه های کوچک را نمی توان توسط MWEN “بدون MTFE” در شکل 9 (b4,c4) شناسایی کرد. در مورد اشیاء گیج کننده، بزرگراه و برخی از سایه های ساختمان توسط MWEN “بدون MTFE” در شکل 9 (d4,e4) مخلوط شده اند. این ممکن است ناشی از نادیده گرفتن اطلاعات مرتبط بین اشیا، مانند رابطه بین ساختمان ها و سایه ها توسط MWEN “بدون MTFE” باشد. اطلاعات مرتبط ممکن است در ویژگی های استخراج شده توسط هسته کانولوشن با نرخ گسترش زیاد باشد.شکل 9 نشان می دهد که MTFE نقش مهمی در استخراج آب با اندازه های مختلف و سرکوب نویز دارد.
3.3.3. مقایسه عملکرد برای انواع مختلف آب
آب های سطحی مختلف، از جمله حوضچه های باز، رودخانه ها و دریاچه های فلات، آب های شهر و بدنه های آبی کشاورزی، از نتایج برای ارزیابی جهانی بودن الگوریتم MWEN گرفته شده اند. عملکرد MWEN با عملکردهای FCN، Unet و Deeplab V3+ بر اساس بازرسی بصری مقایسه شده است. مقایسه عملکرد در شکل 10 نشان داده شده است .
برای استخرهای باز در شکل 10 a، مقایسه نشان می دهد که هر چهار CNN قادر به استخراج استخرهای باز بزرگ هستند. حوضچه های باز کوچکتر هنگام استفاده از FCN در شکل 10 (a4) از دست می روند. نتایج برای آب های کشاورزی نشان می دهد که اطلاعات مرزی دقیق توسط FCN و Deeplab V3+ در شکل 10 (b4,c4,c6) وجود ندارد. مرزهای ناهموار و اختلاط بین آب و تالاب هنگام استفاده از Unet در شکل 10 (c5) ظاهر می شود. در مورد رودخانه ها و دریاچه های فلات، به وضوح می توان مشاهده کرد که بخش هایی از رودخانه ها و دریاچه ها توسط FCN و Deeplab V3+ در شکل 10 وجود ندارد.(d4,d6,e4,e6). نتایج برای گودالهای کوچک و رودخانههای کوچک در شهر نشان میدهد که گودالهای کوچک و رودخانههای کوچک توسط FCN و Unet در شکل 10 (f4,g4,g5) از دست رفتهاند. تحت تأثیر ساختمانهای شهری و سایر اشیاء، نتایج استخراجشده توسط Unet و Deeplab V3+ حاوی نویزهای بیشتری در شکل 10 است (f5,f6,g6).
از شکل 10 مشاهده می شود که MWEN بهتر از سایر الگوریتم ها عمل می کند. FCN اطلاعات بسیار دقیقی را برای بدنه آب سطحی از دست می دهد، که منجر به محو شدن مرزها و عدم وجود آب های کوچک می شود. Unet و Deeplab V3 در مقایسه با FCN بهتر میتوانند اطلاعات جزییات بدنه آبی را استخراج کنند، اما ممکن است با اجسامی با ویژگیهای طیفی آب مشابه اشتباه گرفته شوند. شکل 10 نشان می دهد که MWEN توانایی استخراج انواع مختلف آب را دارد و عملکرد جهانی بهتر از سایرین است.
3.3.4. مقایسه عملکرد برای مناطق گیج کننده
در تصاویر سنجش از دور با وضوح بالا، برخی از اجسام دارای ویژگی های طیفی یا ویژگی های بافتی مشابه بدنه های آبی هستند. تمایز بدنه های آبی از این اشیاء چالش برانگیز است. برای بررسی قابلیت اطمینان این CNN ها در تشخیص بدنه های آبی از مناطق گیج کننده، نتایج استخراج بدنه آبی برای مناطق گیج کننده، مانند سایه ساختمان ها، زمین های ورزشی و بزرگراه ها، در شکل 11 نشان داده شده است.
برای سایههای ساختمان نشاندادهشده در شکل 11 a، MWEN، FCN، و Unet بهتر میتوانند سر و صدا را سرکوب کنند، در حالی که Deeplab V3 سایههای ساختمان را که ممکن است در اثر تعبیه بیش از حد در طول تمرین ایجاد شود، حذف نمیکند. شکل 11 ب نشان می دهد که همه این CNN ها نمی توانند صداهای میدان ورزش را به وضوح حذف کنند، اما MWEN و FCN بهتر از سایرین عمل می کنند. برای مناطق در شکل 11 c,d، Unet و Deeplab V3+ آشکارا بدنه آب سطحی و سایر اشیاء را با هم مخلوط می کنند. برای ناحیه سایه کوه در شکل 11e، هر چهار CNN می توانند به وضوح نویز را حذف کنند. مقایسه عملکرد در مناطق گیج کننده نشان می دهد که صداهای ناشی از زمین ورزشی، شبکه سایه و بزرگراه همچنان در نتایج مبتنی بر Unet و Deeplab V3 + وجود دارد. MWEN و FCN نسبت به سایرین عملکرد بهتری در سرکوب نویز دارند.
4. بحث
با بهبود وضوح زمانی و مکانی دادههای سنجش از دور [ 25 ]، کارهای معنیداری زیادی بر روی استخراج اطلاعات بدنه آب با دادههای سنجش از دور با وضوح بالا انجام شده است [ 40 ، 41 ]. یادگیری عمیق یک موضوع داغ در سال های اخیر بوده است [ 42]، و در استخراج بدنه آبی با داده های سنجش از دور با وضوح بالا، نوید زیادی را نشان می دهد. در این مطالعه، یک CNN جدید به نام MWEN برای استخراج بدنه آب برای تصاویر GaoFen-1 پیشنهاد شده است. دقت استخراج آب در مجموعه داده آزمایشی با پنج معیار ارزیابی و مقایسه بصری ارزیابی میشود. نتایج نشان میدهد که MWEN توانایی استخراج آب با اندازههای مختلف را دارد و میتواند مرزهای آبها را بهطور دقیق ثبت کند. علاوه بر این، MWEN می تواند نویز را بهتر از Unet و Deeplab V3+ سرکوب کند.
عملکرد متفاوت در استخراج بدنه آبی ممکن است به ساختار این CNN ها مربوط باشد. FCN در تحقیقات قبلی [ 26 ] برای استخراج بدنه آبی استفاده شده است. روشهای مبتنی بر FCN ویژگیها را توسط چندین لایه کانولوشن از تصویر استخراج میکنند و سپس تقسیمبندی بدنه آب را تنها بر اساس نقشههای ویژگی با وضوح پایین استخراجشده توسط آخرین لایه کانولوشن انجام میدهند. نقشه های آب با استفاده از نمونه برداری به وضوح تصویر اصلی نگاشت می شوند. با این حال، فرآیند نمونه برداری به جزئیات در تصویر حساس نیست، که منجر به نادیده گرفتن آب های کوچک و هموار شدن مرزهای بدنه های آبی می شود. Unet ساختار رمزگذار و رمزگشا را ترکیب میکند و ویژگیها در مقیاسهای چندگانه از طریق اتصال پرش بین رمزگذار و رمزگشا ترکیب میشوند.23 ]. این برای استخراج مرزهای دقیق آب و گرفتن اطلاعات دقیق در تصویر خوب است. با این حال، Unet بسیاری از ویژگی های سطح پایین استخراج شده توسط لایه های کانولوشن کم عمق را ترکیب می کند. این نقشههای ویژگی سطح پایین ممکن است به اشتباهات مربوط به نویزهایی مرتبط باشد که ویژگیهای طیفی مشابهی با اجسام آبی دارند. Deeplab V3+ یکی از پیشرفته ترین CNN ها در زمینه بینایی کامپیوتر است [ 24 ]]. Deeplab V3+ از هرم های ASPP برای استخراج ویژگی ها در مقیاس های مختلف استفاده می کند و از رمزگشا برای بازیابی وضوح نقشه های ویژگی استفاده می کند. Deeplab V3+ در این مطالعه عملکرد خوبی ندارد، که ممکن است به ساختار پیچیده آن مربوط باشد. ممکن است برای تقسیم بندی در سطح پیکسل در صحنه های پیچیده مناسب باشد. در استخراج آب بدن مستعد بیش از حد تناسب است. با انگیزه Unet [ 23 ] و Deeplab V3+ [ 24]، MWEN در این مطالعه پیشنهاد شده است. در MWEN، ساختار MEFT برای گرفتن ویژگیها در مقیاسهای چندگانه پیشنهاد شده است و ساختار رمزگذار-رمزگشا برای بازیابی وضوح استفاده میشود. در مقایسه با Deeplab V3+، MWEN دارای لایههای کانولوشن کمتر و پارامترهای قابل آموزش کمتری است که به طور موثری بیش از حد برازش را سرکوب میکند. ساختار MWEN باعث می شود که در استخراج بدنه آب برای تصاویر با وضوح بالا عملکرد بهتری داشته باشد. اگرچه MWEN در تصاویر آزمایشی دقت خوبی به دست میآورد، اما عواملی وجود دارند که بر دقت طبقهبندی تأثیر میگذارند.
یکی این که چالش های جدیدی در استخراج آب تصاویر با وضوح بالا در مقایسه با تصاویر با وضوح متوسط ظاهر می شود. نویز در استخراج آب بر اساس تصاویر با وضوح متوسط، مانند سایه های کوه [ 42]، به راحتی در تصاویر با وضوح بالا قابل تشخیص است. استخراج توده های آبی کوچک ممکن است در تصاویر با وضوح متوسط دشوار باشد، اما می توان آنها را به راحتی در تصاویر با وضوح بالا شناسایی کرد. با این حال، سایه های ساختمان، بزرگراه ها، چمن های تاریک و سقف های تیره ممکن است منجر به خطاهای جدیدی شود. در این مطالعه، MWEN در کاهش نویز در مقایسه با Unet و Deeplab V3+ بهتر عمل می کند، اما نویزهایی مانند نویز از زمین های ورزشی را به طور کامل حذف نمی کند. علاوه بر این، اطلاعات بسیار دقیق آب در تصاویر با وضوح بالا موجود است که چالشهای جدیدی را برای استخراج دقیقتر بدن آب به همراه دارد.
مورد دیگر مجموعه داده است. CNN با وزنه های آموزش دیده می تواند روی تصاویر مشابه نمونه های موجود در کتابخانه نمونه عملکرد خوبی داشته باشد. کاربرد آن برای تصاویری که کاملاً متفاوت از نمونه های موجود در کتابخانه نمونه هستند نیاز به مطالعه بیشتر دارد. یک مجموعه داده مبتنی بر تصاویر سنجش از دور با وضوح بالا که شامل چندین نوع آب و مناطقی که به راحتی گیج می شوند، مانند سایه ها، مورد نیاز است. اگرچه مجموعه داده پیشنهادی در این مقاله شامل آبهای معمولی و مناطقی است که به راحتی گیج میشوند، که میتوانند برخی از الزامات داده را در مناطق خاصی برآورده کنند، کتابخانه نمونه باید در آینده غنی شود.
5. نتیجه گیری ها
نشان داده شده است که شبکه های عصبی کانولوشن دارای قابلیت طبقه بندی تصویر و تقسیم بندی معنایی قوی برای تصاویر سنجش از دور هستند. یک شبکه عصبی کانولوشنال جدید به نام MWEN برای استخراج بدنه آب برای تصاویر ماهواره ای با وضوح بالا GF-1 در این مطالعه پیشنهاد شده است. سه CNN که تقسیمبندی معنایی را در زمینه بینایی رایانه انجام میدهند برای مقایسه استفاده میشوند. عملکرد نتایج استخراج بدنه آبی بر اساس پنج معیار ارزیابی و مقایسه بصری ارزیابی میشود. نتیجه گیری به شرح زیر است:
(1) عملکرد MWEN بهتر از FCN، Unet، و DeepLab V3+ هنگام استخراج آب سطحی طبق مقایسه بصری است. معیارهای کمی نشان می دهد که نتایج MWEN در OA، TWR، FWR، WIoU و MIoU بهتر از سایرین است.
(2) مقایسه بین MWEN “با MTFE” و “بدون MTFE” نشان می دهد که ترکیب ویژگی های استخراج شده در مقیاس های متعدد برای استخراج آب مهم است. MTFE برای مقابله با مناطق گیج کننده و بدنه های آبی با اندازه های مختلف مفید است.
(3) در مقایسه با FCN و Unet، نتایج MWEN نشان میدهد که میتواند بدنههای آبی را در صحنههای مختلف، مانند جزئیات آب شهر و دریاچههای فلات، با دقت استخراج کند. علاوه بر این، MWEN توانایی سرکوب صداهایی مانند سایه کوه ها، بزرگراه ها، سایه های پوشش گیاهی و چمن های تاریک را دارد.
با غنیسازی بیشتر مجموعه داده، MWEN پتانسیل کاربرد در نقشهبرداری آب سطحی در مقیاس بزرگ با تصاویر ماهوارهای با وضوح بالا را دارد که میتواند پشتیبانی دادهها را برای بررسی منابع آب سطحی فراهم کند.
بدون دیدگاه