1. مقدمه
تصاویر هوابرد یک نوع داده مهم در مطالعات رصد زمین (EO) از نظر توانایی آنها در حاوی اطلاعات ژئومورفولوژیکی دقیق با وضوح بالا و ویژگی های اکتساب سریع است. برای استخراج اطلاعات معنی دار از تصاویر، ویژگی های مختلف سطح زمین باید طبق حقیقت زمین طبقه بندی و برچسب گذاری شوند. این فرآیند که قطعهبندی معنایی نامیده میشود، به عنوان طبقهبندی پیکسلهایی با ویژگیهای مشابه و اختصاص برچسبهای کلاس مناسب تعریف میشود. تقسیم بندی معنایی دقیق تصاویر هوابرد در بسیاری از برنامه های کاربردی EO مانند نظارت بر محیط زیست و تشخیص تغییرات، کاربری زمین در مناطق شهری، خودکارسازی در به روز رسانی نقشه برای سیستم های اطلاعات جغرافیایی، نظارت سریع بر اثرات، و واکنش سریع در خطرات طبیعی و غیره از اهمیت بالایی برخوردار است. [1 ] به عنوان یک مطالعه نظارتی محیطی، یک معماری تقسیمبندی تصویر برای تصاویر حرارتی مادون قرمز وسایل نقلیه هوایی بدون سرنشین (UAV) با تمرکز بر تقسیمبندی وسایل نقلیه زمینی ایجاد کرد. از سوی دیگر، تقسیم بندی معنایی در تشخیص تغییر کاربری و پوشش زمین (LULC) سهم قابل توجهی در ادبیات RS می گیرد. Venugopal [ 2 ] یک تشخیص تغییر مبتنی بر تقسیمبندی معنایی خودکار را توضیح داد که یک تغییر نهایی بین دو تصویر ورودی داده شده ایجاد میکند، در حالی که [ 3 ] یک روش تقسیمبندی معنایی را با مرز طبقهبندی برای نگاشت LULC توصیف کرد. توزانی و گراندرسون [ 4]، که می تواند در محدوده کاربردهای GIS در نظر گرفته شود، بهبودهایی را در دقت موجود استخراج ردپای ساختمان خودکار از تصاویر RS با استفاده از یک مدل یادگیری عمیق ایجاد کرد. براگانلو و همکاران [ 5 ] که یکی از مطالعات خطرات طبیعی در مورد یادگیری عمیق است، یک پایگاه داده تصویری را با U-Net تشکیل و آموزش داد تا اسکارهای زمین لغزش را به روشی قابل اعتماد شناسایی کند.
برای دههها، روشهای تقسیمبندی معنایی سنتی در جامعه سنجش از دور (RS) برای استخراج دادههای معنایی استفاده شدهاند. تکنیکهایی که بهطور گسترده مورد استفاده قرار میگیرند، عمدتاً رویکردهای یادگیری ماشینی مبتنی بر ویژگیهای دست ساز [ 6 ] هستند، مانند برآورد حداکثر احتمال (MLE)، ماشینهای بردار پشتیبانی (SVM)، جنگلهای تصادفی (RFs)، و شبکههای عصبی مصنوعی (ANN). Cortes و Vapnik [ 7 ] روش طبقهبندی دادههای SVM را توصیف کردند که قادر است بردارهای ورودی را در فضاهای ویژگی با ابعاد بالا به صورت غیر خطی ترسیم کند. دو آزمایش طبقهبندی پوشش زمین برای مناطق آزمایش نشان داد که SVMها به سطح دقت بالاتری نسبت به طبقهبندی کننده MLE یا ANN برای دادههای با ابعاد بالا دست مییابند [ 8 ]]. RFها به عنوان پرکاربردترین روش طبقهبندی در یادگیری ماشینی، پیشبینیکنندههای درختی را اعمال میکنند و یک پیشبینی کلاس بر اساس رایها تولید میکنند [ 9 ]. علاوه بر این، ماس و فلورس [ 10 ] روش طبقهبندی شبکههای عصبی مصنوعی را که میتوان به عنوان مبنای یادگیری عمیق بیان کرد، مورد بحث قرار دادند و سپس پیادهسازیهای شبکههای عصبی مصنوعی را در برخی از بستههای نرمافزاری پردازش تصویر مقایسه کردند.
تقسیم بندی معنایی به عنوان یک زمینه تحقیقاتی گسترده در بینایی رایانه نه تنها در سنجش از دور بلکه در بسیاری از برنامه های کاربردی دیگر مانند تصویربرداری پزشکی و بیولوژیکی، خدمات خرده فروشی، رانندگی مستقل و تشخیص چهره استفاده می شود. موئن و همکاران [ 11 ] تصاویر فلورسنت و آسیب شناسی مشروح موجود را برای تکنیک های تقسیم بندی تک سلولی ذکر کرد و پیشرفت قابل توجهی را در تطبیق تقسیم بندی معنایی با تصاویر بیولوژیکی و پزشکی نشان داد. علاوه بر این، صنعت خردهفروشی که بخشی از اقتصاد است، برای فروش محصولات خود به بخشبندی معنایی عملیاتی نیاز دارد. حمید و همکاران [ 12 ] یک بهبود لبه ماسک مبتنی بر امتیاز Mask-RCNN برای تقسیمبندی تصاویر میوه و سبزیجات در یک محیط سوپرمارکت انجام داد. وی و همکاران [13 ] مجموعه داده ای را پیشنهاد کرد که منعکس کننده مقیاس بزرگ و ماهیت ریزدانه دسته های محصول برای سناریوی پرداخت واقعی است. در رانندگی خودران، حامیان و همکاران. [ 14 ] روشهای تقسیمبندی کلاسیک را با یادگیری عمیق ترکیب کرد تا دقت تقسیمبندی را در مقایسه با مدل بدون پسپردازش بهبود بخشد. مولر و همکاران [ 15 ] یک پایگاه داده آموزشی و حاشیه نویسی ماسک تقسیم بندی چند کلاسه برای شرکت کنندگان مختلف و حالت های مختلف صورت و سر با تصاویر مادون قرمز ایجاد کرد. سپس، نویسندگان یک معماری شبکه عصبی عمیق را با پایگاه داده آموزشی به منظور شناسایی و تجزیه و تحلیل دمای چهره در زمینه همهگیری COVID-19 توسعه دادند.
تقسیم بندی معنایی تصاویر با طبقه بندی تصویر کمی متفاوت است زیرا اطلاعات قبلی در مورد مفاهیم یا اشیاء بصری ضروری نیست. تکنیکهای طبقهبندی تصویر اساساً نیاز به طبقهبندی تعاریف شی و ایجاد کلاسهایی از برچسبهای از پیش تعریفشده دارند، در حالی که تقسیمبندی معنایی تمام ویژگیهای درون تصویر را طبقهبندی میکند. یک الگوریتم تقسیمبندی تصویر ایدهآل، اشیاء ناشناخته، یعنی اشیاء جدید یا ناشناخته را نیز بخشبندی میکند [ 16 ]]. تصاویر موجود در هوا شامل اشیاء عموماً همگن هستند و این امر تعیین موفقیت آمیز با تقسیم بندی را امکان پذیر می کند. در نتیجه تقسیم بندی موفق تصویر، تعداد عناصر به عنوان مبنای طبقه بندی تصویر زیر به شدت کاهش می یابد. کیفیت طبقه بندی مستقیماً تحت تأثیر کیفیت تقسیم بندی است [ 17 ، 18 ]. در دهه گذشته، روش های یادگیری عمیق به ویژه در زمینه بینایی کامپیوتر موفقیت زیادی را به اثبات رسانده اند و به ابزار استاندارد بسیاری از کاربردها مانند تشخیص اشیا، هوش مصنوعی، تشخیص صحنه برای اتوماسیون و غیره تبدیل شده اند. یکی از نوآوری های کلیدی در این روش ها می باشد. که آنها به جای نیاز به استخراج ویژگی ها از تصاویر، مستقیماً از تصاویر خام عمل می کنند [ 19 ].
دستاورد بزرگ در حوزه بینایی کامپیوتر و همچنین انعطاف پذیری برای انطباق با هر عملیات مرتبط با تصویر، یادگیری عمیق، جامعه RS را برای مطالعات تقسیم بندی تصویر در سال های اخیر جذب کرده است. بسیاری از رویکردهای مختلف شبکه عصبی پیچیده عمیق (DCNN) در مطالعات برای بخشبندی معنایی تصاویر RS به کار گرفته شدهاند. شررا [ 20] اولین مطالعه ای است که شبکه های کاملاً پیچیده (FCN) را برای تقسیم بندی معنایی تصاویر هوابرد پیشنهاد می کند. در این مطالعه، یک استراتژی بدون کاهش نمونه به منظور حفظ وضوح اصلی تصویر ورودی با جایگزینی لایههای نمونهبرداری پایین FCN با پیچشهای گشاد شده پیشنهاد شدهاست. همچنین، در این مطالعه، یک مدل ترکیبی دو جریانی به منظور ترکیب دادههای RGB و DSM استفاده شده است، اما نویسندگان بیان میکنند که هیچ سهمی از DSM را مشاهده نکردهاند. وانگ و همکاران [ 21] مقاله ای است که بهترین نتایج را در مسابقه تقسیم بندی معنایی ISPRS از نظر دقت کلی و امتیازات F1 ارائه می دهد. در این مطالعه، یک استراتژی چند اتصال به منظور ترکیب چندین ویژگی از لایههای مختلف FCN استفاده شده است. همچنین، این مدل از یک مدل به اصطلاح توجه ویژه کلاس استفاده می کند که ویژگی های چند مقیاسی را در فضای مقیاس ترکیب می کند. تصاویر مقیاسبندیشده مختلف بهطور همزمان در مدل پردازش میشوند تا یک نقشه وزن مخصوص کلاس تولید شود و سپس مجموع وزنی نقشههای امتیاز برای طبقهبندی بیشتر استفاده میشود. این مطالعه همچنین شامل مقایسه معماری پیشنهادی با دیگر شبکههای پیشرفته است. سان و همکاران [ 22] به دو مشکل و راه حل استفاده از رمزگذار-رمزگشا از نوع DCNN برای تصاویر سنجش از راه دور می پردازد و در مسابقه آنلاین ISPRS در دقت کلی به عملکرد خوبی می رسد. اولین مشکلی که در این مطالعه تعریف شده است، کلیشه ساختاری است که باعث زوال لبه در وصله های تصویر به دلیل عملیات padding و pooling می شود. این مطالعه یک استراتژی آموزشی نمونهگیری تصادفی و استراتژی استنتاج مجموعهای را به عنوان راهحل پیشنهاد میکند. دشواری آموزش شبکه های عمیق که نتیجه شیب ناپدید شونده است به عنوان مشکل دوم بیان شده و یک توپولوژی باقیمانده جدید برای حل ارائه شده است. در [ 10] یک معماری متوالی خودآبشاری که بر اساس شبکه توسط گروه هندسه بصری (VGG) است، برای تقسیم بندی معنایی تصاویر هوابرد استفاده شده است. DCNN پیشنهادی یک رویکرد زمینه جهانی به محلی است و توانایی مدیریت اشیای گیج کننده ساخته دست بشر را اثبات می کند. مارکو و لئوردئانو [ 23 ] یک معماری جریان دوگانه دارند که هدف آن به دست آوردن اطلاعات چند متنی با استفاده از اندازه های مختلف پچ است که زمینه جهانی و زمینه محلی را در هر جریان در نظر می گیرد و اطلاعات به دست آمده را در مراحل بعدی ترکیب می کند. مطالعه مذکور از VGG-Net و AlexNet تعدیل شده به ترتیب برای زمینه های محلی و جهانی استفاده می کند. پیرامانایگام و همکاران [ 24] یک DCNN دو جریانی است که ترکیبی از FCN و SegNet با استفاده از مجموعه داده های RGB و nDSM + IR + NDVI برای هر جریان است. تمرکز اصلی این مطالعه ارائه یک مرحله همجوشی بهینه از ویژگی ها است. مارمانیس و همکاران [ 25 ] همچنین از معماری دو جریانی به جای معماری های کلاسیک با گنجاندن داده های ارتفاع به عنوان دومین داده ورودی در آموزش استفاده می کند. هدف مطالعه پیشنهادی به حداقل رساندن عیوب لبههای ناشی از تقسیمبندی معنایی با استفاده از تشخیص لبه تو در تو (HED) [ 26 ] و معماری SegNet برای تصاویر سنجش از راه دور در یک شبکه یکپارچه برای مجموعههای داده طیفی، DSM و nDSM است. یک رویکرد چند مقیاسی دو و همکاران [ 27 ] از یک DeepLabV3+ استفاده می کند [ 28] مدل یادگیری عمیق و طبقه بندی تصویر تجزیه و تحلیل تصویر مبتنی بر شی (OBIA) برای اهداف تقسیم بندی معنایی تصاویر هوایی. در مدل ترکیبی، در مرحله اول با استفاده از مدل DeepLabV3+، تصویر هوایی را آموزش میدهند و پیشبینی میکنند. مرحله دوم از یک طبقهبندی میدانی تصادفی با ویژگیهای دستساز به تصویر پیوسته که از تصویر هوایی و nDSM تشکیل شده است، استفاده میکند. پس از آن، نتایج توسط نظریه Dempster-Shafer ادغام میشوند و در نهایت، یک بهینهسازی میدان تصادفی شرطی مرتبه بالاتر با محدودیت شی به منظور اصلاح طبقهبندی اعمال میشود. اودبرت و همکاران [ 29] یک شبکه چند جریانی و چند مقیاسی مبتنی بر معماریهای SegNet و ResNet را توصیف میکند که نقشههای معنایی را با وضوحهای چندگانه استخراج میکند. نویسندگان به این نتیجه رسیدند که همجوشی دیر هنگام ترکیب چند طبقهبندیکننده قوی مناسبتر است، در حالی که رویکرد فیوژن اولیه برای FuseNet مناسبتر است. همچنین، آنها سهم nDSM را برای شناسایی اشیا مانند اتومبیل ها و ساختمان ها ارزیابی می کنند، در حالی که استراتژی های همجوشی اولیه و دیررس را آزمایش می کنند. سونگ و کیم [ 30] یک شبکه یادگیری عمیق ترکیبی است که هدف آن استفاده از مجموعه داده های تصویر طبیعی در مقیاس بزرگ با ویژگی های مختلف به منظور افزایش دقت تقسیم بندی تصاویر RS است. مطالعه پیشنهادی از مجموعه دادههای چند وجهی به صورت موازی با به اشتراک گذاشتن سه بلوک رمزگذار استفاده میکند. اگرچه این مدل عملکرد خوبی دارد و نتایج امیدوارکننده ای به دست می آورد، اما از زمان پردازش رنج می برد. نویسندگان همچنین بیان میکنند که عملکرد مدل به تعداد دادهها و وزنهای کمکی بستگی دارد. کمبود دیگر مدل عدم استفاده از داده های چند حسگر (NIR، DSM) با هم است که ممکن است به طور موثر دقت را افزایش دهد. در [ 31 و 32 ]، به بررسی دقیقتر روشهای یادگیری عمیق در تقسیمبندی معنایی دادههای مکانی پرداخته شده است.
بسیاری از معماریهای سنتی CNN مانند FastFCN، Gated-SCNN، DeepLab، Mask R-CNN [ 33 ، 34 ، 35 ، 36 ] بر تقسیمبندی معنایی تصاویر RGB معمولی که دارای محتویات جامع زندگی روزمره هستند، تمرکز دارند. همچنین، معماریهای سنتی CNN در ابتدا برای دادههای چندوجهی مانند تصاویر قائمبند چند طیفی، شاخصهای طیفی و مدلهای زمین دیجیتال سهبعدی در برنامههای EO در نظر گرفته نمیشوند. بنابراین، تقسیمبندی معنایی دادههای سنجش از دور نیاز به معماریهای بهینهسازی شده دارد تا اشیاء مکانی را دقیقاً استخراج کند. وقتی الگوریتمهای تقسیمبندی معنایی قابل توجه [ 37 ] که پتانسیل تخصص در دادههای مکانی را دارند در نظر گرفته میشوند، DeepLabV3+ [28 ] به عنوان یک CNN پیشرفته برجسته است که قادر است با افزودن یک ماژول رمزگشا به DeepLabV3 مرزهای اشیاء واضح تری را بدست آورد [ 38 ].]. علاوه بر این، DeepLabV3+ قادر به حفظ اطلاعات متنی غنی از بخش رمزگذار است. اگرچه مدل DeepLabV3+ در سالهای اخیر موفقیت زیادی در تقسیمبندی معنایی به دست آورده است، اما هنوز نیاز به رویکردهای معماری چند جریانی مدل وجود دارد که بتواند مجموعه دادههای جغرافیایی چندوجهی را اعمال کند. علاوه بر سفارشیسازی معماری، تأثیر رویکردهای آموزشی مختلف بر عملکرد بخشبندی معنایی نیز باید مورد بررسی قرار گیرد. یکی از مشکلات اصلی در نظر گرفتن طبقهبندی دادههای مکانی میتواند بهعنوان فقدان معیار سنجش از دور با وضوح بالا و عدم قطعیت در کیفیت مجموعه دادههای موجود مانند اثرات سایهها، اعوجاجهای ارتوفتو و خطاهای حقیقت زمین بیان شود.22 ]. علاوه بر این، دو موضوع به ویژه در مدیریت داده های مکانی برجسته است. اولی تعیین فاز همجوشی بهینه و دیگری استفاده از داده های متغیر مقیاس است. رویکردهای ذکر شده در اینجا باید برای ایجاد تعادل بین دقت و بار محاسباتی در نظر گرفته شوند.
در این مطالعه، سهم دادههای مکانی چندوجهی مانند RGB، IR و DSM در دقت طبقهبندی با مقایسه آنها در معماریهای تک جریانی مورد بحث قرار گرفت. علاوه بر این، بهبود توابع مختلف افزایش و از دست دادن داده ها در دقت طبقه بندی پوشش زمین مورد بررسی قرار گرفت. علاوه بر این، یک معماری جریان دوگانه سرتاسر جدید که تصاویر مکانی را در نظر می گیرد بر اساس معماری DeepLabV3+ توسعه داده شد. معماری پیشنهادی میتواند از اطلاعات زمینهای چند مقیاسی با ادغام هرم فضایی آتروس استفاده کند، از دو داده چند کانالی گسسته به طور همزمان در جریانهای مختلف بهرهبرداری کند و یک لایه همجوشی دیررس را با ترکیب ویژگیهای سطح بالا ارائه دهد. در نتیجه، نشان داده شده است که معماری جریان دوگانه جدید که می تواند مجموعه داده های مکانی غنی را پردازش کند، عملکرد تقسیم بندی معنایی را با دقت کلی 88.87 درصد بهبود می بخشد. این عملکرد بهدستآمده نشان میدهد که معماری پیشنهادی نتایج رقابتی را با توجه به سایر مدلهای هنر ارائه میدهد. در نهایت، مشاهده شد که افزایش جریان چندگانه شبکههای تقسیمبندی معنایی قابل توجه، پتانسیل زیادی برای ارائه عملکردهای مدل بالاتر برای مجموعه دادههای جغرافیایی چندوجهی دارد. در حالی که سهم داده های مکانی به عنوان جریان دوم به RGB در بخش بندی به صراحت نشان داده شد. این عملکرد بهدستآمده نشان میدهد که معماری پیشنهادی نتایج رقابتی را با توجه به سایر مدلهای هنر ارائه میدهد. در نهایت، مشاهده شد که افزایش جریان چندگانه شبکههای تقسیمبندی معنایی قابل توجه، پتانسیل زیادی برای ارائه عملکردهای مدل بالاتر برای مجموعه دادههای جغرافیایی چندوجهی دارد. در حالی که سهم داده های مکانی به عنوان جریان دوم به RGB در بخش بندی به صراحت نشان داده شد. این عملکرد بهدستآمده نشان میدهد که معماری پیشنهادی نتایج رقابتی را با توجه به سایر مدلهای هنر ارائه میدهد. در نهایت، مشاهده شد که افزایش جریان چندگانه شبکههای تقسیمبندی معنایی قابل توجه، پتانسیل زیادی برای ارائه عملکردهای مدل بالاتر برای مجموعه دادههای جغرافیایی چندوجهی دارد. در حالی که سهم داده های مکانی به عنوان جریان دوم به RGB در بخش بندی به صراحت نشان داده شد.
مقاله بصورت زیر مرتب شده است. بخش 2 به ترتیب تکنیکهای تقویت دادههای کاربردی، ساختار شبکه دو جریانی DeepLabV3+ و رویکردهای آموزشی استفاده شده را توضیح میدهد. بخش نتایج دقت تقسیم بندی آزمایش ها را با استفاده از مجموعه داده پوتسدام ارائه می دهد و همچنین اعتبار سنجی را با مجموعه داده Vaihingen ارسال می کند. بخش 4 به عنوان بحث، یافته ها و پیامدهای آنها را با مطالعات قبلی مقایسه می کند. سپس مقاله با بخش نتیجه گیری به پایان می رسد.
2. روش ها
مجموعه داده دسترسی باز ISPRS Potsdam [ 39 ]، که برای اندازهگیری عملکرد بسیاری از الگوریتمهای تقسیمبندی معنایی توسعهیافته استفاده شده است، در ابتدا بهعنوان مجموعه داده به دلیل عرضه دادههای جغرافیایی مختلف آن ترجیح داده شد. در طول فرآیند آمادهسازی دادههای آموزشی، دو تکنیک افزایش دادهها بر اساس دستکاریهای اولیه تصویر [ 40] برای بزرگتر کردن اندازه و بهبود تنوع مجموعه دادهها استفاده شد. برای الگوریتم مدل پیشنهادی به کمک دادههای مکانی، DeepLabV3+ در نظر گرفته میشود زیرا یک شبکه نسل جدید است که عملکرد بخشبندی معنایی بالایی را ارائه میدهد. معماری تک جریانی موجود DeepLabV3+ به دو جریان برای دادههای مکانی و همچنین مجموعه دادههای RGB تغییر یافته است. در نتیجه معماری پیشنهادی، مدل هایی با رویکردهای آموزشی متفاوت تولید و عملکرد آنها اندازه گیری شد. در نهایت، این روش همچنین با مجموعه داده Vaihingen به منظور اعتبارسنجی عملکردها آموزش داده شد [ 41 ].
2.1. افزایش داده ها
مجموعه داده های ISPRS Potsdam تصاویر باند IR و DSM/nDSM و همچنین عکس ارتوعکس واقعی RGB را با فاصله نمونه برداری از زمین 5 سانتی متر ارائه می دهد. مجموعه داده شامل 38 تکه با اندازه 6000 × 6000 پیکسل و دادههای مربوط به حقیقت زمینی است که شامل سطوح غیرقابل نفوذ (سفید)، ساختمانها (آبی)، پوشش گیاهی کم (فیروزهای)، درختان (سبز)، ماشینها (زرد) و بهم ریختگی (قرمز) است. ) کلاس ها. دو تکنیک مختلف افزایش داده (DA) به منظور تولید مجموعه داده ورودی به دست آمده است. متد First DA که در مقاله DA-I نامیده می شود، قبل از آموزش مدل در محیط GNU Octave پیاده سازی شده است. هر تصویر 6000 × 6000 به صورت متوالی تقسیم می شود تا تصاویر فرعی 800 × 800 با همپوشانی 150 پیکسل برای جلوگیری از گم شدن داده ها در لبه های تصاویر برش خورده تشکیل شود. برای هر پچ؛ چرخش (غیر و چرخش)، چرخش (غیر، 90 درجه، 180 درجه، و 270 درجه) در تمام ترکیبات اعمال شد. علاوه بر این، عملیات کنتراست (غیر، %50- و +%50) برای تصاویر RGB و IR با در نظر گرفتن تأثیر تفاوتهای انعکاس با توجه به زوایای مختلف دریافت تصویر و سایهها اعمال شد. در نتیجه، 24 تصویر تقویتشده برای هر تکههای RGB و IR برشخورده، و 8 تصویر تقویتشده برای هر تکههای nDSM، NDVI و برچسب برششده تولید شد. در مطالعه قبلی، [42 ] که نمونه ای از عملیات تقویت را برای یک تصویر 800 × 800 RGB توضیح داد، نتایج را با جزئیات گرافیکی به تصویر کشید. برای DA-II، اندازه پچ کوچکتر و همچنین عملیات تصویر تصادفی برای اندازه دسته بالاتر و آموزش سریعتر اعمال شد. به منظور تولید یک تصویر ورودی، یک تصویر فرعی 600 × 600 به طور تصادفی برش داده می شود و چرخش (غیر یا برگردان) و چرخش (غیر، 90 درجه، 180 درجه، 270 درجه) اعمال شد. علاوه بر این، مقادیر روشنایی، کنتراست، رنگ و اشباع به ترتیب بین 0.05- و 0.05، بین 0.7 و 1.3، بین 0.08- و 0.08، و بین 0.6 و 1.6 به طور تصادفی تغییر کردند ( شکل 1).). هدف اصلی DA-II استفاده از ورودی های تصادفی تر برای فرآیند یادگیری شبکه است. رویکردهای افزایش و تعداد کل تصاویر فرعی در جدول 1 خلاصه شده است. دو وصله 2_10 و 5_12 از مجموعه داده پوتسدام که منعکس کننده توزیع کلاسی مجموعه داده کامل است به عنوان زیر مجموعه داده برای ارزیابی سهم استفاده ترکیبی از داده های nDSM، IR و NDVI در یک زمان معقول انتخاب شدند ( شکل 2 ). توزیع طبقاتی مجموعه کامل و زیر مجموعه داده در جدول 2 آورده شده است. در حالی که پچ 5_12 محتوای ساختمانی بیشتری را ارائه می دهد، پچ 2_10 شامل ترکیب پوشش گیاهی فشرده است. وصله های 2_10 و 5_12 با هم، به جای یک وصله واحد، برای ایجاد تعادل بیشتر بین توزیع های کلاس در زیر مجموعه داده ها استفاده شدند. بنابراین، زیر مجموعه داده اساساً برای انجام یک پیش ارزیابی سریع آزمایشهای مختلف ساخته شد. برای مدلهای جریان دوگانه، دادههای RGB ورودی جریان اول است و بقیه برای جریان دوم با گزینههای مختلف برای تجزیه و تحلیل سهم آنها در عملکرد مدل.
مجموعه داده ISPRS Vaihingen به عنوان یک مجموعه داده اعتبار سنجی دوم استفاده شد زیرا داده های لازم را برای الگوریتم پیشنهادی فراهم می کند و دارای کلاس های مشابه است. اگرچه برخی تفاوتها در ویژگیها وجود دارد، اما این مجموعه داده دسترسی باز دیگری است که در بسیاری از مطالعات مانند مجموعه داده ISPRS Potsdam استفاده شده است. تفاوت های اصلی عبارتند از؛ عکسهای ارتو واقعی مجموعه داده ترکیبی از IRRG به جای RGB دارند، فاصله نمونهبرداری از زمین هر دو orthophoto واقعی و DSM 9 سانتیمتر است و مجموعه داده دارای 33 تکه با ابعاد مختلف است [ 41 ]. علاوه بر این، مجموعه داده فقط DSM را ارائه می دهد، بنابراین وصله های nDSM تولید شده توسط [ 43 ] در این مطالعه استفاده شد.
2.2. Dual-Stream DeepLabV3+
DeepLabV3+ که دارای مراحل رمزگذاری و رمزگشایی است، یک مدل یادگیری عمیق پیشرفته برای تقسیم بندی تصویر معنایی است [ 28 ، 35 ]. مرحله رمزگذاری اطلاعات اولیه را از تصویر با استفاده از CNN استخراج می کند در حالی که مرحله رمزگشایی خروجی ها را بر اساس اطلاعات به دست آمده از مرحله رمزگذار بازسازی می کند. رمزگشا تصاویر رمزگذاری شده با وضوح پایین را به اندازه تصویر اصلی مجدداً نمونه برداری می کند تا نتایج تقسیم بندی بهتری را در سراسر مرزهای شیء ایجاد کند. DeepLabV3+ از ستون فقرات شبکه زیر پشتیبانی می کند: MobileNetv2، Xception، ResNet، PNASNet، Auto-DeepLab. مک نیلی وایت و همکاران [ 44] نشان داد که اثرات دقت جزئی در مورد استفاده از ستون فقرات مختلف مورد انتظار است. در این راستا، یک مطالعه تحقیقاتی خاص باید برای ارزیابی ستون فقرات در نظر گرفته شود. در این مطالعه، ستون فقرات شبکه Xception برای آموزش مدل DeepLabV3+ انتخاب شد، زیرا نویسندگان DeepLabV3+ خاطرنشان کردند که نسخه اصلاح شده Xception به عنوان ستون فقرات، دقت ImageNet بهتری را وعده میدهد.
اکثر مدلهای رایج یادگیری ماشین برای تقسیمبندی معنایی با تصاویر با کانالهای RGB آموزش داده میشوند. [ 45 ] برخی از مجموعه دادههای تقسیمبندی معنایی محبوب را که برای وظایف مختلف در بینایی رایانهای مانند سنجش از راه دور، رانندگی مستقل، و برنامههای کاربردی داخلی توسعه داده شدهاند، فهرست کرده است. با این حال، مطالعات تقسیمبندی معنایی در LULC به طور خاص نیاز به استفاده از معیارهایی از جمله کلاسهای پوشش اصلی زمین، تصاویر چند طیفی با وضوح بالا و ارتفاع زمین دارد. SkyScape برای 31 مقوله معنایی مانند ساختمان ها، جاده ها و پوشش گیاهی حاشیه نویسی ارائه کرد تا وظایف تقسیم بندی معنایی را انجام دهد [ 46 ]]. با این حال، تصاویر هوایی مجموعه داده شامل هیچ باند خارج از محدوده قابل مشاهده نیست، اگرچه برچسبها دستهبندیهای کلاس کاربری معنایی غنی را نشان میدهند. همچنین Boguszewski و همکاران. [ 47] مجموعه داده پوشش زمین مشروح شده را با چهار شی کلاس به عنوان ساختمان ها، جنگل ها، آب و جاده ها با استفاده از تصاویر هوایی RGB معرفی کرد. بنابراین، به جز مجموعه داده های تصاویر ماهواره ای با وضوح فضایی متوسط، مجموعه داده پوتسدام به دلیل محتوای جغرافیایی آن برجسته است. در مورد ما، مجموعه داده پوتسدام در مقایسه با معیارهای تصویر RGB معمولی مانند SkyScapes و ImageNet، دادههای باند مادون قرمز و ارتفاع را نیز فراهم میکند. یک فرآیند آموزشی با داده های اضافی ذکر شده پتانسیل قابل توجهی برای بهبود عملکرد تقسیم بندی معنایی دارد. همچنین داده های تولید شده مانند NDVI می تواند برای کمک به بهبود دقت مدل آموزنده باشد. با این حال، دست زدن به انواع داده های مختلف در کنار تصاویر RGB معمولی سه باند بسیار مهم است زیرا به برخی رویکردهای خاص در یادگیری عمیق نیاز دارد. مشکل اصلی با دادههای اضافی که یک پشته تصویر با بیش از سه کانال را میسازد، نمیتواند مستقیماً به معماریهای بخشبندی معنایی پیشرفته تغذیه شود. اولین راه حلی که مانع را برطرف می کند، استفاده از داده های اضافی با تصویر RGB به عنوان یک مجموعه داده ترکیبی و آموزش مدل های تعریف شده با این داده ها است. با این وجود، اندازه دستههای بالاتر به دلیل افزایش ابعاد ورودی، ناگزیر از فرآیند محاسبات رنج میبرند. همچنین، یادگیری انتقال به دلیل ابعاد ورودی ناسازگار قابل استفاده نیست. به همین دلایل، در این مطالعه، تصاویر RGB و nDSM + IR + NDVI مجموعه دادههای جداگانهای در طول فرآیند آموزش در دو مدل مستقل در نظر گرفته شدند. سپس خروجی های این دو مدل با هم ترکیب می شوند تا نقشه معنایی نهایی به دست آید. اولین راه حلی که مانع را برطرف می کند، استفاده از داده های اضافی با تصویر RGB به عنوان یک مجموعه داده ترکیبی و آموزش مدل های تعریف شده با این داده ها است. با این وجود، اندازه دستههای بالاتر به دلیل افزایش ابعاد ورودی، ناگزیر از فرآیند محاسبات رنج میبرند. همچنین، یادگیری انتقال به دلیل ابعاد ورودی ناسازگار قابل استفاده نیست. به همین دلایل، در این مطالعه، تصاویر RGB و nDSM + IR + NDVI مجموعه دادههای جداگانهای در طول فرآیند آموزش در دو مدل مستقل در نظر گرفته شدند. سپس خروجی های این دو مدل با هم ترکیب می شوند تا نقشه معنایی نهایی به دست آید. اولین راه حلی که مانع را برطرف می کند، استفاده از داده های اضافی با تصویر RGB به عنوان یک مجموعه داده ترکیبی و آموزش مدل های تعریف شده با این داده ها است. با این وجود، اندازه دستههای بالاتر به دلیل افزایش ابعاد ورودی، ناگزیر از فرآیند محاسبات رنج میبرند. همچنین، یادگیری انتقال به دلیل ابعاد ورودی ناسازگار قابل استفاده نیست. به همین دلایل، در این مطالعه، تصاویر RGB و nDSM + IR + NDVI مجموعه دادههای جداگانهای در طول فرآیند آموزش در دو مدل مستقل در نظر گرفته شدند. سپس خروجی های این دو مدل با هم ترکیب می شوند تا نقشه معنایی نهایی به دست آید. یادگیری انتقالی به دلیل ابعاد ورودی ناسازگار قابل استفاده نیست. به همین دلایل، در این مطالعه، تصاویر RGB و nDSM + IR + NDVI مجموعه دادههای جداگانهای در طول فرآیند آموزش در دو مدل مستقل در نظر گرفته شدند. سپس خروجی های این دو مدل با هم ترکیب می شوند تا نقشه معنایی نهایی به دست آید. یادگیری انتقالی به دلیل ابعاد ورودی ناسازگار قابل استفاده نیست. به همین دلایل، در این مطالعه، تصاویر RGB و nDSM + IR + NDVI مجموعه دادههای جداگانهای در طول فرآیند آموزش در دو مدل مستقل در نظر گرفته شدند. سپس خروجی های این دو مدل با هم ترکیب می شوند تا نقشه معنایی نهایی به دست آید.شکل 3 جریان دوگانه DeepLabV3+ را نشان می دهد که برای مقابله با تمام مجموعه داده های مکانی ورودی طراحی شده است.
DeepLabV3+ مبتنی بر Xception دو جریان دو جریان موازی را به عنوان رمزگذار در نظر گرفت تا از مجموعه داده های RGB و nDSM + IR + NDVI با هم بهره برداری کند. Atrous Spatial Pyramid Pooling (ASPP) که در معماری استفاده می شود، قادر به رمزگذاری اطلاعات زمینه ای چند مقیاسی است. با این حال، تفاوتهای اصلی ساختار جریان دوگانه با DeepLabV3+ اصلی در مرحله رمزگشا رخ میدهد. ابتدا، رمزگشای مدل پیشنهادی کانولوشن های 1×1 را برای ویژگی های استخراج شده از هر دو جریان به کار می گیرد و سپس نمونه برداری دوخطی را با ضریب 4 اعمال می کند. مهار شده است. پس از آن، رمزگشا ویژگی های دو جریان را به هم متصل کرد،
2.3. رویکردهای آموزشی
در یادگیری عمیق، استراتژی های آموزشی به طور قابل ملاحظه ای بر عملکرد تقسیم بندی و طبقه بندی شبکه ها تأثیر می گذارد. به طور خاص، چهار عامل مرحله آموزش باید با ظرافت در نظر گرفته شود تا نتایج کارآمدتری به دست آید. در این پژوهش، تأثیر اجرای آموزش های مختلف نیز برای تعیین مدل های دقیق تر مورد بررسی قرار گرفت. اولین ویژگی آموزشی، حل یک تابع ضرر مناسب به منظور اندازه گیری هزینه بین ارزش برآورد شده و ارزش واقعی است. از دست دادن متقابل آنتروپی طبقهای که به فعالسازی softmax نیاز دارد، یک تابع پرکاربرد برای مسائل طبقهبندی چند کلاسه است که در تقسیمبندی معنایی پیادهسازی میشود. با این حال، توزیع نابرابر کلاس ها در مجموعه داده آموزشی همانطور که در جدول 2 مشاهده می شودعملکردهای تابع آنتروپی متقابل طبقهای را تحمل میکند. اشکال دیگر تابع عدم کارایی در امتیاز F1 است. به این دلایل، عملکرد تلفات کانونی Tversky ( FTL ) برای مراحل آموزش مدل نهایی آزمایش می شود. FTL یک تابع از دست دادن کانونی تعمیم یافته بر اساس شاخص Tversky ( TI ) [ 48 ] است. TI ، که به عنوان معادله ( 1 ) دیده می شود، یک اندازه گیری شباهت نامتقارن است که با معیارهای مثبت واقعی ( TP )، منفی کاذب ( FN )، و مثبت کاذب ( FP ) محاسبه می شود. و ضرایبی هستند که به ترتیب FN و FP را کنترل می کنند . در حالی که ، مجموع و انتظار می رود که 1 در TI به عنوان تعمیم ضریب سورنسن-دایس و شاخص جاکارد [ 49 ] باشد. مشروط بر اینکه هر مقدار از بزرگتر است از ، مجموعه داده های تقسیم بندی تصویر نامتعادل را می توان به طور مؤثرتری مدیریت کرد. از سوی دیگر، پارامتری که رفتار تابع FTL را در معادله ( 2 ) تعیین می کند در محدوده [1، 3] متفاوت است. اگر چه اثر از آبراهام و خان [ 48 ] در آزمایشات خود اظهار داشتند که بهترین عملکرد با استفاده از TI مشاهده شد. . پس از آن، مقادیر پارامتر به عنوان تنظیم شد ، و .
یادگیری انتقال، که یک روش یادگیری ماشینی برای استفاده مجدد از مدلی است که برای یک کار به کار دیگر توسعه یافته است، دومین عامل آموزشی در نظر گرفته می شود. یادگیری انتقال به طور قابل توجهی عملکرد شبکه را بهبود می بخشد و زمان یادگیری را کاهش می دهد. با این حال، یادگیری انتقال ممکن است قابل اجرا نباشد زیرا ساختار مدل های منبع مناسب نیست. بنابراین، وضعیت یادگیری انتقالی نیز به عنوان روشی شاخص در آموزش الگو در نظر گرفته شد. در این مطالعه، یادگیری انتقال با استفاده از وزن های مدل اصلی DeepLabV3+ آموزش داده شده با مجموعه داده پاسکال VOC و ستون فقرات Xception انجام شد که در شکل 4 نشان داده شده است.. همچنین، مدلهای پیشنهادی که از یادگیری انتقالی استفاده میکنند با استفاده از الگوریتم بهینهسازی آدام با نرخ یادگیری 0.01 در آخرین لایههای مخصوص طبقهبندی آموزش داده شدند.
پس از یادگیری انتقالی، تنظیم دقیق به عنوان سومین عامل آموزشی اجرا شد. تمامی لایههای مدلها با استفاده از شیب نزولی تصادفی (SGD) با نرخ یادگیری کم 0.0001 و تکانه 0.9 آموزش داده شدند. در نهایت، ابعاد وصله مورد استفاده به عنوان ورودی شبکه به منظور کاهش مدت زمان آموزش و بهینه سازی استفاده از حافظه، تجدید نظر شد.
3. نتایج
به منظور نظارت بر بهبود در بخشبندی معنایی، شبکهها با مجموعه دادههای جغرافیایی مرجع مختلف مانند عکسهای ارتوفتو چند طیفی، nDSM و NDVI آموزش داده شدند. تجزیه و تحلیل شبکه با یک جریان تا سه کانال و دو جریان برای شش کانال مورد نیاز ورودی داده انجام شد. به این ترتیب، هدف آن است که به وضوح سهم مجموعه دادهها در تقسیمبندی معنایی برای نقشهبرداری پوشش زمین آشکار شود. به منظور کاهش مدت زمان آموزش، برخی از مدل ها در ابتدا با استفاده از مجموعه داده های فرعی به دلیل حجم عظیمی از پردازش داده مورد نیاز تولید شدند. سپس برخی از این مدلها با استفاده از مجموعه داده کامل با توجه به نتایج ارزیابی اولیه بهدستآمده با زیر مجموعه دادهها ایجاد شدند. تمامی مدل های تولید شده برای ارجاع و مقایسه در متن با حرف اول M شماره گذاری شده اند و در نتیجهبخش 3.1 و بخش 3.2 نتایج به دست آمده با استفاده از مجموعه داده پوتسدام را ارائه می دهد، در حالی که بخش 3.3 ارزیابی ها را با مجموعه داده Vaihingen نشان می دهد.
3.1. ارزیابی مدل های تک جریانی
شبکههای تک جریانی مدلهایی را تولید میکنند که توسط دادههای متشکل از یک، دو و سه کانال به عنوان ورودی تغذیه میشوند. تمامی مدل ها از M1 تا M14 به صورت شبکه تک جریانی طراحی شدند. مدلهای تا M8 فقط با زیر مجموعه دادهها همانطور که در جدول 3 مشاهده میشود آموزش داده شدند ، در حالی که مدلهای M9 تا M14 با مجموعه داده کامل پیادهسازی شدند.
از آنجایی که هیچ مدل از پیش آموزشدیده خاصی با مجموعه دادههای nDSM، IR و NDVI وجود ندارد، چهار مدل اول M1، M2، M3 و M4 با وزنهای اولیه تصادفی بدون یادگیری انتقال آموزش داده شدند. همانطور که در جدول 4 مشاهده می شود، این وضعیت، که در آن یادگیری انتقالی اجرا نشد، بر موفقیت های مدل تأثیر منفی گذاشته است . از سوی دیگر، نیمه دوم هشت مدل اول از M5 تا M8 با یادگیری انتقالی مورد بررسی قرار گرفت.
به خصوص در چهار مدل اول، اهمیت nDSM، IR و NDVI در بخشبندی معنایی با افزایش متوالی تعداد کانالها مورد بحث قرار گرفت. هنگامی که جدول 3 و جدول 4 با هم ارزیابی می شوند، درک می شود که سهم مجموعه داده های IR و nDSM در عملکرد تقسیم بندی بالاتر از مجموعه داده NDVI است. به عبارت دیگر، باند IR و nDSM را می توان به عنوان مجموعه داده های مکانی ضروری تر در تقسیم بندی معنایی دید. از آنجایی که داده های NDVI شامل کانال IR می شود، می توان در نظر گرفت که حضور همزمان NDVI و IR به عنوان کانال های ورودی معماری، به دقت کلی کمکی نمی کند. با این حال، افزایش 3.87٪ بین M2 و M4 در جدول 4هنگامی که NDVI و IR ترکیب می شوند، بهبود بیشتری را نشان می دهد. از سوی دیگر، ممکن است M2 به دقت M4 برسد، اما این ممکن است به زمان تمرین بیشتری نیاز داشته باشد.
از آنجایی که داده های ورودی M5 و M6 دارای سه کانال هستند، این مدل ها برای استفاده از یادگیری انتقال با مدل های RGB از پیش آموزش دیده در نظر گرفته شدند. اگرچه انواع داده های M5 و M6 با داده های RGB معمولی متفاوت است، یادگیری انتقال به دقت مدل آنها کمک می کند. علاوه بر این، مدل M6، با استفاده از تنظیم دقیق که عملکرد بهتری از مدلهای M4 و M5 داشت، به صراحت بهبود را با دقت 86.67 درصد در میان مدلهای دارای سه کانال دادههای مکانی نشان داد. بنابراین، بهترین دقت کلی از M6 بدست می آید که با داده های حاوی باندهای nDSM، IR و NDVI آموزش داده شده است ( جدول 4 ). مدلهای یک جریانی که از دادههای RGB استفاده میکنند با یادگیری انتقال و تنظیم دقیق به ترتیب به عنوان M7 و M8 آموزش داده شدند. وقتی جدول 4بررسی شده است، این واقعیت که M5 و M7 دقتهای نزدیک به یکدیگر را ارائه میدهند نشان میدهد که مدلهای از پیش آموزشدیده مبتنی بر RGB میتوانند در یادگیری انتقال دادههای مکانی استفاده شوند. علاوه بر این، همچنین مشخص شد که M6 تقریباً به اندازه M8 دقت دارد. این می تواند به عنوان یکی دیگر از شاخص های سهم یادگیری انتقال مبتنی بر RGB و تنظیم دقیق در داده های جغرافیایی دیده شود.
از آنجایی که مجموعه داده کامل محتوای بسیار غنیتری را برای شبکهها فراهم میکند، انتظار میرود که عملکرد دادههای آزمایشی در مدلهای آموزشدیده افزایش یابد. مدلهای M9 تا M14 شبکههای تک جریانی هستند که با مجموعه داده کامل همانطور که در جدول 5 توضیح داده شده است، تولید میشوند . پس از اجرای هشت آزمایش از M1 تا M8 با زیر مجموعه دادهها، مدلهای M5 تا M8 برای آموزش بیشتر به منظور ارزیابی آنها با آزمایشهای مجموعه داده کامل مورد بررسی قرار گرفتند. مدل های M5، M6، M7 و M8 برای ارزیابی کامل مجموعه داده ها به ترتیب به M9، M10، M12 و M13 تغییر نام دادند. علاوه بر مدل های تغییر نام یافته، مدل های جدید M11 و M14 که عملکرد از دست دادن کانونی Tversky را مدیریت می کردند با نوع تقویت DA-II ایجاد شدند.
جدول 6 نمرات F1 مبتنی بر کلاس و دقت کلی را نشان می دهد که پس از آموزش مجموعه داده کامل با مدل های تک جریانی به دست می آید. هنگام بررسی سهم تنظیم دقیق در جدول 6، تنظیم دقیق با استفاده از مجموعه داده کامل همچنین تقسیم معنایی بهتری را در مدلهای M10 و M13 به همراه داشت، همانطور که قبلاً در آزمایشهای زیر مجموعه داده بحث شد. علاوه بر این، به وضوح مشاهده می شود که دقت کلی M11 و M14 به ترتیب از دقت M10 و M13 پیشی گرفته است. سه عامل اصلی که عبارتند از: تابع اتلاف، اندازه وصله و روش افزایش داده ها منجر به افزایش مقادیر دقت ذکر شده می شود. برای ایجاد این بهینهسازی، سه تغییر ایجاد شده را میتوان به شرح زیر شرح داد: (الف) یک طرح افزایش متفاوت (DA-II) آزمایش شد. (ب) از تابع کانونی از دست دادن Tversky استفاده شد که مثبت کاذب و منفی کاذب را متعادل می کند. (ج) اندازه دسته با کاهش اندازه ورودی از 800 × 800 به 600 × 600 برای آموزش پایدارتر افزایش یافت.
علاوه بر این، مقادیر دقت کلی بسیار نزدیک که بین M11 و M14 به طور مستقیم با مجموعه دادههای nDSM + IR + NDVI با مجموعه دادههای R + G + B مقایسه میشوند، قابل توجه هستند. نزدیکی در عملکرد تقسیمبندی نشان میدهد که مجموعه دادههای جغرافیایی پشتیبانی شده با اطلاعات کانال IR ممکن است به عنوان جایگزین مجموعه دادههای تصویری RGB معمولی در نظر گرفته شود. از سوی دیگر، هنگامی که بازرسی مبتنی بر کلاس انجام می شود، امتیازات F1 M11 و M14 تا حد زیادی عملکرد تقسیم بندی مشابهی را نشان می دهد. به ویژه امتیاز طبقه پوشش گیاهی پایین نیاز به تقسیم بندی بهبود یافته را برجسته می کند در حالی که امتیاز کلاس ساختمان بر هر دستاورد مبتنی بر طبقات برتری دارد.
3.2. ارزیابی مدلهای جریان دوگانه
به منظور ساخت یک مدل جریان دوگانه که قادر به پردازش ورودی های شش کاناله به طور کامل باشد، یک شبکه تک جریانی که از مجموعه داده های R + G + B استفاده می کند با یک شبکه مبتنی بر nDSM + IR + NDVI به یکباره همانطور که در شکل 3 توضیح داده شده است مرتبط شد . در این مطالعه، دو مدل جریان دوگانه M15 و M16 برای بررسی سهم مجموعه دادههای جغرافیایی و تصویری در همان جلسه آموزشی پیادهسازی شدند. مدل M15 از ساختار شبکه M10 و M13 با هم استفاده میکند، در حالی که شبکههای مدلهای M11 و M14 در مدل M16 مدیریت میشوند.
دو مدل دو جریان M15 و M16 با ویژگی های ارائه شده در جدول 7 آموزش داده شده اند. نتایج نشان میدهد که مدل دو جریانی M16 نسبت به همه مدلهای تکجریان ارزش کلی بهتری دارد ( جدول 8 ). M16 که از نظر اندازه ورودی، عملکرد تلفات و افزایش داده با M15 متفاوت است در داده های آزمایشی بهتر عمل کرد. به منظور اصلاح نتایج تقسیمبندی، یک روش انتخاب مرکز برش در حین انتخاب یک ورودی نیز اعمال شد. عملکردهای به دست آمده از M16 با روش انتخاب مرکز برش به عنوان M16* در جدول 8 نشان داده شده است.. برای یک تصویر معین، تصاویر ورودی متعددی ایجاد شد و تنها ناحیه مرکزی خروجی انتخاب شد و سپس برای ایجاد نقشه تقسیم بندی نهایی وصله شد. این روش تنها پس از آموزش مدل استفاده می شود و تاثیری در روند آموزش ندارد. دلیل اصلی استفاده از نتایج برش مرکزی این است که خروجی های مدل ممکن است نتایج ناپایداری در مرزهای تصاویر ورودی داشته باشند و برعکس مرکز خروجی ها پایدارتر باشد. در نهایت، پیشبینی مرکز برش که بهعنوان M16* ارائه شد، به دستیابی به دقت کلی کمی بهتر از مدل M16 کمک کرد. از سوی دیگر، بهبود در نمرات F1 مبتنی بر کلاس نیز در جدول 8 مشاهده شده است. علاوه بر امتیازات F1، دقت کلاس که از مدل M16* به دست آمده است با ماتریس سردرگمی در جدول 9 نشان داده شده است.. ماتریس سردرگمی به صراحت نشان می دهد که کلاس درهم و برهم کمترین مقدار دقت را به دلیل تخصیص نادرست نشان می دهد. کلاس بهم ریختگی به طور قابل ملاحظه ای به عنوان یک سطح غیر قابل نفوذ یا پوشش گیاهی پایین در نتیجه خطای کمیسیون ظاهر شد. دلیل اصلی برخی ناهماهنگیهای کلاس، دشواری در تهیه دادههای حقیقت زمینی به جای شکست در مدل در نظر گرفته میشود. در نهایت، شکل 5 که مقایسه بصری بین حقیقت زمینی و پیشبینی را امکانپذیر میسازد، نتایج خروجی تقسیمبندی معنایی را با استفاده از مدل M-16* برای مجموعه دادههای آزمون پوتسدام نشان میدهد. منحنیهای دقت و تلفات مدلهای M11، M14 و M16 که امکان نظارت بر تغییرات عملکرد یادگیری را در طول فرآیند آموزش فراهم میکنند در شکل 6 نشان داده شده است.. برای نشان دادن در شکل، M16 به عنوان بهترین مدل آموزش دیده و M11 و M14 به عنوان مدل به کار گرفته شده توسط M16 انتخاب شدند.
3.3. ارزیابی مجموعه داده Vaihingen
مجموعه داده Vaihingen با وضوح های فضایی مختلف به منظور اعتبار بخشیدن به معماری جریان دوگانه پیشنهادی استفاده شد. ابتدا M11 و M14 اساسا برای تحقق استراتژی های آموزشی توضیح داده شده در شکل 4 پیاده سازی شدند . نتایج جدول 10 نشان داد که M11 تک جریانی با استفاده از nDSM، IR و NDVI به دقت 84.86 درصد دست یافت و سپس، M14 با بهرهبرداری از باندهای مرئی RGB، دقت قابلتوجهی با 87.18 درصد تولید کرد. از سوی دیگر، M16 و M16* که معماری دو جریانی را انجام میدهند، نسبت به هر تک جریانی، نرخ دقت بالاتری را با 87.33% و 87.39% به دست آوردند.
4. بحث
در این مطالعه، یک معماری جریان دوگانه سرتاسر جدید که تصاویر جغرافیایی چند باندی را بر اساس DeepLabV3+ در نظر میگیرد، پیشنهاد شد. مجموعه داده های برچسب گذاری معنایی ISPRS 2-D برای ارزیابی مدل ما استفاده شد. این مدل به عنوان دو جریان موازی عمل می کند و ویژگی های نهایی هر جریان را در انتها ترکیب می کند. با کمک این ساختار دوگانه چند وجهی، معماری قابلیت مدیریت باند IR، DSM و مجموعه دادههای NDVI را در کنار تصاویر RGB به دست میآورد. از سوی دیگر، یکی دیگر از انگیزه های این مطالعه، بررسی اثرات توابع از دست دادن متنوع، افزایش داده ها، و استراتژی های انتخاب ورودی بر دقت طبقه بندی است. در مرحله ارزیابی، آزمون هایی را با ترکیبات مختلف انجام دادیم که در جدول 3 ، جدول 4 آورده شده است.جدول 5 , جدول 6 , جدول 7 و جدول 8 . در نتیجه آزمایشها، 88.9 درصد دقت کلی با مدل M16* بدست آمد. به منظور مقایسه نتایج خود، مطالعات ارائه شده در جدول 11 را انتخاب می کنیم . همه این مطالعات از مجموعه داده های مشابهی استفاده می کنند و از نظر معماری و استفاده از داده ها با پیشنهاد ما شباهت هایی دارند. وانگ و همکاران [ 21 ] بهترین نتیجه دقت کلی را در مسابقه برچسبگذاری معنایی ISPRS 2-D بدست میآورد. این مطالعه یک معماری ResNet چند اتصالی را برای ترکیب ویژگیهای عمیق چند سطحی مربوط به لایههای مختلف و همچنین یک استراتژی ترکیبی برای ویژگیهای چند مقیاسی پیشنهاد میکند. اودبرت و همکاران [ 29] یک شبکه عصبی کاملاً کانولوشنال عمیق چند جریانی و چند مقیاسی را بر اساس معماریهای SegNet و ResNet ارائه میکند که نقشههای معنایی را با وضوحهای چندگانه استخراج میکند. این مطالعه همچنین اثرات ادغام اولیه و دیررس DSM و دادههای چند طیفی را بر دقت کلی بررسی میکند. پیرامانایگام و همکاران [ 24 ] یک شبکه همجوشی مبتنی بر FCN یا SegNet متشکل از دو یا چند جریان را پیشنهاد میکند تا بتواند از دادههای چند کاناله استفاده کند (IR، R، G برای یک جریان و IR، NDVI، nDSM برای دوم). این مطالعه زمان همجوشی بهینه را برای ویژگیها بررسی میکند. به همین دلیل، نویسندگان پیکربندیهای مختلفی را انجام میدهند که آنها را همجوشی دیررس (LaFSN)، همجوشی ترکیبی پیشنهادی (CoFSN)، و همجوشی بعد از لایه n (LnFsn) مینامند . لازم به ذکر است که نتایج ارائه شده در جدول 11متعلق به پیکربندی همجوشی دیررس است و بهترین نتایج آنها را که 90.3٪ در دقت کلی است منعکس نمی کند. دلیلی که ما این پیکربندی را انتخاب میکنیم این است که بهجز معماری DCNN استفادهشده، بهطور یکسان شبیه به پیشنهاد ما است. در [ 30 ]، یک شبکه یادگیری عمیق ترکیبی به منظور بهبود دقت تقسیم بندی با استفاده از تصاویر شهری مایل پیشنهاد شده است [ 50 ]] و تصاویر RS با هم. معماری پیشنهادی با به اشتراک گذاری سه بلوک رمزگذار، دو ورودی را به صورت موازی مدیریت می کند. سپس شبکه با تلفات وزنی آموزش داده می شود که به عنوان مجموع وزنی تلفات دو مسیر تعریف می شود. این مطالعه همچنین شامل نتایج تقسیمبندی شبکههای دیگر مانند SegNet، DeepLab-V3+ با دادههای 4 باند (RGB + NIR) است. جدا از خود معماری شبکه های مورد استفاده، استراتژی هایی مانند استفاده از داده در مقیاس چندگانه، اتصال چندگانه و زمان ادغام بهینه وجود دارد که برجسته ترین آنها به نظر می رسد که ما همچنین در نظر می گیریم آنها را برای مدل جریان دوگانه خود به عنوان کار آینده تطبیق دهیم. . این نتایج بهدستآمده نشان میدهد که مدل تولید شده بر اساس معماری ما نتایج رقابتی را با توجه به سایر مدلهای پیشرفته ارائه میدهد. همانطور که مشاهده می شود که DeepLabV3+ چهار بانده [ 30] در مقایسه با مدل های تک جریانی ما M11 و M14 ارائه شده در بخش نتیجه، دقت کلی کمتری به دست آورده بود، اگرچه آنها از مجموعه داده های پوتسدام در معماری های DeepLabV3+ نیز استفاده می کنند. بنابراین، در مقایسه مستقیم دقتهای تولید شده از چنین معماریها و مدلهای مختلف به دلیل افزایش یا عملکرد از دست دادن داده، باید مقداری انحراف در نظر گرفته شود. ما بر این باوریم که دقت تقسیم بندی معماری پیشنهادی ما را می توان با برخی تغییرات به ویژه با تمرکز بر زمان همجوشی همانطور که در [ 21 ، 24 ، 29 ] پیشنهاد شده است، افزایش داد.
همانطور که در شکل 7 مشاهده میشود ، نتایج آزمون از مدلهای بهدستآمده با آموزش مجموعههای داده Potsdam و Vaihingen بر روی معماریهای مرتبط ارزیابی شد. بر این اساس، قابل درک است که نتایج مدل عملکردی سازگار در مجموعه دادههای مختلف را نشان میدهد. از سوی دیگر، مشاهده می شود که مجموعه داده های Vaihingen دقت نسبتاً کمتری تولید می کند. علاوه بر این، در سایر مطالعات مرتبط، همچنین مشاهده می شود که مجموعه داده پوتسدام دقت بهتری نسبت به مجموعه داده Vaihingen ارائه می دهد. در نظر گرفته می شود که به دلیل وضوح فضایی پایین مجموعه داده Vaihingen رخ می دهد.
5. نتیجه گیری ها
سهم داده های IR و NDVI در تقسیم بندی به صراحت در مدل های تک جریانی مشاهده شد. مشخص شده است که استفاده از دو مجموعه داده با هم عملکرد را در مقایسه با استفاده های جداگانه IR و NDVI افزایش می دهد. هنگامی که استفاده سه گانه از مجموعه داده های nDSM، IR و NDVI را بررسی می کنیم، مدل ها به دقت مدل های RGB تک جریانی دست یافتند و این وضعیت باید با جزئیات بیشتری در کارهای آینده مورد توجه قرار گیرد. نکته دیگری که در نتیجه مطالعه مشخص شد، اهمیت فرآیندهای آموزشی را نشان می دهد. یادگیری انتقال، تنظیم دقیق، و انتخاب تابع از دست دادن، روش افزایش داده به عملکرد مدل کمک کرد. در حالی که روش Travesky به عنوان تابع ضرر برجسته است، مشاهده شده است که تصادفی سازی تغذیه داده ها یک تکنیک قابل توجه برای دستیابی به دقت بالاتر است.
از آنجایی که مدلهای تقسیمبندی معنایی تک جریانی نتایج موفقیتآمیزی را با ورودیهای RGB و ورودیهای nDSM + IR + NDVI ارائه میدهند، یک طراحی معماری دو جریانی نیز اجرا شده است. یکی از مهمترین دستاوردهای این مطالعه این است که مدل های یادگیری عمیق دو جریانی دقت بالاتری نسبت به مدل های تک جریانی ایجاد می کنند. در نتیجه، مشخص شد که محصولات فتوگرامتری مانند nDSM و NDVI بهدستآمده با استفاده از عکسهای هوایی چند طیفی چهار بانده باید در تقسیمبندی معنایی در کنار مجموعه دادههای RGB در نظر گرفته شوند. به منظور تعیین سطح مشارکت NDVI، عملکرد NDVI + GB و IR + RG را می توان با معماری های تک جریانی در آینده مقایسه کرد. همچنین، در جریان دوگانه، در حالی که RGB به عنوان ورودی اولین جریان داده می شود.
این مطالعه بر اساس DeepLabV3+ به عنوان یک معماری تقسیمبندی معنایی پیشگام است، با این حال، سایر معماریهای تقسیمبندی را نیز میتوان برای ارزیابی مجموعه دادههای تصویر چند طیفی در طبقهبندی پوشش زمین در نظر گرفت. علاوه بر این، ستون فقرات مختلفی که امکان یادگیری انتقال را فراهم میکنند ممکن است با معماری DeepLabV3+ سازگار شوند. تحلیلهایی که پنج کلاس کاربری زمین را در نظر میگیرند در این مطالعه ارزیابی شدند، با این حال، سهم باندهای چند طیفی و شاخصهای مختلف در طبقهبندی تنها بر اساس یک طبقه زمین مانند ساختمانها قابل بررسی است. از سوی دیگر، معماری تنها به عنوان تلفیقی دیرهنگام بین نهرها طراحی شده است. با این حال دقت بالاتری در مطالعات اجرای همجوشی اولیه مشاهده شده است. بنابراین همجوشی دیررس به عنوان محدودیت مدل های پیشنهادی ما در نظر گرفته می شود.
بدون دیدگاه