در کاربردهای زمین فضایی مانند برنامه ریزی شهری و مدیریت کاربری اراضی، تشخیص و طبقه بندی خودکار اجسام زمین از موضوعات ضروری و اولیه است. هنگامی که الگوریتم‌های تقسیم‌بندی معنایی قابل توجه در نظر گرفته می‌شوند، DeepLabV3+ به عنوان یک CNN پیشرفته برجسته می‌شود. اگرچه مدل DeepLabV3+ قادر به استخراج اطلاعات زمینه‌ای چند مقیاسی است، اما هنوز نیاز به رویکردهای معماری چند جریانی و رویکردهای آموزشی متفاوتی از مدل وجود دارد که بتواند از مجموعه داده‌های جغرافیایی چندوجهی استفاده کند. در این مطالعه، یک معماری جریان دوگانه سرتاسر جدید که تصاویر مکانی را در نظر می‌گیرد بر اساس معماری DeepLabV3+ توسعه داده شد. در نتیجه، مجموعه داده های طیفی به غیر از RGB افزایش در دقت تقسیم بندی معنایی زمانی که آنها به عنوان کانال های اضافی برای اطلاعات ارتفاع مورد استفاده قرار گرفتند، ارائه کردند. علاوه بر این، هم افزایش داده داده شده و هم تابع از دست دادن Tversky که به داده های نامتعادل حساس است، دقت کلی بهتری را به دست آوردند. همچنین، نشان داده شده است که معماری دو جریانی جدید با استفاده از مجموعه داده‌های پوتسدام و Vaihingen به ترتیب 88.87% و 87.39% دقت کلی تقسیم‌بندی معنایی را ایجاد می‌کند. در نهایت، مشاهده شد که بهبود شبکه‌های تقسیم‌بندی معنایی قابل توجه سنتی پتانسیل زیادی برای ارائه عملکردهای مدل بالاتر دارد، در حالی که سهم داده‌های مکانی به عنوان جریان دوم به RGB در تقسیم‌بندی به صراحت نشان داده شد. هم افزایش داده داده شده و هم تابع از دست دادن Tversky که به داده های نامتعادل حساس است، دقت کلی بهتری را به دست آوردند. همچنین، نشان داده شده است که معماری دو جریانی جدید با استفاده از مجموعه داده‌های پوتسدام و Vaihingen به ترتیب 88.87% و 87.39% دقت کلی تقسیم‌بندی معنایی را ایجاد می‌کند. در نهایت، مشاهده شد که بهبود شبکه‌های تقسیم‌بندی معنایی قابل توجه سنتی پتانسیل زیادی برای ارائه عملکردهای مدل بالاتر دارد، در حالی که سهم داده‌های مکانی به عنوان جریان دوم به RGB در تقسیم‌بندی به صراحت نشان داده شد. هم افزایش داده داده شده و هم تابع از دست دادن Tversky که به داده های نامتعادل حساس است، دقت کلی بهتری را به دست آوردند. همچنین، نشان داده شده است که معماری دو جریانی جدید با استفاده از مجموعه داده‌های پوتسدام و Vaihingen به ترتیب 88.87% و 87.39% دقت کلی تقسیم‌بندی معنایی را ایجاد می‌کند. در نهایت، مشاهده شد که بهبود شبکه‌های تقسیم‌بندی معنایی قابل توجه سنتی پتانسیل زیادی برای ارائه عملکردهای مدل بالاتر دارد، در حالی که سهم داده‌های مکانی به عنوان جریان دوم به RGB در تقسیم‌بندی به صراحت نشان داده شد. به ترتیب 39٪ دقت کلی تقسیم بندی معنایی. در نهایت، مشاهده شد که بهبود شبکه‌های تقسیم‌بندی معنایی قابل توجه سنتی پتانسیل زیادی برای ارائه عملکردهای مدل بالاتر دارد، در حالی که سهم داده‌های مکانی به عنوان جریان دوم به RGB در تقسیم‌بندی به صراحت نشان داده شد. به ترتیب 39٪ دقت کلی تقسیم بندی معنایی. در نهایت، مشاهده شد که بهبود شبکه‌های تقسیم‌بندی معنایی قابل توجه سنتی پتانسیل زیادی برای ارائه عملکردهای مدل بالاتر دارد، در حالی که سهم داده‌های مکانی به عنوان جریان دوم به RGB در تقسیم‌بندی به صراحت نشان داده شد.

کلید واژه ها:

یادگیری عمیق ؛ تقسیم بندی معنایی ; فتوگرامتری ؛ تصاویر هوایی چند طیفی ; مدل سطح دیجیتال ; شاخص پوشش گیاهی ; طبقه بندی پوشش زمین

1. مقدمه

تصاویر هوابرد یک نوع داده مهم در مطالعات رصد زمین (EO) از نظر توانایی آنها در حاوی اطلاعات ژئومورفولوژیکی دقیق با وضوح بالا و ویژگی های اکتساب سریع است. برای استخراج اطلاعات معنی دار از تصاویر، ویژگی های مختلف سطح زمین باید طبق حقیقت زمین طبقه بندی و برچسب گذاری شوند. این فرآیند که قطعه‌بندی معنایی نامیده می‌شود، به عنوان طبقه‌بندی پیکسل‌هایی با ویژگی‌های مشابه و اختصاص برچسب‌های کلاس مناسب تعریف می‌شود. تقسیم بندی معنایی دقیق تصاویر هوابرد در بسیاری از برنامه های کاربردی EO مانند نظارت بر محیط زیست و تشخیص تغییرات، کاربری زمین در مناطق شهری، خودکارسازی در به روز رسانی نقشه برای سیستم های اطلاعات جغرافیایی، نظارت سریع بر اثرات، و واکنش سریع در خطرات طبیعی و غیره از اهمیت بالایی برخوردار است. [1 ] به عنوان یک مطالعه نظارتی محیطی، یک معماری تقسیم‌بندی تصویر برای تصاویر حرارتی مادون قرمز وسایل نقلیه هوایی بدون سرنشین (UAV) با تمرکز بر تقسیم‌بندی وسایل نقلیه زمینی ایجاد کرد. از سوی دیگر، تقسیم بندی معنایی در تشخیص تغییر کاربری و پوشش زمین (LULC) سهم قابل توجهی در ادبیات RS می گیرد. Venugopal [ 2 ] یک تشخیص تغییر مبتنی بر تقسیم‌بندی معنایی خودکار را توضیح داد که یک تغییر نهایی بین دو تصویر ورودی داده شده ایجاد می‌کند، در حالی که [ 3 ] یک روش تقسیم‌بندی معنایی را با مرز طبقه‌بندی برای نگاشت LULC توصیف کرد. توزانی و گراندرسون [ 4]، که می تواند در محدوده کاربردهای GIS در نظر گرفته شود، بهبودهایی را در دقت موجود استخراج ردپای ساختمان خودکار از تصاویر RS با استفاده از یک مدل یادگیری عمیق ایجاد کرد. براگانلو و همکاران [ 5 ] که یکی از مطالعات خطرات طبیعی در مورد یادگیری عمیق است، یک پایگاه داده تصویری را با U-Net تشکیل و آموزش داد تا اسکارهای زمین لغزش را به روشی قابل اعتماد شناسایی کند.
برای دهه‌ها، روش‌های تقسیم‌بندی معنایی سنتی در جامعه سنجش از دور (RS) برای استخراج داده‌های معنایی استفاده شده‌اند. تکنیک‌هایی که به‌طور گسترده مورد استفاده قرار می‌گیرند، عمدتاً رویکردهای یادگیری ماشینی مبتنی بر ویژگی‌های دست ساز [ 6 ] هستند، مانند برآورد حداکثر احتمال (MLE)، ماشین‌های بردار پشتیبانی (SVM)، جنگل‌های تصادفی (RFs)، و شبکه‌های عصبی مصنوعی (ANN). Cortes و Vapnik [ 7 ] روش طبقه‌بندی داده‌های SVM را توصیف کردند که قادر است بردارهای ورودی را در فضاهای ویژگی با ابعاد بالا به صورت غیر خطی ترسیم کند. دو آزمایش طبقه‌بندی پوشش زمین برای مناطق آزمایش نشان داد که SVMها به سطح دقت بالاتری نسبت به طبقه‌بندی کننده MLE یا ANN برای داده‌های با ابعاد بالا دست می‌یابند [ 8 ]]. RFها به عنوان پرکاربردترین روش طبقه‌بندی در یادگیری ماشینی، پیش‌بینی‌کننده‌های درختی را اعمال می‌کنند و یک پیش‌بینی کلاس بر اساس رای‌ها تولید می‌کنند [ 9 ]. علاوه بر این، ماس و فلورس [ 10 ] روش طبقه‌بندی شبکه‌های عصبی مصنوعی را که می‌توان به عنوان مبنای یادگیری عمیق بیان کرد، مورد بحث قرار دادند و سپس پیاده‌سازی‌های شبکه‌های عصبی مصنوعی را در برخی از بسته‌های نرم‌افزاری پردازش تصویر مقایسه کردند.
تقسیم بندی معنایی به عنوان یک زمینه تحقیقاتی گسترده در بینایی رایانه نه تنها در سنجش از دور بلکه در بسیاری از برنامه های کاربردی دیگر مانند تصویربرداری پزشکی و بیولوژیکی، خدمات خرده فروشی، رانندگی مستقل و تشخیص چهره استفاده می شود. موئن و همکاران [ 11 ] تصاویر فلورسنت و آسیب شناسی مشروح موجود را برای تکنیک های تقسیم بندی تک سلولی ذکر کرد و پیشرفت قابل توجهی را در تطبیق تقسیم بندی معنایی با تصاویر بیولوژیکی و پزشکی نشان داد. علاوه بر این، صنعت خرده‌فروشی که بخشی از اقتصاد است، برای فروش محصولات خود به بخش‌بندی معنایی عملیاتی نیاز دارد. حمید و همکاران [ 12 ] یک بهبود لبه ماسک مبتنی بر امتیاز Mask-RCNN برای تقسیم‌بندی تصاویر میوه و سبزیجات در یک محیط سوپرمارکت انجام داد. وی و همکاران [13 ] مجموعه داده ای را پیشنهاد کرد که منعکس کننده مقیاس بزرگ و ماهیت ریزدانه دسته های محصول برای سناریوی پرداخت واقعی است. در رانندگی خودران، حامیان و همکاران. [ 14 ] روش‌های تقسیم‌بندی کلاسیک را با یادگیری عمیق ترکیب کرد تا دقت تقسیم‌بندی را در مقایسه با مدل بدون پس‌پردازش بهبود بخشد. مولر و همکاران [ 15 ] یک پایگاه داده آموزشی و حاشیه نویسی ماسک تقسیم بندی چند کلاسه برای شرکت کنندگان مختلف و حالت های مختلف صورت و سر با تصاویر مادون قرمز ایجاد کرد. سپس، نویسندگان یک معماری شبکه عصبی عمیق را با پایگاه داده آموزشی به منظور شناسایی و تجزیه و تحلیل دمای چهره در زمینه همه‌گیری COVID-19 توسعه دادند.
تقسیم بندی معنایی تصاویر با طبقه بندی تصویر کمی متفاوت است زیرا اطلاعات قبلی در مورد مفاهیم یا اشیاء بصری ضروری نیست. تکنیک‌های طبقه‌بندی تصویر اساساً نیاز به طبقه‌بندی تعاریف شی و ایجاد کلاس‌هایی از برچسب‌های از پیش تعریف‌شده دارند، در حالی که تقسیم‌بندی معنایی تمام ویژگی‌های درون تصویر را طبقه‌بندی می‌کند. یک الگوریتم تقسیم‌بندی تصویر ایده‌آل، اشیاء ناشناخته، یعنی اشیاء جدید یا ناشناخته را نیز بخش‌بندی می‌کند [ 16 ]]. تصاویر موجود در هوا شامل اشیاء عموماً همگن هستند و این امر تعیین موفقیت آمیز با تقسیم بندی را امکان پذیر می کند. در نتیجه تقسیم بندی موفق تصویر، تعداد عناصر به عنوان مبنای طبقه بندی تصویر زیر به شدت کاهش می یابد. کیفیت طبقه بندی مستقیماً تحت تأثیر کیفیت تقسیم بندی است [ 17 ، 18 ]. در دهه گذشته، روش های یادگیری عمیق به ویژه در زمینه بینایی کامپیوتر موفقیت زیادی را به اثبات رسانده اند و به ابزار استاندارد بسیاری از کاربردها مانند تشخیص اشیا، هوش مصنوعی، تشخیص صحنه برای اتوماسیون و غیره تبدیل شده اند. یکی از نوآوری های کلیدی در این روش ها می باشد. که آنها به جای نیاز به استخراج ویژگی ها از تصاویر، مستقیماً از تصاویر خام عمل می کنند [ 19 ].
دستاورد بزرگ در حوزه بینایی کامپیوتر و همچنین انعطاف پذیری برای انطباق با هر عملیات مرتبط با تصویر، یادگیری عمیق، جامعه RS را برای مطالعات تقسیم بندی تصویر در سال های اخیر جذب کرده است. بسیاری از رویکردهای مختلف شبکه عصبی پیچیده عمیق (DCNN) در مطالعات برای بخش‌بندی معنایی تصاویر RS به کار گرفته شده‌اند. شررا [ 20] اولین مطالعه ای است که شبکه های کاملاً پیچیده (FCN) را برای تقسیم بندی معنایی تصاویر هوابرد پیشنهاد می کند. در این مطالعه، یک استراتژی بدون کاهش نمونه به منظور حفظ وضوح اصلی تصویر ورودی با جایگزینی لایه‌های نمونه‌برداری پایین FCN با پیچش‌های گشاد شده پیشنهاد شده‌است. همچنین، در این مطالعه، یک مدل ترکیبی دو جریانی به منظور ترکیب داده‌های RGB و DSM استفاده شده است، اما نویسندگان بیان می‌کنند که هیچ سهمی از DSM را مشاهده نکرده‌اند. وانگ و همکاران [ 21] مقاله ای است که بهترین نتایج را در مسابقه تقسیم بندی معنایی ISPRS از نظر دقت کلی و امتیازات F1 ارائه می دهد. در این مطالعه، یک استراتژی چند اتصال به منظور ترکیب چندین ویژگی از لایه‌های مختلف FCN استفاده شده است. همچنین، این مدل از یک مدل به اصطلاح توجه ویژه کلاس استفاده می کند که ویژگی های چند مقیاسی را در فضای مقیاس ترکیب می کند. تصاویر مقیاس‌بندی‌شده مختلف به‌طور همزمان در مدل پردازش می‌شوند تا یک نقشه وزن مخصوص کلاس تولید شود و سپس مجموع وزنی نقشه‌های امتیاز برای طبقه‌بندی بیشتر استفاده می‌شود. این مطالعه همچنین شامل مقایسه معماری پیشنهادی با دیگر شبکه‌های پیشرفته است. سان و همکاران [ 22] به دو مشکل و راه حل استفاده از رمزگذار-رمزگشا از نوع DCNN برای تصاویر سنجش از راه دور می پردازد و در مسابقه آنلاین ISPRS در دقت کلی به عملکرد خوبی می رسد. اولین مشکلی که در این مطالعه تعریف شده است، کلیشه ساختاری است که باعث زوال لبه در وصله های تصویر به دلیل عملیات padding و pooling می شود. این مطالعه یک استراتژی آموزشی نمونه‌گیری تصادفی و استراتژی استنتاج مجموعه‌ای را به عنوان راه‌حل پیشنهاد می‌کند. دشواری آموزش شبکه های عمیق که نتیجه شیب ناپدید شونده است به عنوان مشکل دوم بیان شده و یک توپولوژی باقیمانده جدید برای حل ارائه شده است. در [ 10] یک معماری متوالی خودآبشاری که بر اساس شبکه توسط گروه هندسه بصری (VGG) است، برای تقسیم بندی معنایی تصاویر هوابرد استفاده شده است. DCNN پیشنهادی یک رویکرد زمینه جهانی به محلی است و توانایی مدیریت اشیای گیج کننده ساخته دست بشر را اثبات می کند. مارکو و لئوردئانو [ 23 ] یک معماری جریان دوگانه دارند که هدف آن به دست آوردن اطلاعات چند متنی با استفاده از اندازه های مختلف پچ است که زمینه جهانی و زمینه محلی را در هر جریان در نظر می گیرد و اطلاعات به دست آمده را در مراحل بعدی ترکیب می کند. مطالعه مذکور از VGG-Net و AlexNet تعدیل شده به ترتیب برای زمینه های محلی و جهانی استفاده می کند. پیرامانایگام و همکاران [ 24] یک DCNN دو جریانی است که ترکیبی از FCN و SegNet با استفاده از مجموعه داده های RGB و nDSM + IR + NDVI برای هر جریان است. تمرکز اصلی این مطالعه ارائه یک مرحله همجوشی بهینه از ویژگی ها است. مارمانیس و همکاران [ 25 ] همچنین از معماری دو جریانی به جای معماری های کلاسیک با گنجاندن داده های ارتفاع به عنوان دومین داده ورودی در آموزش استفاده می کند. هدف مطالعه پیشنهادی به حداقل رساندن عیوب لبه‌های ناشی از تقسیم‌بندی معنایی با استفاده از تشخیص لبه تو در تو (HED) [ 26 ] و معماری SegNet برای تصاویر سنجش از راه دور در یک شبکه یکپارچه برای مجموعه‌های داده طیفی، DSM و nDSM است. یک رویکرد چند مقیاسی دو و همکاران [ 27 ] از یک DeepLabV3+ استفاده می کند [ 28] مدل یادگیری عمیق و طبقه بندی تصویر تجزیه و تحلیل تصویر مبتنی بر شی (OBIA) برای اهداف تقسیم بندی معنایی تصاویر هوایی. در مدل ترکیبی، در مرحله اول با استفاده از مدل DeepLabV3+، تصویر هوایی را آموزش می‌دهند و پیش‌بینی می‌کنند. مرحله دوم از یک طبقه‌بندی میدانی تصادفی با ویژگی‌های دست‌ساز به تصویر پیوسته که از تصویر هوایی و nDSM تشکیل شده است، استفاده می‌کند. پس از آن، نتایج توسط نظریه Dempster-Shafer ادغام می‌شوند و در نهایت، یک بهینه‌سازی میدان تصادفی شرطی مرتبه بالاتر با محدودیت شی به منظور اصلاح طبقه‌بندی اعمال می‌شود. اودبرت و همکاران [ 29] یک شبکه چند جریانی و چند مقیاسی مبتنی بر معماری‌های SegNet و ResNet را توصیف می‌کند که نقشه‌های معنایی را با وضوح‌های چندگانه استخراج می‌کند. نویسندگان به این نتیجه رسیدند که همجوشی دیر هنگام ترکیب چند طبقه‌بندی‌کننده قوی مناسب‌تر است، در حالی که رویکرد فیوژن اولیه برای FuseNet مناسب‌تر است. همچنین، آنها سهم nDSM را برای شناسایی اشیا مانند اتومبیل ها و ساختمان ها ارزیابی می کنند، در حالی که استراتژی های همجوشی اولیه و دیررس را آزمایش می کنند. سونگ و کیم [ 30] یک شبکه یادگیری عمیق ترکیبی است که هدف آن استفاده از مجموعه داده های تصویر طبیعی در مقیاس بزرگ با ویژگی های مختلف به منظور افزایش دقت تقسیم بندی تصاویر RS است. مطالعه پیشنهادی از مجموعه داده‌های چند وجهی به صورت موازی با به اشتراک گذاشتن سه بلوک رمزگذار استفاده می‌کند. اگرچه این مدل عملکرد خوبی دارد و نتایج امیدوارکننده ای به دست می آورد، اما از زمان پردازش رنج می برد. نویسندگان همچنین بیان می‌کنند که عملکرد مدل به تعداد داده‌ها و وزن‌های کمکی بستگی دارد. کمبود دیگر مدل عدم استفاده از داده های چند حسگر (NIR، DSM) با هم است که ممکن است به طور موثر دقت را افزایش دهد. در [ 31 و 32 ]، به بررسی دقیق‌تر روش‌های یادگیری عمیق در تقسیم‌بندی معنایی داده‌های مکانی پرداخته شده است.
بسیاری از معماری‌های سنتی CNN مانند FastFCN، Gated-SCNN، DeepLab، Mask R-CNN [ 33 ، 34 ، 35 ، 36 ] بر تقسیم‌بندی معنایی تصاویر RGB معمولی که دارای محتویات جامع زندگی روزمره هستند، تمرکز دارند. همچنین، معماری‌های سنتی CNN در ابتدا برای داده‌های چندوجهی مانند تصاویر قائم‌بند چند طیفی، شاخص‌های طیفی و مدل‌های زمین دیجیتال سه‌بعدی در برنامه‌های EO در نظر گرفته نمی‌شوند. بنابراین، تقسیم‌بندی معنایی داده‌های سنجش از دور نیاز به معماری‌های بهینه‌سازی شده دارد تا اشیاء مکانی را دقیقاً استخراج کند. وقتی الگوریتم‌های تقسیم‌بندی معنایی قابل توجه [ 37 ] که پتانسیل تخصص در داده‌های مکانی را دارند در نظر گرفته می‌شوند، DeepLabV3+ [28 ] به عنوان یک CNN پیشرفته برجسته است که قادر است با افزودن یک ماژول رمزگشا به DeepLabV3 مرزهای اشیاء واضح تری را بدست آورد [ 38 ].]. علاوه بر این، DeepLabV3+ قادر به حفظ اطلاعات متنی غنی از بخش رمزگذار است. اگرچه مدل DeepLabV3+ در سال‌های اخیر موفقیت زیادی در تقسیم‌بندی معنایی به دست آورده است، اما هنوز نیاز به رویکردهای معماری چند جریانی مدل وجود دارد که بتواند مجموعه داده‌های جغرافیایی چندوجهی را اعمال کند. علاوه بر سفارشی‌سازی معماری، تأثیر رویکردهای آموزشی مختلف بر عملکرد بخش‌بندی معنایی نیز باید مورد بررسی قرار گیرد. یکی از مشکلات اصلی در نظر گرفتن طبقه‌بندی داده‌های مکانی می‌تواند به‌عنوان فقدان معیار سنجش از دور با وضوح بالا و عدم قطعیت در کیفیت مجموعه داده‌های موجود مانند اثرات سایه‌ها، اعوجاج‌های ارتوفتو و خطاهای حقیقت زمین بیان شود.22 ]. علاوه بر این، دو موضوع به ویژه در مدیریت داده های مکانی برجسته است. اولی تعیین فاز همجوشی بهینه و دیگری استفاده از داده های متغیر مقیاس است. رویکردهای ذکر شده در اینجا باید برای ایجاد تعادل بین دقت و بار محاسباتی در نظر گرفته شوند.
در این مطالعه، سهم داده‌های مکانی چندوجهی مانند RGB، IR و DSM در دقت طبقه‌بندی با مقایسه آنها در معماری‌های تک جریانی مورد بحث قرار گرفت. علاوه بر این، بهبود توابع مختلف افزایش و از دست دادن داده ها در دقت طبقه بندی پوشش زمین مورد بررسی قرار گرفت. علاوه بر این، یک معماری جریان دوگانه سرتاسر جدید که تصاویر مکانی را در نظر می گیرد بر اساس معماری DeepLabV3+ توسعه داده شد. معماری پیشنهادی می‌تواند از اطلاعات زمینه‌ای چند مقیاسی با ادغام هرم فضایی آتروس استفاده کند، از دو داده چند کانالی گسسته به طور همزمان در جریان‌های مختلف بهره‌برداری کند و یک لایه همجوشی دیررس را با ترکیب ویژگی‌های سطح بالا ارائه دهد. در نتیجه، نشان داده شده است که معماری جریان دوگانه جدید که می تواند مجموعه داده های مکانی غنی را پردازش کند، عملکرد تقسیم بندی معنایی را با دقت کلی 88.87 درصد بهبود می بخشد. این عملکرد به‌دست‌آمده نشان می‌دهد که معماری پیشنهادی نتایج رقابتی را با توجه به سایر مدل‌های هنر ارائه می‌دهد. در نهایت، مشاهده شد که افزایش جریان چندگانه شبکه‌های تقسیم‌بندی معنایی قابل توجه، پتانسیل زیادی برای ارائه عملکردهای مدل بالاتر برای مجموعه داده‌های جغرافیایی چندوجهی دارد. در حالی که سهم داده های مکانی به عنوان جریان دوم به RGB در بخش بندی به صراحت نشان داده شد. این عملکرد به‌دست‌آمده نشان می‌دهد که معماری پیشنهادی نتایج رقابتی را با توجه به سایر مدل‌های هنر ارائه می‌دهد. در نهایت، مشاهده شد که افزایش جریان چندگانه شبکه‌های تقسیم‌بندی معنایی قابل توجه، پتانسیل زیادی برای ارائه عملکردهای مدل بالاتر برای مجموعه داده‌های جغرافیایی چندوجهی دارد. در حالی که سهم داده های مکانی به عنوان جریان دوم به RGB در بخش بندی به صراحت نشان داده شد. این عملکرد به‌دست‌آمده نشان می‌دهد که معماری پیشنهادی نتایج رقابتی را با توجه به سایر مدل‌های هنر ارائه می‌دهد. در نهایت، مشاهده شد که افزایش جریان چندگانه شبکه‌های تقسیم‌بندی معنایی قابل توجه، پتانسیل زیادی برای ارائه عملکردهای مدل بالاتر برای مجموعه داده‌های جغرافیایی چندوجهی دارد. در حالی که سهم داده های مکانی به عنوان جریان دوم به RGB در بخش بندی به صراحت نشان داده شد.
مقاله بصورت زیر مرتب شده است. بخش 2 به ترتیب تکنیک‌های تقویت داده‌های کاربردی، ساختار شبکه دو جریانی DeepLabV3+ و رویکردهای آموزشی استفاده شده را توضیح می‌دهد. بخش نتایج دقت تقسیم بندی آزمایش ها را با استفاده از مجموعه داده پوتسدام ارائه می دهد و همچنین اعتبار سنجی را با مجموعه داده Vaihingen ارسال می کند. بخش 4 به عنوان بحث، یافته ها و پیامدهای آنها را با مطالعات قبلی مقایسه می کند. سپس مقاله با بخش نتیجه گیری به پایان می رسد.

2. روش ها

مجموعه داده دسترسی باز ISPRS Potsdam [ 39 ]، که برای اندازه‌گیری عملکرد بسیاری از الگوریتم‌های تقسیم‌بندی معنایی توسعه‌یافته استفاده شده است، در ابتدا به‌عنوان مجموعه داده به دلیل عرضه داده‌های جغرافیایی مختلف آن ترجیح داده شد. در طول فرآیند آماده‌سازی داده‌های آموزشی، دو تکنیک افزایش داده‌ها بر اساس دستکاری‌های اولیه تصویر [ 40] برای بزرگ‌تر کردن اندازه و بهبود تنوع مجموعه داده‌ها استفاده شد. برای الگوریتم مدل پیشنهادی به کمک داده‌های مکانی، DeepLabV3+ در نظر گرفته می‌شود زیرا یک شبکه نسل جدید است که عملکرد بخش‌بندی معنایی بالایی را ارائه می‌دهد. معماری تک جریانی موجود DeepLabV3+ به دو جریان برای داده‌های مکانی و همچنین مجموعه داده‌های RGB تغییر یافته است. در نتیجه معماری پیشنهادی، مدل هایی با رویکردهای آموزشی متفاوت تولید و عملکرد آنها اندازه گیری شد. در نهایت، این روش همچنین با مجموعه داده Vaihingen به منظور اعتبارسنجی عملکردها آموزش داده شد [ 41 ].

2.1. افزایش داده ها

مجموعه داده های ISPRS Potsdam تصاویر باند IR و DSM/nDSM و همچنین عکس ارتوعکس واقعی RGB را با فاصله نمونه برداری از زمین 5 سانتی متر ارائه می دهد. مجموعه داده شامل 38 تکه با اندازه 6000 × 6000 پیکسل و داده‌های مربوط به حقیقت زمینی است که شامل سطوح غیرقابل نفوذ (سفید)، ساختمان‌ها (آبی)، پوشش گیاهی کم (فیروزه‌ای)، درختان (سبز)، ماشین‌ها (زرد) و بهم ریختگی (قرمز) است. ) کلاس ها. دو تکنیک مختلف افزایش داده (DA) به منظور تولید مجموعه داده ورودی به دست آمده است. متد First DA که در مقاله DA-I نامیده می شود، قبل از آموزش مدل در محیط GNU Octave پیاده سازی شده است. هر تصویر 6000 × 6000 به صورت متوالی تقسیم می شود تا تصاویر فرعی 800 × 800 با همپوشانی 150 پیکسل برای جلوگیری از گم شدن داده ها در لبه های تصاویر برش خورده تشکیل شود. برای هر پچ؛ چرخش (غیر و چرخش)، چرخش (غیر، 90 درجه، 180 درجه، و 270 درجه) در تمام ترکیبات اعمال شد. علاوه بر این، عملیات کنتراست (غیر، %50- و +%50) برای تصاویر RGB و IR با در نظر گرفتن تأثیر تفاوت‌های انعکاس با توجه به زوایای مختلف دریافت تصویر و سایه‌ها اعمال شد. در نتیجه، 24 تصویر تقویت‌شده برای هر تکه‌های RGB و IR برش‌خورده، و 8 تصویر تقویت‌شده برای هر تکه‌های nDSM، NDVI و برچسب برش‌شده تولید شد. در مطالعه قبلی، [42 ] که نمونه ای از عملیات تقویت را برای یک تصویر 800 × 800 RGB توضیح داد، نتایج را با جزئیات گرافیکی به تصویر کشید. برای DA-II، اندازه پچ کوچکتر و همچنین عملیات تصویر تصادفی برای اندازه دسته بالاتر و آموزش سریعتر اعمال شد. به منظور تولید یک تصویر ورودی، یک تصویر فرعی 600 × 600 به طور تصادفی برش داده می شود و چرخش (غیر یا برگردان) و چرخش (غیر، 90 درجه، 180 درجه، 270 درجه) اعمال شد. علاوه بر این، مقادیر روشنایی، کنتراست، رنگ و اشباع به ترتیب بین 0.05- و 0.05، بین 0.7 و 1.3، بین 0.08- و 0.08، و بین 0.6 و 1.6 به طور تصادفی تغییر کردند ( شکل 1).). هدف اصلی DA-II استفاده از ورودی های تصادفی تر برای فرآیند یادگیری شبکه است. رویکردهای افزایش و تعداد کل تصاویر فرعی در جدول 1 خلاصه شده است. دو وصله 2_10 و 5_12 از مجموعه داده پوتسدام که منعکس کننده توزیع کلاسی مجموعه داده کامل است به عنوان زیر مجموعه داده برای ارزیابی سهم استفاده ترکیبی از داده های nDSM، IR و NDVI در یک زمان معقول انتخاب شدند ( شکل 2 ). توزیع طبقاتی مجموعه کامل و زیر مجموعه داده در جدول 2 آورده شده است. در حالی که پچ 5_12 محتوای ساختمانی بیشتری را ارائه می دهد، پچ 2_10 شامل ترکیب پوشش گیاهی فشرده است. وصله های 2_10 و 5_12 با هم، به جای یک وصله واحد، برای ایجاد تعادل بیشتر بین توزیع های کلاس در زیر مجموعه داده ها استفاده شدند. بنابراین، زیر مجموعه داده اساساً برای انجام یک پیش ارزیابی سریع آزمایش‌های مختلف ساخته شد. برای مدل‌های جریان دوگانه، داده‌های RGB ورودی جریان اول است و بقیه برای جریان دوم با گزینه‌های مختلف برای تجزیه و تحلیل سهم آنها در عملکرد مدل.
مجموعه داده ISPRS Vaihingen به عنوان یک مجموعه داده اعتبار سنجی دوم استفاده شد زیرا داده های لازم را برای الگوریتم پیشنهادی فراهم می کند و دارای کلاس های مشابه است. اگرچه برخی تفاوت‌ها در ویژگی‌ها وجود دارد، اما این مجموعه داده دسترسی باز دیگری است که در بسیاری از مطالعات مانند مجموعه داده ISPRS Potsdam استفاده شده است. تفاوت های اصلی عبارتند از؛ عکس‌های ارتو واقعی مجموعه داده ترکیبی از IRRG به جای RGB دارند، فاصله نمونه‌برداری از زمین هر دو orthophoto واقعی و DSM 9 سانتی‌متر است و مجموعه داده دارای 33 تکه با ابعاد مختلف است [ 41 ]. علاوه بر این، مجموعه داده فقط DSM را ارائه می دهد، بنابراین وصله های nDSM تولید شده توسط [ 43 ] در این مطالعه استفاده شد.

2.2. Dual-Stream DeepLabV3+

DeepLabV3+ که دارای مراحل رمزگذاری و رمزگشایی است، یک مدل یادگیری عمیق پیشرفته برای تقسیم بندی تصویر معنایی است [ 28 ، 35 ]. مرحله رمزگذاری اطلاعات اولیه را از تصویر با استفاده از CNN استخراج می کند در حالی که مرحله رمزگشایی خروجی ها را بر اساس اطلاعات به دست آمده از مرحله رمزگذار بازسازی می کند. رمزگشا تصاویر رمزگذاری شده با وضوح پایین را به اندازه تصویر اصلی مجدداً نمونه برداری می کند تا نتایج تقسیم بندی بهتری را در سراسر مرزهای شیء ایجاد کند. DeepLabV3+ از ستون فقرات شبکه زیر پشتیبانی می کند: MobileNetv2، Xception، ResNet، PNASNet، Auto-DeepLab. مک نیلی وایت و همکاران [ 44] نشان داد که اثرات دقت جزئی در مورد استفاده از ستون فقرات مختلف مورد انتظار است. در این راستا، یک مطالعه تحقیقاتی خاص باید برای ارزیابی ستون فقرات در نظر گرفته شود. در این مطالعه، ستون فقرات شبکه Xception برای آموزش مدل DeepLabV3+ انتخاب شد، زیرا نویسندگان DeepLabV3+ خاطرنشان کردند که نسخه اصلاح شده Xception به عنوان ستون فقرات، دقت ImageNet بهتری را وعده می‌دهد.
اکثر مدل‌های رایج یادگیری ماشین برای تقسیم‌بندی معنایی با تصاویر با کانال‌های RGB آموزش داده می‌شوند. [ 45 ] برخی از مجموعه داده‌های تقسیم‌بندی معنایی محبوب را که برای وظایف مختلف در بینایی رایانه‌ای مانند سنجش از راه دور، رانندگی مستقل، و برنامه‌های کاربردی داخلی توسعه داده شده‌اند، فهرست کرده است. با این حال، مطالعات تقسیم‌بندی معنایی در LULC به طور خاص نیاز به استفاده از معیارهایی از جمله کلاس‌های پوشش اصلی زمین، تصاویر چند طیفی با وضوح بالا و ارتفاع زمین دارد. SkyScape برای 31 مقوله معنایی مانند ساختمان ها، جاده ها و پوشش گیاهی حاشیه نویسی ارائه کرد تا وظایف تقسیم بندی معنایی را انجام دهد [ 46 ]]. با این حال، تصاویر هوایی مجموعه داده شامل هیچ باند خارج از محدوده قابل مشاهده نیست، اگرچه برچسب‌ها دسته‌بندی‌های کلاس کاربری معنایی غنی را نشان می‌دهند. همچنین Boguszewski و همکاران. [ 47] مجموعه داده پوشش زمین مشروح شده را با چهار شی کلاس به عنوان ساختمان ها، جنگل ها، آب و جاده ها با استفاده از تصاویر هوایی RGB معرفی کرد. بنابراین، به جز مجموعه داده های تصاویر ماهواره ای با وضوح فضایی متوسط، مجموعه داده پوتسدام به دلیل محتوای جغرافیایی آن برجسته است. در مورد ما، مجموعه داده پوتسدام در مقایسه با معیارهای تصویر RGB معمولی مانند SkyScapes و ImageNet، داده‌های باند مادون قرمز و ارتفاع را نیز فراهم می‌کند. یک فرآیند آموزشی با داده های اضافی ذکر شده پتانسیل قابل توجهی برای بهبود عملکرد تقسیم بندی معنایی دارد. همچنین داده های تولید شده مانند NDVI می تواند برای کمک به بهبود دقت مدل آموزنده باشد. با این حال، دست زدن به انواع داده های مختلف در کنار تصاویر RGB معمولی سه باند بسیار مهم است زیرا به برخی رویکردهای خاص در یادگیری عمیق نیاز دارد. مشکل اصلی با داده‌های اضافی که یک پشته تصویر با بیش از سه کانال را می‌سازد، نمی‌تواند مستقیماً به معماری‌های بخش‌بندی معنایی پیشرفته تغذیه شود. اولین راه حلی که مانع را برطرف می کند، استفاده از داده های اضافی با تصویر RGB به عنوان یک مجموعه داده ترکیبی و آموزش مدل های تعریف شده با این داده ها است. با این وجود، اندازه دسته‌های بالاتر به دلیل افزایش ابعاد ورودی، ناگزیر از فرآیند محاسبات رنج می‌برند. همچنین، یادگیری انتقال به دلیل ابعاد ورودی ناسازگار قابل استفاده نیست. به همین دلایل، در این مطالعه، تصاویر RGB و nDSM + IR + NDVI مجموعه داده‌های جداگانه‌ای در طول فرآیند آموزش در دو مدل مستقل در نظر گرفته شدند. سپس خروجی های این دو مدل با هم ترکیب می شوند تا نقشه معنایی نهایی به دست آید. اولین راه حلی که مانع را برطرف می کند، استفاده از داده های اضافی با تصویر RGB به عنوان یک مجموعه داده ترکیبی و آموزش مدل های تعریف شده با این داده ها است. با این وجود، اندازه دسته‌های بالاتر به دلیل افزایش ابعاد ورودی، ناگزیر از فرآیند محاسبات رنج می‌برند. همچنین، یادگیری انتقال به دلیل ابعاد ورودی ناسازگار قابل استفاده نیست. به همین دلایل، در این مطالعه، تصاویر RGB و nDSM + IR + NDVI مجموعه داده‌های جداگانه‌ای در طول فرآیند آموزش در دو مدل مستقل در نظر گرفته شدند. سپس خروجی های این دو مدل با هم ترکیب می شوند تا نقشه معنایی نهایی به دست آید. اولین راه حلی که مانع را برطرف می کند، استفاده از داده های اضافی با تصویر RGB به عنوان یک مجموعه داده ترکیبی و آموزش مدل های تعریف شده با این داده ها است. با این وجود، اندازه دسته‌های بالاتر به دلیل افزایش ابعاد ورودی، ناگزیر از فرآیند محاسبات رنج می‌برند. همچنین، یادگیری انتقال به دلیل ابعاد ورودی ناسازگار قابل استفاده نیست. به همین دلایل، در این مطالعه، تصاویر RGB و nDSM + IR + NDVI مجموعه داده‌های جداگانه‌ای در طول فرآیند آموزش در دو مدل مستقل در نظر گرفته شدند. سپس خروجی های این دو مدل با هم ترکیب می شوند تا نقشه معنایی نهایی به دست آید. یادگیری انتقالی به دلیل ابعاد ورودی ناسازگار قابل استفاده نیست. به همین دلایل، در این مطالعه، تصاویر RGB و nDSM + IR + NDVI مجموعه داده‌های جداگانه‌ای در طول فرآیند آموزش در دو مدل مستقل در نظر گرفته شدند. سپس خروجی های این دو مدل با هم ترکیب می شوند تا نقشه معنایی نهایی به دست آید. یادگیری انتقالی به دلیل ابعاد ورودی ناسازگار قابل استفاده نیست. به همین دلایل، در این مطالعه، تصاویر RGB و nDSM + IR + NDVI مجموعه داده‌های جداگانه‌ای در طول فرآیند آموزش در دو مدل مستقل در نظر گرفته شدند. سپس خروجی های این دو مدل با هم ترکیب می شوند تا نقشه معنایی نهایی به دست آید.شکل 3 جریان دوگانه DeepLabV3+ را نشان می دهد که برای مقابله با تمام مجموعه داده های مکانی ورودی طراحی شده است.
DeepLabV3+ مبتنی بر Xception دو جریان دو جریان موازی را به عنوان رمزگذار در نظر گرفت تا از مجموعه داده های RGB و nDSM + IR + NDVI با هم بهره برداری کند. Atrous Spatial Pyramid Pooling (ASPP) که در معماری استفاده می شود، قادر به رمزگذاری اطلاعات زمینه ای چند مقیاسی است. با این حال، تفاوت‌های اصلی ساختار جریان دوگانه با DeepLabV3+ اصلی در مرحله رمزگشا رخ می‌دهد. ابتدا، رمزگشای مدل پیشنهادی کانولوشن های 1×1 را برای ویژگی های استخراج شده از هر دو جریان به کار می گیرد و سپس نمونه برداری دوخطی را با ضریب 4 اعمال می کند. مهار شده است. پس از آن، رمزگشا ویژگی های دو جریان را به هم متصل کرد،

2.3. رویکردهای آموزشی

در یادگیری عمیق، استراتژی های آموزشی به طور قابل ملاحظه ای بر عملکرد تقسیم بندی و طبقه بندی شبکه ها تأثیر می گذارد. به طور خاص، چهار عامل مرحله آموزش باید با ظرافت در نظر گرفته شود تا نتایج کارآمدتری به دست آید. در این پژوهش، تأثیر اجرای آموزش های مختلف نیز برای تعیین مدل های دقیق تر مورد بررسی قرار گرفت. اولین ویژگی آموزشی، حل یک تابع ضرر مناسب به منظور اندازه گیری هزینه بین ارزش برآورد شده و ارزش واقعی است. از دست دادن متقابل آنتروپی طبقه‌ای که به فعال‌سازی softmax نیاز دارد، یک تابع پرکاربرد برای مسائل طبقه‌بندی چند کلاسه است که در تقسیم‌بندی معنایی پیاده‌سازی می‌شود. با این حال، توزیع نابرابر کلاس ها در مجموعه داده آموزشی همانطور که در جدول 2 مشاهده می شودعملکردهای تابع آنتروپی متقابل طبقه‌ای را تحمل می‌کند. اشکال دیگر تابع عدم کارایی در امتیاز F1 است. به این دلایل، عملکرد تلفات کانونی Tversky ( FTL ) برای مراحل آموزش مدل نهایی آزمایش می شود. FTL یک تابع از دست دادن کانونی تعمیم یافته بر اساس شاخص Tversky ( TI ) [ 48 ] است. TI ، که به عنوان معادله ( 1 ) دیده می شود، یک اندازه گیری شباهت نامتقارن است که با معیارهای مثبت واقعی ( TP )، منفی کاذب ( FN )، و مثبت کاذب ( FP ) محاسبه می شود. و ضرایبی هستند که به ترتیب FN و FP را کنترل می کنند . در حالی که ، مجموع و انتظار می رود که 1 در TI به عنوان تعمیم ضریب سورنسن-دایس و شاخص جاکارد [ 49 ] باشد. مشروط بر اینکه هر مقدار از بزرگتر است از ، مجموعه داده های تقسیم بندی تصویر نامتعادل را می توان به طور مؤثرتری مدیریت کرد. از سوی دیگر، پارامتری که رفتار تابع FTL را در معادله ( 2 ) تعیین می کند در محدوده [1، 3] متفاوت است. اگر چه اثر از آبراهام و خان ​​[ 48 ] در آزمایشات خود اظهار داشتند که بهترین عملکرد با استفاده از TI مشاهده شد. . پس از آن، مقادیر پارامتر به عنوان تنظیم شد ، و .

یادگیری انتقال، که یک روش یادگیری ماشینی برای استفاده مجدد از مدلی است که برای یک کار به کار دیگر توسعه یافته است، دومین عامل آموزشی در نظر گرفته می شود. یادگیری انتقال به طور قابل توجهی عملکرد شبکه را بهبود می بخشد و زمان یادگیری را کاهش می دهد. با این حال، یادگیری انتقال ممکن است قابل اجرا نباشد زیرا ساختار مدل های منبع مناسب نیست. بنابراین، وضعیت یادگیری انتقالی نیز به عنوان روشی شاخص در آموزش الگو در نظر گرفته شد. در این مطالعه، یادگیری انتقال با استفاده از وزن های مدل اصلی DeepLabV3+ آموزش داده شده با مجموعه داده پاسکال VOC و ستون فقرات Xception انجام شد که در شکل 4 نشان داده شده است.. همچنین، مدل‌های پیشنهادی که از یادگیری انتقالی استفاده می‌کنند با استفاده از الگوریتم بهینه‌سازی آدام با نرخ یادگیری 0.01 در آخرین لایه‌های مخصوص طبقه‌بندی آموزش داده شدند.
پس از یادگیری انتقالی، تنظیم دقیق به عنوان سومین عامل آموزشی اجرا شد. تمامی لایه‌های مدل‌ها با استفاده از شیب نزولی تصادفی (SGD) با نرخ یادگیری کم 0.0001 و تکانه 0.9 آموزش داده شدند. در نهایت، ابعاد وصله مورد استفاده به عنوان ورودی شبکه به منظور کاهش مدت زمان آموزش و بهینه سازی استفاده از حافظه، تجدید نظر شد.

3. نتایج

به منظور نظارت بر بهبود در بخش‌بندی معنایی، شبکه‌ها با مجموعه داده‌های جغرافیایی مرجع مختلف مانند عکس‌های ارتوفتو چند طیفی، nDSM و NDVI آموزش داده شدند. تجزیه و تحلیل شبکه با یک جریان تا سه کانال و دو جریان برای شش کانال مورد نیاز ورودی داده انجام شد. به این ترتیب، هدف آن است که به وضوح سهم مجموعه داده‌ها در تقسیم‌بندی معنایی برای نقشه‌برداری پوشش زمین آشکار شود. به منظور کاهش مدت زمان آموزش، برخی از مدل ها در ابتدا با استفاده از مجموعه داده های فرعی به دلیل حجم عظیمی از پردازش داده مورد نیاز تولید شدند. سپس برخی از این مدل‌ها با استفاده از مجموعه داده کامل با توجه به نتایج ارزیابی اولیه به‌دست‌آمده با زیر مجموعه داده‌ها ایجاد شدند. تمامی مدل های تولید شده برای ارجاع و مقایسه در متن با حرف اول M شماره گذاری شده اند و در نتیجهبخش 3.1 و بخش 3.2 نتایج به دست آمده با استفاده از مجموعه داده پوتسدام را ارائه می دهد، در حالی که بخش 3.3 ارزیابی ها را با مجموعه داده Vaihingen نشان می دهد.

3.1. ارزیابی مدل های تک جریانی

شبکه‌های تک جریانی مدل‌هایی را تولید می‌کنند که توسط داده‌های متشکل از یک، دو و سه کانال به عنوان ورودی تغذیه می‌شوند. تمامی مدل ها از M1 تا M14 به صورت شبکه تک جریانی طراحی شدند. مدل‌های تا M8 فقط با زیر مجموعه داده‌ها همانطور که در جدول 3 مشاهده می‌شود آموزش داده شدند ، در حالی که مدل‌های M9 تا M14 با مجموعه داده کامل پیاده‌سازی شدند.
از آنجایی که هیچ مدل از پیش آموزش‌دیده خاصی با مجموعه داده‌های nDSM، IR و NDVI وجود ندارد، چهار مدل اول M1، M2، M3 و M4 با وزن‌های اولیه تصادفی بدون یادگیری انتقال آموزش داده شدند. همانطور که در جدول 4 مشاهده می شود، این وضعیت، که در آن یادگیری انتقالی اجرا نشد، بر موفقیت های مدل تأثیر منفی گذاشته است . از سوی دیگر، نیمه دوم هشت مدل اول از M5 تا M8 با یادگیری انتقالی مورد بررسی قرار گرفت.
به خصوص در چهار مدل اول، اهمیت nDSM، IR و NDVI در بخش‌بندی معنایی با افزایش متوالی تعداد کانال‌ها مورد بحث قرار گرفت. هنگامی که جدول 3 و جدول 4 با هم ارزیابی می شوند، درک می شود که سهم مجموعه داده های IR و nDSM در عملکرد تقسیم بندی بالاتر از مجموعه داده NDVI است. به عبارت دیگر، باند IR و nDSM را می توان به عنوان مجموعه داده های مکانی ضروری تر در تقسیم بندی معنایی دید. از آنجایی که داده های NDVI شامل کانال IR می شود، می توان در نظر گرفت که حضور همزمان NDVI و IR به عنوان کانال های ورودی معماری، به دقت کلی کمکی نمی کند. با این حال، افزایش 3.87٪ بین M2 و M4 در جدول 4هنگامی که NDVI و IR ترکیب می شوند، بهبود بیشتری را نشان می دهد. از سوی دیگر، ممکن است M2 به دقت M4 برسد، اما این ممکن است به زمان تمرین بیشتری نیاز داشته باشد.
از آنجایی که داده های ورودی M5 و M6 دارای سه کانال هستند، این مدل ها برای استفاده از یادگیری انتقال با مدل های RGB از پیش آموزش دیده در نظر گرفته شدند. اگرچه انواع داده های M5 و M6 با داده های RGB معمولی متفاوت است، یادگیری انتقال به دقت مدل آنها کمک می کند. علاوه بر این، مدل M6، با استفاده از تنظیم دقیق که عملکرد بهتری از مدل‌های M4 و M5 داشت، به صراحت بهبود را با دقت 86.67 درصد در میان مدل‌های دارای سه کانال داده‌های مکانی نشان داد. بنابراین، بهترین دقت کلی از M6 بدست می آید که با داده های حاوی باندهای nDSM، IR و NDVI آموزش داده شده است ( جدول 4 ). مدل‌های یک جریانی که از داده‌های RGB استفاده می‌کنند با یادگیری انتقال و تنظیم دقیق به ترتیب به عنوان M7 و M8 آموزش داده شدند. وقتی جدول 4بررسی شده است، این واقعیت که M5 و M7 دقت‌های نزدیک به یکدیگر را ارائه می‌دهند نشان می‌دهد که مدل‌های از پیش آموزش‌دیده مبتنی بر RGB می‌توانند در یادگیری انتقال داده‌های مکانی استفاده شوند. علاوه بر این، همچنین مشخص شد که M6 تقریباً به اندازه M8 دقت دارد. این می تواند به عنوان یکی دیگر از شاخص های سهم یادگیری انتقال مبتنی بر RGB و تنظیم دقیق در داده های جغرافیایی دیده شود.
از آنجایی که مجموعه داده کامل محتوای بسیار غنی‌تری را برای شبکه‌ها فراهم می‌کند، انتظار می‌رود که عملکرد داده‌های آزمایشی در مدل‌های آموزش‌دیده افزایش یابد. مدل‌های M9 تا M14 شبکه‌های تک جریانی هستند که با مجموعه داده کامل همانطور که در جدول 5 توضیح داده شده است، تولید می‌شوند . پس از اجرای هشت آزمایش از M1 تا M8 با زیر مجموعه داده‌ها، مدل‌های M5 تا M8 برای آموزش بیشتر به منظور ارزیابی آنها با آزمایش‌های مجموعه داده کامل مورد بررسی قرار گرفتند. مدل های M5، M6، M7 و M8 برای ارزیابی کامل مجموعه داده ها به ترتیب به M9، M10، M12 و M13 تغییر نام دادند. علاوه بر مدل های تغییر نام یافته، مدل های جدید M11 و M14 که عملکرد از دست دادن کانونی Tversky را مدیریت می کردند با نوع تقویت DA-II ایجاد شدند.
جدول 6 نمرات F1 مبتنی بر کلاس و دقت کلی را نشان می دهد که پس از آموزش مجموعه داده کامل با مدل های تک جریانی به دست می آید. هنگام بررسی سهم تنظیم دقیق در جدول 6، تنظیم دقیق با استفاده از مجموعه داده کامل همچنین تقسیم معنایی بهتری را در مدل‌های M10 و M13 به همراه داشت، همانطور که قبلاً در آزمایش‌های زیر مجموعه داده بحث شد. علاوه بر این، به وضوح مشاهده می شود که دقت کلی M11 و M14 به ترتیب از دقت M10 و M13 پیشی گرفته است. سه عامل اصلی که عبارتند از: تابع اتلاف، اندازه وصله و روش افزایش داده ها منجر به افزایش مقادیر دقت ذکر شده می شود. برای ایجاد این بهینه‌سازی، سه تغییر ایجاد شده را می‌توان به شرح زیر شرح داد: (الف) یک طرح افزایش متفاوت (DA-II) آزمایش شد. (ب) از تابع کانونی از دست دادن Tversky استفاده شد که مثبت کاذب و منفی کاذب را متعادل می کند. (ج) اندازه دسته با کاهش اندازه ورودی از 800 × 800 به 600 × 600 برای آموزش پایدارتر افزایش یافت.
علاوه بر این، مقادیر دقت کلی بسیار نزدیک که بین M11 و M14 به طور مستقیم با مجموعه داده‌های nDSM + IR + NDVI با مجموعه داده‌های R + G + B مقایسه می‌شوند، قابل توجه هستند. نزدیکی در عملکرد تقسیم‌بندی نشان می‌دهد که مجموعه داده‌های جغرافیایی پشتیبانی شده با اطلاعات کانال IR ممکن است به عنوان جایگزین مجموعه داده‌های تصویری RGB معمولی در نظر گرفته شود. از سوی دیگر، هنگامی که بازرسی مبتنی بر کلاس انجام می شود، امتیازات F1 M11 و M14 تا حد زیادی عملکرد تقسیم بندی مشابهی را نشان می دهد. به ویژه امتیاز طبقه پوشش گیاهی پایین نیاز به تقسیم بندی بهبود یافته را برجسته می کند در حالی که امتیاز کلاس ساختمان بر هر دستاورد مبتنی بر طبقات برتری دارد.

3.2. ارزیابی مدل‌های جریان دوگانه

به منظور ساخت یک مدل جریان دوگانه که قادر به پردازش ورودی های شش کاناله به طور کامل باشد، یک شبکه تک جریانی که از مجموعه داده های R + G + B استفاده می کند با یک شبکه مبتنی بر nDSM + IR + NDVI به یکباره همانطور که در شکل 3 توضیح داده شده است مرتبط شد . در این مطالعه، دو مدل جریان دوگانه M15 و M16 برای بررسی سهم مجموعه داده‌های جغرافیایی و تصویری در همان جلسه آموزشی پیاده‌سازی شدند. مدل M15 از ساختار شبکه M10 و M13 با هم استفاده می‌کند، در حالی که شبکه‌های مدل‌های M11 و M14 در مدل M16 مدیریت می‌شوند.
دو مدل دو جریان M15 و M16 با ویژگی های ارائه شده در جدول 7 آموزش داده شده اند. نتایج نشان می‌دهد که مدل دو جریانی M16 نسبت به همه مدل‌های تک‌جریان ارزش کلی بهتری دارد ( جدول 8 ). M16 که از نظر اندازه ورودی، عملکرد تلفات و افزایش داده با M15 متفاوت است در داده های آزمایشی بهتر عمل کرد. به منظور اصلاح نتایج تقسیم‌بندی، یک روش انتخاب مرکز برش در حین انتخاب یک ورودی نیز اعمال شد. عملکردهای به دست آمده از M16 با روش انتخاب مرکز برش به عنوان M16* در جدول 8 نشان داده شده است.. برای یک تصویر معین، تصاویر ورودی متعددی ایجاد شد و تنها ناحیه مرکزی خروجی انتخاب شد و سپس برای ایجاد نقشه تقسیم بندی نهایی وصله شد. این روش تنها پس از آموزش مدل استفاده می شود و تاثیری در روند آموزش ندارد. دلیل اصلی استفاده از نتایج برش مرکزی این است که خروجی های مدل ممکن است نتایج ناپایداری در مرزهای تصاویر ورودی داشته باشند و برعکس مرکز خروجی ها پایدارتر باشد. در نهایت، پیش‌بینی مرکز برش که به‌عنوان M16* ارائه شد، به دستیابی به دقت کلی کمی بهتر از مدل M16 کمک کرد. از سوی دیگر، بهبود در نمرات F1 مبتنی بر کلاس نیز در جدول 8 مشاهده شده است. علاوه بر امتیازات F1، دقت کلاس که از مدل M16* به دست آمده است با ماتریس سردرگمی در جدول 9 نشان داده شده است.. ماتریس سردرگمی به صراحت نشان می دهد که کلاس درهم و برهم کمترین مقدار دقت را به دلیل تخصیص نادرست نشان می دهد. کلاس بهم ریختگی به طور قابل ملاحظه ای به عنوان یک سطح غیر قابل نفوذ یا پوشش گیاهی پایین در نتیجه خطای کمیسیون ظاهر شد. دلیل اصلی برخی ناهماهنگی‌های کلاس، دشواری در تهیه داده‌های حقیقت زمینی به جای شکست در مدل در نظر گرفته می‌شود. در نهایت، شکل 5 که مقایسه بصری بین حقیقت زمینی و پیش‌بینی را امکان‌پذیر می‌سازد، نتایج خروجی تقسیم‌بندی معنایی را با استفاده از مدل M-16* برای مجموعه داده‌های آزمون پوتسدام نشان می‌دهد. منحنی‌های دقت و تلفات مدل‌های M11، M14 و M16 که امکان نظارت بر تغییرات عملکرد یادگیری را در طول فرآیند آموزش فراهم می‌کنند در شکل 6 نشان داده شده است.. برای نشان دادن در شکل، M16 به عنوان بهترین مدل آموزش دیده و M11 و M14 به عنوان مدل به کار گرفته شده توسط M16 انتخاب شدند.

3.3. ارزیابی مجموعه داده Vaihingen

مجموعه داده Vaihingen با وضوح های فضایی مختلف به منظور اعتبار بخشیدن به معماری جریان دوگانه پیشنهادی استفاده شد. ابتدا M11 و M14 اساسا برای تحقق استراتژی های آموزشی توضیح داده شده در شکل 4 پیاده سازی شدند . نتایج جدول 10 نشان داد که M11 تک جریانی با استفاده از nDSM، IR و NDVI به دقت 84.86 درصد دست یافت و سپس، M14 با بهره‌برداری از باندهای مرئی RGB، دقت قابل‌توجهی با 87.18 درصد تولید کرد. از سوی دیگر، M16 و M16* که معماری دو جریانی را انجام می‌دهند، نسبت به هر تک جریانی، نرخ دقت بالاتری را با 87.33% و 87.39% به دست آوردند.

4. بحث

در این مطالعه، یک معماری جریان دوگانه سرتاسر جدید که تصاویر جغرافیایی چند باندی را بر اساس DeepLabV3+ در نظر می‌گیرد، پیشنهاد شد. مجموعه داده های برچسب گذاری معنایی ISPRS 2-D برای ارزیابی مدل ما استفاده شد. این مدل به عنوان دو جریان موازی عمل می کند و ویژگی های نهایی هر جریان را در انتها ترکیب می کند. با کمک این ساختار دوگانه چند وجهی، معماری قابلیت مدیریت باند IR، DSM و مجموعه داده‌های NDVI را در کنار تصاویر RGB به دست می‌آورد. از سوی دیگر، یکی دیگر از انگیزه های این مطالعه، بررسی اثرات توابع از دست دادن متنوع، افزایش داده ها، و استراتژی های انتخاب ورودی بر دقت طبقه بندی است. در مرحله ارزیابی، آزمون هایی را با ترکیبات مختلف انجام دادیم که در جدول 3 ، جدول 4 آورده شده است.جدول 5 , جدول 6 , جدول 7 و جدول 8 . در نتیجه آزمایش‌ها، 88.9 درصد دقت کلی با مدل M16* بدست آمد. به منظور مقایسه نتایج خود، مطالعات ارائه شده در جدول 11 را انتخاب می کنیم . همه این مطالعات از مجموعه داده های مشابهی استفاده می کنند و از نظر معماری و استفاده از داده ها با پیشنهاد ما شباهت هایی دارند. وانگ و همکاران [ 21 ] بهترین نتیجه دقت کلی را در مسابقه برچسب‌گذاری معنایی ISPRS 2-D بدست می‌آورد. این مطالعه یک معماری ResNet چند اتصالی را برای ترکیب ویژگی‌های عمیق چند سطحی مربوط به لایه‌های مختلف و همچنین یک استراتژی ترکیبی برای ویژگی‌های چند مقیاسی پیشنهاد می‌کند. اودبرت و همکاران [ 29] یک شبکه عصبی کاملاً کانولوشنال عمیق چند جریانی و چند مقیاسی را بر اساس معماری‌های SegNet و ResNet ارائه می‌کند که نقشه‌های معنایی را با وضوح‌های چندگانه استخراج می‌کند. این مطالعه همچنین اثرات ادغام اولیه و دیررس DSM و داده‌های چند طیفی را بر دقت کلی بررسی می‌کند. پیرامانایگام و همکاران [ 24 ] یک شبکه همجوشی مبتنی بر FCN یا SegNet متشکل از دو یا چند جریان را پیشنهاد می‌کند تا بتواند از داده‌های چند کاناله استفاده کند (IR، R، G برای یک جریان و IR، NDVI، nDSM برای دوم). این مطالعه زمان همجوشی بهینه را برای ویژگی‌ها بررسی می‌کند. به همین دلیل، نویسندگان پیکربندی‌های مختلفی را انجام می‌دهند که آن‌ها را همجوشی دیررس (LaFSN)، همجوشی ترکیبی پیشنهادی (CoFSN)، و همجوشی بعد از لایه n (LnFsn) می‌نامند لازم به ذکر است که نتایج ارائه شده در جدول 11متعلق به پیکربندی همجوشی دیررس است و بهترین نتایج آنها را که 90.3٪ در دقت کلی است منعکس نمی کند. دلیلی که ما این پیکربندی را انتخاب می‌کنیم این است که به‌جز معماری DCNN استفاده‌شده، به‌طور یکسان شبیه به پیشنهاد ما است. در [ 30 ]، یک شبکه یادگیری عمیق ترکیبی به منظور بهبود دقت تقسیم بندی با استفاده از تصاویر شهری مایل پیشنهاد شده است [ 50 ]] و تصاویر RS با هم. معماری پیشنهادی با به اشتراک گذاری سه بلوک رمزگذار، دو ورودی را به صورت موازی مدیریت می کند. سپس شبکه با تلفات وزنی آموزش داده می شود که به عنوان مجموع وزنی تلفات دو مسیر تعریف می شود. این مطالعه همچنین شامل نتایج تقسیم‌بندی شبکه‌های دیگر مانند SegNet، DeepLab-V3+ با داده‌های 4 باند (RGB + NIR) است. جدا از خود معماری شبکه های مورد استفاده، استراتژی هایی مانند استفاده از داده در مقیاس چندگانه، اتصال چندگانه و زمان ادغام بهینه وجود دارد که برجسته ترین آنها به نظر می رسد که ما همچنین در نظر می گیریم آنها را برای مدل جریان دوگانه خود به عنوان کار آینده تطبیق دهیم. . این نتایج به‌دست‌آمده نشان می‌دهد که مدل تولید شده بر اساس معماری ما نتایج رقابتی را با توجه به سایر مدل‌های پیشرفته ارائه می‌دهد. همانطور که مشاهده می شود که DeepLabV3+ چهار بانده [ 30] در مقایسه با مدل های تک جریانی ما M11 و M14 ارائه شده در بخش نتیجه، دقت کلی کمتری به دست آورده بود، اگرچه آنها از مجموعه داده های پوتسدام در معماری های DeepLabV3+ نیز استفاده می کنند. بنابراین، در مقایسه مستقیم دقت‌های تولید شده از چنین معماری‌ها و مدل‌های مختلف به دلیل افزایش یا عملکرد از دست دادن داده، باید مقداری انحراف در نظر گرفته شود. ما بر این باوریم که دقت تقسیم بندی معماری پیشنهادی ما را می توان با برخی تغییرات به ویژه با تمرکز بر زمان همجوشی همانطور که در [ 21 ، 24 ، 29 ] پیشنهاد شده است، افزایش داد.
همانطور که در شکل 7 مشاهده می‌شود ، نتایج آزمون از مدل‌های به‌دست‌آمده با آموزش مجموعه‌های داده Potsdam و Vaihingen بر روی معماری‌های مرتبط ارزیابی شد. بر این اساس، قابل درک است که نتایج مدل عملکردی سازگار در مجموعه داده‌های مختلف را نشان می‌دهد. از سوی دیگر، مشاهده می شود که مجموعه داده های Vaihingen دقت نسبتاً کمتری تولید می کند. علاوه بر این، در سایر مطالعات مرتبط، همچنین مشاهده می شود که مجموعه داده پوتسدام دقت بهتری نسبت به مجموعه داده Vaihingen ارائه می دهد. در نظر گرفته می شود که به دلیل وضوح فضایی پایین مجموعه داده Vaihingen رخ می دهد.

5. نتیجه گیری ها

سهم داده های IR و NDVI در تقسیم بندی به صراحت در مدل های تک جریانی مشاهده شد. مشخص شده است که استفاده از دو مجموعه داده با هم عملکرد را در مقایسه با استفاده های جداگانه IR و NDVI افزایش می دهد. هنگامی که استفاده سه گانه از مجموعه داده های nDSM، IR و NDVI را بررسی می کنیم، مدل ها به دقت مدل های RGB تک جریانی دست یافتند و این وضعیت باید با جزئیات بیشتری در کارهای آینده مورد توجه قرار گیرد. نکته دیگری که در نتیجه مطالعه مشخص شد، اهمیت فرآیندهای آموزشی را نشان می دهد. یادگیری انتقال، تنظیم دقیق، و انتخاب تابع از دست دادن، روش افزایش داده به عملکرد مدل کمک کرد. در حالی که روش Travesky به عنوان تابع ضرر برجسته است، مشاهده شده است که تصادفی سازی تغذیه داده ها یک تکنیک قابل توجه برای دستیابی به دقت بالاتر است.
از آنجایی که مدل‌های تقسیم‌بندی معنایی تک جریانی نتایج موفقیت‌آمیزی را با ورودی‌های RGB و ورودی‌های nDSM + IR + NDVI ارائه می‌دهند، یک طراحی معماری دو جریانی نیز اجرا شده است. یکی از مهمترین دستاوردهای این مطالعه این است که مدل های یادگیری عمیق دو جریانی دقت بالاتری نسبت به مدل های تک جریانی ایجاد می کنند. در نتیجه، مشخص شد که محصولات فتوگرامتری مانند nDSM و NDVI به‌دست‌آمده با استفاده از عکس‌های هوایی چند طیفی چهار بانده باید در تقسیم‌بندی معنایی در کنار مجموعه داده‌های RGB در نظر گرفته شوند. به منظور تعیین سطح مشارکت NDVI، عملکرد NDVI + GB و IR + RG را می توان با معماری های تک جریانی در آینده مقایسه کرد. همچنین، در جریان دوگانه، در حالی که RGB به عنوان ورودی اولین جریان داده می شود.
این مطالعه بر اساس DeepLabV3+ به عنوان یک معماری تقسیم‌بندی معنایی پیشگام است، با این حال، سایر معماری‌های تقسیم‌بندی را نیز می‌توان برای ارزیابی مجموعه داده‌های تصویر چند طیفی در طبقه‌بندی پوشش زمین در نظر گرفت. علاوه بر این، ستون فقرات مختلفی که امکان یادگیری انتقال را فراهم می‌کنند ممکن است با معماری DeepLabV3+ سازگار شوند. تحلیل‌هایی که پنج کلاس کاربری زمین را در نظر می‌گیرند در این مطالعه ارزیابی شدند، با این حال، سهم باندهای چند طیفی و شاخص‌های مختلف در طبقه‌بندی تنها بر اساس یک طبقه زمین مانند ساختمان‌ها قابل بررسی است. از سوی دیگر، معماری تنها به عنوان تلفیقی دیرهنگام بین نهرها طراحی شده است. با این حال دقت بالاتری در مطالعات اجرای همجوشی اولیه مشاهده شده است. بنابراین همجوشی دیررس به عنوان محدودیت مدل های پیشنهادی ما در نظر گرفته می شود.

منابع

  1. ماسوله، م.ک. شاه حسینی، ر. توسعه و ارزیابی یک مدل یادگیری عمیق برای بخش‌بندی معنایی وسایل نقلیه زمینی در زمان واقعی از تصاویر مادون قرمز حرارتی مبتنی بر پهپاد. ISPRS J. Photogramm. Remote Sens. 2019 , 155 , 172–186. [ Google Scholar ] [ CrossRef ]
  2. Venugopal، N. تقسیم‌بندی معنایی خودکار با شبکه یادگیری گشاد شده DeepLab برای تشخیص تغییر در تصاویر سنجش از دور. لت پردازش عصبی 2020 ، 51 ، 2355-2377. [ Google Scholar ] [ CrossRef ]
  3. خو، ز. سو، سی. Zhang، X. یک روش تقسیم‌بندی معنایی با مرز دسته‌بندی برای نقشه‌برداری کاربری زمین و پوشش زمین (LULC) تصویر سنجش از دور با وضوح بسیار بالا (VHR). بین المللی J. Remote Sens. 2021 , 42 , 3146–3165. [ Google Scholar ] [ CrossRef ]
  4. توزانی، س. گراندرسون، جی. داده های باز و تقسیم بندی معنایی عمیق برای استخراج خودکار ردپای ساختمان. Remote Sens. 2021 , 13 , 2578. [ Google Scholar ] [ CrossRef ]
  5. براگانلو، ال. رزنده، ال. دا سیلوا، آر. Grzybowski، J. شبکه های عصبی کانولوشنال برای تقسیم بندی معنایی اسکارهای زمین لغزش اعمال می شود. CATENA 2021 ، 201 ، 105189. [ Google Scholar ] [ CrossRef ]
  6. کانوال، س. عزیر، م. Ullah, H. A Survey of Hand Crafted and Deep Learning Methods for aesthetic Assessment. arXiv 2021 ، arXiv:2103.11616. [ Google Scholar ]
  7. کورتس، سی. Vapnik، V. پشتیبانی-بردار شبکه. ماخ فرا گرفتن. 1995 ، 20 ، 273-297. [ Google Scholar ] [ CrossRef ]
  8. نخل.؛ Mather، P. ماشین‌های بردار پشتیبانی برای طبقه‌بندی در سنجش از دور. بین المللی J. Remote Sens. 2005 ، 26 ، 1007-1011. [ Google Scholar ] [ CrossRef ]
  9. بریمن، L. جنگل های تصادفی. ماخ فرا گرفتن. 2001 ، 45 ، 5-32. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  10. Mas، JF; فلورس، جی جی کاربرد شبکه های عصبی مصنوعی برای تجزیه و تحلیل داده های سنجش از دور. بین المللی J. Remote Sens. 2008 , 29 , 617-663. [ Google Scholar ] [ CrossRef ]
  11. موئن، ای. بنن، دی. کودو، تی. گراف، دبلیو. پنهان، م. Van Valen، D. یادگیری عمیق برای تجزیه و تحلیل تصویر سلولی. نات. Methods 2019 , 16 , 1233-1246. [ Google Scholar ] [ CrossRef ] [ PubMed ]
  12. حمید، ک. چای، دی. Rassau، A. بهبود لبه ماسک مبتنی بر امتیاز Mask-RCNN برای تقسیم بندی میوه ها و سبزیجات. سیستم خبره Appl. 2021 ، 190 ، 116205. [ Google Scholar ] [ CrossRef ]
  13. وی، XS; کوی، کیو. یانگ، ال. وانگ، پی. Liu, L. RPC: مجموعه داده پرداخت محصول خرده فروشی در مقیاس بزرگ. arXiv 2019 ، arXiv:1901.07249. [ Google Scholar ]
  14. حامیان، م.ح. بیک محمدی، ع. احمدی، ع. ناصرشریف، ب. تقسیم بندی معنایی تصاویر رانندگی خودمختار با ترکیب یادگیری عمیق و تقسیم بندی کلاسیک. در مجموعه مقالات بیست و ششمین کنفرانس بین المللی کامپیوتر 2021، انجمن کامپیوتر ایران (CSICC)، تهران، ایران، 3 تا 4 مارس 2021؛ صص 1-6. [ Google Scholar ]
  15. مولر، دی. هلن، ا. Valeske، B. شبکه های عصبی کانولوشن برای تقسیم بندی معنایی به عنوان ابزاری برای تجزیه و تحلیل چهره چند کلاسه در مادون قرمز حرارتی. J. غیر تخریبی. ارزشیابی 2021 ، 40 ، 1-10. [ Google Scholar ] [ CrossRef ]
  16. گوا، ی. لیو، ی. جورجیو، تی. Lew, MS مروری بر تقسیم بندی معنایی با استفاده از شبکه های عصبی عمیق. بین المللی J. Multimed. Inf. Retr. 2018 ، 7 ، 87-93. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  17. نوبرت، ام. هرولد، اچ. ماینل، جی. ارزیابی کیفیت بخش‌بندی تصویر سنجش از دور – نتایج و مفاهیم بیشتر. در مجموعه مقالات کنفرانس بین المللی تجزیه و تحلیل تصویر مبتنی بر شی (ICOIA)، سالزبورگ، اتریش، 4-5 ژوئیه 2006. صص 1-6. [ Google Scholar ]
  18. آکچای، او. آوسار، ای. اینالپولات، م. Genc، L. Cam, A. ارزیابی پارامترهای تقسیم بندی برای طبقه بندی پوشش زمین مبتنی بر شی با استفاده از تصاویر رنگی مادون قرمز. ISPRS Int. J. Geo-Inf. 2018 ، 7 ، 424. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  19. شوارتزمن، آ. کاگان، م. مکی، ال. ناچمن، بی. De Oliveira، L. پردازش تصویر، بینایی کامپیوتری، و یادگیری عمیق: رویکردهای جدید برای تجزیه و تحلیل و تفسیر فیزیک رویدادهای LHC . انتشارات IOP: بریستول، انگلستان، 2016; جلد 762، ص. 012035. [ Google Scholar ]
  20. Sherrah, J. شبکه های کاملاً پیچیده برای برچسب گذاری معنایی متراکم تصاویر هوایی با وضوح بالا. arXiv 2016 , arXiv:1606.02585. [ Google Scholar ]
  21. وانگ، جی. شن، ال. کیائو، دبلیو. دای، ی. Li, Z. همجوشی ویژگی عمیق با ادغام اتصال باقیمانده و مدل توجه برای طبقه بندی تصاویر سنجش از راه دور VHR. Remote Sens. 2019 , 11 , 1617. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  22. سان، ی. تیان، ی. Xu, Y. مشکلات چارچوب های رمزگذار-رمزگشا برای تقسیم بندی تصویر سنجش از راه دور با وضوح بالا: کلیشه ساختاری و یادگیری ناکافی. محاسبات عصبی 2019 ، 330 ، 297-304 . [ Google Scholar ] [ CrossRef ]
  23. مارکو، ا. Leordeanu، M. مسیرهای متنی دوگانه محلی-جهانی برای تشخیص در تصاویر هوایی. arXiv 2016 , arXiv:1605.05462. [ Google Scholar ]
  24. پیرامانایگام، س. صابر، ای. شوارتزکف، دبلیو. کوهلر، FW طبقه بندی نظارت شده تصاویر سنجش از راه دور چند حسگر با استفاده از چارچوب یادگیری عمیق. Remote Sens. 2018 , 10 , 1429. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  25. مارمانیس، دی. شیندلر، ک. Wegner، JD; گالیانی، اس. داتکو، ام. Stilla، U. طبقه‌بندی با لبه: بهبود بخش‌بندی تصویر معنایی با تشخیص مرز. ISPRS J. Photogramm. Remote Sens. 2018 , 135 , 158–172. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  26. زی، اس. Tu، Z. تشخیص لبه تودرتو کلی. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، واشنگتن، دی سی، ایالات متحده آمریکا، 7 تا 13 دسامبر 2015. صص 1395–1403. [ Google Scholar ]
  27. دو، اس. دو، اس. لیو، بی. Zhang، X. ترکیب DeepLabv3+ و تجزیه و تحلیل تصویر مبتنی بر شی برای تقسیم بندی معنایی تصاویر سنجش از دور با وضوح بسیار بالا. بین المللی جی دیجیت. زمین 2021 ، 14 ، 357-378. [ Google Scholar ] [ CrossRef ]
  28. چن، ال سی; زو، ی. پاپاندرو، جی. شروف، اف. Adam, H. رمزگذار-رمزگشا با پیچیدگی قابل جداسازی آتروس برای تقسیم بندی تصویر معنایی. در مجموعه مقالات کنفرانس اروپایی بینایی کامپیوتر (ECCV)، مونیخ، آلمان، 8 تا 14 سپتامبر 2018؛ ص 801-818. [ Google Scholar ]
  29. اودبرت، ن. لو ساکس، بی. Lefèvre, S. Beyond RGB: سنجش از دور شهری با وضوح بسیار بالا با شبکه های عمیق چندوجهی. ISPRS J. Photogramm. Remote Sens. 2018 ، 140 ، 20-32. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  30. آهنگ، ا. کیم، ی. تقسیم بندی معنایی تصاویر سنجش از دور با استفاده از داده های بزرگ ناهمگن: انجمن بین المللی فتوگرامتری و سنجش از دور مجموعه داده های پتسدام و منظر شهری. ISPRS Int. J. Geo-Inf. 2020 ، 9 ، 601. [ Google Scholar ] [ CrossRef ]
  31. یوان، ایکس. شی، ج. Gu, L. مروری بر روش‌های یادگیری عمیق برای تقسیم‌بندی معنایی تصاویر سنجش از دور. سیستم خبره Appl. 2020 , 169 , 114417. [ Google Scholar ] [ CrossRef ]
  32. نیک پرور، ب. تیل، JC یادگیری ماشینی داده های فضایی. ISPRS Int. J. Geo-Inf. 2021 ، 10 ، 600. [ Google Scholar ] [ CrossRef ]
  33. وو، اچ. ژانگ، جی. هوانگ، ک. لیانگ، ک. Yu, Y. Fastfcn: بازاندیشی در پیچیدگی گشاد شده در ستون فقرات برای تقسیم بندی معنایی. arXiv 2019 ، arXiv:1903.11816. [ Google Scholar ]
  34. تاکیکاوا، تی. آکونا، دی. جامپانی، وی. Fidler, S. Gated-scnn: cnns شکل دردار برای تقسیم بندی معنایی. در مجموعه مقالات کنفرانس بین المللی IEEE/CVF در بینایی کامپیوتر، سئول، کره، 27 تا 28 اکتبر 2019؛ صص 5229–5238. [ Google Scholar ]
  35. چن، ال سی; پاپاندرو، جی. کوکینوس، آی. مورفی، ک. Yuille، AL Deeplab: تقسیم‌بندی تصویر معنایی با شبکه‌های کانولوشنال عمیق، پیچیدگی ناخوشایند و crfهای کاملاً متصل. IEEE Trans. الگوی مقعدی ماخ هوشمند 2017 ، 40 ، 834-848. [ Google Scholar ] [ CrossRef ] [ PubMed ]
  36. او، ک. گیوکسری، جی. دلار، پی. Girshick, R. Mask r-cnn. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، ونیز، ایتالیا، 22 تا 29 اکتبر 2017؛ صفحات 2961-2969. [ Google Scholar ]
  37. مینایی، س. بویکوف، YY; پوریکلی، ف. پلازا، ای جی; کهترنواز، ن. Terzopoulos، D. بخش بندی تصویر با استفاده از یادگیری عمیق: یک نظرسنجی. arXiv 2020 ، arXiv:2001.05566. [ Google Scholar ] [ CrossRef ] [ PubMed ]
  38. چن، ال سی; پاپاندرو، جی. شروف، اف. آدام، اچ. بازاندیشی در پیچیدگی آزاردهنده برای تقسیم‌بندی تصویر معنایی. arXiv 2017 , arXiv:1706.05587. [ Google Scholar ]
  39. ISPRS. انجمن بین المللی فتوگرامتری و سنجش از دور. چالش برچسب‌گذاری معنایی دوبعدی. 2016. در دسترس آنلاین: https://www2.isprs.org/commissions/comm3/wg4/semantic-labeling.html (در 5 اکتبر 2021 قابل دسترسی است).
  40. کوتاه کردن، سی. خوش گفتار، تی ام نظرسنجی در مورد تقویت داده های تصویر برای یادگیری عمیق. J. Big Data 2019 ، 6 ، 1-48. [ Google Scholar ] [ CrossRef ]
  41. Cramer, M. آزمون DGPF در ارزیابی اجمالی دوربین هوابرد دیجیتال و طراحی آزمایش. PFG Photogramm. فرنرکوند. Geoinf. 2010 ، 2010 ، 73-82. [ Google Scholar ] [ CrossRef ] [ PubMed ]
  42. آکچای، او. Kinaci، AC; آوسار، EO; Aydar، استخراج مرز U. بر اساس مدل یادگیری عمیق جریان دوگانه در تصاویر سنجش از دور با وضوح بالا. J. Adv. Res. نات. Appl. علمی 2021 ، 7 ، 358-368. [ Google Scholar ] [ CrossRef ]
  43. Gerke, M. استفاده از کتابخانه Stair Vision در معیار برچسب‌گذاری معنایی ISPRS 2D (Vaihingen) . گزارش فنی؛ University of Twente: Enschede، هلند، 2015. [ Google Scholar ] [ CrossRef ]
  44. مک نیلی وایت، دی. Beveridge، JR; ویژگی های Draper، BA Inception و ResNet (تقریباً) معادل هستند. شناخت. سیستم Res. 2020 ، 59 ، 312-318. [ Google Scholar ] [ CrossRef ]
  45. هائو، اس. ژو، ی. Guo, Y. بررسی مختصری در مورد تقسیم بندی معنایی با یادگیری عمیق. محاسبات عصبی 2020 ، 406 ، 302-321 . [ Google Scholar ] [ CrossRef ]
  46. عظیمی، س.م. هنری، سی. سامر، ال. شومان، آ. Vig, E. Skyscapes درک معنایی دقیق صحنه های هوایی. در مجموعه مقالات کنفرانس بین المللی IEEE/CVF در بینایی کامپیوتر، سئول، کره، 27 تا 28 اکتبر 2019؛ صفحات 7393-7403. [ Google Scholar ]
  47. بوگوشفسکی، آ. باتورسکی، دی. زیمبا-یانکووسکا، ن. زامبرزیکا، ا. Dziedzic، T. Landcover. ai: مجموعه داده برای نقشه برداری خودکار ساختمان ها، جنگل ها و آب از تصاویر هوایی. arXiv 2020 ، arXiv:2005.02264. [ Google Scholar ]
  48. ابراهیم، ​​ن. Khan, NM یک تابع تلفات کانونی جدید با u-net بهبود یافته برای تقسیم ضایعه. در مجموعه مقالات شانزدهمین سمپوزیوم بین المللی تصویربرداری زیست پزشکی IEEE 2019 (ISBI 2019)، ونیز، ایتالیا، 8 تا 11 آوریل 2019؛ صص 683-687. [ Google Scholar ]
  49. گرگرا، ا. Suppakitpaisarn، V. خصوصیات نیمه‌متریک تاس‌های سورنسن و شاخص‌های tversky. در کارگاه بین المللی الگوریتم ها و محاسبات . Springer: Cham, Switzerland, 2016; صص 339-350. [ Google Scholar ]
  50. کوردتس، ام. عمران، م. راموس، اس. رهفلد، تی. انزوایلر، م. بننسون، آر. فرانکه، یو. راث، اس. شیله، بی. مجموعه داده مناظر شهری برای درک معنایی صحنه شهری. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، لاس وگاس، NV، ایالات متحده، 27-30 ژوئن 2016. صص 3213–3223. [ Google Scholar ]
شکل 1. تصاویر نمونه DA-II.
شکل 2. مجموعه داده های کامل و زیر مجموعه های داده ISPRS Potsdam در مبدأ UTM WGS84.
شکل 3. دو جریانی DeepLabV3+.
شکل 4. مراحل آموزش.
شکل 5. خروجی قطعه بندی معنایی مجموعه داده تست پوتسدام مدل M-16* با پیش بینی های برش مرکزی. سفید : سطوح نفوذ ناپذیر، آبی : ساختمانی، فیروزه ای: کم پوشش گیاهی، سبز : درختی، زرد : ماشین، قرمز : درهم ریختگی/پس زمینه.
شکل 6. مدل های پوتسدام M11، M14 و M16 دقت و از دست دادن تمرین.
شکل 7. مقایسه دقت کلی معماری های آموزش دیده.

بدون دیدگاه

دیدگاهتان را بنویسید