ترکیب دادههای ابرطیفی چندمنبعی و LiDAR برای نقشهبرداری کاربری زمین شهری بر اساس یک شبکه عصبی کانولوشنال دو شاخه اصلاح شده
خلاصه
نقشه برداری دقیق کاربری اراضی شهری یک کار چالش برانگیز در زمینه سنجش از دور است. با در دسترس بودن سنسورهای راه دور متنوع، استفاده مصنوعی و ادغام دادههای چند منبعی فرصتی برای بهبود دقت طبقهبندی کاربری اراضی شهری فراهم میکند. شبکههای عصبی برای یادگیری عمیق به نتایج بسیار امیدوارکنندهای در وظایف بینایی کامپیوتری مانند طبقهبندی تصویر و تشخیص اشیا دست یافتهاند. با این حال، مشکل طراحی یک مدل یادگیری عمیق موثر برای ادغام داده های سنجش از راه دور چند منبعی هنوز باقی است. برای مقابله با این موضوع، این مقاله یک شبکه عصبی کانولوشنال دو شاخه ای اصلاح شده برای ادغام تطبیقی تصاویر فراطیفی (HSI) و داده های تشخیص نور و محدوده (LiDAR) پیشنهاد می کند. به طور خاص، مدل پیشنهادی شامل یک شاخه HSI و یک شاخه LiDAR است. به اشتراک گذاری ساختار شبکه یکسان برای کاهش هزینه زمانی طراحی شبکه. یک بلوک باقیمانده در هر شاخه برای استخراج ویژگی های سلسله مراتبی، موازی و چند مقیاسی استفاده می شود. یک ماژول فیوژن با ویژگی تطبیقی برای ادغام ویژگیهای HSI و LiDAR به روشی معقولتر و طبیعیتر (بر اساس «شبکههای فشرده و تحریک») پیشنهاد شده است. آزمایشات نشان می دهد که شبکه دو شاخه پیشنهادی عملکرد خوبی را با دقت کلی تقریباً 92 درصد نشان می دهد. در مقایسه با داده های تک منبعی، معرفی داده های چند منبعی دقت را حداقل تا 8 درصد بهبود می بخشد. مدل همجوشی تطبیقی همچنین میتواند دقت طبقهبندی را در مقایسه با روش انباشتگی ویژگی (الحاق ساده) بیش از 3 درصد افزایش دهد.
کلید واژه ها:
شبکه های عصبی کانولوشنال ; داده های چند منبعی ؛ فیوژن ویژگی ; نقشه برداری کاربری اراضی شهری
1. معرفی
نقشهبرداری کاربری اراضی شهری برای کاربردهای مختلف شهری، مانند برنامهریزی و طراحی شهری، پایش محیط شهری، و بررسیهای زمین شهری اهمیت زیادی دارد [ 1 ، 2 ]. روشهای سنتی برای نقشهبرداری کاربری زمین شهری مبتنی بر تفسیر بصری تصاویر سنجش از دور نوری با وضوح بالا و بررسیهای میدانی است که میتواند بسیار زمانبر و پر زحمت باشد. بنابراین، بررسی روشهای طبقهبندی خودکار برای انواع کاربریهای شهری پراکنده و پیچیده بسیار مهم است.
با توسعه فناوری سنجش از دور، برخی از محققان شروع به استفاده از تصاویر نوری چندطیفی و روشهای یادگیری ماشینی برای استخراج خودکار اطلاعات شهری و پوششی و کاربری زمین کردند [3 ، 4 ، 5 ، 6 ] . به عنوان مثال، لو و همکاران. [ 3 ] تصاویر بافتی و طیفی را با روش طبقهبندی نظارت شده سنتی برای طبقهبندی پوشش زمین شهری بر اساس دادههای سنجش از دور QuickBird چند طیفی ترکیب کرد. پاول و همکاران [ 4 ] از تجزیه و تحلیل مخلوط طیفی برای نگاشت زیرپیکسلی پوشش زمین شهری بر اساس تصاویر Landsat استفاده کرد. پو و همکاران [ 5] یک روش مبتنی بر شی و تصاویر IKONOS برای طبقه بندی پوشش زمین شهری اتخاذ کرد. با این حال، به دلیل ترکیب پیچیده مناظر شهری و وضوح طیفی کم داده های سنجش از دور چندطیفی، ارائه دقت طبقه بندی بسیار بالا بسیار دشوار است. در مقایسه با سنجش از دور چند طیفی، سنجش از دور فراطیفی می تواند صدها نوار طیفی باریک به هم پیوسته را به دست آورد که قادر به جداسازی اجسام با تفاوت های طیفی ظریف است. مطالعات اخیر همچنین پتانسیل بزرگ سنجش از دور فراطیفی را در تمایز انواع کاربری پیچیده شهری نشان می دهد [ 6 ، 7 ]. دمارچی و همکاران [ 6] از دادههای فراطیفی 288 باند APEX برای نقشهبرداری پوشش زمین شهری بر اساس تکنیکهای کاهش ابعاد بدون نظارت و چندین طبقهبندیکننده یادگیری ماشینی استفاده کرد. تانگ و همکاران [ 7 ] در مورد ویژگیهای دادههای فراطیفی هوابرد برای طبقهبندی پوشش زمین شهری بحث کرد و نشان داد که استفاده مصنوعی از شکل، بافت و اطلاعات طیفی میتواند دقت طبقهبندی را بهبود بخشد.
در همین حال، به دلیل در دسترس بودن حسگرهای راه دور متنوع، محققان شروع به ادغام داده های چند منبعی و چند حسگر برای توصیف بهتر سطح زمین کردند [ 8 ، 9 ، 10 ، 11 ، 12 ، 13 ]. از آن زمان، استفاده ترکیبی از داده های HSI و تشخیص نور و محدوده (LiDAR) یک موضوع فعال بوده است [ 8 ، 9 ، 10 ، 11 ، 12 ، 13]. افزودن دادههای LiDAR میتواند اطلاعات دقیق ارتفاع و شکل صحنه را ارائه دهد، که میتواند دقت طبقهبندی را در مقایسه با استفاده از دادههای فراطیفی به تنهایی بهبود بخشد. به عنوان مثال، سقفها و جادههایی که هر دو از بتن ساخته شدهاند در تصاویر فراطیفی به سختی قابل تشخیص هستند، اما بهدلیل تفاوت قابلتوجه در ارتفاع، میتوان آنها را به راحتی با استفاده از اطلاعات ارتفاع مشتقشده از LiDAR جدا کرد. بر اساس نکات فوق، محققان روش های همجوشی داده های ابرطیفی چند منبعی و LiDAR را بررسی کردند. دبس و همکاران [ 8 ] دو روش برای ترکیب دادههای ابرطیفی و LiDAR، از جمله یک طرح طبقهبندی ترکیبی بدون نظارت و نظارت شده، و یک روش مبتنی بر نمودار برای ادغام اطلاعات طیفی، مکانی و ارتفاعی را برجسته کرد. من و همکاران [ 9] هم ترکیب پیکسلی و هم سطح ویژگی داده های ابرطیفی و LiDAR را برای طبقه بندی کاربری زمین شهری مورد بحث قرار داد و نشان داد که ترکیب طبقه بندی کننده های مبتنی بر پیکسل و شی می تواند دقت طبقه بندی را افزایش دهد. علاوه بر این، ادغام دادههای ابرطیفی و LiDAR در بسیاری از زمینههای دیگر، مانند نظارت بر جنگل [ 10 ، 11 ]، نقشهبرداری آتشفشان [ 12 ]، و طبقهبندی گونههای محصول [ 13 ] نیز اعمال شده است.
در مورد رویکردهای ادغام دادههای سنجش از راه دور چند منبعی، روشهای پرکاربرد عمدتاً شامل ادغام در سطح ویژگی و ادغام در سطح تصمیم میشوند. به طور خاص، در فرآیند ادغام در سطح ویژگی، داده های سنجش از راه دور از منابع مختلف ابتدا برای استخراج ویژگی های مربوطه پردازش می شوند و سپس از طریق انباشتن ویژگی یا بازسازی ویژگی ترکیب می شوند. من و همکاران [ 9 ] ویژگیهای LiDAR، به عنوان مثال، ویژگیهای nDSM، شدت و HSI، به عنوان مثال، شاخصها و بافتهای طیفی برای بهبود عملکرد طبقهبندی کاربری اراضی شهری انباشته شد. گونزالس و همکاران [ 14] همچنین ویژگیهای چند منبعی را از تصاویر مادون قرمز رنگی و دادههای LiDAR برای نقشهبرداری مبتنی بر شی از زیستگاههای جنگلی انباشته کرد. رویکردهای انباشته ویژگی های مشابه را می توان در مطالعات Sankey و همکارانش نیز یافت. [ 11 ] و ساساکی و همکاران. [ 15 ]. متفاوت از مطالعات بالا، دبس و همکاران [ 8 ] از یک گراف همجوشی برای نمایش تمام ویژگی های چند منبع اصلی در یک زیرفضای کم بعدی برای افزایش استحکام ویژگی های ذوب شده استفاده کردند. در مقایسه با همجوشی سطح ویژگی، مجموعه دادههای چند منبعی به طور جداگانه طبقهبندی میشوند و سپس در فرآیند ادغام در سطح تصمیم ادغام یا ادغام میشوند تا نتایج طبقهبندی نهایی را ایجاد کنند. استوری و همکاران [ 16] یک روش همجوشی در سطح تصمیم برای ادغام LiDAR و دادههای نوری چندطیفی پیشنهاد کرد، که در آن اشیاء طبقهبندیشده LiDAR بهعنوان پسینی در مرحله همجوشی مبتنی بر قانون شیء برنده-همه چیز مورد استفاده قرار گرفتند.
علاوه بر این، تمام مطالعات فوق بر اساس معماریهای کم عمق و توصیفگرهای ویژگی دستسازی شدهاند که نمیتوانند ویژگیهای سطح بالای ظریف و انتزاعی یک منظر شهری پیچیده را به دست آورند. از سوی دیگر، یادگیری عمیق قادر به مدل سازی نمایش ویژگی های سطح بالا از طریق یک چارچوب یادگیری سلسله مراتبی است [ 17 ]. ویژگیهای انتزاعی و ثابت، همراه با طبقهبندیکنندهها، میتوانند به طور همزمان با یک شبکه عصبی عمیق آبشاری چندلایه، که از ویژگیهای کم عمق دستسازی شده در وظایف بینایی کامپیوتر، مانند طبقهبندی تصویر [18، 19]، تشخیص اشیا [ 20 ] بهتر یاد گرفت . و تشخیص نقطه عطف [ 21 ، 22]. روشهای یادگیری عمیق همچنین یک موضوع داغ در سنجش از دور [ 23 ] بوده و با موفقیت در استخراج ساختمان و جاده [ 24 ]، نقشهبرداری تالاب [ 25 ]، تشخیص ابر [ 26 ] و طبقهبندی پوشش زمین [ 27] به کار گرفته شده است. ].
اخیراً، محققان شروع به استفاده از یادگیری عمیق برای ادغام داده های سنجش از راه دور چند منبعی کرده اند [ 28 ، 29 ، 30 ]. یک چارچوب معمولی برای ادغام دادههای چند منبعی مبتنی بر یادگیری عمیق، ساخت یک شبکه دو شاخه است [ 28 ، 29 ، 30 ]. ویژگی های منابع داده های مختلف ابتدا به طور جداگانه از طریق هر شاخه استخراج می شوند و سپس از طریق انباشتن ویژگی یا الحاق ویژگی ها ترکیب می شوند. ویژگی های ذوب شده برای تولید نتایج طبقه بندی نهایی به لایه طبقه بندی منتقل می شوند. به عنوان مثال، خو و همکاران. [ 28] یک شبکه عصبی کانولوشنال دو شاخه ای (CNN) را برای طبقه بندی داده های سنجش از راه دور چند منبعی پیشنهاد کرد و این شبکه می تواند به عملکرد طبقه بندی بهتری نسبت به روش های موجود دست یابد. هوانگ و همکاران [ 29 ] از CNN دو شاخه ای برای استخراج ویژگی های فضایی و طیفی اشیاء زمین شهری برای بهبود عملکرد نقشه برداری کاربری زمین شهری استفاده کرد. هیوز و همکاران [ 30 ] یک شبکه سیانان شبه سیامی، که ساختار دو شاخهای نیز داشت، برای شناسایی تکههای مربوطه در SAR (رادار دیافراگم مصنوعی) و تصاویر نوری اتخاذ کرد.
با این وجود، مطالعات فوق که از شبکه دو شاخه ای استفاده می کنند، دو اشکال دارند که می توان آنها را بهبود بخشید. اولاً، روش ادغام دادهای که به سادگی روی هم قرار میدهد یا به هم پیوسته کردن ویژگیهای مختلف، اهمیت یا سهم هر یک از ویژگیها را در کار طبقهبندی نهایی در نظر نمیگیرد، که میتواند با اختصاص وزن خاصی به هر ویژگی بهبود یابد. ثانیاً، ستون فقرات شبکه معمولی است، به عنوان مثال، AlexNet [ 18 ]، که می تواند با دیگر ساختارهای شبکه اخیر جایگزین شود.
برای مقابله با این مشکلات، این مقاله شبکه عصبی دو شاخهای اصلی [ 28 ] را اصلاح کرد تا دادههای ابرطیفی و LiDAR را برای طبقهبندی کاربری زمین شهری به صورت تطبیقی ترکیب کند. مدل پیشنهادی عمدتاً از سه بخش تشکیل شده است، به عنوان مثال، شاخه تصویر فراطیفی (HSI) برای استخراج ویژگی فضایی-طیفی، شاخه LiDAR برای استخراج ویژگی مرتبط با ارتفاع، و یک ماژول فیوژن برای همجوشی ویژگی تطبیقی دو شاخه. به طور خاص، شاخه HSI و شعبه LiDAR ساختار شبکه یکسانی دارند که بر اساس آبشار یک بلوک باقیمانده چند مقیاسی جدید به منظور کاهش بار طراحی شبکه است. در طی مراحل آموزشی، ابتدا هر شعبه به طور جداگانه آموزش داده می شود و سپس کل شبکه بر اساس هر شعبه آموزش دیده به دقت تنظیم می شود.
بقیه مقاله به شرح زیر سازماندهی شده است. بخش 2 منطقه مورد مطالعه و مجموعه داده را معرفی می کند. بخش 3 معماری دقیق شبکه دو شاخه اصلاح شده را ارائه می دهد. بخش 4 نتایج تجربی و بحث را نشان می دهد و بخش 5 اظهارات اصلی نتیجه گیری را ارائه می دهد.
2. منطقه مطالعه و مجموعه داده
منطقه مورد مطالعه پردیس دانشگاه هیوستون و مناطق شهری مجاور آن بود که در جنوب شرقی تگزاس، ایالات متحده واقع شده است. دادههای فراطیفی و LiDAR از مسابقه ادغام دادهها در سال 2013 (IEEE (موسسه مهندسین برق و الکترونیک) GRSS (انجمن علوم زمین و سنجش از دور) [ 8 ] بود. به طور خاص، تصاویر فراطیفی در 23 ژوئن 2012 به دست آمد که شامل 144 باند طیفی از 380 تا 1050 نانومتر، با وضوح طیفی 4.8 نانومتر بود. تفکیک مکانی 2.5 متر و ارتفاع و عرض به ترتیب 349 و 1905 متر بود.
داده های LiDAR در 22 ژوئن 2012 به دست آمد و قبلاً با تصاویر فراطیفی ثبت شده بود. وضوح فضایی DSM مشتق از LiDAR (مدل سطح دیجیتال) نیز 2.5 متر بود. شکل 1 یک نمایش ترکیبی با رنگ واقعی از تصاویر فراطیفی و DSM مشتق شده از LiDAR مربوطه را نشان می دهد.
تمامی نمونه های آموزش و تست از مسابقه Data Fusion می باشد. توزیع فضایی نمونه های آموزشی و آزمایشی به ترتیب در شکل 1 c,d نشان داده شده است. 15 کلاس مورد علاقه در این مطالعه وجود دارد: چمن سالم، تحت فشار چمن، چمن مصنوعی، درخت، خاک، آب، مسکونی، تجاری، جاده، بزرگراه، راه آهن، پارکینگ 1، پارکینگ 2، زمین تنیس، و آهنگ در حال اجرا. لازم به ذکر است که پارکینگ 1 شامل گاراژهای پارکینگ هم در سطح زمین و هم در نواحی مرتفع است در حالی که پارکینگ 2 مربوط به وسایل نقلیه پارک شده است.
تعداد نمونه های آموزشی و آزمایشی همراه با رنگ ها برای هر کلاس در جدول 1 نشان داده شده است . همانطور که مشاهده می شود تعداد نمونه های آموزشی بسیار محدود است که دستیابی به دقت طبقه بندی بالا را بسیار دشوار می کند.
3. روش ها
3.1. گردش کار کلی
معماری شبکه عصبی دو شاخه ای اصلاح شده پیشنهادی در شکل 2 نشان داده شده است که از شاخه فراطیفی برای استخراج ویژگی فضایی-طیفی و شاخه LiDAR برای استخراج ویژگی مرتبط با ارتفاع تشکیل شده است. ماژول ویژگی فیوژن برای ترکیب تطبیقی ویژگیهای هر شاخه مورد استفاده قرار گرفت و برچسب کلاس پس از لایه کاملاً متصل (FC) و طبقهبندی کننده softmax تعیین شد.
3.2. شاخه فراطیفی
معماری شاخه ابرطیفی پیشنهادی در شکل 3 نشان داده شده است . ورودی شاخه HSI یک پچ مربع در مرکز پیکسل pij با طول ضلع k است. از آنجایی که داده های فراطیفی دارای 144 باند هستند که برخی از آنها بسیار همبسته هستند، ما تجزیه و تحلیل مؤلفه های اصلی (PCA) را اتخاذ کردیم و 10 مؤلفه اول را انتخاب کردیم که بیش از 99 درصد از کل واریانس ها را تشکیل می دهد. بنابراین ورودی شاخه HSI یک پچ با اندازه k×k×10 بود.
اندازه ورودی و خروجی هر لایه از شاخه HSI در جدول 2 نشان داده شده است .
همانطور که در شکل 3 و جدول 2 نشان داده شده است ، شاخه HSI پیشنهادی عمدتاً از سه بلوک کانولوشن و دو لایه maxpooling تشکیل شده است. اولین بلوک کانولوشن شامل دو لایه کانولوشن یعنی Conv1 و Conv2 است که به ترتیب دارای 64 و 128 فیلتر هستند. بلوکهای کانولوشنال دوم و سوم هر دو از دو بلوک باقیمانده، یعنی بلوک باقیمانده-A و بلوک باقیمانده-B تشکیل شدهاند که ساختار و پارامترهای آنها در شکل 4 نشان داده شدهاند . در همین حال، یک لایه کانولوشنال اضافی، Conv3، برای افزایش ابعاد نقشه ویژگی از دومین بلوک Residual-A، که 128 است، برای مطابقت با بعد ورودی اولین بلوک Residual-B، که 256 است، استفاده شد.
همانطور که از شکل 4 مشاهده می شود ، ابعاد ورودی Residual block-A و B به ترتیب 6 × 6 × 128 و 3 × 3 × 256 است، در حالی که ابعاد خروجی مشابه ورودی است. ابعاد خروجی هر لایه کانولوشن نیز در شکل 4 نشان داده شده است . در مورد طراحی بلوک باقیمانده-A و -B، ما به بلوک باقیمانده سلسله مراتبی، موازی و چند مقیاسی پیشنهاد شده توسط Bulat [ 21 ] اشاره کردیم که می تواند اندازه میدان پذیرنده را افزایش داده و جریان گرادیان را همزمان بهبود بخشد. بلوک باقیمانده نشان داده شده در شکل 4 قبلاً با موفقیت در زمینه تشخیص نشانه های چهره استفاده شده است و عملکرد پیشرفته ای را نشان داده است [ 21]]. استفاده از دو بلوک باقیمانده آبشاری از شبکه تراز چهره (FAN) [ 22 ] الهام گرفته شد، که شبکههای آبشاری Hour Glass را برای استخراج ویژگیهای قویتر و نشاندهندهتر اتخاذ کرد. بنابراین، در این مطالعه، ما دو بلوک باقیمانده را نیز آبشاری کردیم تا قابلیت آن را برای استخراج ویژگیهای قوی و چند مقیاسی از مقادیر پیکسل مبدا افزایش دهیم. در همین حال، برای کاهش خطر بیش از حد، از تنظیم L2 برای پارامترهای تمام لایههای کانولوشن شاخه HSI استفاده کردیم. نرمال سازی دسته ای (BN) [ 31 ] نیز پس از هر لایه کانولوشن برای یک فرآیند آموزشی پایدار و برای جلوگیری از برازش بیش از حد در همان زمان استفاده شد.
علاوه بر این، تعیین اندازه بهینه پچ k بسیار مهم است. مجموعهای از آزمایشها با اندازههای پچ مختلف، از 9 تا 29، با توجه به وضوح فضایی دادهها و اندازه اشیاء علاقهمند انجام شد. شکل زیر منحنی اندازه پچ k در مقابل دقت کلی را نشان می دهد. همانطور که در شکل 5 نشان داده شده است، دقت کلی هنگامی که k = 11 بود، به بالاترین مقدار 91.87% رسید. هنگامی که اندازه پچ بزرگتر از 11 بود، دقت کلی با برخی نوسانات کاهش یافت. این عمدتا به این دلیل است که اندازه وصله بزرگتر می تواند نویز بیشتری نسبت به اطلاعات متنی برای شبکه عصبی کانولوشن به همراه داشته باشد. یکی دیگر از اشکالات اندازه بزرگتر وصله این است که می تواند منجر به تقسیم کمتر داده های سنجش از راه دور شود.
3.3. شعبه LiDAR
ورودی شاخه LiDAR نیز یک وصله مربعی در مرکز پیکسل pij با طول ضلع k = 11 است. با الهام از شبکه دو خطی [32 ] ، که از دو شبکه عصبی یکسان برای یادگیری ویژگی ها با مقیاس های مختلف در زمینه ریز استفاده می کند. طبقه بندی دانه بندی شده، ما شعبه LiDAR را از ساختار شبکه مشابه با شاخه HSI استفاده کردیم. در واقع طراحی دو شبکه مجزا می تواند هزینه زمانی را به میزان قابل توجهی افزایش دهد. با طراحی یکپارچه شاخه های HSI و LiDAR، اکنون فرموله کردن شبکه عصبی دو شاخه ای نهایی بسیار سریع و راحت است. از آنجایی که شاخه LiDAR قبلاً از بلوکهای باقیمانده آبشاری تشکیل شده بود، میتوانست همان طور که انتظار میرفت، ویژگیهای قوی و چند مقیاسی را از دادههای DSM مشتق شده از LiDAR استخراج کند.
3.4. ماژول فشار و برانگیختگی برای تلفیق ویژگی تطبیقی
همجوشی در سطح ویژگی باید پس از استخراج ویژگیهای فضایی-طیفی و ویژگیهای مربوط به ارتفاع از شاخه HSI و شاخه LiDAR انجام شود. انباشتن ویژگی یا الحاق ویژگی اغلب به عنوان روش ترکیب ویژگی در مطالعات قبلی استفاده می شود. با این حال، روش چیدمان ساده ویژگیهای مختلف در کنار هم اهمیت یا سهم هر یک از ویژگیها را در کار طبقهبندی نهایی در نظر نمیگیرد، که میتوان با اختصاص یک وزن خاص به هر ویژگی، آن را بهبود بخشید. با الهام از شبکه های فشار و برانگیختگی (SENet) [ 19]، که رتبه اول را در کار طبقهبندی تصویر چالش تشخیص تصویری مقیاس بزرگ ImageNet (ILSVRC) در سال 2017 کسب کرد، ما از ماژول Squeeze-and-Excitation برای یادگیری وزن خاصی برای هر ویژگی استفاده کردیم، بنابراین به یک وزن قویتر دست یافتیم. و روش ادغام ویژگی موثر نسبت به انباشتن ویژگی. معماری ماژول فیچر فیوژن در شکل 6 نشان داده شده است .
پیکربندی ماژول ویژگی فیوژن در جدول 3 نشان داده شده است که اندازه ورودی و خروجی هر لایه را نشان می دهد.
همانطور که در شکل 6 و جدول 3 نشان داده شده است، ویژگی های ورودی ماژول فیوژن از شاخه های HSI و LiDAR استخراج شده است که هر دو دارای ابعاد یکسانی 3 × 3 × 256 هستند. ویژگی های اصلی به طور جداگانه از دو SE موازی عبور می کنند. بلوک ها، پس از آن دوباره کالیبره یا وزن دهی می شوند. همانطور که مشاهده می شود، ویژگی های مجدد کالیبره شده از هر دو شاخه همچنان دارای ابعاد یکسان 3 × 3 × 256 هستند. پس از آن، آنها به ترتیب به ابعاد 1 × 1 × 2304 مسطح می شوند و سپس برای ایجاد یک بردار ویژگی با ابعاد به هم متصل می شوند. 1×1×4608. سپس، بردار الحاقی از یک لایه کاملاً متصل با 128 نورون عبور داده میشود و در نهایت به لایه softmax تغذیه میشود تا برچسبهای کلاس پیشبینیشده را تولید کند.
ساختار بلوک SE به شرح زیر است. برای هر ویژگی خاص U، آنها ابتدا از یک لایه ادغام میانگین جهانی (GAP) عبور می کنند تا یک توصیف کننده کانال تولید شود، که توزیع جهانی پاسخ های ویژگی از نظر کانال را تعبیه می کند. به دنبال آن دو لایه FC و یک لایه سیگموئید وجود دارد که در آن وزن خاص کانال را می توان از طریق مکانیزم خود دروازه ای مبتنی بر وابستگی به کانال آموخت. ویژگیهای خروجی بلوک SE قبلاً مجدداً کالیبره یا وزندهی شده بودند، که منجر به تأکید تطبیقی بر ویژگیهای آموزنده و سرکوب ویژگیهای کمتر مفید شد. ماژول SE در این مقاله میتواند در مقایسه با روش ترکیبی انباشتگی ویژگیهای سنتی، راه مؤثرتر و منطقیتری برای ادغام دادههای چند منبعی در سطح ویژگی ارائه دهد.
3.5. آموزش تقویت داده و شبکه
همانطور که مشخص است، آموزش یک مدل CNN عمیق به مقدار زیادی از داده های برچسب دار نیاز دارد. با این حال، برای برنامههای سنجش از راه دور، دستیابی به دادههای برچسبگذاریشده کافی دشوار و زمانبر است. برای پرداختن به این موضوع، در این مطالعه از تقویت داده ها استفاده شد. تکه های آموزشی اصلی 90 درجه، 180 درجه و 270 درجه چرخانده شدند، به چپ و راست، بالا و پایین چرخانده شدند تا تعداد نمونه های آموزشی افزایش یابد. علاوه بر این، کلاسهایی که نمونههای آموزشی کمتری داشتند، بیش از حد نمونهگیری شدند تا مشکل عدم تعادل کلاسی حل شود.
تمام پارامترهای شبکه دو شاخه پیشنهادی باید برای ایجاد بهترین مدل برای طبقهبندی کاربری اراضی شهری آموزش داده شوند. در این مطالعه از یک استراتژی آموزشی دو مرحله ای برای آموزش کل شبکه استفاده شد. در مرحله اول، شاخه های HSI و LiDAR به طور جداگانه با نرخ یادگیری اولیه بزرگتر 10-4 آموزش داده شدند . ثانیا، شاخه های HSI و LiDAR از پیش آموزش دیده از طریق ماژول تطبیقی ویژگی تطبیقی ادغام شدند و کل شبکه با نرخ یادگیری اولیه کوچکتر 10-5 تنظیم شد . بهینه ساز Adam [ 33 ] به دلیل قابلیت تنظیم خودکار نرخ یادگیری مورد استفاده قرار گرفت، که می تواند منجر به یک روند آموزشی سریعتر و پایدارتر شود.
از دست دادن کانونی [ 20 ] به عنوان تابع از دست دادن در این مطالعه به جای از دست دادن متقابل آنتروپی سنتی استفاده شد. این عمدتاً به این دلیل است که از دست دادن کانونی دارای مزیت کاهش وزن تخصیص داده شده به نمونه های طبقه بندی شده است، که از غلبه بر تعداد زیادی از نمونه های آسان بر طبقه بندی کننده در طول آموزش جلوگیری می کند [20 ] .
در این مطالعه 90 درصد از مجموعه آموزشی به صورت تصادفی برای بهینه سازی پارامترهای شبکه عصبی دو شاخه ای پیشنهادی انتخاب شد. 10 درصد باقی مانده از نمونه های آموزشی به عنوان مجموعه اعتبارسنجی برای توجیه عملکرد شبکه در طول فرآیند آموزش استفاده شد. در مورد مجموعه تست، تنها برای محاسبه دقت کلی نهایی و ماتریس سردرگمی پس از آموزش خوب شبکه استفاده شد.
شبکه دو شاخه پیشنهادی با کتابخانه TensorFlow [ 34 ] در سیستم عامل اوبونتو 16.04 با پردازنده مرکزی Intel CORE i7-7800 @ 3.5 گیگاهرتز و GPU NVIDIA GTX TitanX با حافظه 12 گیگابایتی آموزش داده شد.
3.6. ارزیابی دقت
به منظور ارزیابی عملکرد شبکه دو شاخه پیشنهادی برای طبقهبندی کاربری اراضی شهری، هم ارزیابی بصری و هم یک ماتریس سردرگمی در این مطالعه اتخاذ شد. بازرسی بصری برای بررسی جلوههای بصری استفاده شد، در حالی که ماتریس سردرگمی، به دست آمده از نمونههای آزمایشی، برای ارزیابی کمی دقت طبقهبندی روش پیشنهادی استفاده شد. لازم به ذکر است که تمامی نمونه های آزمایشی مربوط به مسابقه 2013 IEEE GRSS Data Fusion می باشند که مانند مرجع [ 28 ] می باشد.
4. نتایج و بحث
4.1. نتایج طبقه بندی کاربری اراضی شهری
به منظور ارزیابی عملکرد شبکه عصبی دو شاخه ای پیشنهادی برای نقشه برداری کاربری اراضی شهری، مجموعه ای از نقشه های طبقه بندی در شکل 7 شامل موارد زیر نشان داده شده است:
(الف) فقط شاخه HSI، یعنی فقط از داده های HSI و شاخه HSI برای طبقه بندی استفاده می کند.
(ب) فقط شاخه LiDAR، یعنی فقط از داده های LiDAR و شاخه LiDAR برای طبقه بندی استفاده می کند.
(ج) CNN دو شاخه ای پیشنهادی.
بدیهی است که استفاده مصنوعی از دادههای HSI و LiDAR منجر به یک نقشه طبقهبندی با جلوه بصری بهتر و کیفیت بالاتر در مقایسه با نتایج تنها شاخه HSI و فقط شاخه LiDAR میشود.
در همین حال، شاخه HSI نقشه طبقه بندی بهتری با خطاهای کمتر نسبت به شاخه LiDAR ارائه می دهد. با این حال، به دلیل واریانس طیفی زیاد انواع مختلف کاربری اراضی شهری، دادههای فراطیفی به تنهایی میتواند منجر به نتایج طبقهبندی نادرست شود. به عنوان مثال، ناحیه شرقی تصویر توسط برخی ابرها پوشیده شده است، که منجر به اعوجاج طیفی برخی از انواع کاربریها میشود و در نتیجه خطاهای طبقهبندی بیشتری ایجاد میشود. داده های LiDAR به تنهایی حاوی اطلاعات کافی برای تمایز اشیاء پیچیده شهری، به ویژه برای اشیاء مختلف با ارتفاع یکسان یا مشابه نیستند. با این وجود، ادغام داده های HSI و LiDAR می تواند از معایب فوق جلوگیری کند و از ویژگی های طیفی تصویر HSI و اطلاعات هندسی داده های LiDAR بهره مند شود.
4.2. نتایج دقت-ارزیابی
به منظور ارزیابی کمی رویکرد پیشنهادی در مطالعه، ماتریس سردرگمی به همراه دقت کلی (OA) و ضریب کاپا بر اساس نمونههای آزمایشی محاسبه شد. نتایج در جدول 4 نشان داده شده است .
شبکه دو شاخه پیشنهادی با OA 91.87% و کاپا 0.9117 عملکرد خوبی را نشان می دهد. با این حال، کلاس بزرگراه دارای کمترین دقت تولید کننده (PA) با 80.89٪ بود، در حالی که همه کلاس های دیگر دارای PA بالاتر بیش از 83٪ بودند. این می تواند به دلیل مخلوط طیفی بین بزرگراه و سایر انواع سطوح غیرقابل نفوذ، مانند راه آهن و مناطق تجاری باشد، زیرا همه آنها از مواد بتنی تشکیل شده اند. همچنین لازم به ذکر است که تمام نمونههای آموزشی بزرگراهی خارج از مناطق ابری هستند، در حالی که نزدیک به نیمی از نمونههای تست بزرگراه از مناطق تحت پوشش ابر هستند. این می تواند باعث ناسازگاری طیفی بین نمونه های آموزشی و آزمایشی کلاس بزرگراه شود که می تواند منجر به دقت طبقه بندی نسبتاً پایین تر شود.
علاوه بر این، ماتریس سردرگمی نشان میدهد که بیشتر خطاهای طبقهبندی در میان انواع کاربریهای زیر رخ داده است: بزرگراه، راهآهن، جاده، و پارکینگ 1. این عمدتاً به این دلیل است که همه آن دستههای کاربری به سطوح غیرقابل نفوذی تعلق دارند که ویژگیهای طیفی مشابهی دارند. . بزرگراه، راهآهن و جاده نیز ویژگیهای شکل مشابهی دارند، که میتواند دشواری در جداسازی بین آنها با استفاده از یک مدل CNN مبتنی بر پچ را افزایش دهد، زیرا CNN هنگام طبقهبندی هر پیکسل، اطلاعات زمینهای مکانی را در نظر میگیرد. سایر خطاها در مواردی رخ داد که چندین پیکسل چمن سالم و چمن تحت فشار به اشتباه به عنوان راه آهن طبقه بندی شدند. این در طبقه بندی تصاویر سنجش از دور غیر معمول است، زیرا چمن و راه آهن ویژگی های طیفی متفاوتی دارند. با این حال، هنگام بررسی نقشه طبقه بندی، در مناطق پوشیده از ابر شرقی است که چندین منطقه چمن به اشتباه به عنوان راه آهن طبقه بندی شدند. این عمدتا به این دلیل است که وجود ابرهای سنگین منحنی های طیفی چمن را مخدوش کرده است که منجر به اشتباهات طبقه بندی غیر معمول می شود.
4.3. تجزیه و تحلیل فرسایش
برای ارزیابی بیشتر عملکرد روش پیشنهادی، مجموعهای از آزمایشهای فرسایشی انجام شد که شامل: (الف) فقط شاخه HSI، (ب) فقط شاخه LiDAR، و (ج) انباشتگی ویژگی (یعنی با استفاده از ویژگیهای انباشته یا پیوسته). HSI و LiDAR به جای همجوشی تطبیقی برای طبقه بندی). نتایج دقت طبقه بندی در سطح کلاس در جدول 5 نشان داده شده است که شامل هر سه مورد فوق به همراه شبکه دو شاخه ای پیشنهادی است.
جدول 5 نشان می دهد که شاخه LiDAR به تنهایی کمترین دقت طبقه بندی را با OA 53.42% و کاپا 0.4967 به دست آورده است. این عمدتا به دلیل این واقعیت است که اطلاعات ارتفاع به تنهایی به سختی می تواند انواع مختلف کاربری زمین را در مناطق پیچیده شهری تفکیک کند. در همین حال، شاخه HSI به تنهایی به دقت بسیار بالاتری نسبت به شاخه LiDAR با OA 83.83% و کاپا 0.8244 دست یافت. دلیل اینکه شاخه HSI به تنهایی از شاخه LiDAR به تنهایی بهتر عمل می کند این است که تصاویر HSI می توانند اطلاعات طیفی و فضایی بسیار بیشتری از سطوح زمین نسبت به DSM های مشتق شده از LiDAR ارائه دهند که منجر به توانایی بالاتر در تمایز انواع کاربری های شهری پیچیده می شود.
جدول 5همچنین نشان میدهد که در مقایسه با دادههای تک منبعی به تنهایی، ادغام دادههای HSI و LiDAR چند منبعی منجر به بهبود قابلتوجهی در دقت طبقهبندی برای تقریباً هر طبقه کاربری زمین شهری میشود. این معقول است زیرا اگر ما به طور همزمان چندین ویژگی طیفی و ارتفاعی را ادغام کنیم، تفکیک پذیری اشیاء شهری می تواند افزایش یابد. در مقایسه با داده های ابرطیفی به تنهایی، ادغام داده های LiDAR OA را به ترتیب 4.42% و 8.04% از طریق ویژگی های stacking و شبکه دو شاخه پیشنهادی بهبود بخشید. از نظر دقت در سطح کلاس، سهم اصلی دادههای LiDAR در کلاسهای زیر بود: چمن مصنوعی، درخت، خاک، آب، تجاری، راهآهن و پارکینگ 1 و 2. این به دلیل برخی از کلاسها است (مثلاً ، چمن و درخت) دارای ویژگی های طیفی بسیار مشابه اما دارای مقادیر ارتفاع متفاوت. بنابراین، گنجاندن DSM های مشتق شده از LiDAR می تواند به طور قابل توجهی تفکیک پذیری بین این کلاس ها را بهبود بخشد.
لازم به ذکر است که شبکه دو شاخه پیشنهادی که از ترکیب ویژگی های تطبیقی استفاده می کند، با بهبود OA از 88.25% به 91.87% با افزایش 3.62% از روش سنتی انباشتگی ویژگی بهتر عمل می کند. این به این دلیل است که وقتی همه ویژگیها را کنار هم قرار میدهیم، مقادیر هر ویژگی میتواند به طور قابل توجهی نامتعادل باشد و اطلاعات حمل شده توسط هر ویژگی ممکن است به یک اندازه نمایش داده نشود. بنابراین، ماژول فشرده سازی و تحریک تطبیقی را معرفی کردیم تا به طور خودکار وزنی را به هر ویژگی با توجه به اهمیت آن اختصاص دهیم که می تواند چندین ویژگی را به روشی طبیعی و معقول تر ادغام کند و در نتیجه دقت 3.62 درصد بهبود یابد.
از آنجایی که رویکرد پیشنهادی از یک وصله پیکسل محور به عنوان ورودی شبکه استفاده میکند، آزمایشهای مقایسهای بیشتری باید برای مقایسه عملکرد بین طبقهبندی مبتنی بر پیکسل و مبتنی بر وصله، و برای بررسی تأثیر رویکردهای PCA و غیرPCA انجام شود. . بنابراین، یک سری آزمایشات فرسایشی انجام شد و نتایج مقایسه در جدول زیر نشان داده شده است.
به طور خاص، از آنجایی که ورودی به بردارهای پیکسل 1 بعدی تغییر کرد، همه لایههای کانولوشنال دوبعدی CNN دو شاخهای مبتنی بر وصله اصلی با لایههای کانولوشنال 1 بعدی در CNN مبتنی بر پیکسل جایگزین شدند، در حالی که همه پارامترها یکسان باقی ماندند. همانطور که از جدول 6 مشاهده می شودمدلهای مبتنی بر وصله عملکرد بهتری نسبت به مدلهای مبتنی بر پیکسل با افزایش دقت 7.89 درصد و 5.82 درصد برای رویکردهای غیر PCA و PCA داشتند. این عمدتا به این دلیل است که در مقایسه با مدل مبتنی بر پچ، مدل مبتنی بر پیکسل فقط ویژگیهای طیفی شی زمین را در نظر میگیرد. با این حال، مدل مبتنی بر پچ میتواند هم اطلاعات زمینهای طیفی و هم فضایی را در نظر بگیرد، که منجر به ویژگیهای متمایزتر و نمایندهتر میشود که برای طبقهبندی ضروری هستند. در مقایسه با رویکردهای غیرPCA، استفاده از PCA تأثیر مثبتی بر طبقهبندی دارد که منجر به افزایش دقت 4.56% و 2.49% برای مدلهای مبتنی بر پیکسل و مبتنی بر پچ میشود. این به دلیل این واقعیت است که PCA می تواند به طور موثری افزونگی داده های تصاویر ابرطیفی اصلی را کاهش دهد.
علاوه بر این، رویکرد پیشنهادی میتواند به عنوان یک چارچوب مرجع برای ترکیب دادههای چند منبعی در زمینه سنجش از دور در نظر گرفته شود.
4.4. مقایسه با سایر روش ها
برای توجیه بیشتر عملکرد رویکرد پیشنهادی، باید آن را با سایر روشهای یادگیری ماشینی پرکاربرد، مانند جنگل تصادفی (RF) [35]، ماشینهای بردار پشتیبان (SVM) [ 36 ]، و وضعیت موجود مقایسه کرد. -روش های هنری
برای RF، ضریب جینی به عنوان شاخص برای انتخاب ویژگی استفاده شد. برای SVM، تابع پایه شعاعی (RBF) به عنوان تابع هسته استفاده شد. در مورد تعیین فراپارامترهای RF و SVM، ما از روش جستجوی شبکه ای برای یافتن مقادیر بهینه استفاده کردیم. به طور خاص، محدوده پارامترهای مورد استفاده برای RF به شرح زیر است. تعداد درختان از 50 تا 500 با گام 10 متغیر بود، در حالی که حداکثر عمق دارای محدوده 5 تا 15 با گام 2 بود. C دارای محدوده 10 تا 200 با گام 10 بود. پس از روش جستجوی شبکه، RF بهترین دقت کلی 83.97% را زمانی که تعداد درختان 200 و حداکثر عمق 13 بود به دست آورد. در همین حال، SVM بهترین را به دست آورد. دقت 84.16% با گامای 0.01 و C برابر 100.
در همین حال، مدل Xu [ 28 ] را بهعنوان یک خط پایه قوی انتخاب کردیم زیرا برای اولین بار از CNN دو شاخهای برای ترکیب دادههای HSI و LiDAR استفاده کرد و به OA 87.98% نیز در مجموعه دادههای آزمایشی IEEE GRSS Data Fusion Contest در سال 2013 دست یافت . تمامی روشهای فوق با همان نمونههای آموزشی و آزمایشی روش پیشنهادی برای حفظ انصاف آموزش و آزمایش شدند. نتایج مقایسه دقت در جدول 7 فهرست شده است .
جدول 7 نشان می دهد که CNN دو شاخه ای اصلاح شده پیشنهادی ما عملکرد بهتری از RF و SVM با بهبود OA به ترتیب 7.90% و 7.71% داشت. این مورد انتظار بود زیرا در مقایسه با روشهای سنتی یادگیری ماشینی، CNN میتوانست ویژگیهای فضایی سطح بالا انواع کاربریهای شهری پیچیده و تکهتکهشده را بیاموزد، که منجر به یک نتیجه طبقهبندی قویتر و دقیقتر شد.
در مقایسه با مدل پیشرفته Xu، روش پیشنهادی در این مطالعه OA را از 87.98% به 91.87% با افزایش 3.89% بهبود داد. با این حال، هنگام استفاده از ویژگیهای انباشته، CNN دو شاخهای اصلاحشده در این مطالعه تنها به افزایش جزئی دقت 0.27 درصدی نسبت به مدل Xu دست یافت. این نشان میدهد که، در مقایسه با اصلاح ساختار شبکه، معرفی ماژول فیوژن ویژگی بیشتر به افزایش دقت طبقهبندی کمک کرد. این به این دلیل است که ماژول فیوژن ویژگی میتواند اهمیت هر ویژگی را بیاموزد، که میتواند بر ویژگیهای مؤثرتر تأکید کند و در عین حال ویژگیهای کمآموزنده را سرکوب کند، و منجر به یک استراتژی همجوشی معقولتر و قویتر برای دادههای سنجش از راه دور چند منبعی شود.
همانطور که در بالا گفته شد، روش تلفیقی این مطالعه از خود ساختار مدل موثرتر است، بنابراین مقایسه جامعتری با روشهای موجود ضروری است. در واقع، همانطور که در مقدمه گفته شد، بیشتر مطالعات فیوژن سطح ویژگی به سادگی ویژگیهای دادههای LiDAR و HSI را روی هم چیده و به هم متصل کرده و سپس طبقهبندی را بر اساس طبقهبندیکنندههای یادگیری ماشینی مانند درخت تصمیم، ماشین بردار پشتیبان و تصادفی انجام دادند. جنگل. مطالعات مربوطه عبارتند از Man et al. [ 9 ]، گونزالس و همکاران. [ 14 ]، ساساکی و همکاران. [ 16]. با این حال، این رویکردها به همه ویژگیها اهمیت یکسانی میدادند که میتوانست اطلاعات اضافی و نویز اضافی را به همراه داشته باشد. متفاوت از آن روشهای انباشتگی ویژگی، رویکرد ترکیب ویژگیها در این مطالعه اهمیت ویژگیهای چند منبعی را در نظر میگیرد، که میتواند به طور موثری آن ویژگیهای آموزنده را برجسته کند و در عین حال موارد پر سر و صدا را کاهش دهد. در همین حال، برخی از روشهای موجود، یک مدل ترکیب ویژگی برای بازسازی ویژگیهای چند منبعی برای افزایش عملکرد طبقهبندی طراحی کردند. یک مثال عینی مطالعه دبس [ 8]، که در آن از یک مدل همجوشی مبتنی بر نمودار برای بازتاب مجدد همه ویژگیها در یک زیرفضای کمبعد برای افزایش استحکام ویژگیهای ذوب شده استفاده شد. در واقع، ویژگیهای تازه بازسازیشده با نویزهای کمتر آموزندهتر بودند، با این حال، این روش در مقایسه با رویکرد ما، که در آن همه ویژگیهای اصلی مستقیماً در مدل ویژگی-تلفیقی ما وزندهی میشوند، چندان ساده نبود. با این وجود، روش همجوشی مبتنی بر نمودار را می توان در مدل یادگیری عمیق در تحقیقات آینده معرفی کرد.
5. نتیجه گیری ها
این مقاله یک شبکه عصبی کانولوشنال دو شاخه ای اصلاح شده را برای نقشه برداری کاربری زمین شهری با استفاده از داده های ابرطیفی چند منبعی و LiDAR پیشنهاد می کند. شبکه دو شاخه پیشنهادی شامل یک شاخه HSI و یک شعبه LiDAR است که هر دو ساختار شبکه یکسانی را به اشتراک میگذارند تا بار و هزینه زمانی طراحی شبکه کاهش یابد. در شاخه های HSI و LiDAR، یک بلوک باقیمانده سلسله مراتبی، موازی و چند مقیاسی استفاده شد که می تواند به طور همزمان اندازه میدان پذیرنده را افزایش دهد و جریان گرادیان را بهبود بخشد. یک ماژول فیوژن ویژگی تطبیقی مبتنی بر شبکه فشرده سازی و تحریک برای ترکیب ویژگی های HSI و LiDAR پیشنهاد شد که می تواند ویژگی های چند منبعی را به روشی طبیعی و معقول ادغام کند. نتایج آزمایش نشان داد که شبکه دو شاخه پیشنهادی عملکرد خوبی داشت. با OA تقریباً 92٪ در مجموعه داده IEEE GRSS Data Fusion Contest در سال 2013. در مقایسه با داده های فراطیفی به تنهایی، معرفی داده های LiDAR OA را از تقریباً 84 درصد به 92 درصد افزایش داد که نشان می دهد ادغام داده های چند منبعی می تواند دقت طبقه بندی را در مناظر پیچیده شهری بهبود بخشد. روش همجوشی تطبیقی پیشنهادی در مقایسه با روش انباشتگی ویژگیهای سنتی، که سودمندی آن را در ترکیب دادههای چند منبعی توجیه میکند، دقت را بیش از 3 درصد افزایش داد. CNN دو شاخه ای در این مقاله همچنین از روش های سنتی یادگیری ماشینی، مانند جنگل تصادفی و ماشین های بردار پشتیبانی، بهتر عمل کرد. که نشان می دهد که ادغام داده های چند منبعی می تواند دقت طبقه بندی را در مناظر پیچیده شهری بهبود بخشد. روش همجوشی تطبیقی پیشنهادی در مقایسه با روش انباشتگی ویژگیهای سنتی، که سودمندی آن را در ترکیب دادههای چند منبعی توجیه میکند، دقت را بیش از 3 درصد افزایش داد. CNN دو شاخه ای در این مقاله همچنین از روش های سنتی یادگیری ماشینی، مانند جنگل تصادفی و ماشین های بردار پشتیبانی، بهتر عمل کرد. که نشان می دهد که ادغام داده های چند منبعی می تواند دقت طبقه بندی را در مناظر پیچیده شهری بهبود بخشد. روش همجوشی تطبیقی پیشنهادی در مقایسه با روش انباشتگی ویژگیهای سنتی، که سودمندی آن را در ترکیب دادههای چند منبعی توجیه میکند، دقت را بیش از 3 درصد افزایش داد. CNN دو شاخه ای در این مقاله همچنین از روش های سنتی یادگیری ماشینی، مانند جنگل تصادفی و ماشین های بردار پشتیبانی، بهتر عمل کرد.
این مقاله نشان میدهد که شبکه دو شاخه اصلاحشده میتواند به طور موثر ویژگیهای چند منبعی را از دادههای ابرطیفی و LiDAR یکپارچه کند و عملکرد خوبی را در نقشهبرداری کاربری زمین شهری نشان دهد. کار آینده باید بر روی مجموعه داده های بیشتری برای توجیه بیشتر عملکرد روش پیشنهادی انجام شود.
منابع
- چن، ایکس. ژائو، اچ. لی، پی. یین، زی. تحلیل مبتنی بر تصویر سنجش از دور رابطه بین جزیره گرمایی شهری و تغییرات کاربری/پوشش زمین. سنسور از راه دور محیط. 2006 ، 104 ، 133-146. [ Google Scholar ] [ CrossRef ]
- Myint، SW; گوبر، پ. برازل، ا. گروسمن کلارک، اس. Weng، Q. طبقهبندی بر پیکسل در مقابل شیء مبتنی بر استخراج پوشش زمین شهری با استفاده از تصاویر با وضوح فضایی بالا. سنسور از راه دور محیط. 2011 ، 115 ، 1145-1161. [ Google Scholar ] [ CrossRef ]
- لو، دی. هتریک، اس. موران، ای. طبقهبندی پوشش زمین در منظر شهری-روستایی پیچیده با تصاویر QuickBird. فتوگرام مهندس Remote Sens. 2010 , 10 , 1159-1168. [ Google Scholar ] [ CrossRef ]
- پاول، RL; رابرتز، دی. دنیسون، PE; هس، LL نقشه برداری زیر پیکسلی پوشش زمین شهری با استفاده از تجزیه و تحلیل مخلوط طیفی چند عضو انتهایی: مانائوس، برزیل. سنسور از راه دور محیط. 2007 ، 106 ، 253-267. [ Google Scholar ] [ CrossRef ]
- پو، آر. لندری، اس. Yu, Q. طبقه بندی دقیق پوشش زمین شهری مبتنی بر شی با تصاویر IKONOS با وضوح فضایی بالا. بین المللی J. Remote Sens. 2011 , 32 , 3285-3308. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- دمارچی، ال. کانترز، اف. کاریو، سی. لیکیاردی، جی. چان، JC ارزیابی عملکرد دو تکنیک کاهش ابعاد بدون نظارت بر روی دادههای APEX ابرطیفی برای نقشهبرداری پوشش زمین شهری با وضوح بالا. ISPRS J. Photogramm. Remote Sens. 2014 , 87 , 166-179. [ Google Scholar ] [ CrossRef ]
- تانگ، ایکس. زی، اچ. Weng, Q. طبقه بندی پوشش زمین شهری با داده های ابرطیفی هوابرد: از چه ویژگی هایی استفاده کنیم؟ IEEE J. Sel. بالا. Appl. زمین Obs. Remote Sens. 2014 , 7 , 3998–4009. [ Google Scholar ] [ CrossRef ]
- دبس، سی. مرنتیت، A. هرمانز، آر. هان، جی. فرانگیاداکیس، ن. Kasteren، تلویزیون; لیائو، دبلیو. بلنز، آر. پیزوریکا، ا. گوتاما، اس. و همکاران فراطیفی و LiDAR Data Fusion: نتیجه مسابقه 2013 GRSS Data Fusion. IEEE J. Sel. بالا. Appl. زمین Obs. Remote Sens. 2014 , 7 , 2405–2418. [ Google Scholar ] [ CrossRef ]
- مرد، س. دونگ، پی. گوا، اچ. ادغام دادههای ابرطیفی و لیدار در سطح پیکسل و ویژگی برای طبقهبندی کاربری زمین شهری. بین المللی J. Remote Sens. 2015 ، 36 ، 1618-1644. [ Google Scholar ] [ CrossRef ]
- دالپونته، ام. بروزون، ال. Gianelle، D. تلفیق داده های سنجش از دور ابرطیفی و LIDAR برای طبقه بندی مناطق جنگلی پیچیده. IEEE Trans. Geosci. Remote Sens. 2008 , 46 , 1416-1427. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- سانکی، تی. دوناجر، ج. مک وی، جی. Sankey، JB UAV Lidar و همجوشی فراطیفی برای نظارت بر جنگل در جنوب غربی ایالات متحده. سنسور از راه دور محیط. 2017 ، 195 ، 30-43. [ Google Scholar ] [ CrossRef ]
- کرستوری، جی. شفر، LN; شلیفارت، WK; پروکتر، جی. پولانگاری، RR; مید، اس. کندی، بی. ادغام تصاویر ابرطیفی هوابرد و LiDAR برای نقشه برداری و نظارت بر آتشفشان از طریق طبقه بندی تصویر. بین المللی J. Appl. زمین Obs. Geoinf. 2018 ، 73 ، 323-339. [ Google Scholar ] [ CrossRef ]
- لیو، ایکس. Bo, Y. طبقهبندی گونههای محصول مبتنی بر شیء بر اساس ترکیب تصاویر فراطیفی هوا و دادههای LiDAR. Remote Sens. 2015 ، 7 ، 922–950. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- گونزالس، آر اس؛ لطیفی، ح. ویناکر، اچ. دیس، م. کوچ، بی. هیوریچ، ام. یکپارچه سازی LiDAR و تصاویر با وضوح بالا برای نقشه برداری مبتنی بر شی از زیستگاه های جنگلی در یک چشم انداز جنگلی معتدل ناهمگن. بین المللی J. Remote Sens. 2018 ، 1-26. [ Google Scholar ] [ CrossRef ]
- ساساکی، تی. ایمانیشی، ج. آیوکی، ک. موریموتو، ی. Kitada، K. طبقهبندی مبتنی بر شیء پوشش زمین و گونههای درختی با ادغام دادههای تصویری LiDAR هوابرد و وضوح فضایی بالا. Landsc. Ecol. مهندس 2012 ، 8 ، 157-171. [ Google Scholar ] [ CrossRef ]
- استوری، م. فروتونی، ای. پیردیکا، آر. مانچینی، آ. Malinverni، ES; Tassetti، AN; Zingaretti، P. ادغام دادههای ارتفاعی و تصاویر چندطیفی با وضوح بالا برای نقشهبرداری ترکیبی کاربری اراضی/پوشش زمین. یورو J. Remote Sens. 2017 ، 50 ، 1-17. [ Google Scholar ] [ CrossRef ]
- LeCun، Y.; بنژیو، ی. هینتون، جی. یادگیری عمیق. طبیعت 2015 ، 521 ، 436-444. [ Google Scholar ] [ CrossRef ]
- کریژفسکی، آ. سوتسکور، آی. هینتون، GE Imagenet طبقه بندی با شبکه های عصبی کانولوشن عمیق. در مجموعه مقالات پیشرفت در سیستم های پردازش اطلاعات عصبی (NIPS)، دریاچه تاهو، NV، ایالات متحده، 3-6 دسامبر 2012. ص 1097-1105. [ Google Scholar ]
- هو، جی. شن، ال. Sun، G. شبکه های فشار و برانگیختگی. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، سالت لیک سیتی، UT، ایالات متحده آمریکا، 18 تا 22 ژوئن 2018. [ Google Scholar ]
- لین، TY; گویال، پ. گیرشیک، آر. او، ک. دلار، P. از دست دادن کانونی برای تشخیص اجسام متراکم. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر (ICCV)، ونیز، ایتالیا، 22 تا 29 اکتبر 2017؛ صفحات 2999-3007. [ Google Scholar ]
- بولات، ا. تزیمیروپولوس، G. بومی سازهای کانولوشنال باینریزه شده برای تخمین حالت انسانی و همترازی چهره با منابع محدود. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر (ICCV)، ونیز، ایتالیا، 22 تا 29 اکتبر 2017؛ صص 3706-3714. [ Google Scholar ]
- بولات، ا. تزیمیروپولوس، جی. چقدر تا حل مشکل تراز چهره دو بعدی و سه بعدی فاصله داریم؟ (و مجموعه داده ای از 230000 نشانه سه بعدی چهره). در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر (ICCV)، ونیز، ایتالیا، 22 تا 29 اکتبر 2017؛ ص 1021-1030. [ Google Scholar ]
- زو، ایکس. تویا، دی. مو، ال. شیا، جی. ژانگ، ال. خو، اف. Fraundorfer، F. یادگیری عمیق در سنجش از دور: بررسی جامع و فهرست منابع. IEEE Geosci. سنسور از راه دور Mag. 2017 ، 5 ، 8-36. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- الشهی، ر. Marpu، PR; وون، WL; Mura, MD استخراج همزمان جاده ها و ساختمان ها در تصاویر سنجش از دور با شبکه های عصبی کانولوشن. ISPRS J. Photogramm. Remote Sens. 2017 ، 130 ، 139-149. [ Google Scholar ] [ CrossRef ]
- رضایی، م. مهدیان پری، م. ژانگ، ی. صالحی، ب. شبکه عصبی کانولوشن عمیق برای طبقه بندی تالاب های پیچیده با استفاده از تصاویر سنجش از دور نوری. IEEE J. Sel. بالا. Appl. زمین Obs. Remote Sens. 2018 , 11 , 3030–3039. [ Google Scholar ] [ CrossRef ]
- چن، ی. فن، آر. بلال، م. یانگ، ایکس. وانگ، جی. Li, W. تشخیص ابر چند سطحی برای تصاویر سنجش از دور با وضوح بالا با استفاده از شبکه های عصبی کانولوشنال چندگانه. ISPRS Int. J. Geo-Inf. 2018 ، 7 ، 181. [ Google Scholar ] [ CrossRef ]
- روسبورم، ام. Körner, M. طبقهبندی پوشش زمین چندزمانی با رمزگذارهای تکراری متوالی. ISPRS Int. J. Geo-Inf. 2018 ، 7 ، 129. [ Google Scholar ] [ CrossRef ]
- خو، X. لی، دبلیو. ران، کیو. دو، س. گائو، ال. Zhang، B. طبقه بندی داده های سنجش از دور چند منبعی بر اساس شبکه عصبی کانولوشن. IEEE Trans. Geosci. Remote Sens. 2018 , 56 , 937–949. [ Google Scholar ] [ CrossRef ]
- هوانگ، بی. ژائو، بی. Song، Y. نقشهبرداری کاربری زمین شهری با استفاده از یک شبکه عصبی پیچیده عمیق با تصاویر سنجش از دور چندطیفی با وضوح فضایی بالا. سنسور از راه دور محیط. 2018 ، 214 ، 73-86. [ Google Scholar ] [ CrossRef ]
- هیوز، LH؛ اشمیت، ام. مو، ال. وانگ، ی. Zhu، X. شناسایی وصله های متناظر در SAR و تصاویر نوری با CNN شبه سیامی. IEEE Geosci. سنسور از راه دور Lett. 2018 ، 15 ، 784-788. [ Google Scholar ] [ CrossRef ]
- آیوف، اس. Szegedy, C. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. arXiv , 2015; arXiv:1502.03167. [ Google Scholar ]
- لین، TY; رویچادری، ای. مدلهای دوخطی CNN Maji، S. برای تشخیص بصری ریز. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر (ICCV)، سانتیاگو، شیلی، 13 تا 16 دسامبر 2015. ص 1449-1457. [ Google Scholar ]
- Kingma، DP; با، جی. آدام: روشی برای بهینه سازی تصادفی. arXiv , 2014; arXiv:1412.6980. [ Google Scholar ]
- TensorFlow. در دسترس آنلاین: https://tensorflow.google.cn/ (در 3 نوامبر 2018 قابل دسترسی است).
- بریمن، L. جنگل های تصادفی. ماخ فرا گرفتن. 2001 ، 45 ، 5-32. [ Google Scholar ] [ CrossRef ]
- چاپل، او. واپنیک، وی. بوسکت، او. موکرجی، اس. انتخاب چند پارامتر برای ماشینهای بردار پشتیبان. ماخ فرا گرفتن. 2002 ، 46 ، 131-159. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
شکل 1. مجموعه داده ها، آموزش و نمونه های آزمایشی مورد استفاده در این مطالعه.
شکل 2. معماری شبکه عصبی کانولوشنال دو شاخه ای پیشنهادی.
شکل 3. معماری شاخه تصویر ابرطیفی پیشنهادی (HSI).
شکل 4. معماری Residual block-A و Residual block-B در شاخه HSI. O: خروجی؛ ج: الحاق. +: جمع
شکل 5. اندازه پچ k در مقابل دقت کلی.
شکل 6. ساختار ماژول ویژگی تطبیقی تطبیقی. ج: الحاق; ×: تولید نقطه ای.
شکل 7. نقشه های طبقه بندی فقط برای ( الف ) شاخه HSI. ( ب ) فقط شعبه LiDAR. ( ج ) CNN دو شاخه ای را پیشنهاد کرد.
بدون دیدگاه