ترکیب داده‌های ابرطیفی چندمنبعی و LiDAR برای نقشه‌برداری کاربری زمین شهری بر اساس یک شبکه عصبی کانولوشنال دو شاخه اصلاح شده

خلاصه

نقشه برداری دقیق کاربری اراضی شهری یک کار چالش برانگیز در زمینه سنجش از دور است. با در دسترس بودن سنسورهای راه دور متنوع، استفاده مصنوعی و ادغام داده‌های چند منبعی فرصتی برای بهبود دقت طبقه‌بندی کاربری اراضی شهری فراهم می‌کند. شبکه‌های عصبی برای یادگیری عمیق به نتایج بسیار امیدوارکننده‌ای در وظایف بینایی کامپیوتری مانند طبقه‌بندی تصویر و تشخیص اشیا دست یافته‌اند. با این حال، مشکل طراحی یک مدل یادگیری عمیق موثر برای ادغام داده های سنجش از راه دور چند منبعی هنوز باقی است. برای مقابله با این موضوع، این مقاله یک شبکه عصبی کانولوشنال دو شاخه ای اصلاح شده برای ادغام تطبیقی ​​تصاویر فراطیفی (HSI) و داده های تشخیص نور و محدوده (LiDAR) پیشنهاد می کند. به طور خاص، مدل پیشنهادی شامل یک شاخه HSI و یک شاخه LiDAR است. به اشتراک گذاری ساختار شبکه یکسان برای کاهش هزینه زمانی طراحی شبکه. یک بلوک باقیمانده در هر شاخه برای استخراج ویژگی های سلسله مراتبی، موازی و چند مقیاسی استفاده می شود. یک ماژول فیوژن با ویژگی تطبیقی ​​برای ادغام ویژگی‌های HSI و LiDAR به روشی معقول‌تر و طبیعی‌تر (بر اساس «شبکه‌های فشرده و تحریک») پیشنهاد شده است. آزمایشات نشان می دهد که شبکه دو شاخه پیشنهادی عملکرد خوبی را با دقت کلی تقریباً 92 درصد نشان می دهد. در مقایسه با داده های تک منبعی، معرفی داده های چند منبعی دقت را حداقل تا 8 درصد بهبود می بخشد. مدل همجوشی تطبیقی ​​همچنین می‌تواند دقت طبقه‌بندی را در مقایسه با روش انباشتگی ویژگی (الحاق ساده) بیش از 3 درصد افزایش دهد.
دوره آموزش حرفه ای gis

کلید واژه ها:

شبکه های عصبی کانولوشنال ; داده های چند منبعی ؛ فیوژن ویژگی ; نقشه برداری کاربری اراضی شهری

1. معرفی

نقشه‌برداری کاربری اراضی شهری برای کاربردهای مختلف شهری، مانند برنامه‌ریزی و طراحی شهری، پایش محیط شهری، و بررسی‌های زمین شهری اهمیت زیادی دارد [ 1 ، 2 ]. روش‌های سنتی برای نقشه‌برداری کاربری زمین شهری مبتنی بر تفسیر بصری تصاویر سنجش از دور نوری با وضوح بالا و بررسی‌های میدانی است که می‌تواند بسیار زمان‌بر و پر زحمت باشد. بنابراین، بررسی روش‌های طبقه‌بندی خودکار برای انواع کاربری‌های شهری پراکنده و پیچیده بسیار مهم است.
با توسعه فناوری سنجش از دور، برخی از محققان شروع به استفاده از تصاویر نوری چندطیفی و روش‌های یادگیری ماشینی برای استخراج خودکار اطلاعات شهری و پوششی و کاربری زمین کردند [3 ، 4 ، 5 ، 6 ] . به عنوان مثال، لو و همکاران. [ 3 ] تصاویر بافتی و طیفی را با روش طبقه‌بندی نظارت شده سنتی برای طبقه‌بندی پوشش زمین شهری بر اساس داده‌های سنجش از دور QuickBird چند طیفی ترکیب کرد. پاول و همکاران [ 4 ] از تجزیه و تحلیل مخلوط طیفی برای نگاشت زیرپیکسلی پوشش زمین شهری بر اساس تصاویر Landsat استفاده کرد. پو و همکاران [ 5] یک روش مبتنی بر شی و تصاویر IKONOS برای طبقه بندی پوشش زمین شهری اتخاذ کرد. با این حال، به دلیل ترکیب پیچیده مناظر شهری و وضوح طیفی کم داده های سنجش از دور چندطیفی، ارائه دقت طبقه بندی بسیار بالا بسیار دشوار است. در مقایسه با سنجش از دور چند طیفی، سنجش از دور فراطیفی می تواند صدها نوار طیفی باریک به هم پیوسته را به دست آورد که قادر به جداسازی اجسام با تفاوت های طیفی ظریف است. مطالعات اخیر همچنین پتانسیل بزرگ سنجش از دور فراطیفی را در تمایز انواع کاربری پیچیده شهری نشان می دهد [ 6 ، 7 ]. دمارچی و همکاران [ 6] از داده‌های فراطیفی 288 باند APEX برای نقشه‌برداری پوشش زمین شهری بر اساس تکنیک‌های کاهش ابعاد بدون نظارت و چندین طبقه‌بندی‌کننده یادگیری ماشینی استفاده کرد. تانگ و همکاران [ 7 ] در مورد ویژگی‌های داده‌های فراطیفی هوابرد برای طبقه‌بندی پوشش زمین شهری بحث کرد و نشان داد که استفاده مصنوعی از شکل، بافت و اطلاعات طیفی می‌تواند دقت طبقه‌بندی را بهبود بخشد.
در همین حال، به دلیل در دسترس بودن حسگرهای راه دور متنوع، محققان شروع به ادغام داده های چند منبعی و چند حسگر برای توصیف بهتر سطح زمین کردند [ 8 ، 9 ، 10 ، 11 ، 12 ، 13 ]. از آن زمان، استفاده ترکیبی از داده های HSI و تشخیص نور و محدوده (LiDAR) یک موضوع فعال بوده است [ 8 ، 9 ، 10 ، 11 ، 12 ، 13]. افزودن داده‌های LiDAR می‌تواند اطلاعات دقیق ارتفاع و شکل صحنه را ارائه دهد، که می‌تواند دقت طبقه‌بندی را در مقایسه با استفاده از داده‌های فراطیفی به تنهایی بهبود بخشد. به عنوان مثال، سقف‌ها و جاده‌هایی که هر دو از بتن ساخته شده‌اند در تصاویر فراطیفی به سختی قابل تشخیص هستند، اما به‌دلیل تفاوت قابل‌توجه در ارتفاع، می‌توان آنها را به راحتی با استفاده از اطلاعات ارتفاع مشتق‌شده از LiDAR جدا کرد. بر اساس نکات فوق، محققان روش های همجوشی داده های ابرطیفی چند منبعی و LiDAR را بررسی کردند. دبس و همکاران [ 8 ] دو روش برای ترکیب داده‌های ابرطیفی و LiDAR، از جمله یک طرح طبقه‌بندی ترکیبی بدون نظارت و نظارت شده، و یک روش مبتنی بر نمودار برای ادغام اطلاعات طیفی، مکانی و ارتفاعی را برجسته کرد. من و همکاران [ 9] هم ترکیب پیکسلی و هم سطح ویژگی داده های ابرطیفی و LiDAR را برای طبقه بندی کاربری زمین شهری مورد بحث قرار داد و نشان داد که ترکیب طبقه بندی کننده های مبتنی بر پیکسل و شی می تواند دقت طبقه بندی را افزایش دهد. علاوه بر این، ادغام داده‌های ابرطیفی و LiDAR در بسیاری از زمینه‌های دیگر، مانند نظارت بر جنگل [ 10 ، 11 ]، نقشه‌برداری آتشفشان [ 12 ]، و طبقه‌بندی گونه‌های محصول [ 13 ] نیز اعمال شده است.
در مورد رویکردهای ادغام داده‌های سنجش از راه دور چند منبعی، روش‌های پرکاربرد عمدتاً شامل ادغام در سطح ویژگی و ادغام در سطح تصمیم می‌شوند. به طور خاص، در فرآیند ادغام در سطح ویژگی، داده های سنجش از راه دور از منابع مختلف ابتدا برای استخراج ویژگی های مربوطه پردازش می شوند و سپس از طریق انباشتن ویژگی یا بازسازی ویژگی ترکیب می شوند. من و همکاران [ 9 ] ویژگی‌های LiDAR، به عنوان مثال، ویژگی‌های nDSM، شدت و HSI، به عنوان مثال، شاخص‌ها و بافت‌های طیفی برای بهبود عملکرد طبقه‌بندی کاربری اراضی شهری انباشته شد. گونزالس و همکاران [ 14] همچنین ویژگی‌های چند منبعی را از تصاویر مادون قرمز رنگی و داده‌های LiDAR برای نقشه‌برداری مبتنی بر شی از زیستگاه‌های جنگلی انباشته کرد. رویکردهای انباشته ویژگی های مشابه را می توان در مطالعات Sankey و همکارانش نیز یافت. [ 11 ] و ساساکی و همکاران. [ 15 ]. متفاوت از مطالعات بالا، دبس و همکاران [ 8 ] از یک گراف همجوشی برای نمایش تمام ویژگی های چند منبع اصلی در یک زیرفضای کم بعدی برای افزایش استحکام ویژگی های ذوب شده استفاده کردند. در مقایسه با همجوشی سطح ویژگی، مجموعه داده‌های چند منبعی به طور جداگانه طبقه‌بندی می‌شوند و سپس در فرآیند ادغام در سطح تصمیم ادغام یا ادغام می‌شوند تا نتایج طبقه‌بندی نهایی را ایجاد کنند. استوری و همکاران [ 16] یک روش همجوشی در سطح تصمیم برای ادغام LiDAR و داده‌های نوری چندطیفی پیشنهاد کرد، که در آن اشیاء طبقه‌بندی‌شده LiDAR به‌عنوان پسینی در مرحله همجوشی مبتنی بر قانون شیء برنده-همه چیز مورد استفاده قرار گرفتند.
علاوه بر این، تمام مطالعات فوق بر اساس معماری‌های کم عمق و توصیفگرهای ویژگی دست‌سازی شده‌اند که نمی‌توانند ویژگی‌های سطح بالای ظریف و انتزاعی یک منظر شهری پیچیده را به دست آورند. از سوی دیگر، یادگیری عمیق قادر به مدل سازی نمایش ویژگی های سطح بالا از طریق یک چارچوب یادگیری سلسله مراتبی است [ 17 ]. ویژگی‌های انتزاعی و ثابت، همراه با طبقه‌بندی‌کننده‌ها، می‌توانند به طور همزمان با یک شبکه عصبی عمیق آبشاری چندلایه، که از ویژگی‌های کم عمق دست‌سازی شده در وظایف بینایی کامپیوتر، مانند طبقه‌بندی تصویر [18، 19]، تشخیص اشیا [ 20 ] بهتر یاد گرفت . و تشخیص نقطه عطف [ 21 ، 22]. روش‌های یادگیری عمیق همچنین یک موضوع داغ در سنجش از دور [ 23 ] بوده و با موفقیت در استخراج ساختمان و جاده [ 24 ]، نقشه‌برداری تالاب [ 25 ]، تشخیص ابر [ 26 ] و طبقه‌بندی پوشش زمین [ 27] به کار گرفته شده است. ].
اخیراً، محققان شروع به استفاده از یادگیری عمیق برای ادغام داده های سنجش از راه دور چند منبعی کرده اند [ 28 ، 29 ، 30 ]. یک چارچوب معمولی برای ادغام داده‌های چند منبعی مبتنی بر یادگیری عمیق، ساخت یک شبکه دو شاخه است [ 28 ، 29 ، 30 ]. ویژگی های منابع داده های مختلف ابتدا به طور جداگانه از طریق هر شاخه استخراج می شوند و سپس از طریق انباشتن ویژگی یا الحاق ویژگی ها ترکیب می شوند. ویژگی های ذوب شده برای تولید نتایج طبقه بندی نهایی به لایه طبقه بندی منتقل می شوند. به عنوان مثال، خو و همکاران. [ 28] یک شبکه عصبی کانولوشنال دو شاخه ای (CNN) را برای طبقه بندی داده های سنجش از راه دور چند منبعی پیشنهاد کرد و این شبکه می تواند به عملکرد طبقه بندی بهتری نسبت به روش های موجود دست یابد. هوانگ و همکاران [ 29 ] از CNN دو شاخه ای برای استخراج ویژگی های فضایی و طیفی اشیاء زمین شهری برای بهبود عملکرد نقشه برداری کاربری زمین شهری استفاده کرد. هیوز و همکاران [ 30 ] یک شبکه سی‌ان‌ان شبه سیامی، که ساختار دو شاخه‌ای نیز داشت، برای شناسایی تکه‌های مربوطه در SAR (رادار دیافراگم مصنوعی) و تصاویر نوری اتخاذ کرد.
با این وجود، مطالعات فوق که از شبکه دو شاخه ای استفاده می کنند، دو اشکال دارند که می توان آنها را بهبود بخشید. اولاً، روش ادغام داده‌ای که به سادگی روی هم قرار می‌دهد یا به هم پیوسته کردن ویژگی‌های مختلف، اهمیت یا سهم هر یک از ویژگی‌ها را در کار طبقه‌بندی نهایی در نظر نمی‌گیرد، که می‌تواند با اختصاص وزن خاصی به هر ویژگی بهبود یابد. ثانیاً، ستون فقرات شبکه معمولی است، به عنوان مثال، AlexNet [ 18 ]، که می تواند با دیگر ساختارهای شبکه اخیر جایگزین شود.
برای مقابله با این مشکلات، این مقاله شبکه عصبی دو شاخه‌ای اصلی [ 28 ] را اصلاح کرد تا داده‌های ابرطیفی و LiDAR را برای طبقه‌بندی کاربری زمین شهری به صورت تطبیقی ​​ترکیب کند. مدل پیشنهادی عمدتاً از سه بخش تشکیل شده است، به عنوان مثال، شاخه تصویر فراطیفی (HSI) برای استخراج ویژگی فضایی-طیفی، شاخه LiDAR برای استخراج ویژگی مرتبط با ارتفاع، و یک ماژول فیوژن برای همجوشی ویژگی تطبیقی ​​دو شاخه. به طور خاص، شاخه HSI و شعبه LiDAR ساختار شبکه یکسانی دارند که بر اساس آبشار یک بلوک باقیمانده چند مقیاسی جدید به منظور کاهش بار طراحی شبکه است. در طی مراحل آموزشی، ابتدا هر شعبه به طور جداگانه آموزش داده می شود و سپس کل شبکه بر اساس هر شعبه آموزش دیده به دقت تنظیم می شود.
بقیه مقاله به شرح زیر سازماندهی شده است. بخش 2 منطقه مورد مطالعه و مجموعه داده را معرفی می کند. بخش 3 معماری دقیق شبکه دو شاخه اصلاح شده را ارائه می دهد. بخش 4 نتایج تجربی و بحث را نشان می دهد و بخش 5 اظهارات اصلی نتیجه گیری را ارائه می دهد.

2. منطقه مطالعه و مجموعه داده

منطقه مورد مطالعه پردیس دانشگاه هیوستون و مناطق شهری مجاور آن بود که در جنوب شرقی تگزاس، ایالات متحده واقع شده است. داده‌های فراطیفی و LiDAR از مسابقه ادغام داده‌ها در سال 2013 (IEEE (موسسه مهندسین برق و الکترونیک) GRSS (انجمن علوم زمین و سنجش از دور) [ 8 ] بود. به طور خاص، تصاویر فراطیفی در 23 ژوئن 2012 به دست آمد که شامل 144 باند طیفی از 380 تا 1050 نانومتر، با وضوح طیفی 4.8 نانومتر بود. تفکیک مکانی 2.5 متر و ارتفاع و عرض به ترتیب 349 و 1905 متر بود.
داده های LiDAR در 22 ژوئن 2012 به دست آمد و قبلاً با تصاویر فراطیفی ثبت شده بود. وضوح فضایی DSM مشتق از LiDAR (مدل سطح دیجیتال) نیز 2.5 متر بود. شکل 1 یک نمایش ترکیبی با رنگ واقعی از تصاویر فراطیفی و DSM مشتق شده از LiDAR مربوطه را نشان می دهد.
تمامی نمونه های آموزش و تست از مسابقه Data Fusion می باشد. توزیع فضایی نمونه های آموزشی و آزمایشی به ترتیب در شکل 1 c,d نشان داده شده است. 15 کلاس مورد علاقه در این مطالعه وجود دارد: چمن سالم، تحت فشار چمن، چمن مصنوعی، درخت، خاک، آب، مسکونی، تجاری، جاده، بزرگراه، راه آهن، پارکینگ 1، پارکینگ 2، زمین تنیس، و آهنگ در حال اجرا. لازم به ذکر است که پارکینگ 1 شامل گاراژهای پارکینگ هم در سطح زمین و هم در نواحی مرتفع است در حالی که پارکینگ 2 مربوط به وسایل نقلیه پارک شده است.
تعداد نمونه های آموزشی و آزمایشی همراه با رنگ ها برای هر کلاس در جدول 1 نشان داده شده است . همانطور که مشاهده می شود تعداد نمونه های آموزشی بسیار محدود است که دستیابی به دقت طبقه بندی بالا را بسیار دشوار می کند.
دوره آموزش حرفه ای gis

3. روش ها

3.1. گردش کار کلی

معماری شبکه عصبی دو شاخه ای اصلاح شده پیشنهادی در شکل 2 نشان داده شده است که از شاخه فراطیفی برای استخراج ویژگی فضایی-طیفی و شاخه LiDAR برای استخراج ویژگی مرتبط با ارتفاع تشکیل شده است. ماژول ویژگی فیوژن برای ترکیب تطبیقی ​​ویژگی‌های هر شاخه مورد استفاده قرار گرفت و برچسب کلاس پس از لایه کاملاً متصل (FC) و طبقه‌بندی کننده softmax تعیین شد.

3.2. شاخه فراطیفی

معماری شاخه ابرطیفی پیشنهادی در شکل 3 نشان داده شده است . ورودی شاخه HSI یک پچ مربع در مرکز پیکسل pij با طول ضلع k است. از آنجایی که داده های فراطیفی دارای 144 باند هستند که برخی از آنها بسیار همبسته هستند، ما تجزیه و تحلیل مؤلفه های اصلی (PCA) را اتخاذ کردیم و 10 مؤلفه اول را انتخاب کردیم که بیش از 99 درصد از کل واریانس ها را تشکیل می دهد. بنابراین ورودی شاخه HSI یک پچ با اندازه k×k×10 بود.
اندازه ورودی و خروجی هر لایه از شاخه HSI در جدول 2 نشان داده شده است .
همانطور که در شکل 3 و جدول 2 نشان داده شده است ، شاخه HSI پیشنهادی عمدتاً از سه بلوک کانولوشن و دو لایه maxpooling تشکیل شده است. اولین بلوک کانولوشن شامل دو لایه کانولوشن یعنی Conv1 و Conv2 است که به ترتیب دارای 64 و 128 فیلتر هستند. بلوک‌های کانولوشنال دوم و سوم هر دو از دو بلوک باقی‌مانده، یعنی بلوک باقی‌مانده-A و بلوک باقی‌مانده-B تشکیل شده‌اند که ساختار و پارامترهای آنها در شکل 4 نشان داده شده‌اند . در همین حال، یک لایه کانولوشنال اضافی، Conv3، برای افزایش ابعاد نقشه ویژگی از دومین بلوک Residual-A، که 128 است، برای مطابقت با بعد ورودی اولین بلوک Residual-B، که 256 است، استفاده شد.
همانطور که از شکل 4 مشاهده می شود ، ابعاد ورودی Residual block-A و B به ترتیب 6 × 6 × 128 و 3 × 3 × 256 است، در حالی که ابعاد خروجی مشابه ورودی است. ابعاد خروجی هر لایه کانولوشن نیز در شکل 4 نشان داده شده است . در مورد طراحی بلوک باقیمانده-A و -B، ما به بلوک باقیمانده سلسله مراتبی، موازی و چند مقیاسی پیشنهاد شده توسط Bulat [ 21 ] اشاره کردیم که می تواند اندازه میدان پذیرنده را افزایش داده و جریان گرادیان را همزمان بهبود بخشد. بلوک باقیمانده نشان داده شده در شکل 4 قبلاً با موفقیت در زمینه تشخیص نشانه های چهره استفاده شده است و عملکرد پیشرفته ای را نشان داده است [ 21]]. استفاده از دو بلوک باقیمانده آبشاری از شبکه تراز چهره (FAN) [ 22 ] الهام گرفته شد، که شبکه‌های آبشاری Hour Glass را برای استخراج ویژگی‌های قوی‌تر و نشان‌دهنده‌تر اتخاذ کرد. بنابراین، در این مطالعه، ما دو بلوک باقیمانده را نیز آبشاری کردیم تا قابلیت آن را برای استخراج ویژگی‌های قوی و چند مقیاسی از مقادیر پیکسل مبدا افزایش دهیم. در همین حال، برای کاهش خطر بیش از حد، از تنظیم L2 برای پارامترهای تمام لایه‌های کانولوشن شاخه HSI استفاده کردیم. نرمال سازی دسته ای (BN) [ 31 ] نیز پس از هر لایه کانولوشن برای یک فرآیند آموزشی پایدار و برای جلوگیری از برازش بیش از حد در همان زمان استفاده شد.
علاوه بر این، تعیین اندازه بهینه پچ k بسیار مهم است. مجموعه‌ای از آزمایش‌ها با اندازه‌های پچ مختلف، از 9 تا 29، با توجه به وضوح فضایی داده‌ها و اندازه اشیاء علاقه‌مند انجام شد. شکل زیر منحنی اندازه پچ k در مقابل دقت کلی را نشان می دهد. همانطور که در شکل 5 نشان داده شده است، دقت کلی هنگامی که k = 11 بود، به بالاترین مقدار 91.87% رسید. هنگامی که اندازه پچ بزرگتر از 11 بود، دقت کلی با برخی نوسانات کاهش یافت. این عمدتا به این دلیل است که اندازه وصله بزرگتر می تواند نویز بیشتری نسبت به اطلاعات متنی برای شبکه عصبی کانولوشن به همراه داشته باشد. یکی دیگر از اشکالات اندازه بزرگتر وصله این است که می تواند منجر به تقسیم کمتر داده های سنجش از راه دور شود.
دوره آموزش حرفه ای gis

3.3. شعبه LiDAR

ورودی شاخه LiDAR نیز یک وصله مربعی در مرکز پیکسل pij با طول ضلع k = 11 است. با الهام از شبکه دو خطی [32 ] ، که از دو شبکه عصبی یکسان برای یادگیری ویژگی ها با مقیاس های مختلف در زمینه ریز استفاده می کند. طبقه بندی دانه بندی شده، ما شعبه LiDAR را از ساختار شبکه مشابه با شاخه HSI استفاده کردیم. در واقع طراحی دو شبکه مجزا می تواند هزینه زمانی را به میزان قابل توجهی افزایش دهد. با طراحی یکپارچه شاخه های HSI و LiDAR، اکنون فرموله کردن شبکه عصبی دو شاخه ای نهایی بسیار سریع و راحت است. از آنجایی که شاخه LiDAR قبلاً از بلوک‌های باقیمانده آبشاری تشکیل شده بود، می‌توانست همان طور که انتظار می‌رفت، ویژگی‌های قوی و چند مقیاسی را از داده‌های DSM مشتق شده از LiDAR استخراج کند.

3.4. ماژول فشار و برانگیختگی برای تلفیق ویژگی تطبیقی

همجوشی در سطح ویژگی باید پس از استخراج ویژگی‌های فضایی-طیفی و ویژگی‌های مربوط به ارتفاع از شاخه HSI و شاخه LiDAR انجام شود. انباشتن ویژگی یا الحاق ویژگی اغلب به عنوان روش ترکیب ویژگی در مطالعات قبلی استفاده می شود. با این حال، روش چیدمان ساده ویژگی‌های مختلف در کنار هم اهمیت یا سهم هر یک از ویژگی‌ها را در کار طبقه‌بندی نهایی در نظر نمی‌گیرد، که می‌توان با اختصاص یک وزن خاص به هر ویژگی، آن را بهبود بخشید. با الهام از شبکه های فشار و برانگیختگی (SENet) [ 19]، که رتبه اول را در کار طبقه‌بندی تصویر چالش تشخیص تصویری مقیاس بزرگ ImageNet (ILSVRC) در سال 2017 کسب کرد، ما از ماژول Squeeze-and-Excitation برای یادگیری وزن خاصی برای هر ویژگی استفاده کردیم، بنابراین به یک وزن قوی‌تر دست یافتیم. و روش ادغام ویژگی موثر نسبت به انباشتن ویژگی. معماری ماژول فیچر فیوژن در شکل 6 نشان داده شده است .
پیکربندی ماژول ویژگی فیوژن در جدول 3 نشان داده شده است که اندازه ورودی و خروجی هر لایه را نشان می دهد.
همانطور که در شکل 6 و جدول 3 نشان داده شده است، ویژگی های ورودی ماژول فیوژن از شاخه های HSI و LiDAR استخراج شده است که هر دو دارای ابعاد یکسانی 3 × 3 × 256 هستند. ویژگی های اصلی به طور جداگانه از دو SE موازی عبور می کنند. بلوک ها، پس از آن دوباره کالیبره یا وزن دهی می شوند. همانطور که مشاهده می شود، ویژگی های مجدد کالیبره شده از هر دو شاخه همچنان دارای ابعاد یکسان 3 × 3 × 256 هستند. پس از آن، آنها به ترتیب به ابعاد 1 × 1 × 2304 مسطح می شوند و سپس برای ایجاد یک بردار ویژگی با ابعاد به هم متصل می شوند. 1×1×4608. سپس، بردار الحاقی از یک لایه کاملاً متصل با 128 نورون عبور داده می‌شود و در نهایت به لایه softmax تغذیه می‌شود تا برچسب‌های کلاس پیش‌بینی‌شده را تولید کند.
ساختار بلوک SE به شرح زیر است. برای هر ویژگی خاص U، آنها ابتدا از یک لایه ادغام میانگین جهانی (GAP) عبور می کنند تا یک توصیف کننده کانال تولید شود، که توزیع جهانی پاسخ های ویژگی از نظر کانال را تعبیه می کند. به دنبال آن دو لایه FC و یک لایه سیگموئید وجود دارد که در آن وزن خاص کانال را می توان از طریق مکانیزم خود دروازه ای مبتنی بر وابستگی به کانال آموخت. ویژگی‌های خروجی بلوک SE قبلاً مجدداً کالیبره یا وزن‌دهی شده بودند، که منجر به تأکید تطبیقی ​​بر ویژگی‌های آموزنده و سرکوب ویژگی‌های کمتر مفید شد. ماژول SE در این مقاله می‌تواند در مقایسه با روش ترکیبی انباشتگی ویژگی‌های سنتی، راه مؤثرتر و منطقی‌تری برای ادغام داده‌های چند منبعی در سطح ویژگی ارائه دهد.

3.5. آموزش تقویت داده و شبکه

همانطور که مشخص است، آموزش یک مدل CNN عمیق به مقدار زیادی از داده های برچسب دار نیاز دارد. با این حال، برای برنامه‌های سنجش از راه دور، دستیابی به داده‌های برچسب‌گذاری‌شده کافی دشوار و زمان‌بر است. برای پرداختن به این موضوع، در این مطالعه از تقویت داده ها استفاده شد. تکه های آموزشی اصلی 90 درجه، 180 درجه و 270 درجه چرخانده شدند، به چپ و راست، بالا و پایین چرخانده شدند تا تعداد نمونه های آموزشی افزایش یابد. علاوه بر این، کلاس‌هایی که نمونه‌های آموزشی کمتری داشتند، بیش از حد نمونه‌گیری شدند تا مشکل عدم تعادل کلاسی حل شود.
تمام پارامترهای شبکه دو شاخه پیشنهادی باید برای ایجاد بهترین مدل برای طبقه‌بندی کاربری اراضی شهری آموزش داده شوند. در این مطالعه از یک استراتژی آموزشی دو مرحله ای برای آموزش کل شبکه استفاده شد. در مرحله اول، شاخه های HSI و LiDAR به طور جداگانه با نرخ یادگیری اولیه بزرگتر 10-4 آموزش داده شدند . ثانیا، شاخه های HSI و LiDAR از پیش آموزش دیده از طریق ماژول تطبیقی ​​ویژگی تطبیقی ​​ادغام شدند و کل شبکه با نرخ یادگیری اولیه کوچکتر 10-5 تنظیم شد . بهینه ساز Adam [ 33 ] به دلیل قابلیت تنظیم خودکار نرخ یادگیری مورد استفاده قرار گرفت، که می تواند منجر به یک روند آموزشی سریعتر و پایدارتر شود.
از دست دادن کانونی [ 20 ] به عنوان تابع از دست دادن در این مطالعه به جای از دست دادن متقابل آنتروپی سنتی استفاده شد. این عمدتاً به این دلیل است که از دست دادن کانونی دارای مزیت کاهش وزن تخصیص داده شده به نمونه های طبقه بندی شده است، که از غلبه بر تعداد زیادی از نمونه های آسان بر طبقه بندی کننده در طول آموزش جلوگیری می کند [20 ] .
در این مطالعه 90 درصد از مجموعه آموزشی به صورت تصادفی برای بهینه سازی پارامترهای شبکه عصبی دو شاخه ای پیشنهادی انتخاب شد. 10 درصد باقی مانده از نمونه های آموزشی به عنوان مجموعه اعتبارسنجی برای توجیه عملکرد شبکه در طول فرآیند آموزش استفاده شد. در مورد مجموعه تست، تنها برای محاسبه دقت کلی نهایی و ماتریس سردرگمی پس از آموزش خوب شبکه استفاده شد.
شبکه دو شاخه پیشنهادی با کتابخانه TensorFlow [ 34 ] در سیستم عامل اوبونتو 16.04 با پردازنده مرکزی Intel CORE i7-7800 @ 3.5 گیگاهرتز و GPU NVIDIA GTX TitanX با حافظه 12 گیگابایتی آموزش داده شد.

3.6. ارزیابی دقت

به منظور ارزیابی عملکرد شبکه دو شاخه پیشنهادی برای طبقه‌بندی کاربری اراضی شهری، هم ارزیابی بصری و هم یک ماتریس سردرگمی در این مطالعه اتخاذ شد. بازرسی بصری برای بررسی جلوه‌های بصری استفاده شد، در حالی که ماتریس سردرگمی، به دست آمده از نمونه‌های آزمایشی، برای ارزیابی کمی دقت طبقه‌بندی روش پیشنهادی استفاده شد. لازم به ذکر است که تمامی نمونه های آزمایشی مربوط به مسابقه 2013 IEEE GRSS Data Fusion می باشند که مانند مرجع [ 28 ] می باشد.

4. نتایج و بحث

4.1. نتایج طبقه بندی کاربری اراضی شهری

به منظور ارزیابی عملکرد شبکه عصبی دو شاخه ای پیشنهادی برای نقشه برداری کاربری اراضی شهری، مجموعه ای از نقشه های طبقه بندی در شکل 7 شامل موارد زیر نشان داده شده است:
(الف) فقط شاخه HSI، یعنی فقط از داده های HSI و شاخه HSI برای طبقه بندی استفاده می کند.
(ب) فقط شاخه LiDAR، یعنی فقط از داده های LiDAR و شاخه LiDAR برای طبقه بندی استفاده می کند.
(ج) CNN دو شاخه ای پیشنهادی.
بدیهی است که استفاده مصنوعی از داده‌های HSI و LiDAR منجر به یک نقشه طبقه‌بندی با جلوه بصری بهتر و کیفیت بالاتر در مقایسه با نتایج تنها شاخه HSI و فقط شاخه LiDAR می‌شود.
در همین حال، شاخه HSI نقشه طبقه بندی بهتری با خطاهای کمتر نسبت به شاخه LiDAR ارائه می دهد. با این حال، به دلیل واریانس طیفی زیاد انواع مختلف کاربری اراضی شهری، داده‌های فراطیفی به تنهایی می‌تواند منجر به نتایج طبقه‌بندی نادرست شود. به عنوان مثال، ناحیه شرقی تصویر توسط برخی ابرها پوشیده شده است، که منجر به اعوجاج طیفی برخی از انواع کاربری‌ها می‌شود و در نتیجه خطاهای طبقه‌بندی بیشتری ایجاد می‌شود. داده های LiDAR به تنهایی حاوی اطلاعات کافی برای تمایز اشیاء پیچیده شهری، به ویژه برای اشیاء مختلف با ارتفاع یکسان یا مشابه نیستند. با این وجود، ادغام داده های HSI و LiDAR می تواند از معایب فوق جلوگیری کند و از ویژگی های طیفی تصویر HSI و اطلاعات هندسی داده های LiDAR بهره مند شود.

4.2. نتایج دقت-ارزیابی

به منظور ارزیابی کمی رویکرد پیشنهادی در مطالعه، ماتریس سردرگمی به همراه دقت کلی (OA) و ضریب کاپا بر اساس نمونه‌های آزمایشی محاسبه شد. نتایج در جدول 4 نشان داده شده است .
شبکه دو شاخه پیشنهادی با OA 91.87% و کاپا 0.9117 عملکرد خوبی را نشان می دهد. با این حال، کلاس بزرگراه دارای کمترین دقت تولید کننده (PA) با 80.89٪ بود، در حالی که همه کلاس های دیگر دارای PA بالاتر بیش از 83٪ بودند. این می تواند به دلیل مخلوط طیفی بین بزرگراه و سایر انواع سطوح غیرقابل نفوذ، مانند راه آهن و مناطق تجاری باشد، زیرا همه آنها از مواد بتنی تشکیل شده اند. همچنین لازم به ذکر است که تمام نمونه‌های آموزشی بزرگراهی خارج از مناطق ابری هستند، در حالی که نزدیک به نیمی از نمونه‌های تست بزرگراه از مناطق تحت پوشش ابر هستند. این می تواند باعث ناسازگاری طیفی بین نمونه های آموزشی و آزمایشی کلاس بزرگراه شود که می تواند منجر به دقت طبقه بندی نسبتاً پایین تر شود.
علاوه بر این، ماتریس سردرگمی نشان می‌دهد که بیشتر خطاهای طبقه‌بندی در میان انواع کاربری‌های زیر رخ داده است: بزرگراه، راه‌آهن، جاده، و پارکینگ 1. این عمدتاً به این دلیل است که همه آن دسته‌های کاربری به سطوح غیرقابل نفوذی تعلق دارند که ویژگی‌های طیفی مشابهی دارند. . بزرگراه، راه‌آهن و جاده نیز ویژگی‌های شکل مشابهی دارند، که می‌تواند دشواری در جداسازی بین آنها با استفاده از یک مدل CNN مبتنی بر پچ را افزایش دهد، زیرا CNN هنگام طبقه‌بندی هر پیکسل، اطلاعات زمینه‌ای مکانی را در نظر می‌گیرد. سایر خطاها در مواردی رخ داد که چندین پیکسل چمن سالم و چمن تحت فشار به اشتباه به عنوان راه آهن طبقه بندی شدند. این در طبقه بندی تصاویر سنجش از دور غیر معمول است، زیرا چمن و راه آهن ویژگی های طیفی متفاوتی دارند. با این حال، هنگام بررسی نقشه طبقه بندی، در مناطق پوشیده از ابر شرقی است که چندین منطقه چمن به اشتباه به عنوان راه آهن طبقه بندی شدند. این عمدتا به این دلیل است که وجود ابرهای سنگین منحنی های طیفی چمن را مخدوش کرده است که منجر به اشتباهات طبقه بندی غیر معمول می شود.

4.3. تجزیه و تحلیل فرسایش

برای ارزیابی بیشتر عملکرد روش پیشنهادی، مجموعه‌ای از آزمایش‌های فرسایشی انجام شد که شامل: (الف) فقط شاخه HSI، (ب) فقط شاخه LiDAR، و (ج) انباشتگی ویژگی (یعنی با استفاده از ویژگی‌های انباشته یا پیوسته). HSI و LiDAR به جای همجوشی تطبیقی ​​برای طبقه بندی). نتایج دقت طبقه بندی در سطح کلاس در جدول 5 نشان داده شده است که شامل هر سه مورد فوق به همراه شبکه دو شاخه ای پیشنهادی است.
جدول 5 نشان می دهد که شاخه LiDAR به تنهایی کمترین دقت طبقه بندی را با OA 53.42% و کاپا 0.4967 به دست آورده است. این عمدتا به دلیل این واقعیت است که اطلاعات ارتفاع به تنهایی به سختی می تواند انواع مختلف کاربری زمین را در مناطق پیچیده شهری تفکیک کند. در همین حال، شاخه HSI به تنهایی به دقت بسیار بالاتری نسبت به شاخه LiDAR با OA 83.83% و کاپا 0.8244 دست یافت. دلیل اینکه شاخه HSI به تنهایی از شاخه LiDAR به تنهایی بهتر عمل می کند این است که تصاویر HSI می توانند اطلاعات طیفی و فضایی بسیار بیشتری از سطوح زمین نسبت به DSM های مشتق شده از LiDAR ارائه دهند که منجر به توانایی بالاتر در تمایز انواع کاربری های شهری پیچیده می شود.
جدول 5همچنین نشان می‌دهد که در مقایسه با داده‌های تک منبعی به تنهایی، ادغام داده‌های HSI و LiDAR چند منبعی منجر به بهبود قابل‌توجهی در دقت طبقه‌بندی برای تقریباً هر طبقه کاربری زمین شهری می‌شود. این معقول است زیرا اگر ما به طور همزمان چندین ویژگی طیفی و ارتفاعی را ادغام کنیم، تفکیک پذیری اشیاء شهری می تواند افزایش یابد. در مقایسه با داده های ابرطیفی به تنهایی، ادغام داده های LiDAR OA را به ترتیب 4.42% و 8.04% از طریق ویژگی های stacking و شبکه دو شاخه پیشنهادی بهبود بخشید. از نظر دقت در سطح کلاس، سهم اصلی داده‌های LiDAR در کلاس‌های زیر بود: چمن مصنوعی، درخت، خاک، آب، تجاری، راه‌آهن و پارکینگ 1 و 2. این به دلیل برخی از کلاس‌ها است (مثلاً ، چمن و درخت) دارای ویژگی های طیفی بسیار مشابه اما دارای مقادیر ارتفاع متفاوت. بنابراین، گنجاندن DSM های مشتق شده از LiDAR می تواند به طور قابل توجهی تفکیک پذیری بین این کلاس ها را بهبود بخشد.
لازم به ذکر است که شبکه دو شاخه پیشنهادی که از ترکیب ویژگی های تطبیقی ​​استفاده می کند، با بهبود OA از 88.25% به 91.87% با افزایش 3.62% از روش سنتی انباشتگی ویژگی بهتر عمل می کند. این به این دلیل است که وقتی همه ویژگی‌ها را کنار هم قرار می‌دهیم، مقادیر هر ویژگی می‌تواند به طور قابل توجهی نامتعادل باشد و اطلاعات حمل شده توسط هر ویژگی ممکن است به یک اندازه نمایش داده نشود. بنابراین، ماژول فشرده سازی و تحریک تطبیقی ​​را معرفی کردیم تا به طور خودکار وزنی را به هر ویژگی با توجه به اهمیت آن اختصاص دهیم که می تواند چندین ویژگی را به روشی طبیعی و معقول تر ادغام کند و در نتیجه دقت 3.62 درصد بهبود یابد.
از آنجایی که رویکرد پیشنهادی از یک وصله پیکسل محور به عنوان ورودی شبکه استفاده می‌کند، آزمایش‌های مقایسه‌ای بیشتری باید برای مقایسه عملکرد بین طبقه‌بندی مبتنی بر پیکسل و مبتنی بر وصله، و برای بررسی تأثیر رویکردهای PCA و غیرPCA انجام شود. . بنابراین، یک سری آزمایشات فرسایشی انجام شد و نتایج مقایسه در جدول زیر نشان داده شده است.
به طور خاص، از آنجایی که ورودی به بردارهای پیکسل 1 بعدی تغییر کرد، همه لایه‌های کانولوشنال دوبعدی CNN دو شاخه‌ای مبتنی بر وصله اصلی با لایه‌های کانولوشنال 1 بعدی در CNN مبتنی بر پیکسل جایگزین شدند، در حالی که همه پارامترها یکسان باقی ماندند. همانطور که از جدول 6 مشاهده می شودمدل‌های مبتنی بر وصله عملکرد بهتری نسبت به مدل‌های مبتنی بر پیکسل با افزایش دقت 7.89 درصد و 5.82 درصد برای رویکردهای غیر PCA و PCA داشتند. این عمدتا به این دلیل است که در مقایسه با مدل مبتنی بر پچ، مدل مبتنی بر پیکسل فقط ویژگی‌های طیفی شی زمین را در نظر می‌گیرد. با این حال، مدل مبتنی بر پچ می‌تواند هم اطلاعات زمینه‌ای طیفی و هم فضایی را در نظر بگیرد، که منجر به ویژگی‌های متمایزتر و نماینده‌تر می‌شود که برای طبقه‌بندی ضروری هستند. در مقایسه با رویکردهای غیرPCA، استفاده از PCA تأثیر مثبتی بر طبقه‌بندی دارد که منجر به افزایش دقت 4.56% و 2.49% برای مدل‌های مبتنی بر پیکسل و مبتنی بر پچ می‌شود. این به دلیل این واقعیت است که PCA می تواند به طور موثری افزونگی داده های تصاویر ابرطیفی اصلی را کاهش دهد.
علاوه بر این، رویکرد پیشنهادی می‌تواند به عنوان یک چارچوب مرجع برای ترکیب داده‌های چند منبعی در زمینه سنجش از دور در نظر گرفته شود.

4.4. مقایسه با سایر روش ها

برای توجیه بیشتر عملکرد رویکرد پیشنهادی، باید آن را با سایر روش‌های یادگیری ماشینی پرکاربرد، مانند جنگل تصادفی (RF) [35]، ماشین‌های بردار پشتیبان (SVM) [ 36 ]، و وضعیت موجود مقایسه کرد. -روش های هنری
برای RF، ضریب جینی به عنوان شاخص برای انتخاب ویژگی استفاده شد. برای SVM، تابع پایه شعاعی (RBF) به عنوان تابع هسته استفاده شد. در مورد تعیین فراپارامترهای RF و SVM، ما از روش جستجوی شبکه ای برای یافتن مقادیر بهینه استفاده کردیم. به طور خاص، محدوده پارامترهای مورد استفاده برای RF به شرح زیر است. تعداد درختان از 50 تا 500 با گام 10 متغیر بود، در حالی که حداکثر عمق دارای محدوده 5 تا 15 با گام 2 بود. C دارای محدوده 10 تا 200 با گام 10 بود. پس از روش جستجوی شبکه، RF بهترین دقت کلی 83.97% را زمانی که تعداد درختان 200 و حداکثر عمق 13 بود به دست آورد. در همین حال، SVM بهترین را به دست آورد. دقت 84.16% با گامای 0.01 و C برابر 100.
در همین حال، مدل Xu [ 28 ] را به‌عنوان یک خط پایه قوی انتخاب کردیم زیرا برای اولین بار از CNN دو شاخه‌ای برای ترکیب داده‌های HSI و LiDAR استفاده کرد و به OA 87.98% نیز در مجموعه داده‌های آزمایشی IEEE GRSS Data Fusion Contest در سال 2013 دست یافت . تمامی روش‌های فوق با همان نمونه‌های آموزشی و آزمایشی روش پیشنهادی برای حفظ انصاف آموزش و آزمایش شدند. نتایج مقایسه دقت در جدول 7 فهرست شده است .
جدول 7 نشان می دهد که CNN دو شاخه ای اصلاح شده پیشنهادی ما عملکرد بهتری از RF و SVM با بهبود OA به ترتیب 7.90% و 7.71% داشت. این مورد انتظار بود زیرا در مقایسه با روش‌های سنتی یادگیری ماشینی، CNN می‌توانست ویژگی‌های فضایی سطح بالا انواع کاربری‌های شهری پیچیده و تکه‌تکه‌شده را بیاموزد، که منجر به یک نتیجه طبقه‌بندی قوی‌تر و دقیق‌تر شد.
در مقایسه با مدل پیشرفته Xu، روش پیشنهادی در این مطالعه OA را از 87.98% به 91.87% با افزایش 3.89% بهبود داد. با این حال، هنگام استفاده از ویژگی‌های انباشته، CNN دو شاخه‌ای اصلاح‌شده در این مطالعه تنها به افزایش جزئی دقت 0.27 درصدی نسبت به مدل Xu دست یافت. این نشان می‌دهد که، در مقایسه با اصلاح ساختار شبکه، معرفی ماژول فیوژن ویژگی بیشتر به افزایش دقت طبقه‌بندی کمک کرد. این به این دلیل است که ماژول فیوژن ویژگی می‌تواند اهمیت هر ویژگی را بیاموزد، که می‌تواند بر ویژگی‌های مؤثرتر تأکید کند و در عین حال ویژگی‌های کم‌آموزنده را سرکوب کند، و منجر به یک استراتژی همجوشی معقول‌تر و قوی‌تر برای داده‌های سنجش از راه دور چند منبعی شود.
همانطور که در بالا گفته شد، روش تلفیقی این مطالعه از خود ساختار مدل موثرتر است، بنابراین مقایسه جامع‌تری با روش‌های موجود ضروری است. در واقع، همانطور که در مقدمه گفته شد، بیشتر مطالعات فیوژن سطح ویژگی به سادگی ویژگی‌های داده‌های LiDAR و HSI را روی هم چیده و به هم متصل کرده و سپس طبقه‌بندی را بر اساس طبقه‌بندی‌کننده‌های یادگیری ماشینی مانند درخت تصمیم، ماشین بردار پشتیبان و تصادفی انجام دادند. جنگل. مطالعات مربوطه عبارتند از Man et al. [ 9 ]، گونزالس و همکاران. [ 14 ]، ساساکی و همکاران. [ 16]. با این حال، این رویکردها به همه ویژگی‌ها اهمیت یکسانی می‌دادند که می‌توانست اطلاعات اضافی و نویز اضافی را به همراه داشته باشد. متفاوت از آن روش‌های انباشتگی ویژگی، رویکرد ترکیب ویژگی‌ها در این مطالعه اهمیت ویژگی‌های چند منبعی را در نظر می‌گیرد، که می‌تواند به طور موثری آن ویژگی‌های آموزنده را برجسته کند و در عین حال موارد پر سر و صدا را کاهش دهد. در همین حال، برخی از روش‌های موجود، یک مدل ترکیب ویژگی برای بازسازی ویژگی‌های چند منبعی برای افزایش عملکرد طبقه‌بندی طراحی کردند. یک مثال عینی مطالعه دبس [ 8]، که در آن از یک مدل همجوشی مبتنی بر نمودار برای بازتاب مجدد همه ویژگی‌ها در یک زیرفضای کم‌بعد برای افزایش استحکام ویژگی‌های ذوب شده استفاده شد. در واقع، ویژگی‌های تازه بازسازی‌شده با نویزهای کمتر آموزنده‌تر بودند، با این حال، این روش در مقایسه با رویکرد ما، که در آن همه ویژگی‌های اصلی مستقیماً در مدل ویژگی‌-تلفیقی ما وزن‌دهی می‌شوند، چندان ساده نبود. با این وجود، روش همجوشی مبتنی بر نمودار را می توان در مدل یادگیری عمیق در تحقیقات آینده معرفی کرد.

5. نتیجه گیری ها

این مقاله یک شبکه عصبی کانولوشنال دو شاخه ای اصلاح شده را برای نقشه برداری کاربری زمین شهری با استفاده از داده های ابرطیفی چند منبعی و LiDAR پیشنهاد می کند. شبکه دو شاخه پیشنهادی شامل یک شاخه HSI و یک شعبه LiDAR است که هر دو ساختار شبکه یکسانی را به اشتراک می‌گذارند تا بار و هزینه زمانی طراحی شبکه کاهش یابد. در شاخه های HSI و LiDAR، یک بلوک باقیمانده سلسله مراتبی، موازی و چند مقیاسی استفاده شد که می تواند به طور همزمان اندازه میدان پذیرنده را افزایش دهد و جریان گرادیان را بهبود بخشد. یک ماژول فیوژن ویژگی تطبیقی ​​مبتنی بر شبکه فشرده سازی و تحریک برای ترکیب ویژگی های HSI و LiDAR پیشنهاد شد که می تواند ویژگی های چند منبعی را به روشی طبیعی و معقول ادغام کند. نتایج آزمایش نشان داد که شبکه دو شاخه پیشنهادی عملکرد خوبی داشت. با OA تقریباً 92٪ در مجموعه داده IEEE GRSS Data Fusion Contest در سال 2013. در مقایسه با داده های فراطیفی به تنهایی، معرفی داده های LiDAR OA را از تقریباً 84 درصد به 92 درصد افزایش داد که نشان می دهد ادغام داده های چند منبعی می تواند دقت طبقه بندی را در مناظر پیچیده شهری بهبود بخشد. روش همجوشی تطبیقی ​​پیشنهادی در مقایسه با روش انباشتگی ویژگی‌های سنتی، که سودمندی آن را در ترکیب داده‌های چند منبعی توجیه می‌کند، دقت را بیش از 3 درصد افزایش داد. CNN دو شاخه ای در این مقاله همچنین از روش های سنتی یادگیری ماشینی، مانند جنگل تصادفی و ماشین های بردار پشتیبانی، بهتر عمل کرد. که نشان می دهد که ادغام داده های چند منبعی می تواند دقت طبقه بندی را در مناظر پیچیده شهری بهبود بخشد. روش همجوشی تطبیقی ​​پیشنهادی در مقایسه با روش انباشتگی ویژگی‌های سنتی، که سودمندی آن را در ترکیب داده‌های چند منبعی توجیه می‌کند، دقت را بیش از 3 درصد افزایش داد. CNN دو شاخه ای در این مقاله همچنین از روش های سنتی یادگیری ماشینی، مانند جنگل تصادفی و ماشین های بردار پشتیبانی، بهتر عمل کرد. که نشان می دهد که ادغام داده های چند منبعی می تواند دقت طبقه بندی را در مناظر پیچیده شهری بهبود بخشد. روش همجوشی تطبیقی ​​پیشنهادی در مقایسه با روش انباشتگی ویژگی‌های سنتی، که سودمندی آن را در ترکیب داده‌های چند منبعی توجیه می‌کند، دقت را بیش از 3 درصد افزایش داد. CNN دو شاخه ای در این مقاله همچنین از روش های سنتی یادگیری ماشینی، مانند جنگل تصادفی و ماشین های بردار پشتیبانی، بهتر عمل کرد.
این مقاله نشان می‌دهد که شبکه دو شاخه اصلاح‌شده می‌تواند به طور موثر ویژگی‌های چند منبعی را از داده‌های ابرطیفی و LiDAR یکپارچه کند و عملکرد خوبی را در نقشه‌برداری کاربری زمین شهری نشان دهد. کار آینده باید بر روی مجموعه داده های بیشتری برای توجیه بیشتر عملکرد روش پیشنهادی انجام شود.

منابع

  1. چن، ایکس. ژائو، اچ. لی، پی. یین، زی. تحلیل مبتنی بر تصویر سنجش از دور رابطه بین جزیره گرمایی شهری و تغییرات کاربری/پوشش زمین. سنسور از راه دور محیط. 2006 ، 104 ، 133-146. [ Google Scholar ] [ CrossRef ]
  2. Myint، SW; گوبر، پ. برازل، ا. گروسمن کلارک، اس. Weng، Q. طبقه‌بندی بر پیکسل در مقابل شیء مبتنی بر استخراج پوشش زمین شهری با استفاده از تصاویر با وضوح فضایی بالا. سنسور از راه دور محیط. 2011 ، 115 ، 1145-1161. [ Google Scholar ] [ CrossRef ]
  3. لو، دی. هتریک، اس. موران، ای. طبقه‌بندی پوشش زمین در منظر شهری-روستایی پیچیده با تصاویر QuickBird. فتوگرام مهندس Remote Sens. 2010 , 10 , 1159-1168. [ Google Scholar ] [ CrossRef ]
  4. پاول، RL; رابرتز، دی. دنیسون، PE; هس، LL نقشه برداری زیر پیکسلی پوشش زمین شهری با استفاده از تجزیه و تحلیل مخلوط طیفی چند عضو انتهایی: مانائوس، برزیل. سنسور از راه دور محیط. 2007 ، 106 ، 253-267. [ Google Scholar ] [ CrossRef ]
  5. پو، آر. لندری، اس. Yu, Q. طبقه بندی دقیق پوشش زمین شهری مبتنی بر شی با تصاویر IKONOS با وضوح فضایی بالا. بین المللی J. Remote Sens. 2011 , 32 , 3285-3308. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  6. دمارچی، ال. کانترز، اف. کاریو، سی. لیکیاردی، جی. چان، JC ارزیابی عملکرد دو تکنیک کاهش ابعاد بدون نظارت بر روی داده‌های APEX ابرطیفی برای نقشه‌برداری پوشش زمین شهری با وضوح بالا. ISPRS J. Photogramm. Remote Sens. 2014 , 87 , 166-179. [ Google Scholar ] [ CrossRef ]
  7. تانگ، ایکس. زی، اچ. Weng, Q. طبقه بندی پوشش زمین شهری با داده های ابرطیفی هوابرد: از چه ویژگی هایی استفاده کنیم؟ IEEE J. Sel. بالا. Appl. زمین Obs. Remote Sens. 2014 , 7 , 3998–4009. [ Google Scholar ] [ CrossRef ]
  8. دبس، سی. مرنتیت، A. هرمانز، آر. هان، جی. فرانگیاداکیس، ن. Kasteren، تلویزیون; لیائو، دبلیو. بلنز، آر. پیزوریکا، ا. گوتاما، اس. و همکاران فراطیفی و LiDAR Data Fusion: نتیجه مسابقه 2013 GRSS Data Fusion. IEEE J. Sel. بالا. Appl. زمین Obs. Remote Sens. 2014 , 7 , 2405–2418. [ Google Scholar ] [ CrossRef ]
  9. مرد، س. دونگ، پی. گوا، اچ. ادغام داده‌های ابرطیفی و لیدار در سطح پیکسل و ویژگی برای طبقه‌بندی کاربری زمین شهری. بین المللی J. Remote Sens. 2015 ، 36 ، 1618-1644. [ Google Scholar ] [ CrossRef ]
  10. دالپونته، ام. بروزون، ال. Gianelle، D. تلفیق داده های سنجش از دور ابرطیفی و LIDAR برای طبقه بندی مناطق جنگلی پیچیده. IEEE Trans. Geosci. Remote Sens. 2008 , 46 , 1416-1427. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  11. سانکی، تی. دوناجر، ج. مک وی، جی. Sankey، JB UAV Lidar و همجوشی فراطیفی برای نظارت بر جنگل در جنوب غربی ایالات متحده. سنسور از راه دور محیط. 2017 ، 195 ، 30-43. [ Google Scholar ] [ CrossRef ]
  12. کرستوری، جی. شفر، LN; شلیفارت، WK; پروکتر، جی. پولانگاری، RR; مید، اس. کندی، بی. ادغام تصاویر ابرطیفی هوابرد و LiDAR برای نقشه برداری و نظارت بر آتشفشان از طریق طبقه بندی تصویر. بین المللی J. Appl. زمین Obs. Geoinf. 2018 ، 73 ، 323-339. [ Google Scholar ] [ CrossRef ]
  13. لیو، ایکس. Bo, Y. طبقه‌بندی گونه‌های محصول مبتنی بر شیء بر اساس ترکیب تصاویر فراطیفی هوا و داده‌های LiDAR. Remote Sens. 2015 ، 7 ، 922–950. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  14. گونزالس، آر اس؛ لطیفی، ح. ویناکر، اچ. دیس، م. کوچ، بی. هیوریچ، ام. یکپارچه سازی LiDAR و تصاویر با وضوح بالا برای نقشه برداری مبتنی بر شی از زیستگاه های جنگلی در یک چشم انداز جنگلی معتدل ناهمگن. بین المللی J. Remote Sens. 2018 ، 1-26. [ Google Scholar ] [ CrossRef ]
  15. ساساکی، تی. ایمانیشی، ج. آیوکی، ک. موریموتو، ی. Kitada، K. طبقه‌بندی مبتنی بر شیء پوشش زمین و گونه‌های درختی با ادغام داده‌های تصویری LiDAR هوابرد و وضوح فضایی بالا. Landsc. Ecol. مهندس 2012 ، 8 ، 157-171. [ Google Scholar ] [ CrossRef ]
  16. استوری، م. فروتونی، ای. پیردیکا، آر. مانچینی، آ. Malinverni، ES; Tassetti، AN; Zingaretti، P. ادغام داده‌های ارتفاعی و تصاویر چندطیفی با وضوح بالا برای نقشه‌برداری ترکیبی کاربری اراضی/پوشش زمین. یورو J. Remote Sens. 2017 ، 50 ، 1-17. [ Google Scholar ] [ CrossRef ]
  17. LeCun، Y.; بنژیو، ی. هینتون، جی. یادگیری عمیق. طبیعت 2015 ، 521 ، 436-444. [ Google Scholar ] [ CrossRef ]
  18. کریژفسکی، آ. سوتسکور، آی. هینتون، GE Imagenet طبقه بندی با شبکه های عصبی کانولوشن عمیق. در مجموعه مقالات پیشرفت در سیستم های پردازش اطلاعات عصبی (NIPS)، دریاچه تاهو، NV، ایالات متحده، 3-6 دسامبر 2012. ص 1097-1105. [ Google Scholar ]
  19. هو، جی. شن، ال. Sun، G. شبکه های فشار و برانگیختگی. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، سالت لیک سیتی، UT، ایالات متحده آمریکا، 18 تا 22 ژوئن 2018. [ Google Scholar ]
  20. لین، TY; گویال، پ. گیرشیک، آر. او، ک. دلار، P. از دست دادن کانونی برای تشخیص اجسام متراکم. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر (ICCV)، ونیز، ایتالیا، 22 تا 29 اکتبر 2017؛ صفحات 2999-3007. [ Google Scholar ]
  21. بولات، ا. تزیمیروپولوس، G. بومی سازهای کانولوشنال باینریزه شده برای تخمین حالت انسانی و همترازی چهره با منابع محدود. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر (ICCV)، ونیز، ایتالیا، 22 تا 29 اکتبر 2017؛ صص 3706-3714. [ Google Scholar ]
  22. بولات، ا. تزیمیروپولوس، جی. چقدر تا حل مشکل تراز چهره دو بعدی و سه بعدی فاصله داریم؟ (و مجموعه داده ای از 230000 نشانه سه بعدی چهره). در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر (ICCV)، ونیز، ایتالیا، 22 تا 29 اکتبر 2017؛ ص 1021-1030. [ Google Scholar ]
  23. زو، ایکس. تویا، دی. مو، ال. شیا، جی. ژانگ، ال. خو، اف. Fraundorfer، F. یادگیری عمیق در سنجش از دور: بررسی جامع و فهرست منابع. IEEE Geosci. سنسور از راه دور Mag. 2017 ، 5 ، 8-36. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  24. الشهی، ر. Marpu، PR; وون، WL; Mura, MD استخراج همزمان جاده ها و ساختمان ها در تصاویر سنجش از دور با شبکه های عصبی کانولوشن. ISPRS J. Photogramm. Remote Sens. 2017 ، 130 ، 139-149. [ Google Scholar ] [ CrossRef ]
  25. رضایی، م. مهدیان پری، م. ژانگ، ی. صالحی، ب. شبکه عصبی کانولوشن عمیق برای طبقه بندی تالاب های پیچیده با استفاده از تصاویر سنجش از دور نوری. IEEE J. Sel. بالا. Appl. زمین Obs. Remote Sens. 2018 , 11 , 3030–3039. [ Google Scholar ] [ CrossRef ]
  26. چن، ی. فن، آر. بلال، م. یانگ، ایکس. وانگ، جی. Li, W. تشخیص ابر چند سطحی برای تصاویر سنجش از دور با وضوح بالا با استفاده از شبکه های عصبی کانولوشنال چندگانه. ISPRS Int. J. Geo-Inf. 2018 ، 7 ، 181. [ Google Scholar ] [ CrossRef ]
  27. روسبورم، ام. Körner, M. طبقه‌بندی پوشش زمین چندزمانی با رمزگذارهای تکراری متوالی. ISPRS Int. J. Geo-Inf. 2018 ، 7 ، 129. [ Google Scholar ] [ CrossRef ]
  28. خو، X. لی، دبلیو. ران، کیو. دو، س. گائو، ال. Zhang، B. طبقه بندی داده های سنجش از دور چند منبعی بر اساس شبکه عصبی کانولوشن. IEEE Trans. Geosci. Remote Sens. 2018 , 56 , 937–949. [ Google Scholar ] [ CrossRef ]
  29. هوانگ، بی. ژائو، بی. Song، Y. نقشه‌برداری کاربری زمین شهری با استفاده از یک شبکه عصبی پیچیده عمیق با تصاویر سنجش از دور چندطیفی با وضوح فضایی بالا. سنسور از راه دور محیط. 2018 ، 214 ، 73-86. [ Google Scholar ] [ CrossRef ]
  30. هیوز، LH؛ اشمیت، ام. مو، ال. وانگ، ی. Zhu، X. شناسایی وصله های متناظر در SAR و تصاویر نوری با CNN شبه سیامی. IEEE Geosci. سنسور از راه دور Lett. 2018 ، 15 ، 784-788. [ Google Scholar ] [ CrossRef ]
  31. آیوف، اس. Szegedy, C. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. arXiv , 2015; arXiv:1502.03167. [ Google Scholar ]
  32. لین، TY; رویچادری، ای. مدل‌های دوخطی CNN Maji، S. برای تشخیص بصری ریز. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر (ICCV)، سانتیاگو، شیلی، 13 تا 16 دسامبر 2015. ص 1449-1457. [ Google Scholar ]
  33. Kingma، DP; با، جی. آدام: روشی برای بهینه سازی تصادفی. arXiv , 2014; arXiv:1412.6980. [ Google Scholar ]
  34. TensorFlow. در دسترس آنلاین: https://tensorflow.google.cn/ (در 3 نوامبر 2018 قابل دسترسی است).
  35. بریمن، L. جنگل های تصادفی. ماخ فرا گرفتن. 2001 ، 45 ، 5-32. [ Google Scholar ] [ CrossRef ]
  36. چاپل، او. واپنیک، وی. بوسکت، او. موکرجی، اس. انتخاب چند پارامتر برای ماشین‌های بردار پشتیبان. ماخ فرا گرفتن. 2002 ، 46 ، 131-159. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
شکل 1. مجموعه داده ها، آموزش و نمونه های آزمایشی مورد استفاده در این مطالعه.
شکل 2. معماری شبکه عصبی کانولوشنال دو شاخه ای پیشنهادی.
شکل 3. معماری شاخه تصویر ابرطیفی پیشنهادی (HSI).
شکل 4. معماری Residual block-A و Residual block-B در شاخه HSI. O: خروجی؛ ج: الحاق. +: جمع
شکل 5. اندازه پچ k در مقابل دقت کلی.
شکل 6. ساختار ماژول ویژگی تطبیقی ​​تطبیقی. ج: الحاق; ×: تولید نقطه ای.
شکل 7. نقشه های طبقه بندی فقط برای ( الف ) شاخه HSI. ب ) فقط شعبه LiDAR. ( ج ) CNN دو شاخه ای را پیشنهاد کرد.

بدون دیدگاه

دیدگاهتان را بنویسید