1. معرفی
توسعه سریع فناوری هوافضا، که منجر به در دسترس بودن تعداد زیادی از ماهواره ها و سکوهای هواپیما (هم سرنشین دار و هم بدون سرنشین) شد، منجر به دستیابی آسان تر از تصاویر سنجش از دور با وضوح بالا شد [1 ] . سیستمهای هوابرد بدون سرنشین (UAS)، به ویژه کلاس UAS که به عنوان سیستمهای هوابرد بدون سرنشین کوچک (S-UAS) شناخته میشوند، نه تنها طیف وسیعی از قابلیتهای جدید سنجش از راه دور را فعال میکنند، بلکه چالشهای واضحی را برای جامعه سنجش از دور از جمله افزایش دادهها ایجاد میکنند. حجم و کمبود رویکردهای تحلیل مناسب [ 2 ]. بدون کمبود داده، چالش واقعی به سمت استخراج خودکار اطلاعات ارزشمند از آنها تغییر می کند.
تصاویر سنجش از دور برای استخراج و نقشه برداری اشیایی مانند ساختمان ها [ 3 ]، جاده ها [ 4 ]، وسایل نقلیه [ 5 ]، کشتی ها [ 6 ]، ویژگی های زمین [ 7 ]، و غیره استفاده می شوند. برچسب گذاری پیکسلی تصاویر سنجش از دور مطابق با یک وظیفه تقسیم بندی معنایی تعریف شده در بینایی کامپیوتر (CV). تقسیم بندی معنایی خودکار و حاشیه نویسی اشیاء یافت شده در مناطق شهری نقش مهمی در بسیاری از کاربردهای سنجش از دور، مانند ساخت و به روز رسانی پایگاه داده جغرافیایی، تغییر پوشش زمین، و استخراج اطلاعات موضوعی دارد [8] .]. استخراج ساختمان معمولاً حیاتی ترین کار است زیرا برای نظارت بر تغییرات در مناطق شهری، برنامه ریزی شهری و برآورد جمعیت استفاده می شود [1 ]. با این حال، ساختمان ها از نظر تنوع ویژگی های بصری غنی هستند که شناسایی آنها را در مقایسه با اشیاء طبیعی مانند بدنه های آبی و جنگل ها یا حتی اشیاء مصنوعی مانند جاده ها و وسایل نقلیه بسیار دشوارتر می کند.
پیشرفت اخیر هوش مصنوعی (AI) در قالب یادگیری عمیق نتایج قابل توجهی را در چندین کار مرتبط با تصویر نشان داد و طبیعتاً تمرکز جامعه سنجش از دور را به خود جلب کرد. یادگیری عمیق با استفاده از شبکه های عصبی که معمولاً لایه های زیادی را شامل می شود مشخص می شود، بنابراین آنها را “عمیق” می نامند. معرفی نوع خاصی از شبکه عصبی به نام شبکه عصبی کانولوشن (CNN) [ 9 ] بینایی کامپیوتری را متحول کرد و تأثیر زیادی بر حل مشکلات طبقهبندی تصویر، محلیسازی و تقسیمبندی معنایی گذاشت. CNN های عمیق، از طریق لایه های زیادی که دارند، قادر به ایجاد سلسله مراتبی از ویژگی ها هستند که آنها را به ویژه برای این وظایف مناسب می کند [ 10]]. توانایی یادگیری نمایش داده های مختلف (یعنی ویژگی ها) CNN های عمیق را در نمایش تصاویر پیچیده دنیای واقعی بسیار قدرتمند می کند تا بتوان آنها را به راحتی طبقه بندی کرد. این ویژگی CNN های عمیق به دلیل تنوع بصری آن ها به ویژه در هنگام برخورد با استخراج ردپای ساختمان اهمیت دارد. اهمیت طبقه بندی معماری های CNN در این واقعیت نهفته است که می توان آنها را نسبتاً به راحتی گسترش داد و برای تقسیم بندی معنایی استفاده کرد. معماری های مختلفی در چند سال گذشته برای مقابله با این مشکل بوجود آمده اند. در بخش بعدی به بررسی آنها خواهیم پرداخت.
در این مقاله، ما یک رویکرد برای پردازش خودکار تصاویر سنجش از راه دور به منظور ایجاد استخراج ردپای با استفاده از بخشبندی معنایی عمیق پیشنهاد کردیم. روشی که ما پیشنهاد کردیم نشاندهنده یک خط لوله عمومی است که شامل سه مرحله است: آمادهسازی تصویر، پیادهسازی و آموزش مدل تقسیمبندی عمیق، و ترکیب پیشبینیها. برای ارزیابی، از مجموعه داده های برچسب گذاری تصویر هوایی Inria [ 11 ] استفاده کردیم که در بخش 3 توضیح داده خواهد شد . از آنجایی که نویسندگان مجموعه داده یک مسابقه عمومی را سازماندهی کردند، نتایج مسابقه رسمی نیز در این مقاله ارائه و مورد بحث قرار گرفته است.
این مقاله به شرح زیر سازماندهی شده است: بخش 2 یک نمای کلی از کار مرتبط در مورد معماری های تقسیم بندی معنایی عمیق و استفاده از آنها در سنجش از دور ارائه می دهد. بخش 3 شامل جزئیات مربوط به مجموعه داده استفاده شده است. در بخش 4 ، روش پیشنهادی با ارائه خط لوله پردازش توضیح داده شده است. نتایج بهدستآمده از آزمایشهای انجامشده در بخش 5 ارائه و مورد بحث قرار گرفتهاند . در نهایت، بخش 6 نتیجه گیری را ارائه می کند.
2. کارهای مرتبط
استفاده از CNN های عمیق نشان دهنده وضعیت فعلی برای طبقه بندی تصاویر، محلی سازی اشیا و تقسیم بندی معنایی به طور کلی است. این رویکرد در حوزه سنجش از دور که هدف آن خودکارسازی پردازش مقادیر عظیمی از تصاویر هوایی موجود است، بسیار محبوب شده است. یکی از اولین کاربردهای موفق CNN های عمیق، طبقه بندی کاربری زمین است [ 12 ، 13 ، 14 ]. همانطور که از نام آن پیداست، این وظیفه به مشکل طبقه بندی تصویر تعلق دارد، جایی که ایده آموزش یک شبکه CNN عمیق برای تشخیص مقوله کاربری زمین بر اساس یک پچ تصویر هوایی کوچک است. برای تهیه نقشه کاربری زمین برای برخی از مناطق نیاز به استفاده از تکنیک پنجره کشویی [ 15]، به عنوان مثال، برای استخراج تکه های متوالی (احتمالا با همپوشانی) و تعیین کلاس کاربری مناسب. این رویکرد دارای دو اشکال است: کند است و به طور قابل توجهی وضوح نقشه خروجی را کاهش می دهد. یک رویکرد جایگزین طبقه بندی پچ تصویر به عنوان یک کل نیست، بلکه تعیین کلاس برای هر پیکسل در آن است. این طبقه بندی در سطح پیکسل به عنوان بخش بندی معنایی شناخته می شود، و زمانی که با استفاده از CNN های عمیق انجام می شود، معمولاً به آن تقسیم بندی معنایی عمیق می گویند.
Deep CNN برای طبقه بندی می تواند به عنوان یک استخراج کننده ویژگی های عمومی با یک طبقه بندی در بالای آن دیده شود که به روشی انتها به انتها آموزش داده شده است. لایه ها در CNN تمایل به کاهش بعد فضایی ورودی و گسترش بعد ویژگی دارند. اگر بخش طبقهبندی CNN را که به عنوان سر نیز شناخته میشود، قطع کنیم و «سر» متفاوتی را که آخرین نقشه ویژگی (بعد فضایی) را ارتقا میدهد و سپس تعداد کانالها (بعد ویژگی) را با استفاده از لایه کانولوشنال کاهش دهیم، وصل کنیم. به CNN برای تقسیم بندی معنایی معروف به شبکه کاملاً پیچیده (FCN) [ 16]]. معماری FCN توصیفشده از این واقعیت رنج میبرد که مولفه فضایی آخرین نقشه ویژگی CNN چندین برابر کوچکتر از اندازه ورودی است، بنابراین ارتقاء آن جزئیات را باز نمیگرداند. برای دستیابی به نتایج تقسیمبندی بهتر، میتوان با استفاده از نقشههای ویژگی بهدستآمده از چندین مرحله CNN، یک ابر ستون [ 17 ] تشکیل داد. تعداد فیلترها در هر نقشه ویژگی با لایههای کانولوشنی اضافی برابر میشود و پس از نمونهبرداری به یک اندازه خاص، یک عملیات اضافی برای ساخت یک ابر ستون استفاده میشود که برای طبقهبندی در سطح پیکسل استفاده میشود. معماری DeepLab [ 18 ] جهت دیگری را برای پرداختن به موضوع FCN پیشبینیهای با وضوح پایین بر اساس پیچشهای آزاردهنده نشان میدهد.
معماری های پیچیده تر CNN برای تقسیم بندی معنایی DeconvNet [ 19 ] و U-Net [ 20] هستند.]. هر دو شبکه یک ایده معماری مشابه دارند: شبکه از بخش های رمزگذار و رمزگشا تشکیل شده است. در مورد DeconvNet به ترتیب شبکه های کانولوشن و دکانولوشن نامیده می شوند. بخش رمزگذار اساساً یک CNN طبقهبندی شده با قسمت بالایی حذف شده است، در حالی که رمزگشا دارای ساختاری آینهای با بلوکهایی است که از لایههای کانولوشن upsampling یا جابجایی و به دنبال آن لایههای کانولوشن تشکیل شده است. معماری U-Net، علاوه بر این، اتصالات پرش را معرفی میکند که امکان کپی و الحاق نقشههای ویژگی رمزگذار قبلی را به نقشههای ویژگی رمزگشای نمونهبرداری شده مربوطه فراهم میکند، بنابراین لایههای کانولوشن رمزگشا هر دو را پردازش میکنند. یک رویکرد بسیار مشابه، با تفاوت های جزئی، توسط معماری SegNet [ 21 ] ترویج می شود.
شبکه هرمی ویژگی (FPN) [ 22 ]، که بهترین عملکرد را در آزمایشات ما داشت، ساختاری مشابه با U-Net دارد، به عنوان مثال، همچنین دارای اتصال جانبی بین رمزگذار (هرم از پایین به بالا در نمایش FPN) و رمزگشا (بالا) است. هرم پایین). تفاوت اصلی این است که FPN چندین لایه پیش بینی را معرفی می کند، به عنوان مثال، یک لایه برای هر لایه upsampling. علاوه بر این، در حالی که U-Net فقط ویژگیها را از رمزگذار به رمزگشا کپی میکند و اضافه میکند، FPN ابتدا پیچیدگی ۱×۱ را اعمال میکند و بنابراین امکان استفاده از معماری دلخواه را برای هرم پایین به بالا، یعنی ستون فقرات، فراهم میکند.
تقسیم بندی معنایی عمیق موضوع بسیاری از مطالعات تحقیقاتی در سنجش از دور بوده است. استخراج ردپای ساختمان، به دلیل اهمیت و در دسترس بودن مجموعه داده ها، موضوع بسیاری از مقالات اخیر بوده است [ 1 ، 3 ، 23 ، 24 ، 25 ، 26 ، 27 ، 28.]. مقالات فهرست شده معماری های مختلف را بررسی کرده و برخی تنظیمات را برای مقابله بهتر با مشکل پیشنهاد می کنند. تمرکز این مقاله بر تعیین خط لوله پردازشی است که به ما امکان میدهد از مدلهای بخشبندی معنایی عمیق موجود برای پردازش خودکار تصاویر سنجش از دور استفاده کنیم. در مورد استخراج ردپای ساختمان، ما یک روش، بر اساس بررسی تجربی، برای انتخاب مدل بهینه نشان دادیم.
3. مجموعه داده
برای مطالعه ارائه شده در این مقاله، ما از مجموعه داده های برچسب گذاری تصویر هوایی Inria [ 11] (از این پس مجموعه داده Inria نامیده می شود). مجموعه داده به یکی از مهم ترین مشکلات سنجش از راه دور می پردازد: برچسب گذاری خودکار تصاویر هوایی بر حسب پیکسل. به طور خاص، مجموعه داده Inria شامل تصاویر رنگی تصحیح شده هوایی با وضوح فضایی 30 سانتی متر در هر پیکسل، با داده های حقیقت زمینی مناسب برای دو کلاس معنایی است: ساختمان و نه ساختمان. این تصاویر سکونتگاه های شهری متفاوتی را پوشش می دهند، از مناطق پرجمعیت گرفته تا شهرهای کوهستانی. یکی از ویژگیهای جالب مجموعه داده Inria این است که زیرمجموعههای قطار و آزمایش حاوی تصاویری از شهرهای کاملاً متفاوت هستند که ارزیابی نحوه تعمیم روش برچسبگذاری پیشنهادی به هر شهر را ممکن میسازد. مجموعه داده مبنای مسابقه ای بود که برای مقایسه رویکردهای مختلف به این مشکل برگزار شد. نتایج مسابقه مربوطه،29 ].
مجموعه آموزشی Inria شامل 36 کاشی تصویر رنگی با اندازه 5000 × 5000 پیکسل برای هر یک از مناطق زیر است: آستین، شیکاگو، شهرستان کیتساپ، تیرول غربی و وین. این در مجموع 180 تصویر است که مساحت 405 کیلومتر مربع را پوشش می دهد . داده های حقیقت زمینی شامل 180 تصویر تک کانالی متناظر با مقدار 255 برای کلاس ساختمان و 0 برای کلاس غیر ساختمان است. تصویر مجموعه داده آموزشی Inria که چندین وصله تصویر و حقیقت زمین مربوطه را نشان می دهد در شکل 1 نشان داده شده است .
برای اهداف مسابقه، مجموعه آزمایشی منتشر شده حاوی همان تعداد کاشی تصویر است، اما این بار برای مناطق زیر: بلینگهام، بلومینگتون، اینسبروک، سانفرانسیسکو، و تیرول شرقی. داده های حقیقت پایه برای مجموعه آزمایشی فاش نشده است. عملکرد مدل با استفاده از دو معیار متمایز اندازهگیری میشود: تقاطع بیش از اتحادیه (IoU) و دقت. IoU بهعنوان تعداد پیکسلهای برچسبگذاریشده بهعنوان ساختمان در تصاویر پیشبینیشده و واقعی، تقسیم بر تعداد پیکسلهایی که بهعنوان ساختمان در تصویر حقیقت پیشبینیشده یا زمینی برچسبگذاری شدهاند، محاسبه میشود. از سوی دیگر، دقت، درصدی از پیکسلهای طبقهبندی شده را نشان میدهد. این دو معیار برای هر یک از پنج منطقه آزمایشی به طور جداگانه و برای مجموعه آزمون کلی محاسبه میشوند.
برای محاسبه معیارهای IoU با استفاده از حقیقت زمینی (GT) و ماسک پیشبینیشده (PM)، و همچنین مثبتهای درست (TP)، مثبتهای کاذب (FP) و منفیهای کاذب (FN)، از معادله زیر استفاده میکنیم:
به طور مشابه، معیارهای دقت را می توان با استفاده از TP، FP، FN و مثبت کاذب (FP) با استفاده از معادله زیر محاسبه کرد:
از آنجایی که رقابت معیارهای واحدی را برای ارزیابی نتایج مشخص نمیکند، ما معیارهای ترکیبی را معرفی کردیم تا بتوانیم بهترین مدل را در طول آموزش انتخاب کنیم. معیارهای ترکیبی به عنوان میانگین IoU و دقت محاسبه می شود:
هر دو معیار IoU و دقت در معیارهای ترکیبی به یک اندازه وزن دارند، اما IoU تأثیر بسیار قوی تری بر معیارهای حاصل دارد. دلیل آن عبارت TN است که در معادله دقت (2) یافت می شود که غالب است و بنابراین معیارها را بالا می برد. این ویژگی معیارهای ترکیبی را می توان به عنوان یک مورد دلخواه در نظر گرفت زیرا IoU معمولاً برای وظایف تقسیم بندی استفاده می شود.
4. شرح روش
روشی که برای پردازش مجموعه داده Inria استفاده میشود شامل آمادهسازی تصویر، پیادهسازی و آموزش مجموعهای از CNNهای عمیق برای تقسیمبندی معنایی، و در نهایت، استفاده از آنها برای پیشبینی ساخت ماسکها برای کاشیهای تصویر مجموعه آزمایشی است (شکل 2 را ببینید ) . دادههای تقسیمشده به ۶ تا، که برای آموزش مجموعهای متشکل از ۶ مدل استفاده میشود، انتخاب شد، زیرا هر منطقه دارای ۳۶ تصویر است، بنابراین هر تا از ۶ تای آنها برای اعتبارسنجی استفاده میشود ( 16) و 30 باقیمانده برای آموزش ( 56). دادههای استفادهشده به چینها به دنبال پیشنهاد نویسندگان مجموعه داده برای استفاده از 5 تصویر اول برای هر منطقه برای اعتبارسنجی است. یک جایگزین مناسب برای آزمایش، استفاده از 5 تا، یکی برای هر منطقه، و آموزش گروهی متشکل از 5 مدل است.
بخشهای فرعی زیر نحوه انجام هر یک از این وظایف فرعی را توضیح میدهند. لازم به تاکید است که خط لوله پیشنهادی عمومی است و می توان آن را برای هر مشکل مشابه مربوط به پردازش تصاویر سنجش از دور اعمال کرد.
4.1. آماده سازی تصویر
اولین گام در خط لوله برای پردازش تصاویر سنجش از دور با استفاده از تقسیمبندی معنایی عمیق، تهیه تصاویر ورودی و صحت زمین در قالبی قابل اجرا برای آموزش مدلهای مناسب است. این امر با استخراج یک سری وصله، در اندازه مشخص، از ورودی اصلی و تصاویر واقعی زمین به دست می آید. روشهای مختلفی برای استخراج وجود دارد، اما قوانین کلی اجازه همپوشانی وصلهها را میدهد تا قسمتهای مختلف تصویر را بتوان در مکانهای مختلف وصلهها پیدا کرد.
روش ما برای استخراج تکه ها بر برش شبکه ای منظم با همپوشانی متکی بود. پارامترهایی که برای تهیه وصله ها مشخص شده اند، اندازه پچ هدف و درصد حداقل همپوشانی بین وصله های نزدیک است. پس از بارگذاری تصویر ورودی، بر اساس این دو پارامتر، تعدادی از ستونها و ردیفهای وصلهها محاسبه میشوند و وصلهها با استفاده از توزیع یکنواخت استخراج میشوند. به عنوان مثال، برای تصاویر Inria که 5000 × 5000 پیکسل هستند، اگر اندازه وصله هدف 384 × 384 پیکسل انتخاب شود و حداقل همپوشانی 30 درصد باشد، در مجموع 361، یعنی 19 × 19، وصله های تصویر و دقیقاً به همان تعداد تکه های حقیقت زمین استخراج می شوند. از آنجایی که مجموعه آموزشی Inria شامل 180 تصویر ورودی است، که در مجموع به 64980 وصله ورودی و همان تعداد وصله های حقیقت زمینی تبدیل می شود.
علاوه بر همپوشانی، هنگام پردازش تصاویر هوایی، برای افزایش بیشتر تنوع مجموعه داده آموزشی، یک تکنیک افزایش داده خاص اعمال می شود. این تکنیک با چرخاندن تصویر به صورت افقی و عمودی و چرخش تصویر برای 90 درجه، 180 درجه و 270 درجه، پنج تغییر از تصویر اصلی ایجاد میکند. تصویر تکنیک افزایش داده های پیشنهادی در شکل 3 نشان داده شده است . با به کارگیری این تکنیک، تعداد موثر وصله های مختلف مورد استفاده برای آموزش در سناریوی قبلی 6 × 64980 = 389880 است. البته، برای حفظ فضای هارد دیسک مورد نیاز برای ذخیره وصله های آموزشی، افزایش داده ها به صورت پویا اعمال می شود، با انتخاب و اعمال تبدیل تصادفی در هر بار استفاده از پچ برای آموزش.
4.2. پیش بینی فیوژن
در بخش فرعی قبلی، ما نشان دادیم که چگونه تصاویر ورودی بزرگتر و ماسک های حقیقت زمینی را به قالب قابل استفاده برای آموزش مدل های تقسیم بندی معنایی عمیق تبدیل کنیم. در این بخش فرعی، ما فرض میکنیم که یک یا چند مدل آموزشدیده را داریم و توضیح میدهیم که چگونه میتوان از آنها برای به دست آوردن پیشبینیها و ایجاد ماسکهای خروجی برای تصاویر آزمایشی استفاده کرد. دلیل اینکه ما در مرحله اول به مرحله نهایی می رویم به این دلیل است که تا حدی برعکس آن چیزی است که در مرحله آماده سازی تصویر داشتیم.
از آنجایی که مدلهای تقسیمبندی معنایی عمیق با استفاده از وصلههای تصویر نسبتاً کوچک آموزش داده میشوند، پیشبینیهایی که آنها قادر به تولید هستند نیز نسبتاً کوچک هستند. به همین دلیل، دوباره باید وصلههای تصویر را از تصاویر آزمایشی استخراج کنیم، از آنها برای ایجاد پیشبینیهای مناسب استفاده کنیم، و سپس به نحوی آن پیشبینیهای جزئی را در یک ماسک خروجی ادغام کنیم. علاوه بر این، این امکان وجود دارد که ما نه یک مدل، بلکه مجموعهای متشکل از چندین مدل را آموزش دهیم، بنابراین هر یک از آنها میتوانند پیشبینی متفاوتی برای هر پچ ورودی ایجاد کنند.
اصطلاح «پیشبینی» برای نشان دادن خروجی مدل استفاده میشود، که برای مسئله تقسیمبندی باینری، ماتریسی را نشان میدهد که در آن عناصر بین 0 و 1 قرار دارند. هر عنصر در ماتریس مربوط به یک پیکسل در پچ تصویر ورودی است و میتواند به عنوان احتمال تعلق یک پیکسل خاص به یک ساختمان تفسیر می شود. اگر با مجموعهای از مدلها سر و کار داشته باشیم، پیشبینی انتگرال برای یک پچ ورودی با میانگینگیری پیشبینیها برای هر یک از مدلهای مجموعه به دست میآید.
روش میانگینگیری را میتوان برای اعمال تکنیکی به نام افزایش زمان آزمون (TTA) استفاده کرد. TTA یک برنامه کاربردی برای تقویت داده ها به داده های آزمایشی است. در مورد ما، به دست آوردن شش پیشبینی برای هر وصله تصویر و پنج تبدیل قبلاً توضیح داده شده، سپس تراز کردن آنها با اعمال تبدیلهای معکوس مناسب، و دوباره میانگینگیری آنها برای تولید یک پیشبینی نهایی برای پچ را نشان میدهد.
وضعیت سوم که در آن میانگینگیری پیشبینی اعمال میشود، زمانی است که پیشبینیهای تکههای جداگانه را در یک پیشبینی انتگرال برای کل تصویر ادغام میکنیم. نیاز به میانگین گیری از این واقعیت ناشی می شود که ما همان روش استخراج پچ را که در بخش فرعی قبلی توضیح داده شد، اعمال کردیم که شامل همپوشانی است. برای این کار خاص، یک میانگین وزنی اعمال می شود. شهود پشت آن این است که یک مدل تقسیمبندی معنایی عمیق، که مبتنی بر CNN است، به دلیل اطلاعات کاملتر، در مقایسه با لبهها و گوشهها، پیشبینیهای بهتری در قسمت مرکزی پچ تصویر ارائه میکند. به همین دلیل، هنگام میانگین گیری پیش بینی های ناشی از ادغام، تصمیم گرفتیم قسمت مرکزی را بیشتر از لبه ها و به خصوص گوشه ها در نظر بگیریم. راه برای انجام این کار این است که پیش بینی ها را با یک هسته گاوسی دو بعدی ضرب کنیم (نگاه کنید بهشکل 4 ).
در نهایت، اجرای خاص این مرحله به شرح زیر عمل می کند. برای هر تصویر ورودی، دو ماتریس صفر اولیه (پیشبینی و تاثیر) ایجاد میشود که با توجه به اندازه تصویر ورودی ابعاد میشوند. برای هر پچ استخراج شده، تبدیل TTA و مدل در مجموعه، یک پیشبینی به دست میآید. پیشبینی بهدستآمده در هسته گاوسی از پیش تعریفشده ضرب میشود و به ماتریس پیشبینی اضافه میشود، یعنی به عناصر مناسب تعیینشده توسط محل وصله. در همان زمان، هسته گاوسی به همان عناصر ماتریس ضربه اضافه می شود. پس از پردازش تمام وصله ها، پیش بینی نهایی برای تصویر ورودی با تقسیم ماتریس پیش بینی با ماتریس ضربه محاسبه می شود.شکل 5تصویری از همپوشانی وزنی مورد استفاده برای به دست آوردن پیشبینیهای انتگرال را به تصویر میکشد. برای حفظ پیشبینیهای دقیق، عناصر حاصل در 255 ضرب میشوند، گرد میشوند و بهعنوان یک تصویر PNG در مقیاس خاکستری ذخیره میشوند. ماسک باینری مناسب از تصویر خاکستری با اعمال عملیات آستانه در یک سطح مشخص ایجاد می شود. سطح آستانه بهینه با ارزیابی معیارهای IoU و دقت روی تصاویر اعتبارسنجی و یافتن حداکثر معیارهای ترکیبی، همانطور که در شکل 6 نشان داده شده است، تعیین می شود .
4.3. پیاده سازی و آموزش مدل
بخش مرکزی روش پیشنهادی، پیادهسازی و آموزش یک مدل تقسیمبندی معنایی عمیق است که قادر به پیشبینی مکان ساختمانها، با توجه به پچ تصویر هوایی ورودی است. پیاده سازی با استفاده از زبان برنامه نویسی پایتون و کتابخانه Keras [ 30 ] انجام شد. Keras یک کتابخانه سطح بالا است که یک رابط ساده برای پیادهسازی شبکههای عصبی عمیق تعریف میکند، و در مورد ما، به کتابخانه TensorFlow [ 31 ] به عنوان یک موتور پشتیبان متکی است. کد منبع پروژه را می توان در [ 32 ] یافت.
برای پیادهسازی مدلهای تقسیمبندی معنایی عمیق، به کتابخانه Github پاول یاکوبوسکی به نام مدلهای تقسیمبندی [ 33 ]، یک کتابخانه پایتون مبتنی بر Keras که چهار معماری تقسیمبندی محبوب و دهها ستون فقرات از پیش آموزشدیده ImageNet را پیادهسازی میکند که میتوانند به راحتی در مدل تقسیمبندی ترکیب شوند، تکیه کردیم. انتخاب. این کتابخانه از معماریهای زیر پشتیبانی میکند: U-Net [ 20 ]، FPN [ 22 ]، LinkNet [ 34 ] و شبکه تجزیه صحنه هرمی (PSPNet) [ 35 ]. برای انتخاب معماری و ستون فقرات، ما یک مطالعه اولیه انجام دادیم که در آن چندین ترکیب موجود را آموزش داده و ارزیابی کردیم، همانطور که در تصویر نشان داده شده است. جدول 1 نشان داده شده است.. معیارهای اعتبار سنجی تصویر شده مستقیماً از فرآیند آموزش یک مدل واحد برای هر ترکیبی از معماری تقسیمبندی و ستون فقرات به دست میآیند. ما در این مرحله از ارزیابی مبتنی بر ترکیب پیشبینیها استفاده نکردیم زیرا در آن لحظه توسعه نیافته بود. این مطالعه جامع نبود، به خصوص وقتی صحبت از ستون فقرات موجود می شود (مجموع 24)، و دلیل آن زمان بسیار طولانی آموزش به دلیل حجم زیاد داده است (آموزش یک مدل می تواند چندین روز طول بکشد). به همین دلیل، ایده آزمایش هر چهار معماری موجود با استفاده از ResNet-34 نسبتا ساده [ 36 ] آزمایش کنیم و سپس چند آزمایش دیگر را با معماری برنده اجرا کنیم. در مطالعه ما، معماری FPN بهترین عملکرد را داشت، بنابراین ما دو آزمایش دیگر را با ترکیب آن با SEResNet-34 اجرا کردیم [37 ] و ResNeXt-50 [ 38] ستون فقرات دلیل عملکرد FPN را می توان در ویژگی معماری آن یافت که شامل چندین لایه پیش بینی، به عنوان مثال، یک لایه برای هر لایه upsampling است. به نظر ما، لایههای پیشبینی چندگانه FPN به دلیل تنوع بالای اندازهها و انواعی که ساختمانها در آنها وجود دارند، نقش مهمی در استخراج ردپای ساختمان دارند، بنابراین به لایههای پیشبینی مختلف اجازه میدهد تا انواع ساختمانهای مختلف را شناسایی کنند. در آزمایشهای خود، تغییرات ResNet را برای ستون فقرات به دو دلیل انتخاب کردیم: اولی عملکرد نسبتاً خوب آنها در مجموعه داده ImageNet، در حالی که دومی توانایی آنها برای استفاده از ستون فقرات از پیش آموزشدیده با وصلههایی با اندازههای ورودی مختلف است. بهترین نتایج در ترکیب با ستون فقرات ResNeXt-50 به دست آمد، بنابراین برای آزمایشهای بیشتر ما به این ترکیب پایبند بودیم.شکل 7 .
همانطور که در شکل 7 مشاهده می شود ، مدل تقسیم بندی با استفاده از وصله های 384 × 384 آموزش داده شده است. تصاویر ورودی دارای سه کانال برای اجزای رنگ قرمز، سبز و آبی هستند، در حالی که پیشبینی خروجی دارای دو کانال مستقل است که با استفاده از فعالسازی سیگموید به دست میآیند. کانال اول مربوط به یک ماسک ساختمان/نه ساختمان است و یک خروجی مدل واقعی را نشان می دهد، در حالی که کانال دوم فقط به طور موقت در طول آموزش استفاده می شود. کانال دوم مربوط به یک ماسک مرزی ساختمان است و به عنوان نوعی «کمک آموزشی» معرفی میشود، بنابراین مدل میتواند ویژگیهای مربوط به مرز بین ساختمانها و محیط اطرافشان را بیاموزد. این رویکرد توسط مو و ژو [ 5] به منظور تقسیمبندی نمونه وسیله نقلیه از تصاویر هوایی. در اجرای خود، ماسک اصلی حقیقت زمین را با یک ماسک مرزی مشتق شده که با کم کردن ماسک ساختمان فرسوده از ماسک ساختمان گشاد شده تولید میشود، انباشته کردیم ( شکل 8 را ببینید ). این مدل برای یادگیری هر دو ماسک آموزش دیده است، اما معیارهای IoU و دقت فقط برای کانال اول محاسبه میشوند. به همین ترتیب، زمانی که بعداً نیاز به اعمال چنین مدلی داشته باشیم، به سادگی کانال دوم را کنار می گذاریم و تنها از کانال اول به عنوان پیش بینی استفاده می کنیم.
روند آموزش در دو مرحله سازماندهی شد. در مرحله اول، یعنی مرحله اصلی آموزش، کل شبکه با استفاده از از دست دادن آنتروپی متقاطع باینری بهینه شد. پس از آن، شبکه در فاز دوم با استفاده از مجموع تلفات آنتروپی متقاطع باینری و تلفات تاس تنظیم دقیق شد. از دست دادن تاس [ 39 ] با متریک IoU مطابقت دارد، به همین دلیل است که در ترکیب با آنتروپی متقاطع باینری که با متریک دقت مطابقت دارد، معرفی میشود. اصطلاح “خوب” برای نشان دادن اینکه نرخ یادگیری اولیه کمتری برای حفظ پارامترهای اولیه شبکه استفاده شده است استفاده می شود.
مدل ایجاد شده با استفاده از الگوریتم بهینهسازی «RMSprop» [ 40 ] (ماژول «بهینهسازها»)، از دست دادن «binary_crossentropy» (ماژول «تلفات»)، و سه تابع متریک تعریفشده سفارشی «acc_fc»، «iou_fc» و «acc_iou_fc» کامپایل شد. ‘. هر سه معیار سفارشی اولین کانال خروجی را استخراج میکنند که مربوط به ماسک ساختمان است و به ترتیب «دقت_دودویی» (ماژول «متریک»)، سطح دستهای IoU (اجرا شده در [ 33 ])، و میانگین آن دو (متریک ترکیبی) را محاسبه میکند. الگوریتم بهینه سازی به دلیل همگرایی سریع و حافظه نسبتا کم آن انتخاب شد.
برای پشتیبانی از افزایش دادههای سفارشی و آمادهسازی دستهای، کلاس «DataAugmentation» را پیادهسازی کردیم که «Sequence» (ماژول «utils») Keras را به ارث میبرد. کلاس پیادهسازی شده نیز برای پشتیبانی از تقسیم دادههای قطار و اعتبارسنجی با استفاده از 6 برابر طراحی شده است ( شکل 2 را ببینید ). از آنجایی که هر منطقه دارای 36 تصویر است، از وصله های 6 تای آنها برای اعتبار سنجی و وصله های 30 تصویر باقی مانده برای آموزش استفاده می کنیم. می توان انتخاب کرد که کدام فولد برای اعتبارسنجی استفاده می شود، بنابراین ما توانستیم در مجموع 6 مدل مختلف را که در مجموعه استفاده می شود آموزش دهیم.
آموزش با فراخوانی روش “fit_generator” مدل آغاز شد. کنترل اضافی فرآیند آموزش در Keras با استفاده از اشیاء برگشتی امکان پذیر است. کلاس های مربوطه در ماژول callbacks قرار دارند و ما موارد زیر را اعمال کردیم: ‘LearningRateScheduler’، ‘EarlyStopping’، ‘ModelCheckpoint’ و ‘CSVLogger’.
“LearningRateScheduler” برای تعیین یک تابع دلخواه برای محاسبه نرخ یادگیری بسته به دوره آموزشی فعلی استفاده می شود. ما از این فراخوانی برای اجرای به اصطلاح آنیل کسینوس [ 41 ] استفاده کردیم. در بازپخت کسینوس، نرخ یادگیری به دنبال تابع کسینوس از مقدار اولیه به مقداری حداقل در طول تعداد معینی از دورهها (دوره) کاهش مییابد. در اجرای ما، با هر دوره جدید، نرخ یادگیری اولیه ضریب 0.7 کاهش می یابد. ما از مقدار اولیه 10-4 برای مرحله اول آموزش و 10-5 برای تنظیم دقیق استفاده کردیم. حداقل مقدار 0.01 برابر مقدار اولیه بود. برنامه زمانبندی مناسب، یعنی مقیاس بندی میزان یادگیری اولیه، در شکل 9 نشان داده شده است.
همان طور که از نام آن پیداست، از «ایستگاه زودهنگام» برای متوقف کردن فرآیند آموزش استفاده میشود، اگر در تعدادی از دورهها پیشرفتی در یک پارامتر مشخص وجود نداشته باشد. در مورد ما، 10 دوره برای آموزش اولیه و 5 دوره برای تنظیم دقیق استفاده شد و متریک های ترکیبی (میانگین دقت و IoU) در مجموعه اعتبار سنجی نظارت شد. پاسخ تماس «CSVLogger» برای ثبت ضرر و دقت در مجموعههای آموزشی و اعتبارسنجی در طول فرآیند آموزش استفاده میشود. در نهایت، “ModelCheckpoint” برای ذخیره بهترین مدل فعلی از نظر دقت به دست آمده در مجموعه اعتبار سنجی استفاده شد.
تنظیم دقیق به روشی تقریباً یکسان و با چند تغییر جزئی انجام شد. پس از بارگذاری مدل بهدستآمده از مرحله آموزش اول، با تعیین یک تابع از دست دادن سفارشی ‘bce_dice_loss’ که به عنوان مجموع ‘binary_crossentropy’ (ارزیابی شده برای هر دو کانال) و ‘dice_loss’ (پیادهسازی شده در []) تعریف میشود، کامپایل شد. 33 ) که فقط در کانال اول ارزیابی می شود. تغییر دوم بر نرخ یادگیری اولیه تأثیر گذاشت که به 10-5 کاهش یافت تا از تغییرات وزن قابل توجه در شبکه جلوگیری شود. نتایج به دست آمده در بخش بعدی ارائه شده است.
5. نتایج و بحث
برای ارزیابی روش پیشنهادی، ما شش مدل را آموزش دادیم و به دقت تنظیم کردیم و تای مورد استفاده برای اعتبارسنجی را تغییر دادیم. آموزش بر روی یک کامپیوتر شخصی با پردازنده Intel i7-8700K، 32 گیگابایت رم و یک Nvidia GeForce 1080 Ti با 11 گیگابایت حافظه انجام شد. وصله های تصویری 384 × 384 پیکسل برای آموزش و ارزیابی استفاده شد. این مدل در مجموع دارای 26,415,051 پارامتر است که 26,344,517 از آنها قابل آموزش هستند. با توجه به حافظه قابل توجه مدل، اندازه دسته برای آموزش روی 8 تنظیم شد.
آموزش و تنظیم دقیق هر شش مدل بیش از سه هفته طول کشید. به طور دقیق تر، مرحله آموزش اولیه 19 روز (~ 3 روز در هر مدل)، در حالی که مرحله تنظیم دقیق 4.5 روز (~1.5 روز در هر مدل) طول کشید. به عنوان تصویری از فرآیند آموزش، در شکل 10 ، ما دقت، IoU، و معیارهای ترکیبی را در طول مراحل آموزش اولیه و تنظیم دقیق مدل اول به تصویر میکشیم. خطوط قرمز عمودی روی نمودارها دورههایی را نشان میدهند که بزرگترین معیارهای اعتبارسنجی ترکیبی به دست آمدهاند و مدل برای استفاده بعدی ذخیره میشود.
اگرچه معیارهای بهدستآمده در طول فرآیند آموزش اطلاعاتی در مورد عملکرد مدل مورد انتظار ارائه میدهند، برای آزمایش صحیح آن، همراه با سایر تکنیکهای پیشنهادی برای به دست آوردن پیشبینیهای نهایی، ارزیابی هر مدل بر روی تصاویر مناسبی که مجموعه اعتبارسنجی را تشکیل میدهند، انجام میشود. در مورد اولین مدل آموزش دیده، تصاویر اعتبارسنجی برای هر ناحیه از مجموعه آموزشی 1 تا 6 است. زمان مورد نیاز برای ارزیابی یک مدل آموزش دیده تنها 34 دقیقه است. این شامل ایجاد پیش بینی برای 30 تصویر 5000 × 5000 پیکسل است، بنابراین میانگین زمان برای پردازش یک تصویر 68 ثانیه است. جزئیات هر پنج منطقه و هر شش تصویر در جدول 2 نشان داده شده است. جدول همچنین معیارهای خلاصه را برای هر شش تصویر در هر منطقه و به طور کلی نشان می دهد. لطفاً توجه داشته باشید که معیارهای خلاصه برای مجموعه تصویر بهعنوان یک کل بهدست میآیند، یعنی ردیابی و جمعبندی تعداد پیکسلهای متقاطع، اتحاد و کل در هر یک از تصاویر محاسبه میشوند. این فقط بر مقدار IoU تأثیر میگذارد، در حالی که دقت به اندازهای باقی میماند که گویی به ازای هر تصویر میانگین گرفتهایم.
نتایج ارزیابی خلاصه برای هر شش مدل در جدول 3 نشان داده شده است . این جدول ساختاری مشابه جدول قبلی دارد، اما به جای معیارهای هر تصویر، خلاصهای از هر مدل را برای مناطق مناسب و به طور کلی نشان میدهد. مقادیر مدل 1 در جدول 3 با ردیف خلاصه (همه) در جدول 2 مطابقت دارد . علاوه بر این، در جدول 4 نتایج ارزیابی خلاصه ای را با استفاده از معیارهای مثبت واقعی (TP)، منفی واقعی (TN)، مثبت کاذب (FP) و منفی کاذب (FN) داریم. معیارها به تعداد پیکسل و درصد نمایش داده می شوند.
تا به حال، نتایجی که نشان داده شده بود فقط ارزیابی محلی بر اساس مجموعه اعتبار سنجی است. ایده مسابقه Inria آزمایش این بود که مدل های آموزش دیده در یک مجموعه از شهرها به مجموعه دیگری از شهرها چگونه قابل انتقال هستند. برای انجام این کار، مجموعه ای از مدل های آموزش دیده را اعمال کردیم و پیش بینی هایی را برای تصاویر تست مربوطه ایجاد کردیم. پیشبینیها بهعنوان تصاویری در مقیاس خاکستری ذخیره شدند، که به ما اجازه میدهد به راحتی مقادیر آستانههای مختلف را آزمایش کنیم و ترکیبی را انتخاب کنیم که بهترین نتیجه کلی را ارائه میدهد. برای پردازش تمام 180 تصویر آزمایشی با استفاده از مجموعه شش مدل، کمی بیشتر از 20 ساعت طول کشید. میانگین زمان پردازش یک تصویر با استفاده از مجموعه شش مدل 402 ثانیه است که معادل 67 ثانیه برای پردازش تصویر با استفاده از یک مدل است. جزئیات مربوط به آن تست ها در جدول 5 نشان داده شده است. نتیجه ترکیبی که در تابلوی امتیازات رسمی مسابقه منتشر شده است، با انتخاب ماسکهایی برای مناطق خاص با مقدار معیارهای IoU (مقادیر خطدار) به دست آمد. دقت کلی و مقادیر IoU از این نتیجه حاصل می شود.
با مقایسه ارزیابی کلی و نتایج رقابت، می توان متوجه شد که هم دقت و هم معیارهای IoU هنگام اعمال مدل های آموزش دیده در مجموعه ای از مناطق جغرافیایی مختلف کاهش یافته است. این مورد انتظار میرود، زیرا هر شهر دارای ویژگیهای منحصربهفردی است و میزان نسبی کاهش آن چندان بزرگ نیست، به عنوان مثال، 0.45٪ برای دقت و 7.25٪ برای IoU.
برای به دست آوردن بینش بیشتر در مورد رفتار مدل، برای هر تصویر از مجموعه اعتبارسنجی که در ارزیابی استفاده شد، پیشبینیهای خروجی (تصاویر در مقیاس خاکستری) و ماسکها (آستانه در 45٪) را ذخیره کردیم، بنابراین به عنوان تجسم یکپارچه که ماسک خروجی را پوشش میدهد ( به رنگ قرمز) و ماسک حقیقت (به رنگ سبز) روی تصویر ورودی. در مکان هایی که این دو ماسک روی هم قرار می گیرند، ماسک حاصل زرد به نظر می رسد. این خروجی تجسم به ما این امکان را میدهد تا با تشخیص همپوشانیهای قرمز یا سبز در تصویر، به سرعت مناطقی را که مشکلی پیش آمده است شناسایی کنیم. در شکل 11 ، شکل 12 و شکل 13، ما چندین کلاس از نمونههایی را که در طول بررسی کلی تجسمهای توضیح داده شده قبلی پیدا شدهاند به تصویر میکشیم. هر یک از این سه شکل وصلهای از تصویر ورودی اصلی، پیشبینی بهدستآمده و ماسک را نشان میدهد تا تجسم مناسب را نشان دهد. نتیجه ارزیابی کامل را می توان در ‘figshare.com’ [ 42 ] یافت.
در شکل 11 ما تمیزترین وضعیت را داریم، به عنوان مثال، دو مثال را نشان می دهد که در آن ماسک خروجی با حقیقت زمین مربوطه مطابقت دارد. حتی در این دو حالت، ماسک تقسیمبندی بهدستآمده پیکسل کامل نیست، بنابراین برخی پیکسلهای قرمز و سبز در مرزهای ساختمانها وجود دارند.
جالب ترین مجموعه نمونه ها در شکل 12 نشان داده شده است . در اینجا ما “خطاهای تقسیم بندی” را داریم که در واقع به دلیل ماسک های حقیقت پایه نامعتبر در مجموعه داده است. در مثال اول، ما دو ساختمان داریم که به درستی تقسیم بندی شده اند، اما ماسک حقیقت زمین مناسب وضعیت واقعی را منعکس نمی کند. در مثال دوم، موردی داریم که دو ساختمان در ماسک حقیقت زمین (مستطیلهای سبز) حضور دارند، اما وضعیت واقعی ساختمان کاملاً متفاوتی را نشان میدهد که به درستی تقسیمبندی شده است. مواردی مانند این، کاربرد بالقوه روش پیشنهادی را در تأیید اطلاعات صحت زمینی با پردازش خودکار تصاویر هوایی به ما نشان میدهند.
در نهایت در شکل 13ما دو نمونه از خطاهای تقسیمبندی واقعی داریم که از ناقص بودن تصاویر هوایی استفادهشده برای کار داده شده، بلکه از نقص مدل تقسیمبندی معنایی عمیقی که اعمال میشود، ناشی میشوند. در مثال اول، منطقهای داریم که بیشتر ساختمانها با درختان مسدود شدهاند، بنابراین مدل بهطور موجهی تلاش میکند تا آنها را تقسیم کند. عدم قطعیت را می توان با نگاه کردن به خروجی پیش بینی مشاهده کرد. در نتیجه، یک مثال مثبت کاذب قابل توجه (لکه قرمز) داریم در حالی که بقیه ساختمان ها با عدم دقت بالا تقسیم بندی شده اند. مثال دوم عدم قطعیت مدل را در مورد یک ساختمان احتمالی در تصویر نشان میدهد (ناحیه خاکستری در پیشبینی) که منجر به لغزش برخی پیکسلها در ماسک خروجی (لکه قرمز) پس از آستانهگذاری شد.
در مجموع، تحلیل انجام شده پتانسیل عظیم رویکرد پیشنهادی را نشان میدهد. این سوال باقی میماند که اگر مجموعه داده تمیزتری داشته باشیم، به عنوان مثال، مجموعه داده بدون عدم تطابق بین حقیقت پایه و وضعیت واقعی، چه چیزی میتوان به دست آورد. این برای هر دو نتایج ارزیابی، برای ارائه معیارهای دقیق تر، و همچنین برای آموزش مهم است تا مدلی را با داده های نادرست گمراه نکنیم و در نتیجه مدل بهتر را به دست آوریم.
6. نتیجه گیری
در این مقاله، ما رویکردی را برای استخراج ردپای ساختمانی از تصاویر هوایی با استفاده از تقسیمبندی معنایی عمیق پیشنهاد و ارزیابی کردیم. استخراج ردپای ساختمان به عنوان یک مورد خاص در نظر گرفته میشود، در حالی که رویکرد پیشنهادی میتواند برای بسیاری از وظایف مختلف که نیاز به برچسبگذاری خودکار پیکسلی تصاویر سنجش از دور دارند، استفاده شود.
روش توصیف شده در مقاله را می توان به عنوان یک خط لوله سه مرحله ای تصور کرد که شامل مراحل زیر است: تهیه تصویر، پیاده سازی و آموزش مدل، و به دست آوردن پیش بینی ها. مرحله آماده سازی تصویر به مشکل تبدیل تصاویر ورودی بزرگ به فرمت قابل استفاده برای آموزش می پردازد. این مرحله همچنین تکنیک افزایش داده های مناسب برای تصاویر هوایی را معرفی می کند. پیادهسازی مدل فعلی متکی به معماری تقسیمبندی FPN است که با رمزگذار ResNeXt-50 جفت شده است، اما همانطور که قبلاً در مقاله نشان دادیم، مدلهای تقسیمبندی دیگر ممکن است. در نهایت، آخرین مرحله به استفاده از یک مجموعه آموزش دیده از مدل های تقسیم بندی عمیق برای به دست آوردن پیش بینی ها و ماسک های خروجی نهایی می پردازد. برای این منظور، از تقویت زمان آزمون (TTA) و همپوشانی وزنی با هسته گاوسی استفاده کردیم.
در این مقاله، ارزیابی روش پیشنهادی و همچنین نتایج مسابقه رسمی را ارائه کردیم. تجزیه و تحلیل بصری نتایج ارزیابی، توانایی بسیار خوب مدل را در تقسیم دقیق ردپای ساختمان از تصاویر هوایی نشان داد. همچنین خطاهای زیادی را در مجموعه داده زیربنایی نشان داد که شامل عدم همسویی بین ماسک های حقیقت زمینی و وضعیت واقعی است. همچنین ثابت کرد که ابزار کارآمدی برای تشخیص چنین ناهنجاریهایی است.
کاربرد بالقوه استخراج خودکار ساختمان ها بررسی عدم تطابق بین ساختمان های ثبت شده در برخی پایگاه های جغرافیایی و وضعیت واقعی نشان داده شده توسط تصاویر ماهواره ای است. برای کار آینده، ما قصد داریم یک روش خودکار برای تشخیص چنین مناطقی با محاسبه معیارهای IoU محلی با استفاده از تکنیک پنجره کشویی توسعه دهیم. در آستانه چنین خروجی، مناطقی با مقادیر IoU محلی پایین را می توان شناسایی کرد که نشان دهنده عدم تطابق احتمالی بین حقیقت زمین و ماسک پیش بینی شده است. اطلاعات مناسب میتواند بیشتر برای رفع حقیقت پایه دادهها، آموزش مجدد مدلها و مقایسه نتایج استفاده شود.
بدون دیدگاه