خلاصه

گسترش سنسورها و پلتفرم‌های سنجش از دور با وضوح بالا، نیاز به تحلیل‌های موثر و پردازش خودکار حجم بالای تصاویر هوایی را تحمیل می‌کند. پیشرفت اخیر هوش مصنوعی (AI) در قالب یادگیری عمیق (DL) و شبکه های عصبی کانولوشن (CNN) نتایج قابل توجهی را در چندین کار مرتبط با تصویر نشان داد و طبیعتاً تمرکز جامعه سنجش از دور را به خود جلب کرد. در این مقاله، ما بر تعیین خط لوله پردازشی تمرکز می‌کنیم که بر مدل‌های بخش‌بندی پیشرفته DL برای خودکارسازی استخراج ردپای ساختمان متکی است. خط لوله پیشنهادی در سه مرحله سازماندهی می‌شود: آماده‌سازی تصویر، پیاده‌سازی و آموزش مدل، و ترکیب پیش‌بینی‌ها. برای مرحله اول و سوم، چندین تکنیک را معرفی کردیم که از ویژگی‌های تصویر سنجش از راه دور استفاده می‌کنند. در حالی که برای انتخاب مدل تقسیم‌بندی، به بررسی تجربی تکیه کردیم. در این مقاله، چندین آزمایش را که روی مجموعه داده برچسب‌گذاری تصویر هوایی Inria انجام دادیم، ارائه و مورد بحث قرار دادیم. یافته‌های ما تأیید کرد که پردازش خودکار تصاویر سنجش از راه دور با استفاده از بخش‌بندی معنایی DL هم امکان‌پذیر است و هم می‌تواند نتایج قابل‌کاربردی را ارائه دهد. اگر مجموعه داده مربوطه در دسترس باشد، خط لوله پیشنهادی می‌تواند به طور بالقوه به هر وظیفه تقسیم‌بندی تصویر سنجش از راه دور دیگر منتقل شود. یافته‌های ما تأیید کرد که پردازش خودکار تصاویر سنجش از راه دور با استفاده از بخش‌بندی معنایی DL هم امکان‌پذیر است و هم می‌تواند نتایج قابل‌کاربردی را ارائه دهد. اگر مجموعه داده مربوطه در دسترس باشد، خط لوله پیشنهادی می‌تواند به طور بالقوه به هر وظیفه تقسیم‌بندی تصویر سنجش از راه دور دیگر منتقل شود. یافته‌های ما تأیید کرد که پردازش خودکار تصاویر سنجش از راه دور با استفاده از بخش‌بندی معنایی DL هم امکان‌پذیر است و هم می‌تواند نتایج قابل‌کاربردی را ارائه دهد. اگر مجموعه داده مربوطه در دسترس باشد، خط لوله پیشنهادی می‌تواند به طور بالقوه به هر وظیفه تقسیم‌بندی تصویر سنجش از راه دور دیگر منتقل شود.

کلید واژه ها:

تصاویر سنجش از دور ; یادگیری عمیق ؛ تقسیم بندی معنایی ; استخراج ساختمان ; شبکه های عصبی کانولوشنال

چکیده گرافیکی

1. معرفی

توسعه سریع فناوری هوافضا، که منجر به در دسترس بودن تعداد زیادی از ماهواره ها و سکوهای هواپیما (هم سرنشین دار و هم بدون سرنشین) شد، منجر به دستیابی آسان تر از تصاویر سنجش از دور با وضوح بالا شد [1 ] . سیستم‌های هوابرد بدون سرنشین (UAS)، به ویژه کلاس UAS که به عنوان سیستم‌های هوابرد بدون سرنشین کوچک (S-UAS) شناخته می‌شوند، نه تنها طیف وسیعی از قابلیت‌های جدید سنجش از راه دور را فعال می‌کنند، بلکه چالش‌های واضحی را برای جامعه سنجش از دور از جمله افزایش داده‌ها ایجاد می‌کنند. حجم و کمبود رویکردهای تحلیل مناسب [ 2 ]. بدون کمبود داده، چالش واقعی به سمت استخراج خودکار اطلاعات ارزشمند از آنها تغییر می کند.
تصاویر سنجش از دور برای استخراج و نقشه برداری اشیایی مانند ساختمان ها [ 3 ]، جاده ها [ 4 ]، وسایل نقلیه [ 5 ]، کشتی ها [ 6 ]، ویژگی های زمین [ 7 ]، و غیره استفاده می شوند. برچسب گذاری پیکسلی تصاویر سنجش از دور مطابق با یک وظیفه تقسیم بندی معنایی تعریف شده در بینایی کامپیوتر (CV). تقسیم بندی معنایی خودکار و حاشیه نویسی اشیاء یافت شده در مناطق شهری نقش مهمی در بسیاری از کاربردهای سنجش از دور، مانند ساخت و به روز رسانی پایگاه داده جغرافیایی، تغییر پوشش زمین، و استخراج اطلاعات موضوعی دارد [8] .]. استخراج ساختمان معمولاً حیاتی ترین کار است زیرا برای نظارت بر تغییرات در مناطق شهری، برنامه ریزی شهری و برآورد جمعیت استفاده می شود [1 ]. با این حال، ساختمان ها از نظر تنوع ویژگی های بصری غنی هستند که شناسایی آنها را در مقایسه با اشیاء طبیعی مانند بدنه های آبی و جنگل ها یا حتی اشیاء مصنوعی مانند جاده ها و وسایل نقلیه بسیار دشوارتر می کند.
پیشرفت اخیر هوش مصنوعی (AI) در قالب یادگیری عمیق نتایج قابل توجهی را در چندین کار مرتبط با تصویر نشان داد و طبیعتاً تمرکز جامعه سنجش از دور را به خود جلب کرد. یادگیری عمیق با استفاده از شبکه های عصبی که معمولاً لایه های زیادی را شامل می شود مشخص می شود، بنابراین آنها را “عمیق” می نامند. معرفی نوع خاصی از شبکه عصبی به نام شبکه عصبی کانولوشن (CNN) [ 9 ] بینایی کامپیوتری را متحول کرد و تأثیر زیادی بر حل مشکلات طبقه‌بندی تصویر، محلی‌سازی و تقسیم‌بندی معنایی گذاشت. CNN های عمیق، از طریق لایه های زیادی که دارند، قادر به ایجاد سلسله مراتبی از ویژگی ها هستند که آنها را به ویژه برای این وظایف مناسب می کند [ 10]]. توانایی یادگیری نمایش داده های مختلف (یعنی ویژگی ها) CNN های عمیق را در نمایش تصاویر پیچیده دنیای واقعی بسیار قدرتمند می کند تا بتوان آنها را به راحتی طبقه بندی کرد. این ویژگی CNN های عمیق به دلیل تنوع بصری آن ها به ویژه در هنگام برخورد با استخراج ردپای ساختمان اهمیت دارد. اهمیت طبقه بندی معماری های CNN در این واقعیت نهفته است که می توان آنها را نسبتاً به راحتی گسترش داد و برای تقسیم بندی معنایی استفاده کرد. معماری های مختلفی در چند سال گذشته برای مقابله با این مشکل بوجود آمده اند. در بخش بعدی به بررسی آنها خواهیم پرداخت.
در این مقاله، ما یک رویکرد برای پردازش خودکار تصاویر سنجش از راه دور به منظور ایجاد استخراج ردپای با استفاده از بخش‌بندی معنایی عمیق پیشنهاد کردیم. روشی که ما پیشنهاد کردیم نشان‌دهنده یک خط لوله عمومی است که شامل سه مرحله است: آماده‌سازی تصویر، پیاده‌سازی و آموزش مدل تقسیم‌بندی عمیق، و ترکیب پیش‌بینی‌ها. برای ارزیابی، از مجموعه داده های برچسب گذاری تصویر هوایی Inria [ 11 ] استفاده کردیم که در بخش 3 توضیح داده خواهد شد . از آنجایی که نویسندگان مجموعه داده یک مسابقه عمومی را سازماندهی کردند، نتایج مسابقه رسمی نیز در این مقاله ارائه و مورد بحث قرار گرفته است.
این مقاله به شرح زیر سازماندهی شده است: بخش 2 یک نمای کلی از کار مرتبط در مورد معماری های تقسیم بندی معنایی عمیق و استفاده از آنها در سنجش از دور ارائه می دهد. بخش 3 شامل جزئیات مربوط به مجموعه داده استفاده شده است. در بخش 4 ، روش پیشنهادی با ارائه خط لوله پردازش توضیح داده شده است. نتایج به‌دست‌آمده از آزمایش‌های انجام‌شده در بخش 5 ارائه و مورد بحث قرار گرفته‌اند . در نهایت، بخش 6 نتیجه گیری را ارائه می کند.

2. کارهای مرتبط

استفاده از CNN های عمیق نشان دهنده وضعیت فعلی برای طبقه بندی تصاویر، محلی سازی اشیا و تقسیم بندی معنایی به طور کلی است. این رویکرد در حوزه سنجش از دور که هدف آن خودکارسازی پردازش مقادیر عظیمی از تصاویر هوایی موجود است، بسیار محبوب شده است. یکی از اولین کاربردهای موفق CNN های عمیق، طبقه بندی کاربری زمین است [ 12 ، 13 ، 14 ]. همانطور که از نام آن پیداست، این وظیفه به مشکل طبقه بندی تصویر تعلق دارد، جایی که ایده آموزش یک شبکه CNN عمیق برای تشخیص مقوله کاربری زمین بر اساس یک پچ تصویر هوایی کوچک است. برای تهیه نقشه کاربری زمین برای برخی از مناطق نیاز به استفاده از تکنیک پنجره کشویی [ 15]، به عنوان مثال، برای استخراج تکه های متوالی (احتمالا با همپوشانی) و تعیین کلاس کاربری مناسب. این رویکرد دارای دو اشکال است: کند است و به طور قابل توجهی وضوح نقشه خروجی را کاهش می دهد. یک رویکرد جایگزین طبقه بندی پچ تصویر به عنوان یک کل نیست، بلکه تعیین کلاس برای هر پیکسل در آن است. این طبقه بندی در سطح پیکسل به عنوان بخش بندی معنایی شناخته می شود، و زمانی که با استفاده از CNN های عمیق انجام می شود، معمولاً به آن تقسیم بندی معنایی عمیق می گویند.
Deep CNN برای طبقه بندی می تواند به عنوان یک استخراج کننده ویژگی های عمومی با یک طبقه بندی در بالای آن دیده شود که به روشی انتها به انتها آموزش داده شده است. لایه ها در CNN تمایل به کاهش بعد فضایی ورودی و گسترش بعد ویژگی دارند. اگر بخش طبقه‌بندی CNN را که به عنوان سر نیز شناخته می‌شود، قطع کنیم و «سر» متفاوتی را که آخرین نقشه ویژگی (بعد فضایی) را ارتقا می‌دهد و سپس تعداد کانال‌ها (بعد ویژگی) را با استفاده از لایه کانولوشنال کاهش دهیم، وصل کنیم. به CNN برای تقسیم بندی معنایی معروف به شبکه کاملاً پیچیده (FCN) [ 16]]. معماری FCN توصیف‌شده از این واقعیت رنج می‌برد که مولفه فضایی آخرین نقشه ویژگی CNN چندین برابر کوچک‌تر از اندازه ورودی است، بنابراین ارتقاء آن جزئیات را باز نمی‌گرداند. برای دستیابی به نتایج تقسیم‌بندی بهتر، می‌توان با استفاده از نقشه‌های ویژگی به‌دست‌آمده از چندین مرحله CNN، یک ابر ستون [ 17 ] تشکیل داد. تعداد فیلترها در هر نقشه ویژگی با لایه‌های کانولوشنی اضافی برابر می‌شود و پس از نمونه‌برداری به یک اندازه خاص، یک عملیات اضافی برای ساخت یک ابر ستون استفاده می‌شود که برای طبقه‌بندی در سطح پیکسل استفاده می‌شود. معماری DeepLab [ 18 ] جهت دیگری را برای پرداختن به موضوع FCN پیش‌بینی‌های با وضوح پایین بر اساس پیچش‌های آزاردهنده نشان می‌دهد.
معماری های پیچیده تر CNN برای تقسیم بندی معنایی DeconvNet [ 19 ] و U-Net [ 20] هستند.]. هر دو شبکه یک ایده معماری مشابه دارند: شبکه از بخش های رمزگذار و رمزگشا تشکیل شده است. در مورد DeconvNet به ترتیب شبکه های کانولوشن و دکانولوشن نامیده می شوند. بخش رمزگذار اساساً یک CNN طبقه‌بندی شده با قسمت بالایی حذف شده است، در حالی که رمزگشا دارای ساختاری آینه‌ای با بلوک‌هایی است که از لایه‌های کانولوشن upsampling یا جابجایی و به دنبال آن لایه‌های کانولوشن تشکیل شده است. معماری U-Net، علاوه بر این، اتصالات پرش را معرفی می‌کند که امکان کپی و الحاق نقشه‌های ویژگی رمزگذار قبلی را به نقشه‌های ویژگی رمزگشای نمونه‌برداری شده مربوطه فراهم می‌کند، بنابراین لایه‌های کانولوشن رمزگشا هر دو را پردازش می‌کنند. یک رویکرد بسیار مشابه، با تفاوت های جزئی، توسط معماری SegNet [ 21 ] ترویج می شود.
شبکه هرمی ویژگی (FPN) [ 22 ]، که بهترین عملکرد را در آزمایشات ما داشت، ساختاری مشابه با U-Net دارد، به عنوان مثال، همچنین دارای اتصال جانبی بین رمزگذار (هرم از پایین به بالا در نمایش FPN) و رمزگشا (بالا) است. هرم پایین). تفاوت اصلی این است که FPN چندین لایه پیش بینی را معرفی می کند، به عنوان مثال، یک لایه برای هر لایه upsampling. علاوه بر این، در حالی که U-Net فقط ویژگی‌ها را از رمزگذار به رمزگشا کپی می‌کند و اضافه می‌کند، FPN ابتدا پیچیدگی ۱×۱ را اعمال می‌کند و بنابراین امکان استفاده از معماری دلخواه را برای هرم پایین به بالا، یعنی ستون فقرات، فراهم می‌کند.
تقسیم بندی معنایی عمیق موضوع بسیاری از مطالعات تحقیقاتی در سنجش از دور بوده است. استخراج ردپای ساختمان، به دلیل اهمیت و در دسترس بودن مجموعه داده ها، موضوع بسیاری از مقالات اخیر بوده است [ 1 ، 3 ، 23 ، 24 ، 25 ، 26 ، 27 ، 28.]. مقالات فهرست شده معماری های مختلف را بررسی کرده و برخی تنظیمات را برای مقابله بهتر با مشکل پیشنهاد می کنند. تمرکز این مقاله بر تعیین خط لوله پردازشی است که به ما امکان می‌دهد از مدل‌های بخش‌بندی معنایی عمیق موجود برای پردازش خودکار تصاویر سنجش از دور استفاده کنیم. در مورد استخراج ردپای ساختمان، ما یک روش، بر اساس بررسی تجربی، برای انتخاب مدل بهینه نشان دادیم.

3. مجموعه داده

برای مطالعه ارائه شده در این مقاله، ما از مجموعه داده های برچسب گذاری تصویر هوایی Inria [ 11] (از این پس مجموعه داده Inria نامیده می شود). مجموعه داده به یکی از مهم ترین مشکلات سنجش از راه دور می پردازد: برچسب گذاری خودکار تصاویر هوایی بر حسب پیکسل. به طور خاص، مجموعه داده Inria شامل تصاویر رنگی تصحیح شده هوایی با وضوح فضایی 30 سانتی متر در هر پیکسل، با داده های حقیقت زمینی مناسب برای دو کلاس معنایی است: ساختمان و نه ساختمان. این تصاویر سکونتگاه های شهری متفاوتی را پوشش می دهند، از مناطق پرجمعیت گرفته تا شهرهای کوهستانی. یکی از ویژگی‌های جالب مجموعه داده Inria این است که زیرمجموعه‌های قطار و آزمایش حاوی تصاویری از شهرهای کاملاً متفاوت هستند که ارزیابی نحوه تعمیم روش برچسب‌گذاری پیشنهادی به هر شهر را ممکن می‌سازد. مجموعه داده مبنای مسابقه ای بود که برای مقایسه رویکردهای مختلف به این مشکل برگزار شد. نتایج مسابقه مربوطه،29 ].
مجموعه آموزشی Inria شامل 36 کاشی تصویر رنگی با اندازه 5000 × 5000 پیکسل برای هر یک از مناطق زیر است: آستین، شیکاگو، شهرستان کیتساپ، تیرول غربی و وین. این در مجموع 180 تصویر است که مساحت 405 کیلومتر مربع را پوشش می دهد . داده های حقیقت زمینی شامل 180 تصویر تک کانالی متناظر با مقدار 255 برای کلاس ساختمان و 0 برای کلاس غیر ساختمان است. تصویر مجموعه داده آموزشی Inria که چندین وصله تصویر و حقیقت زمین مربوطه را نشان می دهد در شکل 1 نشان داده شده است .
برای اهداف مسابقه، مجموعه آزمایشی منتشر شده حاوی همان تعداد کاشی تصویر است، اما این بار برای مناطق زیر: بلینگهام، بلومینگتون، اینسبروک، سانفرانسیسکو، و تیرول شرقی. داده های حقیقت پایه برای مجموعه آزمایشی فاش نشده است. عملکرد مدل با استفاده از دو معیار متمایز اندازه‌گیری می‌شود: تقاطع بیش از اتحادیه (IoU) و دقت. IoU به‌عنوان تعداد پیکسل‌های برچسب‌گذاری‌شده به‌عنوان ساختمان در تصاویر پیش‌بینی‌شده و واقعی، تقسیم بر تعداد پیکسل‌هایی که به‌عنوان ساختمان در تصویر حقیقت پیش‌بینی‌شده یا زمینی برچسب‌گذاری شده‌اند، محاسبه می‌شود. از سوی دیگر، دقت، درصدی از پیکسل‌های طبقه‌بندی شده را نشان می‌دهد. این دو معیار برای هر یک از پنج منطقه آزمایشی به طور جداگانه و برای مجموعه آزمون کلی محاسبه می‌شوند.

برای محاسبه معیارهای IoU با استفاده از حقیقت زمینی (GT) و ماسک پیش‌بینی‌شده (PM)، و همچنین مثبت‌های درست (TP)، مثبت‌های کاذب (FP) و منفی‌های کاذب (FN)، از معادله زیر استفاده می‌کنیم:

IoU=GT∩PMGT∪PM=TPTP+FP+FN.

به طور مشابه، معیارهای دقت را می توان با استفاده از TP، FP، FN و مثبت کاذب (FP) با استفاده از معادله زیر محاسبه کرد:

دقت=TP+TNTP+TN+FP+FN.

از آنجایی که رقابت معیارهای واحدی را برای ارزیابی نتایج مشخص نمی‌کند، ما معیارهای ترکیبی را معرفی کردیم تا بتوانیم بهترین مدل را در طول آموزش انتخاب کنیم. معیارهای ترکیبی به عنوان میانگین IoU و دقت محاسبه می شود:

ترکیب شده=IoU+دقت2.
هر دو معیار IoU و دقت در معیارهای ترکیبی به یک اندازه وزن دارند، اما IoU تأثیر بسیار قوی تری بر معیارهای حاصل دارد. دلیل آن عبارت TN است که در معادله دقت (2) یافت می شود که غالب است و بنابراین معیارها را بالا می برد. این ویژگی معیارهای ترکیبی را می توان به عنوان یک مورد دلخواه در نظر گرفت زیرا IoU معمولاً برای وظایف تقسیم بندی استفاده می شود.

4. شرح روش

روشی که برای پردازش مجموعه داده Inria استفاده می‌شود شامل آماده‌سازی تصویر، پیاده‌سازی و آموزش مجموعه‌ای از CNN‌های عمیق برای تقسیم‌بندی معنایی، و در نهایت، استفاده از آن‌ها برای پیش‌بینی ساخت ماسک‌ها برای کاشی‌های تصویر مجموعه آزمایشی است (شکل 2 را ببینید ) . داده‌های تقسیم‌شده به ۶ تا، که برای آموزش مجموعه‌ای متشکل از ۶ مدل استفاده می‌شود، انتخاب شد، زیرا هر منطقه دارای ۳۶ تصویر است، بنابراین هر تا از ۶ تای آن‌ها برای اعتبارسنجی استفاده می‌شود ( 16) و 30 باقیمانده برای آموزش ( 56). داده‌های استفاده‌شده به چین‌ها به دنبال پیشنهاد نویسندگان مجموعه داده برای استفاده از 5 تصویر اول برای هر منطقه برای اعتبارسنجی است. یک جایگزین مناسب برای آزمایش، استفاده از 5 تا، یکی برای هر منطقه، و آموزش گروهی متشکل از 5 مدل است.
بخش‌های فرعی زیر نحوه انجام هر یک از این وظایف فرعی را توضیح می‌دهند. لازم به تاکید است که خط لوله پیشنهادی عمومی است و می توان آن را برای هر مشکل مشابه مربوط به پردازش تصاویر سنجش از دور اعمال کرد.

4.1. آماده سازی تصویر

اولین گام در خط لوله برای پردازش تصاویر سنجش از دور با استفاده از تقسیم‌بندی معنایی عمیق، تهیه تصاویر ورودی و صحت زمین در قالبی قابل اجرا برای آموزش مدل‌های مناسب است. این امر با استخراج یک سری وصله، در اندازه مشخص، از ورودی اصلی و تصاویر واقعی زمین به دست می آید. روش‌های مختلفی برای استخراج وجود دارد، اما قوانین کلی اجازه هم‌پوشانی وصله‌ها را می‌دهد تا قسمت‌های مختلف تصویر را بتوان در مکان‌های مختلف وصله‌ها پیدا کرد.
روش ما برای استخراج تکه ها بر برش شبکه ای منظم با همپوشانی متکی بود. پارامترهایی که برای تهیه وصله ها مشخص شده اند، اندازه پچ هدف و درصد حداقل همپوشانی بین وصله های نزدیک است. پس از بارگذاری تصویر ورودی، بر اساس این دو پارامتر، تعدادی از ستون‌ها و ردیف‌های وصله‌ها محاسبه می‌شوند و وصله‌ها با استفاده از توزیع یکنواخت استخراج می‌شوند. به عنوان مثال، برای تصاویر Inria که 5000 × 5000 پیکسل هستند، اگر اندازه وصله هدف 384 × 384 پیکسل انتخاب شود و حداقل همپوشانی 30 درصد باشد، در مجموع 361، یعنی 19 × 19، وصله های تصویر و دقیقاً به همان تعداد تکه های حقیقت زمین استخراج می شوند. از آنجایی که مجموعه آموزشی Inria شامل 180 تصویر ورودی است، که در مجموع به 64980 وصله ورودی و همان تعداد وصله های حقیقت زمینی تبدیل می شود.
علاوه بر همپوشانی، هنگام پردازش تصاویر هوایی، برای افزایش بیشتر تنوع مجموعه داده آموزشی، یک تکنیک افزایش داده خاص اعمال می شود. این تکنیک با چرخاندن تصویر به صورت افقی و عمودی و چرخش تصویر برای 90 درجه، 180 درجه و 270 درجه، پنج تغییر از تصویر اصلی ایجاد می‌کند. تصویر تکنیک افزایش داده های پیشنهادی در شکل 3 نشان داده شده است . با به کارگیری این تکنیک، تعداد موثر وصله های مختلف مورد استفاده برای آموزش در سناریوی قبلی 6 × 64980 = 389880 است. البته، برای حفظ فضای هارد دیسک مورد نیاز برای ذخیره وصله های آموزشی، افزایش داده ها به صورت پویا اعمال می شود، با انتخاب و اعمال تبدیل تصادفی در هر بار استفاده از پچ برای آموزش.

4.2. پیش بینی فیوژن

در بخش فرعی قبلی، ما نشان دادیم که چگونه تصاویر ورودی بزرگتر و ماسک های حقیقت زمینی را به قالب قابل استفاده برای آموزش مدل های تقسیم بندی معنایی عمیق تبدیل کنیم. در این بخش فرعی، ما فرض می‌کنیم که یک یا چند مدل آموزش‌دیده را داریم و توضیح می‌دهیم که چگونه می‌توان از آنها برای به دست آوردن پیش‌بینی‌ها و ایجاد ماسک‌های خروجی برای تصاویر آزمایشی استفاده کرد. دلیل اینکه ما در مرحله اول به مرحله نهایی می رویم به این دلیل است که تا حدی برعکس آن چیزی است که در مرحله آماده سازی تصویر داشتیم.
از آنجایی که مدل‌های تقسیم‌بندی معنایی عمیق با استفاده از وصله‌های تصویر نسبتاً کوچک آموزش داده می‌شوند، پیش‌بینی‌هایی که آنها قادر به تولید هستند نیز نسبتاً کوچک هستند. به همین دلیل، دوباره باید وصله‌های تصویر را از تصاویر آزمایشی استخراج کنیم، از آنها برای ایجاد پیش‌بینی‌های مناسب استفاده کنیم، و سپس به نحوی آن پیش‌بینی‌های جزئی را در یک ماسک خروجی ادغام کنیم. علاوه بر این، این امکان وجود دارد که ما نه یک مدل، بلکه مجموعه‌ای متشکل از چندین مدل را آموزش دهیم، بنابراین هر یک از آنها می‌توانند پیش‌بینی متفاوتی برای هر پچ ورودی ایجاد کنند.
اصطلاح «پیش‌بینی» برای نشان دادن خروجی مدل استفاده می‌شود، که برای مسئله تقسیم‌بندی باینری، ماتریسی را نشان می‌دهد که در آن عناصر بین 0 و 1 قرار دارند. هر عنصر در ماتریس مربوط به یک پیکسل در پچ تصویر ورودی است و می‌تواند به عنوان احتمال تعلق یک پیکسل خاص به یک ساختمان تفسیر می شود. اگر با مجموعه‌ای از مدل‌ها سر و کار داشته باشیم، پیش‌بینی انتگرال برای یک پچ ورودی با میانگین‌گیری پیش‌بینی‌ها برای هر یک از مدل‌های مجموعه به دست می‌آید.
روش میانگین‌گیری را می‌توان برای اعمال تکنیکی به نام افزایش زمان آزمون (TTA) استفاده کرد. TTA یک برنامه کاربردی برای تقویت داده ها به داده های آزمایشی است. در مورد ما، به دست آوردن شش پیش‌بینی برای هر وصله تصویر و پنج تبدیل قبلاً توضیح داده شده، سپس تراز کردن آنها با اعمال تبدیل‌های معکوس مناسب، و دوباره میانگین‌گیری آنها برای تولید یک پیش‌بینی نهایی برای پچ را نشان می‌دهد.
وضعیت سوم که در آن میانگین‌گیری پیش‌بینی اعمال می‌شود، زمانی است که پیش‌بینی‌های تکه‌های جداگانه را در یک پیش‌بینی انتگرال برای کل تصویر ادغام می‌کنیم. نیاز به میانگین گیری از این واقعیت ناشی می شود که ما همان روش استخراج پچ را که در بخش فرعی قبلی توضیح داده شد، اعمال کردیم که شامل همپوشانی است. برای این کار خاص، یک میانگین وزنی اعمال می شود. شهود پشت آن این است که یک مدل تقسیم‌بندی معنایی عمیق، که مبتنی بر CNN است، به دلیل اطلاعات کامل‌تر، در مقایسه با لبه‌ها و گوشه‌ها، پیش‌بینی‌های بهتری در قسمت مرکزی پچ تصویر ارائه می‌کند. به همین دلیل، هنگام میانگین گیری پیش بینی های ناشی از ادغام، تصمیم گرفتیم قسمت مرکزی را بیشتر از لبه ها و به خصوص گوشه ها در نظر بگیریم. راه برای انجام این کار این است که پیش بینی ها را با یک هسته گاوسی دو بعدی ضرب کنیم (نگاه کنید بهشکل 4 ).
در نهایت، اجرای خاص این مرحله به شرح زیر عمل می کند. برای هر تصویر ورودی، دو ماتریس صفر اولیه (پیش‌بینی و تاثیر) ایجاد می‌شود که با توجه به اندازه تصویر ورودی ابعاد می‌شوند. برای هر پچ استخراج شده، تبدیل TTA و مدل در مجموعه، یک پیش‌بینی به دست می‌آید. پیش‌بینی به‌دست‌آمده در هسته گاوسی از پیش تعریف‌شده ضرب می‌شود و به ماتریس پیش‌بینی اضافه می‌شود، یعنی به عناصر مناسب تعیین‌شده توسط محل وصله. در همان زمان، هسته گاوسی به همان عناصر ماتریس ضربه اضافه می شود. پس از پردازش تمام وصله ها، پیش بینی نهایی برای تصویر ورودی با تقسیم ماتریس پیش بینی با ماتریس ضربه محاسبه می شود.شکل 5تصویری از همپوشانی وزنی مورد استفاده برای به دست آوردن پیش‌بینی‌های انتگرال را به تصویر می‌کشد. برای حفظ پیش‌بینی‌های دقیق، عناصر حاصل در 255 ضرب می‌شوند، گرد می‌شوند و به‌عنوان یک تصویر PNG در مقیاس خاکستری ذخیره می‌شوند. ماسک باینری مناسب از تصویر خاکستری با اعمال عملیات آستانه در یک سطح مشخص ایجاد می شود. سطح آستانه بهینه با ارزیابی معیارهای IoU و دقت روی تصاویر اعتبارسنجی و یافتن حداکثر معیارهای ترکیبی، همانطور که در شکل 6 نشان داده شده است، تعیین می شود .

4.3. پیاده سازی و آموزش مدل

بخش مرکزی روش پیشنهادی، پیاده‌سازی و آموزش یک مدل تقسیم‌بندی معنایی عمیق است که قادر به پیش‌بینی مکان ساختمان‌ها، با توجه به پچ تصویر هوایی ورودی است. پیاده سازی با استفاده از زبان برنامه نویسی پایتون و کتابخانه Keras [ 30 ] انجام شد. Keras یک کتابخانه سطح بالا است که یک رابط ساده برای پیاده‌سازی شبکه‌های عصبی عمیق تعریف می‌کند، و در مورد ما، به کتابخانه TensorFlow [ 31 ] به عنوان یک موتور پشتیبان متکی است. کد منبع پروژه را می توان در [ 32 ] یافت.
برای پیاده‌سازی مدل‌های تقسیم‌بندی معنایی عمیق، به کتابخانه Github پاول یاکوبوسکی به نام مدل‌های تقسیم‌بندی [ 33 ]، یک کتابخانه پایتون مبتنی بر Keras که چهار معماری تقسیم‌بندی محبوب و ده‌ها ستون فقرات از پیش آموزش‌دیده ImageNet را پیاده‌سازی می‌کند که می‌توانند به راحتی در مدل تقسیم‌بندی ترکیب شوند، تکیه کردیم. انتخاب. این کتابخانه از معماری‌های زیر پشتیبانی می‌کند: U-Net [ 20 ]، FPN [ 22 ]، LinkNet [ 34 ] و شبکه تجزیه صحنه هرمی (PSPNet) [ 35 ]. برای انتخاب معماری و ستون فقرات، ما یک مطالعه اولیه انجام دادیم که در آن چندین ترکیب موجود را آموزش داده و ارزیابی کردیم، همانطور که در تصویر نشان داده شده است. جدول 1 نشان داده شده است.. معیارهای اعتبار سنجی تصویر شده مستقیماً از فرآیند آموزش یک مدل واحد برای هر ترکیبی از معماری تقسیم‌بندی و ستون فقرات به دست می‌آیند. ما در این مرحله از ارزیابی مبتنی بر ترکیب پیش‌بینی‌ها استفاده نکردیم زیرا در آن لحظه توسعه نیافته بود. این مطالعه جامع نبود، به خصوص وقتی صحبت از ستون فقرات موجود می شود (مجموع 24)، و دلیل آن زمان بسیار طولانی آموزش به دلیل حجم زیاد داده است (آموزش یک مدل می تواند چندین روز طول بکشد). به همین دلیل، ایده آزمایش هر چهار معماری موجود با استفاده از ResNet-34 نسبتا ساده [ 36 ] آزمایش کنیم و سپس چند آزمایش دیگر را با معماری برنده اجرا کنیم. در مطالعه ما، معماری FPN بهترین عملکرد را داشت، بنابراین ما دو آزمایش دیگر را با ترکیب آن با SEResNet-34 اجرا کردیم [37 ] و ResNeXt-50 [ 38] ستون فقرات دلیل عملکرد FPN را می توان در ویژگی معماری آن یافت که شامل چندین لایه پیش بینی، به عنوان مثال، یک لایه برای هر لایه upsampling است. به نظر ما، لایه‌های پیش‌بینی چندگانه FPN به دلیل تنوع بالای اندازه‌ها و انواعی که ساختمان‌ها در آن‌ها وجود دارند، نقش مهمی در استخراج ردپای ساختمان دارند، بنابراین به لایه‌های پیش‌بینی مختلف اجازه می‌دهد تا انواع ساختمان‌های مختلف را شناسایی کنند. در آزمایش‌های خود، تغییرات ResNet را برای ستون فقرات به دو دلیل انتخاب کردیم: اولی عملکرد نسبتاً خوب آنها در مجموعه داده ImageNet، در حالی که دومی توانایی آنها برای استفاده از ستون فقرات از پیش آموزش‌دیده با وصله‌هایی با اندازه‌های ورودی مختلف است. بهترین نتایج در ترکیب با ستون فقرات ResNeXt-50 به دست آمد، بنابراین برای آزمایش‌های بیشتر ما به این ترکیب پایبند بودیم.شکل 7 .
همانطور که در شکل 7 مشاهده می شود ، مدل تقسیم بندی با استفاده از وصله های 384 × 384 آموزش داده شده است. تصاویر ورودی دارای سه کانال برای اجزای رنگ قرمز، سبز و آبی هستند، در حالی که پیش‌بینی خروجی دارای دو کانال مستقل است که با استفاده از فعال‌سازی سیگموید به دست می‌آیند. کانال اول مربوط به یک ماسک ساختمان/نه ساختمان است و یک خروجی مدل واقعی را نشان می دهد، در حالی که کانال دوم فقط به طور موقت در طول آموزش استفاده می شود. کانال دوم مربوط به یک ماسک مرزی ساختمان است و به عنوان نوعی «کمک آموزشی» معرفی می‌شود، بنابراین مدل می‌تواند ویژگی‌های مربوط به مرز بین ساختمان‌ها و محیط اطرافشان را بیاموزد. این رویکرد توسط مو و ژو [ 5] به منظور تقسیم‌بندی نمونه وسیله نقلیه از تصاویر هوایی. در اجرای خود، ماسک اصلی حقیقت زمین را با یک ماسک مرزی مشتق شده که با کم کردن ماسک ساختمان فرسوده از ماسک ساختمان گشاد شده تولید می‌شود، انباشته کردیم ( شکل 8 را ببینید ). این مدل برای یادگیری هر دو ماسک آموزش دیده است، اما معیارهای IoU و دقت فقط برای کانال اول محاسبه می‌شوند. به همین ترتیب، زمانی که بعداً نیاز به اعمال چنین مدلی داشته باشیم، به سادگی کانال دوم را کنار می گذاریم و تنها از کانال اول به عنوان پیش بینی استفاده می کنیم.
روند آموزش در دو مرحله سازماندهی شد. در مرحله اول، یعنی مرحله اصلی آموزش، کل شبکه با استفاده از از دست دادن آنتروپی متقاطع باینری بهینه شد. پس از آن، شبکه در فاز دوم با استفاده از مجموع تلفات آنتروپی متقاطع باینری و تلفات تاس تنظیم دقیق شد. از دست دادن تاس [ 39 ] با متریک IoU مطابقت دارد، به همین دلیل است که در ترکیب با آنتروپی متقاطع باینری که با متریک دقت مطابقت دارد، معرفی می‌شود. اصطلاح “خوب” برای نشان دادن اینکه نرخ یادگیری اولیه کمتری برای حفظ پارامترهای اولیه شبکه استفاده شده است استفاده می شود.
مدل ایجاد شده با استفاده از الگوریتم بهینه‌سازی «RMSprop» [ 40 ] (ماژول «بهینه‌سازها»)، از دست دادن «binary_crossentropy» (ماژول «تلفات»)، و سه تابع متریک تعریف‌شده سفارشی «acc_fc»، «iou_fc» و «acc_iou_fc» کامپایل شد. ‘. هر سه معیار سفارشی اولین کانال خروجی را استخراج می‌کنند که مربوط به ماسک ساختمان است و به ترتیب «دقت_دودویی» (ماژول «متریک»)، سطح دسته‌ای IoU (اجرا شده در [ 33 ])، و میانگین آن دو (متریک ترکیبی) را محاسبه می‌کند. الگوریتم بهینه سازی به دلیل همگرایی سریع و حافظه نسبتا کم آن انتخاب شد.
برای پشتیبانی از افزایش داده‌های سفارشی و آماده‌سازی دسته‌ای، کلاس «DataAugmentation» را پیاده‌سازی کردیم که «Sequence» (ماژول «utils») Keras را به ارث می‌برد. کلاس پیاده‌سازی شده نیز برای پشتیبانی از تقسیم داده‌های قطار و اعتبارسنجی با استفاده از 6 برابر طراحی شده است ( شکل 2 را ببینید ). از آنجایی که هر منطقه دارای 36 تصویر است، از وصله های 6 تای آنها برای اعتبار سنجی و وصله های 30 تصویر باقی مانده برای آموزش استفاده می کنیم. می توان انتخاب کرد که کدام فولد برای اعتبارسنجی استفاده می شود، بنابراین ما توانستیم در مجموع 6 مدل مختلف را که در مجموعه استفاده می شود آموزش دهیم.
آموزش با فراخوانی روش “fit_generator” مدل آغاز شد. کنترل اضافی فرآیند آموزش در Keras با استفاده از اشیاء برگشتی امکان پذیر است. کلاس های مربوطه در ماژول callbacks قرار دارند و ما موارد زیر را اعمال کردیم: ‘LearningRateScheduler’، ‘EarlyStopping’، ‘ModelCheckpoint’ و ‘CSVLogger’.
“LearningRateScheduler” برای تعیین یک تابع دلخواه برای محاسبه نرخ یادگیری بسته به دوره آموزشی فعلی استفاده می شود. ما از این فراخوانی برای اجرای به اصطلاح آنیل کسینوس [ 41 ] استفاده کردیم. در بازپخت کسینوس، نرخ یادگیری به دنبال تابع کسینوس از مقدار اولیه به مقداری حداقل در طول تعداد معینی از دوره‌ها (دوره) کاهش می‌یابد. در اجرای ما، با هر دوره جدید، نرخ یادگیری اولیه ضریب 0.7 کاهش می یابد. ما از مقدار اولیه 10-4 برای مرحله اول آموزش و 10-5 برای تنظیم دقیق استفاده کردیم. حداقل مقدار 0.01 برابر مقدار اولیه بود. برنامه زمانبندی مناسب، یعنی مقیاس بندی میزان یادگیری اولیه، در شکل 9 نشان داده شده است.
همان طور که از نام آن پیداست، از «ایستگاه زودهنگام» برای متوقف کردن فرآیند آموزش استفاده می‌شود، اگر در تعدادی از دوره‌ها پیشرفتی در یک پارامتر مشخص وجود نداشته باشد. در مورد ما، 10 دوره برای آموزش اولیه و 5 دوره برای تنظیم دقیق استفاده شد و متریک های ترکیبی (میانگین دقت و IoU) در مجموعه اعتبار سنجی نظارت شد. پاسخ تماس «CSVLogger» برای ثبت ضرر و دقت در مجموعه‌های آموزشی و اعتبارسنجی در طول فرآیند آموزش استفاده می‌شود. در نهایت، “ModelCheckpoint” برای ذخیره بهترین مدل فعلی از نظر دقت به دست آمده در مجموعه اعتبار سنجی استفاده شد.
تنظیم دقیق به روشی تقریباً یکسان و با چند تغییر جزئی انجام شد. پس از بارگذاری مدل به‌دست‌آمده از مرحله آموزش اول، با تعیین یک تابع از دست دادن سفارشی ‘bce_dice_loss’ که به عنوان مجموع ‘binary_crossentropy’ (ارزیابی شده برای هر دو کانال) و ‘dice_loss’ (پیاده‌سازی شده در []) تعریف می‌شود، کامپایل شد. 33 ) که فقط در کانال اول ارزیابی می شود. تغییر دوم بر نرخ یادگیری اولیه تأثیر گذاشت که به 10-5 کاهش یافت تا از تغییرات وزن قابل توجه در شبکه جلوگیری شود. نتایج به دست آمده در بخش بعدی ارائه شده است.

5. نتایج و بحث

برای ارزیابی روش پیشنهادی، ما شش مدل را آموزش دادیم و به دقت تنظیم کردیم و تای مورد استفاده برای اعتبارسنجی را تغییر دادیم. آموزش بر روی یک کامپیوتر شخصی با پردازنده Intel i7-8700K، 32 گیگابایت رم و یک Nvidia GeForce 1080 Ti با 11 گیگابایت حافظه انجام شد. وصله های تصویری 384 × 384 پیکسل برای آموزش و ارزیابی استفاده شد. این مدل در مجموع دارای 26,415,051 پارامتر است که 26,344,517 از آنها قابل آموزش هستند. با توجه به حافظه قابل توجه مدل، اندازه دسته برای آموزش روی 8 تنظیم شد.
آموزش و تنظیم دقیق هر شش مدل بیش از سه هفته طول کشید. به طور دقیق تر، مرحله آموزش اولیه 19 روز (~ 3 روز در هر مدل)، در حالی که مرحله تنظیم دقیق 4.5 روز (~1.5 روز در هر مدل) طول کشید. به عنوان تصویری از فرآیند آموزش، در شکل 10 ، ما دقت، IoU، و معیارهای ترکیبی را در طول مراحل آموزش اولیه و تنظیم دقیق مدل اول به تصویر می‌کشیم. خطوط قرمز عمودی روی نمودارها دوره‌هایی را نشان می‌دهند که بزرگترین معیارهای اعتبارسنجی ترکیبی به دست آمده‌اند و مدل برای استفاده بعدی ذخیره می‌شود.
اگرچه معیارهای به‌دست‌آمده در طول فرآیند آموزش اطلاعاتی در مورد عملکرد مدل مورد انتظار ارائه می‌دهند، برای آزمایش صحیح آن، همراه با سایر تکنیک‌های پیشنهادی برای به دست آوردن پیش‌بینی‌های نهایی، ارزیابی هر مدل بر روی تصاویر مناسبی که مجموعه اعتبارسنجی را تشکیل می‌دهند، انجام می‌شود. در مورد اولین مدل آموزش دیده، تصاویر اعتبارسنجی برای هر ناحیه از مجموعه آموزشی 1 تا 6 است. زمان مورد نیاز برای ارزیابی یک مدل آموزش دیده تنها 34 دقیقه است. این شامل ایجاد پیش بینی برای 30 تصویر 5000 × 5000 پیکسل است، بنابراین میانگین زمان برای پردازش یک تصویر 68 ثانیه است. جزئیات هر پنج منطقه و هر شش تصویر در جدول 2 نشان داده شده است. جدول همچنین معیارهای خلاصه را برای هر شش تصویر در هر منطقه و به طور کلی نشان می دهد. لطفاً توجه داشته باشید که معیارهای خلاصه برای مجموعه تصویر به‌عنوان یک کل به‌دست می‌آیند، یعنی ردیابی و جمع‌بندی تعداد پیکسل‌های متقاطع، اتحاد و کل در هر یک از تصاویر محاسبه می‌شوند. این فقط بر مقدار IoU تأثیر می‌گذارد، در حالی که دقت به اندازه‌ای باقی می‌ماند که گویی به ازای هر تصویر میانگین گرفته‌ایم.
نتایج ارزیابی خلاصه برای هر شش مدل در جدول 3 نشان داده شده است . این جدول ساختاری مشابه جدول قبلی دارد، اما به جای معیارهای هر تصویر، خلاصه‌ای از هر مدل را برای مناطق مناسب و به طور کلی نشان می‌دهد. مقادیر مدل 1 در جدول 3 با ردیف خلاصه (همه) در جدول 2 مطابقت دارد . علاوه بر این، در جدول 4 نتایج ارزیابی خلاصه ای را با استفاده از معیارهای مثبت واقعی (TP)، منفی واقعی (TN)، مثبت کاذب (FP) و منفی کاذب (FN) داریم. معیارها به تعداد پیکسل و درصد نمایش داده می شوند.
تا به حال، نتایجی که نشان داده شده بود فقط ارزیابی محلی بر اساس مجموعه اعتبار سنجی است. ایده مسابقه Inria آزمایش این بود که مدل های آموزش دیده در یک مجموعه از شهرها به مجموعه دیگری از شهرها چگونه قابل انتقال هستند. برای انجام این کار، مجموعه ای از مدل های آموزش دیده را اعمال کردیم و پیش بینی هایی را برای تصاویر تست مربوطه ایجاد کردیم. پیش‌بینی‌ها به‌عنوان تصاویری در مقیاس خاکستری ذخیره شدند، که به ما اجازه می‌دهد به راحتی مقادیر آستانه‌های مختلف را آزمایش کنیم و ترکیبی را انتخاب کنیم که بهترین نتیجه کلی را ارائه می‌دهد. برای پردازش تمام 180 تصویر آزمایشی با استفاده از مجموعه شش مدل، کمی بیشتر از 20 ساعت طول کشید. میانگین زمان پردازش یک تصویر با استفاده از مجموعه شش مدل 402 ثانیه است که معادل 67 ثانیه برای پردازش تصویر با استفاده از یک مدل است. جزئیات مربوط به آن تست ها در جدول 5 نشان داده شده است. نتیجه ترکیبی که در تابلوی امتیازات رسمی مسابقه منتشر شده است، با انتخاب ماسک‌هایی برای مناطق خاص با مقدار معیارهای IoU (مقادیر خط‌دار) به دست آمد. دقت کلی و مقادیر IoU از این نتیجه حاصل می شود.
با مقایسه ارزیابی کلی و نتایج رقابت، می توان متوجه شد که هم دقت و هم معیارهای IoU هنگام اعمال مدل های آموزش دیده در مجموعه ای از مناطق جغرافیایی مختلف کاهش یافته است. این مورد انتظار می‌رود، زیرا هر شهر دارای ویژگی‌های منحصربه‌فردی است و میزان نسبی کاهش آن چندان بزرگ نیست، به عنوان مثال، 0.45٪ برای دقت و 7.25٪ برای IoU.
برای به دست آوردن بینش بیشتر در مورد رفتار مدل، برای هر تصویر از مجموعه اعتبارسنجی که در ارزیابی استفاده شد، پیش‌بینی‌های خروجی (تصاویر در مقیاس خاکستری) و ماسک‌ها (آستانه در 45٪) را ذخیره کردیم، بنابراین به عنوان تجسم یکپارچه که ماسک خروجی را پوشش می‌دهد ( به رنگ قرمز) و ماسک حقیقت (به رنگ سبز) روی تصویر ورودی. در مکان هایی که این دو ماسک روی هم قرار می گیرند، ماسک حاصل زرد به نظر می رسد. این خروجی تجسم به ما این امکان را می‌دهد تا با تشخیص همپوشانی‌های قرمز یا سبز در تصویر، به سرعت مناطقی را که مشکلی پیش آمده است شناسایی کنیم. در شکل 11 ، شکل 12 و شکل 13، ما چندین کلاس از نمونه‌هایی را که در طول بررسی کلی تجسم‌های توضیح داده شده قبلی پیدا شده‌اند به تصویر می‌کشیم. هر یک از این سه شکل وصله‌ای از تصویر ورودی اصلی، پیش‌بینی به‌دست‌آمده و ماسک را نشان می‌دهد تا تجسم مناسب را نشان دهد. نتیجه ارزیابی کامل را می توان در ‘figshare.com’ [ 42 ] یافت.
در شکل 11 ما تمیزترین وضعیت را داریم، به عنوان مثال، دو مثال را نشان می دهد که در آن ماسک خروجی با حقیقت زمین مربوطه مطابقت دارد. حتی در این دو حالت، ماسک تقسیم‌بندی به‌دست‌آمده پیکسل کامل نیست، بنابراین برخی پیکسل‌های قرمز و سبز در مرزهای ساختمان‌ها وجود دارند.
جالب ترین مجموعه نمونه ها در شکل 12 نشان داده شده است . در اینجا ما “خطاهای تقسیم بندی” را داریم که در واقع به دلیل ماسک های حقیقت پایه نامعتبر در مجموعه داده است. در مثال اول، ما دو ساختمان داریم که به درستی تقسیم بندی شده اند، اما ماسک حقیقت زمین مناسب وضعیت واقعی را منعکس نمی کند. در مثال دوم، موردی داریم که دو ساختمان در ماسک حقیقت زمین (مستطیل‌های سبز) حضور دارند، اما وضعیت واقعی ساختمان کاملاً متفاوتی را نشان می‌دهد که به درستی تقسیم‌بندی شده است. مواردی مانند این، کاربرد بالقوه روش پیشنهادی را در تأیید اطلاعات صحت زمینی با پردازش خودکار تصاویر هوایی به ما نشان می‌دهند.
در نهایت در شکل 13ما دو نمونه از خطاهای تقسیم‌بندی واقعی داریم که از ناقص بودن تصاویر هوایی استفاده‌شده برای کار داده شده، بلکه از نقص مدل تقسیم‌بندی معنایی عمیقی که اعمال می‌شود، ناشی می‌شوند. در مثال اول، منطقه‌ای داریم که بیشتر ساختمان‌ها با درختان مسدود شده‌اند، بنابراین مدل به‌طور موجهی تلاش می‌کند تا آنها را تقسیم کند. عدم قطعیت را می توان با نگاه کردن به خروجی پیش بینی مشاهده کرد. در نتیجه، یک مثال مثبت کاذب قابل توجه (لکه قرمز) داریم در حالی که بقیه ساختمان ها با عدم دقت بالا تقسیم بندی شده اند. مثال دوم عدم قطعیت مدل را در مورد یک ساختمان احتمالی در تصویر نشان می‌دهد (ناحیه خاکستری در پیش‌بینی) که منجر به لغزش برخی پیکسل‌ها در ماسک خروجی (لکه قرمز) پس از آستانه‌گذاری شد.
در مجموع، تحلیل انجام شده پتانسیل عظیم رویکرد پیشنهادی را نشان می‌دهد. این سوال باقی می‌ماند که اگر مجموعه داده تمیزتری داشته باشیم، به عنوان مثال، مجموعه داده بدون عدم تطابق بین حقیقت پایه و وضعیت واقعی، چه چیزی می‌توان به دست آورد. این برای هر دو نتایج ارزیابی، برای ارائه معیارهای دقیق تر، و همچنین برای آموزش مهم است تا مدلی را با داده های نادرست گمراه نکنیم و در نتیجه مدل بهتر را به دست آوریم.

6. نتیجه گیری

در این مقاله، ما رویکردی را برای استخراج ردپای ساختمانی از تصاویر هوایی با استفاده از تقسیم‌بندی معنایی عمیق پیشنهاد و ارزیابی کردیم. استخراج ردپای ساختمان به عنوان یک مورد خاص در نظر گرفته می‌شود، در حالی که رویکرد پیشنهادی می‌تواند برای بسیاری از وظایف مختلف که نیاز به برچسب‌گذاری خودکار پیکسلی تصاویر سنجش از دور دارند، استفاده شود.
روش توصیف شده در مقاله را می توان به عنوان یک خط لوله سه مرحله ای تصور کرد که شامل مراحل زیر است: تهیه تصویر، پیاده سازی و آموزش مدل، و به دست آوردن پیش بینی ها. مرحله آماده سازی تصویر به مشکل تبدیل تصاویر ورودی بزرگ به فرمت قابل استفاده برای آموزش می پردازد. این مرحله همچنین تکنیک افزایش داده های مناسب برای تصاویر هوایی را معرفی می کند. پیاده‌سازی مدل فعلی متکی به معماری تقسیم‌بندی FPN است که با رمزگذار ResNeXt-50 جفت شده است، اما همانطور که قبلاً در مقاله نشان دادیم، مدل‌های تقسیم‌بندی دیگر ممکن است. در نهایت، آخرین مرحله به استفاده از یک مجموعه آموزش دیده از مدل های تقسیم بندی عمیق برای به دست آوردن پیش بینی ها و ماسک های خروجی نهایی می پردازد. برای این منظور، از تقویت زمان آزمون (TTA) و همپوشانی وزنی با هسته گاوسی استفاده کردیم.
در این مقاله، ارزیابی روش پیشنهادی و همچنین نتایج مسابقه رسمی را ارائه کردیم. تجزیه و تحلیل بصری نتایج ارزیابی، توانایی بسیار خوب مدل را در تقسیم دقیق ردپای ساختمان از تصاویر هوایی نشان داد. همچنین خطاهای زیادی را در مجموعه داده زیربنایی نشان داد که شامل عدم همسویی بین ماسک های حقیقت زمینی و وضعیت واقعی است. همچنین ثابت کرد که ابزار کارآمدی برای تشخیص چنین ناهنجاری‌هایی است.
کاربرد بالقوه استخراج خودکار ساختمان ها بررسی عدم تطابق بین ساختمان های ثبت شده در برخی پایگاه های جغرافیایی و وضعیت واقعی نشان داده شده توسط تصاویر ماهواره ای است. برای کار آینده، ما قصد داریم یک روش خودکار برای تشخیص چنین مناطقی با محاسبه معیارهای IoU محلی با استفاده از تکنیک پنجره کشویی توسعه دهیم. در آستانه چنین خروجی، مناطقی با مقادیر IoU محلی پایین را می توان شناسایی کرد که نشان دهنده عدم تطابق احتمالی بین حقیقت زمین و ماسک پیش بینی شده است. اطلاعات مناسب می‌تواند بیشتر برای رفع حقیقت پایه داده‌ها، آموزش مجدد مدل‌ها و مقایسه نتایج استفاده شود.

منابع

  1. ژانگ، ی. گونگ، دبلیو. سان، ج. لی، دبلیو. Remote Sens. 2019 ، 11 ، 1897. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  2. لیپیت، سی دی; ژانگ، اس. تأثیر سکوهای کوچک هوابرد بدون سرنشین بر سنجش از راه دور نوری غیرفعال: یک دیدگاه مفهومی. بین المللی J. Remote Sens. 2018 , 39 , 4852–4868. [ Google Scholar ] [ CrossRef ]
  3. یی، ی. ژانگ، ز. ژانگ، دبلیو. ژانگ، سی. لی، دبلیو. ژائو، تی. تقسیم‌بندی معنایی ساختمان‌های شهری از تصاویر سنجش از دور VHR با استفاده از یک شبکه عصبی پیچیده عمیق. Remote Sens. 2019 ، 11 ، 1774. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  4. گائو، ال. شی، دبلیو. میائو، ز. روش Lv، Z. بر اساس محدودیت لبه و راهپیمایی سریع برای استخراج خط مرکزی جاده از تصاویر سنجش از دور با وضوح بسیار بالا. Remote Sens. 2018 , 10 , 900. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  5. مو، ال. Zhu، XX Vehicle Instance Segmentation از تصویر هوایی و ویدیو با استفاده از یک شبکه کاملاً کانولوشنال Residual Learning Multitask. IEEE Trans. Geosci. Remote Sens. 2018 , 56 , 6699–6711. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  6. نی، ایکس. دوان، ام. دینگ، اچ. هو، بی. Wong، EK Attention Mask R-CNN برای تشخیص کشتی و تقسیم بندی از تصاویر سنجش از راه دور. دسترسی IEEE 2020 ، 8 ، 9325–9334. [ Google Scholar ] [ CrossRef ]
  7. لی، دبلیو. Hsu، CY شناسایی ویژگی خودکار زمین از تصاویر سنجش از راه دور: یک رویکرد یادگیری عمیق. بین المللی جی. جئوگر. Inf. علمی 2020 ، 34 ، 637-660. [ Google Scholar ] [ CrossRef ]
  8. بله، ز. فو، ی. گان، م. دنگ، ج. کامبر، ا. وانگ، ک. استخراج ساختمان از تصاویر هوایی با وضوح بسیار بالا با استفاده از شبکه عصبی عمیق توجه مشترک. Remote Sens. 2019 , 11 , 2970. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  9. LeCun، Y.; بوزر، بی. دنکر، جی. هندرسون، دی. هوارد، آر. هابارد، دبلیو. Jackel, L. تشخیص ارقام دست‌نویس با یک شبکه پس انتشار. در پیشرفت در سیستم های پردازش اطلاعات عصبی ; کاغذهای NIPS. CC; مطبوعات MIT: کمبریج، MA، ایالات متحده آمریکا، 1990; صص 396-404. [ Google Scholar ]
  10. سیمونیان، ک. Zisserman, A. شبکه های پیچیده بسیار عمیق برای تشخیص تصویر در مقیاس بزرگ. در مجموعه مقالات سومین کنفرانس بین‌المللی در مورد بازنمایی‌های یادگیری، ICLR 2015—مجموعه‌های پیگیری کنفرانس، سن دیگو، کالیفرنیا، ایالات متحده آمریکا، 7 تا 9 مه 2015. [ Google Scholar ]
  11. ماگیوری، ای. تارابالکا، ی. چارپیات، جی. آیا روش‌های برچسب‌گذاری معنایی به هر شهری تعمیم می‌یابد؟ معیار برچسب گذاری تصویر هوایی اینریا. در مجموعه مقالات سمپوزیوم بین المللی علوم زمین و سنجش از دور IEEE (IGARSS)، فورت ورث، TX، ایالات متحده، 23 تا 28 ژوئیه 2017؛ صص 3226–3229. [ Google Scholar ]
  12. کاستلوچیو، ام. پوگی، جی. سانسون، سی. وردولیوا، ال. طبقه بندی کاربری زمین در تصاویر سنجش از دور توسط شبکه های عصبی کانولوشنال. در دسترس آنلاین: https://arxiv.org/abs/1508.00092 (در 27 ژانویه 2020 قابل دسترسی است).
  13. مارمانیس، دی. داتکو، ام. اش، تی. Stilla، U. طبقه بندی مشاهده زمین یادگیری عمیق با استفاده از شبکه های از پیش آموزش دیده ImageNet. IEEE Geosci. سنسور از راه دور Lett. 2016 ، 13 ، 105-109. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  14. سریواستاوا، اس. بارگاس مونوز، جی. لوبری، اس. Tuia, D. خصوصیات کاربری زمین ریز دانه با استفاده از تصاویر زمینی: یک راه حل یادگیری عمیق بر اساس داده های موجود در سطح جهانی. بین المللی جی. جئوگر. Inf. علمی 2020 ، 34 ، 1117-1136. [ Google Scholar ] [ CrossRef ]
  15. ووجک، سی. دورکو، جی. شولز، آ. Schiele, B. پنجره‌های کشویی برای محلی‌سازی سریع کلاس شی: یک تکنیک موازی. در مجموعه مقالات یادداشت های سخنرانی در علوم کامپیوتر (شامل یادداشت های سخنرانی در هوش مصنوعی و یادداشت های سخنرانی در بیوانفورماتیک)، مونیخ، آلمان، 10-13 ژوئن 2008. جلد 5096، ص 71–81. [ Google Scholar ]
  16. لانگ، جی. شلهامر، ای. دارل، تی. شبکه های کاملاً پیچیده برای تقسیم بندی معنایی. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، بوستون، MA، ایالات متحده آمریکا، 7 تا 12 ژوئن 2015. صص 3431–3440. [ Google Scholar ]
  17. حریهاران، بی. آربلاز، پ. گیرشیک، آر. Malik, J. Hypercolumns for Object Segmentation and Fine-Greined Localization. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، بوستون، MA، ایالات متحده آمریکا، 7 تا 12 ژوئن 2015. صص 447-456. [ Google Scholar ]
  18. چن، ال سی; پاپاندرو، جی. کوکینوس، آی. مورفی، ک. Yuille، AL DeepLab: Semantic Segmentation image with Deep Convolutional Nets، Atrous Convolution، و CRFهای کاملاً متصل. IEEE Trans. الگوی مقعدی ماخ هوشمند 2018 ، 40 ، 834-848. [ Google Scholar ] [ CrossRef ] [ PubMed ]
  19. نه، اچ. هونگ، اس. هان، بی. شبکه دکانولوشن یادگیری برای تقسیم بندی معنایی. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر (ICCV)، سانتیاگو، شیلی، 7 تا 13 دسامبر 2015. صص 1520-1528. [ Google Scholar ]
  20. رونبرگر، او. فیشر، پی. Brox، T. U-Net: شبکه های کانولوشن برای تقسیم بندی تصویر زیست پزشکی. در مجموعه مقالات یادداشت های سخنرانی در علوم کامپیوتر (شامل یادداشت های سخنرانی های فرعی در هوش مصنوعی و یادداشت های سخنرانی در بیوانفورماتیک) ؛ Springer: Cham, Switzerland, 2015; جلد 9351، ص 234–241. [ Google Scholar ]
  21. بدرینارایانان، وی. کندال، ا. Cipolla، R. SegNet: معماری رمزگذار-رمزگشای پیچیده پیچیده برای تقسیم بندی تصویر. IEEE Trans. الگوی مقعدی ماخ هوشمند 2017 ، 39 ، 2481-2495. [ Google Scholar ] [ CrossRef ] [ PubMed ]
  22. کریلوف، آ. او، ک. گیرشیک، آر. Dollár, P. یک معماری واحد برای نمونه و تقسیم بندی معنایی. در دسترس آنلاین: https://presentations.cocodataset.org/COCO17-Stuff-FAIR.pdf (در 24 ژانویه 2020 قابل دسترسی است).
  23. سان، جی. هوانگ، اچ. ژانگ، ا. لی، اف. ژائو، اچ. Fu, H. ادغام شبکه های عصبی کانولوشن چند مقیاسی برای استخراج ساختمان در تصاویر با وضوح بسیار بالا. Remote Sens. 2019 , 11 , 227. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  24. فنگ، ی. تیمن، اف. Sester, M. آموزش تعمیم ساختمان نقشه برداری با شبکه های عصبی کانولوشنال عمیق. ISPRS Int. J. Geo-Inf. 2019 ، 8 ، 258. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  25. شوگراف، پی. Bittner, K. استخراج خودکار ردپای ساختمان از تصاویر سنجش از دور با وضوح چندگانه با استفاده از یک FCN ترکیبی. ISPRS Int. J. Geo-Inf. 2019 ، 8 ، 191. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  26. خو، ی. وو، ال. زی، ز. Chen, Z. استخراج ساختمان در تصاویر سنجش از دور با وضوح بسیار بالا با استفاده از یادگیری عمیق و فیلترهای هدایت شده. Remote Sens. 2018 , 10 , 144. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  27. گوا، آر. لیو، جی. لی، ن. لیو، اس. چن، اف. چنگ، بی. دوان، جی. لی، ایکس. Ma, C. روش طبقه‌بندی پیکسلی برای تصاویر سنجش از دور با وضوح بالا با استفاده از شبکه‌های عصبی عمیق. ISPRS Int. J. Geo-Inf. 2018 ، 7 ، 110. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  28. زی، ی. کای، جی. بهجوانی، ر. شکر، س. نایت، جی. چارچوب YOLO با محدودیت محلی برای تشخیص ردپاهای ساختمانی کوچک و پراکنده. بین المللی جی. جئوگر. Inf. علمی 2020 ، 34 ، 777-801. [ Google Scholar ] [ CrossRef ]
  29. مجموعه داده برچسب‌گذاری تصویر هوایی اینریا. در دسترس آنلاین: https://project.inria.fr/aerialimagelabeling/ (در 11 اوت 2020 قابل دسترسی است).
  30. Keras: کتابخانه یادگیری عمیق پایتون. در دسترس آنلاین: https://keras.io (در 24 ژانویه 2020 قابل دسترسی است).
  31. TensorFlow: یک پلتفرم یادگیری ماشین منبع باز End-to-End. در دسترس آنلاین: https://www.tensorflow.org/ (در 24 ژانویه 2020 قابل دسترسی است).
  32. Milosavljević، A. Inria برچسب‌گذاری تصویر هوایی – استخراج ردپای ساختمان با استفاده از تقسیم‌بندی معنایی عمیق. در دسترس آنلاین: https://github.com/a-milosavljevic/inria-aerial-image-labeling (در 11 اوت 2020 قابل دسترسی است).
  33. Yakubovskiy, P. Segmentation Models, Github Library. در دسترس آنلاین: https://github.com/qubvel/segmentation_models (در 24 ژانویه 2020 قابل دسترسی است).
  34. چاوراسیا، ا. Culurciello، E. LinkNet: بهره‌برداری از نمایش‌های رمزگذار برای تقسیم‌بندی معنایی کارآمد. در مجموعه مقالات IEEE Visual Communications and Image Processing 2017، VCIP 2017، سنت پترزبورگ، FL، ایالات متحده آمریکا، 10–13 دسامبر 2017؛ صص 1-4. [ Google Scholar ]
  35. ژائو، اچ. شی، ج. Qi، X. وانگ، ایکس. شبکه تجزیه صحنه هرمی جیا، جی. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، هونولولو، HI، ایالات متحده آمریکا، 21 تا 26 ژوئیه 2017؛ صص 2881-2890. [ Google Scholar ]
  36. او، ک. ژانگ، ایکس. رن، اس. Sun, J. یادگیری باقیمانده عمیق برای تشخیص تصویر. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، لاس وگاس، NV، ایالات متحده، 27-30 ژوئن 2016. صص 770-778. [ Google Scholar ]
  37. هو، جی. شن، ال. Sun، G. شبکه های فشار و برانگیختگی. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، سالت لیک سیتی، UT، ایالات متحده آمریکا، 18 تا 23 ژوئن 2018؛ صص 7132–7141. [ Google Scholar ]
  38. زی، اس. گیرشیک، آر. دلار، پی. تو، ز. او، ک. سن دیگو، ایالات متحده تبدیل‌های باقیمانده جمع‌آوری شده برای شبکه‌های عصبی عمیق. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، هونولولو، HI، ایالات متحده آمریکا، 21 تا 26 ژوئیه 2017؛ صفحات 1492-1500. [ Google Scholar ]
  39. Sudre، CH; لی، دبلیو. ورکوترن، تی. اورسلین، اس. خورخه کاردوسو، M. همپوشانی تاس های تعمیم یافته به عنوان یک تابع از دست دادن یادگیری عمیق برای تقسیم بندی های بسیار نامتعادل. در مجموعه مقالات یادداشت های سخنرانی در علوم کامپیوتر (شامل یادداشت های سخنرانی های فرعی در هوش مصنوعی و یادداشت های سخنرانی در بیوانفورماتیک) ؛ Springer: Cham, Switzerland, 2017; جلد 10553، ص 240–248. [ Google Scholar ]
  40. هینتون، جی. سریواستاوا، ن. Swersky، K. شبکه های عصبی برای یادگیری ماشین، سخنرانی 6a مروری بر نزول گرادیان دسته ای کوچک. در دسترس آنلاین: https://www.cs.toronto.edu/~hinton/coursera/lecture6/lec6.pdf (در 24 ژانویه 2020 قابل دسترسی است).
  41. جردن، جی. تنظیم نرخ یادگیری شبکه عصبی شما. در دسترس آنلاین: https://www.jeremyjordan.me/nn-learning-rate/ (در 24 ژانویه 2020 قابل دسترسی است).
  42. Milosavljević، A. استخراج ردپای ساختمان با استفاده از تقسیم بندی معنایی عمیق. انجیر. شکل. در دسترس آنلاین: https://doi.org/10.6084/m9.figshare.11816616.v1 (در 11 اوت 2020 قابل دسترسی است).
شکل 1. تصویری از مجموعه داده Inria که سه نمونه وصله تصویر و حقیقت متناظر را برای شیکاگو، شهرستان کیتساپ و وین نشان می دهد (منبع [ 29 ]).
شکل 2. تصویری از خط لوله پردازش پیشنهادی اعمال شده در مجموعه داده Inria.
شکل 3. تصویر تکنیک افزایش داده ها که پنج تغییر از تصویر اصلی و وصله های حقیقت زمین را تولید می کند.
شکل 4. هسته گاوسی برای پیش بینی مدل تقسیم بندی وزنی استفاده می شود.
شکل 5. تصویر همپوشانی وزنی مورد استفاده برای به دست آوردن پیش بینی های انتگرال.
شکل 6. ارزیابی سطح آستانه برای تبدیل پیش‌بینی‌های مقیاس خاکستری به ماسک‌های باینری.
شکل 7. یک تصویر دقیق از مدل تقسیم بندی استفاده شده بر اساس FPN ​​و ResNeXt-50.
شکل 8. تصویری از کانال ماسک مرزی ساختمان های مشتق شده که در طول آموزش مدل تقسیم بندی استفاده می شود.
شکل 9. برنامه بازپخت کسینوس که برای مقیاس بندی میزان یادگیری اولیه در طول آموزش استفاده می شود.
شکل 10. نمودارهای دقت، IoU و معیارهای ترکیبی در مرحله آموزش اولیه و تنظیم دقیق مدل اول.
شکل 11. نمونه هایی از ساختمان های تقسیم بندی صحیح. روکش رنگی ماسک به دست آمده را به رنگ قرمز و حقیقت زمین را به رنگ سبز نشان می دهد که در نتیجه یک پوشش زرد در جایی که آن دو روی هم همپوشانی دارند ایجاد می شود.
شکل 12. نمونه هایی از خطاها در مجموعه داده که منجر به عدم تطابق بین خروجی و حقیقت زمین شده است. روکش رنگی ماسک به دست آمده را به رنگ قرمز و حقیقت زمین را به رنگ سبز نشان می دهد که در نتیجه یک پوشش زرد در جایی که آن دو روی هم همپوشانی دارند ایجاد می شود.
شکل 13. نمونه هایی از خطاهای تقسیم بندی. روکش رنگی ماسک به دست آمده را به رنگ قرمز و حقیقت زمین را به رنگ سبز نشان می دهد که در نتیجه یک پوشش زرد در جایی که آن دو روی هم همپوشانی دارند ایجاد می شود.

بدون دیدگاه

دیدگاهتان را بنویسید