تشخیص تغییر شهری از تصاویر هوایی با استفاده از شبکه های عصبی کانولوشن و یادگیری انتقال

تشخیص تغییرات شهری بخش مهمی از برنامه‌ریزی شهری پایدار، توسعه منطقه‌ای و تحلیل‌های اجتماعی-اقتصادی است، به ویژه در مناطقی که دسترسی محدودی به داده‌های آماری اقتصادی و جمعیتی دارند. هدف این تحقیق ایجاد راهبردی است که پس از یک فرآیند آموزشی کوتاه امکان استخراج شاخص‌ها را از تصاویر ارتوی مقیاس بزرگ با وضوح متفاوت با دقت عملی قابل قبول فراهم کند. از داده های سنجش از دور می توان برای تشخیص تغییرات در تعداد ساختمان ها، مناطق جنگلی و سایر اشیاء چشم انداز استفاده کرد. در این مقاله، تصاویر هوایی یک نقشه ارتوفوتو شطرنجی دیجیتال در مقیاس 1:10000 جمهوری لیتوانی (ORT10LT) در سه دوره (2009-2010، 2012-2013، 2015-2017) مورد تجزیه و تحلیل قرار گرفت. به دلیل فناوری های در حال توسعه، کیفیت تصاویر به طور قابل توجهی متفاوت است و باید در هنگام آماده سازی مجموعه داده برای آموزش مدل تقسیم بندی معنایی DeepLabv3 با ستون فقرات ResNet50 در نظر گرفته شود. در مرحله آماده سازی داده ها، از تکنیک های نرمال سازی برای اطمینان از ثبات کیفیت و کنتراست تصویر استفاده شد. از دست دادن کانونی برای متریک آموزشی برای مقابله با مجموعه داده نامتعادل انتخاب شد. فرآیند آموزش مدل پیشنهادی مبتنی بر تکنیک یادگیری انتقال است و استفاده از یک مدل با وزن‌های از پیش آموزش‌دیده‌شده در ImageNet را با یادگیری مجموعه داده‌های درشت و دقیق ترکیب می‌کند. مجموعه داده درشت شامل تصاویر با کلاس‌هایی است که به‌طور خودکار از داده‌های Open Street Map (OSM) تولید می‌شوند و مجموعه داده تنظیم دقیق با بازبینی دستی تصاویر برای اطمینان از مطابقت اشیاء در تصاویر با برچسب‌ها ایجاد شده است. برای برجسته کردن مزایای یادگیری انتقالی، شش مدل مختلف با ترکیب مراحل مختلف فرآیند آموزش مدل پیشنهادی آموزش داده شدند. نشان داده شده است که استفاده از وزنه های از پیش آموزش دیده منجر به بهبود عملکرد مدل می شود و بهترین عملکرد توسط مدلی که شامل هر سه مرحله از فرآیند آموزش (وزن های از پیش آموزش دیده، آموزش بر روی مجموعه داده های درشت و دقیق) است نشان داده شد. در نهایت، نتایج به‌دست‌آمده با مدل یادگیری ماشین ایجاد شده، اجرای رویکردهای مختلف برای شناسایی، تجزیه و تحلیل و تفسیر تغییرات شهری را برای سیاست‌گذاران و سرمایه‌گذاران در سطوح مختلف در یک نقشه محلی، شبکه یا سطح شهرداری امکان‌پذیر می‌سازد. نشان داده شده است که استفاده از وزنه های از پیش آموزش دیده منجر به بهبود عملکرد مدل می شود و بهترین عملکرد توسط مدلی که شامل هر سه مرحله از فرآیند آموزش (وزن های از پیش آموزش دیده، آموزش بر روی مجموعه داده های درشت و دقیق) است نشان داده شد. در نهایت، نتایج به‌دست‌آمده با مدل یادگیری ماشین ایجاد شده، اجرای رویکردهای مختلف برای شناسایی، تجزیه و تحلیل و تفسیر تغییرات شهری را برای سیاست‌گذاران و سرمایه‌گذاران در سطوح مختلف در یک نقشه محلی، شبکه یا سطح شهرداری امکان‌پذیر می‌سازد. نشان داده شده است که استفاده از وزنه های از پیش آموزش دیده منجر به بهبود عملکرد مدل می شود و بهترین عملکرد توسط مدلی که شامل هر سه مرحله از فرآیند آموزش (وزن های از پیش آموزش دیده، آموزش بر روی مجموعه داده های درشت و دقیق) است نشان داده شد. در نهایت، نتایج به‌دست‌آمده با مدل یادگیری ماشین ایجاد شده، اجرای رویکردهای مختلف برای شناسایی، تجزیه و تحلیل و تفسیر تغییرات شهری را برای سیاست‌گذاران و سرمایه‌گذاران در سطوح مختلف در یک نقشه محلی، شبکه یا سطح شهرداری امکان‌پذیر می‌سازد.

کلید واژه ها:

تغییر شهری ; تصاویر هوایی ؛ انتقال یادگیری

1. مقدمه

توسعه پایدار منطقه ای تنها با به کارگیری اطلاعات آماری مناسب از مناطق مانند تراکم ساختمان، امتیاز صنعتی شدن، شاخص های شبکه راه، نسبت زاغه ها و سکونتگاه های غیررسمی منطقه و غیره محقق می شود. این پارامترها را می توان برای توسعه سناریوهای رشد شهری آینده [ 1 ، 2 ] و استفاده از آنها در فرآیند تصمیم گیری [ 3 ] اعمال کرد. با این حال، چندین مشکل عمده در مورد دسترسی به داده های آماری وجود دارد. برخی از مناطق در حال توسعه فاقد داده های آماری قابل اعتماد هستند زیرا سرشماری به طور منظم انجام نمی شود. مدل آموزش داده شده در مناطق غنی از داده را می توان برای استخراج ویژگی های پیچیده مانند شبکه جاده ها و مناطق شهری در مناطق فقیر از داده استفاده کرد [ 4 ]]. مسئله دیگر این است که داده ها در سطح جزئیات مکانی در نظر گرفته شده جمع آوری نمی شوند. به عنوان مثال، در پیوند دادن شاخص کیفیت زندگی به واحدهای اداری اروپایی در سطح مناطق پایه برای اعمال سیاست های منطقه ای (NUTS2 – نامگذاری واحدهای سرزمینی برای آمار)، شاخص های اجتماعی-اقتصادی در دسترس نبودند یا در زمان ناقص بودند. یا فاصله [ 5]. دسترسی به داده‌های تغییرات شهری هنگام برنامه‌ریزی زیرساخت‌های منطقه‌ای و شناسایی روندهای در حال تغییر مصرف‌کننده ضروری است. از نظر تاریخی، ساکنان بیشتری در مناطق روستایی زندگی می کردند، اما بعداً شروع به نزدیک شدن به مرکز شهر کردند. در حال حاضر اهالی به دلیل گرانی مسکن در شهر یا دلایل شخصی دیگر به حومه شهر نقل مکان می کنند. به دلیل این روند، تراکم جمعیت در حومه شهرها به سرعت در حال افزایش است که به دلیل نبود زیرساخت های مناسب مانند مدارس، بیمارستان ها، مراکز خرید و سایر امکانات مشکلاتی را ایجاد می کند. این منجر به کاهش بهره وری می شود، به عنوان مثال، به دلیل سطوح بالای ترافیک. اگر برآوردهای مناسبی برای رشد شهری در آینده ایجاد شود، می‌توان زیرساخت‌ها را از قبل برنامه‌ریزی کرد. علاوه بر این،

پیشرفت روباتیک، تکنیک‌های بینایی کامپیوتر و منابع محاسباتی مصرف‌کننده، استفاده از داده‌های سنجش از راه دور را برای تخمین پارامترهای آماری از دید پرنده امکان‌پذیر می‌سازد. از تصاویر هوایی و ماهواره ای می توان برای تعیین نوع کاربری اراضی، نوع منطقه مسکونی، نرخ رشد شهری و بسیاری از پارامترهای دیگر استفاده کرد که بعداً می تواند در تحلیل توسعه شهری اعمال شود. از طرفی فرآیند جمع آوری و تهیه تصاویر هوایی پرهزینه و زمان بر است و به همین دلیل هر چند سال یکبار انجام می شود. با توجه به فناوری های در حال توسعه، کیفیت تصاویر جمع آوری شده در دوره های مختلف به طور قابل توجهی متفاوت است و روش های تشخیص تغییر مستقیم را نمی توان اعمال کرد. تحقیقات ما بر توسعه روشی متمرکز است که تخمین پویایی تغییر را در سطح منطقه ای انتخاب شده پس از یک فرآیند آموزشی کوتاه مدل یادگیری ماشینی امکان پذیر می کند. مشارکت ما شامل طرح جمع‌آوری داده‌ها و آماده‌سازی برای آموزش، طرح آموزشی مبتنی بر یادگیری انتقال و تحلیل آن، و نمونه‌هایی از کاربرد مدل در سطوح مختلف است.

بقیه مقاله به شرح زیر سازماندهی شده است: بخش 2 کار مرتبط را مرور می کند. شرح مشکل در بخش 3 ارائه شده است . مواد و روش ها در بخش 4 آورده شده است. بخش 5 نتایج را نشان می دهد. نتیجه گیری در بخش 6 آورده شده است.

2. کارهای مرتبط

برای انجام تحلیل تغییرات شهری می توان از منابع داده و روش های مختلف استفاده کرد. به عنوان مثال، تغییرات جمعیتی را می توان با توجه به شاخص های اجتماعی-اقتصادی [ 6 ] و سایر داده های آماری تخمین زد. با این حال، این نوع داده ها بر جنبه فضایی تغییر تمرکز ندارند. بنابراین، داده های سنجش از دور می تواند به عنوان منبع اضافی برای تجزیه و تحلیل تغییرات شهری استفاده شود. انواع اصلی داده های سنجش از دور، تصاویر رادار نوری و دیافراگم مصنوعی (SAR) هستند. تصاویر نوری معمولاً با استفاده از وسایل نقلیه هوایی بدون سرنشین و ماهواره ها به دست می آیند [ 7 ]. آنها را می توان به تصاویر پانکروماتیک، چند طیفی و فراطیفی با توجه به تعداد باندهای طیفی که از یک تا هزاران متغیر است گروه بندی کرد [ 8 ]]. تصاویر SAR با ارسال، دریافت و ضبط امواج رادیویی از ماهواره به صحنه هدف ایجاد می شوند. مزیت اصلی فناوری SAR این است که می توان آن را مستقل از شرایط آب و هوایی اعمال کرد [ 9 ]. یک مرور کلی از کاربرد داده های سنجش از دور برای اقتصاد در [ 10 ] ارائه شده است. مثال‌های ارائه‌شده در مقاله شامل استفاده از تحلیل چراغ‌های شب برای تعیین فعالیت‌های اقتصادی محلی، مطالعه تأثیر سرمایه‌گذاری‌های زیرساختی، نظارت بر کاربری زمین و موارد دیگر است. برای تشخیص تغییر در یک سری از داده های سنجش از دور، عمدتاً از دو رویکرد استفاده می شود.

رویکرد اول مبتنی بر روش‌های یادگیری بدون نظارت است. هدف این روش ها شناسایی تغییر پیکسل ها در تصاویر RGB بدون پرداختن به انواع اشیاء شناسایی شده است. انگیزه استفاده از روش‌های یادگیری بدون نظارت معمولاً بر اساس فقدان داده‌های برچسب‌گذاری، کیفیت پایین آن، یا حجم عظیم کار دستی مورد نیاز برای تهیه برچسب‌های مناسب است. روش‌های تشخیص تغییر برای تصاویر ماهواره‌ای یا هوایی که با بازه زمانی گرفته شده‌اند اعمال شده‌اند. به عنوان مثال، Celik برای تعیین تغییرات بین دو تصویر از پایگاه داده Landsat در سال‌های 2007 و 2011، استفاده از تحلیل مؤلفه‌های اصلی (PCA) و خوشه‌بندی C-فازی را پیشنهاد کرد [ 11 ].]. خوشه‌بندی میانگین C-فازی برای بردارهای به‌دست‌آمده از بلوک‌های مربعی غیرهمپوشانی تصویر تفاوت پس از PCA انجام شد. بردارها به دو خوشه گروه بندی شدند و بلوک های تصویر را با و بدون تغییر نشان دادند. جونگ و بوسمن روشی بدون نظارت برای تشخیص تغییر در تصاویر ماهواره ای توسعه دادند [ 12 ]. در روش پیشنهادی، تصویر تفاوت دو تصویر زمانی بر اساس نقشه‌های ویژگی شبکه‌های عصبی کانولوشن که برای تقسیم‌بندی معنایی تصاویر ورودی استفاده می‌شوند، تولید شد. مدل گاوسی-مخلوط چند مقیاسی و چند تفکیک پذیری که توسط افزایش برجسته هدایت می شود در [ 13 ] پیشنهاد شد.]. چارچوب پیشنهادی مبتنی بر مراحل مشخص است و تقسیم‌بندی تصویر را با ترکیب موجک تصاویر تفاوت پیاده‌سازی می‌کند. نویسندگان بیان می‌کنند که این مدل از پیشرفته‌ترین مدل‌های یادگیری ماشینی بدون نظارت بهتر عمل می‌کند. با توجه به کمبود مجموعه داده‌هایی که می‌توانند در مشکلات تشخیص تغییر استفاده شوند، رویکرد یادگیری انتقال در [ 14 ] برای توسعه یک مدل شبکه عصبی کانولوشن (CNN) برای وظیفه تقسیم‌بندی تصویر و بعداً انتقال استخراج ویژگی برای آموزش آن استفاده شد. تشخیص تغییر

رویکرد دیگر مبتنی بر یادگیری نظارت شده است و بر تشخیص اشیاء مانند جاده ها، ساختمان ها و جنگل ها در داده های سنجش از دور تمرکز دارد. روش‌های تشخیص تغییر مبتنی بر یادگیری عمیق به عنوان همجوشی دیررس و همجوشی اولیه در [ 15 ] گروه‌بندی می‌شوند. در روش های همجوشی دیررس، تصویر تفاوت تولید می شود و تشخیص تغییر تنها پس از اعمال تقسیم بندی تصویر برای هر تصویر به طور جداگانه انجام می شود. در روش های همجوشی اولیه، تصویر تفاوت در ابتدا از تصاویر ورودی تولید می شود. نویسندگان همجوشی اولیه و همجوشی دیررس را ترکیب کرده و یک مدل موثر مبتنی بر CNN برای تشخیص تغییرات محلی در تصاویر هوایی پیشنهاد می‌کنند [ 15 ]. شبکه سیامی هدایت‌شده توجه مبتنی بر ویژگی هرمی در [ 16 ] پیشنهاد شد] و نتایج عالی تشخیص تغییر را در محیط های پیچیده شهری نشان داد. یادگیری انتقال نیز به طور گسترده ای در تجزیه و تحلیل تصویر و بنابراین، تجزیه و تحلیل داده های سنجش از دور کاربرد دارد. شبکه از پیش آموزش دیده برای استخراج شاخص های اجتماعی-اقتصادی از تصاویر ماهواره ای و تعیین سطح فقر در اوگاندا استفاده شد [ 4 ]]. این توانایی را برای غلبه بر کمبود داده های آموزشی فراهم می کند، زیرا ویژگی های سطح پایین قبلاً در طول آموزش در ImageNet آموخته شده است. با این حال، نویسندگان بر ویژگی های مختلف تصاویر شی محور در مجموعه داده ImageNet و تصاویر ماهواره ای تأکید می کنند. یادگیری انتقال همچنین می تواند بر روی مجموعه داده های سفارشی اعمال شود. به عنوان مثال، برای تخمین مناطق زاغه‌نشین، مدل اولیه CNN بر روی تصاویر ماهواره‌ای با کیفیت بالا از QuickBird آموزش داده شد و سپس به تصاویر Sentinel-2 منتقل شد [ 17 ]]. نتایج تجزیه و تحلیل داده های سنجش از دور را می توان با شاخص های مختلف اجتماعی-اقتصادی ترکیب کرد و در نتیجه هزینه های نظرسنجی ها را کاهش داد. مدل CNN آموزش دیده بر روی تصاویر ماهواره ای با وضوح بالا برای پیش بینی فقر در پنج کشور آفریقایی به کار گرفته شد. از آنجایی که این روش فقط به داده های در دسترس عموم نیاز دارد، هزینه های نظرسنجی را کاهش می دهد و به تخمین دقیق سطح ثروت کمک می کند [ 18 ]. تصاویر ماهواره‌ای با وضوح بالا برای آموزش یک مدل یادگیری ماشینی مبتنی بر CNN که دارایی‌ها را پیش‌بینی می‌کند و پس از انتقال یادگیری می‌تواند برای پیش‌بینی انواع شاخص‌های اجتماعی-اقتصادی استفاده شود، استفاده شد [ 19 ].

به طور خلاصه، بیشتر نشریات به شناسایی اشیاء یک کلاس خاص در بهترین سطح در تصاویر ماهواره‌ای با وضوح بالا اختصاص دارند. تصاویر با وضوح پایین (مثلاً کوپرنیک) عمدتاً در تحقیقات برای شناسایی نوع کاربری زمین (مثلاً زمین کشاورزی) استفاده می شود. معمولاً چنین اطلاعات بصری با تصاویر رادار ادغام می شود و بر تجزیه و تحلیل بازتاب متمرکز می شود. فقط تعداد محدودی از مطالعات برای یک سری از تصاویر در سطح کشور شناسایی شده است. در بیشتر آنها اطلاعات محدودی در مورد رویکرد روش شناختی و مسائل احتمالی ارائه شده است. بنابراین، نشریه ما بر پر کردن این شکاف تمرکز دارد.

در این نشریه، ما بر ایجاد یک استراتژی تمرکز می‌کنیم که امکان استخراج شاخص‌های تغییر کاربری زمین را از یک سری داده‌های جغرافیایی بصری پس از یک فرآیند آموزشی کوتاه فراهم می‌کند. این استراتژی مبتنی بر کاربرد یادگیری انتقال برای شبکه های عصبی کانولوشن است. شبکه عصبی کانولوشنال از پیش آموزش دیده در دو مرحله دیگر آموزش داده شد. در مرحله اول از مجموعه داده درشت تولید شده به صورت خودکار برای آموزش استفاده شد. در مرحله دوم، تنظیم دقیق روی مجموعه داده تحت نظارت دستی انجام شد. این مقاله تحقیقات ارائه شده در [ 20 ] را گسترش می دهد] با تجزیه و تحلیل عملکرد مدل‌هایی که با استفاده از ترکیب‌های مختلف مراحل آموزشی پیشنهادی ایجاد شده‌اند و تشخیص تغییر را در سطح دقیق تحلیل برجسته می‌کنند. شش مدل یادگیری ماشین برای نشان دادن تأثیر مراحل آموزشی پیشنهادی آموزش داده شد. پس از آن، چندین مثال در مورد چگونگی پردازش بیشتر و تجزیه و تحلیل نتایج بدست آمده در سطوح مختلف ارائه شد. به عنوان مثال، در بهترین سطح، نتایج را می توان به عنوان یک نقشه کلاس از یک مکان خاص مشاهده کرد. در سطح میانی، نتایج دوره های مختلف را می توان با محاسبه اختلاف شاخص ها در سلول شبکه مقایسه کرد. در بالاترین سطح، پویایی شاخص را می توان در سطح شهرداری تحلیل کرد. با توجه به سطح، نتایج تحلیل تغییرات شهری می تواند برای سیاست گذاران و سرمایه گذاران مفید باشد.

3. شرح مشکل

تقسیم‌بندی معنایی تصاویر هوایی را می‌توان برای شناسایی کاربری اراضی در هر منطقه مانند شهر، شهرداری یا کشور بدون نیاز به ربط دادن آن به واحد اداری اعمال کرد. با تجزیه و تحلیل نتایج تقسیم‌بندی، می‌توان شاخص‌های اجتماعی-اقتصادی مانند تراکم جمعیت، شبکه راه‌ها و غیره را تخمین زد. با این حال، چنین برنامه ای تخمین شاخص ها را برای یک دوره اکتساب تصویر ارائه می دهد. به منظور استفاده از شاخص‌ها در فرآیند تصمیم‌گیری، پویایی اجتماعی-اقتصادی باید با تجزیه و تحلیل یک سری زمانی از تصاویر هوایی برآورد شود. این مشکل به دلیل کیفیت بسیار متفاوت تصاویر هوایی به دست آمده در زمان رخ می دهد، زیرا جمع آوری تصاویر هوایی فرآیندی پرهزینه و زمان بر است. تکنیک های پیش پردازش تصویر باید برای جلوگیری از نتایج مغرضانه ای که ممکن است به دلیل وضوح متفاوت ظاهر شوند، اعمال شوند. از تصاویر هوایی سه دوره مختلف برای آموزش مدل استفاده شد تا سوگیری مدل که به دلیل پارامترهای فنی متفاوت تصاویر ظاهر می شود، کاهش یابد. در نتیجه، این مدل را می توان برای قطعه تصاویر هوایی به دست آمده در دوره ای که در مجموعه آموزشی گنجانده نشده است، اعمال کرد. این امکان ایجاد نقاط اضافی را در سری های زمانی نشانگر یا شناسایی تغییرات با مقایسه نتایج تقسیم بندی تصاویر از دوره های مختلف فراهم می کند. این مدل را می توان برای قطعه تصاویر هوایی به دست آمده در دوره ای که در مجموعه آموزشی گنجانده نشده است، اعمال کرد. این امکان ایجاد نقاط اضافی را در سری های زمانی نشانگر یا شناسایی تغییرات با مقایسه نتایج تقسیم بندی تصاویر از دوره های مختلف فراهم می کند. این مدل را می توان برای قطعه تصاویر هوایی به دست آمده در دوره ای که در مجموعه آموزشی گنجانده نشده است، اعمال کرد. این امکان ایجاد نقاط اضافی را در سری های زمانی نشانگر یا شناسایی تغییرات با مقایسه نتایج تقسیم بندی تصاویر از دوره های مختلف فراهم می کند.

4. مواد و روش ها

4.1. انتخاب مجموعه داده

تغییرات کاربری زمین (به عنوان مثال، ساختمان های جدید، جنگل ها، زمین های کشاورزی) را می توان از مجموعه تصاویر هوایی همان مکان شناسایی کرد. مثال چنین ایده ای در شکل 1 نشان داده شده است که ساختمان های جدید در تصویر هوایی دوره گذشته ظاهر می شوند.

پویایی شاخص‌های منعکس‌کننده تغییرات در ساختمان‌ها، جنگل‌ها و سایر کاربری‌های زمین ممکن است نرخ توسعه منطقه را تعیین کند. با تحلیل سرعت تغییر شهرداری های مختلف، می توان خوشه هایی از الگوهای توسعه مشابه را شناسایی کرد. داده‌های بصری لیتوانی برای تجزیه و تحلیل برای ردیابی تغییرات در سری اطلاعات بصری و تفسیر نتایج تعمیم‌یافته انتخاب شدند. این تحقیق بر دو هدف اصلی تمرکز دارد:

برای ایجاد یک مدل یادگیری ماشینی (ML) که امکان به دست آوردن مقادیر قابل تفسیر در سطح محلی برای تصاویر دوره های مختلف و پردازش نتایج در سطح دقیق را فراهم می کند.
برای نشان دادن کاربرد رویکرد یادگیری انتقال در فرآیند آموزش مدل ML.

منابع داده های مختلف برای داده های بصری مورد بررسی قرار گرفت. الزامات داده ها اطمینان از وضوح مناسب تصاویر و ارائه داده های تاریخی بود. به عنوان مثال، ماموریت‌های نگهبان کوپرنیک [ 21 ] به دلیل وضوح پایین برای بخش‌بندی ساختمان و داده‌های تاریخی در دسترس، با این معیارها مطابقت ندارند. مسلماً، دقت مدل را می توان با افزایش وضوح تصویر بهبود بخشید. شرمایر و اتن تکنیکی را برای اعمال وضوح فوق العاده برای تصاویر ماهواره ای پیشنهاد کردند و به این نتیجه رسیدند که چنین رویکردی 13 تا 36 درصد بهبود میانگین دقت را به عنوان بهترین نتایج در هنگام تشخیص اشیا به همراه دارد [ 22 ]. وضوح تصویر را نیز می توان با اعمال یک تبدیل موجک گسسته افزایش داد [ 23]. علاوه بر این، داده‌های Sentinel-2 برای انجام طبقه‌بندی پیکسلی مناطق ساخته شده استفاده شد [ 24 ، 25 ]. با این حال، فقدان داده های تاریخی یک مسئله اصلی در رد برخی منابع داده است. یک نقشه ارتوفتو شطرنجی دیجیتال در مقیاس 1:10000 جمهوری لیتوانی (ORT10LT) سه دوره مختلف (2009-2010، 2012-2013، 2015-2017) را پوشش می دهد و دارای کیفیت قابل قبولی از تصاویر است. ORT10LT توسط مرکز ملی سنجش از دور و ژئوانفورماتیک “GIS-Centras” (SE “GIS-Centras”) ارائه شده است. بنابراین، این مجموعه داده برای تجزیه و تحلیل انتخاب شد.

یکی از مسائلی که باید در تحلیل یک سری زمانی داده های سنجش از دور در نظر گرفته شود، ثبات دقت مدل برای تصاویر دوره های مختلف است. به عنوان مثال، اگر دقت مدل برای تصاویر یک دوره 90٪ و دیگری 86٪ باشد، مشخص نیست که آیا خطا به دلیل برچسب زدنی است که با اطلاعات واقعی در تصویر دوره خاص مطابقت ندارد یا به دلیل خطای مدل یادگیری ماشین (ML) بنابراین، مهم است که اطمینان حاصل شود که دقت برای تصاویر دوره های مختلف سازگار است. تصاویر ORT10LT در دوره های مختلف به دلیل طیف تصویر و وضوح کیفیت متفاوتی دارند. وضوح تصاویر ORT10LT در دوره اول 0.5 متر × 0.5 متر و عمق RGB 8 بیت (7 بیت موثر) بود. برای تصاویر دوره دوم و سوم، وضوح به 0 افزایش یافت. 25 متر × 0.25 متر در هر پیکسل. عمق رنگ برای تصاویر در دوره دوم 8 بیت RGB و 16 بیت برای تصاویر دوره سوم بود. تغییرات در پارامترهای طیف و وضوح به دلیل این واقعیت است که به مرور زمان، قابلیت های فنی امکان دستیابی به کیفیت بهتر را فراهم می کند. جهش فناوری را می توان با این واقعیت نشان داد که قبل از سال 2000، داده های بصری برای همان منطقه در مقایسه با RGB فعلی با عمق 16 بیت، فقط در مقیاس خاکستری در دسترس بودند.

4.2. مروری بر روش شناسی

طرحی برای آموزش مدل ML پیشنهادی در شکل 2 ارائه شده است. فرآیند آموزش شامل سه مرحله اصلی است و مبتنی بر مفهوم یادگیری انتقالی است. مدل DeepLabv3 (M) با ستون فقرات ResNet50 با پارامترهای تصادفی مقداردهی اولیه می شود. در مرحله اول، مدل از پیش آموزش داده شده روی داده های ImageNet بارگذاری می شود (M1). مرحله دوم و سوم به تنظیم مدل برای مشکل خاص اختصاص دارد و شامل آموزش مدل در مجموعه داده های درشت (M12) و تنظیم دقیق (M123) است. مجموعه داده درشت به طور خودکار با انتخاب مکان‌های مختلف و برچسب‌گذاری تصاویر بر اساس داده‌های نقشه خیابان باز (OSM) تولید شد. با این حال، داده های حقیقت زمینی ممکن است به دلیل تاخیر زمانی بین تغییرات واقعی، که در تصاویر و داده های ورودی به ثبات ها یا پایگاه های داده خارجی قابل مشاهده است، متفاوت باشد. به همین دلیل است که یک مرحله اضافی با آموزش در مجموعه داده های تنظیم دقیق اضافه شده است. مجموعه داده تنظیم دقیق بر اساس همان اصول مجموعه داده درشت ایجاد شد، اما تصاویر به صورت دستی بازبینی شدند و فقط آنهایی که داده های برچسب دار با اطلاعات بصری مطابقت دارند در فرآیند آموزش استفاده شدند. هر دو مجموعه داده درشت و دقیق هر سه دوره تحلیل شده را پوشش می دهند. از آنجایی که تصاویر دوره های مختلف کیفیت متفاوتی دارند، برای مطابقت با پایین ترین کیفیت (قدیمی ترین زمان) نرمال سازی شدند.

طرح کاربرد مدل ML در شکل 3 ارائه شده است . تصاویر تجزیه و تحلیل شده با توجه به پارامترهای مورد استفاده در مرحله آموزش نرمال می شوند. تصاویر از پیش پردازش شده به مدل ML وارد شده و نتایج استنتاج را برمی گرداند. تفسیر نتایج به دست آمده به سطح تحلیل بستگی دارد.

4.3. مجموعه داده ها و پیش پردازش

ORT10LT یک نقشه گرافیکی دیجیتال ارتوفتو M 1:10000 از قلمرو جمهوری لیتوانی است. این بر اساس عکس های هوایی است و در دوره های 3 ساله ایجاد شده است. تصاویر دوره های 2009-2010، 2012-2013، 2015-2017 به عنوان منبع اطلاعات بصری خاص کشور انتخاب شدند. داده های OSM برای برچسب زدن به عنوان منبع حقیقت زمینی استفاده شد. فرآیند برچسب گذاری شامل دو مرحله است. اولین مرحله به جمع آوری داده های برداری از داده های OSM اختصاص دارد. در مرحله دوم، از کتابخانه GDAL برای شطرنجی کردن بردارهای OSM بر روی تصاویر جغرافیایی استفاده می شود. فرآیند برچسب گذاری در شکل 4 تعریف شده است .

داده‌های OSM را می‌توان برای تعریف برچسب‌هایی از دسته‌های سطح خوب بر اساس هدف نوع کاربری زمین، به عنوان مثال تجاری، مسکونی، آموزشی، کشاورزی و صنعتی استفاده کرد. برای این تحقیق، 4 طبقه تعمیم یافته برای نمایش خانه ها، جنگل ها، آب و سایر مقوله ها انتخاب شدند. برچسب های دسته های انتخاب شده به عنوان چند ضلعی (داده های برداری از پایگاه داده) تعریف شدند. نرم افزار برچسب گذاری توسط نویسندگان به زبان برنامه نویسی پایتون نوشته شده است. از مدل‌هایی از جعبه ابزار GluonCV با چارچوب یادگیری عمیق MXNet و کتابخانه پردازش داده‌های جغرافیایی GDAL (برای تبدیل از مختصات به پیکسل و از بردار به مختصات شطرنجی) استفاده می‌کند. همه داده ها به صورت تصاویر نمایش داده می شوند (یا می توان آنها را به صورت تانسور 3 × 1024 × 1024 مشاهده کرد). برچسب های حقیقت زمین به صورت تصاویر نمایه شده از ارتفاع و عرض مربوطه نشان داده می شوند. پس از انجام استنباط، تصاویر نمایه شده با ابرداده های موقعیت جغرافیایی مرتبط می شوند (در تحقیق از فایل ESRI world استفاده شده است). برای نمای کلی نتایج، تصاویر در یک موزاییک ترکیب شدند.

در نهایت، پس از تجزیه و تحلیل مجموعه داده، دو نوع مشکل در مجموعه داده انتخاب شده شناسایی شد:

منطقی – داده های OSM همیشه با اشیاء موجود در تصاویر به دلیل نقشه برداری نابهنگام یا تغییرات در محیط با گذشت زمان مطابقت ندارند. به عنوان مثال، یک ساختمان در تصویر مشخص شده است اما برچسب در داده‌های OSM وجود ندارد یا خانه‌های جدیدی به تازگی ساخته شده‌اند و در تصاویر دوره‌های قدیمی‌تر شناسایی نمی‌شوند.
کیفیت – نتایج برای تصاویر گرفته شده در دوره ها یا مکان های مختلف ممکن است به دلیل نور و سایه های حاصل متفاوت باشد (اوایل صبح در مقابل بعد از ظهر). زوایای مختلف که در آن تصاویر گرفته شده است. تجهیزات مختلفی برای گرفتن تصاویر استفاده می شود که منجر به پاسخ رنگی و دامنه دینامیکی متفاوت می شود (بعضی از تصاویر تار هستند زیرا عکس ها در اوایل صبح یا شب گرفته شده اند).

به منظور اطمینان از اینکه داده های آموزشی نشان دهنده تنوع کامل کلاس های تجزیه و تحلیل شده است، تصاویر با ترکیب دو رویکرد انتخاب تصویر تهیه شدند. برای بخش اول مجموعه داده، یک ساختمان تصادفی از پایگاه داده OSM انتخاب شد و در مرکز تصویر 1024 × 1024 پیکسل قرار گرفت. این بخش تضمین می‌کند که بخش قابل‌توجهی از ساختمان‌های برچسب‌دار در مجموعه داده‌ها از مناطق شهری یا روستایی وجود دارد. برای بخش دوم مجموعه داده، تصاویر با همان تکنیک اما با انتخاب نقاط تصادفی کشور به عنوان مرکز تصویر ساخته شدند. اکثر منظره لیتوانیایی به عنوان جنگل یا مزرعه شناخته می شود. بنابراین، این کلاس بیشتر تصاویری تولید می کند که نشان دهنده کلاس گیاهی است. در نهایت، برای مجموعه داده آموزشی درشت، 5000 مکان (4000 با ساختمان و 1000 با پوشش گیاهی،) انتخاب شد.² )، در نتیجه 15000 تصویر (5000 تصویر برای هر دوره، 3 تصویر از همان مکان). مجموعه اعتبارسنجی درشت بر اساس همان اصول برای 1000 مکان (3000 تصویر) ایجاد شد. ترکیبی از تکنیک‌های انتخاب تصویر و تعداد نسبتاً زیادی از تصاویر، تأثیر مشکل منطقی را کاهش می‌دهد. نمونه هایی از مکان های مختلف در شکل 5 ارائه شده است.

مجموعه داده تنظیم دقیق بر اساس همان اصول ایجاد شده است. با این حال، تصاویر به صورت دستی با حذف تصاویری که داده‌های برچسب‌گذاری‌شده با داده‌های قابل مشاهده واقعی مطابقت نداشتند، بررسی شدند. چنین آماده‌سازی یک مجموعه داده فرآیندی زمان‌بر است و نیاز به دقت دارد. بنابراین، مجموعه داده آماده شده در مقایسه با مجموعه ای که به طور خودکار تهیه می شود، کوچک است. در نهایت، 321 مکان (210 با ساختمان و 111 با پوشش گیاهی، در مجموع 80 کیلومتر مربع ⁾ انتخاب شد. مجموعه اعتبارسنجی تنظیم دقیق از 32 مکان (96 تصویر) تشکیل شده است.

برای حل مشکلات مربوط به کیفیت متفاوت تصاویر از روش نرمال سازی به شرح زیر استفاده شد:

وضوح به 0.5 متر بر پیکسل نرمال شد تا با وضوح تصاویر با کمترین کیفیت مطابقت داشته باشد.
کنتراست با استفاده از یک فاصله صدک 2-98٪ نرمال شد. تمام پیکسل های بیش از و زیر بازه به مقادیر حداقل یا حداکثر بریده شدند.
رویه نرمال‌سازی بینایی رایانه‌ای استاندارد برای تبدیل تصاویر به‌کار گرفته شد به طوری که میانگین توزیع مجموعه داده‌ها برابر با 0 و مقدار انحراف استاندارد برابر با 1 برای هر کانال باشد. روش نرمال سازی با این فرض انجام شد که توزیع اولیه دارای مقادیر میانگین برابر با 0.485، 0.456، و 0.406 و مقادیر انحراف معیار برابر با 0.229، 0.224 و 0.225 برای کانال های قرمز، سبز و آبی است. مقادیر اعمال شده برای عادی سازی تانسورها بر اساس تجزیه و تحلیل آماری بیش از 1.2 میلیون تصویر از مجموعه داده ImageNet است.

4.4. آموزش مدل بینایی کامپیوتر

برای تشخیص تغییرات در تصاویر ماهواره ای می توان از معماری های شبکه عصبی عمیق مختلف استفاده کرد. شبکه‌ای که ستون فقرات DilatedResNet50، پیچش‌های ناخوشایند و ماژول توجه فضایی را ترکیب می‌کند برای تشخیص تغییرات در تصاویر ماهواره‌ای با وضوح بالا [ 26 ] پیشنهاد شد. یک معماری شبکه با ستون فقرات مبتنی بر سیامی برای وظایف تشخیص تغییر تصویر سنجش از راه دور پیشنهاد شد [ 27 ]. رویکرد یادگیری انتقال در [ 14 ] برای آموزش مدل U-Net و به دست آوردن ماسک تغییر روی تصویر تفاوت اعمال شد.

پیکربندی شبکه DeepLabv3 با ستون فقرات Resnet-50 برای مدل محاسباتی در این تحقیق انتخاب شد. این معماری امکان انجام آموزش با فریم ورک GluonCV MXNet را بر روی تصاویر 1024 × 1024 پیکسل (3 × 1024 × 1024 تانسور) با استفاده از پردازنده گرافیکی مصرف کننده مانند 2080 Ti با 11 گیگابایت رم با حداقل اندازه دسته ای امکان پذیر می کند. اگرچه مدل هایی وجود دارند که دقت بهتری دارند، اما حافظه GPU مورد نیاز برای آموزش چنین مدل هایی بسیار بالاتر است [ 28 ]]. به عنوان مثال، GluonCV MXNet مدل DeepLabv3+ با ستون فقرات Xception-71 در آزمون PASCAL VOC در مقایسه با DeepLabv3 با ResNet-101 تقریباً دو درصد دقت بهتری دارد. با این حال، نتایج تجربی با نسخه‌های 0.11.0 GluonCV و MXNet 1.8.0 برای تصاویر با اندازه انتخاب‌شده نشان می‌دهد که DeepLabv3 بر اساس ستون‌های Resnet50، Resnet101، و Resnet152 در مقایسه با تمام مدل‌های Deepv3+ به 10.5 گیگابایت، 14 گیگابایت و 17 گیگابایت حافظه نیاز دارد. با همان ستون فقرات که نیاز به 27 گیگابایت حافظه GPU اندازه گیری در اولین دوره زمانی که استفاده از حافظه پس از آموزش چندین دسته تثبیت می شود. بنابراین، مدل انتخاب شده می تواند بر روی مجموعه داده های تولید شده از کل کشور در یک زمان محاسباتی معقول آموزش داده شود و نتایجی با دقت عملا قابل قبول ارائه دهد. این آموزش بر روی سرورهای Cluster 3× با پردازنده 32 هسته ای 2×AMD EPYC 7452 و NVIDIA A100-PCIE-40 گیگابایت با رم 512 گیگابایتی با سایز 4 انجام شد. همانطور که قبلاً ذکر شد، برچسب های تولید شده به طور خودکار همیشه با کلاس واقعی مطابقت ندارند. در تصاویر به دلیل تغییرات در محیط یا مناطق دارای برچسب اشتباه است. علاوه بر این، مناطق شناسایی وجود دارند که یک کلاس واحد را نشان می دهند (به عنوان مثال، فقط جنگل). از دست دادن کانونی بر نمونه‌های طبقه‌بندی اشتباه تمرکز می‌کند و نتایج عملی خوبی را در برخورد با داده‌های نامتعادل نشان می‌دهد. بنابراین، از آن به عنوان یک تابع ضرر به جای از دست دادن آنتروپی Softmax استفاده شد [ مناطق شناسایی وجود دارند که یک کلاس واحد را نشان می دهند (مثلاً فقط جنگل). از دست دادن کانونی بر نمونه‌های طبقه‌بندی اشتباه تمرکز می‌کند و نتایج عملی خوبی را در برخورد با داده‌های نامتعادل نشان می‌دهد. بنابراین، از آن به عنوان یک تابع ضرر به جای از دست دادن آنتروپی Softmax استفاده شد [ مناطق شناسایی وجود دارند که یک کلاس واحد را نشان می دهند (مثلاً فقط جنگل). از دست دادن کانونی بر نمونه‌های طبقه‌بندی اشتباه تمرکز می‌کند و نتایج عملی خوبی را در برخورد با داده‌های نامتعادل نشان می‌دهد. بنابراین، از آن به عنوان یک تابع ضرر به جای از دست دادن آنتروپی Softmax استفاده شد [25 ]. از دست دادن کانونی $F L (p_{t})$ با معادله زیر [ 29 ] تعریف می شود:

اف L (پ تی) = - α (1-_پ تی) γ l o g (پ تی)

(1)

که در آن α برای شکل متعادل α برای کاهش تاثیر برای خطوط اصلی تشخیص است. γ عامل کانونی است. اگر γ = 0، از دست دادن کانونی مربوط به از دست دادن آنتروپی متقاطع است. اگر مقادیر γ بالاتر اعمال شود، تأثیر نمونه‌های آسان کاهش می‌یابد و مقدار کل ضرر کاهش می‌یابد. این منجر به احتمال بالاتر تصحیح نمونه های طبقه بندی شده اشتباه می شود. تابع طبقه بندی کلاس $p_{t}$ دارای تعریف زیر است:

پ تی = {پ 1 - ص من f y = 1 o t h e r w i s e

(2)

جایی که y کلاس حقیقت پایه را مشخص می کند y∈ {±1} و p ∈ [0,1] احتمال مدل برای کلاس است. برای این آزمایش، α = 0.25 و γ = 2.

مشخصات فنی مدل انتخابی به شرح زیر است:

لایه ورودی: 1024 × 1024 پیکسل (نتیجه برگرفته از 896 × 896 پیکسل) ~ 448 متر × 448 متر (یا ~ 0.2 کیلومتر مربع ⁾ منطقه؛
یادگیری درشت: میزان یادگیری 5 × 10 ⁻⁴ ; تکانه 0.5; 5000 نمونه در هر دوره;
یادگیری دقیق: نرخ یادگیری 5 × 10 ⁻⁵ . تکانه 0.1; 100 نمونه در هر دوره

مدلی که تحت رویکرد پیشنهادی آموزش داده می‌شود، بیشتر به عنوان M123 نامیده می‌شود، به این معنی که شامل هر سه مرحله (وزن‌های پیش‌آموزش‌شده در ImageNet، یادگیری درشت، و یادگیری دقیق) فرآیند یادگیری انتقال است. به منظور نشان دادن اهمیت هر مرحله و مزیت یادگیری انتقال، در مجموع شش مدل DeepLabv3 با ستون فقرات ResNet50 با استفاده از ترکیبی از مراحل ارائه شده در شکل 2 آموزش داده شدند . استراتژی ها در جدول 1 خلاصه شده است.

مقدار میانگین از دست دادن کانونی (1) و mIoU (تقاطع میانگین روی اتحاد) برای مجموعه اعتبارسنجی درشت در طول 50 دوره آموزشی روی مجموعه داده درشت مدل های M2 و M12 به ترتیب در شکل 6 a,b ارائه شده است. شکل 6 نشان می‌دهد که استفاده از پیش‌آموزش‌شده روی مدل ImageNet (M12) نتایج قابل‌توجهی بهتری (مقدار کاهش کانونی کوچک‌تر و مقدار mIoU بزرگ‌تر) از ابتدای آموزش به دست می‌دهد.

در طول فرآیند آموزش، مجموعه اعتبارسنجی برای ارزیابی دقت مدل برای داده‌های دیده نشده استفاده می‌شود. مقادیر تلفات کانونی، mIoU و دقت پیکسل برای مجموعه اعتبارسنجی درشت پس از آموزش مدل‌های M2 و M12 در جدول 2 ارائه شده است. استفاده از یک مدل از پیش آموزش دیده روی ImageNet تقریباً 1.7 برابر مقدار mIoU بالاتر و مقدار تلفات کانونی کمتر از 0.05 می شود.

به طور مشابه، تجزیه و تحلیل در طول آموزش بر روی مجموعه داده های تنظیم دقیق برای مدل های M3، M23، M13 و M123 انجام شد. مقدار میانگین افت کانونی (1) و mIoU (تقاطع میانگین اتحادیه) برای مجموعه اعتبارسنجی تنظیم دقیق در طول 100 دوره آموزشی مدل‌های M3، M23، M13 و M123 در شکل 7 ارائه شده است.a، b، به ترتیب. بیشترین تلفات و کوچکترین مقادیر mIoU برای مدل M3 به دست آمد. این مدل همچنین بیشترین پیشرفت را در یادگیری (بزرگترین تفاوت بین مقادیر در دوره شروع و پایان) نشان می دهد، زیرا مدل با ضرایب تصادفی اولیه آموزش داده می شود و شروع به استخراج ویژگی ها و الگوهای مفید می کند. برای 5 دوره اول، مدل‌های M13 و M23 مقادیر تلفات و mIoU مشابهی را نشان می‌دهند. در دوره های بعدی، مقادیر به دست آمده برای M23 در 10 دوره اول همگرا می شوند، در حالی که مقادیر به دست آمده برای مدل M13 یادگیری بیشتر را نشان می دهد. این پدیده ناشی از این واقعیت است که مجموعه های تصویری با ماهیت کاملاً متفاوت در مراحل مختلف آموزش M13 استفاده شده است. یعنی مجموعه داده ImageNet برای پیش‌آموزش استفاده شد و مجموعه داده تنظیم دقیق در مرحله تنظیم استفاده شد. مدل از پیش آموزش دیده می تواند ویژگی های اساسی را استخراج کند، مانند خطوط و الگوها، اما یادگیری برای تنظیم مجموعه داده های دقیق تصاویر هوایی ادامه می یابد. در طول آموزش M23، این مدل قبلاً روی یک مجموعه داده مشابه آموزش داده شده است و پیشرفت قابل توجهی نشان نمی دهد. بهترین تلفات و مقادیر mIoU توسط مدل M123 نشان داده شد. این مدل با توجه به فرآیند آموزشی پیشنهادی ایجاد شد و آموزش روی مجموعه داده های تنظیم دقیق پس از آموزش مدل از پیش آموزش داده شده بر روی مجموعه داده درشت انجام شد. با این حال، فقط یک پیشرفت جزئی برای این مدل وجود داشت. مدل‌های پیش‌آموزش‌شده M23 و M123 از مقادیر تابع از دست دادن نزدیک به مقادیری شروع می‌شوند که مدل‌های M2 و M12 پس از آموزش مدل‌های روی مجموعه داده درشت همگرا شدند. این مدل قبلاً روی یک مجموعه داده مشابه آموزش داده شده است و بهبود قابل توجهی را نشان نمی دهد. بهترین تلفات و مقادیر mIoU توسط مدل M123 نشان داده شد. این مدل با توجه به فرآیند آموزشی پیشنهادی ایجاد شد و آموزش روی مجموعه داده های تنظیم دقیق پس از آموزش مدل از پیش آموزش داده شده بر روی مجموعه داده درشت انجام شد. با این حال، فقط یک پیشرفت جزئی برای این مدل وجود داشت. مدل‌های پیش‌آموزش‌شده M23 و M123 از مقادیر تابع از دست دادن نزدیک به مقادیری شروع می‌شوند که مدل‌های M2 و M12 پس از آموزش مدل‌های روی مجموعه داده درشت همگرا شدند. این مدل قبلاً روی یک مجموعه داده مشابه آموزش داده شده است و بهبود قابل توجهی را نشان نمی دهد. بهترین تلفات و مقادیر mIoU توسط مدل M123 نشان داده شد. این مدل با توجه به فرآیند آموزشی پیشنهادی ایجاد شد و آموزش روی مجموعه داده های تنظیم دقیق پس از آموزش مدل از پیش آموزش داده شده بر روی مجموعه داده درشت انجام شد. با این حال، فقط یک پیشرفت جزئی برای این مدل وجود داشت. مدل‌های پیش‌آموزش‌شده M23 و M123 از مقادیر تابع از دست دادن نزدیک به مقادیری شروع می‌شوند که مدل‌های M2 و M12 پس از آموزش مدل‌های روی مجموعه داده درشت همگرا شدند. و آموزش بر روی مجموعه داده تنظیم دقیق پس از آموزش مدل از پیش آموزش دیده بر روی مجموعه داده درشت انجام شد. با این حال، فقط یک پیشرفت جزئی برای این مدل وجود داشت. مدل‌های پیش‌آموزش‌شده M23 و M123 از مقادیر تابع از دست دادن نزدیک به مقادیری شروع می‌شوند که مدل‌های M2 و M12 پس از آموزش مدل‌های روی مجموعه داده درشت همگرا شدند. و آموزش بر روی مجموعه داده تنظیم دقیق پس از آموزش مدل از پیش آموزش دیده بر روی مجموعه داده درشت انجام شد. با این حال، فقط یک پیشرفت جزئی برای این مدل وجود داشت. مدل‌های پیش‌آموزش‌شده M23 و M123 از مقادیر تابع از دست دادن نزدیک به مقادیری شروع می‌شوند که مدل‌های M2 و M12 پس از آموزش مدل‌های روی مجموعه داده درشت همگرا شدند.شکل 6 ). برآورد دقت به مجموعه اعتبار سنجی بستگی دارد. لازم به ذکر است که در مجموعه داده اعتبار سنجی تنظیم دقیق برخی از ناسازگاری های برچسب گذاری روشن شده است. بنابراین، ارزش زیان بیشتری را به همراه دارد.

مقادیر تلفات کانونی، mIoU و دقت پیکسل برای مجموعه اعتبارسنجی تنظیم دقیق پس از آموزش مدل‌های M3، M13، M23 و M123 در جدول 3 ارائه شده است. نشان داده شده است که استفاده از یک مدل از پیش آموزش دیده روی ImageNet تقریباً 2 برابر مقدار mIoU بالاتری را به همراه دارد (به ترتیب M13 و M123 در مقایسه با مقادیر M3 و M23). علاوه بر این، بالاترین مقادیر MIoU و دقت پیکسل برای مدلی که با استفاده از هر سه مرحله از طرح آموزشی پیشنهادی ایجاد شده بود، به دست آمد.

تصاویر هر سه دوره در مجموعه داده های آموزشی و اعتبار سنجی گنجانده شد. فرآیند آموزش مدل پیشنهادی دارای یک مرحله عادی سازی تصویر بود. این مرحله در پیش پردازش داده ها گنجانده شده است تا دقت مدل را ثابت نگه دارد و اطمینان حاصل شود که استفاده از تصاویر دوره های مختلف در برنامه معتبر است. برای نشان دادن اینکه استفاده از تصاویر نرمال شده از دوره‌های مختلف باعث دقت بسیار متفاوتی نمی‌شود، از دست دادن و مقادیر mIoU برای زیرمجموعه‌های اعتبارسنجی تنظیم دقیق گروه‌بندی‌شده بر اساس دوره، به ترتیب در شکل 8 a,b ارائه شده‌اند.

مقادیر افت کانونی، mIoU و دقت پیکسل مدل M123 برای زیرمجموعه های اعتبارسنجی تصاویر از دوره های مختلف پس از آموزش در جدول 4 ارائه شده است. مقادیر تلفات کانونی برای همه زیر مجموعه ها و خود مجموعه داده کمتر از 0.01 است. مقادیر دقت mIoU و پیکسل زیرمجموعه‌ها با توجه به مقدار دقت mIoU و پیکسل مجموعه داده کامل کمتر از 2٪ متفاوت است.

ماتریس های سردرگمی نرمال شده نتایج تقسیم بندی مدل M123 برای مجموعه اعتبارسنجی دقیق و زیرمجموعه های دوره های مختلف آن در شکل 9 آورده شده است.. ماتریس‌های سردرگمی شامل تمام کلاس‌های مورد استفاده در تقسیم‌بندی هستند، یعنی خانه، جنگل، آب و غیره. ماتریس‌ها نشان می‌دهند که بیش از 90 درصد پیش‌بینی‌ها با برچسب‌های واقعی جنگل، آب و سایر کلاس‌ها برای مجموعه اعتبارسنجی کامل و زیرمجموعه‌های آن مطابقت دارند. علاوه بر این، پیش‌بینی‌ها برای کلاس خانه از 75 درصد برچسب‌های کلاس خانه واقعی در مجموعه داده و زیر مجموعه‌های آن فراتر رفت. لازم به ذکر است که بیشترین پیش بینی نادرست برای کلاس خانه مانند سایر طبقات بوده است. دلیل این پدیده این است که اجزای حقیقت زمینی خانه ها دارای لبه های تیز و هندسه پیچیده هستند و این ویژگی ها در نتایج استنتاج حفظ نمی شود. علاوه بر این، اجزای کوچک هستند و تعداد اجزای خانه در مقایسه با کلاس های دیگر زیاد است.

نمونه هایی از تصاویر و نتایج استنتاج آنها در مقایسه با حقیقت زمینی در شکل 10 ارائه شده است. رنگ سفید نشان دهنده تقاطع صدق و نتایج استنتاج، رنگ سبز نشان دهنده حقیقت پایه است که توسط نتایج استنتاج پوشش داده نمی شود و رنگ قرمز نشان دهنده نتایج استنتاجی است که حقیقت پایه را پوشش نمی دهد. مشکلات اصلی مجموعه داده در مثال های ارائه شده در شکل 10 نشان داده شده است. اولاً، خانه در حال ساخت در حقیقت زمین گنجانده شده است اما توسط مدل شناسایی نشده است ( شکل 10 a,d). ثانیاً، خانه به دلیل سایه زدن تشخیص داده نمی شود ( شکل 10 b,e). در نهایت، ساختمان هایی وجود دارند که توسط مدل شناسایی می شوند اما در حقیقت زمین گنجانده نشده اند.شکل 10 b,c,e,f). مثال‌ها نشان می‌دهند که نتایج استنتاج با حقیقت پایه مطابقت دارد. محاسبات نشان می دهد که بیش از 80 درصد اجزای خانه در حقیقت زمین بیش از 50 درصد با نتایج استنتاج همپوشانی دارند.

5. نتایج

این مدل برای شناسایی چهار کلاس اصلی (خانه‌ها، جنگل، آب و غیره) توسعه داده شد. نتایج مستقیم به‌دست‌آمده با مدل توسعه‌یافته، توانایی تحلیل و تفسیر نتایج را در سطوح مختلف امکان‌پذیر می‌سازد.

در بهترین سطح، نتایج مدل را می توان به صورت محلی تجزیه و تحلیل کرد و با استفاده از نرم افزار نقشه استاندارد، یعنی QGis و ArcGis، تجسم کرد. شکل 11 و شکل 12 نتایج به دست آمده با مدل را با استفاده از نرم افزار QGIS نشان می دهد. نتایج نشان دهنده ساختمان ها، مناطق آبی و جنگلی شناسایی شده است.

نتایج به دست آمده از دوره های مختلف را می توان برای برجسته کردن تغییرات بین تصاویر دو دوره در یک مکان به کار برد. تصاویر اولیه دوره های 2009-2010 و 2012-2013 و تصاویر اصلاح شده با یک لایه که نشان دهنده تغییر کلاس ساختمان است در شکل 13 ارائه شده است.

در سطح میانی می توان از مدل برای شناسایی تغییرات شهری منطقه با ایجاد نقشه حرارتی استفاده کرد. کشور به یک شبکه تقسیم شد و ارزش یک سلول شبکه با تعداد کل ساختمان های شناسایی شده در هر سلول شبکه تعیین شد. سپس، تفاوت بین سلول های شبکه مربوطه در دوره های مختلف محاسبه و در شکل 14 مشاهده شد.همراه با تصاویر نمونه از سه مکان مختلف L1، L2، و L3 برای هر دو دوره. مکان L1 نشان دهنده منطقه گسترش شهری است زیرا یک بلوک جدید از خانه ها در حومه شهر در حال گسترش است. مکان L2 نمایانگر یک بلوک موجود از باغ‌های اختصاصی است که به مرور زمان به یک منطقه مسکونی تبدیل می‌شود زیرا خانه‌های تابستانی کوچک قدیمی با خانه‌های مستقل جدید جایگزین می‌شوند. مکان L3 برای نشان دادن توسعه یک بلوک جدید از ساختمان های آپارتمانی انتخاب شد.

همین رویکرد روش شناختی را می توان برای داده های سنجش از دور با فرکانس بالاتر، به عنوان مثال، تصاویر ماهواره ای اعمال کرد. استفاده از نقاط داده بیشتر، امکان انجام تجزیه و تحلیل پویایی تغییرات شهری را در سطح دقیق تر و پیش بینی الگوهای رشد آینده منطقه تحت نظارت را فراهم می کند.

بدیهی است که داده های عمومی تر می تواند در تحلیل توسعه شهری در سطح شهرداری برای برنامه ریزی زیرساخت ها، شناسایی الگوها و تصمیم گیری های سیاسی مفید باشد.

6. نتیجه گیری

تقسیم بندی معنایی تصاویر ماهواره ای یا هوایی معمولاً برای مناطق کوچک و مشکلات خاص مانند استخراج ساختمان اعمال می شود [ 30 ، 31 ، 32 ، 33 ، 34 ]. تحقیقات در سطح بالاتر (شهر یا کشور) از تصاویر ماهواره ای عمدتاً بر تخمین شاخص های اجتماعی-اقتصادی یا سطح فقر متمرکز است [ 18 ، 35 ، 36 ]]؛ بنابراین، آنها معمولاً به جای خود فرآیند، بر نتیجه نهایی متمرکز بودند. این نشریه با ارائه رویکردی روش‌شناختی در مورد چگونگی آماده‌سازی داده‌های آموزشی برای یادگیری درشت و دقیق، یعنی چگونگی اطمینان از تنوع کلاس‌های مختلف و برخورد با تصاویر با کیفیت متفاوت، شکاف‌های گمشده را پر می‌کند. رویکرد روش‌شناختی ارائه شده می‌تواند در کشورهای مختلف برای تصاویر هوایی یا ماهواره‌ای به منظور تعیین الگوهای تغییر شهری اعمال شود. در این کار، تکنیک یادگیری انتقال برای ایجاد یک مدل یادگیری ماشین با توجه به طرح آموزشی که در ابتدا در [ 20 ] پیشنهاد شد، استفاده شد.]. مدل DeepLabv3 با ستون فقرات ResNet50 که ابتدا روی داده های ImageNet از قبل آموزش داده شده بود، انتخاب شد. دو مرحله زیر یادگیری در مجموعه داده‌های درشت و دقیق برای تنظیم مدل انجام شد. در مرحله یادگیری درشت، مدل بر روی یک مجموعه داده به طور خودکار با داده‌های OSM برچسب‌گذاری شد. این ویژگی‌های یادگیری ویژه مجموعه داده هوایی را فعال می‌کند. مرحله تنظیم دقیق به افزایش دقت مدل اختصاص داده شد، زیرا داده های اصلاح شده دستی در آموزش استفاده شد. در این مقاله به اهمیت هر مرحله در طرح آموزشی توجه می کنیم. برای نشان دادن مزایای استفاده از رویکرد یادگیری انتقال، پنج مدل یادگیری ماشین اضافی تحت استراتژی‌های مختلف که شامل ترکیب‌های مختلفی از مراحل آموزشی بود، تحت فشار قرار گرفتند. مدلی که با توجه به روش پیشنهادی ایجاد شده است، نتایج دقیق تری را در مقایسه با پنج مدل دیگر که با استفاده از ترکیبات مختلف مراحل یادگیری توسعه داده بودند، نشان دادند. بدیهی است که این مدل بر روی بیشترین تنوع تصاویر (مجموعه داده های ImageNet، درشت و دقیق) آموزش داده شده است و اگر زمان آموزش اولیه در ImageNet در نظر گرفته شود، آموزش آن طولانی ترین زمان را خواهد داشت. همچنین نشان داده شد که تصاویر دوره‌های مختلف بایاس ندارند، زیرا مقدار تلفات کانونی برای همه زیرمجموعه‌ها کم است و mIoU و مقادیر دقت پیکسل کمتر از 2٪ اختلاف نسبت به مقادیر مربوطه مجموعه داده کامل دارند. و تنظیم دقیق مجموعه داده ها) و اگر زمان آموزش اولیه در ImageNet در نظر گرفته شود، آموزش آن طولانی ترین زمان را خواهد داشت. همچنین نشان داده شد که تصاویر دوره‌های مختلف بایاس ندارند، زیرا مقدار تلفات کانونی برای همه زیرمجموعه‌ها کم است و mIoU و مقادیر دقت پیکسل کمتر از 2٪ اختلاف نسبت به مقادیر مربوطه مجموعه داده کامل دارند. و تنظیم دقیق مجموعه داده ها) و اگر زمان آموزش اولیه در ImageNet در نظر گرفته شود، آموزش آن طولانی ترین زمان را خواهد داشت. همچنین نشان داده شد که تصاویر دوره‌های مختلف بایاس ندارند، زیرا مقدار تلفات کانونی برای همه زیرمجموعه‌ها کم است و mIoU و مقادیر دقت پیکسل کمتر از 2٪ اختلاف نسبت به مقادیر مربوطه مجموعه داده کامل دارند.

نشان داده شد که شبکه عصبی با استفاده از OSM به عنوان یک مجموعه داده حقیقت زمینی، قادر به تقسیم بندی معنایی با دقت معقول است. با این حال، ورودی متخصص در مرحله آماده‌سازی داده‌ها برای در نظر گرفتن تفاوت‌ها در نقشه‌برداری، مانند استفاده از جدیدترین داده‌های حقیقت زمینی با این فرض که تغییرات زیادی در داده‌ها در طول سال‌ها وجود ندارد، ضروری است. عادی سازی تصاویر با کیفیت متفاوت در طیف و کنتراست، تجزیه و تحلیل و تفسیر نتایج را در سطوح مختلف برای مجموعه ای از تصاویر از دوره های مختلف امکان پذیر می کند. نتایج تعمیم یافته را می توان برای تشخیص الگوهای تغییر شهری با استفاده از نقشه حرارتی تفاوت استفاده کرد، در حالی که برای تجزیه و تحلیل سطح خوب، امکان بررسی تغییرات محلی بر روی نقشه یک مکان خاص وجود دارد.

تحلیل و برآورد الگوهای رشد شهری می تواند برای اهداف مختلف و احزاب مختلف مورد استفاده قرار گیرد. به عنوان مثال، سرمایه گذاران ممکن است از شناسایی رشد خانوارها برای خرید املاک و مستغلات برای اهداف اجاره یا برای فروش مجدد املاک استفاده کنند. شهر معمولاً با توجه به قیمت مسکن رشد می کند. به این معنا که اگر قیمت مسکن در یک منطقه از شهر بالا باشد، مصرف کنندگان تمایل به خرید خانه در قسمت هایی از شهر دارند که قیمت ها پایین تر است. بعداً، رشد قیمت معمولاً به سمت تعادل عرضه و تقاضا تغییر می‌کند. سایر کاربران ممکن است دولت باشند که باید برنامه های منطقه ای را بر اساس وضعیت فعلی و برآوردهای آینده ارائه دهند. توسعه مسکن و تراکم جمعیت باید در برنامه ریزی اشیاء زیرساختی مانند مدارس، بیمارستان ها و شبکه راه ها در نظر گرفته شود. برنامه ریزی چنین زیرساخت هایی از قبل می تواند منجر به کاهش هزینه های ساخت و ساز، مناطق کارآمدتر و در نتیجه مدیریت پایدار بهتر و بهره وری بالاتر شود. بنابراین، رویکرد روش‌شناختی پیشنهادی می‌تواند در بازارهای توسعه‌یافته برای به دست آوردن تحلیل رشد شهری در زمان واقعی دقیق‌تر و در بازارهای در حال توسعه برای درک بهتر وضعیت بازار فعلی، به ویژه اگر داده‌های آماری محدود باشد، اعمال شود.

منابع

داداش پور، ح. عزیزی، پ. مقدسی، م. تحلیل الگوهای فضایی، نیروهای محرک و پیش‌بینی سناریوهای رشد آتی برای حمایت از رشد پایدار شهری: شواهدی از کلانشهر تبریز، ایران. حفظ کنید. جامعه شهرها 2019 ، 47 ، 101502. [ Google Scholar ] [ CrossRef ]
لیانگ، ایکس. لیو، ایکس. لی، دی. ژائو، اچ. چن، جی. شبیه‌سازی رشد شهری با ترکیب سیاست‌های برنامه‌ریزی در یک مدل شبیه‌سازی کاربری زمین در آینده مبتنی بر CA. بین المللی جی. جئوگر. Inf. علمی 2018 ، 32 ، 2294-2316. [ Google Scholar ] [ CrossRef ]
Serasinghe Pathiranage، IS; Kantakumar، LN; Sundaramoorthy، S. داده های سنجش از دور و مدل رشد شهری SLEUTH: به عنوان ابزار پشتیبانی تصمیم برای برنامه ریزی شهری. چانه. Geogr. علمی 2018 ، 28 ، 274-286. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
زی، ام. ژان، ن. بورک، ام. لوبل، دی. ارمون، اس. انتقال یادگیری از ویژگی های عمیق برای سنجش از دور و نقشه برداری فقر. در مجموعه مقالات سی امین کنفرانس AAAI در مورد هوش مصنوعی، AAAI 2016، فینیکس، AZ، ایالات متحده آمریکا، 12 تا 17 فوریه 2016. صص 3929–3935. [ Google Scholar ]
ماکو، ک. ووژنیلک، وی. Pászto, V. پیوند بین شاخص کیفیت زندگی و گونه شناسی واحدهای اداری اروپایی. J. Int. توسعه دهنده 2022 ، 34 ، 145-174. [ Google Scholar ] [ CrossRef ]
Gevaert، CM; پرسلو، سی. اسلیوزاس، آر. Vosselman, G. نظارت بر ارتقاء خانوارها در سکونتگاه های برنامه ریزی نشده با وسایل نقلیه هوایی بدون سرنشین. بین المللی J. Appl. زمین Obs. Geoinf. 2020 , 90 , 102117. [ Google Scholar ] [ CrossRef ]
Emilien، A.-V. توماس، سی. توماس، H. پهپاد و هم افزایی ماهواره ای برای کاربردهای سنجش از دور نوری: بررسی ادبیات. علمی Remote Sens. 2021 , 3 , 100019. [ Google Scholar ] [ CrossRef ]
شی، دبلیو. ژانگ، ام. ژانگ، آر. چن، اس. Zhan, Z. تشخیص تغییر بر اساس هوش مصنوعی: جدیدترین و چالش‌ها. Remote Sens. 2020 ، 12 ، 1688. [ Google Scholar ] [ CrossRef ]
کوی، بی. ژانگ، ی. یان، ال. وی، جی. Wu, H. یک روش تشخیص تغییر SAR بدون نظارت بر اساس یادگیری گروهی زیرفضای تصادفی. Remote Sens. 2019 , 11 , 1314. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
دونالدسون، دی. استوریگارد، الف. دیدگاه از بالا: کاربردهای داده های ماهواره ای در اقتصاد. جی. اکون. چشم انداز 2016 ، 30 ، 171-198. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
Celik، T. تشخیص تغییر بدون نظارت در تصاویر ماهواره‌ای با استفاده از تجزیه و تحلیل مؤلفه‌های اصلی و خوشه‌بندی κ-means. IEEE Geosci. سنسور از راه دور Lett. 2009 ، 6 ، 772-776. [ Google Scholar ] [ CrossRef ]
د یونگ، KL; Sergeevna Bosman، A. تشخیص تغییر بدون نظارت در تصاویر ماهواره ای با استفاده از شبکه های عصبی کانولوشن. در مجموعه مقالات کنفرانس مشترک بین المللی 2019 در مورد شبکه های عصبی (IJCNN)، بوداپست، مجارستان، 14 تا 19 ژوئیه 2019؛ صص 1-8. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
ژو، دی. لی، تی. جیا، ایکس. وانگ، ایکس. چن، تی. Nandi، AK تشخیص تغییر بدون نظارت با استفاده از مدل Gaussian-Mixture-Multiscale و MultiResolution Guided by Saliency Enhancement. IEEE J. Sel. بالا. Appl. زمین Obs. Remote Sens. 2021 , 14 , 1796–1809. [ Google Scholar ] [ CrossRef ]
لیو، جی. چن، ک. خو، جی. سان، ایکس. یان، م. دیائو، دبلیو. هان، اچ. آموزش انتقال مبتنی بر شبکه عصبی کانولوشن برای تشخیص تغییر تصاویر هوایی نوری. IEEE Geosci. سنسور از راه دور Lett. 2020 ، 17 ، 127-131. [ Google Scholar ] [ CrossRef ]
ژانگ، ی. فو، ال. لی، ی. Zhang، Y. Hdfnet: شبکه همجوشی پویا سلسله مراتبی برای تشخیص تغییر در تصاویر هوایی نوری. Remote Sens. 2021 , 13 , 1440. [ Google Scholar ] [ CrossRef ]
جیانگ، اچ. هو، ایکس. لی، ک. ژانگ، جی. گونگ، جی. ژانگ، ام. Remote Sens. 2020 , 12 , 484. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
ورم، م. استارک، تی. زو، XX; ویگاند، ام. Taubenböck، H. بخش‌بندی معنایی زاغه‌ها در تصاویر ماهواره‌ای با استفاده از یادگیری انتقال در شبکه‌های عصبی کاملاً کانولوشن. ISPRS J. Photogramm. Remote Sens. 2019 ، 150 ، 59–69. [ Google Scholar ] [ CrossRef ]
ژان، ن. بورک، ام. زی، ام. دیویس، WM; لوبل، دی بی؛ ارمون، اس. ترکیب تصاویر ماهواره ای و یادگیری ماشینی برای پیش بینی فقر. Science 2016 ، 353 ، 790-794. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
سورج، پی کی; گوپتا، ا. شارما، م. پل، SB; Banerjee, S. در مورد نظارت بر شاخص های توسعه با استفاده از تصاویر ماهواره ای با وضوح بالا. arXiv 2018 , arXiv:1712.02282. [ Google Scholar ]
فیلریس، تی. کریشچیوناس، ا. گروزاوسکاس، وی. Čalnerytė، D. برنامه یادگیری عمیق برای تشخیص تغییر شهری از تصاویر هوایی. در GISTAM 2021: مجموعه مقالات هفتمین کنفرانس بین المللی نظریه، کاربردها و مدیریت سیستم های اطلاعات جغرافیایی، آنلاین، 23 تا 25 آوریل 2021 ؛ SciTePress: Setúbal، پرتغال، 2021؛ صص 15-24. [ Google Scholar ] [ CrossRef ]
ماموریت های نگهبان در دسترس آنلاین: https://www.esa.int/Applications/Observing_the_Earth/Copernicus/The_Sentinel_missions (در 9 فوریه 2022 قابل دسترسی است).
شرمایر، جی. Van Etten، A. اثرات وضوح فوق العاده بر عملکرد تشخیص شی در تصاویر ماهواره ای. در مجموعه مقالات کنفرانس IEEE/CVF در کارگاه‌های بینایی رایانه و تشخیص الگو، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 16 تا 17 ژوئن 2019. [ Google Scholar ]
ویتویت، دبلیو. ژائو، ی. جنکینز، ک. Zhao، Y. بهبود وضوح تصویر ماهواره ای با استفاده از تبدیل موجک گسسته و درون یابی جدید جهت دار لبه. جی. الکترون. Imaging 2017 , 26 , 023014. [ Google Scholar ] [ CrossRef ]
کروپینسکی، م. لوینسکی، اس. Malinowski، R. One class SVM برای تشخیص ساختمان در تصاویر Sentinel-2. در کاربردهای فوتونیک در نجوم، ارتباطات، صنعت و آزمایشات فیزیک با انرژی بالا 2019 ؛ انجمن بین المللی اپتیک و فوتونیک: ویلگا، لهستان، 2019؛ جلد 1117635، ص. 6. [ Google Scholar ]
کوربن، سی. سیریس، وی. سابو، اف. پسری، م. سوئیل، پی. Kemper، T. شبکه های عصبی کانولوشن برای نقشه برداری سکونتگاه های انسانی جهانی از تصاویر ماهواره ای Sentinel-2. arXiv 2020 ، arXiv:2006.03267. [ Google Scholar ] [ CrossRef ]
آهنگ، ک. جیانگ، جی. AGCDetNet: یک شبکه هدایت‌شده توجه برای تشخیص تغییر ساختمان در تصاویر سنجش از دور با وضوح بالا. IEEE J. Sel. بالا. Appl. زمین Obs. Remote Sens. 2021 , 14 , 4816–4831. [ Google Scholar ] [ CrossRef ]
که، Q. Zhang، P. CS-HSNet: یک شبکه تشخیص تغییر متقابل سیامی بر اساس توجه تقسیم سلسله مراتبی. IEEE J. Sel. بالا. Appl. زمین Obs. Remote Sens. 2021 , 14 , 9987–10002. [ Google Scholar ] [ CrossRef ]
مینایی، س. بویکوف، YY; پوریکلی، ف. پلازا، ای جی; کهترنواز، ن. Terzopoulos، D. بخش بندی تصویر با استفاده از یادگیری عمیق: یک بررسی. IEEE Trans. الگوی مقعدی ماخ هوشمند 2021 ، 8828 ، 1-20. [ Google Scholar ] [ CrossRef ] [ PubMed ]
لین، تی.-ای. گویال، پ. گیرشیک، آر. او، ک. دلار، P. از دست دادن کانونی برای تشخیص اجسام متراکم (RetinaNet). در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، ونیز، ایتالیا، 22 تا 29 اکتبر 2017؛ صفحات 2980-2988. [ Google Scholar ]
لیو، ی. هان، ز. چن، سی. دینگ، ال. Liu, Y. Eagle-Eyed Multitask CNNs برای بازیابی تصویر هوایی و طبقه بندی صحنه. IEEE Trans. Geosci. Remote Sens. 2020 , 58 , 6699–6721. [ Google Scholar ] [ CrossRef ]
بله، ز. فو، ی. گان، م. دنگ، ج. کامبر، ا. وانگ، ک. استخراج ساختمان از تصاویر هوایی با وضوح بسیار بالا با استفاده از شبکه عصبی عمیق توجه مشترک. Remote Sens. 2019 , 11 , 2970. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
وو، جی. شائو، ایکس. گوا، ز. چن، کیو. یوان، دبلیو. شی، ایکس. خو، ی. Shibasaki, R. تقسیم بندی خودکار ساختمان از تصاویر هوایی با استفاده از شبکه های کاملاً پیچیده چند محدودیتی. Remote Sens. 2018 , 10 , 407. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
دورنایکا، اف. مجاهد، ع. ال مرابت، ی. رویچک، ی. تشخیص ساختمان از عکس‌های ارتو با استفاده از رویکرد یادگیری ماشین: یک مطالعه تجربی بر روی تقسیم‌بندی تصویر و توصیف‌گرها. سیستم خبره Appl. 2016 ، 58 ، 130-142. [ Google Scholar ] [ CrossRef ]
وکالوپولو، م. کارانتزالوس، ک. کوموداکیس، ن. Paragios, N. تشخیص ساختمان در داده های چند طیفی با وضوح بسیار بالا با ویژگی های یادگیری عمیق. در مجموعه مقالات سمپوزیوم بین المللی علوم زمین و سنجش از دور IEEE 2015 (IGARSS)، میلان، ایتالیا، 26 تا 31 ژوئیه 2015. صفحات 1873-1876. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
الروزوق، ر. حمد، ک. شانبله، ع. خلیل، م. ارزیابی رشد زیرساخت مناطق شهری بر اساس تصاویر ماهواره ای چند زمانی و ویژگی های خطی. ان GIS 2017 ، 23 ، 183-201. [ Google Scholar ] [ CrossRef ]
آلبرت، آ. کائور، ج. گونزالس، ام سی استفاده از شبکه های کانولوشن و تصاویر ماهواره ای برای شناسایی الگوها در محیط های شهری در مقیاس بزرگ. در مجموعه مقالات بیست و سومین کنفرانس بین المللی ACM SIGKDD در مورد کشف دانش و داده کاوی، هالیفاکس، NS، کانادا، 13 تا 17 اوت 2017؛ قسمت F1296. صص 1357–1366. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]

شکل 1. نمونه ای از تفاوت دید در یک مکان در دوره های مختلف.

شکل 2. طرح مراحل آموزش مدل ML.

شکل 3. طرح کاربرد مدل ML.

شکل 4. طرح فرآیند برچسب گذاری داده های دو مرحله ای.

شکل 5. نمونه تصاویر انتخاب شده با یک خانه در مرکز ( a , b ) و تصادفی ( c , d ) که نشان دهنده انواع کاربری های مختلف زمین است، مانند شهر ( a )، حومه ( b )، پوشش گیاهی ( c )، و روستا ( د ).

شکل 6. معیارهای ارزیابی (از دست دادن کانونی ( a ) و mIoU ( b )) برای مجموعه اعتبارسنجی درشت در طول آموزش درشت مدل‌های M2 (بدون پیش‌آموزش در ImageNet) و M12 (با پیش‌آموزش در ImageNet).

شکل 7. معیارهای ارزیابی (اتلاف کانونی ( a ) و mIoU ( b )) برای مجموعه اعتبارسنجی تنظیم دقیق در طول آموزش تنظیم دقیق مدل‌های M3، M23، M13، M123.

شکل 8. معیارهای ارزیابی (از دست دادن کانونی ( a ) و mIoU ( b )) برای مجموعه اعتبارسنجی تنظیم دقیق و زیر مجموعه‌های آن در طول یادگیری تنظیم دقیق.

شکل 9. ماتریس سردرگمی نرمال شده تقسیم بندی M123 برای مجموعه اعتبار سنجی دقیق تنظیم کامل و زیرمجموعه های دوره های مختلف آن نتیجه می دهد.

شکل 10. نمونه هایی از تصاویر اصلی ( a – c ) و نتایج حاصل از نتایج استنتاج آنها در مقایسه با حقیقت زمین ( d – f ). رنگ سفید نشان دهنده تطابق بین حقیقت پایه و استنتاج، سبز نشان دهنده حقیقت پایه است که توسط نتایج استنتاج پوشش داده نمی شود، و قرمز نشان دهنده نتایج استنتاجی است که حقیقت پایه را پوشش نمی دهد.

شکل 11. مثال استنتاج با استفاده از تصویر از مجموعه داده های 2009-2010 با موقعیت تصادفی: ( الف ) نمای اصلی ORTO10. ( ب ) نتایج استنتاج. ( ج ) همپوشانی تصویر اصلی و نتایج استنتاج شفاف.

شکل 12. تقسیم بندی در بهترین سطح به دست می آید: ( الف ) نمای نقشه OSM مرکز شهر کاوناس. ( ب ) داده‌های پردازش شده مرکز شهر کاوناس در دوره زمانی انتخاب شده (2009-2010) با ساختمان‌های تقسیم‌بندی شده (ارغوانی)، آب (آبی)، جنگل/درختان (قهوه‌ای) و سایر دسته‌های (سفید).

شکل 13. مثال شناسایی تغییر: ( الف ، ب ) تصاویر اصلی ORTO10LT از دوره های 2009-2010 و 2012-2013، به ترتیب. ( ج ، د ) تصاویر با یک لایه دریچه که نشان دهنده عدم تطابق کلاس ساختمان در نتایج تقسیم بندی است.

شکل 14. نقشه حرارتی تفاوت بین تعداد کل ساختمان ها در سلول شبکه برای دوره های 2009-2010 و 2012-2013 در شهر و منطقه کاوناس و نمونه هایی از تصاویر در مکان های L1، L2، L3.

مقالات داخلی و بین المللی

بدون دیدگاه

دیدگاهتان را بنویسید لغو پاسخ

برای نوشتن دیدگاه باید وارد بشوید.

مشاورین هوش پیروزی

تشخیص تغییر شهری از تصاویر هوایی با استفاده از شبکه های عصبی کانولوشن و یادگیری انتقال

کلید واژه ها:

1. مقدمه

2. کارهای مرتبط

3. شرح مشکل