1. مقدمه
توسعه پایدار منطقه ای تنها با به کارگیری اطلاعات آماری مناسب از مناطق مانند تراکم ساختمان، امتیاز صنعتی شدن، شاخص های شبکه راه، نسبت زاغه ها و سکونتگاه های غیررسمی منطقه و غیره محقق می شود. این پارامترها را می توان برای توسعه سناریوهای رشد شهری آینده [ 1 ، 2 ] و استفاده از آنها در فرآیند تصمیم گیری [ 3 ] اعمال کرد. با این حال، چندین مشکل عمده در مورد دسترسی به داده های آماری وجود دارد. برخی از مناطق در حال توسعه فاقد داده های آماری قابل اعتماد هستند زیرا سرشماری به طور منظم انجام نمی شود. مدل آموزش داده شده در مناطق غنی از داده را می توان برای استخراج ویژگی های پیچیده مانند شبکه جاده ها و مناطق شهری در مناطق فقیر از داده استفاده کرد [ 4 ]]. مسئله دیگر این است که داده ها در سطح جزئیات مکانی در نظر گرفته شده جمع آوری نمی شوند. به عنوان مثال، در پیوند دادن شاخص کیفیت زندگی به واحدهای اداری اروپایی در سطح مناطق پایه برای اعمال سیاست های منطقه ای (NUTS2 – نامگذاری واحدهای سرزمینی برای آمار)، شاخص های اجتماعی-اقتصادی در دسترس نبودند یا در زمان ناقص بودند. یا فاصله [ 5]. دسترسی به دادههای تغییرات شهری هنگام برنامهریزی زیرساختهای منطقهای و شناسایی روندهای در حال تغییر مصرفکننده ضروری است. از نظر تاریخی، ساکنان بیشتری در مناطق روستایی زندگی می کردند، اما بعداً شروع به نزدیک شدن به مرکز شهر کردند. در حال حاضر اهالی به دلیل گرانی مسکن در شهر یا دلایل شخصی دیگر به حومه شهر نقل مکان می کنند. به دلیل این روند، تراکم جمعیت در حومه شهرها به سرعت در حال افزایش است که به دلیل نبود زیرساخت های مناسب مانند مدارس، بیمارستان ها، مراکز خرید و سایر امکانات مشکلاتی را ایجاد می کند. این منجر به کاهش بهره وری می شود، به عنوان مثال، به دلیل سطوح بالای ترافیک. اگر برآوردهای مناسبی برای رشد شهری در آینده ایجاد شود، میتوان زیرساختها را از قبل برنامهریزی کرد. علاوه بر این،
پیشرفت روباتیک، تکنیکهای بینایی کامپیوتر و منابع محاسباتی مصرفکننده، استفاده از دادههای سنجش از راه دور را برای تخمین پارامترهای آماری از دید پرنده امکانپذیر میسازد. از تصاویر هوایی و ماهواره ای می توان برای تعیین نوع کاربری اراضی، نوع منطقه مسکونی، نرخ رشد شهری و بسیاری از پارامترهای دیگر استفاده کرد که بعداً می تواند در تحلیل توسعه شهری اعمال شود. از طرفی فرآیند جمع آوری و تهیه تصاویر هوایی پرهزینه و زمان بر است و به همین دلیل هر چند سال یکبار انجام می شود. با توجه به فناوری های در حال توسعه، کیفیت تصاویر جمع آوری شده در دوره های مختلف به طور قابل توجهی متفاوت است و روش های تشخیص تغییر مستقیم را نمی توان اعمال کرد. تحقیقات ما بر توسعه روشی متمرکز است که تخمین پویایی تغییر را در سطح منطقه ای انتخاب شده پس از یک فرآیند آموزشی کوتاه مدل یادگیری ماشینی امکان پذیر می کند. مشارکت ما شامل طرح جمعآوری دادهها و آمادهسازی برای آموزش، طرح آموزشی مبتنی بر یادگیری انتقال و تحلیل آن، و نمونههایی از کاربرد مدل در سطوح مختلف است.
بقیه مقاله به شرح زیر سازماندهی شده است: بخش 2 کار مرتبط را مرور می کند. شرح مشکل در بخش 3 ارائه شده است . مواد و روش ها در بخش 4 آورده شده است. بخش 5 نتایج را نشان می دهد. نتیجه گیری در بخش 6 آورده شده است.
2. کارهای مرتبط
برای انجام تحلیل تغییرات شهری می توان از منابع داده و روش های مختلف استفاده کرد. به عنوان مثال، تغییرات جمعیتی را می توان با توجه به شاخص های اجتماعی-اقتصادی [ 6 ] و سایر داده های آماری تخمین زد. با این حال، این نوع داده ها بر جنبه فضایی تغییر تمرکز ندارند. بنابراین، داده های سنجش از دور می تواند به عنوان منبع اضافی برای تجزیه و تحلیل تغییرات شهری استفاده شود. انواع اصلی داده های سنجش از دور، تصاویر رادار نوری و دیافراگم مصنوعی (SAR) هستند. تصاویر نوری معمولاً با استفاده از وسایل نقلیه هوایی بدون سرنشین و ماهواره ها به دست می آیند [ 7 ]. آنها را می توان به تصاویر پانکروماتیک، چند طیفی و فراطیفی با توجه به تعداد باندهای طیفی که از یک تا هزاران متغیر است گروه بندی کرد [ 8 ]]. تصاویر SAR با ارسال، دریافت و ضبط امواج رادیویی از ماهواره به صحنه هدف ایجاد می شوند. مزیت اصلی فناوری SAR این است که می توان آن را مستقل از شرایط آب و هوایی اعمال کرد [ 9 ]. یک مرور کلی از کاربرد داده های سنجش از دور برای اقتصاد در [ 10 ] ارائه شده است. مثالهای ارائهشده در مقاله شامل استفاده از تحلیل چراغهای شب برای تعیین فعالیتهای اقتصادی محلی، مطالعه تأثیر سرمایهگذاریهای زیرساختی، نظارت بر کاربری زمین و موارد دیگر است. برای تشخیص تغییر در یک سری از داده های سنجش از دور، عمدتاً از دو رویکرد استفاده می شود.
رویکرد اول مبتنی بر روشهای یادگیری بدون نظارت است. هدف این روش ها شناسایی تغییر پیکسل ها در تصاویر RGB بدون پرداختن به انواع اشیاء شناسایی شده است. انگیزه استفاده از روشهای یادگیری بدون نظارت معمولاً بر اساس فقدان دادههای برچسبگذاری، کیفیت پایین آن، یا حجم عظیم کار دستی مورد نیاز برای تهیه برچسبهای مناسب است. روشهای تشخیص تغییر برای تصاویر ماهوارهای یا هوایی که با بازه زمانی گرفته شدهاند اعمال شدهاند. به عنوان مثال، Celik برای تعیین تغییرات بین دو تصویر از پایگاه داده Landsat در سالهای 2007 و 2011، استفاده از تحلیل مؤلفههای اصلی (PCA) و خوشهبندی C-فازی را پیشنهاد کرد [ 11 ].]. خوشهبندی میانگین C-فازی برای بردارهای بهدستآمده از بلوکهای مربعی غیرهمپوشانی تصویر تفاوت پس از PCA انجام شد. بردارها به دو خوشه گروه بندی شدند و بلوک های تصویر را با و بدون تغییر نشان دادند. جونگ و بوسمن روشی بدون نظارت برای تشخیص تغییر در تصاویر ماهواره ای توسعه دادند [ 12 ]. در روش پیشنهادی، تصویر تفاوت دو تصویر زمانی بر اساس نقشههای ویژگی شبکههای عصبی کانولوشن که برای تقسیمبندی معنایی تصاویر ورودی استفاده میشوند، تولید شد. مدل گاوسی-مخلوط چند مقیاسی و چند تفکیک پذیری که توسط افزایش برجسته هدایت می شود در [ 13 ] پیشنهاد شد.]. چارچوب پیشنهادی مبتنی بر مراحل مشخص است و تقسیمبندی تصویر را با ترکیب موجک تصاویر تفاوت پیادهسازی میکند. نویسندگان بیان میکنند که این مدل از پیشرفتهترین مدلهای یادگیری ماشینی بدون نظارت بهتر عمل میکند. با توجه به کمبود مجموعه دادههایی که میتوانند در مشکلات تشخیص تغییر استفاده شوند، رویکرد یادگیری انتقال در [ 14 ] برای توسعه یک مدل شبکه عصبی کانولوشن (CNN) برای وظیفه تقسیمبندی تصویر و بعداً انتقال استخراج ویژگی برای آموزش آن استفاده شد. تشخیص تغییر
رویکرد دیگر مبتنی بر یادگیری نظارت شده است و بر تشخیص اشیاء مانند جاده ها، ساختمان ها و جنگل ها در داده های سنجش از دور تمرکز دارد. روشهای تشخیص تغییر مبتنی بر یادگیری عمیق به عنوان همجوشی دیررس و همجوشی اولیه در [ 15 ] گروهبندی میشوند. در روش های همجوشی دیررس، تصویر تفاوت تولید می شود و تشخیص تغییر تنها پس از اعمال تقسیم بندی تصویر برای هر تصویر به طور جداگانه انجام می شود. در روش های همجوشی اولیه، تصویر تفاوت در ابتدا از تصاویر ورودی تولید می شود. نویسندگان همجوشی اولیه و همجوشی دیررس را ترکیب کرده و یک مدل موثر مبتنی بر CNN برای تشخیص تغییرات محلی در تصاویر هوایی پیشنهاد میکنند [ 15 ]. شبکه سیامی هدایتشده توجه مبتنی بر ویژگی هرمی در [ 16 ] پیشنهاد شد] و نتایج عالی تشخیص تغییر را در محیط های پیچیده شهری نشان داد. یادگیری انتقال نیز به طور گسترده ای در تجزیه و تحلیل تصویر و بنابراین، تجزیه و تحلیل داده های سنجش از دور کاربرد دارد. شبکه از پیش آموزش دیده برای استخراج شاخص های اجتماعی-اقتصادی از تصاویر ماهواره ای و تعیین سطح فقر در اوگاندا استفاده شد [ 4 ]]. این توانایی را برای غلبه بر کمبود داده های آموزشی فراهم می کند، زیرا ویژگی های سطح پایین قبلاً در طول آموزش در ImageNet آموخته شده است. با این حال، نویسندگان بر ویژگی های مختلف تصاویر شی محور در مجموعه داده ImageNet و تصاویر ماهواره ای تأکید می کنند. یادگیری انتقال همچنین می تواند بر روی مجموعه داده های سفارشی اعمال شود. به عنوان مثال، برای تخمین مناطق زاغهنشین، مدل اولیه CNN بر روی تصاویر ماهوارهای با کیفیت بالا از QuickBird آموزش داده شد و سپس به تصاویر Sentinel-2 منتقل شد [ 17 ]]. نتایج تجزیه و تحلیل داده های سنجش از دور را می توان با شاخص های مختلف اجتماعی-اقتصادی ترکیب کرد و در نتیجه هزینه های نظرسنجی ها را کاهش داد. مدل CNN آموزش دیده بر روی تصاویر ماهواره ای با وضوح بالا برای پیش بینی فقر در پنج کشور آفریقایی به کار گرفته شد. از آنجایی که این روش فقط به داده های در دسترس عموم نیاز دارد، هزینه های نظرسنجی را کاهش می دهد و به تخمین دقیق سطح ثروت کمک می کند [ 18 ]. تصاویر ماهوارهای با وضوح بالا برای آموزش یک مدل یادگیری ماشینی مبتنی بر CNN که داراییها را پیشبینی میکند و پس از انتقال یادگیری میتواند برای پیشبینی انواع شاخصهای اجتماعی-اقتصادی استفاده شود، استفاده شد [ 19 ].
به طور خلاصه، بیشتر نشریات به شناسایی اشیاء یک کلاس خاص در بهترین سطح در تصاویر ماهوارهای با وضوح بالا اختصاص دارند. تصاویر با وضوح پایین (مثلاً کوپرنیک) عمدتاً در تحقیقات برای شناسایی نوع کاربری زمین (مثلاً زمین کشاورزی) استفاده می شود. معمولاً چنین اطلاعات بصری با تصاویر رادار ادغام می شود و بر تجزیه و تحلیل بازتاب متمرکز می شود. فقط تعداد محدودی از مطالعات برای یک سری از تصاویر در سطح کشور شناسایی شده است. در بیشتر آنها اطلاعات محدودی در مورد رویکرد روش شناختی و مسائل احتمالی ارائه شده است. بنابراین، نشریه ما بر پر کردن این شکاف تمرکز دارد.
در این نشریه، ما بر ایجاد یک استراتژی تمرکز میکنیم که امکان استخراج شاخصهای تغییر کاربری زمین را از یک سری دادههای جغرافیایی بصری پس از یک فرآیند آموزشی کوتاه فراهم میکند. این استراتژی مبتنی بر کاربرد یادگیری انتقال برای شبکه های عصبی کانولوشن است. شبکه عصبی کانولوشنال از پیش آموزش دیده در دو مرحله دیگر آموزش داده شد. در مرحله اول از مجموعه داده درشت تولید شده به صورت خودکار برای آموزش استفاده شد. در مرحله دوم، تنظیم دقیق روی مجموعه داده تحت نظارت دستی انجام شد. این مقاله تحقیقات ارائه شده در [ 20 ] را گسترش می دهد] با تجزیه و تحلیل عملکرد مدلهایی که با استفاده از ترکیبهای مختلف مراحل آموزشی پیشنهادی ایجاد شدهاند و تشخیص تغییر را در سطح دقیق تحلیل برجسته میکنند. شش مدل یادگیری ماشین برای نشان دادن تأثیر مراحل آموزشی پیشنهادی آموزش داده شد. پس از آن، چندین مثال در مورد چگونگی پردازش بیشتر و تجزیه و تحلیل نتایج بدست آمده در سطوح مختلف ارائه شد. به عنوان مثال، در بهترین سطح، نتایج را می توان به عنوان یک نقشه کلاس از یک مکان خاص مشاهده کرد. در سطح میانی، نتایج دوره های مختلف را می توان با محاسبه اختلاف شاخص ها در سلول شبکه مقایسه کرد. در بالاترین سطح، پویایی شاخص را می توان در سطح شهرداری تحلیل کرد. با توجه به سطح، نتایج تحلیل تغییرات شهری می تواند برای سیاست گذاران و سرمایه گذاران مفید باشد.
3. شرح مشکل
تقسیمبندی معنایی تصاویر هوایی را میتوان برای شناسایی کاربری اراضی در هر منطقه مانند شهر، شهرداری یا کشور بدون نیاز به ربط دادن آن به واحد اداری اعمال کرد. با تجزیه و تحلیل نتایج تقسیمبندی، میتوان شاخصهای اجتماعی-اقتصادی مانند تراکم جمعیت، شبکه راهها و غیره را تخمین زد. با این حال، چنین برنامه ای تخمین شاخص ها را برای یک دوره اکتساب تصویر ارائه می دهد. به منظور استفاده از شاخصها در فرآیند تصمیمگیری، پویایی اجتماعی-اقتصادی باید با تجزیه و تحلیل یک سری زمانی از تصاویر هوایی برآورد شود. این مشکل به دلیل کیفیت بسیار متفاوت تصاویر هوایی به دست آمده در زمان رخ می دهد، زیرا جمع آوری تصاویر هوایی فرآیندی پرهزینه و زمان بر است. تکنیک های پیش پردازش تصویر باید برای جلوگیری از نتایج مغرضانه ای که ممکن است به دلیل وضوح متفاوت ظاهر شوند، اعمال شوند. از تصاویر هوایی سه دوره مختلف برای آموزش مدل استفاده شد تا سوگیری مدل که به دلیل پارامترهای فنی متفاوت تصاویر ظاهر می شود، کاهش یابد. در نتیجه، این مدل را می توان برای قطعه تصاویر هوایی به دست آمده در دوره ای که در مجموعه آموزشی گنجانده نشده است، اعمال کرد. این امکان ایجاد نقاط اضافی را در سری های زمانی نشانگر یا شناسایی تغییرات با مقایسه نتایج تقسیم بندی تصاویر از دوره های مختلف فراهم می کند. این مدل را می توان برای قطعه تصاویر هوایی به دست آمده در دوره ای که در مجموعه آموزشی گنجانده نشده است، اعمال کرد. این امکان ایجاد نقاط اضافی را در سری های زمانی نشانگر یا شناسایی تغییرات با مقایسه نتایج تقسیم بندی تصاویر از دوره های مختلف فراهم می کند. این مدل را می توان برای قطعه تصاویر هوایی به دست آمده در دوره ای که در مجموعه آموزشی گنجانده نشده است، اعمال کرد. این امکان ایجاد نقاط اضافی را در سری های زمانی نشانگر یا شناسایی تغییرات با مقایسه نتایج تقسیم بندی تصاویر از دوره های مختلف فراهم می کند.
4. مواد و روش ها
4.1. انتخاب مجموعه داده
تغییرات کاربری زمین (به عنوان مثال، ساختمان های جدید، جنگل ها، زمین های کشاورزی) را می توان از مجموعه تصاویر هوایی همان مکان شناسایی کرد. مثال چنین ایده ای در شکل 1 نشان داده شده است که ساختمان های جدید در تصویر هوایی دوره گذشته ظاهر می شوند.
پویایی شاخصهای منعکسکننده تغییرات در ساختمانها، جنگلها و سایر کاربریهای زمین ممکن است نرخ توسعه منطقه را تعیین کند. با تحلیل سرعت تغییر شهرداری های مختلف، می توان خوشه هایی از الگوهای توسعه مشابه را شناسایی کرد. دادههای بصری لیتوانی برای تجزیه و تحلیل برای ردیابی تغییرات در سری اطلاعات بصری و تفسیر نتایج تعمیمیافته انتخاب شدند. این تحقیق بر دو هدف اصلی تمرکز دارد:
-
برای ایجاد یک مدل یادگیری ماشینی (ML) که امکان به دست آوردن مقادیر قابل تفسیر در سطح محلی برای تصاویر دوره های مختلف و پردازش نتایج در سطح دقیق را فراهم می کند.
-
برای نشان دادن کاربرد رویکرد یادگیری انتقال در فرآیند آموزش مدل ML.
منابع داده های مختلف برای داده های بصری مورد بررسی قرار گرفت. الزامات داده ها اطمینان از وضوح مناسب تصاویر و ارائه داده های تاریخی بود. به عنوان مثال، ماموریتهای نگهبان کوپرنیک [ 21 ] به دلیل وضوح پایین برای بخشبندی ساختمان و دادههای تاریخی در دسترس، با این معیارها مطابقت ندارند. مسلماً، دقت مدل را می توان با افزایش وضوح تصویر بهبود بخشید. شرمایر و اتن تکنیکی را برای اعمال وضوح فوق العاده برای تصاویر ماهواره ای پیشنهاد کردند و به این نتیجه رسیدند که چنین رویکردی 13 تا 36 درصد بهبود میانگین دقت را به عنوان بهترین نتایج در هنگام تشخیص اشیا به همراه دارد [ 22 ]. وضوح تصویر را نیز می توان با اعمال یک تبدیل موجک گسسته افزایش داد [ 23]. علاوه بر این، دادههای Sentinel-2 برای انجام طبقهبندی پیکسلی مناطق ساخته شده استفاده شد [ 24 ، 25 ]. با این حال، فقدان داده های تاریخی یک مسئله اصلی در رد برخی منابع داده است. یک نقشه ارتوفتو شطرنجی دیجیتال در مقیاس 1:10000 جمهوری لیتوانی (ORT10LT) سه دوره مختلف (2009-2010، 2012-2013، 2015-2017) را پوشش می دهد و دارای کیفیت قابل قبولی از تصاویر است. ORT10LT توسط مرکز ملی سنجش از دور و ژئوانفورماتیک “GIS-Centras” (SE “GIS-Centras”) ارائه شده است. بنابراین، این مجموعه داده برای تجزیه و تحلیل انتخاب شد.
یکی از مسائلی که باید در تحلیل یک سری زمانی داده های سنجش از دور در نظر گرفته شود، ثبات دقت مدل برای تصاویر دوره های مختلف است. به عنوان مثال، اگر دقت مدل برای تصاویر یک دوره 90٪ و دیگری 86٪ باشد، مشخص نیست که آیا خطا به دلیل برچسب زدنی است که با اطلاعات واقعی در تصویر دوره خاص مطابقت ندارد یا به دلیل خطای مدل یادگیری ماشین (ML) بنابراین، مهم است که اطمینان حاصل شود که دقت برای تصاویر دوره های مختلف سازگار است. تصاویر ORT10LT در دوره های مختلف به دلیل طیف تصویر و وضوح کیفیت متفاوتی دارند. وضوح تصاویر ORT10LT در دوره اول 0.5 متر × 0.5 متر و عمق RGB 8 بیت (7 بیت موثر) بود. برای تصاویر دوره دوم و سوم، وضوح به 0 افزایش یافت. 25 متر × 0.25 متر در هر پیکسل. عمق رنگ برای تصاویر در دوره دوم 8 بیت RGB و 16 بیت برای تصاویر دوره سوم بود. تغییرات در پارامترهای طیف و وضوح به دلیل این واقعیت است که به مرور زمان، قابلیت های فنی امکان دستیابی به کیفیت بهتر را فراهم می کند. جهش فناوری را می توان با این واقعیت نشان داد که قبل از سال 2000، داده های بصری برای همان منطقه در مقایسه با RGB فعلی با عمق 16 بیت، فقط در مقیاس خاکستری در دسترس بودند.
4.2. مروری بر روش شناسی
طرحی برای آموزش مدل ML پیشنهادی در شکل 2 ارائه شده است. فرآیند آموزش شامل سه مرحله اصلی است و مبتنی بر مفهوم یادگیری انتقالی است. مدل DeepLabv3 (M) با ستون فقرات ResNet50 با پارامترهای تصادفی مقداردهی اولیه می شود. در مرحله اول، مدل از پیش آموزش داده شده روی داده های ImageNet بارگذاری می شود (M1). مرحله دوم و سوم به تنظیم مدل برای مشکل خاص اختصاص دارد و شامل آموزش مدل در مجموعه داده های درشت (M12) و تنظیم دقیق (M123) است. مجموعه داده درشت به طور خودکار با انتخاب مکانهای مختلف و برچسبگذاری تصاویر بر اساس دادههای نقشه خیابان باز (OSM) تولید شد. با این حال، داده های حقیقت زمینی ممکن است به دلیل تاخیر زمانی بین تغییرات واقعی، که در تصاویر و داده های ورودی به ثبات ها یا پایگاه های داده خارجی قابل مشاهده است، متفاوت باشد. به همین دلیل است که یک مرحله اضافی با آموزش در مجموعه داده های تنظیم دقیق اضافه شده است. مجموعه داده تنظیم دقیق بر اساس همان اصول مجموعه داده درشت ایجاد شد، اما تصاویر به صورت دستی بازبینی شدند و فقط آنهایی که داده های برچسب دار با اطلاعات بصری مطابقت دارند در فرآیند آموزش استفاده شدند. هر دو مجموعه داده درشت و دقیق هر سه دوره تحلیل شده را پوشش می دهند. از آنجایی که تصاویر دوره های مختلف کیفیت متفاوتی دارند، برای مطابقت با پایین ترین کیفیت (قدیمی ترین زمان) نرمال سازی شدند.
طرح کاربرد مدل ML در شکل 3 ارائه شده است . تصاویر تجزیه و تحلیل شده با توجه به پارامترهای مورد استفاده در مرحله آموزش نرمال می شوند. تصاویر از پیش پردازش شده به مدل ML وارد شده و نتایج استنتاج را برمی گرداند. تفسیر نتایج به دست آمده به سطح تحلیل بستگی دارد.
4.3. مجموعه داده ها و پیش پردازش
ORT10LT یک نقشه گرافیکی دیجیتال ارتوفتو M 1:10000 از قلمرو جمهوری لیتوانی است. این بر اساس عکس های هوایی است و در دوره های 3 ساله ایجاد شده است. تصاویر دوره های 2009-2010، 2012-2013، 2015-2017 به عنوان منبع اطلاعات بصری خاص کشور انتخاب شدند. داده های OSM برای برچسب زدن به عنوان منبع حقیقت زمینی استفاده شد. فرآیند برچسب گذاری شامل دو مرحله است. اولین مرحله به جمع آوری داده های برداری از داده های OSM اختصاص دارد. در مرحله دوم، از کتابخانه GDAL برای شطرنجی کردن بردارهای OSM بر روی تصاویر جغرافیایی استفاده می شود. فرآیند برچسب گذاری در شکل 4 تعریف شده است .
دادههای OSM را میتوان برای تعریف برچسبهایی از دستههای سطح خوب بر اساس هدف نوع کاربری زمین، به عنوان مثال تجاری، مسکونی، آموزشی، کشاورزی و صنعتی استفاده کرد. برای این تحقیق، 4 طبقه تعمیم یافته برای نمایش خانه ها، جنگل ها، آب و سایر مقوله ها انتخاب شدند. برچسب های دسته های انتخاب شده به عنوان چند ضلعی (داده های برداری از پایگاه داده) تعریف شدند. نرم افزار برچسب گذاری توسط نویسندگان به زبان برنامه نویسی پایتون نوشته شده است. از مدلهایی از جعبه ابزار GluonCV با چارچوب یادگیری عمیق MXNet و کتابخانه پردازش دادههای جغرافیایی GDAL (برای تبدیل از مختصات به پیکسل و از بردار به مختصات شطرنجی) استفاده میکند. همه داده ها به صورت تصاویر نمایش داده می شوند (یا می توان آنها را به صورت تانسور 3 × 1024 × 1024 مشاهده کرد). برچسب های حقیقت زمین به صورت تصاویر نمایه شده از ارتفاع و عرض مربوطه نشان داده می شوند. پس از انجام استنباط، تصاویر نمایه شده با ابرداده های موقعیت جغرافیایی مرتبط می شوند (در تحقیق از فایل ESRI world استفاده شده است). برای نمای کلی نتایج، تصاویر در یک موزاییک ترکیب شدند.
در نهایت، پس از تجزیه و تحلیل مجموعه داده، دو نوع مشکل در مجموعه داده انتخاب شده شناسایی شد:
-
منطقی – داده های OSM همیشه با اشیاء موجود در تصاویر به دلیل نقشه برداری نابهنگام یا تغییرات در محیط با گذشت زمان مطابقت ندارند. به عنوان مثال، یک ساختمان در تصویر مشخص شده است اما برچسب در دادههای OSM وجود ندارد یا خانههای جدیدی به تازگی ساخته شدهاند و در تصاویر دورههای قدیمیتر شناسایی نمیشوند.
-
کیفیت – نتایج برای تصاویر گرفته شده در دوره ها یا مکان های مختلف ممکن است به دلیل نور و سایه های حاصل متفاوت باشد (اوایل صبح در مقابل بعد از ظهر). زوایای مختلف که در آن تصاویر گرفته شده است. تجهیزات مختلفی برای گرفتن تصاویر استفاده می شود که منجر به پاسخ رنگی و دامنه دینامیکی متفاوت می شود (بعضی از تصاویر تار هستند زیرا عکس ها در اوایل صبح یا شب گرفته شده اند).
به منظور اطمینان از اینکه داده های آموزشی نشان دهنده تنوع کامل کلاس های تجزیه و تحلیل شده است، تصاویر با ترکیب دو رویکرد انتخاب تصویر تهیه شدند. برای بخش اول مجموعه داده، یک ساختمان تصادفی از پایگاه داده OSM انتخاب شد و در مرکز تصویر 1024 × 1024 پیکسل قرار گرفت. این بخش تضمین میکند که بخش قابلتوجهی از ساختمانهای برچسبدار در مجموعه دادهها از مناطق شهری یا روستایی وجود دارد. برای بخش دوم مجموعه داده، تصاویر با همان تکنیک اما با انتخاب نقاط تصادفی کشور به عنوان مرکز تصویر ساخته شدند. اکثر منظره لیتوانیایی به عنوان جنگل یا مزرعه شناخته می شود. بنابراین، این کلاس بیشتر تصاویری تولید می کند که نشان دهنده کلاس گیاهی است. در نهایت، برای مجموعه داده آموزشی درشت، 5000 مکان (4000 با ساختمان و 1000 با پوشش گیاهی،) انتخاب شد.2 )، در نتیجه 15000 تصویر (5000 تصویر برای هر دوره، 3 تصویر از همان مکان). مجموعه اعتبارسنجی درشت بر اساس همان اصول برای 1000 مکان (3000 تصویر) ایجاد شد. ترکیبی از تکنیکهای انتخاب تصویر و تعداد نسبتاً زیادی از تصاویر، تأثیر مشکل منطقی را کاهش میدهد. نمونه هایی از مکان های مختلف در شکل 5 ارائه شده است.
مجموعه داده تنظیم دقیق بر اساس همان اصول ایجاد شده است. با این حال، تصاویر به صورت دستی با حذف تصاویری که دادههای برچسبگذاریشده با دادههای قابل مشاهده واقعی مطابقت نداشتند، بررسی شدند. چنین آمادهسازی یک مجموعه داده فرآیندی زمانبر است و نیاز به دقت دارد. بنابراین، مجموعه داده آماده شده در مقایسه با مجموعه ای که به طور خودکار تهیه می شود، کوچک است. در نهایت، 321 مکان (210 با ساختمان و 111 با پوشش گیاهی، در مجموع 80 کیلومتر مربع ) انتخاب شد. مجموعه اعتبارسنجی تنظیم دقیق از 32 مکان (96 تصویر) تشکیل شده است.
برای حل مشکلات مربوط به کیفیت متفاوت تصاویر از روش نرمال سازی به شرح زیر استفاده شد:
-
وضوح به 0.5 متر بر پیکسل نرمال شد تا با وضوح تصاویر با کمترین کیفیت مطابقت داشته باشد.
-
کنتراست با استفاده از یک فاصله صدک 2-98٪ نرمال شد. تمام پیکسل های بیش از و زیر بازه به مقادیر حداقل یا حداکثر بریده شدند.
-
رویه نرمالسازی بینایی رایانهای استاندارد برای تبدیل تصاویر بهکار گرفته شد به طوری که میانگین توزیع مجموعه دادهها برابر با 0 و مقدار انحراف استاندارد برابر با 1 برای هر کانال باشد. روش نرمال سازی با این فرض انجام شد که توزیع اولیه دارای مقادیر میانگین برابر با 0.485، 0.456، و 0.406 و مقادیر انحراف معیار برابر با 0.229، 0.224 و 0.225 برای کانال های قرمز، سبز و آبی است. مقادیر اعمال شده برای عادی سازی تانسورها بر اساس تجزیه و تحلیل آماری بیش از 1.2 میلیون تصویر از مجموعه داده ImageNet است.
4.4. آموزش مدل بینایی کامپیوتر
برای تشخیص تغییرات در تصاویر ماهواره ای می توان از معماری های شبکه عصبی عمیق مختلف استفاده کرد. شبکهای که ستون فقرات DilatedResNet50، پیچشهای ناخوشایند و ماژول توجه فضایی را ترکیب میکند برای تشخیص تغییرات در تصاویر ماهوارهای با وضوح بالا [ 26 ] پیشنهاد شد. یک معماری شبکه با ستون فقرات مبتنی بر سیامی برای وظایف تشخیص تغییر تصویر سنجش از راه دور پیشنهاد شد [ 27 ]. رویکرد یادگیری انتقال در [ 14 ] برای آموزش مدل U-Net و به دست آوردن ماسک تغییر روی تصویر تفاوت اعمال شد.
پیکربندی شبکه DeepLabv3 با ستون فقرات Resnet-50 برای مدل محاسباتی در این تحقیق انتخاب شد. این معماری امکان انجام آموزش با فریم ورک GluonCV MXNet را بر روی تصاویر 1024 × 1024 پیکسل (3 × 1024 × 1024 تانسور) با استفاده از پردازنده گرافیکی مصرف کننده مانند 2080 Ti با 11 گیگابایت رم با حداقل اندازه دسته ای امکان پذیر می کند. اگرچه مدل هایی وجود دارند که دقت بهتری دارند، اما حافظه GPU مورد نیاز برای آموزش چنین مدل هایی بسیار بالاتر است [ 28 ]]. به عنوان مثال، GluonCV MXNet مدل DeepLabv3+ با ستون فقرات Xception-71 در آزمون PASCAL VOC در مقایسه با DeepLabv3 با ResNet-101 تقریباً دو درصد دقت بهتری دارد. با این حال، نتایج تجربی با نسخههای 0.11.0 GluonCV و MXNet 1.8.0 برای تصاویر با اندازه انتخابشده نشان میدهد که DeepLabv3 بر اساس ستونهای Resnet50، Resnet101، و Resnet152 در مقایسه با تمام مدلهای Deepv3+ به 10.5 گیگابایت، 14 گیگابایت و 17 گیگابایت حافظه نیاز دارد. با همان ستون فقرات که نیاز به 27 گیگابایت حافظه GPU اندازه گیری در اولین دوره زمانی که استفاده از حافظه پس از آموزش چندین دسته تثبیت می شود. بنابراین، مدل انتخاب شده می تواند بر روی مجموعه داده های تولید شده از کل کشور در یک زمان محاسباتی معقول آموزش داده شود و نتایجی با دقت عملا قابل قبول ارائه دهد. این آموزش بر روی سرورهای Cluster 3× با پردازنده 32 هسته ای 2×AMD EPYC 7452 و NVIDIA A100-PCIE-40 گیگابایت با رم 512 گیگابایتی با سایز 4 انجام شد. همانطور که قبلاً ذکر شد، برچسب های تولید شده به طور خودکار همیشه با کلاس واقعی مطابقت ندارند. در تصاویر به دلیل تغییرات در محیط یا مناطق دارای برچسب اشتباه است. علاوه بر این، مناطق شناسایی وجود دارند که یک کلاس واحد را نشان می دهند (به عنوان مثال، فقط جنگل). از دست دادن کانونی بر نمونههای طبقهبندی اشتباه تمرکز میکند و نتایج عملی خوبی را در برخورد با دادههای نامتعادل نشان میدهد. بنابراین، از آن به عنوان یک تابع ضرر به جای از دست دادن آنتروپی Softmax استفاده شد [ مناطق شناسایی وجود دارند که یک کلاس واحد را نشان می دهند (مثلاً فقط جنگل). از دست دادن کانونی بر نمونههای طبقهبندی اشتباه تمرکز میکند و نتایج عملی خوبی را در برخورد با دادههای نامتعادل نشان میدهد. بنابراین، از آن به عنوان یک تابع ضرر به جای از دست دادن آنتروپی Softmax استفاده شد [ مناطق شناسایی وجود دارند که یک کلاس واحد را نشان می دهند (مثلاً فقط جنگل). از دست دادن کانونی بر نمونههای طبقهبندی اشتباه تمرکز میکند و نتایج عملی خوبی را در برخورد با دادههای نامتعادل نشان میدهد. بنابراین، از آن به عنوان یک تابع ضرر به جای از دست دادن آنتروپی Softmax استفاده شد [25 ]. از دست دادن کانونی افL (پتی)با معادله زیر [ 29 ] تعریف می شود:
که در آن α برای شکل متعادل α برای کاهش تاثیر برای خطوط اصلی تشخیص است. γ عامل کانونی است. اگر γ = 0، از دست دادن کانونی مربوط به از دست دادن آنتروپی متقاطع است. اگر مقادیر γ بالاتر اعمال شود، تأثیر نمونههای آسان کاهش مییابد و مقدار کل ضرر کاهش مییابد. این منجر به احتمال بالاتر تصحیح نمونه های طبقه بندی شده اشتباه می شود. تابع طبقه بندی کلاس پتیدارای تعریف زیر است:
جایی که y کلاس حقیقت پایه را مشخص می کند y∈ {±1} و p ∈ [0,1] احتمال مدل برای کلاس است. برای این آزمایش، α = 0.25 و γ = 2.
مشخصات فنی مدل انتخابی به شرح زیر است:
-
لایه ورودی: 1024 × 1024 پیکسل (نتیجه برگرفته از 896 × 896 پیکسل) ~ 448 متر × 448 متر (یا ~ 0.2 کیلومتر مربع ) منطقه؛
-
یادگیری درشت: میزان یادگیری 5 × 10 −4 ; تکانه 0.5; 5000 نمونه در هر دوره;
-
یادگیری دقیق: نرخ یادگیری 5 × 10 −5 . تکانه 0.1; 100 نمونه در هر دوره
مدلی که تحت رویکرد پیشنهادی آموزش داده میشود، بیشتر به عنوان M123 نامیده میشود، به این معنی که شامل هر سه مرحله (وزنهای پیشآموزششده در ImageNet، یادگیری درشت، و یادگیری دقیق) فرآیند یادگیری انتقال است. به منظور نشان دادن اهمیت هر مرحله و مزیت یادگیری انتقال، در مجموع شش مدل DeepLabv3 با ستون فقرات ResNet50 با استفاده از ترکیبی از مراحل ارائه شده در شکل 2 آموزش داده شدند . استراتژی ها در جدول 1 خلاصه شده است.
مقدار میانگین از دست دادن کانونی (1) و mIoU (تقاطع میانگین روی اتحاد) برای مجموعه اعتبارسنجی درشت در طول 50 دوره آموزشی روی مجموعه داده درشت مدل های M2 و M12 به ترتیب در شکل 6 a,b ارائه شده است. شکل 6 نشان میدهد که استفاده از پیشآموزششده روی مدل ImageNet (M12) نتایج قابلتوجهی بهتری (مقدار کاهش کانونی کوچکتر و مقدار mIoU بزرگتر) از ابتدای آموزش به دست میدهد.
در طول فرآیند آموزش، مجموعه اعتبارسنجی برای ارزیابی دقت مدل برای دادههای دیده نشده استفاده میشود. مقادیر تلفات کانونی، mIoU و دقت پیکسل برای مجموعه اعتبارسنجی درشت پس از آموزش مدلهای M2 و M12 در جدول 2 ارائه شده است. استفاده از یک مدل از پیش آموزش دیده روی ImageNet تقریباً 1.7 برابر مقدار mIoU بالاتر و مقدار تلفات کانونی کمتر از 0.05 می شود.
به طور مشابه، تجزیه و تحلیل در طول آموزش بر روی مجموعه داده های تنظیم دقیق برای مدل های M3، M23، M13 و M123 انجام شد. مقدار میانگین افت کانونی (1) و mIoU (تقاطع میانگین اتحادیه) برای مجموعه اعتبارسنجی تنظیم دقیق در طول 100 دوره آموزشی مدلهای M3، M23، M13 و M123 در شکل 7 ارائه شده است.a، b، به ترتیب. بیشترین تلفات و کوچکترین مقادیر mIoU برای مدل M3 به دست آمد. این مدل همچنین بیشترین پیشرفت را در یادگیری (بزرگترین تفاوت بین مقادیر در دوره شروع و پایان) نشان می دهد، زیرا مدل با ضرایب تصادفی اولیه آموزش داده می شود و شروع به استخراج ویژگی ها و الگوهای مفید می کند. برای 5 دوره اول، مدلهای M13 و M23 مقادیر تلفات و mIoU مشابهی را نشان میدهند. در دوره های بعدی، مقادیر به دست آمده برای M23 در 10 دوره اول همگرا می شوند، در حالی که مقادیر به دست آمده برای مدل M13 یادگیری بیشتر را نشان می دهد. این پدیده ناشی از این واقعیت است که مجموعه های تصویری با ماهیت کاملاً متفاوت در مراحل مختلف آموزش M13 استفاده شده است. یعنی مجموعه داده ImageNet برای پیشآموزش استفاده شد و مجموعه داده تنظیم دقیق در مرحله تنظیم استفاده شد. مدل از پیش آموزش دیده می تواند ویژگی های اساسی را استخراج کند، مانند خطوط و الگوها، اما یادگیری برای تنظیم مجموعه داده های دقیق تصاویر هوایی ادامه می یابد. در طول آموزش M23، این مدل قبلاً روی یک مجموعه داده مشابه آموزش داده شده است و پیشرفت قابل توجهی نشان نمی دهد. بهترین تلفات و مقادیر mIoU توسط مدل M123 نشان داده شد. این مدل با توجه به فرآیند آموزشی پیشنهادی ایجاد شد و آموزش روی مجموعه داده های تنظیم دقیق پس از آموزش مدل از پیش آموزش داده شده بر روی مجموعه داده درشت انجام شد. با این حال، فقط یک پیشرفت جزئی برای این مدل وجود داشت. مدلهای پیشآموزششده M23 و M123 از مقادیر تابع از دست دادن نزدیک به مقادیری شروع میشوند که مدلهای M2 و M12 پس از آموزش مدلهای روی مجموعه داده درشت همگرا شدند. این مدل قبلاً روی یک مجموعه داده مشابه آموزش داده شده است و بهبود قابل توجهی را نشان نمی دهد. بهترین تلفات و مقادیر mIoU توسط مدل M123 نشان داده شد. این مدل با توجه به فرآیند آموزشی پیشنهادی ایجاد شد و آموزش روی مجموعه داده های تنظیم دقیق پس از آموزش مدل از پیش آموزش داده شده بر روی مجموعه داده درشت انجام شد. با این حال، فقط یک پیشرفت جزئی برای این مدل وجود داشت. مدلهای پیشآموزششده M23 و M123 از مقادیر تابع از دست دادن نزدیک به مقادیری شروع میشوند که مدلهای M2 و M12 پس از آموزش مدلهای روی مجموعه داده درشت همگرا شدند. این مدل قبلاً روی یک مجموعه داده مشابه آموزش داده شده است و بهبود قابل توجهی را نشان نمی دهد. بهترین تلفات و مقادیر mIoU توسط مدل M123 نشان داده شد. این مدل با توجه به فرآیند آموزشی پیشنهادی ایجاد شد و آموزش روی مجموعه داده های تنظیم دقیق پس از آموزش مدل از پیش آموزش داده شده بر روی مجموعه داده درشت انجام شد. با این حال، فقط یک پیشرفت جزئی برای این مدل وجود داشت. مدلهای پیشآموزششده M23 و M123 از مقادیر تابع از دست دادن نزدیک به مقادیری شروع میشوند که مدلهای M2 و M12 پس از آموزش مدلهای روی مجموعه داده درشت همگرا شدند. و آموزش بر روی مجموعه داده تنظیم دقیق پس از آموزش مدل از پیش آموزش دیده بر روی مجموعه داده درشت انجام شد. با این حال، فقط یک پیشرفت جزئی برای این مدل وجود داشت. مدلهای پیشآموزششده M23 و M123 از مقادیر تابع از دست دادن نزدیک به مقادیری شروع میشوند که مدلهای M2 و M12 پس از آموزش مدلهای روی مجموعه داده درشت همگرا شدند. و آموزش بر روی مجموعه داده تنظیم دقیق پس از آموزش مدل از پیش آموزش دیده بر روی مجموعه داده درشت انجام شد. با این حال، فقط یک پیشرفت جزئی برای این مدل وجود داشت. مدلهای پیشآموزششده M23 و M123 از مقادیر تابع از دست دادن نزدیک به مقادیری شروع میشوند که مدلهای M2 و M12 پس از آموزش مدلهای روی مجموعه داده درشت همگرا شدند.شکل 6 ). برآورد دقت به مجموعه اعتبار سنجی بستگی دارد. لازم به ذکر است که در مجموعه داده اعتبار سنجی تنظیم دقیق برخی از ناسازگاری های برچسب گذاری روشن شده است. بنابراین، ارزش زیان بیشتری را به همراه دارد.
مقادیر تلفات کانونی، mIoU و دقت پیکسل برای مجموعه اعتبارسنجی تنظیم دقیق پس از آموزش مدلهای M3، M13، M23 و M123 در جدول 3 ارائه شده است. نشان داده شده است که استفاده از یک مدل از پیش آموزش دیده روی ImageNet تقریباً 2 برابر مقدار mIoU بالاتری را به همراه دارد (به ترتیب M13 و M123 در مقایسه با مقادیر M3 و M23). علاوه بر این، بالاترین مقادیر MIoU و دقت پیکسل برای مدلی که با استفاده از هر سه مرحله از طرح آموزشی پیشنهادی ایجاد شده بود، به دست آمد.
تصاویر هر سه دوره در مجموعه داده های آموزشی و اعتبار سنجی گنجانده شد. فرآیند آموزش مدل پیشنهادی دارای یک مرحله عادی سازی تصویر بود. این مرحله در پیش پردازش داده ها گنجانده شده است تا دقت مدل را ثابت نگه دارد و اطمینان حاصل شود که استفاده از تصاویر دوره های مختلف در برنامه معتبر است. برای نشان دادن اینکه استفاده از تصاویر نرمال شده از دورههای مختلف باعث دقت بسیار متفاوتی نمیشود، از دست دادن و مقادیر mIoU برای زیرمجموعههای اعتبارسنجی تنظیم دقیق گروهبندیشده بر اساس دوره، به ترتیب در شکل 8 a,b ارائه شدهاند.
مقادیر افت کانونی، mIoU و دقت پیکسل مدل M123 برای زیرمجموعه های اعتبارسنجی تصاویر از دوره های مختلف پس از آموزش در جدول 4 ارائه شده است. مقادیر تلفات کانونی برای همه زیر مجموعه ها و خود مجموعه داده کمتر از 0.01 است. مقادیر دقت mIoU و پیکسل زیرمجموعهها با توجه به مقدار دقت mIoU و پیکسل مجموعه داده کامل کمتر از 2٪ متفاوت است.
ماتریس های سردرگمی نرمال شده نتایج تقسیم بندی مدل M123 برای مجموعه اعتبارسنجی دقیق و زیرمجموعه های دوره های مختلف آن در شکل 9 آورده شده است.. ماتریسهای سردرگمی شامل تمام کلاسهای مورد استفاده در تقسیمبندی هستند، یعنی خانه، جنگل، آب و غیره. ماتریسها نشان میدهند که بیش از 90 درصد پیشبینیها با برچسبهای واقعی جنگل، آب و سایر کلاسها برای مجموعه اعتبارسنجی کامل و زیرمجموعههای آن مطابقت دارند. علاوه بر این، پیشبینیها برای کلاس خانه از 75 درصد برچسبهای کلاس خانه واقعی در مجموعه داده و زیر مجموعههای آن فراتر رفت. لازم به ذکر است که بیشترین پیش بینی نادرست برای کلاس خانه مانند سایر طبقات بوده است. دلیل این پدیده این است که اجزای حقیقت زمینی خانه ها دارای لبه های تیز و هندسه پیچیده هستند و این ویژگی ها در نتایج استنتاج حفظ نمی شود. علاوه بر این، اجزای کوچک هستند و تعداد اجزای خانه در مقایسه با کلاس های دیگر زیاد است.
نمونه هایی از تصاویر و نتایج استنتاج آنها در مقایسه با حقیقت زمینی در شکل 10 ارائه شده است. رنگ سفید نشان دهنده تقاطع صدق و نتایج استنتاج، رنگ سبز نشان دهنده حقیقت پایه است که توسط نتایج استنتاج پوشش داده نمی شود و رنگ قرمز نشان دهنده نتایج استنتاجی است که حقیقت پایه را پوشش نمی دهد. مشکلات اصلی مجموعه داده در مثال های ارائه شده در شکل 10 نشان داده شده است. اولاً، خانه در حال ساخت در حقیقت زمین گنجانده شده است اما توسط مدل شناسایی نشده است ( شکل 10 a,d). ثانیاً، خانه به دلیل سایه زدن تشخیص داده نمی شود ( شکل 10 b,e). در نهایت، ساختمان هایی وجود دارند که توسط مدل شناسایی می شوند اما در حقیقت زمین گنجانده نشده اند.شکل 10 b,c,e,f). مثالها نشان میدهند که نتایج استنتاج با حقیقت پایه مطابقت دارد. محاسبات نشان می دهد که بیش از 80 درصد اجزای خانه در حقیقت زمین بیش از 50 درصد با نتایج استنتاج همپوشانی دارند.
5. نتایج
این مدل برای شناسایی چهار کلاس اصلی (خانهها، جنگل، آب و غیره) توسعه داده شد. نتایج مستقیم بهدستآمده با مدل توسعهیافته، توانایی تحلیل و تفسیر نتایج را در سطوح مختلف امکانپذیر میسازد.
در بهترین سطح، نتایج مدل را می توان به صورت محلی تجزیه و تحلیل کرد و با استفاده از نرم افزار نقشه استاندارد، یعنی QGis و ArcGis، تجسم کرد. شکل 11 و شکل 12 نتایج به دست آمده با مدل را با استفاده از نرم افزار QGIS نشان می دهد. نتایج نشان دهنده ساختمان ها، مناطق آبی و جنگلی شناسایی شده است.
نتایج به دست آمده از دوره های مختلف را می توان برای برجسته کردن تغییرات بین تصاویر دو دوره در یک مکان به کار برد. تصاویر اولیه دوره های 2009-2010 و 2012-2013 و تصاویر اصلاح شده با یک لایه که نشان دهنده تغییر کلاس ساختمان است در شکل 13 ارائه شده است.
در سطح میانی می توان از مدل برای شناسایی تغییرات شهری منطقه با ایجاد نقشه حرارتی استفاده کرد. کشور به یک شبکه تقسیم شد و ارزش یک سلول شبکه با تعداد کل ساختمان های شناسایی شده در هر سلول شبکه تعیین شد. سپس، تفاوت بین سلول های شبکه مربوطه در دوره های مختلف محاسبه و در شکل 14 مشاهده شد.همراه با تصاویر نمونه از سه مکان مختلف L1، L2، و L3 برای هر دو دوره. مکان L1 نشان دهنده منطقه گسترش شهری است زیرا یک بلوک جدید از خانه ها در حومه شهر در حال گسترش است. مکان L2 نمایانگر یک بلوک موجود از باغهای اختصاصی است که به مرور زمان به یک منطقه مسکونی تبدیل میشود زیرا خانههای تابستانی کوچک قدیمی با خانههای مستقل جدید جایگزین میشوند. مکان L3 برای نشان دادن توسعه یک بلوک جدید از ساختمان های آپارتمانی انتخاب شد.
همین رویکرد روش شناختی را می توان برای داده های سنجش از دور با فرکانس بالاتر، به عنوان مثال، تصاویر ماهواره ای اعمال کرد. استفاده از نقاط داده بیشتر، امکان انجام تجزیه و تحلیل پویایی تغییرات شهری را در سطح دقیق تر و پیش بینی الگوهای رشد آینده منطقه تحت نظارت را فراهم می کند.
بدیهی است که داده های عمومی تر می تواند در تحلیل توسعه شهری در سطح شهرداری برای برنامه ریزی زیرساخت ها، شناسایی الگوها و تصمیم گیری های سیاسی مفید باشد.
6. نتیجه گیری
تقسیم بندی معنایی تصاویر ماهواره ای یا هوایی معمولاً برای مناطق کوچک و مشکلات خاص مانند استخراج ساختمان اعمال می شود [ 30 ، 31 ، 32 ، 33 ، 34 ]. تحقیقات در سطح بالاتر (شهر یا کشور) از تصاویر ماهواره ای عمدتاً بر تخمین شاخص های اجتماعی-اقتصادی یا سطح فقر متمرکز است [ 18 ، 35 ، 36 ]]؛ بنابراین، آنها معمولاً به جای خود فرآیند، بر نتیجه نهایی متمرکز بودند. این نشریه با ارائه رویکردی روششناختی در مورد چگونگی آمادهسازی دادههای آموزشی برای یادگیری درشت و دقیق، یعنی چگونگی اطمینان از تنوع کلاسهای مختلف و برخورد با تصاویر با کیفیت متفاوت، شکافهای گمشده را پر میکند. رویکرد روششناختی ارائه شده میتواند در کشورهای مختلف برای تصاویر هوایی یا ماهوارهای به منظور تعیین الگوهای تغییر شهری اعمال شود. در این کار، تکنیک یادگیری انتقال برای ایجاد یک مدل یادگیری ماشین با توجه به طرح آموزشی که در ابتدا در [ 20 ] پیشنهاد شد، استفاده شد.]. مدل DeepLabv3 با ستون فقرات ResNet50 که ابتدا روی داده های ImageNet از قبل آموزش داده شده بود، انتخاب شد. دو مرحله زیر یادگیری در مجموعه دادههای درشت و دقیق برای تنظیم مدل انجام شد. در مرحله یادگیری درشت، مدل بر روی یک مجموعه داده به طور خودکار با دادههای OSM برچسبگذاری شد. این ویژگیهای یادگیری ویژه مجموعه داده هوایی را فعال میکند. مرحله تنظیم دقیق به افزایش دقت مدل اختصاص داده شد، زیرا داده های اصلاح شده دستی در آموزش استفاده شد. در این مقاله به اهمیت هر مرحله در طرح آموزشی توجه می کنیم. برای نشان دادن مزایای استفاده از رویکرد یادگیری انتقال، پنج مدل یادگیری ماشین اضافی تحت استراتژیهای مختلف که شامل ترکیبهای مختلفی از مراحل آموزشی بود، تحت فشار قرار گرفتند. مدلی که با توجه به روش پیشنهادی ایجاد شده است، نتایج دقیق تری را در مقایسه با پنج مدل دیگر که با استفاده از ترکیبات مختلف مراحل یادگیری توسعه داده بودند، نشان دادند. بدیهی است که این مدل بر روی بیشترین تنوع تصاویر (مجموعه داده های ImageNet، درشت و دقیق) آموزش داده شده است و اگر زمان آموزش اولیه در ImageNet در نظر گرفته شود، آموزش آن طولانی ترین زمان را خواهد داشت. همچنین نشان داده شد که تصاویر دورههای مختلف بایاس ندارند، زیرا مقدار تلفات کانونی برای همه زیرمجموعهها کم است و mIoU و مقادیر دقت پیکسل کمتر از 2٪ اختلاف نسبت به مقادیر مربوطه مجموعه داده کامل دارند. و تنظیم دقیق مجموعه داده ها) و اگر زمان آموزش اولیه در ImageNet در نظر گرفته شود، آموزش آن طولانی ترین زمان را خواهد داشت. همچنین نشان داده شد که تصاویر دورههای مختلف بایاس ندارند، زیرا مقدار تلفات کانونی برای همه زیرمجموعهها کم است و mIoU و مقادیر دقت پیکسل کمتر از 2٪ اختلاف نسبت به مقادیر مربوطه مجموعه داده کامل دارند. و تنظیم دقیق مجموعه داده ها) و اگر زمان آموزش اولیه در ImageNet در نظر گرفته شود، آموزش آن طولانی ترین زمان را خواهد داشت. همچنین نشان داده شد که تصاویر دورههای مختلف بایاس ندارند، زیرا مقدار تلفات کانونی برای همه زیرمجموعهها کم است و mIoU و مقادیر دقت پیکسل کمتر از 2٪ اختلاف نسبت به مقادیر مربوطه مجموعه داده کامل دارند.
نشان داده شد که شبکه عصبی با استفاده از OSM به عنوان یک مجموعه داده حقیقت زمینی، قادر به تقسیم بندی معنایی با دقت معقول است. با این حال، ورودی متخصص در مرحله آمادهسازی دادهها برای در نظر گرفتن تفاوتها در نقشهبرداری، مانند استفاده از جدیدترین دادههای حقیقت زمینی با این فرض که تغییرات زیادی در دادهها در طول سالها وجود ندارد، ضروری است. عادی سازی تصاویر با کیفیت متفاوت در طیف و کنتراست، تجزیه و تحلیل و تفسیر نتایج را در سطوح مختلف برای مجموعه ای از تصاویر از دوره های مختلف امکان پذیر می کند. نتایج تعمیم یافته را می توان برای تشخیص الگوهای تغییر شهری با استفاده از نقشه حرارتی تفاوت استفاده کرد، در حالی که برای تجزیه و تحلیل سطح خوب، امکان بررسی تغییرات محلی بر روی نقشه یک مکان خاص وجود دارد.
تحلیل و برآورد الگوهای رشد شهری می تواند برای اهداف مختلف و احزاب مختلف مورد استفاده قرار گیرد. به عنوان مثال، سرمایه گذاران ممکن است از شناسایی رشد خانوارها برای خرید املاک و مستغلات برای اهداف اجاره یا برای فروش مجدد املاک استفاده کنند. شهر معمولاً با توجه به قیمت مسکن رشد می کند. به این معنا که اگر قیمت مسکن در یک منطقه از شهر بالا باشد، مصرف کنندگان تمایل به خرید خانه در قسمت هایی از شهر دارند که قیمت ها پایین تر است. بعداً، رشد قیمت معمولاً به سمت تعادل عرضه و تقاضا تغییر میکند. سایر کاربران ممکن است دولت باشند که باید برنامه های منطقه ای را بر اساس وضعیت فعلی و برآوردهای آینده ارائه دهند. توسعه مسکن و تراکم جمعیت باید در برنامه ریزی اشیاء زیرساختی مانند مدارس، بیمارستان ها و شبکه راه ها در نظر گرفته شود. برنامه ریزی چنین زیرساخت هایی از قبل می تواند منجر به کاهش هزینه های ساخت و ساز، مناطق کارآمدتر و در نتیجه مدیریت پایدار بهتر و بهره وری بالاتر شود. بنابراین، رویکرد روششناختی پیشنهادی میتواند در بازارهای توسعهیافته برای به دست آوردن تحلیل رشد شهری در زمان واقعی دقیقتر و در بازارهای در حال توسعه برای درک بهتر وضعیت بازار فعلی، به ویژه اگر دادههای آماری محدود باشد، اعمال شود.
بدون دیدگاه