1. مقدمه
هوش مصنوعی Geospatial یا GeoAI یک رشته علمی در حال ظهور است که روشهایی را در علم دادههای مکانی و یادگیری عمیق برای استخراج دانش از دادههای بزرگ مکانی ترکیب میکند. این یک حوزه تحقیقاتی فعال است که در بسیاری از زمینهها مانند مدیریت بلایا، برنامهریزی شهری، تدارکات، خردهفروشی، خورشیدی و بسیاری دیگر کاربرد دارد [ 1 ، 2 ]. در عین حال، افزایش سریع دسترسی و کیفیت تصاویر پهپاد، سهولت استفاده، و قیمت مقرون به صرفه پهپادهای مصرفی و حرفه ای، این فناوری ها را به هم نزدیک می کند.
مدلهای تشخیص از مناطق مستطیلی استفاده میکنند که شامل اشیاء مورد علاقه است. مدلهای تقسیمبندی معنایی از ماسکهای تمام اندازه به عنوان برچسب برای اشیاء مورد علاقه استفاده میکنند، یا در برخی موارد، مانند استخراج خط مرکز جاده، از ماسکهای یکنواخت (با اندازه برابر) استفاده میشود. ابزارهای مختلفی برای پشتیبانی از تولید مجموعه داده ها برای تشخیص و تقسیم بندی معنایی در تصاویر زمینی وجود دارد. با این حال، مجموعه دادهها برای آموزش مدلهای GeoAI معمولاً به صورت دستی حاشیهنویسی میشوند که به تلاشهای متخصص انسانی قابل توجهی نیاز دارد [ 3 ]. علاوه بر این، این مجموعه دادهها برای یادگیری عمیق ممکن است از عدم تعادل کلاس رنج ببرند یا حاوی تعداد بالایی از پیکسلهای طبقهبندی نشده باشند، به این معنی که مدلها ممکن است ضعیف عمل کنند و قابلیت استفاده آنها را در برنامههای واقعی از بین ببرند [ 4 ]]. این مقاله یک خط لوله GIS را برای تولید نیمه خودکار مجموعه دادههای جغرافیایی مرجع برای اشیاء نقطه، خط یا چند ضلعی ارائه میکند که میتوانند مستقیماً از نقشههای خیابان باز (OSM) در زمانی که موجود یا بهطور دیگری روی ارتوموزائیک دیجیتالی میشوند به عنوان لایههای پایه مورد استفاده قرار گیرند. خط لوله پیشنهادی مراحل انجام افزایش داده و ادغام داده ها را برای اطلاعات ویژگی های قوی توصیف می کند. یک پارامتر فاصله بافر برای ایجاد ماسکهای مناسب پس از شطرنجی لایههای بردار حقیقت زمین، بهینهسازی شده است، و مجموعه دادههای حاصل از سه باند تراشههای تصویر-ماسک که پیکسل به پیکسل جفت شدهاند، تشکیل شدهاند. خط لوله شامل مرحله ای برای بررسی عدم تعادل داده های جفت تصویر-ماسک و تولید یک توزیع گاوس مانند از پیکسل ها است که حضور کمتر پیکسل های طبقه بندی اشتباه را تضمین می کند.
Robosat، شرح داده شده در [ 5 ]، یک چارچوب کامل برای انجام استخراج لایه GIS از ارتوموزائیک های ماهواره ای با استفاده از مدل های تشخیص و تقسیم بندی مانند Yolo V2، U-Net و PSPNet است. با این حال، در مورد آماده سازی مجموعه داده پهپادها کمی ذکر شده است. مرجع. [ 3 ] معیاری را برای مجموعه دادههای بدستآمده از هواپیماهای بدون سرنشین معرفی میکند که به صورت دستی با استفاده از تلاش جمعی حاشیهنویسی شده است. موضوع دیگر تحقیق، تولید داده های مصنوعی به جای تولید داده های واقعی است. مرجع. [ 6 ] به تولید داده برای آموزش شبکه های عصبی در تشخیص اشیا می پردازد. علاوه بر این، محققان در [ 7 ] یک رابط برای ایجاد برچسب ها به طور خودکار با استفاده از یک مدل تولیدی برای داده های جدولی در پزشکی توسعه دادند.
مجموعه خاصی از ابزارهای منبع باز برای تولید و پیش پردازش داده های مکانی در [ 8 ] ایجاد شد، که در آن اطلاعات مجموعه ای از نقاط مبدا/مقصد برای پیاده سازی الگوریتم یادگیری ماشین است، که با قالب تصویری که در رویکرد ما به آن پرداخته شده است، متفاوت است. علاوه بر هواپیماهای بدون سرنشین، راه های دیگری نیز برای به دست آوردن داده وجود دارد. مرجع. [ 9 ] یک رویکرد زمان واقعی اکتساب داده های جغرافیایی فضایی از جریان های ویدئویی با استفاده از یادگیری عمیق را پیشنهاد می کند. آنها آن را خط لوله ای برای رویکرد کارآمد و کم هزینه برای جمع آوری داده های مکانی و تولید نقشه خودکار در نظر گرفتند.
بسیاری از نویسندگان عملکرد معماریهای مختلف یادگیری عمیق را بر روی تصاویر پهپاد آزمایش کردهاند و نیاز به خط لوله برای تولید نمونههای جدید را تأیید کردهاند. به عنوان مثال، ر. [ 10 ] چهار نوع مدل یادگیری عمیق را مقایسه کرد: GAN ها، شبکه های deconvolutional، FCN ها و CNN های مبتنی بر پچ. یک GAN مبتنی بر مدل U-Net، با بهترین عملکرد امتیاز F1 در تصاویر پهپاد و Google Earth، دومین بهترین امتیاز بود. بسیاری از محققان دیگر از ترکیب داده ها برای بهبود نتایج مدل استفاده کرده اند. مرجع. [ 11] ارتفتوهای با وضوح فوق العاده بالا پهپاد را با مدل سطح دیجیتال (DSM) ترکیب کرد که نشان دهنده ارتفاع اجسام برای ایجاد نقشه های طبقه بندی پوشش زمین است. آزمایشهای آنها نشان میدهد که اطلاعات DSM دقت طبقهبندی را از 63.93٪ با فقط اطلاعات طیفی به 94.48٪ از جمله DSM افزایش داده است. ما همچنین از تصاویر RGB و DSM استفاده میکنیم، اما علاوه بر این، از شاخص مقاوم در برابر اتمسفر گیاهی (VARI) استفاده میکنیم تا سهم آن را در مدلهای تقسیمبندی وسایل نقلیه و جادهها آزمایش کنیم.
عدم تعادل مستقیماً در معماریهای مدل، بهویژه برای مجموعه دادههای جادهای و به ندرت، برای مجموعه دادههای نقطهای برطرف شده است. در رویکرد ما، عدم تعادل در نقطه پیشپردازش مجموعه داده و اشیاء خطی مورد مطالعه قرار میگیرد. مثالهایی از دلیل اول شامل شبکه بردارسازی جاده (RoadVecNet) ارائه شده در [ 12 ] است که شامل دو شبکه U-Net به هم پیوسته برای انجام همزمان تقسیمبندی جاده و بردارسازی جاده است. نویسندگان از یک تابع از دست دادن به نام کاهش کانونی وزن شده توسط متعادل کننده فرکانس میانه (MFB_FL) برای تمرکز بر روی نمونه های سخت استفاده می کنند تا مشکل عدم تعادل داده های آموزشی را برطرف کنند. محققان در [ 13] روشی را برای استخراج جادهها و پلها از تصاویر سنجش از دور با وضوح بالا که در آن تشخیص لبه انجام میشود و لبه باینری حاصل بردار میشود، کار کرد. شبکه آنها آنتروپی متقاطع باینری را برای مقابله با عدم تعادل کلاس جاده یکپارچه می کند. مرجع. [ 4 ] یک تابع وزنی از دست دادن تعادل را روی یک PSPNet برای حل مشکل عدم تعادل طبقه جاده ناشی از پراکندگی جاده ها ارائه کرد. بسیاری از دانشمندان تلاش خود را بر اصلاح مدلها برای بهبود ماسکهای حاصل متمرکز میکنند و نه بر غنیسازی مجموعه دادههای ورودی، مانند مورد ما. به عنوان مثال، [ 14 ] از یک شبکه VGG از پیش آموزش دیده در یک U-Net و ماژول توجه برای حل مشکلات جاده مانند شکل پرپیچ و خم، اتصال، انسداد و سناریوهای مقیاس های مختلف استفاده می کند.
بقیه مقاله به شرح زیر سازماندهی شده است. بخش 2 به مواد و روش های مورد استفاده برای انجام تحقیق می پردازد و جنبه های نظری و عملی خط لوله پیشنهادی را توسعه می دهد. این شامل شرح مراحل برای به دست آوردن مجموعه داده های هواپیماهای بدون سرنشین و جزئیات در مورد نحوه گنجاندن اطلاعات غنی و متمایز است. در بخش 3 ، آزمایش را انجام می دهیم و نتایج را با استفاده از فاصله بافر به عنوان مبادله بین تولید مجموعه داده های عدم تعادل و مجموعه داده های غنی شده با پیکسل های طبقه بندی شده نشان می دهیم. خط لوله پیشنهادی با تولید دو شی هندسی مختلف آزمایش میشود: یک مجموعه داده جاده با استفاده از تصاویر پهپاد و دادههای برداری OSM، و یک مجموعه داده وسیله نقلیه بهدستآمده از نقاط، مشابه آنچه در [ 15 ] توضیح داده شده است.بخش 4 نتایجی را که پس از تجزیه و تحلیل تجربی به دست آوردیم گزارش می کند. مجموعه دادهها و اسکریپتهای توسعهیافته برای هر مرحله از خط لوله عمومی میشوند و از طریق صفحه GitHub این مقاله ( https://github.com/DamianoP/DatasetGenerator (دسترسی در 15 آوریل 2022) آزادانه در دسترس هستند. همانطور که در ضمیمه A نشان داده شده است ، تمام کدهای موجود در مخزن منبع باز هستند، تحت مجوز GNU General Public License نسخه 3.0 مجوز دارند و برای هر کسی به جز کسانی که به مجوز ArcGIS نیاز دارند، آزادانه قابل استفاده است.
2. مواد و روشها
تصاویر هواپیماهای بدون سرنشین به لطف وضوح فضایی بالای خود بینش های جدیدی را در سنجش از دور ایجاد می کنند، اما در عین حال، جمع آوری اطلاعات جدید موجود در سطح سانتی متر نیازمند الگوریتم های بینایی کامپیوتری قوی تری است [ 16 ].
2.1. خط لوله GIS برای تولید مجموعه داده های GeoAI
خط لوله زیر مجموعه دادههایی را برای آموزش مدلهای یادگیری عمیق تولید میکند که با تغییرات هندسی، طیفی و چند مقیاسی اشیاء جغرافیایی قوی هستند. مجموعه دادههای تولید شده شامل جفتهای تصویر-ماسک (IMG، MSK)، همراهشده در سطح پیکسل، به عنوان مثال، تراشه تصویر پهپاد، ماسک باینری است. مجموعه داده ها به طور جداگانه برای هندسه شی نقطه، خط یا چند ضلعی تولید می شوند. شکل 1 مراحل خط لوله پیشنهادی را نشان می دهد. لایههای رستری و دادههای حقیقت زمینی بردار ورودی دو خط فرآیند جداگانه هستند که در آن برخی از مراحل بسته به نیاز مجموعه داده حاصل اختیاری هستند. در ادامه مراحل مختلف خط لوله را شرح می دهیم.
2.2. لایه های شطرنجی: تصاویر هواپیماهای بدون سرنشین
تصاویر هواپیماهای بدون سرنشین در حال تبدیل شدن به همه جا هستند. این از یک ارتوموزائیک، یک مدل سطح دیجیتال (DSM) و یک ابر نقطه سه بعدی تشکیل شده است. محصولات مشتق شده مانند مدل زمین دیجیتال (DTM) را می توان با پس پردازش به دست آورد. ارتوموزائیک ها با دوخت تصاویری که تا حدی با هم همپوشانی دارند، با استفاده از روشی به نام ساختار از حرکت (SfM) ایجاد می شوند [ 17 ]. ارتوموزائیک های پهپاد دارای وضوح فضایی بسیار بالایی هستند که با فاصله نمونه زمینی (GSD) اندازه گیری می شود [ 18 ، 19 ، 20 ]]، که اندازه پیکسل فیزیکی است. یک GSD 10 سانتی متری به این معنی است که هر پیکسل در تصویر دارای وسعت فضایی 10 سانتی متر است. GSD یک ارتوموزائیک به ارتفاع پرواز از سطح زمین (AGL) و سنسور دوربین بستگی دارد. عکسهای هواپیماهای بدون سرنشین با اجرای چندین پرواز مستقل، با استفاده از یک پهپاد تجاری و یک برنامه کنترلی به دست میآیند، به عنوان مثال: Dji Phantom 4ProV2 و برنامه Capture (نرمافزار حرفهای عکاسی و نقشهبرداری هواپیماهای بدون سرنشین/ www.pix4d.com)(دسترسی در 19 مارس 2022)). عکسها معمولاً در ارتفاعات بین 50 تا 250 متر AGL، بسته به GSD مورد نیاز برای کاربرد خاص و مقررات پرواز محلی توسط مقامات (مثلاً مقررات FAA) به دست میآیند. مناطق نقشه برداری با خطوط پرواز با استفاده از همپوشانی جلویی 80-85٪ و یک همپوشانی جانبی 70-75٪ پوشیده شده است. ارتوموزائیک برای پوشش یک هکتار از مساحت منطقه در حدود یک دقیقه پرواز در 100 متر AGL به دست می آید. تصاویر منفرد و یک گزارش GPS از پروازها در یک نرم افزار فتوگرامتری پردازش می شوند تا محصولات فتوگرامتری پیش فرض را بدست آوریم که عبارتند از یک ارتوموزائیک، یک DSM و یک ابر نقطه سه بعدی از یک منطقه نقشه برداری. ما از Open Drone Map ( www.opendronemap.org(دسترسی در 9 مارس 2022))، یک برنامه نرم افزاری منبع باز، برای به دست آوردن محصولات ذکر شده هنگام پردازش تصاویر پهپاد خام [ 2 ]. WGS1984 سیستم مختصات جغرافیایی رایج (GCS) است که برای ارجاع جغرافیایی تصاویر هواپیماهای بدون سرنشین استفاده می شود.
ارتوموزائیک ها در دو ناحیه برش داده می شوند: یکی برای مجموعه داده آزمایشی که با استفاده از پارامتر به دست می آید β، که یک درصد است (معمولاً 10٪ تا 20٪) و دومین مورد برای مجموعه داده های آموزشی و اعتبار سنجی با استفاده از (1- β). شکل 2 به دست آوردن و تولید تصاویر هواپیماهای بدون سرنشین و نحوه کنار گذاشتن ناحیه ارتوموزائیک برای آزمایش و مجموعه داده های آموزشی و اعتبار سنجی را نشان می دهد.
2.2.1. تقویت هندسی
تقویت داده ها عملکرد مدل های یادگیری عمیق [ 21 ] و تعمیم مدل [ 20 ، 22 ، 23 ، 24 را بهبود می بخشد.]، در عین حال تعداد نمونه ها را برای آموزش یک مدل افزایش می دهد. با این حال، مطالعات زیادی در مورد تعریف اینکه کدام یک از روشهای تقویت برای دادههای جغرافیایی بهترین است، وجود ندارد. تقویت هندسی شامل تغییرات در مقیاس، زاویه و شکل تصاویر است. این تغییرات به حوزه کاربرد و به ویژه به الزامات تحمیل شده بر یک مدل بستگی دارد. به عنوان مثال، آینه نود درجه ممکن است برای اشیاء معمولی مانند سگ یا دوچرخه قابل استفاده نباشد، اما آنها برای تصاویر بالای سر قابل استفاده هستند. مهم ترین روش های افزایش هندسی برای اشیاء جغرافیایی عبارتند از [ 21 ]:
-
چرخش: شامل چرخش های کوچک تصاویر در جهت عقربه های ساعت است. مقدار پیشنهادی 10 درجه است [ 22 ].
-
آینهسازی: تبدیلی که در آن قسمتهای بالا و پایین، یا راست و چپ، موقعیتهای تصاویر را با هم عوض میکنند. آنها معمولاً به عنوان آینه عمودی و افقی شناخته می شوند.
-
تغییر اندازه یا بزرگنمایی: بزرگنمایی قسمت های خاصی از یک تصویر، بزرگنمایی یا کوچکنمایی.
-
برش: بریدن یک تصویر در مکان معین.
-
تغییر شکل: تغییر الاستیک نسبت ابعاد تصویر. این یک پدیده رایج است که در مرزهای ارتوموزائیک رخ می دهد [ 17 ].
-
همپوشانی: تکرار قسمتی از تصویر که با درصد (%) اندازه گیری می شود.
2.2.2. تقویت طیفی
افزایش طیفی تغییر در روشنایی، کنتراست و شدت (مقدار گاما) تصاویر است [ 21 ]. به طور معمول، افزایش یا کاهش 10٪ از مقادیر فعلی اعمال می شود. آنها به شرح زیر توصیف می شوند:
-
روشنایی: مقدار نور در یک تصویر. روشنایی کلی تصویر را افزایش میدهد – به عنوان مثال، رنگهای تیره را روشنتر و رنگهای روشن را سفیدتر میکند (نرمافزار نقشهبرداری GIS، اطلاعات مکان و تجزیه و تحلیل فضایی | Esri، www.esri.com (دسترسی در ۲ مه ۲۰۲۲))
-
کنتراست: تفاوت بین تیره ترین و روشن ترین رنگ های یک تصویر. تنظیم کنتراست ممکن است منجر به تصویر واضحتر شود و تشخیص ویژگیهای تصویر آسانتر شود (نرمافزار نقشهبرداری GIS، اطلاعات مکان و تجزیه و تحلیل فضایی | Esri، www.esri.com (در 2 مه 2022 در دسترس قرار گرفت)).
-
شدت یا مقدار گاما: به درجه کنتراست بین مقادیر خاکستری سطح متوسط یک تصویر اشاره دارد. این مقادیر پیکسل های شدید، سیاه یا سفید را تغییر نمی دهد – فقط بر مقادیر میانی تأثیر می گذارد [ 21 ]]. تصحیح گاما روشنایی تصویر را کنترل می کند. مقادیر گاما کمتر از یک کنتراست را در نواحی تیرهتر کاهش میدهد و در نواحی روشنتر آن را افزایش میدهد. بدون اشباع کردن نواحی تاریک یا روشن، تصویر را تغییر میدهد و با انجام این کار، جزئیات ویژگیهای روشنتر، مانند سقفهای ساختمان، نمایان میشود. از طرف دیگر، مقادیر گاما بیشتر از یک کنتراست را در مناطق تاریک تر، مانند سایه های ساختمان ها یا درختان در جاده ها افزایش می دهد. آنها همچنین در هنگام کار با داده های ارتفاعی مانند DSM یا DTM جزئیات را در مناطق ارتفاع پایین تر نشان می دهند. گاما میتواند روشنایی، و همچنین نسبتهای قرمز به سبز به آبی را تغییر دهد (نرمافزار نقشهبرداری GIS، اطلاعات مکانی و تجزیه و تحلیل فضایی | Esri، www.esri.com (در 2 مه 2022)).
2.2.3. همجوشی داده ها
با توجه به محدودیت های محاسباتی، اکثر مدل های یادگیری عمیق برای بینایی کامپیوتری از تصاویر با سه کانال، یعنی تصاویر RGB استفاده می کنند [ 25 ]. ادغام داده ها راهی برای ترکیب اطلاعات متمایز اضافی در کانال های موجود است. ارتفاع شی می تواند یک متغیر متمایز باشد که در آن روابط فضایی پیچیده ممکن است وجود داشته باشد. به عنوان مثال، روابط فضایی بین وسایل نقلیه، جاده ها، درختان و ساختمان ها نمونه های خوبی از چنین موردی هستند. همچنین بسیاری از شاخصهای پوشش گیاهی محبوب در سنجش از دور توسعه یافتهاند و بیشتر در پایش کشاورزی استفاده میشوند. شاخص گیاهی تفاوت عادی شده معروف (NDVI) سلامت پوشش گیاهی را با اندازهگیری تفاوت بین نوارها در یک تصویر مادون قرمز نزدیک (NIR) کمیت میکند [ 26 ]]. ترکیب داده ها را می توان برای ادغام ارتفاع یا شاخص ها در یک مجموعه داده به شرح زیر استفاده کرد:
-
ارتفاع: DSM که شامل ارتفاع اجسام در یک تصویر است، می تواند با اضافه کردن آن به صورت جبری یا لگاریتمی به هر رنگ قرمز با ارتوموزائیک ترکیب شود. آر)، سبز ( جیو آبی ( ب) باند همانطور که در (1) و (2) ذکر شده است. گزینه دیگر جایگزینی هر یک از باندها با DSM است، مانند (3).
در هر صورت، تصویر حاصل یک ترکیب رنگ نادرست سه باندی [ 27 ] با مقادیر بین 0 تا 255 است، بنابراین مقادیر هر باند باید با استفاده از رابطه (4) به آن بازه [ 11 ] تغییر مقیاس داده شود.
جایی که مترمنnپایکسvآلو مترآایکسپایکسvآلبه ترتیب حداقل و حداکثر مقادیر باند هستند. اکنون مجموعه داده های بیشتری شامل ارتفاع به عنوان راهی برای بهبود درک تصویر می شود، به عنوان مثال، عمق NYU V2، SUN RGB-D، و HAGDAVS [ 15 ، 28 ].
VARI همچنین باید با استفاده از (4) به مقادیر بازه ارتوموزائیک [0، 255] تغییر مقیاس داده و NVARI را بدست آورد.
2.3. لایه های برداری: حقیقت زمین
داده های حقیقت زمینی با پرس و جو از لایه های برداری OSM با استفاده از اسکریپت پایتون و کتابخانه منبع باز “overpass” ( https://pypi.org/project/overpass/ (در 2 مارس 2022) به دست می آیند. بسته به قسمتی از جهان، جادهها، پویس، رودخانهها و کمتر ساختمانها را میتوان در عرض چند ثانیه دانلود کرد. پیوست A یک مخزن برای اسکریپتهای پایتون و دادههای مورد استفاده در این مقاله پیوند میدهد. داده های خاص مورد علاقه ای که در OSM یافت نمی شوند، به عنوان مثال، وسایل نقلیه، افراد و حیوانات، باید از همان ابتدا در صفحه دیجیتالی شوند. این کار توسط نقطه ردیابی دستی، خط و چند ضلعی برای نمایش اجسام با استفاده از ارتوموزائیک هواپیمای بدون سرنشین به عنوان لایههای پایه ژئو ارجاع داده میشود. اشیاء نقطه ای آنهایی هستند که می توان آنها را به صورت تصویر نشان داد ایکس،yمختصات در گستره جغرافیایی اجسام خطی آنهایی هستند که طول آنها بسیار بزرگتر از عرض است. آنها با افزودن رئوس دیجیتالی می شوند ایکس،yدر هر تغییر جهت و حداقل دو رأس داشته باشد. اشیاء چند ضلعی مناطق هستند و رئوس در هر تغییر جهت ایجاد می شوند تا زمانی که آخرین راس با راس اولیه منطبق شود.
ماسک های وکتور، ماسک های شطرنجی و ماسک های رنگی
لایه های نقطه حقیقت زمین، خط یا چند ضلعی با استفاده از پارامتر فاصله بافر می شوند و ماسک برداری از اشیاء مورد نظر را بدون نیاز به دیجیتالی سازی دستی به دست می آورند. فاصله بافر معمولاً از نقطه یا خط مرکزی اندازه گیری می شود و برای افزایش اندازه هندسه بردار نقطه و خط، با هدف کاهش عدم تعادل ماسک های برداری آنها استفاده می شود. فاصله بافر یک “معادل” بین به دست آوردن ماسک های نازک نامتعادل بدون طبقه بندی اشتباه و ماسک های گسترده تر با پیکسل های بیشتر از کلاس های مخلوط است. ماسک های شی چند ضلعی کمتر تحت تأثیر عدم تعادل قرار می گیرند، بنابراین، فاصله بافر استفاده شده صفر است (0). بنابراین، مشکل برای یافتن فاصله بهینه برای تولید ماسک نقطه و خط کاهش می یابد. هنگامی که این مقدار محاسبه شد، ماسک های برداری به رستر (نقاب های شطرنجی) تبدیل می شوند تا یک تصویر تولید شود. با همان پسوند و سیستم مختصات پایه ارتوموزائیک. ما به یک ماسک شطرنجی که به این شکل تولید می شود، «نقاب اولیه» می گوییم. ماسک های اولیه می توانند باینری (سیاه و سفید) باشند و تنها یک شی مورد علاقه (کلاس مثبت) و پس زمینه آن (کلاس منفی) را نشان دهند. کلاس مثبت به رنگ سفید کدگذاری شده است (کلاس = 1) و در برابر زمین، کلاس غالب، کدگذاری شده به صورت سیاه (کلاس = 0) رقابت می کند. ماسک شطرنجی رنگی هنگام استخراج ویژگیهای شی، به عنوان مثال، سرعت جاده، نوع وسیله نقلیه، مواد سقف و بسیاری موارد دیگر استفاده میشود. کلاس مثبت به رنگ سفید کدگذاری شده است (کلاس = 1) و در برابر زمین، کلاس غالب، کدگذاری شده به صورت سیاه (کلاس = 0) رقابت می کند. ماسک شطرنجی رنگی هنگام استخراج ویژگیهای شی، به عنوان مثال، سرعت جاده، نوع وسیله نقلیه، مواد سقف و بسیاری موارد دیگر استفاده میشود. کلاس مثبت به رنگ سفید کدگذاری شده است (کلاس = 1) و در برابر زمین، کلاس غالب، کدگذاری شده به صورت سیاه (کلاس = 0) رقابت می کند. ماسک شطرنجی رنگی هنگام استخراج ویژگیهای شی، به عنوان مثال، سرعت جاده، نوع وسیله نقلیه، مواد سقف و بسیاری موارد دیگر استفاده میشود.شکل 3 نمونه ای از یک ماسک با اندازه کامل تولید شده به صورت دستی و یک ماسک با اندازه مساوی را نشان می دهد که با بافر کردن جاده ها در تصاویر هواپیماهای بدون سرنشین به دست آمده است. ماسکهای سایز کامل معمولاً نسبت به ماسکهای هم اندازه نامتعادلتر هستند، اما استخراج خط مرکزی جاده از آنها پیچیدهتر است.
2.4. تصویر Tessellation، بررسی عدم تعادل، جفت شدن، و تقسیم
به دلیل محدودیت های محاسباتی، آموزش مدل های یادگیری عمیق با تصاویر مربعی 256 × 256 پیکسل معمول است. از این نظر، ماسک های ارتوموزائیک و شطرنجی (باینری یا رنگی) بسیار بزرگ هستند. بنابراین، آنها باید در اندازه دلخواه تسلی شوند ن، تولید ( ن×نپیکسل) تراشه های تصویر، به عنوان مثال، 256 × 256 پیکسل. از آنجایی که بسیاری از اشیاء جغرافیایی نسبت به زمین کمیاب هستند، یک ماسک نامتعادل تولید می کنند. عدم تعادل کلاس یک مشکل رایج است که بر عملکرد مدل های یادگیری عمیق تأثیر می گذارد و مرز تصمیم را به سمت طبقه غالب می برد [ 30 ]. عدم تعادل کلاس مثبت را می توان برای یک مجموعه داده خاص با محاسبه کرد nتصاویر، مانند (6).
مقادیر حدود 0.5 در (6) مربوط به یک ماسک متعادل پیکسل کامل است و مقادیر زیر 0.01 یک ماسک بسیار نامتعادل هستند. به جای محاسبه عدم تعادل در کل ماسک شطرنجی، ممکن است یک بررسی عدم تعادل روی هر ماسک با استفاده از یک آستانه اعمال شود. تی. یک مقدار مناسب از تیپارامتر باید بسته به مجموعه داده خاص و هندسه اشیا انتخاب شود. مقدار بسیار کمی از تی(<0.01) معادل بدون تغییر نگه داشتن مجموعه داده اصلی است. به روشی مشابه، ارزش بالایی از تی (>>0.1) ممکن است مدل را برای آزمایش در موارد سخت محدود کند. پس از آن، هر جفت تصویر – ماسک مربوط به یک ماسک تعادل به عنوان یک تصویر کامل از ( 2ن×نپیکسل)، به عنوان مثال 512 × 256 پیکسل. در نهایت، تقسیم تصادفی به مجموعه دادههای آموزشی و اعتبارسنجی با استفاده از نسبت انجام میشود: (1-α) برای آموزش، و α برای اعتبارسنجی.
3. نتایج
برای آزمایش خط لوله، دو مجموعه داده تولید شد. اولین مورد یک مجموعه داده وسیله نقلیه است که با هندسه نقطه ای نشان داده می شود. وسایل نقلیه به صورت دستی به عنوان نقاط در نرم افزار ArcGIS بر روی تصاویر پهپاد ردیابی می شوند. مورد دوم یک مجموعه داده جاده است که با هندسه خط نشان داده می شود. وکتور roads GT از OSM پرس و جو شد و با استفاده از یک اسکریپت Python به فرمت shapefile تبدیل شد ( پیوست A ). تصاویر پهپاد مورد استفاده برای پنج شهرک کوچک در کلمبیا، آمریکای جنوبی به دست آمده است. شکل 4 نمونه ای از تصاویر بدست آمده از پهپاد را نشان می دهد. جدول 1 ابرداده تصاویر هواپیمای بدون سرنشین را نشان می دهد که در آن Lonmin، Lonmax و Latmin، Latmax به ترتیب حداقل و حداکثر طول و عرض جغرافیایی در درجه اعشار وسعت ارتوموسائیک هستند.
3.1. روش تولید ماسک های اولیه
یک ماسک برای یک شی خاص باید تا حد امکان حاوی پیکسلهایی باشد که به شی مورد نظر تعلق دارند و در عین حال، کمترین تعداد پیکسلهای طبقهبندی اشتباه ممکن را داشته باشد. با توجه به آن، یکی از راههای محاسبه فاصله بافر بهینه یک ماسک، ترسیم انحراف استاندارد مقادیر پیکسل هر باند ارتوموسائیک در مقابل فاصله بافر ماسک برای یک مجموعه داده مورد نظر است. ما یک وسیله نقلیه و یک مجموعه داده جاده با ماسکهایی با اندازههای متفاوت ایجاد کردیم، که از 50 سانتیمتر شروع میشود و 50 سانتیمتر افزایش مییابد تا زمانی که ماسکهای عرض 3 متر ایجاد میشوند، و انحراف استاندارد مقادیر پیکسل محاسبه میشود. شکل 5 نمودار حاصل از انحراف استاندارد پیکسل در برابر فاصله بافر را برای مجموعه داده جاده نشان می دهد.
در نمودار شکل 5 ، برای فاصله بافر 100 سانتی متر (خط عمودی نارنجی)، عملاً هیچ تغییری در انحراف استاندارد توزیع مقدار RGB وجود ندارد، که به نظر می رسد نشان می دهد که 1 متر فاصله با بهترین گاوسی است. مانند توزیع مقادیر RGB، و بنابراین این فاصله بافر ماسک اولیه برای این مجموعه داده است. توزیع باند آبی نشان می دهد که به نظر نمی رسد جایگزینی کانال آبی با DSM به خوبی افزودن DSM به هر باند باشد. شکل 6 نشان می دهد که چگونه فاصله بافر بر توزیع مقادیر پیکسل RGB جاده ها تأثیر می گذارد.
ما همچنین با استفاده از فواصل 50 سانتیمتری تا 150 سانتیمتری، ماسکهایی با اندازههای مختلف برای وسایل نقلیه ایجاد کردیم و توزیع پیکسلها را در مقابل فاصله بافر و توزیع پیکسل ماسکهای اندازه کامل مقایسه کردیم. شکل 7 توزیع پیکسلی همه ماسکها را برای همه ارتوموزائیکها و نمودار برای به دست آوردن ماسک اولیه برای مجموعه داده خودرو نشان میدهد.
همانطور که در شکل 7 مشاهده می شود ، در مقایسه با ماسک های جاده، ماسک های وسایل نقلیه یک منحنی کاملاً گاوسی شکل را نشان نمی دهند، احتمالاً به این دلیل که وسایل نقلیه یکنواخت رنگ ندارند. اگرچه ماسک های اندازه کامل از پیکسل های بیشتری تشکیل شده اند، توزیع RBG بسیار شبیه به توزیع ماسک های دیگر فاصله است. علاوه بر این، ماسکهای سایز کامل دارای انحراف استاندارد کمی بالاتر (خط عمودی قهوهای) نسبت به ماسک بافر 1 متری (خط عمودی نارنجی) هستند. نمودار انحراف معیار در مقابل فاصله نشان می دهد که فاصله بافر 100 سانتی متری مناسب ترین فاصله بافر برای تولید ماسک های ابتدایی در جاده ها به نظر می رسد.
3.2. تولید مجموعه داده
تمام روشهای افزایش هندسی و طیفی پیشنهادی برای هر دو مجموعه داده نمونه اعمال میشوند. همپوشانی 20 درصد پیشنهاد می شود. از افزایش چرخش زاویه 10 درجه در جهت عقربه های ساعت و همچنین آینه کاری (90 و 180 درجه) استفاده می شود. ضمیمه A حاوی پیوندی به پیاده سازی افزایش داده ما در نوت بوک های Jupyter است. شکل 8 نمونه هایی از جفت های (img، msk) را نشان می دهد که با ترکیب داده ها به دست آمده اند. شکل 8 نمونه ای از تصاویر ترکیبی رنگ کاذب RGDSM و RVARIB را نشان می دهد که با ترکیب داده ها به دست آمده اند.
می توان از اندازه های مختلف برای تسلسل استفاده کرد، به عنوان مثال، 256 × 256، 512 × 512، و 1024 × 1024 پیکسل. سپس تصاویر و ماسکهای مربوطه بهترتیب با اندازههای 512 × 256، 1024 × 512 و 2048 × 1024 پیکسل در تصاویر منفرد (img، msk) جفت میشوند. هر جفت (img، msk) برای عبور از آستانه عدم تعادل انتخاب شده توسط کاربر، به عنوان مثال، 1٪، 5٪ یا 10٪ بررسی می شود. پیکسل های وسایل نقلیه و جاده ها نسبت به پس زمینه نامتعادل هستند. شکل 9 نمونه ای از مجموعه داده های وسیله نقلیه و جاده تولید شده با خط لوله را نشان می دهد. پیوست A حاوی لینک دانلود این مجموعه داده ها است.
3.3. ارزیابی مجموعه داده ها
ما یک مدل تقسیمبندی استاندارد U-Net [ 31 ] را با ماسکهایی از فواصل بافر مختلف برای مثال مجموعه دادههای وسیله نقلیه و جاده آموزش دادیم و نتایج را با استفاده از متریک mIoU برای محاسبه یادگیری مدل جنبه هندسی اشیاء جغرافیایی مقایسه کردیم [ 17 ]. شکل 10نتایج mIoU به دست آمده با U-Net را نشان می دهد. برای هر دو مجموعه داده، فاصله بافر 1 متر بعد از بزرگترین فاصله بافر استفاده شده، دومین نتایج بهترین mIoU را ایجاد می کند. با این حال، ساختار جاده و موقعیت وسیله نقلیه راحتتر از یک ماسک نازکتر استخراج میشود، و علاوه بر این، ماسکهای نازکتر دارای تعداد پیکسلهای اشتباه طبقهبندیشده کمتری از کلاسهای دیگر مانند ساختمانها و درختان هستند، که در صورت استفاده از ماسکهای چند کلاسه برای تقسیمبندی نیز میتواند مشکل ایجاد کند. .
برای مجموعه داده خودرو، نمودار mIoU در مقابل اندازه بافر و نتایج تقسیم بندی کیفی نشان می دهد که مجموعه داده های نیمه خودکار با فواصل بافر 100، 150، 200 و 300 سانتی متر از مقدار mIoU ماسک های تمام اندازه (mIoU) فراتر می رود. = 0.455). با این حال، ماسکهای اولیه (100 سانتیمتر) در مقایسه با ماسکهای 250 سانتیمتری، مقدار mIoU پایینتری دارند.
برای مجموعه داده جاده، نمودار mIoU در مقابل اندازه بافر و نتایج تقسیمبندی نشان میدهد که ماسکهای اولیه (100 سانتیمتر) اندکی از مقدار mIoU ماسکهای اندازه کامل (mIoU = 0.595) فراتر میروند. باز هم، ماسکهای ابتدایی در مقایسه با ماسکهای 500 سانتیمتری، مقدار mIoU پایینتری دارند. در هر دو مورد، مجموعه دادههای بسیار نامتعادل (آستانه < 1٪) بهدستآمده با فاصله بافر 50 سانتیمتر هیچ نتیجه تقسیمبندی ایجاد نکردند یا به سختی ایجاد کردند. همه مجموعههای داده، مستقل از فاصله بافر مورد استفاده، ناپیوستگی (پیکسلهای منفی کاذب) و بینظمی (پیکسلهای مثبت کاذب) را در ماسکهای حاصل از خود نشان دادند.
استفاده از آینهسازی 90 درجه افزایش داده و ترکیب دادهها برای مجموعه دادههای جاده، عملکرد مدل را افزایش داد. شکل 11 و جدول 2 این نتایج را با استفاده از فاصله بافر 100 سانتی متر نشان می دهند. به نظر می رسد گنجاندن ارتفاع اجسام هم نسبت به استفاده از شاخص VARI و هم از ترکیب شاخص VARI و ارتفاع در مجموعه داده جاده موثرتر است.
4. نتیجه گیری
این خط لوله اجازه می دهد تا مجموعه داده ها را به صورت نیمه خودکار ایجاد کند و با انجام ترکیب داده های ارتفاع، شاخص، هندسی و افزایش طیفی، ویژگی های بسیار متمایز اشیاء مورد علاقه را در بر می گیرد.
عدم تعادل مجموعه داده ارتباط نزدیکی با عملکرد مدل دارد. به عنوان مثال، استفاده از فاصله بافر 50 سانتی متری باعث ایجاد مقادیر عدم تعادل در حدود 1٪ برای وسایل نقلیه و 2٪ برای جاده ها می شود. این ماسک ها نتایج تقسیم بندی را برای مجموعه داده های وسیله نقلیه یا جاده با استفاده از U-Net ایجاد نکردند.
نتایج نشان میدهد که ماسکهای اولیه را میتوان بهعنوان جایگزینی برای ماسکهای اندازه کامل برای مجموعه دادههای نقطهای و خطی استفادهشده، بدون به خطر انداختن عملکرد، استفاده کرد. انتخاب فاصله بافر بزرگتر، متریک را بهبود بخشید، اما ماسکهای آموزشی را با افزودن پیکسلهای کلاسهای شی دیگر آلوده کرد، اما در همان زمان، عدم تعادل مجموعه دادههای خودرو و جاده را کاهش داد. به نظر میرسد مقادیر بالاتر mIoU بهدستآمده برای فاصله بافر بزرگتر نشان میدهد که پیکسلهای طبقهبندی نشده اهمیت کمتری نسبت به کلاسهای عدم تعادل برای مدل U-Net دارند. ترکیبهای مختلفی از تقویت دادهها و تصاویر ترکیبی نادرست را میتوان در خط لوله انجام داد، با نتایج نشان میدهد که شامل ارتفاع اشیاء عملکرد مدل را بهبود میبخشد. با این حال، تحقیقات بیشتری در مورد استفاده از VARI برای کمک به تمایز اشیاء مورد نیاز است. خط لوله پیشنهادی از تولید نیمه خودکار مجموعه داده های مختلف برای بررسی آن روابط پشتیبانی می کند. تولید مجموعه دادههای ماسک چند رنگ در این مطالعه آزمایش نشد. استفاده از خط لوله با تصاویر ماهواره ای به عنوان یک رویکرد تحقیقاتی آینده پیشنهاد شده است.
محدودیت خط لوله پیشنهادی این است که کاربر باید پارامترهای مختلفی مانند فاصله بافر، آستانه عدم تعادل و درصد تقسیم مجموعه دادههای تولیدی را انتخاب کند. با این حال، مقادیر پیش فرض پیشنهاد شده است.
بدون دیدگاه