خط لوله GIS برای تولید مجموعه داده های GeoAI از تصاویر هوایی پهپاد

تصاویر هواپیماهای بدون سرنشین در حال تبدیل شدن به منبع اصلی اطلاعات سربار برای پشتیبانی از تصمیمات در زمینه های مختلف، به ویژه با یکپارچه سازی یادگیری عمیق است. مجموعه داده‌ها برای آموزش مدل‌های تشخیص شی و تقسیم‌بندی معنایی برای حل تحلیل داده‌های مکانی، مجموعه داده‌های GeoAI نامیده می‌شوند. آنها از تصاویر و برچسب‌های مربوطه تشکیل شده‌اند که با ماسک‌هایی با اندازه کامل نشان داده می‌شوند که معمولاً با دیجیتالی کردن دستی به دست می‌آیند. نرم افزار GIS از مجموعه ای از ابزارها ساخته شده است که می توان از آنها برای خودکارسازی وظایف با استفاده از لایه های شطرنجی و برداری با مرجع جغرافیایی استفاده کرد. این کار یک گردش کار را با استفاده از ابزارهای GIS برای تولید مجموعه داده های GeoAI توصیف می کند. به طور خاص، مراحل به دست آوردن داده های حقیقت زمینی از OSM و استفاده از روش هایی برای تقویت هندسی و طیفی و ترکیب داده های تصاویر پهپاد را ذکر می کند. یک روش به صورت نیمه خودکار ماسک هایی را برای اشیاء نقطه ای و خطی تولید می کند و فاصله بافر بهینه را محاسبه می کند. Tessellation به تراشه ها، جفت شدن و بررسی عدم تعادل روی جفت تصویر-ماسک انجام می شود. تقسیم مجموعه داده‌ها به داده‌های آزمون اعتبارسنجی قطار به صورت تصادفی انجام می‌شود. همه کدهای روش‌های مختلف در مقاله ارائه شده‌اند، همچنین مجموعه داده‌های نقطه‌ای و جاده‌ای که به عنوان نمونه‌هایی از هندسه نقطه و خط تولید شده‌اند، و تصاویر اورتوموزائیک هواپیماهای بدون سرنشین اصلی تولید شده در طول تحقیق ارائه شده‌اند. نتایج تقسیم‌بندی معنایی بر روی مجموعه داده‌های نقطه‌ای و خطی با استفاده از U-Net کلاسیک نشان می‌دهد که ماسک‌های نیمه خودکار تولید شده، به نام ماسک‌های اولیه، نسبت به سایر ماسک‌های هم اندازه، mIoU بالاتر و تقریباً همان متریک mIoU را در مقایسه با کامل به دست آوردند. اندازه ماسک های دستی محاسبه فاصله بافر بهینه Tessellation به تراشه ها، جفت شدن و بررسی عدم تعادل روی جفت تصویر-ماسک انجام می شود. تقسیم مجموعه داده‌ها به داده‌های آزمون اعتبارسنجی قطار به صورت تصادفی انجام می‌شود. همه کدهای روش‌های مختلف در مقاله ارائه شده‌اند، همچنین مجموعه داده‌های نقطه‌ای و جاده‌ای که به عنوان نمونه‌هایی از هندسه نقطه و خط تولید شده‌اند، و تصاویر اورتوموزائیک هواپیماهای بدون سرنشین اصلی تولید شده در طول تحقیق ارائه شده‌اند. نتایج تقسیم‌بندی معنایی بر روی مجموعه داده‌های نقطه‌ای و خطی با استفاده از U-Net کلاسیک نشان می‌دهد که ماسک‌های نیمه خودکار تولید شده، به نام ماسک‌های اولیه، نسبت به سایر ماسک‌های هم اندازه، mIoU بالاتر و تقریباً همان متریک mIoU را در مقایسه با کامل به دست آوردند. اندازه ماسک های دستی محاسبه فاصله بافر بهینه Tessellation به تراشه ها، جفت شدن و بررسی عدم تعادل روی جفت تصویر-ماسک انجام می شود. تقسیم مجموعه داده‌ها به داده‌های آزمون اعتبارسنجی قطار به صورت تصادفی انجام می‌شود. همه کدهای روش‌های مختلف در مقاله ارائه شده‌اند، همچنین مجموعه داده‌های نقطه‌ای و جاده‌ای که به عنوان نمونه‌هایی از هندسه نقطه و خط تولید شده‌اند، و تصاویر اورتوموزائیک هواپیماهای بدون سرنشین اصلی تولید شده در طول تحقیق ارائه شده‌اند. نتایج تقسیم‌بندی معنایی بر روی مجموعه داده‌های نقطه‌ای و خطی با استفاده از U-Net کلاسیک نشان می‌دهد که ماسک‌های نیمه خودکار تولید شده، به نام ماسک‌های اولیه، نسبت به سایر ماسک‌های هم اندازه، mIoU بالاتر و تقریباً همان متریک mIoU را در مقایسه با کامل به دست آوردند. اندازه ماسک های دستی تقسیم مجموعه داده‌ها به داده‌های آزمون اعتبارسنجی قطار به صورت تصادفی انجام می‌شود. همه کدهای روش‌های مختلف در مقاله ارائه شده‌اند، همچنین مجموعه داده‌های نقطه‌ای و جاده‌ای که به عنوان نمونه‌هایی از هندسه نقطه و خط تولید شده‌اند، و تصاویر اورتوموزائیک هواپیماهای بدون سرنشین اصلی تولید شده در طول تحقیق ارائه شده‌اند. نتایج تقسیم‌بندی معنایی بر روی مجموعه داده‌های نقطه‌ای و خطی با استفاده از U-Net کلاسیک نشان می‌دهد که ماسک‌های نیمه خودکار تولید شده، به نام ماسک‌های اولیه، نسبت به سایر ماسک‌های هم اندازه، mIoU بالاتر و تقریباً همان متریک mIoU را در مقایسه با کامل به دست آوردند. اندازه ماسک های دستی تقسیم مجموعه داده‌ها به داده‌های آزمون اعتبارسنجی قطار به صورت تصادفی انجام می‌شود. همه کدهای روش‌های مختلف در مقاله ارائه شده‌اند، همچنین مجموعه داده‌های نقطه‌ای و جاده‌ای که به عنوان نمونه‌هایی از هندسه نقطه و خط تولید شده‌اند، و تصاویر اورتوموزائیک هواپیماهای بدون سرنشین اصلی تولید شده در طول تحقیق ارائه شده‌اند. نتایج تقسیم‌بندی معنایی بر روی مجموعه داده‌های نقطه‌ای و خطی با استفاده از U-Net کلاسیک نشان می‌دهد که ماسک‌های نیمه خودکار تولید شده، به نام ماسک‌های اولیه، نسبت به سایر ماسک‌های هم اندازه، mIoU بالاتر و تقریباً همان متریک mIoU را در مقایسه با کامل به دست آوردند. اندازه ماسک های دستی و تصاویر اورتوموزائیک هواپیمای بدون سرنشین اصلی تولید شده در طول تحقیق. نتایج تقسیم‌بندی معنایی بر روی مجموعه داده‌های نقطه‌ای و خطی با استفاده از U-Net کلاسیک نشان می‌دهد که ماسک‌های نیمه خودکار تولید شده، به نام ماسک‌های اولیه، نسبت به سایر ماسک‌های هم اندازه، mIoU بالاتر و تقریباً همان متریک mIoU را در مقایسه با کامل به دست آوردند. اندازه ماسک های دستی و تصاویر اورتوموزائیک هواپیمای بدون سرنشین اصلی تولید شده در طول تحقیق. نتایج تقسیم‌بندی معنایی بر روی مجموعه داده‌های نقطه‌ای و خطی با استفاده از U-Net کلاسیک نشان می‌دهد که ماسک‌های نیمه خودکار تولید شده، به نام ماسک‌های اولیه، نسبت به سایر ماسک‌های هم اندازه، mIoU بالاتر و تقریباً همان متریک mIoU را در مقایسه با  اندازه ماسک های دستی کامل به دست آوردند.

کلید واژه ها:

GeoAI ; GIS ; مجموعه داده ; پهپاد ; ارتوموزائیک ; U-Net

1. مقدمه

هوش مصنوعی Geospatial یا GeoAI یک رشته علمی در حال ظهور است که روش‌هایی را در علم داده‌های مکانی و یادگیری عمیق برای استخراج دانش از داده‌های بزرگ مکانی ترکیب می‌کند. این یک حوزه تحقیقاتی فعال است که در بسیاری از زمینه‌ها مانند مدیریت بلایا، برنامه‌ریزی شهری، تدارکات، خرده‌فروشی، خورشیدی و بسیاری دیگر کاربرد دارد [ 1 ، 2 ]. در عین حال، افزایش سریع دسترسی و کیفیت تصاویر پهپاد، سهولت استفاده، و قیمت مقرون به صرفه پهپادهای مصرفی و حرفه ای، این فناوری ها را به هم نزدیک می کند.
مدل‌های تشخیص از مناطق مستطیلی استفاده می‌کنند که شامل اشیاء مورد علاقه است. مدل‌های تقسیم‌بندی معنایی از ماسک‌های تمام اندازه به عنوان برچسب برای اشیاء مورد علاقه استفاده می‌کنند، یا در برخی موارد، مانند استخراج خط مرکز جاده، از ماسک‌های یکنواخت (با اندازه برابر) استفاده می‌شود. ابزارهای مختلفی برای پشتیبانی از تولید مجموعه داده ها برای تشخیص و تقسیم بندی معنایی در تصاویر زمینی وجود دارد. با این حال، مجموعه داده‌ها برای آموزش مدل‌های GeoAI معمولاً به صورت دستی حاشیه‌نویسی می‌شوند که به تلاش‌های متخصص انسانی قابل توجهی نیاز دارد [ 3 ]. علاوه بر این، این مجموعه داده‌ها برای یادگیری عمیق ممکن است از عدم تعادل کلاس رنج ببرند یا حاوی تعداد بالایی از پیکسل‌های طبقه‌بندی نشده باشند، به این معنی که مدل‌ها ممکن است ضعیف عمل کنند و قابلیت استفاده آن‌ها را در برنامه‌های واقعی از بین ببرند [ 4 ]]. این مقاله یک خط لوله GIS را برای تولید نیمه خودکار مجموعه داده‌های جغرافیایی مرجع برای اشیاء نقطه، خط یا چند ضلعی ارائه می‌کند که می‌توانند مستقیماً از نقشه‌های خیابان باز (OSM) در زمانی که موجود یا به‌طور دیگری روی ارتوموزائیک دیجیتالی می‌شوند به عنوان لایه‌های پایه مورد استفاده قرار گیرند. خط لوله پیشنهادی مراحل انجام افزایش داده و ادغام داده ها را برای اطلاعات ویژگی های قوی توصیف می کند. یک پارامتر فاصله بافر برای ایجاد ماسک‌های مناسب پس از شطرنجی لایه‌های بردار حقیقت زمین، بهینه‌سازی شده است، و مجموعه داده‌های حاصل از سه باند تراشه‌های تصویر-ماسک که پیکسل به پیکسل جفت شده‌اند، تشکیل شده‌اند. خط لوله شامل مرحله ای برای بررسی عدم تعادل داده های جفت تصویر-ماسک و تولید یک توزیع گاوس مانند از پیکسل ها است که حضور کمتر پیکسل های طبقه بندی اشتباه را تضمین می کند.
Robosat، شرح داده شده در [ 5 ]، یک چارچوب کامل برای انجام استخراج لایه GIS از ارتوموزائیک های ماهواره ای با استفاده از مدل های تشخیص و تقسیم بندی مانند Yolo V2، U-Net و PSPNet است. با این حال، در مورد آماده سازی مجموعه داده پهپادها کمی ذکر شده است. مرجع. [ 3 ] معیاری را برای مجموعه داده‌های بدست‌آمده از هواپیماهای بدون سرنشین معرفی می‌کند که به صورت دستی با استفاده از تلاش جمعی حاشیه‌نویسی شده است. موضوع دیگر تحقیق، تولید داده های مصنوعی به جای تولید داده های واقعی است. مرجع. [ 6 ] به تولید داده برای آموزش شبکه های عصبی در تشخیص اشیا می پردازد. علاوه بر این، محققان در [ 7 ] یک رابط برای ایجاد برچسب ها به طور خودکار با استفاده از یک مدل تولیدی برای داده های جدولی در پزشکی توسعه دادند.
مجموعه خاصی از ابزارهای منبع باز برای تولید و پیش پردازش داده های مکانی در [ 8 ] ایجاد شد، که در آن اطلاعات مجموعه ای از نقاط مبدا/مقصد برای پیاده سازی الگوریتم یادگیری ماشین است، که با قالب تصویری که در رویکرد ما به آن پرداخته شده است، متفاوت است. علاوه بر هواپیماهای بدون سرنشین، راه های دیگری نیز برای به دست آوردن داده وجود دارد. مرجع. [ 9 ] یک رویکرد زمان واقعی اکتساب داده های جغرافیایی فضایی از جریان های ویدئویی با استفاده از یادگیری عمیق را پیشنهاد می کند. آنها آن را خط لوله ای برای رویکرد کارآمد و کم هزینه برای جمع آوری داده های مکانی و تولید نقشه خودکار در نظر گرفتند.
بسیاری از نویسندگان عملکرد معماری‌های مختلف یادگیری عمیق را بر روی تصاویر پهپاد آزمایش کرده‌اند و نیاز به خط لوله برای تولید نمونه‌های جدید را تأیید کرده‌اند. به عنوان مثال، ر. [ 10 ] چهار نوع مدل یادگیری عمیق را مقایسه کرد: GAN ها، شبکه های deconvolutional، FCN ها و CNN های مبتنی بر پچ. یک GAN مبتنی بر مدل U-Net، با بهترین عملکرد امتیاز F1 در تصاویر پهپاد و Google Earth، دومین بهترین امتیاز بود. بسیاری از محققان دیگر از ترکیب داده ها برای بهبود نتایج مدل استفاده کرده اند. مرجع. [ 11] ارتفتوهای با وضوح فوق العاده بالا پهپاد را با مدل سطح دیجیتال (DSM) ترکیب کرد که نشان دهنده ارتفاع اجسام برای ایجاد نقشه های طبقه بندی پوشش زمین است. آزمایش‌های آنها نشان می‌دهد که اطلاعات DSM دقت طبقه‌بندی را از 63.93٪ با فقط اطلاعات طیفی به 94.48٪ از جمله DSM افزایش داده است. ما همچنین از تصاویر RGB و DSM استفاده می‌کنیم، اما علاوه بر این، از شاخص مقاوم در برابر اتمسفر گیاهی (VARI) استفاده می‌کنیم تا سهم آن را در مدل‌های تقسیم‌بندی وسایل نقلیه و جاده‌ها آزمایش کنیم.
عدم تعادل مستقیماً در معماری‌های مدل، به‌ویژه برای مجموعه داده‌های جاده‌ای و به ندرت، برای مجموعه داده‌های نقطه‌ای برطرف شده است. در رویکرد ما، عدم تعادل در نقطه پیش‌پردازش مجموعه داده و اشیاء خطی مورد مطالعه قرار می‌گیرد. مثال‌هایی از دلیل اول شامل شبکه بردارسازی جاده (RoadVecNet) ارائه شده در [ 12 ] است که شامل دو شبکه U-Net به هم پیوسته برای انجام همزمان تقسیم‌بندی جاده و بردارسازی جاده است. نویسندگان از یک تابع از دست دادن به نام کاهش کانونی وزن شده توسط متعادل کننده فرکانس میانه (MFB_FL) برای تمرکز بر روی نمونه های سخت استفاده می کنند تا مشکل عدم تعادل داده های آموزشی را برطرف کنند. محققان در [ 13] روشی را برای استخراج جاده‌ها و پل‌ها از تصاویر سنجش از دور با وضوح بالا که در آن تشخیص لبه انجام می‌شود و لبه باینری حاصل بردار می‌شود، کار کرد. شبکه آنها آنتروپی متقاطع باینری را برای مقابله با عدم تعادل کلاس جاده یکپارچه می کند. مرجع. [ 4 ] یک تابع وزنی از دست دادن تعادل را روی یک PSPNet برای حل مشکل عدم تعادل طبقه جاده ناشی از پراکندگی جاده ها ارائه کرد. بسیاری از دانشمندان تلاش خود را بر اصلاح مدل‌ها برای بهبود ماسک‌های حاصل متمرکز می‌کنند و نه بر غنی‌سازی مجموعه داده‌های ورودی، مانند مورد ما. به عنوان مثال، [ 14 ] از یک شبکه VGG از پیش آموزش دیده در یک U-Net و ماژول توجه برای حل مشکلات جاده مانند شکل پرپیچ و خم، اتصال، انسداد و سناریوهای مقیاس های مختلف استفاده می کند.
بقیه مقاله به شرح زیر سازماندهی شده است. بخش 2 به مواد و روش های مورد استفاده برای انجام تحقیق می پردازد و جنبه های نظری و عملی خط لوله پیشنهادی را توسعه می دهد. این شامل شرح مراحل برای به دست آوردن مجموعه داده های هواپیماهای بدون سرنشین و جزئیات در مورد نحوه گنجاندن اطلاعات غنی و متمایز است. در بخش 3 ، آزمایش را انجام می دهیم و نتایج را با استفاده از فاصله بافر به عنوان مبادله بین تولید مجموعه داده های عدم تعادل و مجموعه داده های غنی شده با پیکسل های طبقه بندی شده نشان می دهیم. خط لوله پیشنهادی با تولید دو شی هندسی مختلف آزمایش می‌شود: یک مجموعه داده جاده با استفاده از تصاویر پهپاد و داده‌های برداری OSM، و یک مجموعه داده وسیله نقلیه به‌دست‌آمده از نقاط، مشابه آنچه در [ 15 ] توضیح داده شده است.بخش 4 نتایجی را که پس از تجزیه و تحلیل تجربی به دست آوردیم گزارش می کند. مجموعه داده‌ها و اسکریپت‌های توسعه‌یافته برای هر مرحله از خط لوله عمومی می‌شوند و از طریق صفحه GitHub این مقاله ( https://github.com/DamianoP/DatasetGenerator (دسترسی در 15 آوریل 2022) آزادانه در دسترس هستند. همانطور که در ضمیمه A نشان داده شده است ، تمام کدهای موجود در مخزن منبع باز هستند، تحت مجوز GNU General Public License نسخه 3.0 مجوز دارند و برای هر کسی به جز کسانی که به مجوز ArcGIS نیاز دارند، آزادانه قابل استفاده است.

2. مواد و روشها

تصاویر هواپیماهای بدون سرنشین به لطف وضوح فضایی بالای خود بینش های جدیدی را در سنجش از دور ایجاد می کنند، اما در عین حال، جمع آوری اطلاعات جدید موجود در سطح سانتی متر نیازمند الگوریتم های بینایی کامپیوتری قوی تری است [ 16 ].

2.1. خط لوله GIS برای تولید مجموعه داده های GeoAI

خط لوله زیر مجموعه داده‌هایی را برای آموزش مدل‌های یادگیری عمیق تولید می‌کند که با تغییرات هندسی، طیفی و چند مقیاسی اشیاء جغرافیایی قوی هستند. مجموعه داده‌های تولید شده شامل جفت‌های تصویر-ماسک (IMG، MSK)، همراه‌شده در سطح پیکسل، به عنوان مثال، تراشه تصویر پهپاد، ماسک باینری است. مجموعه داده ها به طور جداگانه برای هندسه شی نقطه، خط یا چند ضلعی تولید می شوند. شکل 1 مراحل خط لوله پیشنهادی را نشان می دهد. لایه‌های رستری و داده‌های حقیقت زمینی بردار ورودی دو خط فرآیند جداگانه هستند که در آن برخی از مراحل بسته به نیاز مجموعه داده حاصل اختیاری هستند. در ادامه مراحل مختلف خط لوله را شرح می دهیم.

2.2. لایه های شطرنجی: تصاویر هواپیماهای بدون سرنشین

تصاویر هواپیماهای بدون سرنشین در حال تبدیل شدن به همه جا هستند. این از یک ارتوموزائیک، یک مدل سطح دیجیتال (DSM) و یک ابر نقطه سه بعدی تشکیل شده است. محصولات مشتق شده مانند مدل زمین دیجیتال (DTM) را می توان با پس پردازش به دست آورد. ارتوموزائیک ها با دوخت تصاویری که تا حدی با هم همپوشانی دارند، با استفاده از روشی به نام ساختار از حرکت (SfM) ایجاد می شوند [ 17 ]. ارتوموزائیک های پهپاد دارای وضوح فضایی بسیار بالایی هستند که با فاصله نمونه زمینی (GSD) اندازه گیری می شود [ 18 ، 19 ، 20 ]]، که اندازه پیکسل فیزیکی است. یک GSD 10 سانتی متری به این معنی است که هر پیکسل در تصویر دارای وسعت فضایی 10 سانتی متر است. GSD یک ارتوموزائیک به ارتفاع پرواز از سطح زمین (AGL) و سنسور دوربین بستگی دارد. عکس‌های هواپیماهای بدون سرنشین با اجرای چندین پرواز مستقل، با استفاده از یک پهپاد تجاری و یک برنامه کنترلی به دست می‌آیند، به عنوان مثال: Dji Phantom 4ProV2 و برنامه Capture (نرم‌افزار حرفه‌ای عکاسی و نقشه‌برداری هواپیماهای بدون سرنشین/ www.pix4d.com)(دسترسی در 19 مارس 2022)). عکس‌ها معمولاً در ارتفاعات بین 50 تا 250 متر AGL، بسته به GSD مورد نیاز برای کاربرد خاص و مقررات پرواز محلی توسط مقامات (مثلاً مقررات FAA) به دست می‌آیند. مناطق نقشه برداری با خطوط پرواز با استفاده از همپوشانی جلویی 80-85٪ و یک همپوشانی جانبی 70-75٪ پوشیده شده است. ارتوموزائیک برای پوشش یک هکتار از مساحت منطقه در حدود یک دقیقه پرواز در 100 متر AGL به دست می آید. تصاویر منفرد و یک گزارش GPS از پروازها در یک نرم افزار فتوگرامتری پردازش می شوند تا محصولات فتوگرامتری پیش فرض را بدست آوریم که عبارتند از یک ارتوموزائیک، یک DSM و یک ابر نقطه سه بعدی از یک منطقه نقشه برداری. ما از Open Drone Map ( www.opendronemap.org(دسترسی در 9 مارس 2022))، یک برنامه نرم افزاری منبع باز، برای به دست آوردن محصولات ذکر شده هنگام پردازش تصاویر پهپاد خام [ 2 ]. WGS1984 سیستم مختصات جغرافیایی رایج (GCS) است که برای ارجاع جغرافیایی تصاویر هواپیماهای بدون سرنشین استفاده می شود.
ارتوموزائیک ها در دو ناحیه برش داده می شوند: یکی برای مجموعه داده آزمایشی که با استفاده از پارامتر به دست می آید β، که یک درصد است (معمولاً 10٪ تا 20٪) و دومین مورد برای مجموعه داده های آموزشی و اعتبار سنجی با استفاده از (1- β). شکل 2 به دست آوردن و تولید تصاویر هواپیماهای بدون سرنشین و نحوه کنار گذاشتن ناحیه ارتوموزائیک برای آزمایش و مجموعه داده های آموزشی و اعتبار سنجی را نشان می دهد.

2.2.1. تقویت هندسی

تقویت داده ها عملکرد مدل های یادگیری عمیق [ 21 ] و تعمیم مدل [ 20 ، 22 ، 23 ، 24 را بهبود می بخشد.]، در عین حال تعداد نمونه ها را برای آموزش یک مدل افزایش می دهد. با این حال، مطالعات زیادی در مورد تعریف اینکه کدام یک از روش‌های تقویت برای داده‌های جغرافیایی بهترین است، وجود ندارد. تقویت هندسی شامل تغییرات در مقیاس، زاویه و شکل تصاویر است. این تغییرات به حوزه کاربرد و به ویژه به الزامات تحمیل شده بر یک مدل بستگی دارد. به عنوان مثال، آینه نود درجه ممکن است برای اشیاء معمولی مانند سگ یا دوچرخه قابل استفاده نباشد، اما آنها برای تصاویر بالای سر قابل استفاده هستند. مهم ترین روش های افزایش هندسی برای اشیاء جغرافیایی عبارتند از [ 21 ]:
  • چرخش: شامل چرخش های کوچک تصاویر در جهت عقربه های ساعت است. مقدار پیشنهادی 10 درجه است [ 22 ].
  • آینه‌سازی: تبدیلی که در آن قسمت‌های بالا و پایین، یا راست و چپ، موقعیت‌های تصاویر را با هم عوض می‌کنند. آنها معمولاً به عنوان آینه عمودی و افقی شناخته می شوند.
  • تغییر اندازه یا بزرگنمایی: بزرگنمایی قسمت های خاصی از یک تصویر، بزرگنمایی یا کوچکنمایی.
  • برش: بریدن یک تصویر در مکان معین.
  • تغییر شکل: تغییر الاستیک نسبت ابعاد تصویر. این یک پدیده رایج است که در مرزهای ارتوموزائیک رخ می دهد [ 17 ].
  • همپوشانی: تکرار قسمتی از تصویر که با درصد (%) اندازه گیری می شود.
2.2.2. تقویت طیفی
افزایش طیفی تغییر در روشنایی، کنتراست و شدت (مقدار گاما) تصاویر است [ 21 ]. به طور معمول، افزایش یا کاهش 10٪ از مقادیر فعلی اعمال می شود. آنها به شرح زیر توصیف می شوند:
  • روشنایی: مقدار نور در یک تصویر. روشنایی کلی تصویر را افزایش می‌دهد – به عنوان مثال، رنگ‌های تیره را روشن‌تر و رنگ‌های روشن را سفیدتر می‌کند (نرم‌افزار نقشه‌برداری GIS، اطلاعات مکان و تجزیه و تحلیل فضایی | Esri، www.esri.com (دسترسی در ۲ مه ۲۰۲۲))
  • کنتراست: تفاوت بین تیره ترین و روشن ترین رنگ های یک تصویر. تنظیم کنتراست ممکن است منجر به تصویر واضح‌تر شود و تشخیص ویژگی‌های تصویر آسان‌تر شود (نرم‌افزار نقشه‌برداری GIS، اطلاعات مکان و تجزیه و تحلیل فضایی | Esri، www.esri.com (در 2 مه 2022 در دسترس قرار گرفت)).
  • شدت یا مقدار گاما: به درجه کنتراست بین مقادیر خاکستری سطح متوسط ​​یک تصویر اشاره دارد. این مقادیر پیکسل های شدید، سیاه یا سفید را تغییر نمی دهد – فقط بر مقادیر میانی تأثیر می گذارد [ 21 ]]. تصحیح گاما روشنایی تصویر را کنترل می کند. مقادیر گاما کمتر از یک کنتراست را در نواحی تیره‌تر کاهش می‌دهد و در نواحی روشن‌تر آن را افزایش می‌دهد. بدون اشباع کردن نواحی تاریک یا روشن، تصویر را تغییر می‌دهد و با انجام این کار، جزئیات ویژگی‌های روشن‌تر، مانند سقف‌های ساختمان، نمایان می‌شود. از طرف دیگر، مقادیر گاما بیشتر از یک کنتراست را در مناطق تاریک تر، مانند سایه های ساختمان ها یا درختان در جاده ها افزایش می دهد. آنها همچنین در هنگام کار با داده های ارتفاعی مانند DSM یا DTM جزئیات را در مناطق ارتفاع پایین تر نشان می دهند. گاما می‌تواند روشنایی، و همچنین نسبت‌های قرمز به سبز به آبی را تغییر دهد (نرم‌افزار نقشه‌برداری GIS، اطلاعات مکانی و تجزیه و تحلیل فضایی | Esri، www.esri.com (در 2 مه 2022)).
2.2.3. همجوشی داده ها
با توجه به محدودیت های محاسباتی، اکثر مدل های یادگیری عمیق برای بینایی کامپیوتری از تصاویر با سه کانال، یعنی تصاویر RGB استفاده می کنند [ 25 ]. ادغام داده ها راهی برای ترکیب اطلاعات متمایز اضافی در کانال های موجود است. ارتفاع شی می تواند یک متغیر متمایز باشد که در آن روابط فضایی پیچیده ممکن است وجود داشته باشد. به عنوان مثال، روابط فضایی بین وسایل نقلیه، جاده ها، درختان و ساختمان ها نمونه های خوبی از چنین موردی هستند. همچنین بسیاری از شاخص‌های پوشش گیاهی محبوب در سنجش از دور توسعه یافته‌اند و بیشتر در پایش کشاورزی استفاده می‌شوند. شاخص گیاهی تفاوت عادی شده معروف (NDVI) سلامت پوشش گیاهی را با اندازه‌گیری تفاوت بین نوارها در یک تصویر مادون قرمز نزدیک (NIR) کمیت می‌کند [ 26 ]]. ترکیب داده ها را می توان برای ادغام ارتفاع یا شاخص ها در یک مجموعه داده به شرح زیر استفاده کرد:
  • ارتفاع: DSM که شامل ارتفاع اجسام در یک تصویر است، می تواند با اضافه کردن آن به صورت جبری یا لگاریتمی به هر رنگ قرمز با ارتوموزائیک ترکیب شود. آر)، سبز ( جیو آبی ( ب) باند همانطور که در (1) و (2) ذکر شده است. گزینه دیگر جایگزینی هر یک از باندها با DSM است، مانند (3).

    اچآرجیب=آر+Dاسم،جی+Dاسم،ب+Dاسم
    اچLآرجیب=آر+Log(Dاسم)،جی+Log(Dاسم)،جی+LogDاسم
    آرجیDاسم=آر،جی،Dاسم

در هر صورت، تصویر حاصل یک ترکیب رنگ نادرست سه باندی [ 27 ] با مقادیر بین 0 تا 255 است، بنابراین مقادیر هر باند باید با استفاده از رابطه (4) به آن بازه [ 11 ] تغییر مقیاس داده شود.

آرهسجآلهد بآnد=پایکسvآل–مترمنnپایکسvآل∗255/مترآایکسپایکسvآل-مترمنnپایکسvآل

جایی که مترمنnپایکسvآلو مترآایکسپایکسvآلبه ترتیب حداقل و حداکثر مقادیر باند هستند. اکنون مجموعه داده های بیشتری شامل ارتفاع به عنوان راهی برای بهبود درک تصویر می شود، به عنوان مثال، عمق NYU V2، SUN RGB-D، و HAGDAVS [ 15 ، 28 ].

  • Index: ممکن است یکی از باندهای RGB یک پهپاد ارتوموزائیک را با مقادیر یک شاخص جایگزین کند. شاخص مقاومت جوی قابل مشاهده (VARI) توسط [ 29 ]، بر اساس اندازه گیری محصولات ذرت و سویا در غرب میانه ایالات متحده، برای تخمین بخشی از پوشش گیاهی در یک صحنه، با حساسیت کم به اثرات جوی در بخش قابل مشاهده، توسعه یافت. از طیف این دقیقاً همان چیزی است که در تصاویر هواپیماهای بدون سرنشین در ارتفاع پایین رخ می دهد [ 26 ]. معادله (5) امکان محاسبه VARI را برای ارتوموزائیک با استفاده از نوارهای قرمز، سبز و آبی یک تصویر می دهد.
Vآآرمن=جیrههn-آرهد/جیrههn+آرهد-بلتوه
VARI همچنین باید با استفاده از (4) به مقادیر بازه ارتوموزائیک [0، 255] تغییر مقیاس داده و NVARI را بدست آورد.

2.3. لایه های برداری: حقیقت زمین

داده های حقیقت زمینی با پرس و جو از لایه های برداری OSM با استفاده از اسکریپت پایتون و کتابخانه منبع باز “overpass” ( https://pypi.org/project/overpass/ (در 2 مارس 2022) به دست می آیند. بسته به قسمتی از جهان، جاده‌ها، پویس، رودخانه‌ها و کمتر ساختمان‌ها را می‌توان در عرض چند ثانیه دانلود کرد. پیوست A یک مخزن برای اسکریپت‌های پایتون و داده‌های مورد استفاده در این مقاله پیوند می‌دهد. داده های خاص مورد علاقه ای که در OSM یافت نمی شوند، به عنوان مثال، وسایل نقلیه، افراد و حیوانات، باید از همان ابتدا در صفحه دیجیتالی شوند. این کار توسط نقطه ردیابی دستی، خط و چند ضلعی برای نمایش اجسام با استفاده از ارتوموزائیک هواپیمای بدون سرنشین به عنوان لایه‌های پایه ژئو ارجاع داده می‌شود. اشیاء نقطه ای آنهایی هستند که می توان آنها را به صورت تصویر نشان داد ایکس،yمختصات در گستره جغرافیایی اجسام خطی آنهایی هستند که طول آنها بسیار بزرگتر از عرض است. آنها با افزودن رئوس دیجیتالی می شوند ایکس،yدر هر تغییر جهت و حداقل دو رأس داشته باشد. اشیاء چند ضلعی مناطق هستند و رئوس در هر تغییر جهت ایجاد می شوند تا زمانی که آخرین راس با راس اولیه منطبق شود.

ماسک های وکتور، ماسک های شطرنجی و ماسک های رنگی

لایه های نقطه حقیقت زمین، خط یا چند ضلعی با استفاده از پارامتر فاصله بافر می شوند و ماسک برداری از اشیاء مورد نظر را بدون نیاز به دیجیتالی سازی دستی به دست می آورند. فاصله بافر معمولاً از نقطه یا خط مرکزی اندازه گیری می شود و برای افزایش اندازه هندسه بردار نقطه و خط، با هدف کاهش عدم تعادل ماسک های برداری آنها استفاده می شود. فاصله بافر یک “معادل” بین به دست آوردن ماسک های نازک نامتعادل بدون طبقه بندی اشتباه و ماسک های گسترده تر با پیکسل های بیشتر از کلاس های مخلوط است. ماسک های شی چند ضلعی کمتر تحت تأثیر عدم تعادل قرار می گیرند، بنابراین، فاصله بافر استفاده شده صفر است (0). بنابراین، مشکل برای یافتن فاصله بهینه برای تولید ماسک نقطه و خط کاهش می یابد. هنگامی که این مقدار محاسبه شد، ماسک های برداری به رستر (نقاب های شطرنجی) تبدیل می شوند تا یک تصویر تولید شود. با همان پسوند و سیستم مختصات پایه ارتوموزائیک. ما به یک ماسک شطرنجی که به این شکل تولید می شود، «نقاب اولیه» می گوییم. ماسک های اولیه می توانند باینری (سیاه و سفید) باشند و تنها یک شی مورد علاقه (کلاس مثبت) و پس زمینه آن (کلاس منفی) را نشان دهند. کلاس مثبت به رنگ سفید کدگذاری شده است (کلاس = 1) و در برابر زمین، کلاس غالب، کدگذاری شده به صورت سیاه (کلاس = 0) رقابت می کند. ماسک شطرنجی رنگی هنگام استخراج ویژگی‌های شی، به عنوان مثال، سرعت جاده، نوع وسیله نقلیه، مواد سقف و بسیاری موارد دیگر استفاده می‌شود. کلاس مثبت به رنگ سفید کدگذاری شده است (کلاس = 1) و در برابر زمین، کلاس غالب، کدگذاری شده به صورت سیاه (کلاس = 0) رقابت می کند. ماسک شطرنجی رنگی هنگام استخراج ویژگی‌های شی، به عنوان مثال، سرعت جاده، نوع وسیله نقلیه، مواد سقف و بسیاری موارد دیگر استفاده می‌شود. کلاس مثبت به رنگ سفید کدگذاری شده است (کلاس = 1) و در برابر زمین، کلاس غالب، کدگذاری شده به صورت سیاه (کلاس = 0) رقابت می کند. ماسک شطرنجی رنگی هنگام استخراج ویژگی‌های شی، به عنوان مثال، سرعت جاده، نوع وسیله نقلیه، مواد سقف و بسیاری موارد دیگر استفاده می‌شود.شکل 3 نمونه ای از یک ماسک با اندازه کامل تولید شده به صورت دستی و یک ماسک با اندازه مساوی را نشان می دهد که با بافر کردن جاده ها در تصاویر هواپیماهای بدون سرنشین به دست آمده است. ماسک‌های سایز کامل معمولاً نسبت به ماسک‌های هم اندازه نامتعادل‌تر هستند، اما استخراج خط مرکزی جاده از آنها پیچیده‌تر است.

2.4. تصویر Tessellation، بررسی عدم تعادل، جفت شدن، و تقسیم

به دلیل محدودیت های محاسباتی، آموزش مدل های یادگیری عمیق با تصاویر مربعی 256 × 256 پیکسل معمول است. از این نظر، ماسک های ارتوموزائیک و شطرنجی (باینری یا رنگی) بسیار بزرگ هستند. بنابراین، آنها باید در اندازه دلخواه تسلی شوند ن، تولید ( ن×نپیکسل) تراشه های تصویر، به عنوان مثال، 256 × 256 پیکسل. از آنجایی که بسیاری از اشیاء جغرافیایی نسبت به زمین کمیاب هستند، یک ماسک نامتعادل تولید می کنند. عدم تعادل کلاس یک مشکل رایج است که بر عملکرد مدل های یادگیری عمیق تأثیر می گذارد و مرز تصمیم را به سمت طبقه غالب می برد [ 30 ]. عدم تعادل کلاس مثبت را می توان برای یک مجموعه داده خاص با محاسبه کرد nتصاویر، مانند (6).

منمتربآلآnجه of پoسمنتیمنvه جلآسس=∑من=1nپمنایکسهلس of پoسمنتیمنvه جلآسسپمنایکسهلس of پoسمنتیمنvه جلآسس+پمنایکسهلس of nهgآتیمنvه جلآسس
مقادیر حدود 0.5 در (6) مربوط به یک ماسک متعادل پیکسل کامل است و مقادیر زیر 0.01 یک ماسک بسیار نامتعادل هستند. به جای محاسبه عدم تعادل در کل ماسک شطرنجی، ممکن است یک بررسی عدم تعادل روی هر ماسک با استفاده از یک آستانه اعمال شود. تی. یک مقدار مناسب از تیپارامتر باید بسته به مجموعه داده خاص و هندسه اشیا انتخاب شود. مقدار بسیار کمی از تی(<0.01) معادل بدون تغییر نگه داشتن مجموعه داده اصلی است. به روشی مشابه، ارزش بالایی از تی (>>0.1) ممکن است مدل را برای آزمایش در موارد سخت محدود کند. پس از آن، هر جفت تصویر – ماسک مربوط به یک ماسک تعادل به عنوان یک تصویر کامل از ( 2ن×نپیکسل)، به عنوان مثال 512 × 256 پیکسل. در نهایت، تقسیم تصادفی به مجموعه داده‌های آموزشی و اعتبارسنجی با استفاده از نسبت انجام می‌شود: (1-α) برای آموزش، و α برای اعتبارسنجی.

3. نتایج

برای آزمایش خط لوله، دو مجموعه داده تولید شد. اولین مورد یک مجموعه داده وسیله نقلیه است که با هندسه نقطه ای نشان داده می شود. وسایل نقلیه به صورت دستی به عنوان نقاط در نرم افزار ArcGIS بر روی تصاویر پهپاد ردیابی می شوند. مورد دوم یک مجموعه داده جاده است که با هندسه خط نشان داده می شود. وکتور roads GT از OSM پرس و جو شد و با استفاده از یک اسکریپت Python به فرمت shapefile تبدیل شد ( پیوست A ). تصاویر پهپاد مورد استفاده برای پنج شهرک کوچک در کلمبیا، آمریکای جنوبی به دست آمده است. شکل 4 نمونه ای از تصاویر بدست آمده از پهپاد را نشان می دهد. جدول 1 ابرداده تصاویر هواپیمای بدون سرنشین را نشان می دهد که در آن Lonmin، Lonmax و Latmin، Latmax به ترتیب حداقل و حداکثر طول و عرض جغرافیایی در درجه اعشار وسعت ارتوموسائیک هستند.

3.1. روش تولید ماسک های اولیه

یک ماسک برای یک شی خاص باید تا حد امکان حاوی پیکسل‌هایی باشد که به شی مورد نظر تعلق دارند و در عین حال، کمترین تعداد پیکسل‌های طبقه‌بندی اشتباه ممکن را داشته باشد. با توجه به آن، یکی از راه‌های محاسبه فاصله بافر بهینه یک ماسک، ترسیم انحراف استاندارد مقادیر پیکسل هر باند ارتوموسائیک در مقابل فاصله بافر ماسک برای یک مجموعه داده مورد نظر است. ما یک وسیله نقلیه و یک مجموعه داده جاده با ماسک‌هایی با اندازه‌های متفاوت ایجاد کردیم، که از 50 سانتی‌متر شروع می‌شود و 50 سانتی‌متر افزایش می‌یابد تا زمانی که ماسک‌های عرض 3 متر ایجاد می‌شوند، و انحراف استاندارد مقادیر پیکسل محاسبه می‌شود. شکل 5 نمودار حاصل از انحراف استاندارد پیکسل در برابر فاصله بافر را برای مجموعه داده جاده نشان می دهد.
در نمودار شکل 5 ، برای فاصله بافر 100 سانتی متر (خط عمودی نارنجی)، عملاً هیچ تغییری در انحراف استاندارد توزیع مقدار RGB وجود ندارد، که به نظر می رسد نشان می دهد که 1 متر فاصله با بهترین گاوسی است. مانند توزیع مقادیر RGB، و بنابراین این فاصله بافر ماسک اولیه برای این مجموعه داده است. توزیع باند آبی نشان می دهد که به نظر نمی رسد جایگزینی کانال آبی با DSM به خوبی افزودن DSM به هر باند باشد. شکل 6 نشان می دهد که چگونه فاصله بافر بر توزیع مقادیر پیکسل RGB جاده ها تأثیر می گذارد.
ما همچنین با استفاده از فواصل 50 سانتی‌متری تا 150 سانتی‌متری، ماسک‌هایی با اندازه‌های مختلف برای وسایل نقلیه ایجاد کردیم و توزیع پیکسل‌ها را در مقابل فاصله بافر و توزیع پیکسل ماسک‌های اندازه کامل مقایسه کردیم. شکل 7 توزیع پیکسلی همه ماسک‌ها را برای همه ارتوموزائیک‌ها و نمودار برای به دست آوردن ماسک اولیه برای مجموعه داده خودرو نشان می‌دهد.
همانطور که در شکل 7 مشاهده می شود ، در مقایسه با ماسک های جاده، ماسک های وسایل نقلیه یک منحنی کاملاً گاوسی شکل را نشان نمی دهند، احتمالاً به این دلیل که وسایل نقلیه یکنواخت رنگ ندارند. اگرچه ماسک های اندازه کامل از پیکسل های بیشتری تشکیل شده اند، توزیع RBG بسیار شبیه به توزیع ماسک های دیگر فاصله است. علاوه بر این، ماسک‌های سایز کامل دارای انحراف استاندارد کمی بالاتر (خط عمودی قهوه‌ای) نسبت به ماسک بافر 1 متری (خط عمودی نارنجی) هستند. نمودار انحراف معیار در مقابل فاصله نشان می دهد که فاصله بافر 100 سانتی متری مناسب ترین فاصله بافر برای تولید ماسک های ابتدایی در جاده ها به نظر می رسد.

3.2. تولید مجموعه داده

تمام روش‌های افزایش هندسی و طیفی پیشنهادی برای هر دو مجموعه داده نمونه اعمال می‌شوند. همپوشانی 20 درصد پیشنهاد می شود. از افزایش چرخش زاویه 10 درجه در جهت عقربه های ساعت و همچنین آینه کاری (90 و 180 درجه) استفاده می شود. ضمیمه A حاوی پیوندی به پیاده سازی افزایش داده ما در نوت بوک های Jupyter است. شکل 8 نمونه هایی از جفت های (img، msk) را نشان می دهد که با ترکیب داده ها به دست آمده اند. شکل 8 نمونه ای از تصاویر ترکیبی رنگ کاذب RGDSM و RVARIB را نشان می دهد که با ترکیب داده ها به دست آمده اند.
می توان از اندازه های مختلف برای تسلسل استفاده کرد، به عنوان مثال، 256 × 256، 512 × 512، و 1024 × 1024 پیکسل. سپس تصاویر و ماسک‌های مربوطه به‌ترتیب با اندازه‌های 512 × 256، 1024 × 512 و 2048 × 1024 پیکسل در تصاویر منفرد (img، msk) جفت می‌شوند. هر جفت (img، msk) برای عبور از آستانه عدم تعادل انتخاب شده توسط کاربر، به عنوان مثال، 1٪، 5٪ یا 10٪ بررسی می شود. پیکسل های وسایل نقلیه و جاده ها نسبت به پس زمینه نامتعادل هستند. شکل 9 نمونه ای از مجموعه داده های وسیله نقلیه و جاده تولید شده با خط لوله را نشان می دهد. پیوست A حاوی لینک دانلود این مجموعه داده ها است.

3.3. ارزیابی مجموعه داده ها

ما یک مدل تقسیم‌بندی استاندارد U-Net [ 31 ] را با ماسک‌هایی از فواصل بافر مختلف برای مثال مجموعه داده‌های وسیله نقلیه و جاده آموزش دادیم و نتایج را با استفاده از متریک mIoU برای محاسبه یادگیری مدل جنبه هندسی اشیاء جغرافیایی مقایسه کردیم [ 17 ]. شکل 10نتایج mIoU به دست آمده با U-Net را نشان می دهد. برای هر دو مجموعه داده، فاصله بافر 1 متر بعد از بزرگترین فاصله بافر استفاده شده، دومین نتایج بهترین mIoU را ایجاد می کند. با این حال، ساختار جاده و موقعیت وسیله نقلیه راحت‌تر از یک ماسک نازک‌تر استخراج می‌شود، و علاوه بر این، ماسک‌های نازک‌تر دارای تعداد پیکسل‌های اشتباه طبقه‌بندی‌شده کمتری از کلاس‌های دیگر مانند ساختمان‌ها و درختان هستند، که در صورت استفاده از ماسک‌های چند کلاسه برای تقسیم‌بندی نیز می‌تواند مشکل ایجاد کند. .
برای مجموعه داده خودرو، نمودار mIoU در مقابل اندازه بافر و نتایج تقسیم بندی کیفی نشان می دهد که مجموعه داده های نیمه خودکار با فواصل بافر 100، 150، 200 و 300 سانتی متر از مقدار mIoU ماسک های تمام اندازه (mIoU) فراتر می رود. = 0.455). با این حال، ماسک‌های اولیه (100 سانتی‌متر) در مقایسه با ماسک‌های 250 سانتی‌متری، مقدار mIoU پایین‌تری دارند.
برای مجموعه داده جاده، نمودار mIoU در مقابل اندازه بافر و نتایج تقسیم‌بندی نشان می‌دهد که ماسک‌های اولیه (100 سانتی‌متر) اندکی از مقدار mIoU ماسک‌های اندازه کامل (mIoU = 0.595) فراتر می‌روند. باز هم، ماسک‌های ابتدایی در مقایسه با ماسک‌های 500 سانتی‌متری، مقدار mIoU پایین‌تری دارند. در هر دو مورد، مجموعه داده‌های بسیار نامتعادل (آستانه < 1٪) به‌دست‌آمده با فاصله بافر 50 سانتی‌متر هیچ نتیجه تقسیم‌بندی ایجاد نکردند یا به سختی ایجاد کردند. همه مجموعه‌های داده، مستقل از فاصله بافر مورد استفاده، ناپیوستگی (پیکسل‌های منفی کاذب) و بی‌نظمی (پیکسل‌های مثبت کاذب) را در ماسک‌های حاصل از خود نشان دادند.
استفاده از آینه‌سازی 90 درجه افزایش داده و ترکیب داده‌ها برای مجموعه داده‌های جاده، عملکرد مدل را افزایش داد. شکل 11 و جدول 2 این نتایج را با استفاده از فاصله بافر 100 سانتی متر نشان می دهند. به نظر می رسد گنجاندن ارتفاع اجسام هم نسبت به استفاده از شاخص VARI و هم از ترکیب شاخص VARI و ارتفاع در مجموعه داده جاده موثرتر است.

4. نتیجه گیری

این خط لوله اجازه می دهد تا مجموعه داده ها را به صورت نیمه خودکار ایجاد کند و با انجام ترکیب داده های ارتفاع، شاخص، هندسی و افزایش طیفی، ویژگی های بسیار متمایز اشیاء مورد علاقه را در بر می گیرد.
عدم تعادل مجموعه داده ارتباط نزدیکی با عملکرد مدل دارد. به عنوان مثال، استفاده از فاصله بافر 50 سانتی متری باعث ایجاد مقادیر عدم تعادل در حدود 1٪ برای وسایل نقلیه و 2٪ برای جاده ها می شود. این ماسک ها نتایج تقسیم بندی را برای مجموعه داده های وسیله نقلیه یا جاده با استفاده از U-Net ایجاد نکردند.
نتایج نشان می‌دهد که ماسک‌های اولیه را می‌توان به‌عنوان جایگزینی برای ماسک‌های اندازه کامل برای مجموعه داده‌های نقطه‌ای و خطی استفاده‌شده، بدون به خطر انداختن عملکرد، استفاده کرد. انتخاب فاصله بافر بزرگ‌تر، متریک را بهبود بخشید، اما ماسک‌های آموزشی را با افزودن پیکسل‌های کلاس‌های شی دیگر آلوده کرد، اما در همان زمان، عدم تعادل مجموعه داده‌های خودرو و جاده را کاهش داد. به نظر می‌رسد مقادیر بالاتر mIoU به‌دست‌آمده برای فاصله بافر بزرگ‌تر نشان می‌دهد که پیکسل‌های طبقه‌بندی نشده اهمیت کمتری نسبت به کلاس‌های عدم تعادل برای مدل U-Net دارند. ترکیب‌های مختلفی از تقویت داده‌ها و تصاویر ترکیبی نادرست را می‌توان در خط لوله انجام داد، با نتایج نشان می‌دهد که شامل ارتفاع اشیاء عملکرد مدل را بهبود می‌بخشد. با این حال، تحقیقات بیشتری در مورد استفاده از VARI برای کمک به تمایز اشیاء مورد نیاز است. خط لوله پیشنهادی از تولید نیمه خودکار مجموعه داده های مختلف برای بررسی آن روابط پشتیبانی می کند. تولید مجموعه داده‌های ماسک چند رنگ در این مطالعه آزمایش نشد. استفاده از خط لوله با تصاویر ماهواره ای به عنوان یک رویکرد تحقیقاتی آینده پیشنهاد شده است.
محدودیت خط لوله پیشنهادی این است که کاربر باید پارامترهای مختلفی مانند فاصله بافر، آستانه عدم تعادل و درصد تقسیم مجموعه داده‌های تولیدی را انتخاب کند. با این حال، مقادیر پیش فرض پیشنهاد شده است.

منابع

  1. آهنگ، ی. هوانگ، بی. کای، جی. چن، ب. ارزیابی پویا از قرار گرفتن در معرض جمعیت در فضای سبز شهری با استفاده از داده های بزرگ چند منبعی. علمی کل محیط. 2018 ، 634 ، 1315-1325. [ Google Scholar ] [ CrossRef ]
  2. Ballesteros، JR; سانچز تورس، جی. Branch, JW Automatic Road Extraction در مناطق کوچک شهری کشورهای در حال توسعه با استفاده از تصاویر هواپیماهای بدون سرنشین و ترجمه تصویر. در مجموعه مقالات دومین کنفرانس شهرهای پایدار آمریکای لاتین 2021 (SCLA)، آنلاین، 25 تا 27 اوت 2021؛ صص 1-6. [ Google Scholar ]
  3. Vanschoren, J. تصویربرداری هوایی تقسیم بندی در سطح پیکسل تصویربرداری هوایی تقسیم بندی در سطح پیکسل. در دسترس آنلاین: https://www.semanticscholar.org/paper/Aerial-Imagery-Pixel-level-Segmentation-Aerial-Vanschoren/7dadc3affe05783f2b49282c06a2aa6effbd4267 (در 26 فوریه 202).
  4. گائو، ایکس. سان، ایکس. ژانگ، ی. یان، م. خو، جی. سان، اچ. جیائو، جی. Fu، K. یک شبکه عصبی سرتاسر برای استخراج جاده از تصاویر سنجش از دور توسط شبکه هرمی چند ویژگی. دسترسی IEEE 2018 ، 6 ، 39401–39414. [ Google Scholar ] [ CrossRef ]
  5. نگ، وی. Hofmann, D. استخراج ویژگی مقیاس پذیر با تصاویر هوایی و ماهواره ای. در مجموعه مقالات هفدهمین کنفرانس علمی پایتون (SCIPY 2018)، آستین، TX، ایالات متحده آمریکا، 9 تا 15 ژوئیه 2018؛ صص 145-151. [ Google Scholar ]
  6. پری، دی. سیمونتی، ام. Gervasi، O. تولید داده مصنوعی برای سرعت بخشیدن به خط لوله تشخیص شی. Electronics 2022 , 11 , 2. [ Google Scholar ] [ CrossRef ]
  7. راتنر، ا. باخ، SH; ارنبرگ، اچ. فرایز، جی. وو، اس. Ré, C. Snorkel: ایجاد سریع داده های آموزشی با نظارت ضعیف. در مجموعه مقالات VLDB Endowment. کنفرانس بین المللی پایگاه های داده بسیار بزرگ، مونیخ، آلمان، 28 اوت تا 1 سپتامبر 2017. جلد 11، ص. 269. [ Google Scholar ] [ CrossRef ]
  8. گلوبف، آ. چچتکین، آی. پریگین، دی. سوکولوف، آ. Shcherbakov, M. تولید داده های مکانی و ابزارهای پیش پردازش برای توسعه سیستم محاسباتی شهری1. Procedia Comput. علمی 2016 ، 101 ، 217-226. [ Google Scholar ] [ CrossRef ]
  9. العزیزی، ج. شفری، HZM; هاشم، SJB; Mansor، SB DeepAutoMapping: روش تولید نقشه جغرافیایی کم هزینه و زمان واقعی با استفاده از یادگیری عمیق و جریان های ویدئویی. علوم زمین Inf. 2020 ، 15 ، 1481-1494. [ Google Scholar ] [ CrossRef ]
  10. عبدالهی، ع. پرادان، بی. شوکلا، ن. چاکرابورتی، اس. Alamri، A. رویکردهای یادگیری عمیق به کار گرفته شده در مجموعه داده های سنجش از راه دور برای استخراج جاده: یک بررسی پیشرفته. Remote Sens. 2020 , 12 , 1444. [ Google Scholar ] [ CrossRef ]
  11. ژانگ، Q. کوین، آر. هوانگ، ایکس. نیش، ی. Liu, L. طبقه‌بندی عکس‌های اورتوفوتو با وضوح فوق‌العاده بالا همراه با DSM با استفاده از نمایه کلاه بالا مورفولوژیکی دوگانه. Remote Sens. 2015 ، 7 ، 16422–16440. [ Google Scholar ] [ CrossRef ]
  12. عبدالهی، ع. پرادان، بی. Alamri، A. RoadVecNet: رویکردی جدید برای تقسیم‌بندی و بردارسازی شبکه جاده‌ای همزمان از تصاویر هوایی و Google Earth در یک مجموعه شهری پیچیده. GISci. Remote Sens. 2021 , 58 , 1151–1174. [ Google Scholar ] [ CrossRef ]
  13. یانگ، دبلیو. گائو، ایکس. ژانگ، سی. تانگ، اف. چن، جی. الگوریتم استخراج پل Xiao، Z. بر اساس یادگیری عمیق و تصویر ماهواره ای با وضوح بالا. علمی برنامه. 2021 ، 2021 ، e9961963. [ Google Scholar ] [ CrossRef ]
  14. گونگ، ز. خو، ال. تیان، ز. بائو، جی. مینگ، دی. استخراج شبکه جاده و بردارسازی تصاویر سنجش از دور بر اساس یادگیری عمیق. در مجموعه مقالات پنجمین کنفرانس مهندسی فناوری اطلاعات و مکاترونیک IEEE 2020 (ITOEC)، چونگ کینگ، چین، 12 تا 14 ژوئن 2020؛ صص 303-307. [ Google Scholar ]
  15. Ballesteros، JR; سانچز تورس، جی. Branch-Bedoya، JW HAGDAVS: مجموعه داده های موقعیت جغرافیایی افزایش یافته ارتفاع برای تشخیص و تقسیم بندی معنایی وسایل نقلیه در ارتوموزائیک هوایی هواپیماهای بدون سرنشین. داده 2022 ، 7 ، 50. [ Google Scholar ] [ CrossRef ]
  16. آولا، دی. Pannone، D. MAGI: تقسیم بندی هوایی چند جریانی تصاویر زمینی با پهپادهای مقیاس کوچک. هواپیماهای بدون سرنشین 2021 ، 5 ، 111. [ Google Scholar ] [ CrossRef ]
  17. کامیاما، اس. Sugiura، K. اثرات تفاوت‌های ساختار از نرم‌افزار حرکت بر پردازش تصویر عکس‌برداری از وسایل نقلیه هوایی بدون سرنشین و تخمین مساحت تاج و ارتفاع درخت در جنگل‌ها. Remote Sens. 2021 , 13 , 626. [ Google Scholar ] [ CrossRef ]
  18. هفلز، ام. Vanschoren, J. تصویربرداری هوایی در سطح پیکسل تقسیم بندی. arXiv 2020 ، arXiv:2012.02024. [ Google Scholar ]
  19. شرمایر، جی. Etten، A. اثرات سوپر رزولوشن بر عملکرد تشخیص شی در تصاویر ماهواره ای. در مجموعه مقالات کنفرانس IEEE/CVF در کارگاه های آموزشی بینایی رایانه و تشخیص الگو، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 16 تا 17 ژوئن 2019؛ ص 1432-1441. [ Google Scholar ]
  20. ویر، ن. لیندنباوم، دی. باستیداس، ا. اتن، ا. کومار، وی. مکفرسون، اس. شرمایر، جی. تانگ، اچ. اسپیس‌نت MVOI: مجموعه داده‌های تصویر بالا با چند نمای. در مجموعه مقالات کنفرانس بین المللی IEEE/CVF در بینایی کامپیوتر، سئول، کره، 27 اکتبر تا 2 نوامبر 2019؛ صفحات 992-1001. [ Google Scholar ]
  21. بوسلایف، آ. ایگلوویکوف، VI; خودچنیا، ای. پرینوف، آ. دروژینین، م. Kalinin، AA Albumentations: Fast and Flexible Image Augmentations. اطلاعات 2020 ، 11 ، 125. [ Google Scholar ] [ CrossRef ]
  22. بلاگا، B.-C.-Z.; Nedevschi, S. A Critical Evaluation of Aerial Datasets for Semantic Segmentation. در مجموعه مقالات شانزدهمین کنفرانس بین المللی IEEE 2020 در زمینه ارتباطات و پردازش کامپیوتری هوشمند (ICCP)، کلوژ-ناپوکا، رومانی، 3 تا 5 سپتامبر 2020؛ صص 353-360. [ Google Scholar ]
  23. لانگ، ی. Xia، G.-S. لی، اس. یانگ، دبلیو. یانگ، من؛ زو، XX; ژانگ، ال. لی، دی. درباره ایجاد مجموعه داده های معیار برای تفسیر تصویر هوایی: بررسی ها، راهنمایی ها و میلیون ها کمک. IEEE J. Sel. بالا. Appl. زمین Obs. Remote Sens. 2021 , 14 , 4205–4230. [ Google Scholar ] [ CrossRef ]
  24. آهنگ، ا. کیم، ی. تقسیم بندی معنایی تصاویر سنجش از دور با استفاده از داده های بزرگ ناهمگن: انجمن بین المللی فتوگرامتری و سنجش از دور مجموعه داده های پتسدام و منظر شهری. ISPRS Int. J. Geo-Inf. 2020 ، 9 ، 601. [ Google Scholar ] [ CrossRef ]
  25. خو، ی. زی، ز. فنگ، ی. Chen, Z. استخراج جاده از تصاویر سنجش از دور با وضوح بالا با استفاده از یادگیری عمیق. Remote Sens. 2018 , 10 , 1461. [ Google Scholar ] [ CrossRef ]
  26. Eng, LS; اسماعیل، ر. هاشم، دبلیو. بهاروم، ع. استفاده از فرمول های VARI، GLI، و VIgreen در تشخیص پوشش گیاهی در تصاویر هوایی. IJTech 2019 ، 10 ، 1385. [ Google Scholar ] [ CrossRef ]
  27. لوپز-تاپیا، اس. رویز، پ. اسمیت، ام. متیوز، جی. زرچر، بی. سیدورنکو، ال. واریا، ن. جین، ی. وانگ، ام. دان، جی بی. و همکاران یادگیری ماشینی با تصاویر هوایی با وضوح بالا و ترکیب داده ها برای بهبود و خودکارسازی تشخیص تالاب ها. بین المللی J. Appl. زمین Obs. Geoinf. 2021 ، 105 ، 102581. [ Google Scholar ] [ CrossRef ]
  28. سان، دبلیو. Wang, R. شبکه های کاملاً کانولوشنال برای تقسیم معنایی تصاویر سنجش از راه دور با وضوح بسیار بالا همراه با DSM. IEEE Geosci. سنسور از راه دور Lett. 2018 ، 15 ، 474-478. [ Google Scholar ] [ CrossRef ]
  29. Gitelson، AA; استارک، آر. گریتس، یو. راندکوئیست، دی. کافمن، ی. دری، دی. خطوط گیاهی و خاک در فضای طیفی مرئی: مفهوم و تکنیکی برای تخمین از راه دور کسر پوشش گیاهی. بین المللی J. Remote Sens. 2002 ، 23 ، 2537-2562. [ Google Scholar ] [ CrossRef ]
  30. وانگ، اس. لیو، دبلیو. وو، جی. کائو، ال. منگ، کیو. کندی، PJ آموزش شبکه های عصبی عمیق در مجموعه داده های نامتعادل. در مجموعه مقالات کنفرانس مشترک بین المللی 2016 در شبکه های عصبی (IJCNN)، ونکوور، BC، کانادا، 24-29 ژوئیه 2016؛ صص 4368-4374. [ Google Scholar ]
  31. رونبرگر، او. فیشر، پی. Brox، T. U-Net: شبکه های کانولوشن برای تقسیم بندی تصویر زیست پزشکی. در مجموعه مقالات محاسبات تصویر پزشکی و مداخله به کمک رایانه – MICCAI 2015; نواب، ن.، هورنگر، ج.، ولز، دبلیو ام، فرانگی، اف.اف.، ویرایش. انتشارات بین المللی Springer: چم، سوئیس، 2015; صص 234-241. [ Google Scholar ]
شکل 1. خط لوله GIS برای تولید مجموعه داده های GeoAI از تصاویر هواپیماهای بدون سرنشین.
شکل 2. ( الف ) گردش کار تصاویر هواپیماهای بدون سرنشین، ( ب ) منطقه برش برای آموزش/تأیید اعتبار و مجموعه داده های آزمایشی: “a” و “b” به ترتیب تعداد پیکسل ها به صورت افقی و عمودی هستند، “n” تعداد تصاویر موجود در هر محور، و ن” اندازه تسلسل است، به عنوان مثال، 256 × 256 پیکسل. ناحیه سیاه باقیمانده ی تسلیت است.
شکل 3. نوع ماسک. ( الف ) ماسک های باینری با اندازه کامل و مساوی، و ( ب ) ماسک رنگی بر اساس نوع جاده.
شکل 4. تصاویر پهپاد اکتسابی. ارتوموزائیک ( چپ )، DSM ( مرکز )، جاده‌های برداری ( راست ).
شکل 5. ماسک اولیه و مقدار بهینه فاصله بافر برای مجموعه داده جاده.
شکل 6. توزیع مقدار پیکسل RGB در مقابل فاصله بافر ماسک برای مجموعه داده جاده ها. ( الف ) توزیع RGB برای کل ارتوموزائیک، عدم تعادل = 8.03٪، ( b ) 50 سانتی متر فاصله بافر، عدم تعادل = 2.13٪، ( c ) فاصله بافر 1 متر، عدم تعادل = 4.35٪، ( d ) 2 متر، عدم تعادل = 7.86 ٪، ( e ) 3 متر، عدم تعادل = 13.56٪، ( f ) ماسک با اندازه کامل، عدم تعادل = 11.63٪. آزمایش مشابهی روی همه ارتوموزائیک ها انجام شد و مقادیر احتمالاً مشابه هستند زیرا جاده ها از اندازه و مواد مشابه در منطقه نقشه برداری هستند.
شکل 7. ماسک اولیه برای مجموعه داده خودرو. ( الف ) توزیع و ماسک پیکسل 50 سانتی متر، ( ب ) توزیع و ماسک پیکسل 100 سانتی متر، ( ج ) توزیع و ماسک پیکسل 150 سانتی متر، ( د ) توزیع و ماسک پیکسل در اندازه کامل، ( ه ) نمودار انحراف استاندارد RGB مقادیر پیکسل در مقابل فاصله بافر.
شکل 8. تصاویر ترکیبی داده ها. RGDSM (چپ)، RVARIB (راست).
شکل 9. مجموعه داده های تولید شده. ( الف ) مجموعه داده خودرو، ( ب ) مجموعه داده جاده.
شکل 10. نتایج تقسیم بندی mIoU در مقابل اندازه بافر ماسک. ( الف ) وسایل نقلیه، ( ب ) جاده ها.
شکل 11. ( الف ) RGDSM، ( ب ) RVARIB، ( ج ) HRGB، ( د ) HRVARIB.

بدون دیدگاه

دیدگاهتان را بنویسید