1. مقدمه
اطلاعات جاده ها در زمینه های توسعه شهری و روستایی [ 1 ]، امداد اضطراری و بلایای طبیعی [ 2 ]، ناوبری وسایل نقلیه [ 3 ] و سیستم های اطلاعات جغرافیایی [ 4 ] اهمیت حیاتی دارد . با توسعه سریع فناوری سنجش از دور، تصاویر سنجش از دور با وضوح بسیار بالا (VHR) برای استخراج اطلاعات جاده مورد استفاده قرار گرفته است [ 5 ]. در عمل، بیشتر بهروزرسانیهای دادههای جاده هنوز از تفسیر دستی استفاده میکنند که زمانبر و پر زحمت است و کنترل کیفیت ندارد. بسیاری از الگوریتم های استخراج جاده توسعه یافته اند [ 6 ، 7 ، 8 ]. این الگوریتم ها را می توان به روش های سنتی یادگیری ماشینی تقسیم کرد [9 ، 10 ، 11 ، 12 ، 13 ، 14 ] و جدیدترین روش های یادگیری عمیق [ 15 ، 16 ، 17 ]. برخی از روشهای سنتی استخراج جاده عمدتاً از ویژگیهای طیفی تصاویر سنجش از دور استفاده میکنند که گهگاه با ویژگیهای بافت تکمیل میشوند. با این حال، این روش برای استفاده مؤثر از اطلاعات هندسی و زمینه در تصاویر سنجش از دور دشوار است [ 18 ]، و تولید نویز «نمک و فلفل» آسان است [ 19 ].]. در میان روش های سنتی، رویکرد مبتنی بر شی به وضوح اثر بر استخراج جاده را بهبود می بخشد. به جای پیکسل ها، از اشیاء تصویری به عنوان واحد اصلی استفاده می کند و از ویژگی های طیفی، هندسی، بافتی و زمینه ای آنها برای استخراج اطلاعات استفاده می کند و در نتیجه کیفیت محصول را بهبود می بخشد [ 20 ، 21 ]. از یک طرف، این روش به شدت به کیفیت قطعهبندی تصویر وابسته است و چگونگی یافتن پارامترهای مناسب برای تقسیمبندی، خود مشکلی دشوار است. از سوی دیگر، ویژگیهای طیفی، بافت، هندسی و زمینهای بسیاری وجود دارد و تعیین اینکه کدام ویژگی برای استخراج اطلاعات جادهها مناسبتر است، دشوار است. هنگامی که منبع داده یا شرایط منطقه ای تغییر می کند، ویژگی های مورد نیاز برای طبقه بندی باید بر اساس آن تنظیم شوند [22 ، 23 ، 24 ]. روش های فوق همچنین تشخیص جاده ها از سایر سطوح مصنوعی مانند ساختمان ها و پارکینگ ها در تصاویر VHR دشوار است.
در سال های اخیر، یادگیری عمیق در استخراج جاده ها از تصاویر سنجش از دور معرفی شده است [ 25 ]. روشهای مبتنی بر یادگیری عمیق قابلیتهای بیان ویژگی مؤثر را نشان میدهند و میتوانند به طور خودکار ویژگیهای مفیدی را از تصاویر برای استخراج جاده کسب کنند [ 26 ، 27 ]. الگوریتم های یادگیری عمیق مورد استفاده در استخراج جاده ها عمدتا بر اساس شبکه های عصبی کانولوشن (CNN) هستند. ژانگ و همکاران [ 28 ] از CNN برای استخراج اطلاعات جاده در تصاویر VHR استفاده کرد. با بهبود معماری CNN، گائو و همکاران. [ 17] یک شبکه عصبی کانولوشنال باقیمانده عمیق با عملیات پس از پردازش پیشنهاد کرد که عملکرد خوبی در استخراج جادهها از پسزمینههای پیچیده شامل مناطق شهری و روستایی نشان داد. شبکه کاملاً پیچیده (FCN) نوعی CNN است. لانگ و همکاران [ 29 ] ابتدا یک مدل تقسیم بندی معنایی بر اساس FCN برای استخراج جاده پیشنهاد کرد. بعدها، برخی از مدلهای تقسیمبندی معنایی جدید بر اساس FCN، مانند U-Net [ 30 ]، SegNet [ 31 ]، DeepLab V3+ [ 32 ] و غیره توسعه یافتند که در استخراج جادهها از تصاویر VHR استفاده میشوند. ژانگ و همکاران [ 33 ] U-Net باقیمانده عمیق را برای استخراج جاده پیشنهاد کرد. این روش از دست دادن اطلاعات را کاهش می دهد و به طور موثری دقت استخراج جاده را بهبود می بخشد. بوسلایف و همکاران [15 ] U-Net بهبود یافته ای را پیشنهاد کرد که می تواند زمان تمرین را کوتاه کند و در چالش CVPR 2018 به نتیجه خوبی دست یابد. رویکردهای مبتنی بر وصله، مانند رویکرد مبتنی بر شی، یک برچسب واحد برای تمام پیکسلهای یک پچ اختصاص میدهند. محمد و همکاران [ 34 ] یک شبکه عصبی عمیق مبتنی بر وصله برای شناسایی جاده ها در مجموعه داده های بزرگ مقیاس پیشنهاد کرد. برخی از مطالعات [ 23 ، 35 ] شبکههای عصبی آبشاری را برای انجام یادگیری چند وظیفهای برای استخراج همزمان مناطق جاده، خطوط مرکزی و حاشیه ایجاد کردند. تائو و همکاران برای حل موثر مشکل اثر سایهاندازی سایهبان و حفظ اتصال شبکه جادهای استخراجشده. [ 36] یک شبکه استدلال اطلاعات مکانی را برای ضبط و انتقال اطلاعات زمینه ای خاص جاده پیشنهاد کرد. لی و همکاران با توجه به راندمان محاسباتی پایین D-LinkNet. [ 37 ] یک BD-Linknet Plus بهبود یافته را تأسیس کرد. آزمایشات نشان می دهد که شبکه عصبی بهبود یافته می تواند اندازه شبکه را کاهش دهد و دقت مورد نیاز برای استخراج جاده را بهبود بخشد. یانگ و همکاران [ 38 ] یک ماژول شبکه عصبی کانولوشنال بازگشتی (RCNN) طراحی کرد و آن را در معماری U-Net ادغام کرد تا مشکلاتی مانند نویز، انسداد و پسزمینه پیچیده را حل کند. برای حفظ اطلاعات مرزی و به دست آوردن نقشه های راه با وضوح بالا، ابوالفضل و همکاران. [ 39 ] یک شبکه کانولوشنال جدید، یعنی مدل VNet را معرفی کرد. شین و همکاران [ 40] DenseUNet را برای استخراج جاده در صحنه های پیچیده بر اساس DenseNet با توجه به قابلیت های قدرتمند آن در استخراج ویژگی های چند سطحی و استفاده مجدد پیشنهاد کرد. این روش های یادگیری عمیق عملکرد خوبی دارند، به طوری که جاده ها و ساختمان ها و سایر سطوح مصنوعی بهتر طبقه بندی می شوند.
استخراج جاده از تصاویر VHR معمولاً با دو مشکل روبرو است. اولین مورد حفظ یکپارچگی منطقه جاده و صاف بودن خط کناری است. سایبان های درختان بزرگ و ساختمان های مرتفع در کنار جاده اثر سایه ای دارند و اغلب منطقه جاده را مسدود می کنند. دوم این است که اتصال شبکه راه را حفظ کنیم تا جاده مفقود یا قطع نشود. در برخی از مطالعات سعی شده مشکل سایهاندازی جزئی که منجر به کمبود حریم راه و مسدود شدن کامل منجر به قطع شدن جاده میشود، حل شود. یک روش این است که نتایج تقسیم بندی را پس از پردازش [ 17 ، 41 ، 42 ] انجام دهیم]. با این حال، مشکل این است که پارامترهای پس پردازش باید به صورت دستی تنظیم شوند و عملیات برای جاده های پیچیده مسافت طولانی پیچیده و دشوار است. در سال های اخیر، مکانیسم توجه به مدل یادگیری عمیق معرفی شده است. لای و همکاران [ 43 ] یک واحد توجه بصری طراحی کرد تا ناحیه فوکوس را با دقت بیشتری برای ادغام تصویر تعیین کند. مکانیسم توجه می تواند اثربخشی مدل را در تشخیص هدف بهبود بخشد [ 44 ، 45 ]. با کمک مکانیسم توجه، شبکههای یادگیری عمیق میتوانند ویژگیهای تمایز بیشتری را برای کار هدف استخراج کنند [ 46 ، 47 ، 48 ]. یه و همکاران [ 49] از مکانیسم توجه برای حل مشکل پرش اتصالات برای استخراج ساختمان استفاده کرد. جتلی و همکاران [ 48 ] از یک ماژول دروازهای توجه برای تولید یک نقشه توجه متنی در سطح بالای شبکه، با تمرکز بر اطلاعات محلی مفید برای پیشبینی سطح متوسط در قالب «راهنمای جهانی» استفاده کرد. جین و همکاران [ 50 ] از مکانیسم توجه زمان برای تنظیم غیرخطی بودن و سازگاری دینامیکی شبکه الکتریکی استفاده کرد و در نتیجه عملکرد کلی مدل پیشبینی را بهبود بخشید. اوکتای و همکاران [ 51] یک ماژول توجه پیشنهاد کرد که تصاویر وزندار را از سطح بالایی یاد میگیرد تا روی ویژگیهای مفید تمرکز کند و مناطق نامربوط در نقشه ویژگی میانی را سرکوب میکند و در نتیجه عملکرد پیشبینی را بهبود میبخشد.
در پاسخ به مشکلات، ما با تعبیه دو ماژول توجه، مانند توجه جهانی و توجه اصلی، در چارچوب DenseUNet، یک آبشار توجه متراکم-UNet (CADUNet) را پیشنهاد میکنیم. ما از ماژول توجه اصلی برای استخراج مناطق جادهای، از جمله قسمتهای مسدود شده، استفاده میکنیم و از ماژول توجه جهانی برای افزایش اطلاعات زمینه جهانی در مورد شبکه جادهها استفاده میکنیم. مشارکت های اصلی این مقاله به شرح زیر است:
-
ماژولهای توجه اصلی و ماژولهای توجه جهانی در DenseUNet با هم قرار میگیرند تا اطلاعات جادهای را در مقیاسهای مختلف ترکیب کنند، بنابراین اتصال شبکه جادهها و صاف بودن حاشیهها را بهبود میبخشند.
-
یک تابع تلفات تطبیقی برای حل مشکل نسبت خیلی کوچک جاده ها به مناطق غیر جاده ای در نمونه های آموزشی معرفی شده است.
ساختار بقیه مقاله به صورت زیر است: در بخش 2 ، روش CADUNet را معرفی می کنیم. بخش 3 آماده سازی داده های مورد استفاده در آزمایش را مشخص می کند. بخش 4 نتایج را نشان می دهد. بخش 5 مکانیسم های اثربخشی مدل شبکه را بررسی می کند و بخش 6 نتیجه گیری را ارائه می دهد.
2. روش ها
CADUNet پیشنهادی یک شبکه تقسیمبندی معنایی ترکیبی است که با تعبیه ماژولهای توجه جهانی و اصلی در چارچوب DenseUNet ایجاد شده است. DenseUNet ادغام دو شبکه کلاسیک UNet و DenseNet است [ 52 ]. UNet معمولا از دو بخش تشکیل شده است: رمزگذار و رمزگشا. DenseUNet معمولا از بلوک های متراکم و لایه های انتقال به پایین مرتبط با UNet تشکیل شده است. هنگام ساخت DenseUNet، بلوک متراکم و لایههای انتقال پایین به قسمت رمزگذار UNet وارد میشوند تا جایگزین لایههای کانولوشنال اصلی و لایههای ادغام شوند، بنابراین عملکرد UNet در تقسیمبندی معنایی بهبود مییابد [ 40 ، 45 ]. در CADUNet، ماژولهای توجه جهانی بیشتر به بخش رمزگشای UNet اضافه میشوند ( شکل 1)). علاوه بر این، ماژول های توجه اصلی بین رمزگذار و رمزگشا تعبیه شده است. برای به دست آوردن نتایج بهتر، لازم است اطلاعات معنایی سطح بالا از تصاویر به دست آید و در عین حال اطلاعات جزئی سطح پایین حفظ شود. اطلاعات لایه های پایین را می توان در طول مسیر انتقال اطلاعات به لایه های بالاتر منتقل کرد. این جزئیات عملکرد سطح پایین و اطلاعات معنایی سطح بالا را جبران می کند [ 44 ]. زیربخش های زیر جزئیات را ارائه می دهند.
2.1. رمزگذار
ما از بلوک های متراکم و لایه های انتقال به پایین در بخش رمزگذار UNet استفاده می کنیم. بلوک متراکم از چهار لایه متراکم تشکیل شده است ( شکل 2 ) و خروجی هر لایه متراکم دارای یک نقشه ویژگی با همان بعد کانال است. در هر بلوک متراکم، تمام لایه ها اتصالات متراکم را حفظ می کنند. بلوک های متراکم از طریق لایه های انتقال به پایین بین آنها متصل می شوند. در یک بلوک متراکم، تابع F l ( ) برای تبدیل غیرخطی بین لایه ها استفاده می شود. اتصال متراکم به عنوان معادله (1) [ 52 ] تعریف می شود:
که در آن l تعداد لایه های متراکم در هر بلوک متراکم است، D 1 نقشه ویژگی خروجی لایه اول است و [ D 0 , D 1 , D 2 , …, Dl − 1 ] آبشاری از تمام نقشه های ویژگی قبلی است. از لایه اول
با توجه به اینکه DenseNet نقشههای ویژگی زیادی تولید میکند که با پارامترهای مدل بیش از حد همراه است، ما یک نرخ رشد K را برای کنترل تعداد نقشههای ویژگی تعریف میکنیم، که در آن K تعداد لایههای ویژگی خروجی هر لایه را نشان میدهد. ما K را روی 48 قرار می دهیم. اندازه نقشه های ویژگی در داخل هر بلوک متراکم یکسان است ( شکل 2 ).
برای کاهش مقدار محاسبه و افزایش میدان دریافتی، پس از هر بلوک متراکم از یک لایه انتقال پایین استفاده می شود. هر لایه انتقال از نرمال سازی دسته ای (BN)، واحد خطی اصلاح شده (ReLU)، لایه گلوگاه (پیچیدگی 1×1) و لایه ادغام متوسط (2×2) تشکیل شده است.
2.2. مکانیسم توجه
مکانیسم توجه می تواند به تمرکز بیشتر بر روی اهداف جالب کمک کند [ 44 ، 45 ]. این مطالعه از دو ماژول توجه استفاده می کند: مدول توجه اصلی [ 44 ] و مدول توجه جهانی [ 45 ]. در ماژول توجه هسته، مقدار ورودی سیگنال با محاسبه خروجی آخرین بلوک متراکم محاسبه می شود ( شکل 3). ماژول توجه اصلی شامل دو ورودی است، یکی خروجی به سه بلوک متراکم و دیگری ورودی سیگنال توجه است. با اتصال ویژگیهای سطح پایین به ویژگیهای سطح بالا، ماژول توجه اصلی میتواند اطلاعات پسزمینه را تضعیف کند و جزئیات مفید محلی را افزایش دهد، در نتیجه قضاوت نادرست ویژگی اتصال پرش اصلی را کاهش داده و یکپارچگی شبکه جاده استخراجشده را بهبود میبخشد. معرفی ماژول توجه اصلی، از یک سو، می تواند حداکثر انتقال اطلاعات جاده را بین تمام لایه های شبکه تضمین کند. از سوی دیگر، می تواند به ماژول توجه جهانی کمک کند تا یکپارچگی جاده را بهبود بخشد و در عین حال اثر انسداد تاج درخت را از بین ببرد.
در ماژول توجه جهانی، استخر میانگین جهانی ابتدا برای استخراج اطلاعات زمینه جهانی از نقشه ویژگی های سطح بالا استفاده می شود ( شکل 4 ). استخر میانگین جهانی برای به دست آوردن اطلاعات زمینه جهانی در تصاویر راحت است [ 45 ]. سپس، خروجی اطلاعات زمینه جهانی از طریق یک تابع سیگموئید فعال می شود. در نهایت، ویژگی های وزنی برای یکپارچه سازی اطلاعات جهانی به نقشه ویژگی اضافه می شود. ماژول توجه جهانی از لایه میانگین جهانی برای جمعآوری اطلاعات زمینه جهانی از نقشه ویژگی استفاده میکند و اطلاعات کلی نقشه ویژگی را افزایش میدهد، در نتیجه وقفه استخراج جاده ناشی از انسداد تاج درخت را حل میکند.
2.3. رمزگشا
ما عمدتاً دو تنظیم در رمزگشا در CADUNet انجام دادیم. یکی استفاده از یک عملیات نمونه برداری ساده با اندازه گام 2 در لایه اول، و دوم استفاده از 4 ماژول توجه سراسری به اضافه 3 عملیات نمونه برداری بهبود یافته است. در عملیات نمونه برداری ارتقا یافته، ابتدا عملیات کانولوشن 1 × 1، BN و ReLU انجام می شود، سپس عملیات کانولوشن 3 × 3، عملیات BN و ReLU و در نهایت، نمونه برداری ساده انجام می شود. این با اندازه خروجی حاصل توسط ماژول توجه مطابقت دارد. خروجی آخرین ماژول توجه سراسری را به لایه مربوطه در رمزگذار اضافه می کنیم. پس از آن، خروجی به لایه مربوطه در رمزگذار مربوط می شود. سپس، یک عملیات نمونه برداری ساده اضافه می شود تا اندازه تصویر به همان اندازه تصویر ورودی اصلی پس از پیچیدگی 1 × 1 بازیابی شود. عملیات BN و ReLU. برای پیچیدگی نهایی، عملیات BN، ReLU و sigmoid برای تولید نقشه راه پیش بینی شده استفاده می شود.
2.4. تابع از دست دادن تطبیقی
در این مقاله، استخراج جاده را به عنوان یک تقسیم بندی معنایی باینری در نظر می گیریم. نسبت مساحت جاده معمولاً کمتر از 10 درصد است و نسبت پسزمینههای غیرجاده معمولاً بیشتر از 90 درصد است. در مورد نمونهگیری تصادفی، کارایی آموزشی پایین است زیرا نمونههای منفی بیشتر نمونههای آموزشی را اشغال میکنند [ 24 ]. برای این منظور، یک تابع تطبیقی تطبیقی جدید برای تنظیم عدم تعادل بین نمونههای مثبت و منفی اتخاذ میکنیم:
جایی که، پroآدو پبآجکgroتوnدبه ترتیب نشان دهنده درصد جاده ها و غیر جاده ها در کل منطقه است. LبسیEاز دست دادن آنتروپی متقاطع باینری [ 53 ] است، و LمنoUشاخص نسبت تقاطع [ 54 ] است و بر انحراف بین جاده پیش بینی شده و جاده واقعی تأکید دارد. فرمول محاسبه هر یک به شرح زیر است:
جایی که gمن( i = 0، 1، 2، …، n ) حقیقت پایه پیکسل i است،پمن( i = 0، 1، 2، …، n ) پیشبینیهای پیکسل i و n تعداد پیکسلها است.
3. آماده سازی آزمایش
مجموعه دادههای مورد استفاده در این مطالعه از مجموعه دادههای جاده ماساچوست و مجموعه دادههای جاده DeepGLOBE-CVPR 2018 (مجموعه دادههای CVPR) هستند [ 55 ، 56]. آنها از مجموعه داده های تصویری برای آموزش، اعتبار سنجی و آزمایش، همراه با نقشه های مرجع مربوطه تشکیل شده اند. مجموعه داده جاده ماساچوست شامل 1171 تصویر است. هر تصویر در این مجموعه داده 1500 × 1500 پیکسل، با وضوح مکانی 1.2 متر و مساحت پوشش 2.25 کیلومتر مربع است. مجموعه دادهها انواع مناطق شهری، حومهای و روستایی را با مساحت کل بیش از 2600 کیلومتر مربع پوشش میدهد. مجموعه داده های جاده CVPR شامل 6226 تصویر ماهواره ای با اندازه 1024 × 1024 پیکسل و وضوح فضایی 50 سانتی متر است. بر این اساس، این مجموعه داده ها را می توان به مجموعه داده های جاده های روستایی، برون شهری و شهری تقسیم کرد، همانطور که در شکل 5 نشان داده شده است.
برای ایجاد آموزش، اعتبار سنجی و مجموعه داده های آزمایشی برای این آزمایش، تمام مجموعه داده های تصویر برش داده شدند و افزوده شدند. ابتدا، تصاویر و نقشه های مرجع مربوطه با چرخش تصادفی (90 درجه، 180 درجه و 270 درجه)، چرخش تصادفی افقی و عمودی و تنظیم تصادفی روشنایی (0.5-1.5) صرف شدند. سپس، آنها به طور تصادفی به 256 × 256 پیکسل برش داده شدند [ 36 ]. در نهایت، از مجموعه داده ماساچوست، 50545 تصویر به دست آوردیم که 42963 تصویر برای آموزش و 7582 تصویر برای اعتبارسنجی بود و مجموعه داده آزمایشی 49 تصویر اصلی 1500 × 1500 است. از مجموعه داده های جاده CVPR، 84000 تصویر به دست آمد که 71400 تصویر برای آموزش، 12600 تصویر برای اعتبارسنجی و مجموعه داده آزمایشی 105 تصویر اصلی 1024 × 1024 است.
ما این روش را با UNet [ 30 ]، DeepLab v3+ [ 32 ]، DenseUNet [ 40 ]، DenseUNet بهبود یافته (CDenseUNet) تنها با ماژول های توجه اصلی و DenseUNet بهبود یافته (GDenseUNet) تنها با ماژول های توجه جهانی مقایسه می کنیم.
این آزمایش بر روی یک پلت فرم محاسباتی با کارایی بالا اجرا شده است: CPU از 2 گروه Intel Xeon 5120 با 14 هسته، همراه با 128 گیگابایت حافظه کاری، GPU از 2 گروه NVIDIA P100 با 16 گیگابایت حافظه و سیستم عامل از CentOS 7 استفاده می کند. ما از باطن TensorFlow برای اجرای چارچوب یادگیری عمیق Keras استفاده کردیم. تابع Adam [ 57 ] برای بهینه سازی پارامتر استفاده می شود. هر دوره 16 تصویر را پردازش کرد. نرخ یادگیری در ابتدا 0.0001 تعیین شد و 0.02 بار در هر دوره کاهش یافت و تعداد دوره ها به 50 در نظر گرفته شد.
در این آزمایش، از دقت کلی ( OA )، دقت ، یادآوری ، اف1–سجorهو تقاطع روی اتحاد ( IoU ) برای اعتبارسنجی. معادلات (5) – (9) [ 36 ، 54 ، 58 ] این معیارهای ارزیابی را توصیف می کنند:
که در آن، TP ، FP ، FN و TN به ترتیب نشان دهنده مثبت واقعی، مثبت کاذب، منفی کاذب و منفی واقعی هستند.
4. نتایج
4.1. یکپارچگی روسازی و همواری حاشیه جاده ها
4.1.1. مجموعه داده ماساچوست
در مجموعه داده ماساچوست، مسدود شدن جاده عمدتاً از تاج درخت کنار جادههای روستایی و حومهای ناشی میشود، در حالی که تصاویر مسدود شده توسط جادههای شهری کم هستند. شکل 6 جاده های جزئی مسدود شده توسط سایبان درختان در مناطق روستایی (صحنه های 1-3)، جاده های جزئی مسدود شده توسط سایبان درختان در حومه شهر (صحنه های 4-5) و جاده های جزئی مسدود شده توسط ساختمان های بلند شهری در مناطق شهری را نشان می دهد. صحنه 6).
با توجه به این نتایج، CADUNet پیشنهادی در این مقاله به نتایج خوبی در راه های مسدود شده در مناطق روستایی، برون شهری و شهری دست یافته است. می توان دریافت که زمانی که جاده توسط تاج درخت و سایه های آن مسدود می شود، بین نتایج DeepLab v3+ و UNet فاصله وجود دارد. نتایج به دست آمده از CADUNet پیشنهادی نسبت به روش های دیگر به حقیقت اصلی نزدیک تر است. صافی لبه های جاده به طور قابل توجهی بهبود یافته است. UNet در صحنه های 3 و 6 خوب عمل می کند، اما در صحنه های 1، 2 و 4 ضعیف عمل می کند. DeepLab V3+ در صحنه های 1 و 3 عملکرد خوبی داشت و DenseUNet در صحنه های 3 و 5 عملکرد خوبی داشت اما در صحنه ها عملکرد خوبی نداشت. صحنه های باقی مانده در صحنه های 1 و 2 عملکرد CDenseUNet و GDenseUNet ضعیف است و عملکرد در سناریوهای دیگر بهتر است. سرانجام،
4.1.2. مجموعه داده های CVPR
شکل 7نتایج استخراج شده از مجموعه داده های جاده CVPR را با این 6 روش نشان می دهد. صحنههای اول و دوم شامل جادههایی است که در مناطق روستایی توسط سایبان درختان مسدود شدهاند و صحنههای سوم و چهارم جادههایی هستند که در حومه شهر با سایبان درختان پوشیده شدهاند. صحنههای پنجم و ششم، جادههایی را در منطقه شهری نشان میدهند که توسط سایههای ساختمانهای بلند پوشیده شدهاند. روش CADUNet ما نتایج خوبی در استخراج اطلاعات راه های روستایی، برون شهری و شهری به دست آورده است. صحنه اول نشان می دهد که هنگام مواجهه با یک جاده نیمه پوشیده، نتایج به دست آمده با روش UNet بهتر از DeepLabv3+ و DenseUNet است. در صحنه های دوم و ششم، زمانی که بخشی از تاج درخت و سایه های ساختمان های مرتفع جاده را مسدود می کند، عملکرد DeepLab V3+ بهتر از UNet و DenseUNet است. DenseUNet فقط در صحنه چهارم عملکرد بهتری را نشان می دهد، در حالی که CDenseUNet فقط در صحنه های سوم و ششم بهتر عمل می کند. GDenseUNet و CADUNet بهترین نتایج را در صحنه های اول، دوم، سوم و پنجم مسدود شده توسط تاج درخت به دست آوردند. بدیهی است که مکانیسم توجه جهانی نقش آشکاری در استخراج جاده های مسدود شده توسط تاج درخت و ایجاد سایه دارد. در مجموعه داده CVPR، مکانیسم توجه جهانی نقش کلیدی در حل مشکل انسداد دارد. روشهای دیگر به دلیل استفاده نکردن از مکانیسم توجه اصلی، تأثیرات ضعیفی بر صحنه چهارم نشان میدهند. بنابراین، این روش CADUNet با مکانیسم توجه دوگانه آبشاری به نتایج خوبی دست یافته است. مکانیسم توجه جهانی نقش آشکاری در استخراج جاده های مسدود شده توسط تاج درخت و ایجاد سایه دارد. در مجموعه داده CVPR، مکانیسم توجه جهانی نقش کلیدی در حل مشکل انسداد دارد. روشهای دیگر به دلیل استفاده نکردن از مکانیسم توجه اصلی، تأثیرات ضعیفی بر صحنه چهارم نشان میدهند. بنابراین، این روش CADUNet با مکانیسم توجه دوگانه آبشاری به نتایج خوبی دست یافته است. مکانیسم توجه جهانی نقش آشکاری در استخراج جاده های مسدود شده توسط تاج درخت و ایجاد سایه دارد. در مجموعه داده CVPR، مکانیسم توجه جهانی نقش کلیدی در حل مشکل انسداد دارد. روشهای دیگر به دلیل استفاده نکردن از مکانیسم توجه اصلی، تأثیرات ضعیفی بر صحنه چهارم نشان میدهند. بنابراین، این روش CADUNet با مکانیسم توجه دوگانه آبشاری به نتایج خوبی دست یافته است.
4.2. اتصال به شبکه جاده ای
4.2.1. مجموعه داده ماساچوست
برای مجموعه داده های جاده ماساچوست، از 6 روش برای استخراج شبکه های جاده ای پیچیده، از جمله روستایی (صحنه های 1-3 در شکل 8 )، حومه ای (صحنه های 4-5 در شکل 8 ) و شبکه های جاده ای شهری (صحنه 6 در شکل 8 ) استفاده می شود. ، و مرکز حمل و نقل (صحنه های 7-8 در شکل 8 ). از نتایج استخراج در مناطق روستایی، حومه و شهری، CADUNet در جاده های پراکنده روستایی، جاده های برون شهری و شهری مجاور پارکینگ ها عملکرد خوبی دارد. هنگام مقایسه مدلهای دیگر، روش CADUNet نه تنها به ویژگیهای بصری جاده بستگی دارد، بلکه با مدلسازی بافت جاده، توانایی استدلال خاصی نیز دارد. از شکل 8 قابل مشاهده استکه شبکه جاده ای به دست آمده توسط شبکه های UNet و Deeplab V3+ دارای نقص های آشکار است. در مقایسه با UNet و DeepLab V3+، DenseUNet بهبودهایی دارد. در مقایسه با DenseUNet استاندارد، CDenseUNet و GDenseUNet وقفه جاده را کاهش می دهند و اتصال شبکه جاده را افزایش می دهند. در مقایسه با 5 مدل قبلی، نتایج بهدستآمده توسط CADUNet اتصال جادهای بهتر و وقفههای جادهای کمتری را انجام میدهند.
ارزیابی دقت نشان میدهد که OA، یادآوری، دقت، امتیاز F1 و IoU بهدستآمده توسط CADUNet بالاترین میزان را دارند و به ترتیب به 98.00، 76.55، 79.45، 77.89 درصد و 64.12 درصد میرسند ( جدول 1 ). در مقایسه با UNet، امتیاز F1 و IoU با روش CADUNet به ترتیب 2.49% و 4.26% افزایش یافت. در مقایسه با DenseUNet استاندارد، امتیاز F1 و IoU توسط CADUNet به ترتیب 3.25% و 4.16% افزایش یافت. پس از افزودن دو ماژول توجه، نسبت تقاطع توسط CADUNet به ترتیب 3.04% و 2.21% در مقایسه با CDenseUNet و GDenseUNet افزایش یافت.
4.2.2. مجموعه داده های CVPR
همانطور که در شکل 9 نشان داده شده است ، نتایج بر اساس مجموعه داده های جاده CVPR شامل جاده های روستایی (صحنه های 1-3)، جاده های برون شهری (صحنه های 4-5) و جاده های شهری (صحنه 6) است. بهترین نتایج استخراج شده توسط CADUNet جاده های روستایی و پس از آن جاده های برون شهری و جاده های شهری هستند. مقایسه بین 6 مدل نشان می دهد که نتایج UNet و DeepLab V3+ بدترین اتصال شبکه جاده ای و ناقص بودن شدید جاده را دارند. CDenseUNet و GDenseUNet بر اساس DenseUNet پیشرفت کرده اند، اما هنوز هم کاستی های خاص خود را دارند و اتصال جاده ضعیف است. با توجه به تعبیه مکانیسم توجه دوگانه آبشاری در DenseUNet، روش CADNUnet بهترین نتایج را از نظر اتصال شبکه جاده ای به دست آورده است.
در آزمایش با مجموعه داده جاده CVPR، روش CADUNet به بالاترین دقت کلی، امتیاز F1 و IoU رسید که به ترتیب به 97.09٪، 76.28٪ و 62.08٪ رسید ( جدول 2 ). در مقایسه با UNet، فراخوان و IoU این روش به ترتیب 14/6 و 83/3 درصد افزایش یافته است. در مقایسه با Deeplab V3+، روش CADUNet IoU را 5.57 درصد افزایش می دهد. پس از افزودن دو مکانیسم توجه، روش CADUNet نسبت به DenseUNet امتیاز F1 و IoU را 1.67% و 2.11% افزایش داده است.
4.3. عملکرد از دست دادن
شکل 10 a,b منعکس کننده تغییرات تابع ضرر با دوره های مربوط به مجموعه داده های آموزشی ماساچوست و CVPR است. با افزایش دوره های آموزشی، تلفات هر 6 مدل به تدریج با افزایش دسته های آموزشی کاهش می یابد. CADUNet پیشنهاد شده در این مقاله نرخ نزولی بهتری را در تابع ضرر نسبت به UNet، DeepLab V3+، CDenseUNet و GDenseUNet نشان میدهد. UNet و DeepLab V3+ بدترین عملکرد را داشتند. شکل 6 c,d تغییرات در تابع ضرر مربوط به دوره های آموزشی در مجموعه داده های اعتبارسنجی ماساچوست و CVPR را نشان می دهد. CADUNet پیشنهاد شده در این مقاله دارای کمترین مقدار تلفات تایید شده در دو مجموعه داده است، یعنی نتیجه بهدستآمده از روش نزدیکترین به حقیقت است. پس از 25 دوره CADUNet، مدل تمایل به پایداری دارد.
5. بحث
در نتایج استخراج جاده از تصاویر VHR، اثر انسداد تاج درخت و ساختمان های بلند در کنار جاده اغلب منجر به ناقص بودن سطح جاده و حتی قطع شدن شبکه راه می شود. به عنوان چارچوب اصلی CADUNet پیشنهادی، شبکه تقسیمبندی معنایی DenseUNet در استفاده از ویژگیهای عمیق تصویر، اجتناب از پراکندگی گرادیان و آموزش آسان شبکه به خوبی عمل میکند. عملکرد استفاده مجدد از ویژگی آن می تواند تضمین کند که بیشترین اطلاعات جاده بین لایه های شبکه حفظ می شود و در نتیجه اتصال شبکه جاده استخراج شده را بهبود می بخشد. بنابراین، پایه محکمی برای استخراج اطلاعات جاده ای ایجاد می کند. علاوه بر این، ماژول توجه جهانی که به مدل DenseUNet اضافه کردهایم میتواند اطلاعات زمینه جهانی را از نقشه ویژگی جاده افزایش دهد، در نتیجه قطع جاده ناشی از انسداد تاج درخت و سایههای ساختمان را تا حدی کاهش میدهد و یکپارچگی جاده به طور قابل توجهی بهبود مییابد. ما ماژول توجه اصلی را به مدل DenseUNet اضافه کردیم تا ویژگیهای سطح پایین بیشتری را در نقشه ویژگیهای سطح بالا ترکیب کنیم، تا اطمینان حاصل کنیم که اطلاعات جادهها به بیشترین میزان در بلوکهای متراکم در شبکه منتقل میشود و بیشتر به جهانی کمک میکند. ماژول توجه برای به دست آوردن اطلاعات بیشتر جاده در قسمت رمزگذاری. این ماژول اتصال شبکه جاده را بهبود می بخشد و در عین حال یکپارچگی سطح جاده و صافی خطوط کناری در قسمت رمزگشایی را بازیابی می کند. در نتیجه قطعی جاده ناشی از انسداد تاج درختان و سایه های ساختمان تا حدی کاهش می یابد و یکپارچگی جاده به طور قابل توجهی بهبود می یابد. ما ماژول توجه اصلی را به مدل DenseUNet اضافه کردیم تا ویژگیهای سطح پایین بیشتری را در نقشه ویژگیهای سطح بالا ترکیب کنیم، تا اطمینان حاصل کنیم که اطلاعات جادهها به بیشترین میزان در بلوکهای متراکم در شبکه منتقل میشود و بیشتر به جهانی کمک میکند. ماژول توجه برای به دست آوردن اطلاعات بیشتر جاده در قسمت رمزگذاری. این ماژول اتصال شبکه جاده را بهبود می بخشد و در عین حال یکپارچگی سطح جاده و صافی خطوط کناری در قسمت رمزگشایی را بازیابی می کند. در نتیجه قطعی جاده ناشی از انسداد تاج درختان و سایه های ساختمان تا حدی کاهش می یابد و یکپارچگی جاده به طور قابل توجهی بهبود می یابد. ما ماژول توجه اصلی را به مدل DenseUNet اضافه کردیم تا ویژگیهای سطح پایین بیشتری را در نقشه ویژگیهای سطح بالا ترکیب کنیم، تا اطمینان حاصل کنیم که اطلاعات جادهها به بیشترین میزان در بلوکهای متراکم در شبکه منتقل میشود و بیشتر به جهانی کمک میکند. ماژول توجه برای به دست آوردن اطلاعات بیشتر جاده در قسمت رمزگذاری. این ماژول اتصال شبکه جاده را بهبود می بخشد و در عین حال یکپارچگی سطح جاده و صافی خطوط کناری در قسمت رمزگشایی را بازیابی می کند. ما ماژول توجه اصلی را به مدل DenseUNet اضافه کردیم تا ویژگیهای سطح پایین بیشتری را در نقشه ویژگیهای سطح بالا ترکیب کنیم، تا اطمینان حاصل کنیم که اطلاعات جادهها به بیشترین میزان در بلوکهای متراکم در شبکه منتقل میشود و بیشتر به جهانی کمک میکند. ماژول توجه برای به دست آوردن اطلاعات بیشتر جاده در قسمت رمزگذاری. این ماژول اتصال شبکه جاده را بهبود می بخشد و در عین حال یکپارچگی سطح جاده و صافی خطوط کناری در قسمت رمزگشایی را بازیابی می کند. ما ماژول توجه اصلی را به مدل DenseUNet اضافه کردیم تا ویژگیهای سطح پایین بیشتری را در نقشه ویژگیهای سطح بالا ترکیب کنیم تا اطمینان حاصل کنیم که اطلاعات جادهها به بیشترین میزان در بلوکهای متراکم در شبکه منتقل میشود و بیشتر به جهانی کمک میکند. ماژول توجه برای به دست آوردن اطلاعات بیشتر جاده در قسمت رمزگذاری. این ماژول اتصال شبکه جاده را بهبود می بخشد و در عین حال یکپارچگی سطح جاده و صافی خطوط کناری در قسمت رمزگشایی را بازیابی می کند.
شکل 11نتایج ارزیابی دقت شش مثال را با استفاده از مجموع شش مدل در مجموعه داده ماساچوست نشان میدهد، جایی که مناطق سبز، قرمز و آبی به ترتیب نشاندهنده TP، FP و FN هستند. خط اول در شکل تصویری با یک جاده حلقه و نتایج استخراج آن را نشان می دهد. فقط مدلهای CDenseUNet و CADUNet با مکانیسم توجه مرکزی بیشترین وسعت TP و کمترین مساحت FP و FN را دارند و حلقه نسبتاً کامل است. این نشان می دهد که مکانیسم توجه اصلی کمبود مکانیسم توجه جهانی را تا حدودی جبران می کند. ردیف دوم نتیجه استخراج جاده ای را نشان می دهد که توسط راه آهن مرتفع محافظت می شود. از این پانلها میتوان دریافت که استفاده از مدلهای CDenseUNet، GDenseUNet و CADUNet میتواند جادههای محدودی را که توسط راهآهن محافظت میشوند استخراج کند. این نشان دهنده برتری هسته و ماژول های توجه جهانی است. CADUNet به دلیل استفاده از دو ماژول توجه آبشاری بیشترین ناحیه TP و کمترین ناحیه FP و FN را دارد. ردیف سوم نتیجه استخراج یک تصویر را با تقاطع جاده اصلی و جاده فرعی نشان می دهد. با UNet و مدل DeepLab V3+، فقط جاده اصلی قابل شناسایی است. بر اساس مدل های DenseUNet، CDenseUNet و CADUNet، کیفیت استخراج بهتر از سه مدل دیگر است. مدل CADUNet به بزرگترین مناطق TP و کوچکترین مناطق FP و FN دست می یابد که مزیت مکانیسم توجه آبشاری را نشان می دهد. ردیف چهارم نتایج استخراج جاده هایی را نشان می دهد که توسط سایبان های متراکم درختان در کنار جاده مسدود شده اند. مدل های CDenseUNet، GDenseUNet و CADUNet نتایج خوبی به دست آوردند. مکانیسم توجه دوگانه ادغام شده در مدل CADUNet می تواند مشکل مسدود شدن جاده ها توسط تاج درخت را حل کند. از پانل های ردیف 5 می توان فهمید که تمام شش مدل فوق می توانند جاده اصلی را شناسایی کنند اما نمی توانند جاده فرعی متصل به خانه های مسکونی را شناسایی کنند. در مجموعه داده ماساچوست، مجموعه داده برچسبگذاری شده معمولاً چنین جادههای کوچکی را شامل نمیشود، به طوری که در شش مدل شبکه هنگام یادگیری نادیده گرفته میشوند. بنابراین، خطا به دلیل ناهماهنگی دادههای برچسبگذاری و مجموعه داده برچسبگذاری کلی است. ردیف 6 مربوط به تصویری با منطقه تقاطع جاده اصلی و فرعی است. در نتایج استخراج، مدلهای DeepLab V3+ و DenseUNet نتایج ضعیفی ارائه میدهند، در حالی که جادههای کوچک شناسایی نمیشوند. با این حال، جاده اصلی و یکی از جاده های فرعی را می توان با استفاده از CDenseUNet به خوبی شناسایی کرد. مدل های GDenseUNet و CADUNet و بیشترین ناحیه TP و کمترین مناطق FP و FN را می توان با مدل CADUNet به دست آورد. در همان زمان، هر شش مدل هنوز یکی از جادههای کوچک برچسبگذاری شده در مجموعه داده ارزیابی را از دست دادند. اگرچه جاده فرعی در دادههای ارزیابی برچسبگذاری شده است، ویژگیهای آن بهعنوان جاده مشخص نیست، که تشخیص آن را برای شش مدل دشوار میکند.
شکل 12نتایج ارزیابی دقت شش نمونه استخراج جاده را با استفاده از مجموع شش مدل در مجموعه داده CVPR نشان می دهد، و تعاریف رنگ با موارد فوق مطابقت دارد. تابلوهای ردیف اول تصویری را با تقاطع جاده اصلی و جاده های فرعی آن در مناطق روستایی نشان می دهد. این 6 مدل صرفاً جاده اصلی را استخراج می کنند، اما نه جاده فرعی را که به مجموعه داده برچسب گذاری مربوط می شود. در مجموعه داده برچسبگذاری، تنها بخش کوچکی از جادههای این نوع برچسبگذاری شدهاند و بیشتر آنها برچسبگذاری نشدهاند. در نتیجه، این مدل های یادگیری عمیق را نمی توان برای تشخیص جاده های فرعی از این نوع استفاده کرد. تابلوهای خط دوم جاده روستایی را نشان می دهد که درختان در آن سایه انداخته اند. برای این نوع تصویر با جاده های روستایی، مدل های DenseUNet، CDenseUNet، GDenseUNet و CADUNet نتایج خوبی به دست آورده اند. به دست آوردن مناطق TP بیشتر و مناطق FP و FN کمتر، که اثربخشی DenseUNet را به عنوان پایه این شبکه ها و مکانیسم های توجه دوگانه در استخراج جاده ها را برجسته می کند. برای تصویر با جاده های موازی نشان داده شده در ردیف سوم، مدل CADUNet به خوبی عمل می کند و بیشترین ناحیه TP و کمترین ناحیه FP و FN را به دست می آورد که نشان دهنده برتری مکانیسم توجه آبشاری است. با این حال، هنوز یک شکاف بین این نتیجه استخراج و مجموعه داده برچسبگذاری شده وجود دارد، زیرا یکی از جادههای موازی از دادههای برچسبگذاری حذف شده است. تصاویر در ردیف چهارم، منطقه تقاطع دو جاده را نشان می دهد که با اثر مسدود کننده سایبان کنار جاده همراه است. برای این تصویر، مدل CADUNet به مناطق TP بیشتر و کمترین مناطق FP و FN دست یافت و بهترین اثر تشخیص را به دست آورد. بنابراین منعکس کننده مزایای مکانیسم توجه آبشاری است. ردیف پنجم و ششم تصویر یک جاده منحنی و اثر استخراج آن در یک منطقه شهری را منعکس می کند و بخشی از جاده به وضوح توسط سایه ساختمان ها مسدود شده است. نتایج خوب تنها از طریق مدلهای CDenseUNet و CADUNet به دست آمد و نتایج از طریق چهار مدل دیگر نسبتا ضعیف است، که نشان میدهد مکانیسم توجه اصلی نقش مهمی در استخراج این نوع جاده دارد.
6. نتیجه گیری
در این مطالعه، ما یک مدل CADUNet ابتکاری را بر اساس چارچوب DenseUNet برای حل مشکلات سطح جاده ناقص، حاشیههای ناهموار و اتصال ضعیف شبکه جادهای به دلیل تاج درخت کنار جاده در تصاویر HRV پیشنهاد کردیم. ما ماژول های توجه جهانی را برای به دست آوردن اطلاعات جهانی جاده اضافه کردیم و ماژول های توجه اصلی را معرفی کردیم تا اطمینان حاصل کنیم که اطلاعات جاده به بیشترین میزان در بین لایه های مختلف شبکه در محدوده های متراکم منتقل می شود. این مدل میتواند اطلاعات جادهای بیشتری را از مکانهای مختلف استخراج کند تا یکپارچگی جاده را بهبود بخشد و استحکام استخراج ویژگی را در زیر تاج درختان و سایههای ساختمانهای بلند شهری افزایش دهد. در نهایت، یک تابع از دست دادن تطبیقی برای متعادل کردن نسبت مناطق جاده به مناطق غیر جاده ای در نمونه های آموزشی معرفی شد. این مقاله از مجموعه داده ماساچوست و مجموعه داده DeepGLOBE-CVPR 2018 برای آزمایش های مقایسه ای استفاده کرد. نتایج نشان داد که مدل CADUNet در استخراج جاده از تصاویر VHR دلگرم کننده تر است.
اگرچه مدل شبکه ما به عملکرد خوبی دست یافته است، اما هنوز برای مشکلات تقسیم بندی معنایی ناکافی و بیش از حد جاده ها در مورد صاف بودن حاشیه، وقفه و اتصال شبکه جاده ها جا برای بهبود وجود دارد. علاوه بر این، انتظار میرود که کیفیت مجموعه دادههای برچسب در ادامه کار بیشتر بهبود یابد.
بدون دیدگاه