منهول در تصاویر سنجش از دور با شبکه های عصبی پیچیده عمیق

تشخیص پوشش منهول کوچک در تصاویر سنجش از دور با شبکه های عصبی پیچیده عمیق

خلاصه

با توسعه فناوری سنجش از دور و ظهور تصاویر با وضوح بالا، به دست آوردن داده ها به طور فزاینده ای راحت شده است. با این حال، کسب اطلاعات پوشش منهول کوچک هنوز دارای کاستی هایی از جمله راندمان پایین نقشه برداری دستی و نرخ نشتی بالا است. اخیراً، مدل‌های یادگیری عمیق، به‌ویژه شبکه‌های عصبی کانولوشنال عمیق (DCNN)، ثابت کرده‌اند که در تشخیص اشیا مؤثر هستند. با این حال، چالش‌های متعددی کاربرد DCNN را در تشخیص اشیاء پوشش منهول با استفاده از تصاویر سنجش از دور محدود می‌کند: (1) اشیاء پوشش منهول اغلب در مقیاس‌های مختلف در تصاویر سنجش از راه دور ظاهر می‌شوند و میدان گیرنده ثابت DCNN‌ها نمی‌تواند با تنوع مقیاس چنین اشیایی مطابقت داشته باشد. (2) اشیاء پوشش منهول در تصاویر سنجش از راه دور در مقیاس بزرگ از نظر اندازه نسبتا کوچک و فشرده هستند. در حالی که DCNN ها وقتی روی چنین اشیایی اعمال می شوند عملکرد محلی سازی ضعیفی دارند. برای رسیدگی به این مشکلات، ما یک روش موثر برای تشخیص اشیاء پوشش منهول در تصاویر سنجش از راه دور پیشنهاد می‌کنیم. ابتدا، استخراج کننده ویژگی را با اتخاذ گروه هندسه بصری (VGG) دوباره طراحی می‌کنیم، که می‌تواند تنوع اندازه میدان دریافتی را افزایش دهد. سپس، تشخیص با استفاده از دو شبکه فرعی انجام می‌شود: یک شبکه خروجی چند مقیاسی (MON) برای تولید لبه‌های شی‌مانند پوشش منهول از چندین لایه میانی که میدان‌های دریافتی آن‌ها با مقیاس‌های شی مختلف مطابقت دارند و یک شبکه تطبیق کانولوشن چند سطحی (M- CMN) برای تشخیص اشیاء بر اساس نقشه‌های ویژگی ذوب شده، که چندین نقشه ویژگی را با هم ترکیب می‌کند که اجسام کوچک و متراکم را قادر می‌سازد تا پاسخ قوی‌تری تولید کنند.

کلید واژه ها:

روکش منهول ; تصاویر سنجش از دور ؛ تشخیص شی ؛ شبکه های عصبی کانولوشنال عمیق

1. معرفی

بررسی پوشش منهول یک موضوع پیچیده در مهندسی است. مدیریت دیجیتال شهر، دستیابی سریع و دقیق موقعیت مکانی و اطلاعات ویژگی یک پوشش منهول معین را ضروری می سازد. متداول‌ترین روش اندازه‌گیری پوشش منهول، جمع‌آوری دستی مبتنی بر پیمایش با استفاده از ایستگاه کل، دوربین دیجیتال و سایر تجهیزات است. برای کاهش هزینه‌های کار و زمان، محققان انواع روش‌های تشخیص پوشش منهول را پیشنهاد کرده‌اند، مانند بررسی وسایل نقلیه هوایی بدون سرنشین (UAV)، وسایل نقلیه اندازه‌گیری سیار و اسکن لیزری روی برد [ 1 ، 2 ]. روش‌های فوق تا حدودی کارآمدتر هستند، اما نمی‌توانند معایب بار سنگین مربوط به جمع‌آوری میدانی و پیچیدگی‌های پردازش داخلی را از بین ببرند. علاوه بر این، تجهیزات نصب شده روی وسیله نقلیه فقط می توانند اطلاعات مربوط به روکش منهول را در نزدیکی حاشیه جاده ها تعیین کنند.

با بهبود وضوح فضایی تصاویر سنجش از دور، تعداد فزاینده ای از محققان تشخیص اشیا را در تصاویر سنجش از دور مطالعه کرده اند [ 4 ، 5 ، 6 ، 7 ، 8 ، 9 ، 10]. در حال حاضر، این رویکرد عمدتاً به سه دسته روش تقسیم می شود: تجزیه و تحلیل تصویر مبتنی بر شی، ادغام اطلاعات مکانی و یادگیری ماشین. الگوریتم های اصلی تشخیص اشیا عمدتاً مبتنی بر مدل های یادگیری عمیق هستند که می توان آنها را به دو دسته تقسیم کرد. اول، الگوریتم‌های تشخیص دو مرحله‌ای می‌توانند پیشنهادهای منطقه‌ای را تولید کنند، بر اساس امتیازات طبقه‌بندی این پیشنهادها از سرکوب غیر حداکثری (NMS) برای حذف پیشنهاد اضافی، پس از غربالگری NMS برای به دست آوردن اشیاء شناسایی‌شده استفاده می‌کند. الگوریتم‌های نماینده شامل الگوریتم‌های سری R-CNN بر اساس پیشنهادات منطقه‌ای هستند، مانند R-CNN [ 6 ]، Fast R-CNN [ 11 ] و Faster R-CNN [ 12] .]. دوم، الگوریتم‌های تشخیص یک مرحله‌ای که نیازی به فاز پیشنهادی منطقه ندارند، مستقیماً مختصات احتمال و موقعیت اشیاء را تولید می‌کنند. نمونه های معمولی YOLO [ 13 ] و SSD [ 14 ] هستند.

اگرچه سریع‌تر R-CNN، YOLO و SSD برای تشخیص اشیایی مانند گربه‌ها، ماشین‌ها، کشتی‌ها یا انسان‌ها در تصاویر مبتنی بر طبیعت موفق هستند، اما به‌طور ویژه برای تشخیص اجسام پوششی کوچک منهول در تصاویر سنجش از راه دور طراحی نشده‌اند. چندین چالش کاربرد آنها را به این روش محدود می کند. پوشش های منهول نسبتا کوچک هستند و در گروه های پراکنده ظاهر می شوند. حتی در یک تصویر سنجش از دور اپتیکال با وضوح بالا با وضوح 0.1 متر × 0.1 متر، پوشش منهول تنها 5 تا 8 پیکسل عرض دارد. R-CNN، YOLO و SSD سریع‌تر با اشیاء کوچک مبارزه می‌کنند زیرا ویژگی‌های CNN مورد استفاده برای تشخیص اشیا از بالاترین نقشه ویژگی کانولوشن با وضوح پایین‌تر جمع‌آوری شده‌اند. پس از چند بار پایین آوردن نمونه، اندازه جسم پوشش منهول در بالاترین نقشه ویژگی کانولوشن، 1/16 یا 1/32 اندازه اصلی در تصاویر ورودی از راه دور است. این کاهش وضوح ممکن است منجر به از بین رفتن ویژگی های مهم شود و در نتیجه منجر به عملکرد تشخیص ضعیف شود.

برای پرداختن به این مسائل، در این مقاله، ما روشی را برای بهبود شبکه HED نشان می‌دهیم [ 15 ] و یک رویکرد عمیق مبتنی بر CNN برای شناسایی پوشش‌های منهول کوچک در تصاویر سنجش از راه دور پیشنهاد می‌کنیم. مشابه سریعتر R-CNN، روش ما شامل دو مرحله است: یک شبکه خروجی چند مقیاسی (MON) و یک شبکه تطبیق پیچیدگی چند سطحی (M-CMN). ابتدا، معماری استخراج کننده ویژگی را با استفاده از روش گروه هندسه بصری (VGG) طراحی مجدد می کنیم [ 16 ]، که می تواند تنوع اندازه میدان های پذیرنده را افزایش دهد. برای شناسایی اجسام پوششی منهول کوچک، MON چندین خروجی جانبی لایه‌های میانی را برای افزایش وضوح نقشه‌های ویژگی ترکیب می‌کند. در نتیجه، اجسام پوششی منهول کوچک و متراکم را قادر می‌سازد تا مناطق بزرگ‌تری از پاسخ‌های قوی ایجاد کنند. طرح‌های شی از نقشه‌های ویژگی میانی مختلف با هم ترکیب می‌شوند تا خروجی‌های MON را تشکیل دهند. سپس، این طرح های پیشنهادی برای تشخیص دقیق شی به M-CMN ارسال می شود.

سهم اصلی این مقاله به شرح زیر است:

1. ما معماری CNN را با استفاده از ماژول قدرتمند HED برای افزایش تنوع اندازه‌های میدان پذیرایی که می‌توان برای گرفتن اشیاء پوششی منهول کوچک به‌طور مؤثرتری مورد استفاده قرار داد، دوباره طراحی کرد. اگرچه HED برای طبقه بندی صحنه و تشخیص لبه آزمایش شده است، طبق دانش ما این اولین باری است که برای تأیید کارایی وظایف تشخیص اشیای کوچک در تصاویر سنجش از راه دور استفاده می شود.

2. ما چندین نقشه ویژگی میانی را ترکیب کردیم تا بتوان چندین سطح از جزئیات را به طور همزمان در نظر گرفت، بنابراین وضوح و دقت تشخیص اشیاء پوشش منهول کوچک و متراکم را بهبود می بخشد.

بقیه این مقاله به شرح زیر سازماندهی شده است. بخش 2 چارچوب تشخیص اشیا را پوشش می دهد. بخش 3 نتایج تجربی مقایسه ای را برای تشخیص اشیا پوشش منهول ارائه می دهد. بخش 4 شامل بحثی درباره این نتایج است و نتیجه گیری در بخش 5 ارائه شده است .

2. CNN چند مقیاسی برای تشخیص اشیاء پوشش منهول

ابتدا ساختار شبکه HED را دوباره طراحی کردیم. شکل 1 معماری دقیق روش پیشنهادی ما را نشان می دهد که از یک VGG16 و یک شبکه خروجی چند مقیاسی (MON) تشکیل شده است که منجر به یک شبکه تطبیق کانولوشن چند سطحی (M-CMN) می شود. VGG16 به عنوان یک استخراج کننده ویژگی استفاده می شود در حالی که هدف MON تولید خروجی های جانبی چند مقیاسی با میدان های مختلف دریافت فیلتر با استفاده از یک سری لایه های میانی است. پس از الحاق مقدار خروجی دکانولوشن خروجی های جانبی و انجام محاسبات کانولوشن برای به دست آوردن لایه همجوشی، این خروجی های جانبی متعدد و لایه همجوشی آنها برای تشخیص دقیق به M-CMN ارسال می شوند. با اشاره به نظارت عمیق [ 15 ]، پارامترهای شبکه ℓسمندهو Lfتوسهبه طور خودکار با استفاده از یک الگوریتم انتشار برگشتی برای تکمیل آموزش شبکه به روز می شوند.

2.1. جزئیات در مورد VGG16 Architecture

استخراج کننده کانولوشن ویژگی یک تصویر سنجش از راه دور با هر اندازه ای را به عنوان ورودی می گیرد و نقشه های ویژگی چند سطحی را خروجی می کند. طراحی این عنصر از آنجایی که انواع لایه ها و تعداد پارامترها به طور مستقیم بر کارایی، دقت و عملکرد آن تأثیر می گذارد، از اهمیت بسیار بالایی برخوردار است. مطالعات [ 17] نشان داده اند که استفاده از یک مدل کانولوشن عمیق تر با عمق چند صد لایه می تواند به طور قابل توجهی عملکرد بسیاری از وظایف تشخیص بصری، مانند تشخیص اشیا، طبقه بندی تصویر و تقسیم بندی معنایی را بهبود بخشد. با این حال، استفاده مستقیم از مدل تشخیص اشیاء بسیار عمیق در تشخیص تصویر سنجش از دور دشوار است زیرا این مدل‌های بسیار عمیق می‌توانند هزینه‌های محاسباتی بالایی را متحمل شوند، زیرا تصاویر سنجش از راه دور بزرگ هستند (معمولاً چند صد مگاپیکسل). علاوه بر این، یک مدل محاسباتی بسیار عمیق به تعداد زیادی نمونه آموزشی نیاز دارد، اما کمبود نسبی تصاویر سنجش از راه دور برچسب‌گذاری شده که می‌توانند به عنوان داده‌های آموزشی مورد استفاده قرار گیرند، وجود دارد. به منظور برآورده کردن این الزامات، ما VGG16 را به عنوان شبکه ستون فقرات انتخاب کردیم که به دلیل عملکرد تعمیم خوب آن به طور گسترده در استخراج کننده های ویژگی استفاده شده است.18 ، 19 ].

از آنجایی که وظیفه تشخیص در این مطالعه شامل اشیاء بسیار کوچک است، ما تکنیک‌های برش دنباله، هسته پیچشی کوچک و “حفظ اندازه ورودی” را برای شبکه VGG16 برای افزایش عمق شبکه اتخاذ کردیم. این تضمین می کند که اندازه ورودی هر لایه با افزایش عمق به شدت کاهش نمی یابد و برای تشخیص اجسام کوچک بهتر سازگار است. به همین دلیل، شبکه فقط از پنج گروه اول VGG16 استفاده می کند. لایه های کاملا متصل و لایه های Soft-Max بریده شده اند. پس از برش دم، ساختار شبکه نشان داده شده در شکل 2 با پیکربندی شبکه ارائه شده در جدول 1 به دست می آید . شبکه اصلاح شده یک ساختار شبکه یادگیری چند مقیاسی و چند ترکیبی است که همانطور که در شکل 1 نشان داده شده است.، خروجی آخرین لایه کانولوشن را در هر مجموعه VGG16 استخراج می کند زیرا اندازه هر مجموعه تصویر متفاوت است. بنابراین، برای گسترش تصویر از هر گروه، که در واقع، به ترتیب معادل 2 تا 16 برابر اندازه گروه دوم تا پنجم تصاویر است، استفاده از کانولوشن/جلوگیری انتقالی نیز ضروری است. به این ترتیب، تصویر در هر مقیاس (هر مجموعه از VGG16 یک مقیاس است) یک اندازه است و سپس این تصاویر با هم ترکیب می شوند.

فرآیند فوق سه مزیت دارد.

1. برش لایه های کاملا متصل و لایه های Soft-Max می تواند به طور قابل توجهی هزینه حافظه و زمان را در طول آموزش و آزمایش کاهش دهد. علاوه بر این، به دلیل اینکه هیچ محدودیتی برای لایه‌های کاملاً متصل و لایه‌های Soft-Max وجود ندارد، تصاویر سنجش از راه دور با هر اندازه‌ای می‌توانند برای آموزش و تشخیص اشیا وارد شوند.

2. استفاده از هسته های کانولوشن 1×1 می تواند به کاهش پارامترهای پیچیدگی کمک کند. علاوه بر این، ظرفیت شبکه و پیچیدگی مدل را می توان به طور موثر افزایش داد، که تشخیص اشیاء پوشش منهول کوچک را بهبود می بخشد.

3. کانولوشن/جلوگیری جابجا شده اجازه می دهد تا هر گروه از تصاویر بسط داده شوند، که می تواند خروجی ویژگی را “حفظ اندازه ورودی” کند و بهتر آن را با تشخیص پوشش منهول کوچک تطبیق دهد.

2.2. شبکه خروجی چند مقیاسی (MON)

HED یک الگوریتم یادگیری ویژگی چند مقیاسی و چند سطحی است که با استفاده از تشخیص لبه برای دستیابی به پیش‌بینی انتها به انتها با یک مدل یادگیری عمیق مبتنی بر شبکه‌های عصبی کاملاً کانولوشن و شبکه‌های تحت نظارت عمیق است. HED به طور خودکار عبارات سلسله مراتبی غنی را یاد می گیرد و برای حل ابهام چالش برانگیز در تشخیص لبه و تشخیص مرز شی بسیار مهم است. به منظور رسیدگی به اندازه بسیار کوچک درپوش های منهول، ما مدل HED را برای انجام بهتر استخراج مرز و ایجاد مناطق لبه از طریق چندین لایه میانی با میدان های دریافتی مختلف بهبود دادیم. جدول 2) بهبود دادیم.) با الهام از SSD. این شبکه خروجی چند مقیاسی (MON) نام دارد. به طور خاص، فیلترهایی با اندازه کوچکتر (1 × 1) اضافه کردیم تا اشیاء پوشش منهول متراکم را در تصاویر سنجش از دور ثبت کنیم.

همانطور که در شکل 1 و 2 نشان داده شده است، لایه خروجی جانبی خود را به آخرین لایه کانولوشن در هر گروه (conv1_2، conv2_2، conv3_3، conv4_3 و conv5_3) متصل می کنیم. اندازه میدان پذیرنده هر یک از این لایه های کانولوشن با لایه خروجی جانبی مربوطه یکسان است. ما آخرین گروه VGG16 شامل لایه پنجم و تمام لایه‌های کاملاً متصل را برش می‌دهیم، زیرا لایه با گام 32 یک پوشش منهول خروجی ایجاد می‌کند که بسیار کوچک است، در نتیجه نقشه پیش‌بینی درون‌یابی شده برای استفاده بیش از حد مبهم خواهد بود. .

در طول آموزش، بیش از 90 درصد از پیکسل ها در زمینه حقیقت غیر لبه هستند، که بسیار مغرضانه است. در پاسخ به این نمونه گیری مغرضانه، هوانگ و لیو [ 8 ] یک تابع زیان حساس به هزینه را معرفی کردند و پارامترهای مبادله اضافی را شامل شدند. MON از همان روش HED برای جلوگیری از از دست دادن تعادل بین نمونه‌های مثبت و منفی استفاده می‌کند، که عبارت است از معرفی سطح پیکسلی وزن متعادل کلاس β . تابع تلفات متقابل آنتروپی متعادل کلاس به صورت زیر تعریف می شود:

ℓسمنده(متر)(دبلیو،w(متر))=-β*ورود به سیستم(سمنgمترoمند(y))-(1-β)*ورود به سیستم(1-سمنgمترoمند(y))

(1)

جایی که W به پارامترهای لایه شبکه استاندارد اشاره دارد، w = ( w (1)، …، w ( m )) به وزن های مربوط به هر لایه خروجی جانبی اشاره دارد، m شبکه ای است که m لایه خروجی جانبی دارد و β = | Y _|/| Y | و 1 – β = | Y +|/| Y | و | Y _| و | Y +| به ترتیب مجموعه برچسب حقیقت زمین لبه و غیر لبه هستند.

برای استفاده از نتایج پیش‌بینی خروجی جانبی، تابع تلفات به نام _فیوز L ( W , w , h ) برای افزودن یک لایه همجوشی وزنی است:

Lfتوسه(دبلیو،w،ساعت)=Dمنستی(Y،Yfتوسه)∧

(2)

که در آن h = ( h ₁ ، …، h _m ) وزن همجوشی و Dist (…) فاصله بین پیش بینی های ذوب شده و نقشه برچسب حقیقت زمین است. با کنار هم قرار دادن هر تابع ضرر، MON تابع هدف زیر را از طریق انتشار گرادیان نزولی تصادفی (SGD) به حداقل می رساند:

(دبلیو،w،ساعت)*=ارگدقیقه(ℓسمنده(متر)(دبلیو،w(متر))+Lfتوسه(دبلیو،w،ساعت))

(3)

که در آن پارامترهای بهینه W توسط SGD [ 20 ] بهینه شده است. برای جلوگیری از برازش بیش از حد، ما مدل HED از پیش آموزش‌دیده [ 15 ] را برای بخش‌بندی PASCAL VOC-2012 اتخاذ کردیم تا لایه‌های کانولوشنال را مقداردهی کنیم. هنگامی که آموزش MON به پایان رسید، نتایج پیش بینی شده را از لایه خروجی جانبی و لایه همجوشی وزنی به طور همزمان بدست می آوریم و آنها را با هم ادغام می کنیم تا تصویر بهتری بدست آوریم.

2.3. شبکه تطبیق کانولوشن چند سطحی (M-CMN)

روش‌های سنتی تشخیص شیء، تصویر سنجش از راه دور ورودی را چندین بار تغییر مقیاس می‌دهند ( شکل 3 الف) یا چندین فیلتر را روی یک تصویر ورودی اعمال می‌کنند ( شکل 3 ب) تا با تمام اشیاء هدف ممکن مطابقت داشته باشد. این امر استفاده از چندین لایه نقشه ویژگی را برای این روش ها دشوار می کند. به منظور افزایش دقت تشخیص، روش جدیدی به نام M-CMN برای به دست آوردن تشخیص پوشش منهول از طریق پنج لایه خروجی جانبی و چند لایه همجوشی با اندازه‌های مختلف فیلتر پیشنهاد می‌کنیم (شکل 3) .ج). M-CMN یک تصویر سنجش از راه دور با لبه‌های پیش‌بینی‌شده‌اش (تولید شده توسط MON) به عنوان ورودی می‌گیرد و تشخیص پوشش منهول تصفیه شده را خروجی می‌کند. M-CMN با الهام از موفقیت ترکیب نمایش چند سطحی در SSD، لایه‌های چند سطحی را با وضوح‌های مختلف ترکیب می‌کند تا به نقشه‌های ویژگی آموزنده‌تر برای تشخیص دقیق پوشش منهول دست یابد ( شکل 3) .ج). از آنجایی که اشیاء پوشش منهول در تصاویر سنجش از راه دور در مقیاس بزرگ اندازه نسبتاً کوچکی دارند و در گروه‌های توزیع متراکم ظاهر می‌شوند، ما به طور خاص لایه conv1_2 را به عنوان لایه مرجع انتخاب کردیم و لایه‌های conv2_2 و conv3_3 و لایه‌های conv4_3 و conv5_3 را با مقیاس‌بندی بالا به هم متصل کردیم. (با استفاده از کانولوشن انتقال/پیچیدگی انتقالی). این به این دلیل است که لایه conv1_2 با وضوح بالاتر برای تشخیص اجسام کوچک و متراکم پوشش منهول مناسب تر است. همانطور که در آزمایش‌های ما نشان داده شده است، از آنجایی که لایه‌های کم‌عمق‌تر برای مرجع مناسب‌تر هستند و لایه‌های عمیق‌تر برای تطبیق مناسب‌تر هستند، نقشه‌های ویژگی به هم پیوسته برای تشخیص پوشش منهول در اندازه کوچک مکمل هستند.

3. نتایج تجربی

در این بخش، روش خود را برای تشخیص پوشش منهول کوچک از تصاویر سنجش از دور ارزیابی می‌کنیم. آزمایش‌ها بر اساس چارچوب یادگیری عمیق ما پیاده‌سازی شده و بر روی سروری با E5-2697V4 * 2 CPU، NVIDIA K80*20 GPU، حافظه 256 گیگابایتی و Ubuntu 16.04 به عنوان سیستم عامل سرور اجرا می‌شوند.

3.1. مجموعه داده

عکس‌های هوایی با وضوح فضایی 0.05 متر از شهر ژنجیانگ، استان جیانگ سو، که در سال 2017 گرفته شده‌اند، در این مطالعه استفاده شد. یک سند نتیجه بررسی (نقاط برداری) برای پوشش های منهول در این منطقه وجود دارد که به راحتی می توان با دسته حقیقت زمین در تصویر برچسب گذاری کرد. داده های حقیقت زمینی برچسب گذاری شده را می توان در آن مشاهده کرد شکل 4 مشاهده کرد. با در نظر گرفتن حافظه GPU و سرعت پردازش، هر تصویر هوایی اصلی به چندین بلوک تصویر مجاور با وضوح 512 × 512 پیکسل برش داده می شود، که افزایش آن ها را آسان تر می کند و حافظه GPU کمتری مصرف می کند، که می تواند کارایی آموزش را بهبود بخشد. با توجه به اندازه کوچک درپوش های منهول، نسبت همپوشانی بلوک تصویر مجاور را 0.05 تنظیم کردیم و حاشیه نویسی اهدافی را که از مرزهای بلوک تصویر عبور می کنند حذف کردیم. سپس، بلوک های تصویری بدون اهداف پوشش منهول دور ریخته می شوند. از 2382 تصویر (23252 شی پوشش منهول) پس از پردازش دسته ای، 1500 به عنوان مجموعه داده های آموزشی، 500 به عنوان مجموعه داده های اعتبار سنجی و 382 به عنوان مجموعه داده های آزمایشی استفاده می شود.

3.2. مدل و پارامترها

روش ما به هک مهندسی نسبتا کمی نیاز دارد زیرا چارچوب ما با استفاده از کتابخانه Caffe و TensorFlow در دسترس عموم پیاده‌سازی می‌شود و شبکه از مدل VGG16 و مدل HED از پیش آموزش‌دیده تنظیم شده است.

با پیروی از استراتژی‌های مشخص شده در Dollár و Zitnick [ 21 ]، ما تغییرات مختلف شبکه و همچنین آموزش پارامترهای فوق‌العاده را در مجموعه اعتبارسنجی ارزیابی می‌کنیم. از طریق آزمایش، ما فوق پارامترهای زیر را انتخاب کردیم: اندازه کوچک دسته ای (12)، نرخ یادگیری (1e-6)، کاهش وزن αm برای هر لایه خروجی جانبی (1)، تکانه (0.9)، وزن های اولیه فیلتر تو در تو. (0)، وزن اولیه لایه همجوشی (1/5)، کاهش وزن (0.0002) و تکرار تمرین (10000؛ تقسیم نرخ یادگیری بر 10 بعد از 5000).

3.3. نتایج

به منظور استفاده بهتر از شبکه‌های کانولوشن برای شناسایی اشیاء پوشش منهول، ما تشخیص پیچیدگی را در چندین لایه خروجی MON انجام می‌دهیم. همانطور که در شکل 5 نشان داده شده است، اطلاعات مربوط به تصاویر سنجش از راه دور شناسایی شده توسط شش لایه خروجی شبکه MON نشان می دهد که جزئیات لایه های خروجی جانبی 1-5 تمایل به کاهش دارد، در حالی که لبه لایه همجوشی آشکار است و برخی جزئیات نیز مشخص است. حفظ شد. این به این دلیل است که شبکه MON خود یک شبکه همجوشی چند مقیاسی است. همانطور که میدان های پذیرنده لایه خروجی جانبی بزرگتر می شوند، جزئیات محلی به تدریج تخریب می شوند، در حالی که لایه همجوشی با به دست آوردن اطلاعات چند مقیاسی، جزئیات محلی را حفظ می کند.

ما سه شاخص پرکاربرد را برای ارزیابی عملکرد تشخیص پوشش منهول اتخاذ می کنیم. یعنی دقت، یادآوری و امتیاز F1. دقت اندازه گیری کسر تشخیص هایی است که مثبت واقعی هستند و یادآوری اندازه گیری کسری از موارد مثبت است که به درستی شناسایی شده اند. امتیاز F1 معیارهای ترکیبی دقت و یادآوری در یک معیار واحد برای ارزیابی جامع کیفیت یک روش تشخیص شی است [ 4 ].

جدول 3 نتایج مقایسه کمی 9 روش مختلف را نشان می دهد که با دقت، یادآوری و امتیاز F1 اندازه گیری شده اند. بهترین اجراها به صورت ایتالیک و زیر خط کشیده شده اند. مشاهدات زیر ذکر شد: (1) در مقایسه با سریع‌تر R-CNN، YOLOv3 به عملکرد تشخیص مشابه اندازه‌گیری شده در Precision و YOLOv3 دستاوردهای عملکردی در Recall و F1-score به دست می‌آورد. SSD بالاترین Recall را دارد اما دقت کمی پایین‌تر است. در بین سه روش مقایسه، YOLOv3 بهترین عملکرد را با توجه به نرخ فراخوان و دقت دارد و سرعت پردازش آن نیز سریع‌ترین است. (2) در مقایسه با SSD، الگوریتم DSSD [ 22 ] امتیاز FI را به 0.8108 افزایش می‌دهد. با این حال، از آنجایی که DSSD از resnet-101 به عنوان یک شبکه اصلی استفاده می کند، سرعت آموزش بسیار کمتر است. FSSD [ 23] از FPN درس می گیرد و از یک هسته پیچشی کوچک استفاده می کند، بنابراین دقت الگوریتم به وضوح بهبود می یابد و سرعت آموزش کاهش نمی یابد. در تست پوشش منهول کوچک، عملکرد FSSD کمی بهتر است و امتیاز FI به 0.8266 می رسد. (3) روش های همجوشی ما به مقادیر بهینه یا کمتر از حد بهینه دقت، یادآوری و امتیاز F1 برای اجسام پوشش منهول دست می یابند. در مقایسه با هر نه روش، Ours-fusion 4 بهترین عملکرد را از نظر دقت و Ours-fusion 2 بهترین عملکرد را از نظر Recall به دست آورد، که نشان می دهد جسم پوشش منهول که 4 بار ظاهر می شود می تواند به طور موثر دقت تشخیص اشیا را بهبود بخشد اما تأثیر زیادی در یادآوری. شیء پوشش منهول که دو بار ظاهر می شود می تواند به طور موثر Recall تشخیص شی را افزایش دهد، اما تأثیر زیادی بر دقت تشخیص اشیا دارد. نتیجه ادغام سه بار اجسام پوشش منهول از نظر دقت مناسب، یادآوری و امتیاز F1 بهترین است. این به این دلیل است که اکثر اجسام پوششی منهول سه بار در پنج لایه خروجی جانبی و یک لایه همجوشی ظاهر می شوند.شکل 5).

شکل 6 تعدادی از نتایج تشخیص جسم پوشش چاه را با رویکرد پیشنهادی نشان می دهد. نقاط قرمز نشان دهنده اشیاء پوشش منهول شناسایی شده است. برخی از اشیاء دارای قله های متراکم و کوچک با زمینه های پیچیده هستند. این نشان می دهد که روش ما می تواند با موفقیت اکثر اجسام پوشش چاه را شناسایی کند.

4. بحث

4.1. آیا افزایش عمق شبکه ستون فقرات می تواند عملکرد تشخیص اشیای کوچک را بهبود بخشد؟

در این مطالعه، YOLOv3 از Darknet-53 به عنوان یک شبکه ستون فقرات و DSSD از Resnet-101 به عنوان یک شبکه ستون فقرات استفاده کردند. با این حال، مثبت واقعی تشخیص شی YOLOv3 و DSSD به طور قابل توجهی بهبود نیافته است ( جدول 4 ). Darknet-53 و Resnet-101 عمیق تر از VGG16 هستند و ویژگی های استخراج شده دارای اطلاعات معنایی بالاتری هستند، بنابراین اثر تشخیص Darknet-53 و Resnet-101 باید بیشتر از VGG16 باشد. برخی از مطالعات نشان می دهد که جایگزینی VGG16 با Resnet-101 به طور مستقیم در زیر تصویر ورودی 300 × 300 منجر به کاهش به جای افزایش دقت می شود [ 22 ].

بلوک های تصویر با وضوح 512 × 512 پیکسل مورد استفاده در این مقاله از طریق افزایش عمق شبکه ستون فقرات بدون پیشرفت قابل توجه در عملکرد تشخیص پوشش منهول کوچک ( جدول 3 و جدول 4 ) عبور داده شد. این به این دلیل است که پوشش‌های منهول در تصاویر سنجش از راه دور نسبتا کوچک هستند و در گروه‌های پراکنده ظاهر می‌شوند، در حالی که شبکه‌های پیچش عمیق مانند Darknet-53 و Resnet-101 که برای تشخیص اشیا استفاده می‌شوند، از بالاترین نقشه ویژگی کانولوشن با وضوح پایین‌تر ترکیب شده‌اند. پس از چند بار نمونه برداری، درپوش های منهول کوچک در بالاترین نقشه ویژگی کانولوشن ناپدید می شوند. خروجی جانبی 5 در شکل 5نشان می دهد که تنها پس از پنج بار نمونه برداری پایین، ویژگی های پوشش منهول ناپدید می شوند، که منجر به بهبود محدود اثر تشخیص با استفاده از شبکه عمیق Darknet-53 و Resnet-101 می شود. به دلایل بالا، ما VGG16 را به عنوان شبکه‌های ستون فقرات انتخاب کردیم، پردازش tail-cutting و corenel convolution کوچک را پذیرفتیم و میدان دریافتی بزرگ را رها کردیم. بنابراین، نتیجه تشخیص برای اندازه کوچک، ساختار منفرد و ظاهر متراکم اجسام پوشش منهول بهتر بود.

4.2. آیا فیچر فیوژن چند مقیاسی و چند سطحی می تواند عملکرد تشخیص اشیای کوچک را بهبود بخشد؟

SSD از نقشه‌های ویژگی چند مقیاسی برای پیش‌بینی اهداف استفاده می‌کند، از ویژگی‌های سطح بالا با میدان پذیرنده بزرگ‌تر برای پیش‌بینی اشیاء بزرگ و از ویژگی‌های سطح پایین با میدان پذیرنده کوچک‌تر برای پیش‌بینی اهداف کوچک استفاده می‌کند. این یک سوال را ایجاد می کند: هنگام استفاده از ویژگی های یک شبکه سطح پایین برای پیش بینی اهداف کوچک، نتایج طبقه بندی SSD برای اشیاء کوچک به دلیل فقدان ویژگی های معنایی سطح بالا ضعیف است. نکته استفاده از DSSD برای حل این مشکل، ترکیب اطلاعات معنایی سطح بالا و سطح پایین، غنی‌سازی جعبه‌های مرزی رگرسیون پیش‌بینی و نقشه‌های ویژگی چند مقیاسی ورودی کار طبقه‌بندی است تا اثر تشخیص را بهبود بخشد. با این حال، به دلیل پیچیدگی مدل، سرعت آن بسیار کمتر است. FSSD از FPN برای مرجع استفاده می‌کند و مجموعه‌ای از نقشه‌های ویژگی هرمی را بازسازی می‌کند تا به وضوح کارایی تشخیص مدل را با سرعت برتر (یعنی نه به آهستگی) بهبود بخشد. به طور کلی، DSSD و FSSD عملکرد تشخیص را با ترکیب نقشه ویژگی زمینه سطح بالا با نقشه ویژگی سطح پایین بهبود می بخشند.جدول 3 ).

نتایج جدول 3 نشان می دهد که اثرات تشخیص DSSD و FSSD به طور قابل توجهی بالاتر از SSD است و امتیازات F1 می تواند به ترتیب به 0.8108، 0.8266 و 0.7454 برسد. با این حال، همانطور که در جدول 4 نشان داده شده است، مثبت واقعی آنها زیاد نیست. DSSD حتی کمتر از SSD است (به ترتیب 3551 و 3641). DSSD و FSSD می‌توانند به چنین امتیاز F-1 بالایی برسند، زیرا نرخ‌های اشتباه محاسباتی منفی و مثبت کاذب به طور موثر با ترکیب ویژگی‌های چند مقیاسی و چند سطحی کاهش می‌یابد. یعنی احتمال قضاوت نادرست دیگر اجسام به عنوان پوشش منهول از طریق همجوشی ویژگی های چند مقیاسی و چند سطحی بسیار کاهش یافته است. مدل ما همچنین ثابت می‌کند که اثر تشخیص درپوش‌های منهول کوچک را می‌توان با همجوشی ویژگی‌های چند مقیاسی و چند سطحی، به ویژه مثبت واقعی Ours-fusion3 (4035) بهبود بخشید، در حالی که منفی کاذب و مثبت کاذب را می‌توان به 317 کاهش داد. و 635 به ترتیب.

5. نتیجه گیری ها

در این مقاله، ما یک رویکرد موثر مبتنی بر DCNN برای تشخیص اجسام پوششی کوچک منهول در تصاویر سنجش از راه دور پیشنهاد می‌کنیم. تشخیص با استفاده از یک استخراج‌کننده ویژگی DCNN بازطراحی‌شده انجام می‌شود و توسط دو زیرشبکه دنبال می‌شود: یک MON برای تولید لبه جسم پوششی منهول از چندین لایه میانی، که میدان‌های گیرنده آن با مقیاس‌های مختلف جسم پوشش منهول مطابقت دارند و می‌توانند چند مقیاس و چند مقیاس تولید کنند. پاسخ‌ها و خروجی‌های ویژگی سطح و M-CMN برای تشخیص اشیاء پوشش منهول بر اساس نقشه‌های ویژگی ذوب شده. در مقایسه با سریع‌تر R-CNN، YOLOv3، SSD، DSSD و FSSD، مدل شبکه DCNN ما می‌تواند به طور موثری دقت و نرخ فراخوان را در تشخیص اشیاء پوشش منهول کوچک بهبود بخشد. در مطالعات آینده، ما قصد داریم بر روی یادگیری ویژگی‌های عمقی ثابت چرخش برای انواع بیشتری از تشخیص اشیا تمرکز کنیم.24 ، 25 ، 26 ]. علاوه بر این، ما محاسبات خوشه‌ای چند GPU را برای کاهش بیشتر زمان محاسبه مدل شبکه عمیق در نظر خواهیم گرفت.

منابع

یو، جی. Lin, W. کاربرد سیستم اندازه گیری سیار با دقت بالا در بررسی اجزای شهری. علمی Surv. نقشه 2016 ، 8 ، 147-148. [ Google Scholar ]
لی، ایکس. تانگ، جی. لی، اچ. کاربرد فناوری نقشه برداری موبایل در سرشماری اجزای شهری دیجیتال. لنگ ریسور. او 2017 ، 14 ، 53-57. [ Google Scholar ]
آهنگ، ی. زنگ، اف. گائو، ز. کاربرد فتوگرامتری پانورامیک خودرو در بررسی قطعات شهری. علمی Surv. نقشه 2016 ، 11 ، 40-43. [ Google Scholar ]
دنگ، ز. سان، اچ. ژو، اس. ژائو، جی. لی، ال. Zou، H. تشخیص شی چند مقیاسی در تصاویر سنجش از دور با شبکه‌های عصبی کانولوشنال. ISPRS J. Photogramm. Remote Sens. 2018 , 145 , 3–22. [ Google Scholar ] [ CrossRef ]
دینگ، پی. ژانگ، ی. دنگ، WJ; جیا، پی. Kuijper، A. یک شبکه عصبی کانولوشن منطقه ای سبک و سریعتر برای تشخیص اشیا در تصاویر سنجش از دور نوری. ISPRS J. Photogramm. Remote Sens. 2018 , 141 , 208–218. [ Google Scholar ] [ CrossRef ]
گیرشیک، آر. دوناهو، جی. دارل، تی. Malik, J. Rich دارای سلسله مراتب برای تشخیص دقیق شی و تقسیم بندی معنایی هستند. arXiv , 2014; arXiv:1311.2524v4. [ Google Scholar ]
گیرشیک، آر. دوناهو، جی. دارل، تی. Malik، J. شبکه های کانولوشن مبتنی بر منطقه برای تشخیص دقیق شی و تقسیم بندی. IEEE Trans. الگوی مقعدی ماخ هوشمند 2016 ، 38 ، 142-158. [ Google Scholar ] [ CrossRef ]
هوانگ، جی جی؛ لیو، TL Pixel-wise Deep Learning برای تشخیص کانتور. arXiv , 2015; arXiv:1504.01989. [ Google Scholar ]
ژائو، اف. شیا، ال. کیلینگ، ای. لی، آر کیو؛ شانگ، اچ. Xu, M. تشخیص هواپیمای پرنده از داده های OLI لندست 8. ISPRS J. Photogramm. Remote Sens. 2018 , 141 , 176–184. [ Google Scholar ] [ CrossRef ]
ژونگ، ی. هان، ایکس. Zhang، L. تشخیص شیء جغرافیایی چند کلاسه بر اساس چارچوب متعادل کننده حساس به موقعیت برای تصاویر سنجش از دور با وضوح فضایی بالا. ISPRS J. Photogramm. Remote Sens. 2018 , 138 , 281–294. [ Google Scholar ] [ CrossRef ]
Girshick, R. Fast R-CNN. arXiv , 2015; arXiv:1504.08083. [ Google Scholar ]
رن، اس. او، ک. گیرشیک، آر. Sun, J. Faster R-CNN: Towards towards realtime object detection with region proposal networks. IEEE Trans. الگوی مقعدی ماخ هوشمند 2017 ، 39 ، 1137-1149. [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
ردمون، جی. دیووالا، س. گیرشیک، آر. فرهادی، الف. شما فقط یک بار نگاه می کنید: یکپارچه، تشخیص شی در زمان واقعی. در مجموعه مقالات بینایی کامپیوتری و تشخیص الگو، لاس وگاس، NV، ایالات متحده، 27-30 ژوئن 2016. صص 779-788. [ Google Scholar ]
لیو، دبلیو. آنگلوف، دی. ایرهان، د. سگدی، سی. رید، اس. فو، سی. Berg، AC SSD: آشکارساز MultiBox تک شات. در مجموعه مقالات کنفرانس اروپایی بینایی کامپیوتر، آمستردام، هلند، 11 تا 14 اکتبر 2016؛ ص 21-37. [ Google Scholar ]
زی، اس. Tu, Z. تشخیص لبه تودرتو کلی. بین المللی جی. کامپیوتر. Vis 2015 , 125 , 3-18. [ Google Scholar ] [ CrossRef ]
یان، ز. ژانگ، اچ. پیراموتو، ر. Jagadeesh, V. HD-CNN: شبکه های عصبی پیچیده عمیق سلسله مراتبی برای تشخیص بصری در مقیاس بزرگ. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، سانتیاگو، شیلی، 7 تا 13 دسامبر 2015. صص 2740–2748. [ Google Scholar ]
او، ک. ژانگ، ایکس. رن، اس. Sun، J. یادگیری باقیمانده عمیق برای تشخیص تصویر. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، لاس وگاس، NV، ایالات متحده، 27-30 ژوئن 2016. صص 770-778. [ Google Scholar ]
دوارته، دی. نکس، اف. کرل، ن. Vosselman، G. تلفیق ویژگی چند رزولوشن برای طبقه‌بندی تصویر آسیب‌های ساختمان با شبکه‌های عصبی کانولوشنال. Remote Sens. 2018 , 10 , 1636. [ Google Scholar ] [ CrossRef ]
ژانگ، سی. سارجنت، آی. پان، X. لی، اچ. گاردینر، آ. هار، جی. اتکینسون، PM یک شبکه عصبی کانولوشن مبتنی بر شی (OCNN) برای طبقه‌بندی کاربری زمین شهری. سنسور از راه دور محیط. 2018 ، 216 ، 57-70. [ Google Scholar ] [ CrossRef ]
لکون، ی. بوزر، بی. دنکر، جی اس؛ هندرسون، دی. هوارد، RE; هابارد، دبلیو. Jackel، LD Backpropagation برای تشخیص کد پستی دست‌نویس اعمال می‌شود. محاسبات عصبی 2014 ، 1 ، 541-551. [ Google Scholar ] [ CrossRef ]
دلار، P. تو، ز. Belongie، S. یادگیری با نظارت لبه ها و مرزهای شی. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، نیویورک، نیویورک، ایالات متحده آمریکا، 17 تا 22 ژوئن 2006. صفحات 1964-1971. [ Google Scholar ]
فو، سی. لیو، دبلیو. رنگا، ا. تیاگی، ا. Berg، AC DSSD: Deconvolutional Single Shot Detector. arXiv , 2017; arXiv:1701.06659. [ Google Scholar ]
لی، ز. Zhou، F. FSSD: آشکارساز چند جعبه ای تک شات فیوژن. arXiv , 2017; arXiv:1712.00960. [ Google Scholar ]
چنگ، جی. هان، جی. ژو، پی. یادگیری شبکه های عصبی کانولوشنال متمایز کننده چرخش ثابت و فیشر برای تشخیص اشیا. IEEE Trans. فرآیند تصویر 2018 ، 28 ، 265-278. [ Google Scholar ] [ CrossRef ]
چنگ، جی. ژو، پی. هان، جی. یادگیری شبکه های عصبی کانولوشنال چرخش ثابت برای تشخیص اشیاء در تصاویر سنجش از دور نوری VHR. IEEE Trans. Geosci. Remote Sens. 2016 , 54 , 7405–7415. [ Google Scholar ] [ CrossRef ]
لی، ک. چنگ، جی. اتوبوس.؛ شما، X. تشخیص شی غیر حساس به چرخش و زمینه افزوده در تصاویر سنجش از راه دور. IEEE Trans. Geosci. Remote Sens. 2018 , 56 , 2337–2348. [ Google Scholar ] [ CrossRef ]

شکل 1. معماری روش پیشنهادی ما. نظارت عمیق در هر لایه خروجی جانبی اعمال می شود و خروجی های جانبی را برای به دست آوردن خروجی های چند سطحی هدایت می کند. لایه همجوشی بعدی به یادگیری نحوه ترکیب خروجی ها از مقیاس های چندگانه کمک می کند.

شکل 2. جزئیات معماری بهبود یافته VGG16.

شکل 3. استراتژی‌های مختلف برای تشخیص چند سطحی: ( الف ) پیش‌بینی با استفاده از مقیاس‌های تصویر متعدد با یک اندازه فیلتر. ( ب ) پیش‌بینی با استفاده از یک نقشه ویژگی واحد با اندازه‌های فیلتر متعدد. ( ج ) پیش‌بینی با استفاده از نقشه‌های ویژگی چندگانه با اندازه‌های فیلتر متعدد.

شکل 4. جعبه های حقیقت زمین.

شکل 5. خروجی های تشخیص MON.

شکل 6. نتایج تشخیص پوشش منهول با رویکرد پیشنهادی در سه تصویر.

مقالات داخلی و بین المللی

بدون دیدگاه

دیدگاهتان را بنویسید لغو پاسخ

برای نوشتن دیدگاه باید وارد بشوید.

مشاورین هوش پیروزی

تشخیص پوشش منهول کوچک در تصاویر سنجش از دور با شبکه های عصبی پیچیده عمیق

تشخیص پوشش منهول کوچک در تصاویر سنجش از دور با شبکه های عصبی پیچیده عمیق

خلاصه

کلید واژه ها:

1. معرفی