استخراج ویژگی‌های منظر شهری ناحیه تاریخی از تصاویر نمای خیابان بر اساس یادگیری عمیق: مطالعه موردی در منطقه مرکزی پکن

دانشکده ژئوماتیک و انفورماتیک فضایی شهری، دانشگاه مهندسی عمران و معماری پکن، پکن 100044، چین
*
نویسنده ای که مسئول است باید ذکر شود.
ISPRS Int. J. Geo-Inf. 2022 , 11 (6), 326; https://doi.org/10.3390/ijgi11060326
دریافت: 12 آوریل 2022/بازبینی شده: 19 مه 2022/پذیرش: 27 مه 2022/تاریخ انتشار: 28 مه 2022

 

چکیده

:

استخراج دقیق ویژگی‌های منظر شهری در منطقه تاریخی چین یک وظیفه ضروری برای حفاظت از میراث فرهنگی و تاریخی است. در سال‌های اخیر، روش‌های مبتنی بر یادگیری عمیق (DL) پیشرفت قابل‌توجهی در استخراج ویژگی‌های منظره داشته‌اند. با این حال، فقدان داده‌های مشروح و سناریوهای پیچیده در داخل کوچه‌ها منجر به عملکرد محدود روش‌های مبتنی بر DL در هنگام استخراج ویژگی‌های منظره می‌شود. برای مقابله با این مشکل، یک مجموعه داده کوچک و در عین حال جامع از نمای خیابان (HCSV) ساختیم و یک شبکه تقسیم‌بندی ویژگی چشم‌انداز مبتنی بر توجه قطبی شده (PALESNet) را در این مقاله پیشنهاد کردیم. بلوک خودتوجهی قطبی شده در PALESNet به کار می رود تا هر ویژگی منظره را در موقعیت های مختلف متمایز کند. در حالی که بلوک ادغام هرم فضایی آتروس (ASPP) برای به تصویر کشیدن ویژگی های چند مقیاسی استفاده می شود. به عنوان یک ابزار کمکی، یک ماژول یادگیری انتقال برای تکمیل دانش شبکه، برای غلبه بر کمبود داده های برچسب دار و بهبود قابلیت یادگیری آن در مناطق تاریخی معرفی شد. در مقایسه با سایر روش‌های پیشرفته، شبکه ما بالاترین دقت را در مطالعه موردی منطقه هسته پکن، با mIoU 63.7٪ در مجموعه داده HCSV به دست آورد. و بنابراین می تواند داده های کافی و دقیق برای حفاظت و تجدید بیشتر در مناطق تاریخی چین ارائه دهد. برای غلبه بر کمبود داده های برچسب گذاری شده و بهبود قابلیت یادگیری آن در مناطق تاریخی. در مقایسه با سایر روش‌های پیشرفته، شبکه ما بالاترین دقت را در مطالعه موردی منطقه هسته پکن، با mIoU 63.7٪ در مجموعه داده HCSV به دست آورد. و بنابراین می تواند داده های کافی و دقیق برای حفاظت و تجدید بیشتر در مناطق تاریخی چین ارائه دهد. برای غلبه بر کمبود داده های برچسب گذاری شده و بهبود قابلیت یادگیری آن در مناطق تاریخی. در مقایسه با سایر روش‌های پیشرفته، شبکه ما بالاترین دقت را در مطالعه موردی منطقه هسته پکن، با mIoU 63.7٪ در مجموعه داده HCSV به دست آورد. و بنابراین می تواند داده های کافی و دقیق برای حفاظت و تجدید بیشتر در مناطق تاریخی چین ارائه دهد.

 

1. مقدمه

منطقه مرکزی پکن جایی است که عملکردهای پکن به عنوان مرکز مبادلات سیاسی، فرهنگی و بین المللی کشور بیشتر در آن قرار دارد و همچنین منطقه ای کلیدی برای حفظ مناطق تاریخی است [ 1 ]. منظر شهری (شامل منظر میراث تاریخی و زندگی مدرن) در این منطقه خاص در طول روند طولانی تاریخی توسعه آن ویژگی های متمایزی را شکل داده است که به طور شهودی منعکس کننده ویژگی های فرهنگی، صحنه تاریخی و جذابیت های زیبایی شناختی برای ساکنان شهر است. . با این حال، با تأثیر شهرنشینی و توسعه گردشگری، چشم‌انداز شهری منطقه مرکزی پکن دستخوش تغییرات شدیدی می‌شود و حفاظت و مدیریت منظر شهری در منطقه مرکزی پکن در حال حاضر با چالش‌های جدی مواجه است.2 ، 3 ].
برای پاسخگویی به نیازهای حفاظت از منظر شهری و توسعه پایدار در منطقه مرکزی پکن، لازم است توزیع فضایی ویژگی‌های معمولی منظر شهری (یعنی ویژگی‌های طبیعی مانند آسمان، پوشش گیاهی و ویژگی‌های مصنوعی مانند ساختمان ها، جاده ها و غیره). در ادبیات، دو نوع روش اصلی برای استخراج ویژگی‌های منظر وجود دارد: روش‌های مبتنی بر بررسی میدانی، و روش‌های مبتنی بر سنجش از دور. بررسی میدانی و اندازه گیری با ابزارهای دستی معمولاً به مقدار قابل توجهی از منابع انسانی و مادی نیاز دارد [ 4 ، 5 ، 6 ، 7 ]. روش های مبتنی بر سنجش از دور در به دست آوردن توزیع فضایی چشم انداز در یک منطقه بزرگ کارآمد هستند [8 ، 9 ]. با این حال، تصاویر هوایی یا ماهواره‌ای معمولی نمی‌توانند اطلاعات جانبی و نما ویژگی‌های منظره را بدست آورند [ 10 ]، در حالی که فناوری اخیراً پررونق فتوگرامتری مایل [ 11 ] با مشکل کمبود داده در منطقه مرکزی پکن، به دلیل برقراری پرواز ممنوع، مواجه است. منطقه با رواج خدمات مبتنی بر مکان، تصاویر نمای خیابان در دسترس هستند و در سال های اخیر توجه فزاینده ای را با توجه به رانندگی مستقل [ 12 ]، مطالعات محیط شهری [ 13 ] و تحقیقات منظر شهری [ 14 ، 15 ] به خود جلب کرده اند.]. در مقایسه با عکس‌های هوایی و تصاویر ماهواره‌ای، تصاویر نمای خیابان «مردم‌محور» هستند و پتانسیل کسب اطلاعات بیشتر را فراهم می‌کنند [ 16 ] و برای استخراج ویژگی‌های منظره دقیق در مناطق پیچیده منطقه هسته پکن مناسب هستند.
با این وجود، اطلاعات غنی و متنوع با جزئیات در مورد چشم انداز شهری تعبیه شده در تصاویر نمای خیابان، نیازمندی های بالاتری را برای روش های استخراج ویژگی های منظره ایجاد می کند. روش‌های سنتی مبتنی بر تحلیل تصویر، مانند روش‌های مبتنی بر پیکسل [ 15 ]، روش‌های مبتنی بر شی [ 17 ]، و روش‌های مبتنی بر صحنه [ 18 ]، از ویژگی‌های دست ساز برای مشخص کردن ویژگی‌های منظر شهری استفاده می‌کردند، اما نتوانستند استخراج کنند. ویژگی‌های معنایی سطح بالا از داده‌های نمای خیابان. با پیشرفت‌های اخیر در شبکه‌های عصبی عمیق (DNN)، مدل‌های مختلف مبتنی بر DNN برای بخش‌بندی معنایی پیشنهاد شده‌اند [ 19 ، 20 ، 21 ، 22 ، 23 ، 24 .، 25 ]، که می تواند به طور خودکار ویژگی هایی را استخراج کند که برای وظایف تقسیم بندی طراحی شده اند [ 26 ]، که چنین روش هایی را برای مدیریت سناریوهای پیچیده، به ویژه در تصاویر نمای خیابان، انتخاب های بهتری می کند [ 27 ، 28 ].
به لطف اثربخشی تقسیم‌بندی معنایی، چندین محقق تلاش کرده‌اند تا ویژگی‌های منظره را در تصاویر نمای خیابان استخراج کنند. گونگ و همکاران [ 12 ، 13 ] سه ویژگی معمولی منظر (یعنی پوشش گیاهی، ساختمان و آسمان) را از داده‌های نمای خیابان Google با استفاده از PSPNet [ 29 ] استخراج کرد و از آنها برای محاسبه ضریب نمای درختی (TVF)، ضریب نمای ساختمان (BVF) استفاده کرد. و فاکتور نمای آسمان (SVF) در مرکز شهر هنگ کنگ. میدل و همکاران [ 30 ] شش ویژگی منظره را از داده‌های نمای خیابان Google استخراج کرد تا مورفولوژی سطح خیابان و ترکیب ویژگی‌های شهری را که توسط یک عابر پیاده تجربه می‌شود استخراج کند. یه و همکاران [ 31 ] چندین ویژگی منظر شهری را با استفاده از SegNet استخراج کرد [ 21] از داده های نمای خیابان Baidu در مرکز شانگهای، برای تخمین کیفیت بصری خیابان های شهری. سوئل و همکاران [ 32 ] یک چارچوب چندوجهی مبتنی بر یادگیری عمیق جدید را برای استفاده مشترک از تصاویر ماهواره ای و سطح خیابان برای اندازه گیری درآمد، ازدحام بیش از حد و محرومیت محیطی در مناطق شهری پیشنهاد کرد. اخیرا ژانگ و همکاران. [ 33] TBMask R-CNN را پیشنهاد کرد تا ساختمان‌های به سبک سنتی چینی در جاده کمربندی پنجم پکن را از داده‌های Tencent Street View استخراج کند و درک بصری عابران پیاده از ساختمان‌های سنتی را کمی‌سازی کند. با این حال، اطلاعات مربوط به مناطق تاریخی چین در مجموعه داده های قبلی نادر است یا وجود ندارد، و استخراج ویژگی های چشم انداز تاریخی را غیرممکن می کند. علاوه بر این، روش‌های مبتنی بر معنایی-بخش‌بندی موجود، به دلیل تردد زیاد مردم و ترافیک، کوچه‌های باریک، جزئیات متعدد و شرایط نوری متغیر، از تنوع بالای محتوای پیچیده معنایی در مناطق تاریخی رنج می‌برند.
در جدیدترین مطالعات، یک مکانیسم توجه برای بهبود عملکرد مدل‌ها در سناریوهای پیچیده، با افزایش بخش مهم داده‌های ورودی و محو کردن بقیه ایجاد شد [ 34 ]. با الهام از ابزار کلاسیک غیر محلی، یک شبکه عصبی غیرمحلی نامتقارن (ANNN) برای بهبود نتیجه تشخیص تصویر پیشنهاد شد [ 35 ]. ژائو و همکاران [ 22] یک شبکه توجه فضایی نقطه‌ای (PSANet) را برای جمع‌آوری اطلاعات زمینه‌ای از همه موقعیت‌ها در نقشه‌های ویژگی، با اتصال هر موقعیت با همه موقعیت‌های دیگر از طریق یک نقشه توجه آموخته‌شده خودسازگاری، پیشنهاد کرد. اگرچه مدل‌های مبتنی بر توجه به عملکرد پیشرفته‌ای در سناریوهای پیچیده دست یافته‌اند، اما معمولاً به مقدار زیادی داده برچسب‌دار برای آموزش مدل نیاز دارند، حتی بیشتر از یک شبکه تقسیم‌بندی معنایی معمولی. علاوه بر این، اجرای مکانیسم توجه نیز باعث خروجی ناپایدار شده و بنابراین نیاز به تکرارهای بیشتری در مرحله آموزش دارد. بنابراین، تا آنجا که می دانیم، روش های مبتنی بر توجه برای استخراج ویژگی های چشم انداز استفاده نشده است. علاوه بر این، هیچ مجموعه داده موجود به طور خاص برای استخراج ویژگی های منظره در مرکز پکن و مجموعه داده های موجود (به عنوان مثال،
برای پرداختن به این چالش‌ها، در این مقاله، ما یک مجموعه داده کوچک و در عین حال جامع از نمای خیابان (HCSV) ساختیم که از برچسب‌های خوب برای هر ویژگی زمین معمولی در منطقه اصلی تشکیل شده است. علاوه بر این، ما فناوری یادگیری انتقال، بلوک خودتوجهی قطبی شده (PSA) و بلوک هرم فضایی آتروس (ASPP) را برای بهبود عملکرد مدل‌های DNN، در رابطه با محیط پیچیده با حاشیه‌نویسی‌های نسبتاً محدود، معرفی کردیم. در نهایت، روش خود را بر روی مجموعه داده HCSV ارزیابی کردیم و آن را با چندین شبکه تقسیم‌بندی پیشرفته مقایسه کردیم. تا آنجا که ما می دانیم، این اولین بار است که یک روش استخراج خودکار ویژگی های منظره به طور خاص برای مناطق تاریخی در چین، مانند منطقه هسته پکن ایجاد شده است. ما مشارکت های اصلی خود را به شرح زیر خلاصه می کنیم:
  • ما یک مجموعه داده جدید برای منطقه مرکزی پکن می سازیم.
  • ما تکنیک‌های یادگیری تبدیل و یک بلوک توجه PSA را برای بهبود عملکرد شبکه در محیط‌های پیچیده و سناریوهای نمونه کوچک معرفی می‌کنیم. و
  • ما روش پیشنهادی را در مجموعه داده HCSV تأیید می‌کنیم و آن را با سایر روش‌های پیشرفته یادگیری عمیق در منطقه هسته پکن مقایسه می‌کنیم.
این مقاله به صورت زیر سازماندهی شده است: بخش 2 منطقه مورد مطالعه و مجموعه داده پیشنهادی را توصیف می کند و سپس روش شناسی در بخش 3 ارائه می شود . بخش 4 آزمایش مفصلی را انجام می دهد. بخش 5 مجموعه داده پیشنهادی را مورد بحث قرار می دهد و بهترین معماری تقسیم بندی را برای منطقه هسته پکن بررسی می کند. در نهایت، این مقاله را در بخش 6 به پایان می‌رسانیم .

2. مجموعه داده های Historical Core Street View (HCSV).

در این بخش، مجموعه داده های نمای خیابان Historical-Core پیشنهادی خود را با روشن کردن منطقه مورد مطالعه و روش حاشیه نویسی داده ها معرفی می کنیم.

2.1. منطقه مطالعه

به عنوان پایتخت پنج سلسله امپراتوری (لیائو، جین، یوان، مینگ و چینگ) و پایتخت فعلی، پکن، واقع در شمال دشت چین شمالی، مساحتی معادل 16410.54 کیلومتر مربع (کیلومتر مربع) را پوشش می دهد. منطقه مسکونی سنتی پکن به عنوان یک میراث فرهنگی جهانی با ارزش تاریخی، فرهنگی و اجتماعی بی نظیر شناخته شده است. منطقه ای با غلظت بالایی از ساختمان های تاریخی و کوچه ها در مناطق مسکونی سنتی در پکن، یعنی منطقه هسته پکن، به عنوان انتقال دهنده تاریخ و فرهنگ چین در نظر گرفته می شود و نماینده معمولی یک منطقه تاریخی چینی در نظر گرفته می شود. تلاش های زیادی برای حفاظت و مدیریت این منطقه توسط دولت محلی انجام شده است.
در طول مطالعه بر روی منطقه مرکزی پکن، متوجه شدیم که کل منطقه را می توان به ترتیب به سه دسته تقسیم کرد: خیابان مدرن، مسکونی مدرن و کوچه باستانی. به عنوان یکی از قدیمی‌ترین بلوک‌های مسکونی و معروف‌ترین جاذبه در منطقه مرکزی پکن، لین لوگو جنوبی شامل کوچه‌های تاریخی متعدد (مثلاً Maoer Hutong) است و توسط خیابان‌های مدرن احاطه شده است (مثلاً خیابان Di’anmenwai). بنابراین، خیابان Di’anmenwai و Mouer Hutong به عنوان مناطق مورد مطالعه برای پوشش مناظر اصلی نشان داده شده در منطقه مرکزی انتخاب شدند. جزئیات در شکل 1 زیر نشان داده شده است.

2.2. مجموعه داده

با توسعه خدمات نقشه دنیای واقعی در چین، چندین ارائه‌دهنده نقشه‌برداری اینترنتی محلی مانند Baidu و Tencent تصاویر نمای خیابان را به طور گسترده در دسترس قرار داده‌اند که اطلاعات نمای خیابان را از منظر عابر پیاده نشان می‌دهد و بنابراین منبع داده جدیدی برای مطالعه ارائه می‌کند. از منظر شهری بر اساس داده‌های نمای خیابان، مجموعه داده‌های مختلفی برای اهداف مختلف ایجاد شده‌اند و ما آنها را با توجه به حجم تصویر، دسته‌ها و مکان‌ها در جدول 1 خلاصه می‌کنیم.
بدیهی است که بیشتر این مجموعه داده ها دارای هزاران تصویر حاشیه نویسی برای آموزش مدل های یادگیری عمیق مدرن هستند. مجموعه داده ImageNet [ 36 ] به عنوان بزرگترین مجموعه داده بصری در جهان، بیش از 14 میلیون تصویر دارد که همه به طور جامع در 20 هزار دسته شرح داده شده است. اگرچه نمی‌تواند مستقیماً برای یک کار پایین‌دستی مانند تقسیم‌بندی معنایی آموزش ببیند، به دلیل حجم گسترده اطلاعات بصری رایج، به طور گسترده برای روش پیش‌آموزشی استفاده شده است. مجموعه داده CamVid [ 37 ]، که دارای 701 تصویر با برچسب متراکم است که از دنباله‌های ویدیویی به دست آمده است، یکی از متداول‌ترین مجموعه‌های داده درک صحنه جاده برای مطالعه اولیه در بخش‌بندی معنایی بود. مجموعه داده Cityscapes [ 38] شامل 5000 تصویر نمای خیابان با حاشیه نویسی دقیق از 50 شهر در اروپا از فریم های ویدئویی رانندگی انتخاب شده است. برای غنی سازی بیشتر سناریوها برای درک صحنه، مجموعه داده ADE20k حاوی بیش از 20000 تصویر حاشیه نویسی با 150 دسته مختلف است. از سوی دیگر، مجموعه داده COCO شامل 123 هزار تصویر است و حاشیه‌نویسی را برای بخش‌بندی پانوپتیک در سال 2018 منتشر کرد که دارای 171 دسته مختلف است [ 39 ]. با این حال، این مجموعه داده شامل چندین صحنه داخلی و خارجی است و بر روی سناریوهای خیابان تمرکز نمی کند. در مقابل، چند مجموعه داده به طور خاص برای سناریوهای خیابانی اعلام شد، از جمله مجموعه داده Bdd100k [ 40 ] و مجموعه داده ApolloScapes [ 41 ].
اگرچه این مجموعه داده‌ها تصاویر مشروح زیادی را در یک سناریوی خیابانی ارائه کرده‌اند، هنوز هم پیشرفت‌هایی وجود دارد که می‌توان به خاطر وظیفه استخراج ویژگی‌های منظر شهری انجام داد. اول، اکثر مجموعه‌های داده موجود، داده‌های نمای خیابان را با ضبط ویدیوهای رو به جلو در امتداد یک خیابان به دست می‌آورند، که می‌تواند برای کارهایی مانند رانندگی خودکار مفید باشد، اما به دلیل فقدان اطلاعات چند نمای (یا پانوراما) نمی‌تواند نیازهای استخراج منظره را برآورده کند. جدای از آن، هیچ یک از مجموعه داده های موجود حاوی اطلاعات ویژگی های منظره منحصر به فرد (به عنوان مثال، ساختمان های سنتی و جزئیات متغیر و غیره) برای منطقه تاریخی چین نیست. بنابراین، ما ابتدا تصاویر مربوط به منظره خیابان را جمع آوری کردیم، و سپس یک پلت فرم حاشیه نویسی تقسیم بندی معنایی راه اندازی کردیم و اولین مجموعه داده نمای خیابان را برای منطقه اصلی در پکن ساختیم.
مجموعه داده HCSV توسعه‌یافته، مجموعه داده‌های موجود را از نظر ارائه نماهای مختلف از تصاویر نمای خیابان و حاشیه‌نویسی آن‌ها با یک مجموعه کلاس خاص در مورد ویژگی‌های منظره در منطقه هسته پکن تکمیل می‌کند. این مجموعه داده شامل 127 تصاویر حاشیه نویسی در سطح پیکسل است که از خیابان Di’anmenwai و Maoer Hutong گرفته شده است، که شامل سه سناریو معمولی (یعنی خیابان مدرن، مسکونی مدرن، و کوچه باستانی) از منظر شهری در منطقه مرکزی پکن است.
تصاویر موجود در مجموعه داده HCSV از سرویس نقشه بایدو، که یک رابط برنامه نویسی کاربردی (API) برای پرس و جو و دانلود تصاویر نمای خیابان با پارامترهای متعدد، به عنوان مثال، اندازه، مختصات، عنوان، زمین و میدان دید (FOV) فراهم می کند، به دست آمده است. . به طور خاص، تصاویر نمای خیابان (با وضوح 512 × 1024) را در چهار جهت (با زاویه گام 0 درجه و عناوین 0 درجه، 90 درجه، 180 درجه و 270 درجه، با FOV تنظیم شده روی 90 درجه) جمع آوری کردیم. ) برای هر نقطه نمونه در امتداد خیابان ها یا کوچه ها در فواصل 20 متری. پس از جمع‌آوری داده‌ها، فرآیند پاکسازی داده‌ها با استفاده از روش هش میانگین برای شناسایی و حذف تمام تصاویر تکراری اعمال شد.
برای حاشیه نویسی، ما یک پلت فرم ویرایشگر تقسیم بندی معنایی آنلاین (نشان داده شده در شکل 2 ) را بر اساس یک پروژه منبع باز ( https://github.com/Hitachi-Automotive-And-Industry-Lab/semantic-segmentation-editor ) توسعه دادیم که در اینجا قابل دسترسی است. 18 مه 2022) [ 42]. علاوه بر این، ما یک کلاس سفارشی ایجاد کردیم تا ویژگی‌های منظر شهری متمایز را به‌ویژه برای مناطق تاریخی چین خلاصه کند. مجموعه کلاس ساده شد (ادغام اشیاء با معنایی مشابه، به عنوان مثال، علامت و چراغ راهنمایی) و گسترش یافت (توسعه معناشناسی، به عنوان مثال، طاق نماها و سایر ساخت و سازها در کلاس “ساختمان” گنجانده شد و ما کلاس های جدیدی مانند درهم و برهم را راه اندازی کردیم. ) از مجموعه اصلی کلاس Cityscapes. بنابراین، مجموعه داده ما می تواند چشم انداز را برای هر سناریوی معمولی در منطقه هسته پکن ترسیم کند، در حالی که سلسله مراتب دسته بندی ساده ای را در مقایسه با مجموعه داده های موجود حفظ می کند. دسته بندی های موجود در مجموعه داده ما در جدول 2 نشان داده شده است و ما ویژگی های منظره معمولی را برای هر دسته در شکل 3 نشان می دهیم.. این مجموعه داده HCSV برای تمام نیازهای تحقیقاتی به طور آشکار در دسترس خواهد بود.

3. روش شناسی

معماری روش پیشنهادی یعنی PALESNet در شکل 4 نشان داده شده است. با هدف استخراج ویژگی‌های چشم‌انداز شهری منطقه هسته پکن، به ویژه با تعداد محدودی از نمونه‌ها، شبکه پیشنهادی از سه بخش تشکیل شده است: یک ماژول استخراج ویژگی، یک ماژول تقسیم‌بندی در سطح پیکسل، و یک ماژول انتقال دانش. برای تشخیص انواع مختلف ویژگی‌های منظره در منطقه هسته پکن، استخراج کننده ویژگی ابتدا ویژگی‌ها را از تصاویر نمای خیابان ورودی استخراج می‌کند. سپس، ماژول تقسیم‌بندی سطح پیکسل، نمایش معنایی چند مقیاسی را از ویژگی‌هایی که قبلاً استخراج شده‌اند، یاد می‌گیرد و هر ویژگی چشم‌انداز را بخش‌بندی می‌کند. در این ماژول، بلوک PSA برای تشخیص موثرتر ویژگی های منظره، به ویژه در یک محیط پیچیده، استفاده می شود، در حالی که بلوک ASPP برای گرفتن ویژگی های چند مقیاسی استفاده می شود. علاوه بر این،
اجازه دهید منتصویر نمای خیابان را از HCSV نشان دهید و اجازه دهید yبرچسب ویژگی های چشم انداز باشد. نمودار جریان این مطالعه را می توان به صورت زیر خلاصه کرد:
  • اول، تصویر منبرای به دست آوردن گروهی از بردارهای ویژگی، وارد ماژول استخراج ویژگی می شود اف={fهآتی1، fهآتی2 ،fهآتی3 ،fهآتی4}.
  • بعد، بردار ویژگی افدر ماژول تقسیم‌بندی سطح پیکسل برای شناسایی هر دسته از ویژگی‌های منظر شهری، جایی که بلوک PSA و بلوک ASPP برای ساختن پیاده‌سازی می‌شوند، استفاده می‌شود. افتمایز بیشتر و استخراج ویژگی های چند مقیاسی، به ترتیب. سپس تلفات آنتروپی متقاطع (CEL) با توجه به خروجی شبکه محاسبه می شود آرو برچسب y. علاوه بر این، یک الگوریتم تقویت داده برای افزایش نمونه آموزشی و افزایش استحکام مدل استفاده می‌شود.
  • در مرحله آموزش، ماژول انتقال دانش برای مقداردهی اولیه پارامترهای شبکه فعال می شود پ={په،پس}، جایی که پهپارامتر استخراج کننده ویژگی و پسمخفف پارامتر ماژول تقسیم بندی است. پارامتر اولیه پاز مدل به خوبی آموزش دیده با دانش مجموعه داده های موجود می آید [ 36 ، 38 ].

3.1. استخراج کننده ویژگی

برای شناسایی هر ویژگی منظره در منطقه هسته پکن، ما نیاز به استخراج ویژگی‌ها از تصاویر نمای خیابان داشتیم. بسیاری از مطالعات قبلی ثابت کرده اند که CNN عمیق (DCNN) توانایی قوی برای استخراج ویژگی دارد، و بنابراین ما استخراج کننده ویژگی خود را بر اساس ResNet-r50 [ 43 ] ساختیم. علاوه بر این، یک روش افزایش داده برای به دست آوردن نمونه های آموزشی بیشتر قبل از تصاویر نمای خیابان معرفی شد منورودی به شبکه هستند که شامل عملیات برش و تغییر اندازه تصادفی، چرخش تصادفی و اعوجاج تصادفی است. جدا از افزایش حجم نمونه، روش افزایش داده ها می تواند با ارائه نمونه های تصادفی، استحکام شبکه را افزایش دهد.
برای افزایش عمق CNN های سنتی، ضمن غلبه بر مشکلات ناپدید شدن گرادیان و انفجار گرادیان، ResNet توسط معماری به نام بلوک باقیمانده ( شکل 5 ) تشکیل شده است، که از یک اتصال میانبر برای انتقال ورودی استفاده می کند. ایکسمستقیم به خروجی خروجی بلوک باقیمانده به شرح زیر است:

اف(ایکس)+ایکس=σ(دبلیو3(σ(دبلیو2(σ(دبلیو1(ایکس)))))+ایکس)

جایی که دبلیو1،  دبلیو2، و دبلیو3به ترتیب وزن لایه های پیچشی را نشان می دهد، در حالی که σتابع واحد خطی اصلاح شده (ReLU) [ 44 ] است. اتصال میانبر می تواند نقشه برداری هویت را به طور موثرتری نسبت به CNN های ساده انجام دهد و بنابراین می تواند مشکل تخریب را که عمق شبکه را محدود می کند حل کند. علاوه بر این، معماری باقیمانده می تواند از پدیده ناپدید شدن گرادیان با حمل گرادیان در سراسر وسعت DCNN [ 45 ] جلوگیری کند.

پس از حذف لایه ادغام متوسط ​​و لایه کاملاً متصل از ResNet-r50 اصلی، یک نوع ResNet برای استخراج ویژگی به دست آمد. استخراج کننده ویژگی ما از پنج مرحله تشکیل شده است. برای اولین مرحله ساقه، 7 اصلی ×7 لایه پیچشی ResNet با سه لایه جایگزین شده است 3×3لایه های پیچیدگی، همانطور که در شکل 6 نشان داده شده است. دلیل جایگزینی کاهش هزینه محاسبات هسته کانولوشن بزرگ بود. به عنوان مثال، 7 ×7 هسته با کفیلترها 5.4 برابر گرانتر از هسته 3 × 3 با همان تعداد فیلتر است. برای پرداختن به بیان کمتر ناشی از کاهش اندازه هسته، سه 3 ×برای استخراج ویژگی های بیشتر، 3 لایه کانولوشن به صورت سریال روی هم چیده شده اند. در مورد ما، مرحله ساقه اصلاح شده فقط دارد (2×3×3×32+3×3×64)/(7×7×64)=0.37برابر محاسبه مرحله پایه اصلی.
بعد از مرحله ساقه چهار مرحله لایه باقیمانده قرار دارد که به ترتیب از 3، 4، 6 و 3 بلوک باقیمانده تشکیل شده است. توجه داشته باشید که هر بلوک به تدریج عمیق می شود و در پایان به عمق 2048 می رسد. ویژگی خروجی fهآتی4استخراج ویژگی 1/8 اندازه تصویر ورودی اصلی است.

3.2. ماژول تقسیم بندی سطح پیکسل

ماژول تقسیم‌بندی برای تشخیص هر ویژگی چشم‌انداز در مقیاس متغیر (یعنی مقیاس بین ویژگی‌های مختلف و تغییر مقیاس ناشی از فواصل مختلف) طراحی شده است که در مناطق تاریخی چین کاملاً رایج است. علاوه بر این، ماژول تقسیم‌بندی برای تشخیص ویژگی‌های مختلف در محیط پیچیده مورد نیاز است، که ناشی از شرایط نوری ناهموار، جریان ترافیک بالا و کوچه‌های باریک است. بنابراین، ما PSA را برای تشخیص ویژگی‌ها در محیط پیچیده و استفاده از استخر هرم فضایی آتروس (ASPP) برای ترکیب ویژگی‌های چند مقیاسی معرفی کردیم.

3.2.1. خود توجه قطبی شده

بلوک PSA می‌تواند وابستگی دوربرد را به تصویر بکشد و ویژگی‌ها را در نقشه‌های ویژگی متمایزتر کند، و یک مدل بسیار سبک وزن است که نیازی به هزینه‌های گزافی در رابطه با حافظه و محاسبه ندارد و در عین حال وضوح بالایی را در محاسبه توجه حفظ می‌کند. همانطور که شکل 7 نشان می دهد، PSA شامل دو زیر ماژول است: ماژول خودتوجهی فقط کانال و ماژول خودتوجهی فقط فضایی.
هدف ماژول خودتوجهی فقط برای کانال گرفتن وابستگی دوربرد از طریق نقشه توجه کانال و برجسته کردن ویژگی‌های خاص کلاس است که می‌تواند با استفاده از فرمول زیر محاسبه شود:

پجساعت(ایکس)=fاسجی[دبلیوج(φ1(دبلیوآ(ایکس))×σ(φ2(دبلیوب(ایکس))))]

که در آن X یک ویژگی ورودی به اندازه C × H × W را نشان می دهد و fاسجینشان دهنده تابع سیگموئید است. این دبلیوآ، دبلیوب، و دبلیوج1 هستند ×1 لایه پیچیدگی، به ترتیب، φ1، φ2دو عملگر تغییر شکل تانسور هستند و σتابع SoftMax است. این پجساعت(ایکس)نقشه توجه کانال است و ×” عملیات ماتریس نقطه-محصول است.

به طور مشابه، ماژول خودتوجهی فقط فضایی نیز 1 اعمال می شود ×ابتدا 1 پیچیدگی و سپس نتیجه را تغییر شکل می دهد. برخلاف شاخه فقط کانال، تابع ادغام جهانی fجیپپس از اولین پیچیدگی، برای فشرده سازی اطلاعات اضافی و به دنبال آن تابع SoftMax اتخاذ می شود. σ. سپس، عملیات نقطه-محصول ماتریس بین دو تانسور داخلی اعمال می شود. در نهایت یک تابع سیگموئید fاسجیبرای به دست آوردن نقشه نهایی توجه فضایی استفاده می شود پسپ(ایکس). فرمول را می توان به صورت زیر توصیف کرد:

پسپ(ایکس)=fاسجی[φ3(σ(φ1(fجیپ(دبلیوب(ایکس))))×φ2(دبلیوآ(ایکس)))]
یکی دیگر از ویژگی های برجسته افبعد از ماژول خودتوجهی فقط کانال و ماژول خودتوجهی فقط فضایی ایجاد می شود. در این مقاله، ساختار موازی PSA را انتخاب کردیم که می توان آن را به صورت زیر توصیف کرد:

اف(ایکس)=پجساعت(ایکس)جساعتایکس+پسپ(ایکس)سپایکس

جایی که جساعتو سپبه ترتیب عملگرهای ضرب کانالی و فضایی هستند و “+” عملگر جمع عنصر را نشان می دهد. در مورد ما، خروجی استخراج کننده ویژگی، به عنوان مثال، fهآتی4، از طریق بلوک PSA برای به دست آوردن یک ویژگی متمایزتر قرار داده شد fهآتی=اف(fهآتی4)هم از نظر فضایی و هم از نظر کانال، که می تواند از رمزگشایی بعدی در سناریوی پیچیده در منطقه هسته پکن سودمند باشد.

3.2.2. بلوک ASPP

همانطور که در بالا بحث شد، مقیاس ویژگی های چشم انداز در منطقه هسته پکن متغیر است. بنابراین، ما بلوک ASPP را به شبکه خود معرفی کردیم، که نتایج امیدوارکننده‌ای را در مدل‌های تقسیم‌بندی معنایی چندگانه نشان داده است [ 23 ، 29 ]. همانطور که در شکل 8 نشان داده شده است ، بلوک ASPP می تواند ویژگی های چند مقیاسی تولید شده توسط استخراج کننده ویژگی و محاسبه شده توسط بلوک PSA قبلی را استخراج کند.
بلوک ASPP از چهار تنظیمات مختلف فیلد گیرنده تشکیل شده است. لایه اول از یک لایه کانولوشن با اندازه هسته 1 تشکیل شده است ×1، به دنبال آن یک لایه معمولی دسته ای و یک لایه فعال سازی ReLU. برای بقیه لایه ها، اندازه هسته لایه کانولوشن روی 3 تنظیم شد ×3، با نرخ اتساع به ترتیب 16، 24 و 36. پیچ خوردگی آتروس با نرخ های اتساع مختلف منجر به میدان های دریافتی متفاوتی می شود که ویژگی های چند مقیاسی را به طور موثر و کارآمد به تصویر می کشد، زیرا به پارامترهای کمتری نسبت به عملیات پیچشی معمولی نیاز دارد (مثلاً پیچش با اندازه هسته 16). ×16) برای دستیابی به یک میدان پذیرای بزرگتر. ویژگی قبلی fهآتیبیشتر از طریق لایه های فوق به صورت موازی و به هم پیوسته برای تشکیل ویژگی خروجی مورد سوء استفاده قرار می گیرد. fهآتی*. سرانجام، fهآتی*با استفاده از روش نمونه‌گیری دوخطی، چهار برابر می‌شود.
در نهایت، ویژگی fهآتی*برای به دست آوردن اطلاعات معنایی هر ویژگی منظره در تصویر نمای خیابان رمزگشایی می شود مندر سطح پیکسل با الهام از آخرین کارهای سری DeepLab، ویژگی های سطح پایین fهآتی1با fهآتی*بعد از 1 ×1 گلوگاه پیچیدگی، برای بازیابی جزئیات فضایی در تصاویر نمای خیابان، و سپس به صورت دوخطی با ضریب 4 نمونه برداری می شود. از طریق ترکیب 3 مورد ×3 و 1 ×1 لایه پیچیدگی، نقشه تقسیم بندی نهایی در سطح پیکسل ویژگی های چشم انداز به دست می آید.

3.3. ماژول یادگیری انتقال

استخراج ویژگی‌های چشم‌انداز با دقت در سناریوهای پیچیده در منطقه هسته پکن، به‌ویژه با تعداد محدود نمونه‌های برچسب‌گذاری شده، یک مشکل چالش برانگیز برای اکثر روش‌های تقسیم‌بندی معنایی موجود است. برای حل این مشکل، ما فناوری یادگیری انتقال را معرفی کردیم، که می تواند دانش را از مجموعه داده های موجود مربوطه به شبکه پیشنهادی ما انتقال دهد.
ImageNet به عنوان بزرگترین مجموعه داده بصری در جهان، دارای مقادیر بسیار زیادی از تصاویر در مورد موارد رایج است، در حالی که Cityscapes (که در بخش 2.2 ذکر شد ) ویژگی های مشترک زیادی در صحنه های شهری مدرن به اشتراک می گذارد، و بنابراین ما می توانیم از هر دو آنها برای غنی سازی دانش در زمینه های شهری استفاده کنیم. شبکه پیشنهادی بنابراین، ما یک استراتژی یادگیری انتقال دو مرحله ای را در این مقاله معرفی کردیم.

3.3.1. انتقال دانش از ImageNet

استخراج‌کننده ویژگی برای استخراج ویژگی‌های سطح پایین تعبیه‌شده در تصاویر، مانند ویژگی مرزی، که همیشه ویژگی‌های مشابهی را در زمینه‌های مختلف تصاویر (یعنی تصاویر طبیعت و تصاویر نمای خیابان) به اشتراک می‌گذارند، استفاده می‌شود. بنابراین، امکان انتقال دانش مشترک در حوزه‌های تصویری ناهمگن وجود دارد.
در مورد ما، انتقال دانش به معنای انتقال پارامترها از یک شبکه آموزش دیده به شبکه هدف است که حوزه ها و وظایف داده مشابه اما متفاوتی دارد. اجازه دهید Dمنمترgنشان دهنده دامنه صحنه های رایج ImageNet و تیfوظیفه استخراج ویژگی برای موارد معمولی باشد و اجازه دهید Dساعتجسv، تیfدامنه را در HCSV و وظیفه استخراج ویژگی مورد انتظار را برای ویژگی های چشم انداز نشان می دهد. فرآیند انتقال را می توان به شرح زیر توصیف کرد:

پfه{Dمنمترg،تیf}تیrآnسfهr1پfه{Dساعتجسv،تیf}

جایی که پfهپارامترهای مدل استخراج ویژگی را نشان می دهد که توسط ImageNet برای اهداف استخراج ویژگی آموزش داده شده است، و پfهپارامترهای استخراج کننده ویژگی ما است. پس از این پیشرفت انتقال، پارامترهای استخراج‌کننده ویژگی پیشنهادی توسط مدل از پیش آموزش‌دیده (با همان معماری) در ImageNet مقداردهی اولیه می‌شوند و بنابراین قبل از آموزش واقعی روی مجموعه داده HCSV، دانش موارد معمولی در تصاویر طبیعی را دریافت می‌کنند. چنین دانشی می تواند عملکرد استخراج کننده ویژگی را در یک موقعیت نمونه محدود تقویت کند.

3.3.2. انتقال دانش از مناظر شهری

برای غنی‌سازی دانش صحنه‌های شهری مدرن برای شبکه پیشنهادی، دانش تعبیه‌شده در مجموعه داده‌های Cityscapes را منتقل کردیم. فرآیند انتقال دانش را می توان به شرح زیر توصیف کرد:

پ(پfه،اسهgجس)تیrآnسfهr2پ(پfه،اسهgساعتجسv)

جایی که اسهgجسو اسهgساعتجسvبه ترتیب وظیفه تقسیم بندی اشیاء در Cityscapes و ویژگی های منظره در HCSV را نشان می دهد. پو پپارامترهای شبکه پیشنهادی را برای کار مشخص کنید اسهgجسو اسهgساعتجسv.

هنگامی که شبکه اطلاعاتی در مورد ویژگی های عمومی اقلام معمولی و همچنین ویژگی های خیابان های کلان شهر به دست آورد، مجموعه داده پیشنهادی HCSV سپس برای آموزش شبکه ها برای یادگیری ویژگی های خاص در منطقه مرکزی پکن استفاده شد. شایان ذکر است که لایه 1، لایه 2 و لایه 3 استخراج کننده ویژگی پس از فریز شده است تیrآnسfهr2، برای رزرو توانایی ثبت ویژگی های مشترک و همچنین تسریع روند اتصال، به ویژه در این وضعیت نمونه محدود.

4. نتایج تجربی

در این بخش ابتدا مجموعه داده ها و الگوریتم های مقایسه به کار رفته در آزمایش های زیر نشان داده شده است. سپس جزئیات پیاده سازی و معیارهای ارزیابی به اختصار ارائه می شود. در نهایت نتایج آزمایش ها به تفصیل مورد تجزیه و تحلیل قرار می گیرد.

4.1. مجموعه داده

در این آزمایش، مجموعه داده پیشنهادی HCSV برای ارزیابی عملکرد روش ما و مقایسه بین آن و سایر مدل‌های تقسیم‌بندی مبتنی بر CNN استفاده شد. همانطور که در بخش 2 مورد بحث قرار گرفت ، مجموعه داده HCSV شامل 127 تصویر نمای خیابان با حاشیه نویسی دستی در منطقه مرکزی پکن، با اندازه 512 است. ×1024. این تصاویر به طور کامل حاشیه نویسی شده و با دقت انتخاب شده اند تا سناریوهای محیطی (مانند خیابان های عریض، کوچه های باریک، مناطق مسکونی شلوغ و غیره) ارائه شده در منطقه مورد مطالعه را پوشش دهند. در آزمایش‌های ما، نسبت نمونه‌های مورد استفاده برای آموزش، اعتبارسنجی و مجموعه‌های آزمایشی 8:1:1 تنظیم شد.

4.2. روشهای مقایسه ای

برای تأیید اعتبار روش ما، سه مدل بخش‌بندی پیشرفته برای مقاصد مقایسه انتخاب و به طور خلاصه معرفی شدند:
1
شبکه کاملاً کانولوشن (FCN): FCN [ 19 ] لایه های کاملاً متصل را با یک لایه کانولوشن 1 × 1 در انتهای معماری عمومی CNN جایگزین می کند. ما این شبکه کلاسیک را به‌عنوان خط پایه معرفی کردیم که شامل هیچ گونه اصلاح اضافی (به عنوان مثال، مکانیسم توجه، بلوک ASPP و غیره) نیست.
2
شبکه عصبی غیرمحلی نامتقارن (ANNN): با الهام از ابزارهای غیر محلی کلاسیک، ANNN [ 35 ] به عنوان یک بلوک پیشخور ساده برای محاسبه فیلترهای غیرمحلی توسعه داده شد که می تواند مستقیماً وابستگی های دوربرد را در حالی که ورودی متغیر حفظ می کند، ضبط کند. اندازه است و به راحتی با سایر عملیات ترکیب می شود. بلوک‌های ساختمانی مبتنی بر ANNN برای معماری‌های بینایی کامپیوتری متمرکز بر کارایی (مانند طبقه‌بندی و تقسیم‌بندی ویدئو) به کار گرفته شده‌اند.
3
شبکه توجه فضایی نقطه‌ای (PSANet): با هدفی مشابه برای گرفتن وابستگی‌های بافت دوربرد مانند ANNN، PSANet [ 22 ] از یک بلوک جدید تجمع اطلاعات دو جهته نقطه‌ای برای گرفتن اطلاعات متنی و درج این بلوک استفاده می‌کند. به FCN معمولی. این شبکه در آن زمان بهترین عملکرد را در مجموعه داده‌های مختلف از جمله Cityscapes و ADE20K به دست آورده بود که اثربخشی و عمومیت آن را نشان می‌داد، و بنابراین برای نشان دادن به‌روزترین شبکه‌های یکپارچه توجه انتخاب شد.
به طور خلاصه، یک شبکه کلاسیک (FCN) به عنوان شبکه تقسیم‌بندی پایه استفاده شد، در حالی که دو مدل (ANNN و PSANet) به‌عنوان شبکه‌های یکپارچه توجه مبتنی بر CNN مورد استفاده قرار گرفتند که می‌تواند برای تشخیص ویژگی منظر مفید باشد.

4.3. معیارهای تنظیم و ارزیابی آزمایشی

آزمایش‌ها با استفاده از PyTorch 1.6.0 با کتابخانه Python 3.7 بر روی دستگاه مجهز به Intel Xeon E3-1200 (QuadCore)، 32 گیگابایت رم و Nvidia GeForce GTX Titan X (رم 12 گیگابایت) انجام شد. در آزمایش‌ها، همه مدل‌ها بر اساس یک پلتفرم معیار یکپارچه، MMSegmentation ساخته شدند، که یک طراحی مدولار برای ساخت یک چارچوب تقسیم‌بندی معنایی سفارشی ارائه می‌کرد، در حالی که از چندین چارچوب تقسیم‌بندی معنایی معاصر برای رقابت منصفانه پشتیبانی می‌کرد [ 46 ]]. ما همان استخراج کننده ویژگی (یعنی ستون فقرات ResNet-r50) را برای همه مدل های مقایسه اعمال کردیم. پارامترهای مورد استفاده در ماژول انتقال ImageNet به طور رسمی توسط PyTorch ارائه شده است. تکرار فرآیند آموزش در ماژول انتقال Cityscapes روی 40000 در مجموعه داده Cityscapes و سپس به 20000 برای آموزش با مجموعه داده HCSV تنظیم شد. ما پارامترها را برای همه مدل‌های مقایسه با استفاده از بهینه‌ساز SGD با حرکت 0.9 و سیاست نرخ یادگیری چند که از 0.01 به 0.0001 کاهش یافت، بهینه کردیم، جایی که کاهش وزن روی 0.0005 تنظیم شد.
برای ارزیابی عملکرد روش‌های مقایسه‌ای، از چهار معیار: دقت کلی ( aAcc )، تقاطع روی اتحادیه ( IoU ) برای هر کلاس، میانگین تقاطع بر اتحادیه ( mIoU ) و دقت میانگین ( mAcc ) برای ارزیابی استفاده شد. دقت تقسیم بندی این شاخص ها به صورت زیر محاسبه شدند:

آآجج=من=1nایکسمنمنم
منoU=ایکسمنمنj=1nایکسمنj+j=1nایکسjمنایکسمنمن
مترمنoU=1nمن=1nایکسمنمنj=1nایکسمنj+j=1nایکسjمنایکسمنمن
مترآجج=1nمن=1nایکسمنمننمن

جایی که ایکسمنjتعداد کلاس پیکسل را نشان می دهد منبه عنوان کلاس پیش بینی شده است j. اجازه دهید nتعداد کلاس ها باشد و متعداد کل پیکسل ها باشد، در حالی که نمنکل پیکسل های کلاس تعیین شده را نشان می دهد من.

برای ارزیابی کارایی، تأثیرات نظری و عملی در نظر گرفته شده است. تعداد پارامتر مدل و عملیات ممیز شناور ( FLOPs ) به عنوان شاخص های نظری استفاده می شود. حافظه و توان محاسباتی مورد نیاز هر مدل را می توان با استفاده از این شاخص ها به صورت جداگانه ارزیابی کرد. در میان آنها، FLOP ها به شرح زیر محاسبه می شوند:

افLOپس=2اچدبلیو(سیمنnک2+1)سیoتوتی

جایی که اچو دبلیوارتفاع و عرض نقشه های ویژگی ورودی و کاندازه اندازه هسته فرآیند کانولوشن است. سیمنnو سیoتوتیبه ترتیب کانال نقشه های ویژگی ورودی یا خروجی را نشان می دهد. در مورد ارزیابی کارایی عملی، ما اشغال حافظه GPU و سرعت فرآیند پیش‌بینی را ثبت کردیم.

4.4. نتایج مربوط به مجموعه داده HCSV

برای مقایسه منصفانه با سایر مدل‌های تقسیم‌بندی معنایی تحت دانش قبلی، دانش یکسانی را برای همه روش‌ها با ماژول یادگیری انتقال قبل از آزمایش انتقال دادیم، و بنابراین تفاوت اصلی در معماری شبکه‌ها بود. جدول 3نتایج کمی را برای معیارهای مقایسه همه روش ها ارائه می دهد. می‌توانیم ببینیم که FCN کلاسیک بدون توجه به عملکرد نسبی با ANNN که یک بلوک توجه غیرمحلی را ادغام می‌کند، دست یافت و با اختلاف زیادی از PSANet بهتر عمل کرد. این نشان می‌دهد که استراتژی‌های مختلف توجه تأثیر زیادی بر نتیجه خواهند داشت و استراتژی توجه قبلی برای کار استخراج ویژگی‌های چشم‌انداز در منطقه هسته پکن مناسب نیست. دلیل احتمالی عملکرد نامطلوب ANNN و PSANet این است که آنها به اطلاعات نسبتاً بیشتری برای تقسیم بندی در یک محیط پیچیده مانند منطقه هسته پکن نیاز دارند، که در یک وضعیت نمونه کوچک حتی بدتر خواهد بود. روش ما،
اگرچه ویژگی های چشم انداز مختلفی در منطقه مرکزی پکن وجود دارد، اما می توان آنها را در سه سناریو معمولی خلاصه کرد: خیابان مدرن، سناریوی مسکونی مدرن و سناریوی کوچه باستانی. نتایج تقسیم بندی برای هر روش مقایسه در هر سناریوی معمولی در شکل 9 نشان داده شده است ، و ما نتایج تقسیم بندی دسته به دسته را در شکل 10 ارائه می دهیم.. همانطور که می بینیم، در سناریوی مسکونی مدرن، همه مدل ها به نتایج معقولی دست یافتند، که نشان دهنده اثربخشی روش یادگیری انتقال است که با موفقیت دانش منظر شهری را از ImageNet و Cityscapes منتقل کرد. در این سناریوی خاص، انواع مختلفی (گلدان در جاده، سه چرخه و غیره) از کلاس “بهم ریختگی” وجود دارد که منجر به یک تقسیم بندی ناپایدار می شود. مشاهده می‌شود که فقط روش ما گلدان را از جمعیت متمایز می‌کند، که نشان می‌دهد روش ما می‌تواند نمایش‌های ویژگی‌های جدید را مؤثرتر از سایرین بیاموزد. دلیل احتمالی این است که استراتژی منجمد در استخراج کننده ویژگی، فضای پارامتر را محدود کرده و باعث شده است که شبکه در مرحله آموزش راحت‌تر همگرا شود.
در سناریوی خیابانی مدرن، مشاهده می‌شود که FCN عملکرد بهتری در ویژگی‌های منظر با مساحت بزرگ‌تر (مانند جاده، آسمان، عابر پیاده، و پوشش گیاهی و غیره) دارد، اما در صورت مواجهه با ویژگی‌های غیر متعارف (مثلاً ناقص) اتوبوس سمت چپ)، مستعد شکست بود. نتایج PSANet و ANNN پراکنده و ناپیوسته بودند اما می توانستند اشیاء غیرمنتظره را تشخیص دهند. ما معتقدیم که این شکاف عملکرد ناشی از اجرای مکانیسم توجه است، که می‌تواند با محاسبه رابطه بین موقعیت‌های مختلف در تصویر، ویژگی‌های متمایز را ثبت کند. با این حال، مدل مبتنی بر توجه قبلی نمی تواند روابط پیچیده را در چنین موقعیت های متغیر مدیریت کند. از سوی دیگر، روش ما از ماژول PSA برای استفاده کامل از وضوح هم از نظر مکانی و هم از نظر کانال استفاده می کند.
در مورد سناریوی کوچه باستانی، این سناریو به دلیل طراحی شهری، شرایط نوری پیچیده و انواع مختلف بهم ریختگی، پیچیده‌ترین سناریو بود. جدای از محیط فیزیکی پیچیده، چالشی برای هر مدل نیز در مسئله نمونه محدود ظاهر شد که حاوی دانش غیرقابل جایگزینی است و تقاضای بالاتری را برای یادگیری و نمایش ویژگی ها ایجاد می کند. از شکل بالا، می بینیم که FCN تحت تأثیر سایه روی دیوار قرار گرفته است، و PSANet تمایل دارد که برچسب اشتباه (وسیله نقلیه غیر موتوری) را به سه چرخه اختصاص دهد (به دلیل غیرقانونی بودن آن به عنوان شلوغ شناخته می شود). علاوه بر ترکیب مزیت توانایی استخراج ویژگی چند مقیاسی بلوک ASPP و ظرفیت نمایش ماژول توجه PSA، روش ما توانایی یادگیری ویژگی را با تحمیل و منجمد کردن دانش قبلی در شبکه با ماژول یادگیری انتقال افزایش داد. بنابراین، روش پیشنهادی در یک محیط پیچیده به نتیجه قوی‌تری دست یافت.
جدا از تجزیه و تحلیل کیفی، ما نتایج تقسیم‌بندی را برای هر نوع ویژگی چشم‌انداز بیشتر بررسی کردیم. همانطور که در جدول 4 نشان داده شده استمی‌توان مشاهده کرد که ویژگی‌های متمایز که دارای مساحت نسبتاً بزرگ‌تر و ویژگی‌های یکپارچه‌کننده در تصاویر هستند (یعنی آسمان، جاده، پوشش گیاهی و ساختمان) نتایج بخش‌بندی بهتری را با همه شبکه‌های آزمایش‌شده در مقایسه با دسته‌های پیچیده‌ای داشتند که تکه‌تکه هستند. و متنوع (به عنوان مثال، بهم ریختگی، شخص، و پیاده روها). علاوه بر این، PSANet و ANNN در برخی از ویژگی های پیچیده مانند درهم و برهمی از FCN بهتر عمل کردند، که پتانسیل مکانیسم توجه را اثبات می کند. با این حال، به دلیل پیچیدگی بیشتر، روش‌های موجود نتوانستند نمایش ویژگی را با نمونه‌های محدود بیاموزند و این منجر به نتایج تقسیم‌بندی ناراضی برای دسته‌های مختلف شد. در مقابل، روش ما بهترین دقت را در اکثر دسته ها به دست آورد. برای ویژگی های متمایز، همه مدل‌ها به نتایج مشابهی دست یافتند و روش ما به یک مزیت جزئی (با عملکرد بهتر 2-3٪) دست یافت. از سوی دیگر، برای ویژگی‌های پیچیده، شبکه پیشنهادی با اختلاف زیادی (حدود 7 تا 10 درصد) از روش‌های دیگر بهتر عمل کرد. این نتایج اثربخشی ماژول PSA را به ویژه برای سازماندهی مجدد ویژگی های پیچیده نشان می دهد.
ما همچنین آزمایش‌های تحلیل کارایی را بر روی CNN‌های کاندید انجام دادیم که شامل میلیون‌ها پارامتر (M)، استفاده از حافظه (MByte، Mb)، عملیات ممیز شناور گیگا در ثانیه (GFLOPs) و سرعت استنتاج (فریم‌ها در هر) بود. دوم، FPS). تمام آزمایش ها در یک محیط انجام شد. همانطور که در جدول 5 نشان داده شده استPSANet پیچیده ترین شبکه با بیشترین پارامتر (50.57 میلیون) است که در شرایط نمونه کوچک تأثیر منفی بر توانایی یادگیری ویژگی خواهد داشت. با این حال، ANNN کارآمدتر (37.66 میلیون پارامتر)، نمی تواند رابطه بین ویژگی های مشابه را به طور کامل نشان دهد. در مقابل، پارامترهای PALESNet پیشنهادی (43.42 میلیون) در مقایسه با FCN معمولی (40.93 میلیون)، که پتانسیل کامل مکانیسم توجه را درک می کند، تنها اندکی افزایش یافته است، در حالی که از عوارض جانبی پیچیدگی اضافی یا بیش از حد جلوگیری می کند. سازش در کارایی دلیل این امر این است که ماژول PSA در هنگام محاسبه توجه از نظر فضایی و کانالی، ابعاد مخالف را “بر هم می زند”، که منجر به استفاده از پارامتر کمتر بدون افت عملکرد می شود.

4.5. مطالعه فرسایش PALESNet

روش ما شامل یادگیری انتقال، یک بلوک PSA و بلوک ASPP برای تقسیم بندی دقیق در ناحیه هسته پکن با مجموعه داده پیشنهادی HCSV بود. برای تأیید بیشتر اعتبار هر ماژول در PALESNet پیشنهادی، یک آزمایش فرسایش را به شرح زیر طراحی کردیم: در آزمایش فرسایش، هر ماژول ذکر شده در روش ما به صورت جداگانه تجزیه و تحلیل شد تا تأثیر آن بر کل شبکه بررسی شود. شایان ذکر است که FCN به عنوان خط پایه مورد استفاده قرار گرفت که شامل یک ماژول یادگیری انتقال، بلوک PSA یا بلوک ASPP نبود.
در این آزمایش، PALESNet پیشنهادی تنها یک بلوک ASPP بیشتر در مقایسه با خط پایه داشت. بنابراین، می توان از آن برای ارزیابی اثر ASPP استفاده کرد. هر مدل برای 40000 تکرار در مجموعه داده HCSV آموزش داده شد. همانطور که در جدول 6 مشاهده می شود، یادگیری انتقال می تواند به طور قابل توجهی عملکرد همه مدل ها را بهبود بخشد که کارایی این فناوری را ثابت کرد. به طور دقیق تر، mIoU با FCN، PSANet و ANNN به ترتیب 17.13، 12.49 درصد و 17.24 درصد بهبود یافت. برای روش ما، 19.18٪ افزایش یافته است که نشان می دهد روش ما پتانسیل یادگیری اطلاعات بیشتر از روش یادگیری انتقال را دارد. برای بلوک ASPP، مشاهده می‌شود که روش ما حدود 2% از خط پایه بهتر عمل کرده است، صرف نظر از اینکه یادگیری انتقال درگیر بوده یا نه، که کارایی بلوک ASPP را ثابت می‌کند.
همانطور که در جدول 7 نشان داده شده است ، ما عملکرد مدل را با و بدون مکانیسم توجه ارزیابی کردیم. ماژول PSA mIoU، mAcc و aAcc مجموعه داده HCSV را به ترتیب 1.71٪، 1.24٪ و 0.8٪ بهبود بخشید. این نشان می‌دهد که بلوک PSA می‌تواند نتایج را با تمرکز بر ویژگی‌های یکسان برای هر کلاس و انتقال این اطلاعات به مدل تقسیم‌بندی بعدی، به طور قابل ملاحظه‌ای بهبود بخشد.
به طور خلاصه، با فناوری یادگیری انتقال، بلوک PSA و بلوک ASPP، روش ما می تواند حداکثر استفاده را از اطلاعات موجود در مجموعه داده های از پیش آموزش دیده، و همچنین نمونه های محدود با محیط های پیچیده در منطقه هسته پکن داشته باشد. بنابراین، روش ما می‌تواند به‌طور مؤثری یک نقشه تقسیم‌بندی دقیق‌تر ایجاد کند.

5. بحث

در این بخش، ما ابتدا عملکرد همگرایی را برای همه شبکه‌های مقایسه‌ای در طول فرآیند آموزش تجزیه و تحلیل می‌کنیم و ضرورت مجموعه داده‌های HCSV پیشنهادی را بیشتر مورد بحث قرار می‌دهیم. در نهایت، به طور خلاصه تجزیه و تحلیل می کنیم که چرا روش ما به بهترین عملکرد در آزمایش دست یافت و بینش هایی را در مورد طراحی شبکه برای یک مجموعه داده کوچک ارائه می دهیم.
  • چه تفاوتی برای همه روش های مقایسه ای در مرحله آموزش داشت؟
منحنی های تلفات و متریک در مرحله آموزش در شکل 11 نشان داده شده است. همانطور که می بینیم، FCN اصلی، که از معماری توجه برخوردار نبود، در مرحله آخر آموزش (پس از 280 دوره) نتوانست سود زیادی برای متریک mAcc و aAcc به دست آورد. از سوی دیگر، معیارهای روش‌های مجهز به توجه به طور مداوم در طول کل فرآیند آموزش افزایش یافت. این ممکن است نشان دهد که مکانیسم توجه می تواند از ویژگی های قابل استفاده بیشتری برای یادگیری شبکه استفاده کند. با این حال، معرفی مکانیسم توجه، همگرایی مدل را دشوارتر کرد، که منجر به لرزش افت و منحنی متریک شد. برای کاهش این مشکل، اطلاعات چند مقیاسی را با بلوک ASPP ترکیب کردیم و چند لایه را در شبکه ثابت کردیم (به بخش 3.3.2 مراجعه کنید.) در طول آموزش نهایی، برای تثبیت و تسریع روند همگرایی. در نتیجه، منحنی متریک PALESNet ما بسیار هموارتر از PSANet بود و سرعت همگرایی مدل ما به طور قابل توجهی سریعتر از ANNN بود.
  • آیا ایجاد یک مجموعه داده جدید برای مطالعه در Historic-Core در پکن ضروری است؟
همانطور که قبلاً ذکر کردیم، مجموعه داده های موجود مناطق منحصر به فردی را که شامل بناهای تاریخی متعددی است، مانند منطقه هسته پکن، پوشش نمی دهد. بنابراین، مجموعه داده پیشنهادی HCSV می‌تواند یک منبع داده جدید برای آموزش و ارزیابی مدل‌های یادگیری عمیق برای مطالعات مرتبط فراهم کند. تا آنجا که ما می دانیم، ما اولین کسی هستیم که یک مجموعه داده به طور خاص برای این منطقه تاریخی در این منطقه شهری ایجاد می کنیم. روش‌های فعلی نمی‌توانند نتایج مناسبی را بدون آموزش روی مجموعه داده HCSV ایجاد کنند. علاوه بر این، برای کمک به تحقیقات و حفظ مناظر در پکن، حتی ممکن است در سناریوهای دیگر مورد استفاده قرار گیرد. معماری تاریخی الگوی مشابهی در چین دارد و مدل‌های از قبل آموزش‌دیده شده در مجموعه داده‌های HCSV می‌توانند سریع‌تر با سایر بلوک‌های تاریخی و فرهنگی همگرا شوند.
  • بهترین معماری تقسیم‌بندی معنایی برای داده‌های BSV در Historical-Core چیست؟
در مقایسه، متوجه شدیم که روش ما بهترین عملکرد را هم در دقت کلی و هم در بیشتر کلاس به کلاس به دست آورده است. این عملکرد فوق‌العاده ممکن است به دلیل ساختار هرمی فضایی ناخوشایند آن باشد که می‌تواند اطلاعات بافت غنی را به تصویر بکشد و به درک ویژگی‌های پیچیده سطح کمک کند. دلیل عملکرد ناامیدکننده شبکه‌های اخیر با مکانیسم توجه می‌تواند پیچیدگی و تنوع داده‌های HCSV باشد که ممکن است شبکه‌ها را گمراه کرده و منجر به روابط نادرست بین مکان‌های مختلف شود.
در مورد بهترین روش‌های تقسیم‌بندی معنایی برای هسته تاریخی در پکن، ما معتقد بودیم که این به حجم تصاویر حاشیه‌نویسی برای آموزش بستگی دارد. هنگامی که مقادیر محدودی از داده های برچسب دار وجود دارد، یک شبکه با ظرفیت کم عملکرد تعمیم یافته بهتری خواهد داشت. به عنوان مثال، Fast-SCNN [ 47 ] می‌تواند نتایج بخش‌بندی امیدوارکننده‌ای را بر روی Cityscapes بدون نیاز به فرآیند پیش‌آموزشی تولید کند، و نمونه‌های آموزشی محدود در مقایسه با DCNN‌های با ظرفیت بالا تأثیر کمتری خواهند داشت. با این حال، روش‌های مجهز به مکانیسم توجه، به ویژه شبکه‌های مبتنی بر ترانسفورماتور تازه پدید آمده [ 48 ، 49 ]]، نمی تواند دانش کافی برای تشخیص ویژگی های سطحی پیچیده و ایجاد روابط مناسب با استفاده از نمونه های حاشیه نویسی محدود را بیاموزد [ 50 ]. یکی دیگر از دلایل احتمالی برای بهترین عملکرد روش پیشنهادی، دستیابی به تعادل بین ظرفیت شبکه و مقدار داده است.

6. نتیجه گیری و کار آینده

خدمات نقشه آنلاین به سرعت در حال تکامل با تصاویر نمای خیابان، چشم اندازی جدید برای مشاهده منظر شهری و وضعیت محیطی، به ویژه برای منطقه با ویژگی های چشم انداز متنوع در منطقه مرکزی پکن، ارائه می دهد. برای پرداختن به سوال کمبود داده، این مقاله مجموعه داده کوچک و در عین حال جامع History-Core Street View را برای تحقیقات مرتبط ارائه می‌کند. علاوه بر این، ما یک روش مبتنی بر DNN با فناوری یادگیری تبدیل، یک بلوک توجه PSA و یک بلوک ASPP برای انجام استخراج دقیق ویژگی‌های منظره برای مناطق تاریخی چین پیشنهاد کردیم. برای کاهش اثرات منفی ناشی از مشکل نمونه محدود، ماژول یادگیری انتقال می‌تواند دانش را از مجموعه داده‌های موجود به شبکه پیشنهادی منتقل کند تا به تمایز ویژگی‌های یکسان در مجموعه داده HCSV کمک کند. علاوه بر این، بلوک توجه PSA می‌تواند ویژگی‌های پیچیده را تشخیص دهد، در حالی که بلوک ASPP می‌تواند ویژگی‌های چند مقیاسی را استخراج کند و بنابراین، می‌تواند به مدل کمک کند تا ویژگی‌های منظره را با دقت بیشتری، به ویژه در یک محیط پیچیده استخراج کند. در مقایسه با سایر روش‌های پیشرفته، یعنی ANNN و PSANet، شبکه ما بالاترین دقت را با mIoU 63.7٪ در مجموعه داده HCSV به دست آورد.
در آینده، فناوری اخیر با نظارت ضعیف و ترانسفورماتور را بیشتر بررسی خواهیم کرد و روش‌های موثر استخراج ویژگی‌های منظره را توسعه خواهیم داد که می‌تواند انواع بیشتری از ویژگی‌ها را با دقت بالاتر در یک محیط پیچیده و موقعیت نمونه کوچک تشخیص دهد. علاوه بر این، روش پیشنهادی می‌تواند به سایر مناطق تاریخی چین مانند شهر باستانی Fenghuang و Lilong در شانگهای نیز ارتقا یابد تا از حفاظت از مناظر سنتی با ارائه داده‌های بررسی ویژگی‌های زمین به بخش‌های مربوطه حمایت شود.

مشارکت های نویسنده

مفهوم سازی، سیمینگ یین و شیان گو. روش، سیمینگ یین. اعتبار سنجی، سیمینگ یین. تحلیل رسمی، سیمینگ یین. منابع، جی جیانگ; مدیریت داده، سیمینگ یین. نوشتن – آماده سازی پیش نویس اصلی، سیمینگ یین. نوشتن-بررسی و ویرایش، Xian Guo و Jie Jiang. نظارت، شیان گو. مدیریت پروژه، جی جیانگ؛ کسب بودجه، جی جیانگ. همه نویسندگان نسخه منتشر شده نسخه خطی را خوانده و با آن موافقت کرده اند.

منابع مالی

این مطالعه توسط برنامه ملی تحقیق و توسعه کلیدی چین (2021YFE0117500)، پروژه آموزش استعدادهای هرمی دانشگاه مهندسی عمران و معماری پکن (JDYC20200322)، صندوق های تحقیقات بنیادی برای دانشگاه مهندسی عمران و معماری پکن (X20) پشتیبانی شد.

بیانیه هیئت بررسی نهادی

قابل اجرا نیست.

بیانیه رضایت آگاهانه

قابل اجرا نیست.

بیانیه در دسترس بودن داده ها

داده های ارائه شده در این مطالعه به درخواست نویسنده مسئول در دسترس است.

تضاد علاقه

نویسندگان هیچ تضاد منافع را اعلام نمی کنند.

منابع

  1. شان، JX حفاظت از مناطق تاریخی و فرهنگی ; انتشارات دانشگاه تیانجین: تیانجین، چین، 2015. (به زبان چینی) [ Google Scholar ]
  2. Cai، تجزیه و تحلیل XF و مقررات در مورد سبک و ویژگی شهر. دکتری پایان نامه، دانشگاه Tongji، شانگهای، چین، 2006. [ Google Scholar ]
  3. مانگی، من؛ یو، ز. کلوار، س. علی لشاری، زهرا. تحلیل تطبیقی ​​روندهای توسعه شهری مناطق شهری پکن و کراچی. پایداری 2020 ، 12 ، 451. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  4. Wherrett, JR ایجاد مدل های ترجیحی چشم انداز با استفاده از تکنیک های نظرسنجی اینترنتی. Landsc. Res. 2000 ، 25 ، 79-96. [ Google Scholar ] [ CrossRef ]
  5. ورمولن، اف. کی، اس جی. برگرز، جی.-جی. کورسی، سی. بررسی منظر شهری در ایتالیا و مدیترانه . کتاب های آکسبو: آکسفورد، انگلستان، 2012; ISBN 9781842174869. [ Google Scholar ]
  6. Ahern, J. پایداری و انعطاف‌پذیری منظر شهری: نوید و چالش‌های ادغام اکولوژی با برنامه‌ریزی و طراحی شهری. Landsc. Ecol. 2013 ، 28 ، 1203-1212. [ Google Scholar ] [ CrossRef ]
  7. لی، ز. هان، ایکس. لین، ایکس. لو، ایکس. تحلیل کمی اثربخشی منظر بر اساس مدل‌سازی معادلات ساختاری: شواهد تجربی از خیابان‌های تجاری سبک چینی جدید. الکس. مهندس J. 2021 , 60 , 261-271. [ Google Scholar ] [ CrossRef ]
  8. لیو، ی. وانگ، آر. لو، ی. لی، ز. چن، اچ. کائو، ام. ژانگ، ی. Song، Y. محیط طبیعی در فضای باز، انسجام اجتماعی محله و سلامت روان: با استفاده از مدل‌سازی معادلات ساختاری چندسطحی، متریک‌های چشم‌انداز خیابان و سنجش از دور. شهری برای. سبز شهری. 2020 , 48 , 126576. [ Google Scholar ] [ CrossRef ]
  9. ژانگ، ایکس. آموزش دوره بررسی منظره بر اساس تفسیر تصویر سنجش از دور شناسایی* را تمرین کنید. آموزش. علمی عمل تئوری. 2018 ، 18 ، 1411-1423. [ Google Scholar ] [ CrossRef ]
  10. تانگ، جی. طولانی، Y. اندازه گیری کیفیت بصری فضای خیابان و تغییرات زمانی آن: روش شناسی و کاربرد آن در منطقه هوتونگ در پکن. Landsc. طرح شهری 2019 , 191 , 103436. [ Google Scholar ] [ CrossRef ]
  11. خو، ز. وو، ی. Lu، XZ; جین، XL تجسم عکس واقع گرایانه از پاسخ های دینامیکی لرزه ای خوشه های ساختمان شهری بر اساس عکاسی هوایی مایل. Adv. مهندس به اطلاع رساندن. 2020 ، 43 ، 17. [ Google Scholar ] [ CrossRef ]
  12. راویندران، آر. سانتورا، ام جی; جمالی، MM، تشخیص و ردیابی چند شیء، بر اساس DNN، برای وسایل نقلیه خودمختار: یک بررسی. IEEE Sens. J. 2021 , 21 , 5668–5677. [ Google Scholar ] [ CrossRef ]
  13. گونگ، FY؛ Zeng، ZC; ژانگ، اف. لی، XJ; نگ، ای. نورفورد، LK نقشه برداری از آسمان، درخت و عوامل نمای ساختمان دره های خیابان در یک محیط شهری با تراکم بالا. ساختن. محیط زیست 2018 ، 134 ، 155-167. [ Google Scholar ] [ CrossRef ]
  14. لیانگ، جی. گونگ، جی. سان، ج. ژو، جی. لی، دبلیو. لی، ی. لیو، جی. Shen, S. تخمین خودکار فاکتور نمای آسمان از عکس‌های نمای خیابان – رویکرد داده‌های بزرگ. Remote Sens. 2017 , 9 , 411. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  15. چنگ، ال. چو، اس اس. Zong، WW; لی، سی. وو، جی. لی، ام سی استفاده از تصاویر نمای خیابان Tencent برای درک بصری از خیابان ها. ISPRS Int. J. Geo-Inf. 2017 ، 6 ، 265. [ Google Scholar ] [ CrossRef ]
  16. راندل، AG; بادر، MD; ریچاردز، کالیفرنیا؛ Neckerman، KM; Teitler، JO استفاده از نمای خیابان گوگل برای ممیزی محیط های محله. صبح. J. قبلی پزشکی 2011 ، 40 ، 94-100. [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
  17. لی، XJ; راتی، سی. سیفرلینگ، I. کمی کردن سایه درختان خیابان در منظر شهری: مطالعه موردی در بوستون، ایالات متحده، با استفاده از نمای خیابان گوگل. Landsc. طرح شهری. 2018 ، 169 ، 81-91. [ Google Scholar ] [ CrossRef ]
  18. لی، XJ; ژانگ، CR; بازیابی اطلاعات کاربری شهری در سطح بلوک ساختمانی لی، WD بر اساس تصاویر نمای خیابان گوگل. GIScience Remote Sens. 2017 ، 54 ، 819-835. [ Google Scholar ] [ CrossRef ]
  19. لانگ، جی. شلهامر، ای. دارل، تی. شبکه های کاملاً پیچیده برای تقسیم بندی معنایی. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، بوستون، MA، ایالات متحده آمریکا، 7 تا 12 ژوئن 2015. صص 3431–3440. [ Google Scholar ]
  20. رونبرگر، او. فیشر، پی. Brox، T. U-net: شبکه های کانولوشن برای تقسیم بندی تصاویر زیست پزشکی. در مجموعه مقالات کنفرانس بین المللی محاسبات تصویر پزشکی و مداخله به کمک کامپیوتر، مونیخ، آلمان، 5 تا 9 اکتبر 2015. صص 234-241. [ Google Scholar ]
  21. بدرینارایانان، وی. کندال، ا. Cipolla، R. SegNet: معماری رمزگذار-رمزگشای پیچیده پیچیده برای تقسیم بندی تصویر. IEEE Trans. الگوی مقعدی ماخ هوشمند 2017 ، 39 ، 2481-2495. [ Google Scholar ] [ CrossRef ]
  22. ژائو، اچ. ژانگ، ی. لیو، اس. شی، ج. لوی، سی سی; لین، دی. Jia, J. Psanet: شبکه توجه فضایی نقطه‌ای برای تجزیه صحنه. در مجموعه مقالات کنفرانس اروپایی بینایی کامپیوتر (ECCV)، مونیخ، آلمان، 8 تا 14 سپتامبر 2018؛ ص 267-283. [ Google Scholar ]
  23. چن، L.-C.; زو، ی. پاپاندرو، جی. شروف، اف. Adam, H. رمزگذار-رمزگشا با پیچیدگی قابل جداسازی آتروس برای تقسیم بندی تصویر معنایی. در مجموعه مقالات کنفرانس اروپایی بینایی کامپیوتر (ECCV)، مونیخ، آلمان، 8 تا 14 سپتامبر 2018؛ ص 801-818. [ Google Scholar ]
  24. هوو، ایکس. زی، ال. او، جی. یانگ، ز. ژو، دبلیو. لی، اچ. Tian, ​​Q. ATSO: بهینه سازی ناهمزمان معلم و دانش آموز برای تقسیم بندی تصویر نیمه نظارت شده. در مجموعه مقالات کنفرانس IEEE/CVF در مورد دید رایانه و تشخیص الگو (CVPR)، آنلاین، 19 تا 25 ژوئن 2021؛ ص 1235-1244. [ Google Scholar ]
  25. وانگ، اچ. زو، ی. آدم، اچ. یویل، ا. چن، ال.-سی. Max-deeplab: تقسیم بندی پانوپتیک انتها به انتها با ترانسفورماتورهای ماسک. در مجموعه مقالات کنفرانس IEEE/CVF در مورد دید رایانه و تشخیص الگو (CVPR)، آنلاین، 19 تا 25 ژوئن 2021؛ صص 5463–5474. [ Google Scholar ]
  26. یوان، XH; شی، ج.اف. Gu، LC مروری بر روش‌های یادگیری عمیق برای تقسیم‌بندی معنایی تصاویر سنجش از دور. سیستم خبره Appl. 2021 ، 169 ، 14. [ Google Scholar ] [ CrossRef ]
  27. Yan، YL; Ryu, Y. کاوش نمای خیابان Google با یادگیری عمیق برای نگاشت نوع برش. Isprs J. Photogramm. Remote Sens. 2021 , 171 , 278–296. [ Google Scholar ] [ CrossRef ]
  28. ژانگ، اف. وو، ال. زو، دی. لیو، ی. سنجش اجتماعی از تصویرسازی سطح خیابان: مطالعه موردی در یادگیری الگوهای تحرک شهری فضایی-زمانی. ISPRS J. Photogramm. Remote Sens. 2019 ، 153 ، 48–58. [ Google Scholar ] [ CrossRef ]
  29. ژائو، اچ. شی، ج. Qi، X. وانگ، ایکس. شبکه تجزیه صحنه هرم جیا، جی. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، هونولولو، HI، ایالات متحده آمریکا، 21 تا 26 ژوئیه 2017؛ صص 2881-2890. [ Google Scholar ]
  30. میدل، ا. لوکاشیک، جی. زاکرزوسکی، اس. آرنولد، ام. Maciejewski، R. فرم شهری و ترکیب دره های خیابانی: یک داده های بزرگ انسان محور و رویکرد یادگیری عمیق. Landsc. طرح شهری 2019 ، 183 ، 122–132. [ Google Scholar ] [ CrossRef ]
  31. بله، ی. زنگ، دبلیو. شن، QM; ژانگ، XH; Lu, Y. کیفیت بصری خیابان ها: یک اندازه گیری پیوسته انسان محور بر اساس الگوریتم های یادگیری ماشین و تصاویر نمای خیابان. محیط زیست طرح. ب مقعد شهری. علوم شهر 2019 ، 46 ، 1439-1457. [ Google Scholar ] [ CrossRef ]
  32. سوئل، ای. بهات، اس. برائر، ام. فلکسمن، اس. عزتی، م. یادگیری عمیق چندوجهی از تصاویر ماهواره ای و سطح خیابان برای اندازه گیری درآمد، ازدحام بیش از حد و محرومیت محیطی در مناطق شهری. سنسور از راه دور محیط. 2021 ، 257 ، 11. [ Google Scholar ] [ CrossRef ] [ PubMed ]
  33. ژانگ، LY; پی، تی. وانگ، ایکس. وو، مگابایت؛ آهنگ، سی. Guo، SH; چن، وای جی، درک بصری شهری از ساختمان‌های به سبک سنتی چینی را با تصاویر نمای خیابان تعیین می‌کند. Appl. علمی 2020 ، 10 ، 5963. [ Google Scholar ] [ CrossRef ]
  34. چنگ، بی. میسره، من. شوینگ، AG; کریلوف، آ. Girdhar, R. ترانسفورماتور ماسک توجه نقابدار برای تقسیم بندی تصویر جهانی. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، نیواورلئان، لس آنجلس، ایالات متحده آمریکا، 21 تا 24 ژوئن 2022. [ Google Scholar ]
  35. زو، ز. خو، ام. بای، اس. هوانگ، تی. بای، X. شبکه های عصبی غیرمحلی نامتقارن برای تقسیم بندی معنایی. در مجموعه مقالات کنفرانس بین المللی IEEE/CVF در بینایی کامپیوتر، سئول، کره، 27 اکتبر تا 2 نوامبر 2019؛ صص 593-602. [ Google Scholar ]
  36. دنگ، ج. دونگ، دبلیو. سوچر، آر. لی، ال.-جی. لی، ک. Fei-Fei, L. Imagenet: پایگاه داده تصویر سلسله مراتبی در مقیاس بزرگ. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، میامی، فلوریدا، ایالات متحده آمریکا، 20-25 ژوئیه 2009. صص 248-255. [ Google Scholar ]
  37. Brostow، GJ; Fauqueur, J.; Cipolla، R. کلاس های شیء معنایی در ویدئو: پایگاه داده حقیقت زمینی با کیفیت بالا. تشخیص الگو Lett. 2009 ، 30 ، 88-97. [ Google Scholar ] [ CrossRef ]
  38. کوردتس، ام. عمران، م. راموس، اس. رهفلد، تی. انزوایلر، م. بننسون، آر. فرانکه، یو. راث، اس. شیله، بی. مجموعه داده مناظر شهری برای درک معنایی صحنه شهری. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، لاس وگاس، NV، ایالات متحده، 26 ژوئن تا 1 ژوئیه 2016؛ صص 3213–3223. [ Google Scholar ]
  39. لین، تی.-ای. مایر، م. بلنگی، اس. هیز، جی. پرونا، پی. رامانان، دی. دلار، پی. Zitnick، CL مایکروسافت کوکو: اشیاء مشترک در زمینه. در مجموعه مقالات کنفرانس اروپایی بینایی کامپیوتر (ECCV)، زوریخ، سوئیس، 6 تا 12 سپتامبر 2014. صص 740-755. [ Google Scholar ]
  40. یو، اف. چن، اچ. وانگ، ایکس. Xian، W. چن، ی. لیو، اف. مدهوان، وی. Darrell, T. Bdd100k: مجموعه داده رانندگی متنوع برای یادگیری چندکاره ناهمگن. در مجموعه مقالات کنفرانس IEEE/CVF در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، سیاتل، WA، ایالات متحده آمریکا، 14 تا 19 ژوئن 2020؛ صص 2636–2645. [ Google Scholar ]
  41. هوانگ، ایکس. چنگ، ایکس. گنگ، س. کائو، بی. ژو، دی. وانگ، پی. لین، ی. یانگ، آر. مجموعه داده آپولوسیپ برای رانندگی مستقل. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، سالت لیک سیتی، UT، ایالات متحده آمریکا، 18 تا 22 ژوئن 2018؛ ص 954-960. [ Google Scholar ]
  42. مشارکت کنندگان ویرایشگر تقسیم بندی معنایی. ویرایشگر تقسیم بندی معنایی در دسترس آنلاین: https://github.com/Hitachi-Automotive-And-Industry-Lab/semantic-segmentation-editor (در 18 مه 2022 قابل دسترسی است).
  43. او، ک. ژانگ، ایکس. رن، اس. Sun، J. یادگیری باقیمانده عمیق برای تشخیص تصویر. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو (CVPR)، لاس وگاس، NV، ایالات متحده، 27-30 ژوئن 2016. صص 770-778. [ Google Scholar ]
  44. کریژفسکی، آ. سوتسکور، آی. هینتون، GE Imagenet طبقه بندی با شبکه های عصبی کانولوشن عمیق. در مجموعه مقالات بیست و پنجمین کنفرانس بین المللی سیستم های پردازش اطلاعات عصبی، دریاچه تاهو، نوادا، ایالات متحده آمریکا، 3-6 دسامبر 2012. صص 1097–1105. [ Google Scholar ]
  45. ویت، ا. ویلبر، ام جی; Belongie, S. شبکه‌های باقیمانده مانند مجموعه‌ای از شبکه‌های نسبتا کم عمق رفتار می‌کنند. در مجموعه مقالات سی امین کنفرانس سیستم های پردازش اطلاعات عصبی، بارسلون، اسپانیا، 5 تا 10 دسامبر 2016. صص 550-558. [ Google Scholar ]
  46. مشارکت کنندگان MMSegmentation. MMSegmentation: OpenMMLab Semantic Segmentation Toolbox and Benchmark. در دسترس آنلاین: https://github.com/open-mmlab/mmsegmentation (در 18 مه 2022 قابل دسترسی است).
  47. پودل، RP; لیویکی، اس. Cipolla, R. Fast-scnn: شبکه تقسیم بندی معنایی سریع. arXiv 2019 ، arXiv:1902.04502. [ Google Scholar ]
  48. دوسوویتسکی، آ. بیر، ال. کولسنیکوف، آ. وایسنبورن، دی. ژای، ایکس. Unterthiner، T. دهقانی، م. مایندرر، م. هیگلد، جی. Gelly، S. یک تصویر ارزش 16×16 کلمه دارد: ترانسفورماتور برای تشخیص تصویر در مقیاس. در مجموعه مقالات کنفرانس بین‌المللی نمایش‌های یادگیری (ICLR)، آنلاین، 3 تا 7 مه 2021. [ Google Scholar ]
  49. لیو، ز. لین، ی. کائو، ی. متعجب.؛ وی، ی. ژانگ، ز. لین، اس. Guo, B. ترانسفورماتور Swin: ترانسفورماتور دید سلسله مراتبی با استفاده از پنجره های جابجا شده. در مجموعه مقالات کنفرانس بین المللی IEEE/CVF در بینایی رایانه (ICCV)، مونترال، QC، کانادا، 11 تا 17 اکتبر 2021. [ Google Scholar ]
  50. لیو، ز. مائو، اچ. وو، سی.-ای. فایختنهوفر، سی. دارل، تی. Xie, S. A ConvNet برای سال 2020. در مجموعه مقالات کنفرانس IEEE/CVF در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، نیواورلئان، لس آنجلس، ایالات متحده آمریکا، 21 تا 24 ژانویه 2022. [ Google Scholar ]
شکل 1. منطقه مطالعه.
شکل 2. پلت فرم ویرایشگر تقسیم بندی معنایی.
شکل 3. ویژگی های منظر شهری معمولی برای هر دسته در مجموعه داده HCSV.
شکل 4. نمودار جریان از PALESNet پیشنهادی. یک ماژول استخراج ویژگی برای استخراج ویژگی ها از تصاویر نمای خیابان استفاده می شود. ویژگی‌ها به ماژول تقسیم‌بندی ارسال می‌شوند تا ویژگی‌های منظره را تشخیص دهند، جایی که بلوک PSA برای ایجاد تمایز بیشتر ویژگی و بلوک ASPP برای ثبت نمایش چند مقیاسی هر ویژگی استفاده می‌شود. ماژول انتقال دانش در مرحله آموزش فعال می شود تا پارامترها را هم برای استخراج کننده ویژگی و هم برای شبکه تقسیم بندی اولیه کند.
شکل 5. ساختار بلوک باقیمانده.
شکل 6. مرحله پایه ( a ) ResNet اصلی و ( b ) استخراج کننده ویژگی ما.
شکل 7. معماری ماژول خودتوجهی قطبی شده (PSA). ویژگی ورودی به طور موازی به توجه فضایی و توجه کانال ارسال می شود تا برای یک محیط پیچیده متمایزتر شود.
شکل 8. تصویر بلوک ASPP، که در آن ‘⊕’ عملیات الحاق را نشان می دهد.
شکل 9. مقایسه تصویری سناریوی خیابان مدرن، سناریوی مسکونی مدرن، و سناریوی کوچه باستانی در مجموعه داده HCSV: ( الف ) تصویر اصلی. ( ب ) حقیقت پایه؛ ( ج ) FCN; ( د ) PSANet; ( ه ) ANNN; ( f ) روش ما.
شکل 10. ما نتایج تقسیم بندی دسته به دسته را برای ( الف ) ساختمان، ( ب ) پوشش گیاهی، ( ج ) آسمان، ( د ) جاده، ( ه ) علامت، ( f ) وسایل نقلیه موتوری، ( g ) غیر وسایل نقلیه موتوری، ( h ) نفر، ( i ) بهم ریختگی، و ( j ) پیاده روها، به ترتیب.
شکل 11. منحنی های تلفات و معیارهای ( a ) FCN، ( b ) PSANet، ( c ) ANNN، و ( d ) PALESNet. مشاهده می‌شود که در مقایسه با FCN اصلی، روش‌های مبتنی بر توجه می‌توانند به طور مداوم اطلاعات را از آموزش یاد بگیرند و منجر به روند صعودی در تمام معیارهای ارزیابی می‌شوند. علاوه بر این، PALESNet پیشنهادی منحنی همگرایی نرم‌تری نسبت به PSANet داشت و سرعت همگرایی بالاتری نسبت به ANNN داشت.

7 نظرات

دیدگاهتان را بنویسید