طبقه بندی شکل ردپای ساختمان چند شات با شبکه ارتباطی

ساختمان ها اشیاء موجودیت مهم شهرها هستند و طبقه بندی اشکال ساختمانی نقشی ضروری در شناخت و برنامه ریزی ساختار شهری ایفا می کند. در سال‌های اخیر، روش‌های یادگیری عمیق برای شناخت اشکال ردپای ساختمان در نقشه‌های الکترونیکی مدرن پیشنهاد شده است. علاوه بر این، عملکرد آنها به نمونه های برچسب گذاری شده کافی برای هر کلاس از ردپای ساختمان بستگی دارد. با این حال، برچسب زدن نمونه های کافی برای هر نوع از اشکال ردپای ساختمان غیرعملی است. بنابراین، روش‌های یادگیری عمیق با استفاده از نمونه‌های چند برچسب‌گذاری شده برای شناسایی و طبقه‌بندی اشکال ردپای ساختمان ترجیح داده می‌شوند. در این مقاله، ما یک روش مبتنی بر شبکه رابطه را برای تشخیص اشکال ردپای ساختمان با نمونه‌های چند برچسب‌گذاری شده پیشنهاد می‌کنیم. شبکه ارتباط، متشکل از ماژول تعبیه شده و ماژول رابطه، یک روش چند شات مبتنی بر متریک است که هدف آن یادگیری یک تابع متریک تعمیم یافته و پیش بینی انواع نمونه های جدید با توجه به ارتباط آنها با نمونه های اولیه این چند نمونه برچسب گذاری شده است. برای استخراج بهتر ویژگی های شکل ردپای ساختمان در قالب چند ضلعی های برداری، ماژول تعبیه TriangleConv را به عنوان ماژول تعبیه شبکه رابطه انتخاب کرده ایم. ما اثربخشی روش خود را بر اساس مجموعه داده ردپای ساختمان با 10 شکل معمولی تأیید می‌کنیم و آن را با سه روش کلاسیک یادگیری چند شات در دقت مقایسه می‌کنیم. نتایج نشان می‌دهد که روش ما برای طبقه‌بندی اشکال ردپای ساختمان با نمونه‌های چند برچسب‌دار بهتر عمل می‌کند. مثلا دقت به 89 رسید.

کلید واژه ها:

یادگیری چند شات ; نقشه های برداری ; شبکه ارتباطی ; تشخیص شکل ردپای ساختمان ; TriangleConv

1. مقدمه

شناخت ساختار شهری برای تعمیم نقشه کشی و مدل سازی شهری مهم است [ 1 ]. به عنوان یک جزء کلیدی شهر، ساختمان ها اغلب ساختار و شکل شهر را تعیین می کنند [ 2 ]. بنابراین، برای مطالعه ویژگی‌های ساختمان، که به خوبی توسعه بازنمایی‌های چند مقیاسی را ارتقا داده و در برنامه‌ریزی شهری، تحلیل‌های منظر و سایر زمینه‌ها به کار گرفته شده است، حائز اهمیت است [ 3 ].

هنگام بررسی ویژگی‌های اشیاء موجود در زمینه GIS، یک تمرکز بر ویژگی‌های فضایی مانند مکان، شکل و نسبیت است. در میان این ویژگی‌های فضایی، شکل احتمالاً مهم‌ترین ویژگی است که اشیا را می‌توان درک کرد [ 4 ]. تا حدی، شکل می تواند رابطه بین موجودیت و تاریخ را منعکس کند. برای ساختمان های شهر، شکل ساختمان در یک دوره معین می تواند منعکس کننده ویژگی های فرهنگی دوره مربوطه باشد [ 5 ]. بنابراین از طریق شناخت و طبقه بندی اشکال ساختمان می توان ساختار شهری را بهتر شناخت و برنامه ریزی کرد.

در نقشه‌های الکترونیکی مدرن، اشیاء موجودی مانند ردپای ساختمان اغلب به‌عنوان داده‌های برداری ذخیره می‌شوند و اشکال آن‌ها به‌عنوان الگوهایی که توسط چندضلعی‌ها تشکیل شده‌اند، تعریف می‌شوند. روش های زیادی توسط محققان از دیدگاه های مختلف برای تشخیص شکل اجسام بردار پیشنهاد شده است. روش‌های سنتی مبتنی بر معیارهای هندسی و آماری هستند، مانند انحنای [ 6 ]، فشردگی [ 7 ] و فواصل مرکز مثلثی (TCDs) [ 8 ]. اخیراً، فو و همکاران. [ 9 ] یک روش مبتنی بر لحظه برای اندازه گیری شباهت شکل پیشنهاد کردند، در حالی که فن و همکاران. [ 10] روشی مبتنی بر ویژگی های چند مقیاسی و توصیفگرهای زمینه شبکه برای حل مشکل تشخیص شکل پیشنهاد کرد. این روش ها شهودی هستند اما تمایل دارند این واقعیت را نادیده بگیرند که اشکال پیچیده و از نظر شناختی مرتبط هستند [ 11 ]. به منظور استخراج ویژگی‌های شکل عمیق‌تر اشیاء برداری، محققان اخیراً روش‌هایی را مبتنی بر یادگیری عمیق پیشنهاد کرده‌اند، مانند شبکه عصبی کانولوشن گراف [ 12 ]، رمزگذار خودکار کانولوشن گراف [ 11 ]، و شبکه کانولوشن نقطه عمیق [ 13 ].

در چند سال گذشته، روش‌های یادگیری عمیق، به‌ویژه روش‌های یادگیری عمیق تحت نظارت، نتایج بسیار خوبی در زمینه‌های مختلفی از جمله بینایی کامپیوتر [ 14 ، 15 ، 16 ] و علوم زمین [ 17 ، 18 ، 19 ، 20 ] به دست آورده‌اند. این روش‌ها اغلب به تعداد زیادی نمونه برچسب‌دار برای آموزش مدل‌های شبکه عصبی نیاز دارند. با این حال، برای برخی از کارها در عمل، دستیابی به نمونه های برچسب دار کافی پرهزینه یا غیرممکن است. این به شدت مقیاس پذیری و کاربرد این روش ها را محدود می کند [ 21 ].

آموزش چند شات مجموعه ای از راه حل ها را برای مشکل فوق که توسط روش های یادگیری عمیق سنتی با آن مواجه می شود، پیشنهاد می کند. هدف آن این است که به مدل های یادگیری ماشینی اجازه دهد یک شی جدید مانند انسان را تشخیص دهند که می تواند یک شی جدید را با نمونه های کمی یاد بگیرد [ 22 ، 23 ]. در حال حاضر، تحقیق در مورد یادگیری چند شات از چندین دیدگاه مختلف مانند روش های یادگیری مبتنی بر متریک [ 21 ، 24 ، 25 ] و روش های مبتنی بر بهینه سازی پارامتر [ 26 ، 27 ، 28 ] انجام می شود.]. اکثر روش های یادگیری چند شات از استراتژی فرا یادگیری استفاده می کنند که هدف آن آموزش مدلی با تعداد زیادی کار و تعمیم آن به یک کار جدید است. معمولاً بسیاری از وظایف متا را با مجموعه داده های موجود می سازد و کل فرآیند یادگیری را به دو مرحله تقسیم می کند: آموزش متا و آزمون متا. در آموزش متا، مدل تحت کلاس‌های مختلف توسط متا وظایف مختلف تعمیم داده می‌شود تا بتواند کلاس‌های جدید کار جدید را در آزمون متا تشخیص دهد و طبقه‌بندی کند [ 29 ، 30 ، 31 ].

در نقشه ها، ردپای ساختمانی بسیار متنوع است که شکل آنها متنوع است. برچسب زدن تعداد زیادی نمونه برای هر شکل ردپای ساختمان پرهزینه یا حتی غیرممکن خواهد بود. به عنوان مثال، در مطالعه یان و همکاران. [ 11 ]، تنها ده نوع شکل ردپای ساختمان بر اساس شباهت بین ردپای ساختمان و حروف الفبا برچسب‌گذاری شد. علاوه بر این، برای برخی از ردپاهای ساختمان، به عنوان مثال، ردپای ساختمان های تازه در حال ظهور، دستیابی به نمونه های زیادی که دارای شکل های یکسان هستند، غیر عملی است. بنابراین، برای روش‌های چند شات که می‌توانند به شناسایی و طبقه‌بندی اشکال ردپای ساختمانی دست یابند، زمانی که تنها نمونه‌های برچسب‌دار کمی در دسترس هستند، ارزشمند است.

در این مقاله، ما یک روش چند شات مبتنی بر شبکه رابطه را برای طبقه‌بندی اشکال ردپای ساختمان پیشنهاد می‌کنیم. شبکه رابطه، متشکل از ماژول تعبیه و ماژول رابطه، یک روش چند شات مبتنی بر متریک است که هدف آن یادگیری یک تابع متریک رابطه تعمیم یافته و پیش بینی انواع نمونه های جدید با توجه به رابطه آنها با نمونه های اولیه این چند نمونه برچسب دار است. [ 21 ]. از ماژول جاسازی برای به دست آوردن ویژگی های نمونه ها استفاده می کند و روابط بین ویژگی ها و نمونه های اولیه این چند نمونه برچسب گذاری شده را توسط ماژول رابطه محاسبه می کند. با توجه به اینکه ردپای ساختمان به شکل چند ضلعی های برداری هستند، ماژول کانولوشن TriangleConv را که در کار قبلی ما پیشنهاد شده بود، می گیریم [ 13 ].] به عنوان ماژول جاسازی شبکه رابطه برای استخراج بهتر ویژگی های شکل ردپای ساختمان. آزمایش‌های ما نشان می‌دهد که روش پیشنهادی بهتر از روش‌های کلاسیک یادگیری چند شات در حل مشکل تشخیص و طبقه‌بندی اشکال ردپای ساختمان با نمونه‌های چند برچسب‌گذاری شده است.

ادامه این مقاله به شرح زیر سازماندهی شده است. بخش 2 با جزئیات بیشتری کار مربوط به تشخیص و طبقه بندی اشکال چند ضلعی های برداری مانند ردپای ساختمان و کار مربوط به یادگیری چند شات را ارائه می دهد. بخش 3 بیان مسئله این مقاله را ارائه می دهد و جزئیات روش مبتنی بر شبکه رابطه پیشنهادی را شرح می دهد. بخش 4 داده های تجربی، عملیات پیش پردازش داده ها و تجزیه و تحلیل نتایج تجربی را گزارش می کند. در بخش 5 ، کار خود را به پایان می رسانیم.

2. مربوط به کار

2.1. تشخیص اشکال ردپای ساختمان در نقشه ها

در نقشه ها، ردپای ساختمان اشیاء جغرافیایی مهمی هستند که به طور گسترده در نقشه های بزرگ و متوسط توزیع شده اند [ 32 ، 33 ]. علاوه بر این، شکل یک ویژگی هندسی ضروری اجسام جغرافیایی است که به طور موثر تشخیص این اشیاء را تسهیل می کند [ 34 ، 35 ]. در دهه‌های گذشته، بررسی شکل اجسام جغرافیایی برداری مانند ردپای ساختمان در نقشه‌ها را می‌توان به دو مرحله تقسیم کرد: یکی بر اساس معیارهای هندسی و آماری و دیگری بر اساس یادگیری عمیق.

روش‌های مبتنی بر معیارهای هندسی و آماری به راحتی قابل درک هستند و اکثر آنها بر ناحیه یا مرز اشیا تمرکز دارند [ 11 ]. روش‌های مبتنی بر منطقه، معیارها را معمولاً بر حسب کل شی انتخاب می‌کنند. به عنوان مثال، لی و همکاران. روشی را برای محاسبه فشردگی شکل بر اساس ممان اینرسی [ 7 ] پیشنهاد کردند، و Basaraner و Cetinkaya شاخص مستطیلی معادل و شاخص زبری را برای کمک به توصیف شکل ارائه کردند [ 36 ]. روش‌های مرزی، اشکال را با برخی توصیف‌گرها برای بررسی بهتر اشکال مطابقت می‌دهند. به عنوان مثال، Belongie و همکاران. زمینه های شکل را برای اندازه گیری شباهت بین اشکال ارائه کرد [ 37 ]. آلاجلان و همکاران [ 38] یک روش بازیابی شکل را با استفاده از نمایش سطح مثلث پیشنهاد کرد و یانگ و همکاران. [ 8 ] فواصل مرکز مثلثی را برای حل مشکل تطبیق شکل جزئی پیشنهاد کرد.

در حالی که روش‌های مبتنی بر معیارهای هندسی و آماری اغلب نمی‌توانند ویژگی‌های شکل عمیق‌تر را ثبت کنند، روش‌های یادگیری عمیق توانایی خود را در استخراج اطلاعات ویژگی‌های عمیق اشیا ثابت کرده‌اند. از آنجایی که اشیاء بردار جغرافیایی غیراقلیدسی هستند، روش‌های یادگیری عمیق معمولی که برای داده‌های اقلیدسی مانند تصاویر اعمال می‌شود، برای اشیاء بردار جغرافیایی مناسب نیستند [ 11 ]. در سال‌های اخیر، با ظهور مفهوم پیچیدگی نمودار، یان و همکاران. از تبدیل فوریه گراف و قضیه کانولوشن برای استخراج ویژگی‌های شکل گروه‌های ساختمانی استفاده کرد [ 12 ] و از شبکه عصبی نمودار دامنه طیفی برای ساخت یک مدل رمزگذار خودکار کانولوشن گراف (GCAE) برای استخراج ویژگی‌های شکل ردپای ساختمان استفاده کرد [ 11 ]]. در کار قبلی ما [ 13 ]، یک شبکه کانولوشن نقطه عمیق نیز برای ایجاد تشخیص شکل ردپای با استفاده از یک عملگر TriangleConv در طول کانولوشن پیشنهاد شده است. اگرچه این روش‌ها می‌توانند ویژگی‌های شکل اشیاء برداری را استخراج کنند، نتایج این روش‌ها توسط تعداد زیادی نمونه آموزشی پشتیبانی می‌شود و عملکرد این روش‌ها زمانی که تنها نمونه‌های برچسب‌گذاری‌شده کمی در دسترس باشد، به شدت محدود خواهد شد.

2.2. آموزش چند شات

پس از سال‌ها توسعه، روش‌های یادگیری عمیق تحت نظارت که از مقدار زیادی از داده‌های برچسب‌گذاری شده به عنوان پشتیبانی برای یک برنامه خاص استفاده می‌کنند، به دلیل عملکرد عالی خود توجه گسترده‌ای را به خود جلب کرده‌اند [ 39 ، 40 ، 41 ]. با این حال، این روش ها به شدت در اثربخشی خود در هنگام حل وظایف با نمونه های چند برچسب دار [ 22 ] محدود هستند.

یادگیری چند شات نوعی مشکل یادگیری ماشینی است که می‌تواند دانش قبلی را از تعداد زیادی از نمونه‌های نظارت شده به دست آورد و سپس از دانش برای تعمیم به کارهای جدید که فقط نمونه‌های نظارت شده کمی دارند استفاده کند [ 22 ، 23 ]. کارهای قبلی روی یادگیری چند شات معمولاً بر اساس استراتژی‌های استنتاج تکراری پیچیده اجرا می‌شد [ 42 ، 43 ]. با محبوبیت یادگیری عمیق، روش های یادگیری چند شات مبتنی بر یادگیری عمیق به تدریج افزایش یافته است. اکثر روش ها از استراتژی فرا یادگیری (یادگیری برای یادگیری) استفاده می کنند [ 21 ، 25 ، 28]، که در آن دانش قبلی به دست آمده از وظایف خاص برای هدایت یادگیری وظایف جدید استفاده می شود تا شبکه بتواند به سرعت وظایف جدید را تطبیق دهد.

بسته به روش حل مسئله، روش های یادگیری چند شات را می توان به چهار دسته طبقه بندی کرد: روش های مبتنی بر افزایش داده ها، روش های مبتنی بر متریک، روش های مبتنی بر بهینه سازی و روش های مبتنی بر معنایی. کلید روش‌های افزایش داده‌ها، تولید نمونه‌های بیشتر بر اساس نمونه‌های چند برچسب‌گذاری شده برای ارائه دانش قبلی غنی‌تر برای مدل است. این تکنیک معمولاً در زمینه پردازش تصویر استفاده می شود و تکنیک های رایج تقویت داده ها شامل مقیاس بندی، چرخش و غیره است [ 44 ، 45 ]. روش‌های مبتنی بر بهینه‌سازی، بهینه‌سازهایی مانند شبکه‌های تقویت‌شده حافظه و حافظه کوتاه‌مدت را به آموزش معرفی می‌کنند تا به مدل کمک کنند تا به نتایج عالی در کارهای جدید دست یابد [ 26 ، 27 ]]. روش‌های مبتنی بر متریک از روش‌هایی مانند شبکه‌های عصبی کانولوشن برای تبدیل داده‌ها به نمایش تعبیه‌شده مربوطه استفاده می‌کنند و سپس از برخی روش‌های متریک برای دستیابی به مقایسه و خوشه‌بندی نمایش تعبیه‌شده استفاده می‌کنند [ 21 ، 24 ، 25 ]. روش‌های مبتنی بر معنایی اغلب برای حل یادگیری شات صفر، که یک مورد خاص از یادگیری چند شات است، استفاده می‌شوند. روش‌های مبتنی بر معنایی اطلاعات معنایی اضافی را به داده‌ها اضافه می‌کنند و اطلاعات می‌تواند به مدل کمک کند تا دانش قبلی بیشتری کسب کند و بنابراین وظایف جدید را بهتر انجام دهد [ 46 ، 47 ]. این مقاله از شبکه رابطه پیروی می کند که نوعی روش مبتنی بر متریک است [ 21] برای دستیابی به تشخیص شکل ردپای ساختمان چند شات. علاوه بر این، با توجه به ویژگی‌های ردپای ساختمان بردار، ما از ماژول TriangleConv برای جایگزینی ماژول کانولوشنال دو بعدی در روش خود استفاده می‌کنیم تا نمایش تعبیه‌شده اشکال ردپای ساختمان را بهتر به دست آوریم.

3. روش شناسی

در این بخش، مشکل طبقه‌بندی شکل ردپای ساختمان چند شات را در نقشه‌ها بیان می‌کنیم، شبکه و استراتژی آموزشی روش پیشنهادی را ارائه می‌کنیم و نحوه اعمال روش پیشنهادی را در عمل شرح می‌دهیم.

3.1. بیان مسأله

روش‌های یادگیری عمیق موجود برای تشخیص و طبقه‌بندی اشکال ردپای ساختمان اغلب به تعداد زیادی نمونه آموزشی تحت نظارت نیاز دارند. با این حال، تنوع زیادی از اشکال ردپای ساختمان وجود دارد، و علامت گذاری تعداد زیادی نمونه آموزشی برای هر شکل ردپای ساختمان هزینه بر است. در این مورد، مشکل طبقه‌بندی شکل ردپای ساختمان چند شات مربوط به این است که آیا می‌توانیم اشکال خاص بسیاری از ردپای ساختمان‌های بدون برچسب را تنها با تعداد کمی از نمونه‌های برچسب‌دار تشخیص دهیم. به دنبال یادگیری چند شات، مجموعه چند نمونه برچسب دار، مجموعه پشتیبانی نامیده می شود ، و مجموعه ردپای ساختمان بدون برچسب مجموعه پرس و جو نامیده می شود . اگر مجموعه پشتیبانی شامل کلاس‌های C باشد و هر کلاس حاوی نمونه‌های برچسب‌دار K باشد، به این مشکل چند شات، مشکل K-shot C-way گفته می‌شود.

برای پیش بینی اشکال این ردپای ساختمان در با استفاده از این نمونه های برچسب دار در ، روش بصری این است که ردپای ساختمان را در آن برچسب گذاری کنیم با توجه به شباهت آنها با نمونه های موجود در . به این ترتیب، کلید معیاری است که شباهت بین نمونه‌ها را تخمین می‌زند و . علاوه بر این معیارهای ساده مانند شباهت کسینوس و فاصله اقلیدسی، بهتر است متریک مناسب تری از نمونه های برچسب دار با تکنیک های یادگیری عمیق یاد بگیرید. با توجه به تعداد کم نمونه های برچسب گذاری شده در مجموعه پشتیبانی، بدیهی است که یادگیری یک متریک برای این منظور دشوار است. با توجه به آن، روش‌های یادگیری چند شات کنونی معمولاً به مجموعه داده‌های موجود متوسل می‌شوند که دارای نمونه‌های برچسب‌گذاری‌شده زیادی هستند که در مقایسه با نمونه‌های موجود، اغلب به کلاس‌های مختلف تعلق دارند. و سعی کنید یک متریک تعمیم یافته را یاد بگیرید که می تواند با استفاده از نمونه های موجود بیشتر تنظیم شود و . چنین مجموعه داده‌هایی اغلب پایگاه داده نامیده می‌شوند . در مقایسه، مجموعه داده در وظیفه فعلی، به عنوان مثال، مجموعه داده متشکل از مجموعه پشتیبانی و مجموعه پرس و جو ، مجموعه داده جدید نامیده می شود . مجموعه داده پایه معیار را با مقداری دانش قبلی قابل انتقال فراهم می کند و اجازه می دهد تا به اندازه کافی قابل تعمیم باشد. به طور کلی، کلاس های در و تقاطع کم یا بدون تقاطع دارند.

3.2. مدل

برای پرداختن به مشکل طبقه‌بندی شکل ردپای ساختمان چند شات، این مقاله یک روش مبتنی بر شبکه رابطه را با پیروی از روش مبتنی بر متریک پیشنهاد می‌کند. همانطور که در شکل 1 مشاهده می شودمدل شبکه رابطه مورد استفاده در این مقاله از دو ماژول تشکیل شده است: ماژول تعبیه و ماژول رابطه. این دو ماژول دو شبکه متفاوت هستند. ماژول تعبیه برای جاسازی نمونه های ورودی و به دست آوردن ویژگی های عمیق آنها است. ماژول رابطه یک متریک رابطه را می آموزد که شباهت بین ویژگی نمونه ها در مجموعه پرس و جو و نمونه های اولیه هر کلاس از نمونه ها در مجموعه پشتیبانی را اندازه می گیرد. بر اساس کار قبلی ما در مورد طبقه‌بندی شکل ردپای ساختمان، ماژول تعبیه TriangleConv را به عنوان ماژول جاسازی شبکه رابطه برای نگاشت ردپای ساختمان ورودی در ویژگی‌های شکل اتخاذ کردیم.

ورودی های مدل شبکه رابطه ما، داده های ردپای ساختمان بردار پیش پردازش شده به شکل چند ضلعی های بسته بدون هیچ گونه حفره داخلی هستند. یعنی هر ورودی ردپای ساختمان به شبکه اساساً مجموعه ای مرتب از رئوس چندضلعی است ، هر رأس در مجموعه را می توان به صورت نمایش داد ، و تمام ورودی های ردپای ساختمان دارای تعداد رئوس یکسانی هستند. با استفاده از ماژول جاسازی TriangleConv در روش ما، ویژگی های نمونه های هر کلاس در مجموعه پشتیبانی تولید شده و نمونه های اولیه هر کلاس بدست می آید. برای مسئله C-way K-shot، کلاس های C در مجموعه پشتیبانی وجود دارد و هر کلاس دارای K نمونه است. پس از به دست آوردن ویژگی embedding از نمونه j از کلاس c ، نمونه اولیه کلاس c به صورت زیر محاسبه می شود:

(1)

برای نمونه بدون برچسب در مجموعه پرس و جو ، هنگامی که ویژگی جاسازی آن از طریق ماژول جاسازی TriangleConv به دست آمد، ویژگی جاسازی با نمونه اولیه الحاق می شود. از کلاس c و ورودی ماژول رابطه برای محاسبه امتیاز رابطه بین نمونه و کلاس c . بنابراین، خروجی روش پیشنهادی، امتیازهای رابطه است که نشان می دهد این امکان وجود دارد که نمونه های مجموعه پرس و جو به کلاس های مجموعه پشتیبانی تعلق داشته باشند. برچسب نمونه در توسط کلاس با بالاترین امتیاز رابطه پیش بینی می شود.

3.2.1. ماژول جاسازی TriangleConv

برای انتخاب ماژول جاسازی، اکثر روش‌های یادگیری چند شات موجود از بلوک‌های کانولوشنال دوبعدی متعددی برای تشکیل ماژول جاسازی استفاده می‌کنند [ 21 ، 25 ، 29 ]. با توجه به اینکه ردپاهای ساختمان اغلب به شکل داده های برداری غیر اقلیدسی نشان داده می شوند که ساختار منظمی ندارند، ماژول TriangleConv ارائه شده در کار قبلی خود [ 13 ] را برای جاسازی ردپاهای ساختمان و استخراج ویژگی های شکل آن ها اتخاذ می کنیم.

ماژول TriangleConv از یک بلوک کانولوشن جدید به نام TriangleConv برای انجام کانولوشن روی رئوس ردپای ساختمان برداری استفاده می کند. در یادگیری عمیق، عملیات پیچیدگی را می توان به عنوان مجموعه ای از ویژگی های یک نقطه و نقاط همسایه آن در میدان پذیرا در نظر گرفت. بر این اساس، عملگر TriangleConv قرار بود ویژگی‌های یک راس و دو راس مجاورت آن را برای ایجاد ویژگی‌های جدید راس جمع کند. بنابراین، ویژگی های شکل محلی اطراف رئوس را می توان با اعمال بلوک TriangleConv یاد گرفت.

همانطور که در شکل 1 نشان داده شده است ، و دو رأس مجاور هستند در ناحیه مثلث مربوط به . با مختصات این رئوس، بلوک TriangleConv ابتدا چهار نوع اطلاعات ویژگی را تولید می کند. ، ، و . مقدار مختصات است . ، و مربوط به تفاوت بین مختصات و ، و ، و ، به ترتیب. پس از الحاق آنها به یکدیگر، از پرسپترون چند لایه (MLP) برای ترسیم ویژگی ها در فضای ابعاد بالاتر استفاده می شود. دو بلوک TriangleConv در ماژول جاسازی TriangleConv وجود دارد. آنها ویژگی های هر راس را به نمایش های ابعادی بالاتر ترسیم می کنند. در نهایت، max-pooling برای جمع‌آوری اطلاعات ویژگی هر رأس برای ایجاد ویژگی شکل ردپای ساختمان ورودی استفاده می‌شود.

3.2.2. ماژول رابطه

کل ماژول رابطه را می توان به صورت فرمول (2) بیان کرد. پس از به دست آوردن نمونه های اولیه از هر کلاس در و ویژگی های جاسازی از هر نمونه که در ، ماژول رابطه ای در مجموع تولید خواهد کرد در صورتی که نمونه های C راه و N وجود داشته باشد نتیجه می شود . هر نتیجه نشان دهنده امتیاز رابطه است که شباهت بین نمونه اولیه c را نشان می دهد و ویژگی جاسازی از j- امین نمونه . مقدار بین 0 و 1 است. هر چه مقدار بزرگتر باشد، شباهت بین نمونه اولیه بیشتر است و . ردپای ساختمان j به عنوان شکل کلاس با بالاترین امتیاز رابطه برچسب گذاری می شود.

(2)

ماژول رابطه از دو بلوک کانولوشنیک 1 بعدی و دو لایه کاملاً متصل تشکیل شده است. هر بلوک کانولوشنال 1 بعدی شامل یک تبدیل 1D، یک BatchNorm 1 بعدی، یک تابع فعال سازی LeakyReLU و یک MaxPool1d است. دو لایه کاملاً متصل به ترتیب 8 و 1 بعد هستند. تابع Sigmoid به عنوان تابع فعال سازی در لایه خروجی استفاده می شود. علاوه بر این، میانگین خطای مربعات ( MSE ) افت تعریف شده در فرمول (3) به عنوان تابع ضرر در نظر گرفته می شود که در آن داده های واقعی است، داده های برازش شده است و .

(3)

3.3. استراتژی آموزشی

برای آموزش مدل برای طبقه‌بندی شکل ردپای ساختمان، استراتژی آموزشی فرا یادگیری مبتنی بر قسمت را اتخاذ می‌کنیم که در بسیاری از روش‌های کلاسیک یادگیری چند شات استفاده می‌شود [ 21 ، 25 ]. یک مثال در شکل 2 نشان داده شده است .

متفاوت از یادگیری عمیق سنتی که مدل ها را با تکرار نمونه های نظارت شده آموزش می دهد، استراتژی فرا یادگیری معمولاً از وظایف به عنوان نمونه های آموزشی استفاده می کند. پس از اینکه مدل برای انطباق خوب با تعداد زیادی از وظایف مختلف آموزش دید، می تواند در هنگام پردازش وظایف جدید نیز به خوبی تطبیق یابد. برای این منظور، استراتژی آموزش فرا-یادگیری، فرآیند آموزش مبتنی بر اپیزود را اتخاذ می کند که شامل قسمت های زیادی است. در هر قسمت، یک وظیفه متشکل از یک مجموعه پشتیبانی و یک مجموعه پرس و جو وجود دارد. مدل با استفاده از مجموعه پشتیبانی آموزش داده می شود و با استفاده از مجموعه پرس و جو اعتبار و به روز می شود. به ویژه، کل فرآیند آموزش مبتنی بر قسمت به دو مرحله تقسیم می‌شود: مرحله فراآموزشی و مرحله فراآزمایی. در مرحله متا آموزش، برای آموزش مدل در مرحله فراآزمایی، عملکرد طبقه بندی مدل آموزش دیده برای وظایف جدید ساخته شده از مجموعه داده های جدید ارزیابی می شود. برای اطمینان از توانایی تعمیم مدلی که باید آموزش داده شود، هم وظایف آموزشی و هم وظایف جدید بر اساس توزیع یکسان از مجموعه داده ها نمونه برداری می شوند. یعنی هم مجموعه پشتیبانی و هم مجموعه پرس و جوی وظیفه آموزشی تعداد کلاس های یکسانی دارند و هر کلاس به همان تعداد نمونه در وظیفه جدید است.

همانطور که در شکل 2 نشان داده شده است ، هر جعبه سبز در آموزش متا و هر جعبه نارنجی در تست متا همگی یک قسمت را نشان می دهند. در هر قسمت، به طور تصادفی اندازه ثابتی از داده‌های ردپای ساختمان را از مجموعه داده ترسیم می‌کنیم تا وظیفه قسمت را تشکیل دهیم. در جزئیات، با در نظر گرفتن کار فراآموزشی به عنوان مثال، ما به طور تصادفی کلاس های C از داده های ردپای ساختمان را از مجموعه داده های فراآموزشی انتخاب می کنیم، هر کلاس شامل نمونه ها، جایی که نمونه های ردپای ساختمان مجموعه پشتیبانی و بقیه را تشکیل می دهند نمونه ها مجموعه پرس و جو را تشکیل می دهند. پس از به دست آوردن امتیازهای رابطه که نشان دهنده احتمال تعلق هر نمونه در مجموعه پرس و جو به کلاس های مجموعه پشتیبانی است، کلاسی را با بالاترین امتیاز رابطه به عنوان برچسب نمونه انتخاب می کنیم و از فرمول (3) برای محاسبه تابع ضرر استفاده می کنیم. و مدل را به روز کنید.

3.4. طبقه بندی اشکال ردپای ساختمان تحت تنظیمات چند شات

هنگام استفاده از روش آموزش داده شده برای طبقه بندی اشکال مجموعه ای از ردپاهای ساختمان بدون برچسب که در مرحله آموزش دیده نمی شد، لازم است که در هر کلاس بیش از کلاس C و بیش از K نمونه ردپای ساختمان وجود داشته باشد. در میان آنها، حداقل K نمونه ردپای ساختمان در هر کلاس باید برچسب گذاری شود. چنین مجموعه ای از نمونه های ردپای ساختمان مجموعه داده جدید را تشکیل می دهد که در بیانیه مشکل توضیح داده ایم.

با توجه به مجموعه داده های جدید ، مجموعه ای از وظایف را می توان با نمونه برداری از کلاس های C و ساختن نمونه های ردپایی در هر کلاس از مجموعه داده که در آن نمونه های K در هر کلاس، نمونه های برچسب گذاری شده هستند. مانند آنچه در مرحله فراآزمایی نشان داده شده در شکل 2 ، نمونه هایی از یک کار در یک قسمت به مدل آموزش دیده وارد می شود. ابتدا، ویژگی های شکل این نمونه های ردپای ساختمان توسط ماژول تعبیه استخراج می شود. سپس، نمونه‌های اولیه هر کلاس از کار با میانگین‌گیری ویژگی‌های این نمونه‌های برچسب‌گذاری شده از هر کلاس به‌دست می‌آیند. پس از آن، ویژگی‌های هر نمونه بدون برچسب با این نمونه‌های اولیه الحاق می‌شوند، و الحاق‌ها به ماژول رابطه وارد می‌شوند تا امتیازات رابطه‌ای که احتمال تعلق نمونه‌های بدون برچسب را به کلاس‌های شکل نشان می‌دهد، به دست آورند. در نهایت، کلاس شکل هر نمونه بدون برچسب با بالاترین امتیاز رابطه پیش‌بینی می‌شود. دقت پیش‌بینی را می‌توان برای هر کار محاسبه کرد، و زمانی که بیش از یک کار از مجموعه داده‌ها ساخته شده باشد، میانگین دقت را می‌توان به عنوان نتیجه در نظر گرفت. .

4. آزمایشات

در این بخش، آزمایش‌هایی را که برای اعتبارسنجی روش پیشنهادی انجام داده‌ایم شرح می‌دهیم. ما ابتدا مجموعه داده، عملیات پیش پردازش داده ها و تنظیمات پارامتر مورد استفاده در آزمایشات خود را شرح می دهیم. سپس جزئیات و نتایج ارزیابی ها را ارائه کردیم.

4.1. مجموعه داده و پیش پردازش

ما مجموعه داده تجربی خود را با استفاده از داده های [ 11 ] ساختیم. داده ها از OpenStreetMap جمع آوری شد. 10 کلاس ردپای ساختمان در مجموعه داده وجود دارد و هر کلاس شامل 501 ردپای ساختمان است. برای اطمینان از اینکه داده ها به طور کلی نماینده هستند، آنها از مناطق با ویژگی های جغرافیایی مختلف، مانند شهری، روستایی، و غیره انتخاب می شوند. از آنجایی که اشکال ردپای ساختمان به طور کلی شبیه به الفبای انگلیسی است و استفاده از اشکال حروف برای برچسب زدن ردپای ساختمان، شناخت را افزایش می دهد. 3]، ردپای ساختمان به عنوان 10 الفبای معمولی انگلیسی مانند U-Shape، H-Shape و F-Shape برچسب گذاری شده است. برچسب‌ها برای همه داده‌ها به صورت دستی توسط سه نفر با دانش نقشه برچسب‌گذاری شدند و برای داده‌های مورد مناقشه، شکل‌ها به طور مشترک توسط سه نفر تعیین شدند. اشکال ردپای ساختمان در مجموعه داده اساساً چند ضلعی های بسته هستند و هیچ سوراخی در داخل چند ضلعی ها وجود ندارد. برخی از نمونه های داده خام از 10 شکل ردپای ساختمان در شکل 3 نشان داده شده است.

مشابه روش‌های یادگیری چند شات در پردازش تصویر، ما باید داده‌های ردپای ساختمان را پیش پردازش کنیم تا اطمینان حاصل کنیم که تمام داده‌های وارد شده به شبکه رابطه دارای تعداد رئوس یکسانی هستند و نرمال می‌شوند. بنابراین برخی از روش های پیش پردازش مورد استفاده در [ 11 ] برای کار ما به کار گرفته شده اند. ما از روش داگلاس-پوکر [ 48 ] با آستانه محافظه کارانه و تجربی 0.1 متر برای ساده سازی داده های اصلی استفاده می کنیم، سپس درون یابی با فاصله را روی داده های ساده شده انجام می دهیم تا تعداد راس اشیاء برداری مختلف را یکسان کند. علاوه بر این، ما از روش Z-score برای عادی سازی داده ها استفاده می کنیم.

4.2. تنظیمات آزمایشی

زبان برنامه نویسی مورد استفاده برای آزمایش ها پایتون در نسخه 3.6 است و شبکه ارتباط ما با استفاده از چارچوب یادگیری عمیق Pytorch [ 49 ]، نسخه 1.6.0 پیاده سازی شده است. سخت افزار اصلی مورد استفاده برای آزمایش ها رم 64G، Intel Core I9-9900K و NVIDIA GeForce RTX 2080Ti با CUDA نسخه 10.2 است.

با توجه به کلاس های محدود مجموعه داده های ما و تنظیم کلی آزمایش های یادگیری چند شات، ما 9 مجموعه آزمایش ارزیابی را انجام دادیم. آنها عبارتند از: آزمایش 1 تیر دو طرفه، آزمایش 3 تیر دو طرفه، آزمایش 5 تیر دو طرفه، آزمایش 1 تیر سه طرفه، آزمایش تیر سه طرفه، 3- به ترتیب آزمایش راه 5 تیر، آزمایش 4 راه 1 تیر، آزمایش 4 راه 3 تیر، آزمایش 4 راه 5 تیر. برای داده های پرس و جو، 19 نمونه پرس و جو در آزمایش 1 شات، 17 نمونه پرس و جو در آزمایش 3 شات و 15 نمونه پرس و جو در آزمایش 5 شات داریم. به عبارت دیگر، برای 5-شات 3 طرفه، 3 ∗ 5 + 3 ∗ 15 = 60 ردپای ساختمان در وظیفه یک قسمت وجود دارد.

به روشی مشابه در [ 21 ]، تعداد اپیزودهای آزمایشی را 300 قرار دادیم و نتایج این 300 قسمت را میانگین گرفتیم تا عملکرد شبکه رابطه را در یک دنباله محاسبه کنیم. ما به طور تصادفی 5 کلاس از ردپای ساختمان را به عنوان مجموعه داده پایه انتخاب کردیم و 5 کلاس باقی مانده از ردپای ساختمان به عنوان مجموعه داده جدید در هر آزمایش مجموعه داده پایه برای آموزش در مرحله فراآموزشی و مجموعه داده جدید برای آزمایش در مرحله فراآزمایی استفاده می شود. هنگام انتخاب تصادفی 5 کلاس از 10 کلاس داده، وجود دارد یعنی 252 نوع انتخاب. در آزمایش‌های خود، 60 بار داده‌ها را به‌طور تصادفی انتخاب کرده‌ایم و نتیجه نهایی میانگین نتایج 60 کارآزمایی است.

ما دقت را به عنوان معیار ارزیابی برای هر آزمایش انتخاب کردیم که به عنوان فرمول (4) و (5) تعریف شده است. در فرمول (5)، نمونه آزمون i است، کلاس پیش بینی مربوط به است ، و کلاس واقعی است . مشاهده می‌شود که دقت نسبت تمام نمونه‌های طبقه‌بندی شده صحیح را به تعداد کل نمونه‌ها اندازه‌گیری می‌کند.

(4)

(5)

4.3. نتایج و تجزیه و تحلیل ماژول های مختلف تعبیه شده و متریک

روش مبتنی بر شبکه رابطه پیشنهادی ما یک روش یادگیری چند شات مبتنی بر متریک است که ترکیبی از یک ماژول جاسازی و یک ماژول متریک شباهت است. در این بخش، انتخاب های مختلف ماژول های تعبیه و متریک را ارزیابی می کنیم. برای ماژول جاسازی، ماژول کانولوشنال دوبعدی را انتخاب می کنیم که معمولاً در یادگیری چند شات سنتی استفاده می شود [ 24 ، 25 ، 27] و ماژول TriangleConv مورد استفاده در روش ما. برای ماژول متریک، شباهت کسینوس و ماژول رابطه مورد استفاده در روش خود را انتخاب کردیم. لازم به ذکر است که هنگام استفاده از ماژول کانولوشن 2 بعدی به عنوان ماژول جاسازی، ماژول رابطه از بلوک های کانولوشن دو بعدی برای مطابقت با ماژول جاسازی تشکیل شده است و در هنگام استفاده از ماژول TriangleConv، ماژول رابطه باید از بلوک های کانولوشنال 1 بعدی تشکیل شود. پارامترهای تنظیم آزمایشی بین آزمایش‌ها یکسان باقی می‌ماند. نتایج برای ترکیب ماژول های جاسازی مختلف با ماژول های متریک مختلف در جدول 1 نشان داده شده است.

نتایج تجربی در این بخش نشان می‌دهد که هم ماژول جاسازی TriangleConv و هم ماژول رابطه نقش مثبتی در حل مشکل یادگیری چند شات مربوط به تشخیص و طبقه‌بندی اشکال ردپای ساختمان بردار تحت شرایط تجربی ما ایفا می‌کنند. از جدول 1 ، با مقایسه نتایج آزمایش‌های (1) و (2) و آزمایش‌های (3) و (4)، می‌توان دریافت که نتایج روش‌هایی که از ماژول TriangleConv استفاده می‌کنند بهتر از نتایج روش‌های استفاده از 2 بعدی است. ماژول کانولوشن در شکل 4، نتایج روش با استفاده از ماژول TriangleConv بیشتر در بازه 0.6-1 توزیع می شود، در حالی که نتایج روش با استفاده از بلوک های کانولوشنال 2 بعدی عمدتاً در بازه 0.3-0.7 توزیع می شوند. این احتمالاً به این دلیل است که ماژول TriangleConv در استخراج ویژگی‌های اشکال ردپای ساختمان بهتر از ماژول کانولوشنال دوبعدی است. شکل 5 تجسم تعبیه های ویژگی را نشان می دهد که با استفاده از روش T-SNE [ 50 ] به دست آمده است. همچنین واضح است که اثر خوشه بندی تعبیه های به دست آمده توسط ماژول TriangleConv بهتر است. با مقایسه نتایج آزمایش‌های (1) و (3) و آزمایش‌های (2) و (4)، نتایج نشان می‌دهد که روش استفاده از ماژول رابطه نسبت به روش استفاده از شباهت کسینوس برتری دارد و این موضوع درشکل 4 . این ممکن است این باشد که ماژول رابطه می تواند یاد بگیرد که متریکی را که برای حل مشکل این مقاله سازگارتر است، به دست آورد.

4.4. مقایسه با روش های آموزشی چند شات مرتبط

برای تأیید بیشتر عملکرد روش پیشنهادی خود، ما سه روش کلاسیک یادگیری چند شات را برای مقایسه انتخاب کردیم: شبکه سیامی کانولوشن (CSN) [ 24 ]، فرا یادگیری مدل-آگنوستیک (MAML) [ 27 ]، و شبکه نمونه اولیه( پ.ن) [ 25]. CSN یک شبکه عصبی عمیق است که شباهت دو نمونه را تعیین می کند. جفت‌های مختلفی از نمونه‌ها را با ترکیب آنها می‌سازد و از یک شبکه عصبی عمیق برای استخراج ویژگی‌های دو نمونه ورودی استفاده می‌کند، سپس شباهت بین ویژگی‌ها را محاسبه می‌کند و پارامترهای شبکه عصبی عمیق را به‌روزرسانی می‌کند. پیش بینی نتایج بر اساس شباهت بین نمونه ها و طبقاتی است که به آنها تعلق دارند. MAML مجموعه‌ای از پارامترهای اولیه را آموزش می‌دهد که با اعمال یک یا چند مرحله تنظیم گرادیان می‌توانند به سرعت با یک کار جدید تنها با داده‌های کمی سازگار شوند. ایده اصلی یافتن پارامترهای اولیه مدل است که به مدل اجازه می دهد تا به سرعت یاد بگیرد و نتایج بهتری را در تعداد کمی از داده های آموزشی برای یک کار جدید بدست آورد. PN نمونه های هر کلاس را با ویژگی های تعبیه شده نگاشت می کند و میانگین آنها را به عنوان نمونه اولیه کلاس محاسبه می کند. با فاصله اقلیدسی به عنوان متریک فاصله، شبکه با این فرض آموزش داده می‌شود که نمونه‌های یک کلاس به نمونه اولیه این کلاس نزدیک و از نمونه‌های اولیه کلاس‌های دیگر دور هستند.

ما از پیاده‌سازی این خطوط پایه مبتنی بر Pytorch از Github برای تکمیل آزمایش‌های خود استفاده کردیم. در آزمایش‌های ما، تمام ورودی داده‌های ردپای ساختمان به هر مدل با استفاده از روش‌های بخش 4.1 پیش پردازش شد و تعداد رئوس ردپای ساختمان به 16 واحد یکسان شد. نرخ یادگیری برای همه روش‌ها روی 0.001 تنظیم شد. میانگین نتایج تمام روش‌های بیش از 60 کارآزمایی در جدول 2 آورده شده است. با توجه به اینکه CSN معمولاً برای وظایف 1 شات استفاده می شود، بحث CSN در این مقاله به 1 شات محدود شده است. نتایج تمام خطوط پایه نیز میانگین نتایج 60 کارآزمایی است.

در جدول 2 ، با افزایش تعداد کلاس ها، دقت تمام روش ها کاهش می یابد و شکل 6متناسب با این روند این به این دلیل است که در یک کار چند طبقه‌بندی، هر چه تعداد کلاس‌های بیشتری نیاز به طبقه‌بندی داشته باشند، کار طبقه‌بندی دشوارتر می‌شود. در این میان، عملکرد هر روش به تدریج با افزایش تعداد نمونه ها در هر کلاس بهبود می یابد. این به این دلیل است که نمونه های بیشتر اطلاعات ویژگی های بیشتری را برای یادگیری این روش ها ارائه می دهند. در بین همه روش ها، روش ما به نتایج رقابتی در حل وظیفه طبقه بندی شکل ردپای ساختمان چند شات در نقشه ها دست می یابد. به عنوان مثال، دقت به 81.00٪ برای کار طبقه بندی 3 راه 5 شات رسید که در آن سه کلاس نمونه در مجموعه پشتیبانی و 5 نمونه برچسب دار برای هر کلاس وجود دارد. روش ما در 9 مجموعه آزمایش حداقل 9.58٪ از خطوط پایه بهتر عمل می کند. این ممکن است به این دلیل باشد که سه روش پایه همگی از ماژول کانولوشنال دوبعدی برای استخراج ویژگی‌ها از نمونه‌ها استفاده می‌کنند. در مقابل، روش ما از ماژول تعبیه‌سازی TriangleConv برای استخراج ویژگی‌های شکل نمونه‌ها استفاده می‌کند و توانایی آن در استخراج اشکال ردپای ساختمان بردار نسبت به ماژول کانولوشنال دوبعدی، که در تأیید شد، برتر است.بخش 4.3 . ماژول جاسازی بهتر می‌تواند تعبیه ویژگی مؤثرتری را برای ماژول رابطه فراهم کند، که به ماژول رابطه اجازه می‌دهد تا معیارهای تشابه بهتری را بیاموزد. علاوه بر این، هر دو CSN و PN از فاصله اقلیدسی استفاده می کنند، در حالی که روش ما از ماژول رابطه استفاده می کند که بهتر می تواند شباهت بین داده های مجموعه پشتیبانی و داده های مجموعه پرس و جو را اندازه گیری کند. نتایج در این بخش نشان می دهد که روش ما انتخاب بهتری برای حل مشکل چند شات تشخیص و طبقه بندی اشکال ردپای ساختمان هنگام مقایسه با این خطوط پایه است.

4.5. محدودیت ها

اگرچه نتایج تجربی امکان سنجی و اثربخشی روش پیشنهادی را نشان داده است، اما هنوز محدودیت هایی وجود دارد.

ابتدا، روش پیشنهادی با هدف طبقه بندی اشکال ردپای ساختمان بردار است. بنابراین، لازم است که داده های ورودی روش پیشنهادی مجموعه های مرتب رئوس چندضلعی ها باشد. به ویژه، با توجه به روش کانولوشن TriangleConv که برای استخراج ویژگی‌های شکل ردپای ساختمان بردار استفاده کرده‌ایم، ردپای ساختمان برداری که باید طبقه‌بندی شود باید به صورت چند ضلعی‌های بسته بدون سوراخ‌های داخلی باشد. بنابراین، برای برخی از داده های جغرافیایی به صورت خطوط یا چند ضلعی با سوراخ هایی در داخل، روش ما ممکن است قابل اجرا نباشد.

دوم، داده‌های غنی‌تر ممکن است مدل را تعمیم‌پذیرتر کند. اگرچه داده‌های مورد استفاده در این مقاله از مناطق جغرافیایی مختلف می‌آیند، کلاس‌های اشکال در مجموعه داده‌ها کمتر بودند، که ممکن است عملکرد مدل را محدود کند.

سوم، نمرات رابطه تولید شده توسط روش پیشنهادی، این احتمال را نشان می‌دهد که یک نمونه بدون برچسب به کلاس‌های مجموعه پشتیبانی تعلق دارد. با این حال، این امتیازات بر اساس نمونه‌های اولیه کلاس‌ها در مجموعه پشتیبانی محاسبه می‌شوند و ما مستقیماً تعبیه‌های ویژگی‌های نمونه‌های هر کلاس در مجموعه پشتیبانی را به عنوان نمونه اولیه کلاس میانگین گرفته‌ایم. نمونه های اولیه به دست آمده از این طریق ممکن است نمونه واقعی کلاس ها نباشند. ممکن است انحراف وجود داشته باشد، به خصوص زمانی که نمونه های منفرد در مجموعه پشتیبانی وجود دارد.

5. نتیجه گیری ها

این مقاله یک روش مبتنی بر شبکه ارتباطی را برای تشخیص و طبقه‌بندی اشکال ردپای ساختمان با نمونه‌های چند برچسب‌گذاری شده پیشنهاد می‌کند. ایده اصلی آن آموزش یک مدل شبکه عصبی با تعداد زیادی کلاس مختلف از نمونه‌های ردپای ساختمان برچسب‌گذاری شده و تعمیم آن برای شناسایی کلاس‌های جدید نمونه‌های ردپای ساختمان است. مدل شبکه عصبی روش پیشنهادی از یک ماژول جاسازی و یک ماژول رابطه تشکیل شده است. ماژول جاسازی از بلوک TriangleConv برای استخراج ویژگی های شکل ردپای ساختمان که به شکل چند ضلعی برداری بسته هستند استفاده می کند. ماژول رابطه روابط بین ویژگی های شکل ردپای ساختمان و نمونه های اولیه هر کلاس را محاسبه می کند. طبقات نمونه ها با توجه به روابط پیش بینی می شوند. برای اطمینان از تعمیم مدل، استراتژی آموزش فرا یادگیری مبتنی بر قسمت برای آموزش مدل شبکه عصبی استفاده شده است. بر اساس داده ها و محیط آزمایشی مورد استفاده در این مقاله، روش ما به دقت 89.40 درصد در کار 5 تیر دو طرفه دست یافته است. نتایج تجربی نشان داده‌اند که روش ما می‌تواند به عملکرد رقابتی در حل مشکل تشخیص و طبقه‌بندی اشکال ردپای ساختمان با نمونه‌های نظارت شده کمی در مقایسه با روش‌های یادگیری چند شات مرتبط دست یابد.

در عمل، هنگام استفاده از مدل آموزش‌دیده در این مقاله برای طبقه‌بندی مجموعه‌ای از نمونه‌های ردپای ساختمان جدید بدون برچسب، تعداد کمی از نمونه‌ها باید از قبل به صورت دستی برچسب‌گذاری شوند. سپس تکالیفی به شکل C-way K-shot که مدل آموزش داده شده است باید از این نمونه ها ساخته شود. با وارد کردن این وظایف در مدل، طبقه بندی اشکال این نمونه های ردپای ساختمان حاصل می شود.

در کار آینده، ما به بررسی طبقه‌بندی اشکال ردپای ساختمان با چند نمونه نظارت شده ادامه خواهیم داد و سعی خواهیم کرد عملکرد و کاربرد آن را بهبود ببخشیم. مجموعه داده هایی که ما استفاده کرده ایم چند ضلعی های بسته بدون سوراخ در داخل هستند. ما عملیات جاسازی ردپای ساختمان بردار را بهبود می‌بخشیم و آن را قادر می‌سازیم تا با انواع بیشتری از ردپای ساختمان مقابله کند. علاوه بر این، ما فقط از اطلاعات برداری ردپای ساختمان در کار فعلی استفاده کرده‌ایم. در واقع، اطلاعات اضافی مانند اطلاعات معنایی ردپای ساختمان نیز ممکن است برای افزایش عملکرد طبقه‌بندی شکل مفید باشد. علاوه بر این، آنچه در این مقاله به آن پرداخته‌ایم، مسئله طبقه‌بندی شکل ردپای ساختمان چند شات است که هنوز نیاز به برچسب‌گذاری برخی ردپای ساختمان برای هر کلاس شکل دارد.

منابع

اشتاینیگر، اس. لانگ، تی. بورگاردت، دی. وایبل، آر. رویکردی برای طبقه‌بندی سازه‌های ساختمانی شهری بر اساس تکنیک‌های تحلیل متمایز. ترانس. GIS 2008 ، 12 ، 31-59. [ Google Scholar ] [ CrossRef ]
ورم، م. اشمیت، ا. Taubenböck، H. طبقه‌بندی انواع ساختمان با استفاده از ویژگی‌های مبتنی بر شکل و توابع تشخیص خطی. IEEE J. Sel. بالا. Appl. زمین Obs. Remote Sens. 2016 ، 9 ، 1901–1912. [ Google Scholar ] [ CrossRef ]
یان، ایکس. آی، تی. Zhang, X. روش تطبیق و ساده سازی الگو برای ساختن ویژگی ها بر اساس شناخت شکل. ISPRS Int. J. Geo-Inf. 2017 ، 6 ، 250. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
کمبریج، SEP Vision Science: فوتون ها به پدیدارشناسی. صبح. جی روانی. 2000 ، 113 ، 3. [ Google Scholar ]
آی، تی. چنگ، ایکس. لیو، پی. یانگ، ام. تحلیل شکل و تطبیق الگوی ویژگی‌های ساختمان با روش تبدیل فوریه. محاسبه کنید. محیط زیست سیستم شهری 2013 ، 41 ، 219-233. [ Google Scholar ] [ CrossRef ]
مختاریان، ف. Mackworth، A. تئوری چند مقیاسی، نمایش شکل مبتنی بر انحنا برای منحنی های مسطح. IEEE Trans. الگوی مقعدی ماخ هوشمند 1992 ، 14 ، 789-805. [ Google Scholar ] [ CrossRef ]
لی، دبلیو. Goodchild، MF; چرچ، R. یک اندازه گیری کارآمد از فشردگی برای اشکال دو بعدی و کاربرد آن در مسائل منطقه بندی. بین المللی جی. جئوگر. Inf. علمی 2013 ، 27 ، 1227-1250. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
یانگ، سی. وی، اچ. یو، کیو. روشی جدید برای تطبیق شکل جزئی 2 بعدی غیر صلب. محاسبات عصبی 2018 ، 275 ، 1160-1176 . [ Google Scholar ] [ CrossRef ]
فو، ز. فن، ال. یو، ز. ژو، ک. اندازه‌گیری تشابه شکل مبتنی بر لحظه برای موجودیت‌های مساحتی در داده‌های برداری جغرافیایی. ISPRS Int. J. Geo-Inf. 2018 ، 7 ، 208. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
فن، اچ. ژائو، ز. لی، دبلیو. به سوی اندازه گیری تشابه شکل چندضلعی ها بر اساس ویژگی های چند مقیاسی و توصیفگرهای زمینه شبکه. ISPRS Int. J. Geo-Inf. 2021 ، 10 ، 279. [ Google Scholar ] [ CrossRef ]
یان، ایکس. آی، تی. یانگ، م. تانگ، X. مدل رمزگذار خودکار کانولوشنال نمودار برای کدگذاری شکل و شناخت ساختمان ها در نقشه ها. بین المللی جی. جئوگر. Inf. علمی 2021 ، 35 ، 490-512. [ Google Scholar ] [ CrossRef ]
یان، ایکس. آی، تی. یانگ، م. یین، اچ. یک گراف شبکه عصبی کانولوشن برای طبقه بندی الگوهای ساختمان با استفاده از داده های برداری فضایی. ISPRS J. Photogramm. Remote Sens. 2019 ، 150 ، 259–273. [ Google Scholar ] [ CrossRef ]
لیو، سی. هو، ی. لی، ز. خو، جی. هان، ز. Guo, J. TriangleConv: یک شبکه کانولوشنال نقطه عمیق برای تشخیص اشکال ساختمان در فضای نقشه. ISPRS Int. J. Geo-Inf. 2021 ، 10 ، 687. [ Google Scholar ] [ CrossRef ]
دوسوویتسکی، آ. بیر، ال. کولسنیکوف، آ. وایسنبورن، دی. ژای، ایکس. Unterthiner، T. دهقانی، م. مایندرر، م. هیگلد، جی. گلی، اس. و همکاران یک تصویر ارزش 16 × 16 کلمه دارد: ترانسفورماتورها برای تشخیص تصویر در مقیاس. arXiv 2021 ، arXiv:cs.CV/2010.11929. [ Google Scholar ]
تولستیخین، آی. هاولزبی، ن. کولسنیکوف، آ. بیر، ال. ژای، ایکس. Unterthiner، T. یونگ، جی. اشتاینر، ا. کیزر، دی. Uszkoreit، J. و همکاران MLP-Mixer: یک معماری تماما MLP برای Vision. arXiv 2021 ، arXiv:cs.CV/2105.01601. [ Google Scholar ]
لیو، ز. متعجب.؛ لین، ی. یائو، ز. زی، ز. وی، ی. نینگ، جی. کائو، ی. ژانگ، ز. دونگ، ال. و همکاران Swin Transformer V2: افزایش ظرفیت و وضوح. arXiv 2021 ، arXiv:2111.09883. [ Google Scholar ] [ CrossRef ]
DeVries، PM; ویگاس، اف. واتنبرگ، ام. Meade, BJ یادگیری عمیق الگوهای پس لرزه پس از زلزله های بزرگ. Nature 2018 ، 560 ، 632-634. [ Google Scholar ] [ CrossRef ]
فنگ، ی. تیمن، اف. Sester, M. آموزش تعمیم ساختمان نقشه برداری با شبکه های عصبی کانولوشنال عمیق. ISPRS Int. J. Geo-Inf. 2019 ، 8 ، 258. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
تویا، جی. ژانگ، ایکس. Lokhat, I. آیا یادگیری عمیق عامل جدیدی برای تعمیم نقشه است؟ بین المللی جی. کارتوگر. 2019 ، 5 ، 142-157. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
زو، دی. چنگ، ایکس. ژانگ، اف. یائو، ایکس. گائو، ی. لیو، ی. درونیابی فضایی با استفاده از شبکه های عصبی متخاصم مولد شرطی. بین المللی جی. جئوگر. Inf. علمی 2020 ، 34 ، 735-758. [ Google Scholar ] [ CrossRef ]
سونگ، اف. یانگ، ی. ژانگ، ال. شیانگ، تی. Torr، PH; Hospedales، TM Learning to Compare: Relation Network for Few-Shot Learning. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، سالت لیک سیتی، UT، ایالات متحده آمریکا، 18 تا 22 ژوئن 2018. [ Google Scholar ]
Bendre، N.; مارین، اچ تی. نجفراد، ص. یادگیری از چند نمونه: پیمایش. arXiv 2020 ، arXiv:cs.CV/2007.15484. [ Google Scholar ]
وانگ، ی. یائو، کیو. Kwok، JT; Ni، LM تعمیم از چند مثال: بررسی در مورد یادگیری چند شات. کامپیوتر ACM. Surv. 2020 ، 53 ، 1-34. [ Google Scholar ] [ CrossRef ]
کوچ، جی. زمل، آر. سالخوتدینوف، R. شبکه های عصبی سیامی برای تشخیص تصویر تک شات. در مجموعه مقالات سی و دومین کنفرانس بین المللی یادگیری ماشین (ICML)، لیل، فرانسه، 6 تا 11 ژوئیه 2015. [ Google Scholar ]
اسنل، جی. سورسکی، ک. زمل، شبکه های نمونه اولیه RS برای یادگیری چند شات. arXiv 2017 ، arXiv:cs.LG/1703.05175. [ Google Scholar ]
راوی، س. Larochelle, H. بهینه سازی به عنوان مدلی برای یادگیری چند شات. در مجموعه مقالات پنجمین کنفرانس بین المللی بازنمایی های یادگیری (ICLR)، تولون، فرانسه، 24 تا 26 آوریل 2017. [ Google Scholar ]
فین، سی. آببل، پ. لوین، اس. فرا یادگیری مدل-آگنوستیک برای تطبیق سریع شبکه های عمیق. در مجموعه مقالات سی و چهارمین کنفرانس بین المللی یادگیری ماشین، سیدنی، استرالیا، 6 تا 11 اوت 2017. [ Google Scholar ]
ژو، اف. وو، بی. لی، زی. فرا یادگیری عمیق: یادگیری برای یادگیری در فضای مفهومی. arXiv 2018 ، arXiv:cs.LG/1802.03596. [ Google Scholar ]
وینیالز، او. بلوندل، سی. لیلیکرپ، تی. Wierstra، D. شبکه های تطبیق برای آموزش یک شات. در پیشرفت در سیستم های پردازش اطلاعات عصبی ; Lee, D., Sugiyama, M., Luxburg, U., Guyon, I., Garnett, R., Eds. Curran Associates, Inc.: نیس، فرانسه، 2016; جلد 29. [ Google Scholar ]
ژانگ، سی. کای، ی. لین، جی. Shen, C. DeepEMD: طبقه‌بندی تصاویر چند شات با فاصله متمایز حرکت‌دهنده زمین و طبقه‌بندی‌کننده‌های ساختاری. در مجموعه مقالات کنفرانس IEEE/CVF در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، سیاتل، WA، ایالات متحده آمریکا، 13 تا 19 ژوئن 2020. [ Google Scholar ]
ما، ایکس. جی، اس. وانگ، جی. گنگ، جی. وانگ، اچ. طبقه بندی تصویر فراطیفی بر اساس شبکه یادگیری رابطه دو فازی. IEEE Trans. Geosci. Remote Sens. 2019 ، 57 ، 10398–10409. [ Google Scholar ] [ CrossRef ]
دو، اس. ژانگ، اف. Zhang، X. طبقه بندی معنایی ساختمان های شهری با ترکیب تصویر VHR و داده های GIS: یک رویکرد جنگل تصادفی بهبود یافته. ISPRS J. Photogramm. Remote Sens. 2015 ، 105 ، 107-119. [ Google Scholar ] [ CrossRef ]
ژو، ایکس. چن، ز. ژانگ، ایکس. Ai, T. تشخیص تغییر برای ردپای ساختمان با سطوح مختلف جزئیات با استفاده از ترکیب شکل و تجزیه و تحلیل الگو. ISPRS Int. J. Geo-Inf. 2018 ، 7 ، 406. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
Maceachren، AM فشردگی شکل جغرافیایی: مقایسه و ارزیابی اندازه‌گیری‌ها. Geogr. ان سر. B هوم. Geogr. 1985 ، 67 ، 53-67. [ Google Scholar ] [ CrossRef ]
ونتز، تحلیل شکل EA در GIS. در مجموعه مقالات Auto-Carto، سیاتل، WA، ایالات متحده آمریکا، 7-10 آوریل 1997; جلد 13، ص 7–10. [ Google Scholar ]
بسارنر، م. Cetinkaya، S. عملکرد شاخص‌های شکل و طرح‌های طبقه‌بندی برای توصیف پیچیدگی شکل ادراکی ردپای ساختمان در GIS. بین المللی جی. جئوگر. Inf. علمی 2017 ، 31 ، 1952-1977. [ Google Scholar ] [ CrossRef ]
بلنگی، اس. مالک، ج. Puzicha، J. تطبیق شکل و تشخیص شی با استفاده از زمینه های شکل. IEEE Trans. الگوی مقعدی ماخ هوشمند 2002 ، 24 ، 509-522. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
آلاجلان، ن. ال روب، آی. کامل، ام اس; فریمن، جی. بازیابی شکل با استفاده از نمایش ناحیه مثلثی و تاب برداشتن فضای پویا. تشخیص الگو 2007 ، 40 ، 1911-1920. [ Google Scholar ] [ CrossRef ]
او، ک. ژانگ، ایکس. رن، اس. Sun، J. یادگیری باقیمانده عمیق برای تشخیص تصویر. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، لاس وگاس، NV، ایالات متحده آمریکا، 27 تا 30 ژوئن 2016. [ Google Scholar ]
سگدی، سی. آیوف، اس. ونهوک، وی. عالمی، AA Inception-v4، Inception-ResNet و تاثیر اتصالات باقیمانده بر یادگیری. در مجموعه مقالات سی و یکمین کنفرانس AAAI در مورد هوش مصنوعی، AAAI’17، سانفرانسیسکو، کالیفرنیا، ایالات متحده آمریکا، 4 تا 9 فوریه 2017؛ مطبوعات AAAI: پالو آلتو، کالیفرنیا، ایالات متحده آمریکا، 2017؛ ص 4278-4284. [ Google Scholar ]
نقره، دی. شریتویزر، جی. سیمونیان، ک. آنتونوگلو، آی. هوانگ، آ. گئز، آ. هوبرت، تی. بیکر، ال. لای، م. بولتون، ای. و همکاران تسلط بر بازی go بدون دانش بشر. طبیعت 2017 ، 550 ، 354–359. [ Google Scholar ] [ CrossRef ]
فی فی، ال. فرگوس، آر. Perona, P. یادگیری تک شات از دسته های اشیاء. IEEE Trans. الگوی مقعدی ماخ هوشمند 2006 ، 28 ، 594-611. [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
دریاچه، بی. سالاخوتدینوف، ر. گراس، جی. Tenenbaum, J. یادگیری مفاهیم ساده بصری با یک شات. در مجموعه مقالات نشست سالانه انجمن علوم شناختی (CogSci)، بوستون، MA، ایالات متحده آمریکا، 20 تا 23 ژوئیه 2011. [ Google Scholar ]
ژانگ، اچ. ژانگ، جی. کونیوس، پی. یادگیری چند شات از طریق توهم‌سازی نمونه‌ها با هدایت برجسته. در مجموعه مقالات کنفرانس IEEE/CVF در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 15 تا 20 ژوئن 2019. [ Google Scholar ]
چن، ز. فو، ی. وانگ، YX; ما، ال. لیو، دبلیو. هبرت، ام. متا شبکه های تغییر شکل تصویر برای یادگیری تک شات. در مجموعه مقالات کنفرانس IEEE/CVF در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 15 تا 20 ژوئن 2019. [ Google Scholar ]
شونفلد، ای. ابراهیمی، س. سینها، س. دارل، تی. Akata، Z. آموزش کلی صفر و چند شات از طریق رمزگذارهای خودکار متغیر تراز شده. در مجموعه مقالات کنفرانس IEEE/CVF در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 15 تا 20 ژوئن 2019. [ Google Scholar ]
شوارتز، ای. کارلینسکی، ال. فریس، ر. گیریس، ر. Bronstein، AM Baby به سمت یادگیری چند شات با چند معناشناسی قدم برمی دارد. arXiv 2020 ، arXiv:cs.CV/1906.01905. [ Google Scholar ]
داگلاس، دی اچ. الگوریتم های Peucker، TK برای کاهش تعداد نقاط مورد نیاز برای نمایش یک خط دیجیتالی یا کاریکاتور آن. کارتوگر. بین المللی جی. جئوگر. Inf. Geovisualization 1973 ، 10 ، 112-122. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
پاسسکه، آ. گراس، اس. ماسا، اف. لرر، ا. بردبری، جی. چانان، جی. کیلین، تی. لین، ز. گیملشاین، ن. آنتیگا، ال. و همکاران PyTorch: یک سبک ضروری، کتابخانه یادگیری عمیق با کارایی بالا. arXiv 2019 ، arXiv:cs.LG/1912.01703. [ Google Scholar ]
ون در ماتن، ال. هینتون، جی. تجسم داده ها با استفاده از t-SNE. جی. ماخ. فرا گرفتن. Res. 2008 ، 9 ، 2579-2605. [ Google Scholar ]

شکل 1. چارچوب مدل شبکه رابطه ما که عمدتاً از ماژول جاسازی TriangleConv و ماژول رابطه تشکیل شده است.

شکل 2. نمونه ای از استراتژی آموزش مبتنی بر قسمت فرا یادگیری. نمونه های 3 راه 1 شات در یک کار وجود دارد که در کار ما استفاده شده است.

شکل 3. نمونه های داده خام از 10 کلاس مختلف ردپای ساختمان در آزمایش.

شکل 4. هیستوگرام های آماری نتایج 60 آزمایش برای 4 شبکه که با استفاده از ماژول های مختلف تعبیه شده و متریک ساخته شده اند. در شکل 2D-Conv نشان دهنده ماژول کانولوشن دو بعدی و TC نشان دهنده ماژول TriangleConv است. هر طرح فرعی توزیع نتایج 60 آزمایش را برای هر مدل در فواصل مقادیر مختلف نشان می دهد. مختصات افقی در طرح فرعی فواصل مقدار هستند.

شکل 5. نتایج خوشه بندی با تغذیه داده های پیش پردازش شده از 10 کلاس با 200 نمونه در هر کلاس به ماژول تعبیه کانولوشنال 2 بعدی و ماژول جاسازی TriangleConv برای به دست آوردن نمایش تعبیه و خوشه بندی آنها با روش T-SNE (PCA به عنوان روش مقداردهی اولیه و random_state روی 2020 تنظیم شده است.

شکل 6. هیستوگرام های آماری نتایج 60 کارآزمایی روش ما و خطوط پایه در 9 مجموعه آزمایش. هر طرح فرعی توزیع نتایج حاصل از 60 آزمایش را برای هر مدل در فواصل مقادیر مختلف نشان می دهد. مختصات افقی در طرح فرعی فواصل مقدار هستند.

مقالات داخلی و بین المللی

بدون دیدگاه

دیدگاهتان را بنویسید لغو پاسخ

برای نوشتن دیدگاه باید وارد بشوید.

مشاورین هوش پیروزی

کلید واژه ها:

1. مقدمه

2. مربوط به کار