1. مقدمه
شناخت ساختار شهری برای تعمیم نقشه کشی و مدل سازی شهری مهم است [ 1 ]. به عنوان یک جزء کلیدی شهر، ساختمان ها اغلب ساختار و شکل شهر را تعیین می کنند [ 2 ]. بنابراین، برای مطالعه ویژگیهای ساختمان، که به خوبی توسعه بازنماییهای چند مقیاسی را ارتقا داده و در برنامهریزی شهری، تحلیلهای منظر و سایر زمینهها به کار گرفته شده است، حائز اهمیت است [ 3 ].
هنگام بررسی ویژگیهای اشیاء موجود در زمینه GIS، یک تمرکز بر ویژگیهای فضایی مانند مکان، شکل و نسبیت است. در میان این ویژگیهای فضایی، شکل احتمالاً مهمترین ویژگی است که اشیا را میتوان درک کرد [ 4 ]. تا حدی، شکل می تواند رابطه بین موجودیت و تاریخ را منعکس کند. برای ساختمان های شهر، شکل ساختمان در یک دوره معین می تواند منعکس کننده ویژگی های فرهنگی دوره مربوطه باشد [ 5 ]. بنابراین از طریق شناخت و طبقه بندی اشکال ساختمان می توان ساختار شهری را بهتر شناخت و برنامه ریزی کرد.
در نقشههای الکترونیکی مدرن، اشیاء موجودی مانند ردپای ساختمان اغلب بهعنوان دادههای برداری ذخیره میشوند و اشکال آنها بهعنوان الگوهایی که توسط چندضلعیها تشکیل شدهاند، تعریف میشوند. روش های زیادی توسط محققان از دیدگاه های مختلف برای تشخیص شکل اجسام بردار پیشنهاد شده است. روشهای سنتی مبتنی بر معیارهای هندسی و آماری هستند، مانند انحنای [ 6 ]، فشردگی [ 7 ] و فواصل مرکز مثلثی (TCDs) [ 8 ]. اخیراً، فو و همکاران. [ 9 ] یک روش مبتنی بر لحظه برای اندازه گیری شباهت شکل پیشنهاد کردند، در حالی که فن و همکاران. [ 10] روشی مبتنی بر ویژگی های چند مقیاسی و توصیفگرهای زمینه شبکه برای حل مشکل تشخیص شکل پیشنهاد کرد. این روش ها شهودی هستند اما تمایل دارند این واقعیت را نادیده بگیرند که اشکال پیچیده و از نظر شناختی مرتبط هستند [ 11 ]. به منظور استخراج ویژگیهای شکل عمیقتر اشیاء برداری، محققان اخیراً روشهایی را مبتنی بر یادگیری عمیق پیشنهاد کردهاند، مانند شبکه عصبی کانولوشن گراف [ 12 ]، رمزگذار خودکار کانولوشن گراف [ 11 ]، و شبکه کانولوشن نقطه عمیق [ 13 ].
در چند سال گذشته، روشهای یادگیری عمیق، بهویژه روشهای یادگیری عمیق تحت نظارت، نتایج بسیار خوبی در زمینههای مختلفی از جمله بینایی کامپیوتر [ 14 ، 15 ، 16 ] و علوم زمین [ 17 ، 18 ، 19 ، 20 ] به دست آوردهاند. این روشها اغلب به تعداد زیادی نمونه برچسبدار برای آموزش مدلهای شبکه عصبی نیاز دارند. با این حال، برای برخی از کارها در عمل، دستیابی به نمونه های برچسب دار کافی پرهزینه یا غیرممکن است. این به شدت مقیاس پذیری و کاربرد این روش ها را محدود می کند [ 21 ].
آموزش چند شات مجموعه ای از راه حل ها را برای مشکل فوق که توسط روش های یادگیری عمیق سنتی با آن مواجه می شود، پیشنهاد می کند. هدف آن این است که به مدل های یادگیری ماشینی اجازه دهد یک شی جدید مانند انسان را تشخیص دهند که می تواند یک شی جدید را با نمونه های کمی یاد بگیرد [ 22 ، 23 ]. در حال حاضر، تحقیق در مورد یادگیری چند شات از چندین دیدگاه مختلف مانند روش های یادگیری مبتنی بر متریک [ 21 ، 24 ، 25 ] و روش های مبتنی بر بهینه سازی پارامتر [ 26 ، 27 ، 28 ] انجام می شود.]. اکثر روش های یادگیری چند شات از استراتژی فرا یادگیری استفاده می کنند که هدف آن آموزش مدلی با تعداد زیادی کار و تعمیم آن به یک کار جدید است. معمولاً بسیاری از وظایف متا را با مجموعه داده های موجود می سازد و کل فرآیند یادگیری را به دو مرحله تقسیم می کند: آموزش متا و آزمون متا. در آموزش متا، مدل تحت کلاسهای مختلف توسط متا وظایف مختلف تعمیم داده میشود تا بتواند کلاسهای جدید کار جدید را در آزمون متا تشخیص دهد و طبقهبندی کند [ 29 ، 30 ، 31 ].
در نقشه ها، ردپای ساختمانی بسیار متنوع است که شکل آنها متنوع است. برچسب زدن تعداد زیادی نمونه برای هر شکل ردپای ساختمان پرهزینه یا حتی غیرممکن خواهد بود. به عنوان مثال، در مطالعه یان و همکاران. [ 11 ]، تنها ده نوع شکل ردپای ساختمان بر اساس شباهت بین ردپای ساختمان و حروف الفبا برچسبگذاری شد. علاوه بر این، برای برخی از ردپاهای ساختمان، به عنوان مثال، ردپای ساختمان های تازه در حال ظهور، دستیابی به نمونه های زیادی که دارای شکل های یکسان هستند، غیر عملی است. بنابراین، برای روشهای چند شات که میتوانند به شناسایی و طبقهبندی اشکال ردپای ساختمانی دست یابند، زمانی که تنها نمونههای برچسبدار کمی در دسترس هستند، ارزشمند است.
در این مقاله، ما یک روش چند شات مبتنی بر شبکه رابطه را برای طبقهبندی اشکال ردپای ساختمان پیشنهاد میکنیم. شبکه رابطه، متشکل از ماژول تعبیه و ماژول رابطه، یک روش چند شات مبتنی بر متریک است که هدف آن یادگیری یک تابع متریک رابطه تعمیم یافته و پیش بینی انواع نمونه های جدید با توجه به رابطه آنها با نمونه های اولیه این چند نمونه برچسب دار است. [ 21 ]. از ماژول جاسازی برای به دست آوردن ویژگی های نمونه ها استفاده می کند و روابط بین ویژگی ها و نمونه های اولیه این چند نمونه برچسب گذاری شده را توسط ماژول رابطه محاسبه می کند. با توجه به اینکه ردپای ساختمان به شکل چند ضلعی های برداری هستند، ماژول کانولوشن TriangleConv را که در کار قبلی ما پیشنهاد شده بود، می گیریم [ 13 ].] به عنوان ماژول جاسازی شبکه رابطه برای استخراج بهتر ویژگی های شکل ردپای ساختمان. آزمایشهای ما نشان میدهد که روش پیشنهادی بهتر از روشهای کلاسیک یادگیری چند شات در حل مشکل تشخیص و طبقهبندی اشکال ردپای ساختمان با نمونههای چند برچسبگذاری شده است.
ادامه این مقاله به شرح زیر سازماندهی شده است. بخش 2 با جزئیات بیشتری کار مربوط به تشخیص و طبقه بندی اشکال چند ضلعی های برداری مانند ردپای ساختمان و کار مربوط به یادگیری چند شات را ارائه می دهد. بخش 3 بیان مسئله این مقاله را ارائه می دهد و جزئیات روش مبتنی بر شبکه رابطه پیشنهادی را شرح می دهد. بخش 4 داده های تجربی، عملیات پیش پردازش داده ها و تجزیه و تحلیل نتایج تجربی را گزارش می کند. در بخش 5 ، کار خود را به پایان می رسانیم.
2. مربوط به کار
2.1. تشخیص اشکال ردپای ساختمان در نقشه ها
در نقشه ها، ردپای ساختمان اشیاء جغرافیایی مهمی هستند که به طور گسترده در نقشه های بزرگ و متوسط توزیع شده اند [ 32 ، 33 ]. علاوه بر این، شکل یک ویژگی هندسی ضروری اجسام جغرافیایی است که به طور موثر تشخیص این اشیاء را تسهیل می کند [ 34 ، 35 ]. در دهههای گذشته، بررسی شکل اجسام جغرافیایی برداری مانند ردپای ساختمان در نقشهها را میتوان به دو مرحله تقسیم کرد: یکی بر اساس معیارهای هندسی و آماری و دیگری بر اساس یادگیری عمیق.
روشهای مبتنی بر معیارهای هندسی و آماری به راحتی قابل درک هستند و اکثر آنها بر ناحیه یا مرز اشیا تمرکز دارند [ 11 ]. روشهای مبتنی بر منطقه، معیارها را معمولاً بر حسب کل شی انتخاب میکنند. به عنوان مثال، لی و همکاران. روشی را برای محاسبه فشردگی شکل بر اساس ممان اینرسی [ 7 ] پیشنهاد کردند، و Basaraner و Cetinkaya شاخص مستطیلی معادل و شاخص زبری را برای کمک به توصیف شکل ارائه کردند [ 36 ]. روشهای مرزی، اشکال را با برخی توصیفگرها برای بررسی بهتر اشکال مطابقت میدهند. به عنوان مثال، Belongie و همکاران. زمینه های شکل را برای اندازه گیری شباهت بین اشکال ارائه کرد [ 37 ]. آلاجلان و همکاران [ 38] یک روش بازیابی شکل را با استفاده از نمایش سطح مثلث پیشنهاد کرد و یانگ و همکاران. [ 8 ] فواصل مرکز مثلثی را برای حل مشکل تطبیق شکل جزئی پیشنهاد کرد.
در حالی که روشهای مبتنی بر معیارهای هندسی و آماری اغلب نمیتوانند ویژگیهای شکل عمیقتر را ثبت کنند، روشهای یادگیری عمیق توانایی خود را در استخراج اطلاعات ویژگیهای عمیق اشیا ثابت کردهاند. از آنجایی که اشیاء بردار جغرافیایی غیراقلیدسی هستند، روشهای یادگیری عمیق معمولی که برای دادههای اقلیدسی مانند تصاویر اعمال میشود، برای اشیاء بردار جغرافیایی مناسب نیستند [ 11 ]. در سالهای اخیر، با ظهور مفهوم پیچیدگی نمودار، یان و همکاران. از تبدیل فوریه گراف و قضیه کانولوشن برای استخراج ویژگیهای شکل گروههای ساختمانی استفاده کرد [ 12 ] و از شبکه عصبی نمودار دامنه طیفی برای ساخت یک مدل رمزگذار خودکار کانولوشن گراف (GCAE) برای استخراج ویژگیهای شکل ردپای ساختمان استفاده کرد [ 11 ]]. در کار قبلی ما [ 13 ]، یک شبکه کانولوشن نقطه عمیق نیز برای ایجاد تشخیص شکل ردپای با استفاده از یک عملگر TriangleConv در طول کانولوشن پیشنهاد شده است. اگرچه این روشها میتوانند ویژگیهای شکل اشیاء برداری را استخراج کنند، نتایج این روشها توسط تعداد زیادی نمونه آموزشی پشتیبانی میشود و عملکرد این روشها زمانی که تنها نمونههای برچسبگذاریشده کمی در دسترس باشد، به شدت محدود خواهد شد.
2.2. آموزش چند شات
پس از سالها توسعه، روشهای یادگیری عمیق تحت نظارت که از مقدار زیادی از دادههای برچسبگذاری شده به عنوان پشتیبانی برای یک برنامه خاص استفاده میکنند، به دلیل عملکرد عالی خود توجه گستردهای را به خود جلب کردهاند [ 39 ، 40 ، 41 ]. با این حال، این روش ها به شدت در اثربخشی خود در هنگام حل وظایف با نمونه های چند برچسب دار [ 22 ] محدود هستند.
یادگیری چند شات نوعی مشکل یادگیری ماشینی است که میتواند دانش قبلی را از تعداد زیادی از نمونههای نظارت شده به دست آورد و سپس از دانش برای تعمیم به کارهای جدید که فقط نمونههای نظارت شده کمی دارند استفاده کند [ 22 ، 23 ]. کارهای قبلی روی یادگیری چند شات معمولاً بر اساس استراتژیهای استنتاج تکراری پیچیده اجرا میشد [ 42 ، 43 ]. با محبوبیت یادگیری عمیق، روش های یادگیری چند شات مبتنی بر یادگیری عمیق به تدریج افزایش یافته است. اکثر روش ها از استراتژی فرا یادگیری (یادگیری برای یادگیری) استفاده می کنند [ 21 ، 25 ، 28]، که در آن دانش قبلی به دست آمده از وظایف خاص برای هدایت یادگیری وظایف جدید استفاده می شود تا شبکه بتواند به سرعت وظایف جدید را تطبیق دهد.
بسته به روش حل مسئله، روش های یادگیری چند شات را می توان به چهار دسته طبقه بندی کرد: روش های مبتنی بر افزایش داده ها، روش های مبتنی بر متریک، روش های مبتنی بر بهینه سازی و روش های مبتنی بر معنایی. کلید روشهای افزایش دادهها، تولید نمونههای بیشتر بر اساس نمونههای چند برچسبگذاری شده برای ارائه دانش قبلی غنیتر برای مدل است. این تکنیک معمولاً در زمینه پردازش تصویر استفاده می شود و تکنیک های رایج تقویت داده ها شامل مقیاس بندی، چرخش و غیره است [ 44 ، 45 ]. روشهای مبتنی بر بهینهسازی، بهینهسازهایی مانند شبکههای تقویتشده حافظه و حافظه کوتاهمدت را به آموزش معرفی میکنند تا به مدل کمک کنند تا به نتایج عالی در کارهای جدید دست یابد [ 26 ، 27 ]]. روشهای مبتنی بر متریک از روشهایی مانند شبکههای عصبی کانولوشن برای تبدیل دادهها به نمایش تعبیهشده مربوطه استفاده میکنند و سپس از برخی روشهای متریک برای دستیابی به مقایسه و خوشهبندی نمایش تعبیهشده استفاده میکنند [ 21 ، 24 ، 25 ]. روشهای مبتنی بر معنایی اغلب برای حل یادگیری شات صفر، که یک مورد خاص از یادگیری چند شات است، استفاده میشوند. روشهای مبتنی بر معنایی اطلاعات معنایی اضافی را به دادهها اضافه میکنند و اطلاعات میتواند به مدل کمک کند تا دانش قبلی بیشتری کسب کند و بنابراین وظایف جدید را بهتر انجام دهد [ 46 ، 47 ]. این مقاله از شبکه رابطه پیروی می کند که نوعی روش مبتنی بر متریک است [ 21] برای دستیابی به تشخیص شکل ردپای ساختمان چند شات. علاوه بر این، با توجه به ویژگیهای ردپای ساختمان بردار، ما از ماژول TriangleConv برای جایگزینی ماژول کانولوشنال دو بعدی در روش خود استفاده میکنیم تا نمایش تعبیهشده اشکال ردپای ساختمان را بهتر به دست آوریم.
3. روش شناسی
در این بخش، مشکل طبقهبندی شکل ردپای ساختمان چند شات را در نقشهها بیان میکنیم، شبکه و استراتژی آموزشی روش پیشنهادی را ارائه میکنیم و نحوه اعمال روش پیشنهادی را در عمل شرح میدهیم.
3.1. بیان مسأله
روشهای یادگیری عمیق موجود برای تشخیص و طبقهبندی اشکال ردپای ساختمان اغلب به تعداد زیادی نمونه آموزشی تحت نظارت نیاز دارند. با این حال، تنوع زیادی از اشکال ردپای ساختمان وجود دارد، و علامت گذاری تعداد زیادی نمونه آموزشی برای هر شکل ردپای ساختمان هزینه بر است. در این مورد، مشکل طبقهبندی شکل ردپای ساختمان چند شات مربوط به این است که آیا میتوانیم اشکال خاص بسیاری از ردپای ساختمانهای بدون برچسب را تنها با تعداد کمی از نمونههای برچسبدار تشخیص دهیم. به دنبال یادگیری چند شات، مجموعه چند نمونه برچسب دار، مجموعه پشتیبانی نامیده می شود ، و مجموعه ردپای ساختمان بدون برچسب مجموعه پرس و جو نامیده می شود . اگر مجموعه پشتیبانی شامل کلاسهای C باشد و هر کلاس حاوی نمونههای برچسبدار K باشد، به این مشکل چند شات، مشکل K-shot C-way گفته میشود.
برای پیش بینی اشکال این ردپای ساختمان در با استفاده از این نمونه های برچسب دار در ، روش بصری این است که ردپای ساختمان را در آن برچسب گذاری کنیم با توجه به شباهت آنها با نمونه های موجود در . به این ترتیب، کلید معیاری است که شباهت بین نمونهها را تخمین میزند و . علاوه بر این معیارهای ساده مانند شباهت کسینوس و فاصله اقلیدسی، بهتر است متریک مناسب تری از نمونه های برچسب دار با تکنیک های یادگیری عمیق یاد بگیرید. با توجه به تعداد کم نمونه های برچسب گذاری شده در مجموعه پشتیبانی، بدیهی است که یادگیری یک متریک برای این منظور دشوار است. با توجه به آن، روشهای یادگیری چند شات کنونی معمولاً به مجموعه دادههای موجود متوسل میشوند که دارای نمونههای برچسبگذاریشده زیادی هستند که در مقایسه با نمونههای موجود، اغلب به کلاسهای مختلف تعلق دارند. و سعی کنید یک متریک تعمیم یافته را یاد بگیرید که می تواند با استفاده از نمونه های موجود بیشتر تنظیم شود و . چنین مجموعه دادههایی اغلب پایگاه داده نامیده میشوند . در مقایسه، مجموعه داده در وظیفه فعلی، به عنوان مثال، مجموعه داده متشکل از مجموعه پشتیبانی و مجموعه پرس و جو ، مجموعه داده جدید نامیده می شود . مجموعه داده پایه معیار را با مقداری دانش قبلی قابل انتقال فراهم می کند و اجازه می دهد تا به اندازه کافی قابل تعمیم باشد. به طور کلی، کلاس های در و تقاطع کم یا بدون تقاطع دارند.
3.2. مدل
برای پرداختن به مشکل طبقهبندی شکل ردپای ساختمان چند شات، این مقاله یک روش مبتنی بر شبکه رابطه را با پیروی از روش مبتنی بر متریک پیشنهاد میکند. همانطور که در شکل 1 مشاهده می شودمدل شبکه رابطه مورد استفاده در این مقاله از دو ماژول تشکیل شده است: ماژول تعبیه و ماژول رابطه. این دو ماژول دو شبکه متفاوت هستند. ماژول تعبیه برای جاسازی نمونه های ورودی و به دست آوردن ویژگی های عمیق آنها است. ماژول رابطه یک متریک رابطه را می آموزد که شباهت بین ویژگی نمونه ها در مجموعه پرس و جو و نمونه های اولیه هر کلاس از نمونه ها در مجموعه پشتیبانی را اندازه می گیرد. بر اساس کار قبلی ما در مورد طبقهبندی شکل ردپای ساختمان، ماژول تعبیه TriangleConv را به عنوان ماژول جاسازی شبکه رابطه برای نگاشت ردپای ساختمان ورودی در ویژگیهای شکل اتخاذ کردیم.
ورودی های مدل شبکه رابطه ما، داده های ردپای ساختمان بردار پیش پردازش شده به شکل چند ضلعی های بسته بدون هیچ گونه حفره داخلی هستند. یعنی هر ورودی ردپای ساختمان به شبکه اساساً مجموعه ای مرتب از رئوس چندضلعی است ، هر رأس در مجموعه را می توان به صورت نمایش داد ، و تمام ورودی های ردپای ساختمان دارای تعداد رئوس یکسانی هستند. با استفاده از ماژول جاسازی TriangleConv در روش ما، ویژگی های نمونه های هر کلاس در مجموعه پشتیبانی تولید شده و نمونه های اولیه هر کلاس بدست می آید. برای مسئله C-way K-shot، کلاس های C در مجموعه پشتیبانی وجود دارد و هر کلاس دارای K نمونه است. پس از به دست آوردن ویژگی embedding از نمونه j از کلاس c ، نمونه اولیه کلاس c به صورت زیر محاسبه می شود:
برای نمونه بدون برچسب در مجموعه پرس و جو ، هنگامی که ویژگی جاسازی آن از طریق ماژول جاسازی TriangleConv به دست آمد، ویژگی جاسازی با نمونه اولیه الحاق می شود. از کلاس c و ورودی ماژول رابطه برای محاسبه امتیاز رابطه بین نمونه و کلاس c . بنابراین، خروجی روش پیشنهادی، امتیازهای رابطه است که نشان می دهد این امکان وجود دارد که نمونه های مجموعه پرس و جو به کلاس های مجموعه پشتیبانی تعلق داشته باشند. برچسب نمونه در توسط کلاس با بالاترین امتیاز رابطه پیش بینی می شود.
3.2.1. ماژول جاسازی TriangleConv
برای انتخاب ماژول جاسازی، اکثر روشهای یادگیری چند شات موجود از بلوکهای کانولوشنال دوبعدی متعددی برای تشکیل ماژول جاسازی استفاده میکنند [ 21 ، 25 ، 29 ]. با توجه به اینکه ردپاهای ساختمان اغلب به شکل داده های برداری غیر اقلیدسی نشان داده می شوند که ساختار منظمی ندارند، ماژول TriangleConv ارائه شده در کار قبلی خود [ 13 ] را برای جاسازی ردپاهای ساختمان و استخراج ویژگی های شکل آن ها اتخاذ می کنیم.
ماژول TriangleConv از یک بلوک کانولوشن جدید به نام TriangleConv برای انجام کانولوشن روی رئوس ردپای ساختمان برداری استفاده می کند. در یادگیری عمیق، عملیات پیچیدگی را می توان به عنوان مجموعه ای از ویژگی های یک نقطه و نقاط همسایه آن در میدان پذیرا در نظر گرفت. بر این اساس، عملگر TriangleConv قرار بود ویژگیهای یک راس و دو راس مجاورت آن را برای ایجاد ویژگیهای جدید راس جمع کند. بنابراین، ویژگی های شکل محلی اطراف رئوس را می توان با اعمال بلوک TriangleConv یاد گرفت.
همانطور که در شکل 1 نشان داده شده است ، و دو رأس مجاور هستند در ناحیه مثلث مربوط به . با مختصات این رئوس، بلوک TriangleConv ابتدا چهار نوع اطلاعات ویژگی را تولید می کند. ، ، و . مقدار مختصات است . ، و مربوط به تفاوت بین مختصات و ، و ، و ، به ترتیب. پس از الحاق آنها به یکدیگر، از پرسپترون چند لایه (MLP) برای ترسیم ویژگی ها در فضای ابعاد بالاتر استفاده می شود. دو بلوک TriangleConv در ماژول جاسازی TriangleConv وجود دارد. آنها ویژگی های هر راس را به نمایش های ابعادی بالاتر ترسیم می کنند. در نهایت، max-pooling برای جمعآوری اطلاعات ویژگی هر رأس برای ایجاد ویژگی شکل ردپای ساختمان ورودی استفاده میشود.
3.2.2. ماژول رابطه
کل ماژول رابطه را می توان به صورت فرمول (2) بیان کرد. پس از به دست آوردن نمونه های اولیه از هر کلاس در و ویژگی های جاسازی از هر نمونه که در ، ماژول رابطه ای در مجموع تولید خواهد کرد در صورتی که نمونه های C راه و N وجود داشته باشد نتیجه می شود . هر نتیجه نشان دهنده امتیاز رابطه است که شباهت بین نمونه اولیه c را نشان می دهد و ویژگی جاسازی از j- امین نمونه . مقدار بین 0 و 1 است. هر چه مقدار بزرگتر باشد، شباهت بین نمونه اولیه بیشتر است و . ردپای ساختمان j به عنوان شکل کلاس با بالاترین امتیاز رابطه برچسب گذاری می شود.
ماژول رابطه از دو بلوک کانولوشنیک 1 بعدی و دو لایه کاملاً متصل تشکیل شده است. هر بلوک کانولوشنال 1 بعدی شامل یک تبدیل 1D، یک BatchNorm 1 بعدی، یک تابع فعال سازی LeakyReLU و یک MaxPool1d است. دو لایه کاملاً متصل به ترتیب 8 و 1 بعد هستند. تابع Sigmoid به عنوان تابع فعال سازی در لایه خروجی استفاده می شود. علاوه بر این، میانگین خطای مربعات ( MSE ) افت تعریف شده در فرمول (3) به عنوان تابع ضرر در نظر گرفته می شود که در آن داده های واقعی است، داده های برازش شده است و .
3.3. استراتژی آموزشی
برای آموزش مدل برای طبقهبندی شکل ردپای ساختمان، استراتژی آموزشی فرا یادگیری مبتنی بر قسمت را اتخاذ میکنیم که در بسیاری از روشهای کلاسیک یادگیری چند شات استفاده میشود [ 21 ، 25 ]. یک مثال در شکل 2 نشان داده شده است .
متفاوت از یادگیری عمیق سنتی که مدل ها را با تکرار نمونه های نظارت شده آموزش می دهد، استراتژی فرا یادگیری معمولاً از وظایف به عنوان نمونه های آموزشی استفاده می کند. پس از اینکه مدل برای انطباق خوب با تعداد زیادی از وظایف مختلف آموزش دید، می تواند در هنگام پردازش وظایف جدید نیز به خوبی تطبیق یابد. برای این منظور، استراتژی آموزش فرا-یادگیری، فرآیند آموزش مبتنی بر اپیزود را اتخاذ می کند که شامل قسمت های زیادی است. در هر قسمت، یک وظیفه متشکل از یک مجموعه پشتیبانی و یک مجموعه پرس و جو وجود دارد. مدل با استفاده از مجموعه پشتیبانی آموزش داده می شود و با استفاده از مجموعه پرس و جو اعتبار و به روز می شود. به ویژه، کل فرآیند آموزش مبتنی بر قسمت به دو مرحله تقسیم میشود: مرحله فراآموزشی و مرحله فراآزمایی. در مرحله متا آموزش، برای آموزش مدل در مرحله فراآزمایی، عملکرد طبقه بندی مدل آموزش دیده برای وظایف جدید ساخته شده از مجموعه داده های جدید ارزیابی می شود. برای اطمینان از توانایی تعمیم مدلی که باید آموزش داده شود، هم وظایف آموزشی و هم وظایف جدید بر اساس توزیع یکسان از مجموعه داده ها نمونه برداری می شوند. یعنی هم مجموعه پشتیبانی و هم مجموعه پرس و جوی وظیفه آموزشی تعداد کلاس های یکسانی دارند و هر کلاس به همان تعداد نمونه در وظیفه جدید است.
همانطور که در شکل 2 نشان داده شده است ، هر جعبه سبز در آموزش متا و هر جعبه نارنجی در تست متا همگی یک قسمت را نشان می دهند. در هر قسمت، به طور تصادفی اندازه ثابتی از دادههای ردپای ساختمان را از مجموعه داده ترسیم میکنیم تا وظیفه قسمت را تشکیل دهیم. در جزئیات، با در نظر گرفتن کار فراآموزشی به عنوان مثال، ما به طور تصادفی کلاس های C از داده های ردپای ساختمان را از مجموعه داده های فراآموزشی انتخاب می کنیم، هر کلاس شامل نمونه ها، جایی که نمونه های ردپای ساختمان مجموعه پشتیبانی و بقیه را تشکیل می دهند نمونه ها مجموعه پرس و جو را تشکیل می دهند. پس از به دست آوردن امتیازهای رابطه که نشان دهنده احتمال تعلق هر نمونه در مجموعه پرس و جو به کلاس های مجموعه پشتیبانی است، کلاسی را با بالاترین امتیاز رابطه به عنوان برچسب نمونه انتخاب می کنیم و از فرمول (3) برای محاسبه تابع ضرر استفاده می کنیم. و مدل را به روز کنید.
3.4. طبقه بندی اشکال ردپای ساختمان تحت تنظیمات چند شات
هنگام استفاده از روش آموزش داده شده برای طبقه بندی اشکال مجموعه ای از ردپاهای ساختمان بدون برچسب که در مرحله آموزش دیده نمی شد، لازم است که در هر کلاس بیش از کلاس C و بیش از K نمونه ردپای ساختمان وجود داشته باشد. در میان آنها، حداقل K نمونه ردپای ساختمان در هر کلاس باید برچسب گذاری شود. چنین مجموعه ای از نمونه های ردپای ساختمان مجموعه داده جدید را تشکیل می دهد که در بیانیه مشکل توضیح داده ایم.
با توجه به مجموعه داده های جدید ، مجموعه ای از وظایف را می توان با نمونه برداری از کلاس های C و ساختن نمونه های ردپایی در هر کلاس از مجموعه داده که در آن نمونه های K در هر کلاس، نمونه های برچسب گذاری شده هستند. مانند آنچه در مرحله فراآزمایی نشان داده شده در شکل 2 ، نمونه هایی از یک کار در یک قسمت به مدل آموزش دیده وارد می شود. ابتدا، ویژگی های شکل این نمونه های ردپای ساختمان توسط ماژول تعبیه استخراج می شود. سپس، نمونههای اولیه هر کلاس از کار با میانگینگیری ویژگیهای این نمونههای برچسبگذاری شده از هر کلاس بهدست میآیند. پس از آن، ویژگیهای هر نمونه بدون برچسب با این نمونههای اولیه الحاق میشوند، و الحاقها به ماژول رابطه وارد میشوند تا امتیازات رابطهای که احتمال تعلق نمونههای بدون برچسب را به کلاسهای شکل نشان میدهد، به دست آورند. در نهایت، کلاس شکل هر نمونه بدون برچسب با بالاترین امتیاز رابطه پیشبینی میشود. دقت پیشبینی را میتوان برای هر کار محاسبه کرد، و زمانی که بیش از یک کار از مجموعه دادهها ساخته شده باشد، میانگین دقت را میتوان به عنوان نتیجه در نظر گرفت. .
4. آزمایشات
در این بخش، آزمایشهایی را که برای اعتبارسنجی روش پیشنهادی انجام دادهایم شرح میدهیم. ما ابتدا مجموعه داده، عملیات پیش پردازش داده ها و تنظیمات پارامتر مورد استفاده در آزمایشات خود را شرح می دهیم. سپس جزئیات و نتایج ارزیابی ها را ارائه کردیم.
4.1. مجموعه داده و پیش پردازش
ما مجموعه داده تجربی خود را با استفاده از داده های [ 11 ] ساختیم. داده ها از OpenStreetMap جمع آوری شد. 10 کلاس ردپای ساختمان در مجموعه داده وجود دارد و هر کلاس شامل 501 ردپای ساختمان است. برای اطمینان از اینکه داده ها به طور کلی نماینده هستند، آنها از مناطق با ویژگی های جغرافیایی مختلف، مانند شهری، روستایی، و غیره انتخاب می شوند. از آنجایی که اشکال ردپای ساختمان به طور کلی شبیه به الفبای انگلیسی است و استفاده از اشکال حروف برای برچسب زدن ردپای ساختمان، شناخت را افزایش می دهد. 3]، ردپای ساختمان به عنوان 10 الفبای معمولی انگلیسی مانند U-Shape، H-Shape و F-Shape برچسب گذاری شده است. برچسبها برای همه دادهها به صورت دستی توسط سه نفر با دانش نقشه برچسبگذاری شدند و برای دادههای مورد مناقشه، شکلها به طور مشترک توسط سه نفر تعیین شدند. اشکال ردپای ساختمان در مجموعه داده اساساً چند ضلعی های بسته هستند و هیچ سوراخی در داخل چند ضلعی ها وجود ندارد. برخی از نمونه های داده خام از 10 شکل ردپای ساختمان در شکل 3 نشان داده شده است.
مشابه روشهای یادگیری چند شات در پردازش تصویر، ما باید دادههای ردپای ساختمان را پیش پردازش کنیم تا اطمینان حاصل کنیم که تمام دادههای وارد شده به شبکه رابطه دارای تعداد رئوس یکسانی هستند و نرمال میشوند. بنابراین برخی از روش های پیش پردازش مورد استفاده در [ 11 ] برای کار ما به کار گرفته شده اند. ما از روش داگلاس-پوکر [ 48 ] با آستانه محافظه کارانه و تجربی 0.1 متر برای ساده سازی داده های اصلی استفاده می کنیم، سپس درون یابی با فاصله را روی داده های ساده شده انجام می دهیم تا تعداد راس اشیاء برداری مختلف را یکسان کند. علاوه بر این، ما از روش Z-score برای عادی سازی داده ها استفاده می کنیم.
4.2. تنظیمات آزمایشی
زبان برنامه نویسی مورد استفاده برای آزمایش ها پایتون در نسخه 3.6 است و شبکه ارتباط ما با استفاده از چارچوب یادگیری عمیق Pytorch [ 49 ]، نسخه 1.6.0 پیاده سازی شده است. سخت افزار اصلی مورد استفاده برای آزمایش ها رم 64G، Intel Core I9-9900K و NVIDIA GeForce RTX 2080Ti با CUDA نسخه 10.2 است.
با توجه به کلاس های محدود مجموعه داده های ما و تنظیم کلی آزمایش های یادگیری چند شات، ما 9 مجموعه آزمایش ارزیابی را انجام دادیم. آنها عبارتند از: آزمایش 1 تیر دو طرفه، آزمایش 3 تیر دو طرفه، آزمایش 5 تیر دو طرفه، آزمایش 1 تیر سه طرفه، آزمایش تیر سه طرفه، 3- به ترتیب آزمایش راه 5 تیر، آزمایش 4 راه 1 تیر، آزمایش 4 راه 3 تیر، آزمایش 4 راه 5 تیر. برای داده های پرس و جو، 19 نمونه پرس و جو در آزمایش 1 شات، 17 نمونه پرس و جو در آزمایش 3 شات و 15 نمونه پرس و جو در آزمایش 5 شات داریم. به عبارت دیگر، برای 5-شات 3 طرفه، 3 ∗ 5 + 3 ∗ 15 = 60 ردپای ساختمان در وظیفه یک قسمت وجود دارد.
به روشی مشابه در [ 21 ]، تعداد اپیزودهای آزمایشی را 300 قرار دادیم و نتایج این 300 قسمت را میانگین گرفتیم تا عملکرد شبکه رابطه را در یک دنباله محاسبه کنیم. ما به طور تصادفی 5 کلاس از ردپای ساختمان را به عنوان مجموعه داده پایه انتخاب کردیم و 5 کلاس باقی مانده از ردپای ساختمان به عنوان مجموعه داده جدید در هر آزمایش مجموعه داده پایه برای آموزش در مرحله فراآموزشی و مجموعه داده جدید برای آزمایش در مرحله فراآزمایی استفاده می شود. هنگام انتخاب تصادفی 5 کلاس از 10 کلاس داده، وجود دارد یعنی 252 نوع انتخاب. در آزمایشهای خود، 60 بار دادهها را بهطور تصادفی انتخاب کردهایم و نتیجه نهایی میانگین نتایج 60 کارآزمایی است.
ما دقت را به عنوان معیار ارزیابی برای هر آزمایش انتخاب کردیم که به عنوان فرمول (4) و (5) تعریف شده است. در فرمول (5)، نمونه آزمون i است، کلاس پیش بینی مربوط به است ، و کلاس واقعی است . مشاهده میشود که دقت نسبت تمام نمونههای طبقهبندی شده صحیح را به تعداد کل نمونهها اندازهگیری میکند.
4.3. نتایج و تجزیه و تحلیل ماژول های مختلف تعبیه شده و متریک
روش مبتنی بر شبکه رابطه پیشنهادی ما یک روش یادگیری چند شات مبتنی بر متریک است که ترکیبی از یک ماژول جاسازی و یک ماژول متریک شباهت است. در این بخش، انتخاب های مختلف ماژول های تعبیه و متریک را ارزیابی می کنیم. برای ماژول جاسازی، ماژول کانولوشنال دوبعدی را انتخاب می کنیم که معمولاً در یادگیری چند شات سنتی استفاده می شود [ 24 ، 25 ، 27] و ماژول TriangleConv مورد استفاده در روش ما. برای ماژول متریک، شباهت کسینوس و ماژول رابطه مورد استفاده در روش خود را انتخاب کردیم. لازم به ذکر است که هنگام استفاده از ماژول کانولوشن 2 بعدی به عنوان ماژول جاسازی، ماژول رابطه از بلوک های کانولوشن دو بعدی برای مطابقت با ماژول جاسازی تشکیل شده است و در هنگام استفاده از ماژول TriangleConv، ماژول رابطه باید از بلوک های کانولوشنال 1 بعدی تشکیل شود. پارامترهای تنظیم آزمایشی بین آزمایشها یکسان باقی میماند. نتایج برای ترکیب ماژول های جاسازی مختلف با ماژول های متریک مختلف در جدول 1 نشان داده شده است.
نتایج تجربی در این بخش نشان میدهد که هم ماژول جاسازی TriangleConv و هم ماژول رابطه نقش مثبتی در حل مشکل یادگیری چند شات مربوط به تشخیص و طبقهبندی اشکال ردپای ساختمان بردار تحت شرایط تجربی ما ایفا میکنند. از جدول 1 ، با مقایسه نتایج آزمایشهای (1) و (2) و آزمایشهای (3) و (4)، میتوان دریافت که نتایج روشهایی که از ماژول TriangleConv استفاده میکنند بهتر از نتایج روشهای استفاده از 2 بعدی است. ماژول کانولوشن در شکل 4، نتایج روش با استفاده از ماژول TriangleConv بیشتر در بازه 0.6-1 توزیع می شود، در حالی که نتایج روش با استفاده از بلوک های کانولوشنال 2 بعدی عمدتاً در بازه 0.3-0.7 توزیع می شوند. این احتمالاً به این دلیل است که ماژول TriangleConv در استخراج ویژگیهای اشکال ردپای ساختمان بهتر از ماژول کانولوشنال دوبعدی است. شکل 5 تجسم تعبیه های ویژگی را نشان می دهد که با استفاده از روش T-SNE [ 50 ] به دست آمده است. همچنین واضح است که اثر خوشه بندی تعبیه های به دست آمده توسط ماژول TriangleConv بهتر است. با مقایسه نتایج آزمایشهای (1) و (3) و آزمایشهای (2) و (4)، نتایج نشان میدهد که روش استفاده از ماژول رابطه نسبت به روش استفاده از شباهت کسینوس برتری دارد و این موضوع درشکل 4 . این ممکن است این باشد که ماژول رابطه می تواند یاد بگیرد که متریکی را که برای حل مشکل این مقاله سازگارتر است، به دست آورد.
4.4. مقایسه با روش های آموزشی چند شات مرتبط
برای تأیید بیشتر عملکرد روش پیشنهادی خود، ما سه روش کلاسیک یادگیری چند شات را برای مقایسه انتخاب کردیم: شبکه سیامی کانولوشن (CSN) [ 24 ]، فرا یادگیری مدل-آگنوستیک (MAML) [ 27 ]، و شبکه نمونه اولیه( پ.ن) [ 25]. CSN یک شبکه عصبی عمیق است که شباهت دو نمونه را تعیین می کند. جفتهای مختلفی از نمونهها را با ترکیب آنها میسازد و از یک شبکه عصبی عمیق برای استخراج ویژگیهای دو نمونه ورودی استفاده میکند، سپس شباهت بین ویژگیها را محاسبه میکند و پارامترهای شبکه عصبی عمیق را بهروزرسانی میکند. پیش بینی نتایج بر اساس شباهت بین نمونه ها و طبقاتی است که به آنها تعلق دارند. MAML مجموعهای از پارامترهای اولیه را آموزش میدهد که با اعمال یک یا چند مرحله تنظیم گرادیان میتوانند به سرعت با یک کار جدید تنها با دادههای کمی سازگار شوند. ایده اصلی یافتن پارامترهای اولیه مدل است که به مدل اجازه می دهد تا به سرعت یاد بگیرد و نتایج بهتری را در تعداد کمی از داده های آموزشی برای یک کار جدید بدست آورد. PN نمونه های هر کلاس را با ویژگی های تعبیه شده نگاشت می کند و میانگین آنها را به عنوان نمونه اولیه کلاس محاسبه می کند. با فاصله اقلیدسی به عنوان متریک فاصله، شبکه با این فرض آموزش داده میشود که نمونههای یک کلاس به نمونه اولیه این کلاس نزدیک و از نمونههای اولیه کلاسهای دیگر دور هستند.
ما از پیادهسازی این خطوط پایه مبتنی بر Pytorch از Github برای تکمیل آزمایشهای خود استفاده کردیم. در آزمایشهای ما، تمام ورودی دادههای ردپای ساختمان به هر مدل با استفاده از روشهای بخش 4.1 پیش پردازش شد و تعداد رئوس ردپای ساختمان به 16 واحد یکسان شد. نرخ یادگیری برای همه روشها روی 0.001 تنظیم شد. میانگین نتایج تمام روشهای بیش از 60 کارآزمایی در جدول 2 آورده شده است. با توجه به اینکه CSN معمولاً برای وظایف 1 شات استفاده می شود، بحث CSN در این مقاله به 1 شات محدود شده است. نتایج تمام خطوط پایه نیز میانگین نتایج 60 کارآزمایی است.
در جدول 2 ، با افزایش تعداد کلاس ها، دقت تمام روش ها کاهش می یابد و شکل 6متناسب با این روند این به این دلیل است که در یک کار چند طبقهبندی، هر چه تعداد کلاسهای بیشتری نیاز به طبقهبندی داشته باشند، کار طبقهبندی دشوارتر میشود. در این میان، عملکرد هر روش به تدریج با افزایش تعداد نمونه ها در هر کلاس بهبود می یابد. این به این دلیل است که نمونه های بیشتر اطلاعات ویژگی های بیشتری را برای یادگیری این روش ها ارائه می دهند. در بین همه روش ها، روش ما به نتایج رقابتی در حل وظیفه طبقه بندی شکل ردپای ساختمان چند شات در نقشه ها دست می یابد. به عنوان مثال، دقت به 81.00٪ برای کار طبقه بندی 3 راه 5 شات رسید که در آن سه کلاس نمونه در مجموعه پشتیبانی و 5 نمونه برچسب دار برای هر کلاس وجود دارد. روش ما در 9 مجموعه آزمایش حداقل 9.58٪ از خطوط پایه بهتر عمل می کند. این ممکن است به این دلیل باشد که سه روش پایه همگی از ماژول کانولوشنال دوبعدی برای استخراج ویژگیها از نمونهها استفاده میکنند. در مقابل، روش ما از ماژول تعبیهسازی TriangleConv برای استخراج ویژگیهای شکل نمونهها استفاده میکند و توانایی آن در استخراج اشکال ردپای ساختمان بردار نسبت به ماژول کانولوشنال دوبعدی، که در تأیید شد، برتر است.بخش 4.3 . ماژول جاسازی بهتر میتواند تعبیه ویژگی مؤثرتری را برای ماژول رابطه فراهم کند، که به ماژول رابطه اجازه میدهد تا معیارهای تشابه بهتری را بیاموزد. علاوه بر این، هر دو CSN و PN از فاصله اقلیدسی استفاده می کنند، در حالی که روش ما از ماژول رابطه استفاده می کند که بهتر می تواند شباهت بین داده های مجموعه پشتیبانی و داده های مجموعه پرس و جو را اندازه گیری کند. نتایج در این بخش نشان می دهد که روش ما انتخاب بهتری برای حل مشکل چند شات تشخیص و طبقه بندی اشکال ردپای ساختمان هنگام مقایسه با این خطوط پایه است.
4.5. محدودیت ها
اگرچه نتایج تجربی امکان سنجی و اثربخشی روش پیشنهادی را نشان داده است، اما هنوز محدودیت هایی وجود دارد.
ابتدا، روش پیشنهادی با هدف طبقه بندی اشکال ردپای ساختمان بردار است. بنابراین، لازم است که داده های ورودی روش پیشنهادی مجموعه های مرتب رئوس چندضلعی ها باشد. به ویژه، با توجه به روش کانولوشن TriangleConv که برای استخراج ویژگیهای شکل ردپای ساختمان بردار استفاده کردهایم، ردپای ساختمان برداری که باید طبقهبندی شود باید به صورت چند ضلعیهای بسته بدون سوراخهای داخلی باشد. بنابراین، برای برخی از داده های جغرافیایی به صورت خطوط یا چند ضلعی با سوراخ هایی در داخل، روش ما ممکن است قابل اجرا نباشد.
دوم، دادههای غنیتر ممکن است مدل را تعمیمپذیرتر کند. اگرچه دادههای مورد استفاده در این مقاله از مناطق جغرافیایی مختلف میآیند، کلاسهای اشکال در مجموعه دادهها کمتر بودند، که ممکن است عملکرد مدل را محدود کند.
سوم، نمرات رابطه تولید شده توسط روش پیشنهادی، این احتمال را نشان میدهد که یک نمونه بدون برچسب به کلاسهای مجموعه پشتیبانی تعلق دارد. با این حال، این امتیازات بر اساس نمونههای اولیه کلاسها در مجموعه پشتیبانی محاسبه میشوند و ما مستقیماً تعبیههای ویژگیهای نمونههای هر کلاس در مجموعه پشتیبانی را به عنوان نمونه اولیه کلاس میانگین گرفتهایم. نمونه های اولیه به دست آمده از این طریق ممکن است نمونه واقعی کلاس ها نباشند. ممکن است انحراف وجود داشته باشد، به خصوص زمانی که نمونه های منفرد در مجموعه پشتیبانی وجود دارد.
5. نتیجه گیری ها
این مقاله یک روش مبتنی بر شبکه ارتباطی را برای تشخیص و طبقهبندی اشکال ردپای ساختمان با نمونههای چند برچسبگذاری شده پیشنهاد میکند. ایده اصلی آن آموزش یک مدل شبکه عصبی با تعداد زیادی کلاس مختلف از نمونههای ردپای ساختمان برچسبگذاری شده و تعمیم آن برای شناسایی کلاسهای جدید نمونههای ردپای ساختمان است. مدل شبکه عصبی روش پیشنهادی از یک ماژول جاسازی و یک ماژول رابطه تشکیل شده است. ماژول جاسازی از بلوک TriangleConv برای استخراج ویژگی های شکل ردپای ساختمان که به شکل چند ضلعی برداری بسته هستند استفاده می کند. ماژول رابطه روابط بین ویژگی های شکل ردپای ساختمان و نمونه های اولیه هر کلاس را محاسبه می کند. طبقات نمونه ها با توجه به روابط پیش بینی می شوند. برای اطمینان از تعمیم مدل، استراتژی آموزش فرا یادگیری مبتنی بر قسمت برای آموزش مدل شبکه عصبی استفاده شده است. بر اساس داده ها و محیط آزمایشی مورد استفاده در این مقاله، روش ما به دقت 89.40 درصد در کار 5 تیر دو طرفه دست یافته است. نتایج تجربی نشان دادهاند که روش ما میتواند به عملکرد رقابتی در حل مشکل تشخیص و طبقهبندی اشکال ردپای ساختمان با نمونههای نظارت شده کمی در مقایسه با روشهای یادگیری چند شات مرتبط دست یابد.
در عمل، هنگام استفاده از مدل آموزشدیده در این مقاله برای طبقهبندی مجموعهای از نمونههای ردپای ساختمان جدید بدون برچسب، تعداد کمی از نمونهها باید از قبل به صورت دستی برچسبگذاری شوند. سپس تکالیفی به شکل C-way K-shot که مدل آموزش داده شده است باید از این نمونه ها ساخته شود. با وارد کردن این وظایف در مدل، طبقه بندی اشکال این نمونه های ردپای ساختمان حاصل می شود.
در کار آینده، ما به بررسی طبقهبندی اشکال ردپای ساختمان با چند نمونه نظارت شده ادامه خواهیم داد و سعی خواهیم کرد عملکرد و کاربرد آن را بهبود ببخشیم. مجموعه داده هایی که ما استفاده کرده ایم چند ضلعی های بسته بدون سوراخ در داخل هستند. ما عملیات جاسازی ردپای ساختمان بردار را بهبود میبخشیم و آن را قادر میسازیم تا با انواع بیشتری از ردپای ساختمان مقابله کند. علاوه بر این، ما فقط از اطلاعات برداری ردپای ساختمان در کار فعلی استفاده کردهایم. در واقع، اطلاعات اضافی مانند اطلاعات معنایی ردپای ساختمان نیز ممکن است برای افزایش عملکرد طبقهبندی شکل مفید باشد. علاوه بر این، آنچه در این مقاله به آن پرداختهایم، مسئله طبقهبندی شکل ردپای ساختمان چند شات است که هنوز نیاز به برچسبگذاری برخی ردپای ساختمان برای هر کلاس شکل دارد.
بدون دیدگاه