بررسی تطبیقی رویکردهای مختلف یادگیری عمیق برای رمزگذاری شکل اجسام زمین فضایی مسطح

رمزگذاری شکل اشیاء مکانی یک مشکل کلیدی در زمینه های نقشه برداری و علوم زمین است. اگرچه روش‌های مبتنی بر هندسی سنتی پیشرفت زیادی کرده‌اند، تکنیک‌های یادگیری عمیق فرصتی برای توسعه این مشکل کلاسیک ارائه می‌دهند. در این مطالعه، یک چارچوب رمزگذاری شکل مبتنی بر معماری رمزگذار-رمزگشای عمیق پیشنهاد شد و سه روش مختلف برای رمزگذاری اشکال زمین فضایی مسطح، یعنی روش‌های GraphNet، SeqNet و PixelNet، بر اساس شطرنجی، مبتنی بر گراف ساخته شد. و مدل سازی مبتنی بر توالی برای شکل. این سه روش با روش رمزگذاری شکل مبتنی بر یادگیری عمیق و دو روش هندسی سنتی مقایسه شدند. ارزیابی کمی و بازرسی بصری به نتایج زیر منجر شد: (1) روش‌های رمزگذار-رمزگشا عمیق می‌توانند به طور موثر ویژگی‌های شکل را محاسبه کنند و کدگذاری شکل معناداری را برای پشتیبانی از اندازه‌گیری شکل و کار بازیابی به دست آورند. (2) در مقایسه با روش‌های سنتی تبدیل فوریه و تابع چرخش، روش‌های رمزگذار-رمزگشا عمیق مزایای خاصی را نشان دادند. (3) در مقایسه با روش‌های SeqNet و PixelNet، GraphNet به دلیل استفاده از یک نمودار برای مدل‌سازی روابط توپولوژیکی بین گره‌ها و عملیات انحراف گراف و ادغام کارآمد برای پردازش ویژگی‌های گره، عملکرد بهتری داشت.

کلید واژه ها:

رمزگذاری شکل رمزگذار – رمزگشا ; یادگیری عمیق ؛ شباهت شکل ؛ بازیابی شکل

1. مقدمه

شکل یک ویژگی اساسی برای بیان اشیاء فضایی و انتقال پدیده های فضایی است. نمایش شکل و رمزگذاری همیشه یکی از مشکلات اساسی در زمینه‌های علوم زمین و علوم کامپیوتر بوده است و نقش مهمی در بسیاری از کاربردها از جمله شناخت فضایی [ 1 ، 2 ، 3 ]، تعمیم نقشه [ 4 ، 5 ، 6 ] ایفا می‌کند. ]، تشخیص الگوی فضایی [ 7 ، 8 ]، و تطبیق شکل و بازیابی [ 9 ، 10 ، 11]. از منظر شناختی، شکل را می توان به عنوان نوعی ویژگی ساختاری بصری درک کرد که توسط خود یک شی یا پدیده درک می شود [ 12 ]. با این حال، تعریف رسمی ویژگی های ساختاری بسیار دشوار است، و آنها به طور جامع در تعاملات و ترکیب بسیاری از اجزا، مانند محیط های داخلی، مرزی و خارجی منعکس می شوند.

در دهه های اخیر، روش های متعددی برای نمایش شکل پیشنهاد شده است [ 13 ، 14 ]. این روش‌ها را می‌توان به طور تقریبی به سه دسته تقسیم کرد: روش‌های منطقه‌محور، ساختارمحور و روش‌های مرزی. روش های مبتنی بر منطقه عمدتاً از طریق عملیات واحدهای منطقه ای (مثلاً پیکسل) به دست می آیند. این عملیات می تواند بر اساس یک چارچوب مورفولوژیکی ریاضی [ 15 ]، یا آمار توزیع چگالی [ 16 ] یا تبدیل های دو بعدی مبتنی بر منطقه (به عنوان مثال، توصیفگرهای فوریه) [ 17 ] باشد. پرکاربردترین روش مبتنی بر ساختار، روش اسکلت است [ 18]، که از محور مرکزی برای نشان دادن مورفولوژی و توپولوژی کلی شکل استفاده می کند. روش‌های مبتنی بر مرز عبارت است از استخراج ویژگی‌های توصیفی برای نمایش یک شکل با استفاده از مرز آن. این ویژگی ها شامل توصیفگر زمینه شکل (SC) محاسبه شده توسط توزیع نقاط مرزی [ 9 ]، تابع چرخش (TF) تعریف شده توسط تغییرات زاویه در امتداد مرز [ 19 ]، و تقعر تحدب چند مقیاسی (MCC) [ 20 ] و نمایش مساحت مثلث (TAR) [ 21] توصیف‌گرها با ویژگی‌های مقعر-محدب محلی یا جهانی اندازه‌گیری می‌شوند. این روش‌ها با معیارهای هندسی و آماری، با مزایای شهودی بودن و ثبات محاسباتی، که کاربرد گسترده آنها را در اندازه‌گیری‌های شباهت شکل و بازیابی شکل ترویج می‌کنند، غالب هستند. با این حال، این روش‌ها فاقد مکانیسم‌های شناختی هستند و با توانایی‌های شناختی انسان برابری نمی‌کنند. با توجه به اینکه اشکال بسیار پیچیده و از نظر شناختی مرتبط هستند، تمرکز فقط بر روی طراحی الگوریتم‌های هندسی و نه بر بهبود خصوصیات عمیق، برای بازنمایی و شناخت شکل مفید نیست.

در سال های اخیر، یادگیری عمیق عمیقاً بر توسعه چندین رشته تأثیر گذاشته است [ 22 ]. از طریق ماژول های چند لایه ساده اما غیرخطی، یادگیری عمیق قابلیت نمایش قدرتمندی برای ویژگی های بصری محلی دارد. این مزایا همچنین کاربرد موفقیت آمیز یادگیری عمیق را برای بسیاری از وظایف تحلیل نقشه برداری، از جمله تشخیص الگو [ 7 ، 23 ]، تعمیم نقشه [ 24 ، 25 ] و درون یابی فضایی [ 26 ] ممکن کرده است.]. استفاده از یادگیری عمیق برای ساخت یک روش رمزگذاری شکل یک رویکرد مثبت و امیدوارکننده است که به طور موثر روش های سنتی را تکمیل می کند. علاوه بر این، یادگیری عمیق به طور تجربی ثابت شده است که یک تعصب شکل را نشان می دهد. یعنی یک شی ترجیحاً از نظر شکل به جای رنگ یا بافت متمایز می شود [ 27 ]. برخی از محققان سعی کرده اند روش های یادگیری عمیق را برای استخراج ویژگی های نهفته برای توصیف اشکال معرفی کنند. به عنوان مثال، یان و همکاران. [ 3 ] یک مدل رمزگذار خودکار گراف (GAE) برای رمزگذاری شکل به عنوان یک بردار ویژگی یک بعدی پیشنهاد کرد، لیو و همکاران. [ 28 ] یک شبکه کانولوشنال نقطه عمیق با استفاده از عملگر TriangleConv که به خوبی طراحی شده بود برای تشخیص و طبقه بندی اشکال ساختمان ساخت و Hu و همکارانش. [ 29] یک روش تشخیص شکل ردپای ساختمان را بر اساس یک شبکه ارتباطی با چند نمونه برچسب‌گذاری شده پیشنهاد کرد.

با این حال، استفاده از یادگیری عمیق برای شکل دادن به بازنمایی و رمزگذاری هنوز در مراحل ابتدایی خود است و بسیاری از مسائل کلیدی حل نشده باقی مانده اند [ 30 ، 31 ]]. به عنوان مثال، روش‌های مختلفی برای مدل‌سازی یک شکل و به‌عنوان ورودی برای مدل‌های یادگیری وجود دارد، از جمله روش‌های مبتنی بر شطرنجی، مبتنی بر توالی و مبتنی بر نمودار. روش‌های مختلف مدل‌سازی اساساً متفاوت هستند و باید با استفاده از روش‌های محاسبه ویژگی‌های مختلف و معماری‌های یادگیری پردازش شوند. در این راستا، این مطالعه یک ارزیابی مقایسه ای از روش های مختلف یادگیری عمیق برای نمایش شکل و رمزگذاری اشیاء جغرافیایی انجام داد. به طور خاص، ما ابتدا یک چارچوب رمزگذاری شکل را بر اساس معماری رمزگذار-رمزگشای عمیق پیشنهاد کردیم. سپس، برای روش‌های مدل‌سازی مبتنی بر شطرنجی، مبتنی بر توالی، و مبتنی بر نمودار یک شکل، ما سه رمزگذار-رمزگر مختلف طراحی کردیم و یادگیری خود نظارتی را برای به دست آوردن رمزگذاری یک‌بعدی برای هر شکل انجام دادیم. سرانجام،

ادامه این مقاله به شرح زیر سازماندهی شده است. بخش 2 چارچوب رمزگذاری شکل را بر اساس یادگیری عمیق شرح می دهد و سه رمزگذار-رمزگشای عمیق را می سازد. بخش 3 نتایج تجربی رمزگذاری شکل را ارائه می دهد و آنها را از طریق بازرسی بصری و ارزیابی کمی تجزیه و تحلیل می کند. بخش 4 مقاله را به پایان می رساند.

2. روش شناسی

رمزگذار-رمزگشا نوعی شبکه عصبی بدون نظارت است که برای یادگیری رمزگذاری کارآمد داده های بدون برچسب استفاده می شود [ 22 ]. این شامل پنج جزء اصلی است: ورودی، رمزگذار، کد، رمزگشا و خروجی. رمزگذار برای رمزگذاری ورودی ها به کد استفاده می شود و رمزگشا ورودی را از روی کد بازسازی می کند. هدف از یادگیری این است که خروجی را تا حد ممکن شبیه به ورودی کند.

محاسبات ویژگی های مورد استفاده در رمزگذار و رمزگشا برای روش های مختلف مدل سازی شکل متفاوت است. در این تحقیق، روش‌های مبتنی بر شطرنجی، توالی و مبتنی بر نمودار برای مدل‌سازی اشکال دو بعدی در نظر گرفته شد. به همین ترتیب، سه رمزگذار-رمزگشا عمیق برای استخراج ویژگی های رمزگذاری پنهان برای نمایش اشکال، همانطور که در شکل 1 نشان داده شده است، ساخته شد . بخش‌های زیر جزئیات سه رمزگذار-رمزگشا را شرح می‌دهند.

2.1. مدل کدگذاری شکل مبتنی بر پیکسل

روش شطرنجی معمولاً برای کار با داده‌های مبتنی بر برداری فضایی استفاده می‌شود، زیرا سازماندهی منظم بهتر با بسیاری از الگوریتم‌ها یا مدل‌ها [ 31 ]، مانند شبکه‌های عصبی کانولوشنال عمیق سازگار است. مزیت دیگر این رویکرد این است که ویژگی های منطقه ای اشکال در نظر گرفته می شود.

برای به دست آوردن یک تصویر مبتنی بر شطرنجی برای یک شکل، تفاوت بین مقادیر حداکثر و حداقل در محورهای افقی و عمودی محاسبه شد و مقدار بزرگتر به عنوان طول لبه در نظر گرفته شد تا مربعی با مرکز شکل در نظر گرفته شود. مرکز. این مربع به طور مناسب به سمت بیرون منبسط شد (مثلاً 10٪) تا از یکپارچگی شکل اطمینان حاصل شود. سپس یک شبکه مناسب برای شطرنجی کردن مربع ایجاد شد. اندازه سلول های شبکه مستقیماً بر وضوح نمایش محتوای داده تأثیر می گذارد. اگر اندازه سلول خیلی بزرگ باشد، یک پدیده موزاییک جدی رخ می دهد که ارائه جزئیات طرح کلی را دشوار می کند. اگر اندازه سلول خیلی کوچک باشد، راندمان آموزشی مدل تحت تأثیر قرار می گیرد. با در نظر گرفتن وضوح تصاویر و پیچیدگی مدل به طور جامع، اندازه شبکه در این مطالعه 28 × 28 پیکسل تعیین شد. در نهایت، سلول شبکه باینریزه می شود. یعنی وقتی یک سلول در شکلی با بیش از نیمی از مساحت قرار می گیرد، سلول روی سیاه قرار می گیرد. در غیر این صورت سفید است.

پس از تبدیل شکل به یک تصویر مبتنی بر شطرنجی، رمزگذار-رمزگر کلاسیک مبتنی بر توپولوژی شبکه مانند می‌تواند برای استخراج نمایش نهفته شکل استفاده شود. شکل 2 معماری رمزگذار-رمزگذار مبتنی بر پیکسل (PixelNet) را نشان می دهد که در این مطالعه برای رمزگذاری شکل استفاده شده است.

رمزگذار در PixelNet تصویر ورودی 28 × 28 را به عنوان یک بردار 128 بعدی کدگذاری کرد. این شامل سه لایه کانولوشن با اندازه هسته 3 × 3 و اعداد هسته به ترتیب 3، 18 و 8 بود. پس از هر لایه کانولوشن، یک لایه max-pooling با اندازه پنجره k = 2 × 2 و طول گام s = 2 متصل شد. رمزگشا همچنین شامل سه لایه کانولوشن با 8، 18 و 3 هسته بود. نمونه برداری، برعکس اندازه ادغام شده، تصویر را به اندازه اصلی خود بازگرداند. در نهایت، یک لایه کانولوشن با ویژگی یک اضافه شد تا اطمینان حاصل شود که بعد ویژگی خروجی با ورودی مطابقت دارد.

2.2. مدل رمزگذاری شکل مبتنی بر توالی

مرز یک شکل یک دنباله طبیعی است که شامل یک سری نقاط به هم پیوسته است. بنابراین، ساخت یک چارچوب نمایش و تحلیل شکل بر اساس توالی مرزی یک استراتژی امیدوارکننده است.

از آنجا که فاصله بین دو گره مجاور در یک مرز شکل یکسان نیست، واحد پردازش ثابت نیست. برای پرداختن به این موضوع، مرز به مجموعه‌ای از واحدهای خطی متوالی با طول‌های مساوی تقسیم شد که لیکسل نامیده می‌شوند [ 32 ] و نقاط میانی لیکسل‌ها به عنوان گره‌های دنباله در نظر گرفته شدند. برای هر گره دنباله ای، تفاوت های افقی و عمودی بین دو انتهای لیکسل مرتبط به عنوان دو ویژگی برای توصیف آن استفاده شد. در نهایت، یک بردار، PN×2={p1,p2,…,pN}، حاوی Nگره‌های دنباله‌ای با ویژگی‌های دو بعدی، به عنوان ورودی برای مدل رمزگذاری شکل ساخته شدند. با اشاره به تنظیمات پارامتر استفاده شده در ادبیات [ 3 ]، Nروی 64 تنظیم شد.

برای پردازش توالی ساخته شده، از یک شبکه عصبی برای ساخت یک رمزگذار-رمزگر استفاده شد. از آنجایی که شبکه عصبی کلاسیک ترتیب گره ها را به ترتیب در نظر نمی گیرد، شبکه Seq2seq (SeqNet) [ 33 ]، که از حافظه کوتاه مدت بلند مدت (LSTM) [ 34 ] به عنوان رمزگذار و رمزگشا استفاده می کند، استفاده شد. معماری در شکل 3 نشان داده شده است .

رمزگذار یک شبکه LSTM بود که دنباله را دریافت کرد PN×2به عنوان ورودی تعداد نورون ها در لایه پنهان روی تنظیم شد zsize=128، یعنی بعد رمزگذاری شکل ورودی. تابع Tanh برای فعال کردن نورون ها استفاده شد تا اطمینان حاصل شود که هر مقدار بردار خروجی از 1- تا 1 متغیر است. محاسبه هر مرحله زمانی در حلقه به شرح زیر است:

[h i; c i] = f e (p i, h i - 1, c i - 1),

(1)

جایی که hiو ciبه ترتیب مقادیر خروجی و حالت واحد LSTM را نشان می دهد. piنشان دهنده ویژگی های ورودی، و fe(⋅)نشان دهنده محاسبه هر مرحله زمانی در رمزگذار است. خروجی آخرین مرحله زمانی رمزگذاری شکل است، به عنوان مثال، z=hT، جایی که Tتعداد مراحل زمانی را نشان می دهد.

رمزگشا شامل یک شبکه LSTM و یک لایه کاملاً متصل بود. ترکیبی از رمزگذاری شکل متوسط و ویژگی ها را دریافت کرد piبه عنوان ورودی، یعنی ورودی یک بود N×(zsize+2)ماتریس تعداد نورون های لایه پنهان روی تنظیم شد zsizeبرای حفظ همان بعد مقدار حالت در رمزگذار. تابع Tanh نیز به عنوان یک تابع فعال سازی مورد استفاده قرار گرفت. خروجی LSTM یک لایه کاملاً متصل خطی اضافه کرد که بعد خروجی دنباله را به بعد ورودی محدود کرد تا توالی اصلی را بازسازی کند. فرآیند محاسبات به شرح زیر است:

[H i; C i] = f d ([p i; z], H i - 1, C i - 1),

(2)

p ˆ i = W i \times H i + b i,

(3)

جایی که Hiو Ciمقادیر خروجی و حالت واحد LSTM را نشان می دهد، [pi;z]نشان دهنده ورودی رمزگشا است که توسط رمزگذاری شکل و ویژگی تشکیل شده است، fd(⋅)محاسبه هر مرحله زمانی در رمزگشا را نشان می دهد، Wiو biوزن ها و بایاس های لایه کاملا متصل هستند و pˆiویژگی بازسازی شده توسط مدل است.

هدف یادگیری به حداقل رساندن ورودی ها بود، PN×2={p1,p2,…pN}و خروجی ها P^N×2={pˆ1,pˆ2,…,pˆN}و این تفاوت با استفاده از میانگین مربعات خطا محاسبه شد:

L (P, P^) = 1 N \sum N i = 1 (p i - p ˆ i) 2 .

(4)

رمزگشا از طریق رویکرد “معلم اجباری” آموزش داده شد تا همگرایی مدل را سرعت بخشد، به عنوان مثال، هر ورودی رمزگشا از خروجی مرحله زمانی قبلی استفاده نمی کند بلکه مستقیماً از مقدار موقعیت مربوطه در آموزش استفاده می کند. داده ها.

2.3. رمزگذار خودکار شکل مبتنی بر نمودار

در مقایسه با دنباله، نمودار بهتر می تواند رابطه بین گره های غیر مجاور را بیان کند. یک گراف به صورت ریاضی نشان داده می شود G=(V,E,A)، جایی که V={v1,…,vN}و Eمجموعه ای از Nگره ها و لبه های متصل کننده آنها به ترتیب و Aهست یک N×Nماتریس مجاورت که وزن لبه ها را ثبت می کند. ماتریس لاپلاس Lاز Aبه عنوان محاسبه می شود L=IN−D−1/2AD−1/2، جایی که INهست Nماتریس هویت سفارش و D=diag(d1,⋯,dN)ماتریس درجه است که از درجه تشکیل شده است di=∑jAi,jاز گره i. بردارهای ویژه از Lبا نشان داده می شوند {xTl}N−1l=0، و مقادیر ویژه مربوطه هستند {λTl}N−1l=0. راضی می کنند L=XΛXT، جایی که Xماتریسی است که توسط {xTl}N−1l=0، و Λیک ماتریس مورب از است {λTl}N−1l=0.

همانطور که یک دنباله ساخته شد، نقاط میانی لیکسل ها به عنوان گره های گراف در نظر گرفته شد و تفاوت های افقی و عمودی بین دو انتها به عنوان ویژگی گره های گراف استفاده شد. برای محاسبه وزن لبه، یک مثلث Delaunay (DT) با استفاده از تمام گره ها ساخته شد. اگر یک لبه DT بین دو گره وجود داشته باشد، وزن لبه متصل کننده آنها به عنوان متقابل طول لبه DT تعیین می شود. در غیر این صورت، 0 بود. در نهایت، گره گراف ماتریس ویژگی ها، fN×2و ماتریس مجاورت،

، برای خدمت به عنوان ورودی مدل به دست آمدند.

همچنین روی 64 تنظیم شد تا اطمینان حاصل شود که تعداد گره و ویژگی‌ها با روش SeqNet برای مقایسه بهتر مطابقت دارند.

یک رمزگذار رمزگذار مبتنی بر گراف (GraphNet) برای پردازش گراف ساخته شده ساخته شد. معماری کلی در شکل 4 نشان داده شده است . رمزگذار شامل یک لایه کانولوشن گراف با 32 نقشه ویژگی (یعنی تعداد هسته) بود و ترتیب چند جمله ای هر هسته روی 3 تنظیم شد. همچنین شامل دو لایه ادغام گراف بود. پس از ادغام، تعداد گره ها و ابعاد ویژگی به ترتیب 32 و 24 و 16 و 8 تعیین شد. خروجی آخرین لایه در رمزگذار به یک بردار ویژگی 128 بعدی، یعنی رمزگذاری شکل، گسترش یافت. به همین ترتیب، دو لایه upsampling گراف و یک لایه کانولوشن گراف در رمزگشا وجود داشت تا اندازه گراف را به همان اندازه ورودی بازگرداند.

لایه کانولوشن توسط یک عملیات پیچیدگی گراف سریع و محلی، که بر اساس تبدیل فوریه گراف [ 35 ] تعریف شد، پیاده سازی شد. این

ویژگی های خروجی (

) -مین لایه

توسط قانون انتشار رو به جلو لایه به لایه محاسبه می شود:

(5)

جایی که یک تابع فعال سازی غیر خطی را نشان می دهد. هست نمودار از لایه؛ مرتبه K چبیشف چند جمله ای است که به صورت بازگشتی توسط محاسبه می شود ، با و ; بزرگترین مقدار ویژه است ; و قابل آموزش هستند ضرایب و بردار سوگیری در لایه به ترتیب و و تعداد نمودارهای هستند و لایه ها به ترتیب

لایه کانولوشن گراف از ماتریس لاپلاسی برای ترسیم ویژگی های گره استفاده می کند

به

. این فرآیند ویژگی های گره گراف را به روز می کند، اما اندازه گراف (یعنی تعداد گره های گراف) را تغییر نمی دهد. در این راستا، از روش DIFFPOOL [ 36 ] برای اجرای عملیات جمع‌آوری و نمونه‌برداری نمودار استفاده شد که به تغییر اندازه نمودار و استخراج ویژگی‌های سلسله مراتبی کمک می‌کند. این لایه یک ماتریس انتساب قابل تفکیک را می آموزد

برای نقشه برداری

گره ها به

گره ها برای به دست آوردن ویژگی های گره با دانه بندی های مختلف. از طریق دو پیچیدگی نمودار پیاده سازی می شود:

، جایی که

ویژگی های نود جدید را تولید می کند و

ماتریس انتساب را تولید می کند. ویژگی های ماتریس مجاورت و گره گراف در

لایه به صورت زیر محاسبه می شود:

(6)

(7)

این فرآیند تعداد و ویژگی های گره های گراف را تغییر می دهد. اگر

کمتر است از

، به این معنی است که تعداد گره ها کاهش می یابد، که می تواند به عنوان یک عملیات ادغام درک شود. برعکس، تعداد گره ها افزایش می یابد، یعنی عملیات upsapling.

GraphNet به روشی بدون نظارت آموزش داده شد تا تفاوت بین ورودی و خروجی را به حداقل برساند. با توجه به دشواری بهینه‌سازی ماتریس‌های تخصیص در لایه ادغام، دو محدودیت به تابع ضرر [ 36 ] اضافه شد: به حداقل رساندن اختلاف ماتریس‌های مجاور.

برای هر لایه و به حداقل رساندن آنتروپی ماتریس های تخصیص

ردیف به ردیف اولی پایداری لبه‌ها را در ماتریس‌های مجاور تضمین می‌کند و دومی تضمین می‌کند که انتساب برای هر گره نزدیک به یک بردار یک داغ است تا رابطه با لایه بعدی را به وضوح توصیف کند. تابع ضرر نهایی به صورت زیر تعریف می شود:

(8)

جایی که تعداد تمام لایه ها (یعنی شش در این مطالعه)، و و به ترتیب هنجار فروبنیوس و تابع آنتروپی را نشان می دهند.

3. نتایج تجربی و تجزیه و تحلیل

سه رمزگذار-رمزگشای عمیق با استفاده از پایتون در TensorFlow پیاده‌سازی شدند و آزمایش‌ها روی دو مجموعه داده با محیطی از پردازنده مرکزی Intel(R) Core (TM) i9-9920X و NVIDIA GeForce RTX 2080Ti برای آزمایش عملکرد آنها برای رمزگذاری شکل انجام شد. بخش‌های زیر مجموعه داده‌های تجربی، نتایج و تحلیل‌ها را تشریح می‌کنند و بحثی را ارائه می‌کنند.

3.1. مجموعه داده های تجربی

یک مجموعه داده شکل ساختمان باز در آزمایش ها استفاده شد [ 3 ]. به عنوان یک ویژگی جغرافیایی مصنوعی معمولی، ساختمان ها اغلب در نقشه ها به صورت اشکال دو بعدی، با ویژگی های بصری آشکار مانند چرخش های راست زاویه و تقارن نشان داده می شوند. در این مجموعه داده، 10 دسته از ساختمان ها با توجه به اشکال حروف انگلیسی، همانطور که در شکل 5 نشان داده شده است، متمایز شدند . هر دسته شامل 501 ساختمان با مجموع 5010 شکل بود.

از آنجایی که PixelNet، SeqNet و GraphNet همگی مدل‌های بدون نظارت هستند، مجموعه داده‌های ساختمان به مجموعه‌های آموزشی و آزمایشی تقسیم نشدند. تمام ساختمان ها برای آموزش این سه مدل مورد استفاده قرار گرفتند تا در نهایت یک بردار یک بعدی برای هر ساختمان رمزگذاری شود. اندازه دسته آموزشی روی 50 تنظیم شد و هر مدل برای 50 دور با استفاده از بهینه ساز Adam [ 37 ] با نرخ یادگیری 0.01 آموزش داده شد.

3.2. نتایج تجربی و تجزیه و تحلیل

3.2.1. ارزیابی کمی

از چهار معیار بازیابی شکل برای ارزیابی اثربخشی رمزگذاری شکل به صورت کمی استفاده شد: نزدیکترین همسایه (NN)، ردیف اول (FT)، ردیف دوم (ST)، و سود تجمعی تنزیل شده (DCG). همه معیارها از 0 تا 1 متغیر هستند و مقدار بالاتر نشان دهنده عملکرد بهتر است. برای اطلاعات بیشتر در مورد تعاریف و محاسبات این معیارها، به کار Shilane و همکاران مراجعه کنید. [ 38 ].

برای محاسبه FT، ST و DCG، یک شکل به‌طور تصادفی از هر دسته به‌عنوان شی بازیابی انتخاب شد و بقیه شکل‌هایی بودند که باید بازیابی شوند. علاوه بر این، ما همچنین میانگین زمان هزینه محاسبه شباهت‌های بین هر شی بازیابی و اشکال دیگر را برای ارزیابی کارایی بازیابی مدل‌ها محاسبه کردیم. برای مقایسه، یک مدل یادگیری عمیق مبتنی بر نمودار موجود (GAE) پیشنهاد شده توسط یان و همکاران. [ 3 ] و دو روش سنتی، یعنی، توصیفگر شکل فوریه (FD) [ 9 ] و نمایش تابع مماس (TF) [ 19 ]] نیز اجرا شد. تفاوت‌های بین روش‌های GAE و GraphNet در این است که GAE از یک دنباله برای نشان دادن مرزهای شکل استفاده می‌کند، در حالی که GraphNet از یک نمودار برای مدل‌سازی اشکال استفاده می‌کند و یک عملیات ادغام را در شبکه یکپارچه می‌کند. علاوه بر این، ویژگی های ورودی آنها متفاوت است. جدول 1 نتایج ارزیابی بازیابی شکل در مجموعه داده های ساختمان را فهرست می کند.

چندین مشاهدات از طریق مقایسه انجام شد. ابتدا، GraphNet از PixelNet و SeqNet برای هر چهار معیار در کار بازیابی شکل ساختمان بهتر عمل کرد. GraphNet نه تنها اتصالات گره‌های غیر مجاور را از طریق یک لبه DT در مرحله ساخت گراف در نظر گرفت، بلکه نزدیکی فضایی بین گره‌ها را با استفاده از کانولوشن گراف نیز در نظر گرفت. این ملاحظات ممکن است برای گرفتن ویژگی های زمینه ای مفید باشد. دوم، عملکرد کلی PixelNet چیزی بین مدل‌های GraphNet و SeqNet بود. این نتیجه ثابت می کند که هر دو روش مبتنی بر شطرنجی و مبتنی بر بردار برای رمزگذاری شکل امکان پذیر هستند. روش مبتنی بر شطرنجی ساده و شهودی است، در حالی که روش مبتنی بر برداری دارای مزایای افزونگی کم، دقت بالا و فشرده بودن اطلاعات است. برای روش های بردار، روش گراف قادر به استخراج روابط توپولوژیکی بین گره های غیر مجاور نسبت به روش توالی است. به همین دلیل، اگرچه روش‌های GraphNet و SeqNet دارای ویژگی‌های ورودی یکسانی هستند، GraphNet قابلیت‌های کدگذاری شکل بهتری را نسبت به SeqNet برای مجموعه داده ساختمان نشان داده است.

علاوه بر این، در مقایسه با روش‌های سنتی FD و TF، چهار روش یادگیری عمیق (روش‌های GraphNet، PixelNet، SeqNet و GAE) بهتر عمل کردند. این نتیجه اثربخشی فناوری های یادگیری عمیق را در استخراج ویژگی های ضمنی اشکال و به دست آوردن رمزگذاری های ارزشمند اثبات می کند. علاوه بر این، با مقایسه زمان هزینه، مشخص شد که یادگیری عمیق تا حد زیادی کارایی بازیابی شکل را بهبود می بخشد. این به این دلیل است که معیارهای تشابه شکل به دست آمده با استفاده از روش های FD و TF به شدت با نقطه شروع مرزهای محصور مرتبط است. برای بازیابی مطمئن تر، شباهت بین دو شکل به طور مکرر با عبور از تمام گره ها در مرزها به عنوان نقطه شروع محاسبه شد. این فرآیند هزینه محاسباتی قابل توجهی را به همراه دارد. متقابلا،

3.2.2. تجزیه و تحلیل تجسم

برای نشان دادن عملکرد رمزگذاری شکل به صورت شهودی تر، از الگوریتم t-SNE [ 39 ] برای کاهش بعد رمزگذاری های شکل به دو و تجسم آنها در یک فضای مسطح استفاده شد، همانطور که در شکل 6 نشان داده شده است. در شرایط ایده آل، دو شکل از یک دسته به هم شباهت بیشتری دارند، موقعیت آنها در فضا نزدیکتر است و موقعیت اشکال با دسته های مختلف از هم دورتر است. در نهایت، تمام رمزگذاری‌های شکل ساختمان، خوشه‌های مستقلی را تشکیل می‌دهند.

از نتایج، رمزگذاری شکل تولید شده توسط چهار روش یک پدیده تجمع خاصی را نشان داد. یک مقایسه دقیق نشان می‌دهد که رمزگذاری‌های شکل تولید شده توسط روش‌های GraphNet و PixelNet تجمع قوی‌تری دارند، در حالی که خوشه‌های تشکیل‌شده توسط همان اشکال در نتایج SeqNet و GAE جدایی آشکاری را نشان می‌دهند. تجزیه و تحلیل نشان داد که این پدیده ممکن است ناشی از جهت شکل و نقطه شروع باشد. اگرچه ویژگی‌های استخراج‌شده در روش‌های SeqNet و GAE اسکالر هستند، ویژگی‌های گره دنباله‌های ورودی با انتخاب نقاط شروع بسیار متفاوت است. این منجر به تفاوت قابل توجهی در رمزگذاری شکل می شود. در مقابل، جداسازی اشکال با همان دسته در نتایج روش‌های GraphNet و PixelNet تا حد زیادی کاهش یافت. این به این دلیل رخ داد که هر شکل با استفاده از یک شبکه شطرنجی یکپارچه بدون توجه به انتخاب نقطه شروع در روش PixelNet نمایش داده شد. در روش GraphNet، این مشکل به طور موثر با در نظر گرفتن روابط توپولوژیکی بین گره ها کاهش یافت. این جداسازی ها منجر به خطاهای غیر قابل چشم پوشی در اندازه گیری شباهت شکل شد، که ممکن است توضیح دهد که چرا معیارهای ارزیابی روش های SeqNet و GAE برای کار بازیابی شکل کمی کمتر از روش GraphNet است.

علاوه بر این، مشاهده شد که برای برخی از رمزگذاری‌های شکل در نتایج GraphNet و PixelNet همپوشانی وجود دارد. به خصوص، در نتیجه PixelNet، رمزگذاری های E-shaped و F-shaped همپوشانی آشکاری دارند. این پدیده ممکن است به این دلیل رخ دهد که برخی از اشکال شباهت بصری خاصی دارند، برای مثال، شکل E و F هر دو مستطیل مانند و دندانه دار بودند. این همپوشانی همچنین منجر به خطاهایی در معیار تشابه شکل شد. بنابراین، معیارهای ارزیابی روش PixelNet برای کار بازیابی شکل از معیارهای روش GraphNet پایین‌تر بود. از این دو مشاهدات، روش‌های SeqNet و GAE قادر به گروه‌بندی اشکال با نقطه شروع و جهت‌گیری یکسان در یک دسته هستند. با این حال، برای دو شکل با جهت های مختلف، این دو روش ممکن است شباهت آنها را به اشتباه اندازه گیری کنند.

3.2.3. اندازه گیری شباهت بین جفت های شکل

برای توضیح بهتر نتایج فوق، جدول 2 شباهت‌های شکلی را بین برخی از جفت‌های شکل معمولی که با استفاده از روش‌های مختلف به دست آمده‌اند فهرست می‌کند. شباهت بین دو شکل با استفاده از فاصله اقلیدسی بین رمزگذاری آنها محاسبه شد. هر چه مقدار آن کوچکتر باشد، این دو شکل بیشتر شبیه هستند.

برای اولین جفت شکل، جهت‌گیری‌ها، نقاط شروع و اشکال کلی نسبتاً نزدیک بودند و هر سه روش می‌توانستند شباهت‌های آنها را به دقت توصیف کنند. جهت گیری ها و نقاط شروع جفت شکل دوم مشابه بود، اما اشکال متفاوت بود و شباهت های محاسبه شده با سه روش کم بود. نتایج نشان می‌دهد که سه روش می‌توانند ویژگی‌های شکل را در شرایط ایده‌آل، یعنی با جهت‌گیری‌ها و نقاط شروع ثابت، به خوبی تشخیص دهند. جفت شکل سوم نقاط شروع و شکل‌های یکسانی دارد، اما جهت‌گیری‌ها متفاوت است، SeqNet عملکرد خوبی داشت، GraphNet نسبتاً خوب بود، و PixelNet بدترین عملکرد را داشت. این نتیجه نشان می دهد که جهت گیری عملکرد PixelNet را به طور قابل مشاهده تحت تاثیر قرار داده است. همچنین گراف نت را تا حدی اما در محدوده قابل قبولی تحت تاثیر قرار داد. نتایج جفت‌های شکل چهارم و پنجم نشان داد که روش SeqNet همیشه زمانی که نقاط شروع متفاوت بودند، ضعیف عمل می‌کند، حتی زمانی که جهت‌گیری‌ها یکسان بود. این بدان معنی است که این روش ها هنوز هم به ترتیب نقاط بسیار حساس هستند، حتی اگر ویژگی های استخراج شده بدون اسکالر باشند. این مشکل در GraphNet به میزان قابل توجهی کاهش یافت. این نتایج تجزیه و تحلیل مقایسه ای دقیق با نتایج کمی قبلی سازگار است. حتی اگر ویژگی های استخراج شده بدون اسکالر هستند. این مشکل در GraphNet به میزان قابل توجهی کاهش یافت. این نتایج تجزیه و تحلیل مقایسه ای دقیق با نتایج کمی قبلی سازگار است. حتی اگر ویژگی های استخراج شده بدون اسکالر هستند. این مشکل در GraphNet به میزان قابل توجهی کاهش یافت. این نتایج تجزیه و تحلیل مقایسه ای دقیق با نتایج کمی قبلی سازگار است.

3.3. بحث در مورد بعد کدگذاری

متغیر بعد رمزگذاری برای روش رمزگذار – رمزگشا حیاتی است. بنابراین، یک آزمایش تکمیلی برای بررسی اثرات این پارامتر بر عملکرد سه روش انجام شد. برای دستیابی به تغییر در ابعاد، PixelNet و GraphNet تعداد هسته‌های کانولوشن را در آخرین لایه کانولوشن و SeqNet تعداد نورون‌های لایه پنهان را تنظیم کردند. جدول 3 معیارهای ارزیابی عملکرد رمزگذاری روش های مختلف را با تغییر بعد کدگذاری از 32 تا 512 فهرست می کند.

در تئوری، زمانی که بعد رمزگذاری بالاتر باشد، توانایی نمایش ویژگی قوی تر است. با این حال، نتایج تجربی با این یافته تناقض داشت. مقایسه نشان داد که عملکرد هر سه روش ابتدا بهبود یافت اما سپس با افزایش بعد رمزگذاری تثبیت یا حتی کاهش یافت. GraphNet بهترین عملکرد را زمانی داشت که بعد رمزگذاری 128 بود. برای روش‌های PixelNet و SeqNet، مناسب‌ترین بعد رمزگذاری 256 بود. این نتیجه را می‌توان به عدم وجود پراکندگی در آموزش برای محدود کردن بردار پایه نسبت داد، که منجر به کاهش عملکرد به دلیل بیش از حد کامل بودن در ابعاد رمزگذاری بالاتر.

3.4. آزمایش با مجموعه داده پیچیده تر

از آنجایی که اشکال ساختمان مورد استفاده در این مطالعه نسبتاً ساده بودند، ما روش‌های مختلف رمزگذاری شکل را بر روی یک مجموعه داده پیچیده‌تر، مجموعه داده MPEG-7 [ 40 ] آزمایش کردیم تا عملکرد را تأیید و مقایسه کنیم. این پایگاه داده با طیف گسترده ای از دسته بندی ها مشخص می شود. این شامل 70 دسته شکل است که حیوانات، گیاهان و لوازم را پوشش می دهد. هر دسته شامل 20 شکل، در مجموع 1400 شکل است. شکل 7 نمونه هایی از مجموعه داده را نشان می دهد.

برای چهار مدل یادگیری عمیق، تمام اشکال موجود در مجموعه داده MPEG-7 برای آموزش آنها استفاده شد و هر شکل به عنوان یک بردار کدگذاری شد. برای هر دسته، یک شکل به طور تصادفی برای بازیابی اشکال دیگر انتخاب شد. چهار معیار کمی و زمان هزینه کار بازیابی با استفاده از روش های مختلف در جدول 4 آمده است.. مقایسه نشان می‌دهد که GraphNet همچنان در هر چهار معیار کمی در مقایسه با روش‌های PixelNet و SeqNet بهتر عمل می‌کند، و نتایج کلی با نتایج مربوط به مجموعه داده ساختمان سازگار است، که نشان می‌دهد GraphNet همچنین دارای مزایای خاصی برای اندازه‌گیری‌های شباهت و بازیابی است. از اشکال پیچیده چهار معیار روش GAE هنوز کمتر از روش Graph بود، اما شکاف کمتر شده بود. تجزیه و تحلیل دقیق نشان داد که دلیل این نتیجه ممکن است این باشد که GAE معماری شبکه ساده‌تری داشت و ویژگی‌های ورودی بیشتری دریافت می‌کرد، و بنابراین در مجموعه داده MPEG-7 با دسته‌بندی‌های پیچیده و اشکال کمتر، پایدارتر عمل کرد. همچنین مشاهده شد که معیارهای FT و ST در آزمایشات با مجموعه داده MPEG-7، به ویژه برای روش‌های FD و TF بهبود یافته است.

علاوه بر این، زمان هزینه کار بازیابی برای چهار روش یادگیری عمیق به دلیل اشیاء بازیابی کمتر در مجموعه داده کوتاه شد. با این حال، روش‌های FD و TF به زمان بیشتری نیاز داشتند زیرا اشکال پیچیده‌تر و تعداد گره‌ها بیشتر بود. این نتیجه بیشتر مزایای روش های یادگیری عمیق را از نظر کارایی بازیابی نشان می دهد.

4. نتیجه گیری

نمایش شکل و رمزگذاری یک مشکل اساسی در نقشه کشی و علوم زمین است. با توجه به سه روش اصلی مدل‌سازی شکل، سه روش رمزگذاری شکل مختلف مبتنی بر یادگیری عمیق PixelNet، SeqNet و GraphNet در این مطالعه ساخته شد. PixelNet بر اساس مدل‌سازی مبتنی بر شطرنجی، SeqNet بر اساس مدل‌سازی مبتنی بر توالی، و GraphNet بر اساس مدل‌سازی مبتنی بر برداری با استفاده از ساختار نمودار ساخته شده است. تجزیه و تحلیل تجربی با استفاده از دو مجموعه داده نتایج زیر را به دست آورد: (1) روش‌های رمزگذار-رمزگشا مبتنی بر یادگیری عمیق می‌توانند به طور موثر ویژگی‌های شکل را محاسبه کنند و رمزگذاری‌های معناداری را برای پشتیبانی از اندازه‌گیری شکل و کار بازیابی به دست آورند. (2) روش‌های یادگیری عمیق مزایایی را نسبت به روش‌های سنتی FD و TF در مجموعه داده ساختمان نشان می‌دهند. معیارهای FT و ST روش های FD و TF به طور قابل توجهی در مجموعه داده MPEG-7 بهبود یافته است. (3) GraphNet به دلیل استفاده از گراف برای مدل‌سازی روابط توپولوژیکی بین گره‌ها و عملیات تلفیقی و ادغام گراف کارآمد برای پردازش ویژگی‌های گره، بهتر از SeqNet و PixelNet عمل کرد.

تحقیقات بیشتر از جنبه های زیر انجام می شود: (1) مسئله رمزگذاری شکل مسطح باید به یک مسئله رمزگذاری شکل سه بعدی (3 بعدی) و عملکرد رمزگذار-رمز برای رمزگذاری اشیاء سه بعدی، از جمله ساختمان های سه بعدی و سه بعدی گسترش یابد. امتیاز، باید ارزیابی شود. (2) برای استخراج ویژگی گره‌های شکل، ویژگی‌های اضافی مستحق مطالعه هستند تا مورفولوژی و ارتباطات توپولوژیکی بین گره‌های شکل، مانند توصیف‌کننده‌های بافت شکل، به دست آید. (3) از نظر معماری یادگیری، برخی از تکنیک‌های یادگیری در حال ظهور، مانند مکانیسم‌های توجه و یادگیری تقویتی، می‌توانند برای افزایش قابلیت بازنمایی در نظر گرفته شوند.

منابع

کلاتنر، اس. ارتباط عاطفی نمادهای نقشه: تحلیل تفاضلی معنایی. ISPRS Int. J. Geo-Inf. 2020 ، 9 ، 289. [ Google Scholar ] [ CrossRef ]
کلتنر، اس. چرا شکل اهمیت دارد – در مورد کیفیت ذاتی اشکال هندسی برای نمایش های نقشه برداری. ISPRS Int. J. Geo-Inf. 2019 ، 8 ، 217. [ Google Scholar ] [ CrossRef ]
یان، ایکس. آی، تی. یانگ، م. تانگ، X. مدل رمزگذار خودکار کانولوشنال نمودار برای کدگذاری شکل و شناخت ساختمان ها در نقشه ها. بین المللی جی. جئوگر. Inf. علمی 2021 ، 35 ، 490-512. [ Google Scholar ] [ CrossRef ]
سامسونوف، تی. Yakimova، OP ساده سازی هندسی تطبیقی شکل مجموعه داده های خط ناهمگن. بین المللی جی. جئوگر. Inf. علمی 2017 ، 31 ، 1485-1520. [ Google Scholar ] [ CrossRef ]
یان، ایکس. آی، تی. Zhang، X. روش تطبیق و ساده‌سازی الگو برای ساخت ویژگی‌ها بر اساس شناخت شکل. ISPRS Int. J. Geo-Inf. 2017 ، 6 ، 250. [ Google Scholar ] [ CrossRef ]
یانگ، م. یوان، تی. یان، ایکس. آی، تی. جیانگ، سی. یک رویکرد ترکیبی برای ساده سازی ساختمان با یک ارزیاب از یک شبکه عصبی پس انتشار. بین المللی جی. جئوگر. Inf. علمی 2022 ، 36 ، 280-309. [ Google Scholar ] [ CrossRef ]
یان، ایکس. آی، تی. یانگ، م. یین، اچ. یک گراف شبکه عصبی کانولوشن برای طبقه بندی الگوهای ساختمان با استفاده از داده های برداری فضایی. ISPRS J. Photogramm. Remote Sens. 2019 ، 150 ، 259–273. [ Google Scholar ] [ CrossRef ]
یانگ، م. جیانگ، سی. یان، ایکس. آی، تی. کائو، ام. چن، دبلیو. تشخیص مبادلات در شبکه های جاده ای با استفاده از رویکرد شبکه کانولوشن گراف. بین المللی جی. جئوگر. Inf. علمی 2022 ، 36 ، 1119-1139. [ Google Scholar ] [ CrossRef ]
آی، تی. چنگ، ایکس. لیو، پی. یانگ، ام. تحلیل شکل و تطبیق الگوی ویژگی‌های ساختمان با روش تبدیل فوریه. محاسبه کنید. محیط زیست سیستم شهری 2013 ، 41 ، 219-233. [ Google Scholar ] [ CrossRef ]
فن، اچ. ژائو، ز. Li, W. به سمت اندازه گیری شباهت شکل چندضلعی ها بر اساس ویژگی های چند مقیاسی و توصیفگرهای زمینه شبکه. ISPRS Int. J. Geo-Inf. 2021 ، 10 ، 279. [ Google Scholar ] [ CrossRef ]
بلنگی، اس. مالک، ج. Puzicha، J. تطبیق شکل و تشخیص شی با استفاده از زمینه های شکل. IEEE Trans. الگوی مقعدی ماخ هوشمند 2022 ، 24 ، 509-522. [ Google Scholar ] [ CrossRef ]
مارک، DM; فرکسا، سی. هیرتل، SC; لوید، آر. Tversky، B. مدل های شناختی فضای جغرافیایی. بین المللی جی. جئوگر. Inf. علمی 1999 ، 13 ، 747-774. [ Google Scholar ] [ CrossRef ]
بسارنر، م. Cetinkaya، S. عملکرد شاخص‌های شکل و طرح‌های طبقه‌بندی برای توصیف پیچیدگی شکل ادراکی ردپای ساختمان در GIS. اینتر جی. جئوگر. اطلاعات علمی 2017 ، 31 ، 1952-1977. [ Google Scholar ] [ CrossRef ]
وی، ز. گوا، کیو. وانگ، ال. Yan, F. در مورد توزیع فضایی ساختمانها برای تعمیم نقشه. کارتوگر. Geogr. اطلاعات علمی 2018 ، 45 ، 539-555. [ Google Scholar ] [ CrossRef ]
لی، دبلیو. Goodchild، MF; چرچ، R. یک اندازه گیری کارآمد از فشردگی برای اشکال دو بعدی و کاربرد آن در مسائل منطقه بندی. بین المللی جی. جئوگر. Inf. علمی 2013 ، 27 ، 1227-1250. [ Google Scholar ] [ CrossRef ]
Akgül، CB; سنکور، بی. یمز، ی. اشمیت، اف. بازیابی مدل سه بعدی با استفاده از توصیفگرهای شکل مبتنی بر چگالی احتمال. IEEE Trans. الگوی مقعدی ماخ هوشمند 2009 ، 31 ، 1117-1133. [ Google Scholar ] [ CrossRef ]
کونتتو، آی. لپیستو، ال. راوهما، ج. Visa, A. توصیفگر فوریه چند مقیاسی برای بازیابی تصویر مبتنی بر شکل. در مجموعه مقالات هفدهمین کنفرانس بین المللی تشخیص الگو، کمبریج، انگلستان، 23 تا 26 اوت 2004. صص 765-768. [ Google Scholar ] [ CrossRef ]
ساندار، اچ. نقره ای، دی. گاگوانی، ن. تطبیق و بازیابی شکل مبتنی بر اسکلت دیکینسون. در مجموعه مقالات کنفرانس بین المللی مدل سازی شکل و کاربردها، سئول، کره، 12-15 مه 2003. صص 130-139. [ Google Scholar ] [ CrossRef ]
آرکین، ای.ام. جویدن، LP; Huttenlocher، DP; Kedem، K. Mitchell, JS یک متریک قابل محاسبه کارآمد برای مقایسه اشکال چند ضلعی. IEEE Trans. الگوی مقعدی ماخ هوشمند 1991 ، 13 ، 209-216. [ Google Scholar ] [ CrossRef ]
آدامک، تی. O’connor، NE یک روش نمایش چند مقیاسی برای اشکال غیر صلب با یک کانتور بسته منفرد. IEEE Trans. سیستم مدار. فناوری ویدئو 2004 ، 14 ، 742-753. [ Google Scholar ] [ CrossRef ]
یانگ، سی. وی، اچ. یو، کیو. روشی جدید برای تطبیق شکل جزئی 2 بعدی غیر صلب. محاسبات عصبی 2018 ، 275 ، 1160-1176 . [ Google Scholar ] [ CrossRef ]
دوست خوب، من. بنژیو، ی. کورویل، آ. یادگیری عمیق . انتشارات MIT: کمبریج، MA، ایالات متحده آمریکا، 2016; صص 505-527. [ Google Scholar ]
بی، دبلیو. گو، ام. Huang, Y. چارچوب الگوریتم تطبیقی فضایی برای ساختن تشخیص الگو با استفاده از شبکه‌های کانولوشن گراف. Sensors 2019 , 19 , 5518. [ Google Scholar ] [ CrossRef ] [ PubMed ]
دادگاهی، ع. الایدی، ع. تویا، جی. ژانگ، ایکس. بررسی پتانسیل تقسیم‌بندی یادگیری عمیق برای تعمیم جاده‌های کوهستانی. ISPRS Int. J. Geo-Inf. 2020 ، 9 ، 338. [ Google Scholar ] [ CrossRef ]
فنگ، ی. تیمن، اف. سستر، ام. یادگیری تعمیم ساختمان نقشه برداری با شبکه های عصبی کانولوشنال عمیق. ISPRS Int. J. Geo-Inf. 2019 ، 8 ، 258. [ Google Scholar ] [ CrossRef ]
زو، دی. چنگ، ایکس. ژانگ، اف. یائو، ایکس. گائو، ی. لیو، ی. درونیابی فضایی با استفاده از شبکه های عصبی متخاصم مولد شرطی. بین المللی جی. جئوگر. Inf. علمی 2020 ، 34 ، 735-758. [ Google Scholar ] [ CrossRef ]
ریتر، اس. بارت، دی جی؛ سانتورو، آ. بوتوینیک، MM روانشناسی شناختی برای شبکه های عصبی عمیق: مطالعه موردی سوگیری شکل. در مجموعه مقالات سی و چهارمین کنفرانس بین المللی یادگیری ماشین، سیدنی، استرالیا، 6 تا 11 اوت 2017؛ صص 2940-2949. در دسترس آنلاین: https://arxiv.org/abs/1706.08606 (در 12 مارس 2022 قابل دسترسی است).
لیو، سی. هو، ی. لی، ز. خو، جی. هان، ز. Guo, J. TriangleConv: یک شبکه پیچیده نقطه عمیق برای تشخیص اشکال ساختمان در فضای نقشه. ISPRS Int. J. Geo-Inf. 2021 ، 10 ، 687. [ Google Scholar ] [ CrossRef ]
هو، ی. لیو، سی. لی، ز. خو، جی. هان، ز. Guo, J. طبقه بندی شکل ردپای ساختمان چند شات با شبکه رابطه. ISPRS Int. J. Geo-Inf. 2022 ، 11 ، 311. [ Google Scholar ] [ CrossRef ]
دادگاهی، ع. تویا، جی. Zhang، X. نمایش اطلاعات جغرافیایی برداری به عنوان یک تانسور برای تعمیم نقشه مبتنی بر یادگیری عمیق. در مجموعه مقالات بیست و پنجمین کنفرانس AGILE، ویلنیوس، لیتوانی، 14 تا 17 ژوئن 2022؛ پ. 32. [ Google Scholar ] [ CrossRef ]
تویا، جی. ژانگ، ایکس. Lokhat, I. آیا یادگیری عمیق عامل جدیدی برای تعمیم نقشه است؟ بین المللی جی. کارتوگر. 2019 ، 5 ، 142-157. [ Google Scholar ] [ CrossRef ]
سلام.؛ آی، تی. یو، دبلیو. ژانگ، ایکس. یک مدل تسلیت خطی برای شناسایی الگوی فضایی در شبکه‌های خیابان شهری. بین المللی جی. جئوگر. Inf. علمی 2017 ، 31 ، 1541-1561. [ Google Scholar ] [ CrossRef ]
سوتسکور، آی. وینیالز، او. Le، QV توالی برای یادگیری توالی با شبکه های عصبی. در مجموعه مقالات بیست و هفتمین کنفرانس بین المللی سیستم های پردازش اطلاعات عصبی، مونترال، QC، کانادا، 8 تا 13 دسامبر 2014. صص 3844–3852. در دسترس آنلاین: https://arxiv.org/abs/1409.3215 (دسترسی در 24 ژوئن 2022).
هوکرایتر، اس. Schmidhuber, J. حافظه کوتاه مدت طولانی. محاسبات عصبی 1997 ، 9 ، 1735-1780. [ Google Scholar ] [ CrossRef ]
هاموند، DK; واندرگاینست، پ. Gribonval، R. موجک در نمودارها از طریق نظریه گراف طیفی. Appl. محاسبه کنید. هارمون مقعدی 2011 ، 30 ، 129-150. [ Google Scholar ] [ CrossRef ]
یانگ، آر. شما، جی. موریس، سی. رن، ایکس. همیلتون، WL; Leskovec, J. یادگیری نمایش نمودار سلسله مراتبی با ادغام متمایز. در مجموعه مقالات سی و دومین کنفرانس سیستم های پردازش اطلاعات عصبی، مونترال، QC، کانادا، 3 تا 8 دسامبر 2018؛ صص 4805-4815. در دسترس آنلاین: https://arxiv.org/abs/1806.08804 (دسترسی در 19 ژانویه 2022).
Kingma، DP; Ba, J. Adam: روشی برای بهینه سازی تصادفی. در مجموعه مقالات کنفرانس بین المللی در مورد بازنمایی های یادگیری (ICLR)، سن دیگو، کالیفرنیا، ایالات متحده آمریکا، 7 تا 9 مه 2015. در دسترس آنلاین: https://arxiv.org/abs/1412.6980 (دسترسی در 20 ژوئیه 2022).
شیلان، پ. Min، P. کژدان، م. فانک هاسر، تی. معیار شکل پرینستون. در مجموعه مقالات کنفرانس بین المللی کاربردهای مدلسازی شکل، جنوا، ایتالیا، 7-9 ژوئن 2004. صص 167-178. [ Google Scholar ] [ CrossRef ]
ون در ماتن، ال. هینتون، جی. تجسم داده ها با استفاده از t-SNE. جی. ماخ. فرا گرفتن. Res. 2008 ، 9 ، 2579-2605. در دسترس آنلاین: https://jmlr.org/papers/v9/vandermaaten08a.html (در 21 ژوئیه 2022 قابل دسترسی است).
Latecki، LJ; لاکامپر، آر. Eckhardt, T. توصیف کننده های شکل برای اشکال غیر صلب با یک کانتور بسته. در مجموعه مقالات کنفرانس بینایی کامپیوتری و تشخیص الگو، هیلتون هد، SC، ایالات متحده آمریکا، 13 تا 15 ژوئن 2000. ص 424-429. [ Google Scholar ] [ CrossRef ]

شکل 1. رمزگشاهای رمزگذار شکل که برای مدل سازی داده های مختلف اشکال دو بعدی طراحی شده اند.

شکل 2. مدل رمزگذار-رمزگشا مبتنی بر شطرنجی (PixelNet) برای رمزگذاری شکل.

شکل 3. مدل رمزگذار-رمزگشا مبتنی بر توالی (SeqNet) برای رمزگذاری شکل. برای سادگی، توالی نشان داده شده تعداد واقعی گره ها را نشان نمی دهد. با این حال، برچسب های روی شماره گره و ابعاد مقادیر واقعی استفاده شده در مدل هستند.

شکل 4. مدل رمزگذار-رمزگشا مبتنی بر نمودار (GraphNet) برای رمزگذاری شکل. برای سادگی، نمودار نشان داده شده تعداد واقعی گره ها و ویژگی ها را نشان نمی دهد. با این حال، برچسب‌های روی ابعاد ماتریس مجاورت و ویژگی‌های گره، و همچنین پارامترهای هسته پیچیدگی، مقادیر واقعی مورد استفاده در مدل هستند.

شکل 5. نمونه هایی از 10 دسته اشکال ساختمان در مجموعه داده تجربی.

شکل 6. تجسم کدگذاری شکل ساختمان تولید شده توسط چهار روش مبتنی بر یادگیری عمیق: ( الف ) GraphNet، ( ب ) SeqNet، ( c ) PixelNet، و ( d ) GAE. همان رنگ نشان دهنده همان دسته است.

شکل 7. نمونه هایی از اشکال در مجموعه داده MPEG-7.

مقالات داخلی و بین المللی

بدون دیدگاه

دیدگاهتان را بنویسید لغو پاسخ

برای نوشتن دیدگاه باید وارد بشوید.

مشاورین هوش پیروزی

کلید واژه ها:

1. مقدمه