چارچوبی برای طبقه بندی عناصر داخلی از طریق یادگیری القایی بر روی نمودارهای پلان طبقه

چکیده

این مقاله چارچوب جدیدی را برای طبقه بندی عناصر پلان طبقه و نمایش آنها در قالب برداری ارائه می کند. برخلاف رویکردهای موجود که از چارچوب‌های یادگیری مبتنی بر تصویر به عنوان اولین گام برای تقسیم‌بندی پیکسل‌های تصویر استفاده می‌کنند، ابتدا تصویر پلان طبقه ورودی را به داده‌های برداری تبدیل می‌کنیم و از یک شبکه عصبی گراف استفاده می‌کنیم. چارچوب ما شامل سه مرحله است. (1) پیش پردازش تصویر و برداری تصویر پلان طبقه؛ (2) تبدیل گراف مجاورت منطقه. و (3) شبکه عصبی گراف بر روی نمودارهای پلان طبقه تبدیل شده. رویکرد ما می‌تواند انواع مختلفی از عناصر داخلی از جمله عناصر اساسی مانند دیوارها، درها و نمادها و همچنین عناصر فضایی مانند اتاق‌ها و راهروها را به تصویر بکشد.
دوره-آموزش-حرفه-ای-gis
 علاوه بر این، روش پیشنهادی می تواند اشکال عناصر را نیز تشخیص دهد. نتایج تجربی نشان می‌دهد که چارچوب ما می‌تواند عناصر داخلی را با امتیاز F1 95٪ با مقیاس و تغییر ناپذیری چرخش طبقه‌بندی کند. علاوه بر این، ما یک مدل شبکه عصبی نموداری جدید پیشنهاد می‌کنیم که فاصله بین گره‌ها را در نظر می‌گیرد، که یک ویژگی ارزشمند داده‌های شبکه فضایی است.

کلید واژه ها:

تجزیه و تحلیل پلان طبقه ; برداری ; گراف شبکه عصبی ; داده های فضایی داخلی

1. مقدمه

پلان طبقه طرحی است که طرح کلی یک سطح خاص از یک ساختمان یا یک سازه را توصیف می کند. روش‌های مختلفی برای قالب‌بندی پلان طبقه وجود دارد، اما همه پلان‌های طبقه دارای عناصر ساختاری داخلی مانند دیوارها، پنجره‌ها، درها و پله‌ها و عناصر فضایی مانند اتاق‌ها و راهروها هستند. دیجیتالی کردن پلان های طبقه چالش برانگیز است، زیرا، در بیشتر موارد، آنها اساساً تصاویری هستند بدون اطلاعات صریح از هر شی. بنابراین استخراج ویژگی و تجزیه و تحلیل داده‌های فضایی داخلی به‌دست‌آمده از تصاویر پلان با پیش پردازش تصویر ورودی با استفاده از تکنیک‌های پردازش تصویر و سپس اعمال الگوریتم‌های آماری و تحلیلی انجام شده است. مطالعات با الگوریتم های ابتکاری منجر به دقت و دقت بالا شده است. با این حال،1 ، 2 ، 3 ، 4 ، 5 ، 6 ]. برای کاهش این محدودیت ها، رویکردهای مختلف مبتنی بر یادگیری ماشین در تحلیل پلان طبقه استفاده شده است. در میان آنها، رویکردهای مبتنی بر شبکه عصبی کانولوشن بیشتر مورد استفاده قرار گرفته‌اند، زیرا می‌توانند برای بسیاری از سبک‌های تصاویر پلان طبقه‌ای قابل اجرا باشند. رویکردهای مبتنی بر CNN فقط به یک سطح اولیه از تکنیک های پیش پردازش تصویر نیاز دارند و نسبت به نویز پلان طبقه قوی هستند. علاوه بر این، آنها را می توان برای هر سبک طراحی بدون نیاز به تغییر استفاده کرد، که آنها را کارآمد و همه کاره می کند [ 7 ، 8 ، 9 ، 10 ].
با این حال، از آنجایی که این روش‌ها تقسیم‌بندی در سطح پیکسل را انجام می‌دهند، شکل دقیق عناصر داخلی به سختی قابل ثبت است. برای غلبه بر این محدودیت، این رویکردها مراحل اضافی پس پردازشی را ادغام کرده اند که خروجی شبکه عصبی را انتزاع می کند. با این حال، این منجر به از بین رفتن ویژگی عناصر داخلی اصلی می شود، مانند نحوه بیان چند ضلعی ها به عنوان بردارهای خط. به عنوان مثال، دیوارها باید دارای ضخامت و مساحت خاص خود باشند. با این وجود، همانطور که اشکال هنگام عبور از لایه های پیچشی تار می شوند، دیوارها در نهایت به عنوان بردارهای خط توسط الگوریتم های پس پردازش ترسیم می شوند [ 7 ، 8 ]]. اگرچه انتزاع یک طرح طبقه از طریق مدل‌های مبتنی بر یادگیری ماشین ممکن است برای اهداف خاص کاربر ضروری باشد، مانند بیان مناطق قابل کشتی‌رانی در قالب IndoorGML [ 11 ]، خروجی‌های برداری که شکل تصویر پلان طبقه اصلی را دست نخورده نگه می‌دارند، می‌توانند به اشیاء مختلف بسته به هدف کاربر، با توجه به انعطاف پذیری بالا و توانایی تغییر شکل نوع داده برداری.
در این مقاله، چارچوبی را پیشنهاد می‌کنیم که بدون از دست دادن اطلاعات شکل، هر نوع عنصری را در پلان طبقه پیدا می‌کند. ابتدا تصویر پلان طبقه ورودی را بردار می کند تا شکل عناصر اصلی داخلی را حفظ کند و انتزاع را به حداقل برساند. سپس مجموعه برداری چند ضلعی به نمودار مجاورت منطقه تبدیل می شود. سپس نمودار به یک شبکه عصبی گراف مبتنی بر یادگیری استقرایی (GNN) وارد می‌شود که برای مقایسه نمودارهای چند طبقه و انجام طبقه‌بندی گره‌ها با تجزیه و تحلیل ویژگی‌های ذاتی و روابط بین گره‌ها استفاده می‌شود. این به کاربر اجازه می دهد تا عناصر اصلی داخلی (به عنوان مثال، دیوارها، پنجره ها، درها، و غیره) و نمادها را همراه با عناصر فضایی (مانند اتاق ها، راهروها یا فضاهای بیرونی)، بدون از دست دادن شکل و ویژگی های آریالی خود طبقه بندی کند. علاوه بر این، یک مدل جدید GNN، شبکه عصبی نمودار وزنی فاصله (DWGNN)، ارائه شده است. مطابق قانون اول جغرافیا [12 ]، به گره های همسایه ای که نزدیک به یک گره هدف هستند، باید مقادیر توجه نسبتاً بالایی در مقایسه با همسایگانی که از گره هدف دور هستند، داده شود. برای انجام این کار، یک مدل GNN ایجاد کردیم که مقادیر توجه را به همسایگان در زیرگراف همسایه گره هدف اختصاص می‌دهد. DWGNN اطلاعات فاصله بین گره ها را که با ویژگی های لبه بیان می شود در شبکه فضایی (گراف) در نظر می گیرد. برای ارزیابی عملکرد و بیان چارچوب پیشنهادی جدید تجزیه و تحلیل پلان طبقه، آن را روی دو مجموعه داده پلان طبقه و یک مجموعه داده افزوده شده با داده اعمال کردیم.
ساختار باقی مانده مقاله به شرح زیر است. در بخش 2 ، ما محدودیت های تحقیقات قبلی مربوط به تجزیه و تحلیل پلان طبقه، به ویژه در مورد طبقه بندی عناصر داخلی با استفاده از روش های مبتنی بر قانون و رویکردهای یادگیری ماشین را مورد بحث قرار می دهیم. در بخش 3 ، بر اساس محدودیت های توصیف شده، ما چارچوبی را برای طبقه بندی عناصر پلان طبقه از طریق GNN پیشنهاد می کنیم. در نهایت، نتایج را بر روی سه مجموعه داده تجزیه و تحلیل می کنیم و مسائل و تحقیقات بیشتر را مورد بحث قرار می دهیم.

2. آثار مرتبط

2.1. روش‌های اکتشافی مبتنی بر قانون و الگوریتم‌های یادگیری ماشین در تحقیقات تحلیل پلان طبقه

شناسایی و طبقه بندی عناصر یا نواحی اساسی پلان طبقات سال هاست که با رویکردهای مختلف مورد مطالعه قرار گرفته است. رویکردهای اکتشافی مبتنی بر قانون از روش‌های مبتنی بر پردازش تصویر، مانند فیلتر مورفولوژیکی [ 1 ، 6 ]، تبدیل Hough [ 2 ، 4 ]، تشخیص متن/گرافیک [ 3 ، 4 ] یا استفاده از الگوریتم‌های نمودار [ 5 ، 13 ] استفاده می‌کنند. . اگرچه آنها خروجی های معناداری را نشان داده اند، رویکردهای اکتشافی مبتنی بر قاعده برای حفظ اشکال عناصر تلاش می کنند و فقط می توانند برای سبک های طراحی خاص اعمال شوند.
برای اجتناب از این اکتشافی‌های وابسته به سبک و کلیت بیانی در میان سبک‌های مختلف طراحی، رویکردهایی با استفاده از الگوریتم‌های یادگیری ماشین پدید آمده‌اند. د لاس هراس و همکاران [ 7] از یک الگوریتم یادگیری ماشین برای شناسایی عناصر داخلی استفاده کرد و سپس خروجی را به داده برداری تبدیل کرد. با استناد به این محدودیت که روش‌های مبتنی بر قوانین موجود موقتی هستند و فقط برای سبک‌های طراحی خاص قابل اجرا هستند، آنها یک روش خودکار ارائه کردند که مرزهای اتاق را در پلان‌های طبقات غیرمتغیر با سبک نقشه‌ها تشخیص می‌داد. آنها از یک کیسه ماشین بردار پشتیبانی از کلمات بصری (SVM-BOVW) برای تشخیص مرزهای پیکسلی عناصر ساختاری که شامل دیوارها، درها و پنجره ها می شود، استفاده کردند و سپس داده های برداری را ایجاد کردند. علاوه بر این، مدل با یافتن مناطق بسته احاطه شده توسط بردارهای عناصر ساختاری، مرزهای اتاق را در پلان طبقه تشخیص می دهد. لیو و همکاران [ 8] به یک CNN آموزش داد تا اتصالات، مانند گوشه های دیوار، را در یک پلان طبقه شناسایی کند و از برنامه ریزی اعداد صحیح برای استخراج داده های برداری با ترکیب اتصالات برای ساختن موارد اولیه ساده مانند دیوارها و پنجره ها استفاده کرد. علاوه بر این، آنها فضاهایی با ترکیبات بسته از بدوی ساده پیدا کردند. با این حال، همه عناصر عمودی و افقی در نظر گرفته شدند، بنابراین اشکال عناصر را ثابت نکردند و در نتیجه به شکل‌های ابتدایی تا حد زیادی انتزاعی، مانند بیان دیوارها با بردارهای خط، منجر شد. دوج و همکاران [ 9 ] از شبکه‌های کاملاً متصل (FCN) و سریع‌تر R-CNN برای تقسیم‌بندی دیوارها و شناسایی اشیاء به ترتیب در پلان‌های طبقه با سبک‌های مختلف طراحی استفاده کرد. آن‌ها همچنین از OCR استفاده کردند تا بتوانند اندازه اتاق‌ها را تشخیص دهند و مدل‌های مبلمان را متناسب با صحنه قرار دهند. زنگ و همکاران [ 10] روشی را پیشنهاد کرد که با آموزش رمزگذار-رمزگر VGG، دیوارها، درها، پنجره‌ها و اتاق‌ها را شناسایی و طبقه‌بندی می‌کند. بر خلاف [ 8 ]، روش آنها برای عناصر شکل غیر مستطیلی قابل استفاده است و قادر است ویژگی های شکل عناصر داخلی را به دست آورد. علاوه بر این، آنها از مکانیزم توجه برای واحدهای رمزگشا استفاده کردند. دو رمزگشا مقادیر توجه را برای پیش بینی مرز و نوع اتاق ها به اشتراک می گذارند. با این حال، روش آنها تنها به چند کلاس محدود می شود، که به عنوان یک طرح برای کمک به رمزگشا برای یافتن مرزهای اتاق استفاده می شود. این مرزها در نهایت تحت یک طبقه قرار می گیرند.
تجزیه و تحلیل پلان طبقه با استفاده از الگوریتم های یادگیری ماشین پتانسیل زیادی را در مجموعه داده های مختلف پلان طبقه نشان داده است، اما با این حال، هر رویکرد محدودیت ها و کاستی های خاص خود را دارد. مدل‌هایی که بر روی مجموعه داده‌های پلان طبقه ورودی مختلف آموزش داده شده‌اند، ممکن است سازگاری بالایی داشته باشند، اما خروجی‌های آنها ممکن است تار باشد زیرا آنها تقسیم‌بندی در سطح پیکسل را انجام می‌دهند. این باعث ایجاد مشکلاتی در خروجی می شود، مانند خطوط غیر متصل، که منجر به بردارهای بسته نمی شود. در بسیاری از موارد، تشخیص و شناسایی اتاق به شدت به عناصر سازه ای در پلان طبقه، مانند دیوارها، درها و/یا پنجره ها بستگی دارد و اگر این عناصر ساختاری دارای مسائل بسته باشند، به طور قابل توجهی بر روند تشکیل اتاق تأثیر می گذارد. زیرا عناصر ممکن است اطلاعات شکل خود را در طول فرآیند برداری از دست بدهند [ 7 ، 8]، برخی از رویکردها این فرآیند را به منظور ایمن سازی ویژگی های شکل حذف می کنند [ 9 ، 10 ]. علاوه بر این، هیچ یک از رویکردهایی که بر شناسایی عناصر ساختاری و عناصر فضایی متمرکز شده‌اند، عناصر نمادین مانند کابینت، حمام، یا توالت و غیره را در نظر نمی‌گیرند.

2.2. شبکه عصبی نمودار (Gnn) و تحلیل پلان طبقه با استفاده از Gnn

یک ساختار داده گراف از مجموعه محدودی از گره ها (راس) و یال ها (پیوندها) تشکیل شده است. یک گره نشان دهنده یک موجودیت است و یک لبه نشان دهنده رابطه بین دو گره است. نمودارها اغلب به عنوان ساختارهای داده غیر اقلیدسی نامیده می شوند، زیرا آنها به هیچ بعد خاصی محدود نمی شوند. الگوریتم‌های یادگیری عمیق موجود که برای ساختارهای داده اقلیدسی اعمال می‌شوند، عملکرد بسیار خوبی از خود نشان داده‌اند. با این حال، مدل‌های یادگیری عمیق موجود قادر به یادگیری نمودارها نیستند زیرا جایگشت بین گره‌ها می‌تواند به روش‌های مختلفی ظاهر شود. بر این اساس، GNN ها [ 14 ، 15 ] برای توصیف راهی برای بیان ترتیب گره ها و اجازه دادن به شبکه عصبی برای یادگیری ساختار داده های گراف ابداع شده اند.
در سال های اخیر، GNN ها دستخوش تغییرات متعددی از تعریف اولیه شده اند. کیپف و همکاران [ 16 ] شبکه‌های پیچیدگی گراف (GCN) را برای استفاده از عملیات پیچیدگی بر روی نمودارها با به‌روزرسانی بردار نهفته گره‌ها با استفاده از یک ماتریس نرمال لاپلاسی به عنوان ماتریس مجاورت گراف ورودی معرفی کرد. همیلتون و همکاران [ 17 ] GraphSAGE را پیشنهاد کرد و نشان داد که نتایج بردار نهفته پیامد با توابع مختلف AGGREGATE متفاوت است، و این مفهوم را برای اجرای یادگیری استقرایی برای آموزش مدل نه با نمودارهای منفرد، بلکه چندگانه به کار برد. خو و همکاران [ 18] دریافت که مدل‌های GNN را نمی‌توان به درستی آموزش داد و مدل جدیدی به نام شبکه ایزومورفیسم گراف (GIN) معرفی کرد که می‌تواند به اندازه تست WL که یک تست هم‌شکلی برای ساختار گراف است، انجام دهد. آنها همچنین وظایف مرتبط با گراف را طبقه بندی کردند که می توانند به طور مناسب با توجه به روش های AGGREGATE اعمال شوند.
یک GNN می تواند مسائل مختلف دنیای واقعی را تحلیل کند. با توجه به ویژگی‌های ذاتی‌شان، می‌توان آن‌ها را به‌عنوان یک نمودار نشان داد و GNN آن‌ها را به‌عنوان ورودی برای تحلیل و پیش‌بینی استفاده می‌کند. پلان طبقه را می توان با در نظر گرفتن نواحی سلولی به عنوان گره و ساختن یک ماتریس مجاورت بر اساس مجاورت میان نواحی پلان طبقه، به نمودار تبدیل کرد. الگوریتم‌ها و تحلیل‌های مختلف نمودار برای نمودارهای پلان طبقه استفاده شده‌اند. به طور خاص، نمودارهای پلان طبقه به طور گسترده در زمینه تحقیقات طراحی پلان طبقه استفاده شده است، که اخیرا روش های مختلف را با استفاده از GNN مورد مطالعه قرار داده است. به عنوان مثال، یک چارچوب تولید خودکار برای طراحی پلان طبقه با استفاده از GNN توسط Hu و همکاران ارائه شد. [ 19]. هنگامی که نوبت به شناسایی و طبقه بندی نمادها یا عناصر داخلی می رسد، رنتون و همکاران. [ 20] از GNN برای طبقه بندی نمادها در پلان طبقه استفاده کرد. آنها تصاویر پلان طبقه را از قبل پردازش کردند و مرکز مناطق احاطه شده توسط پیکسل های سیاه را به عنوان گره در نظر گرفتند. سپس یک نمودار مجاورت منطقه با اتصال گره هایی که یک خط پیکسل مشترک دارند ساخته می شود. سپس، نمودار پلان طبقه به یک مدل GNN به عنوان نمودار ورودی وارد می شود و یک نمودار به دست می آید که در آن گره ها بر اساس وابستگی های محلی خود طبقه بندی شده اند. این مطالعه اولین مطالعه ای است که از GNN برای طبقه بندی نمادها در تصاویر پلان طبقه استفاده می کند. با این حال، فقط نمادها و اشیاء را هدف قرار داد، به استثنای دیوارها و اتاق ها، که مهمترین عناصر تصاویر پلان طبقه هستند. علاوه بر این، خروجی نهایی رویکرد محدود به نمودارهایی است که فقط کلاس‌های نماد را نشان می‌دهند و برای استفاده به خروجی فرمت برداری تبدیل نمی‌شوند.
دوره-آموزش-حرفه-ای-gis

3. مواد و روشها

برای غلبه بر محدودیت های شرح داده شده در مطالعات قبلی در مورد استخراج عناصر پلان طبقه و وظایف طبقه بندی، الزامات زیر تعریف شد.
(1)
چارچوب باید عناصر فضایی مانند اتاق ها را به همراه عناصر اصلی (دیوارها، درها و غیره) و نمادها شناسایی و طبقه بندی کند.
(2)
چارچوب باید با داده های شطرنجی شروع شود و داده های برداری خروجی بدون انتزاع شکل را حفظ کند.
(3)
چارچوب باید یادگیری استقرایی را با جدا کردن مجموعه‌ای از نمودارها با انواع و اندازه‌های مختلف در واحدهای نمودار انجام دهد، نه یادگیری انتقالی که با یک گراف بزرگ سر و کار دارد.
برای برآورده ساختن این الزامات، توسعه و گسترش ایده های مورد استفاده در [ 20 ]، ما چارچوب جدیدی را به شرح زیر پیشنهاد می کنیم. تصویر پلان طبقه شطرنجی به عنوان داده ورودی به چارچوب داده می شود. تصویر ابتدا از قبل پردازش می شود تا یک تصویر باینریزه به دست آید تا بردار شود. مناطق بسته در تصویر پس از فرآیند برداری به چند ضلعی تبدیل می شوند. پس از آن چند ضلعی های دارای ویژگی های شکل به یک نمودار مجاورت منطقه (RAG) با توجه به رابطه مجاور آنها با چند ضلعی های همسایه تبدیل می شوند. سپس RAG برای آموزش مدل GNN وارد شبکه عصبی می شود. خروجی نهایی فریم ورک مجموعه ای از چند ضلعی ها با کلاس های مختلف است. نمای کلی چارچوب پیشنهادی در شکل 1 نشان داده شده است .

3.1. پیش پردازش و برداری تصویر

مرحله پیش پردازش ممکن است بسته به سبک چیدمان پلان های طبقه متفاوت باشد، اما بیشتر شامل حذف متن و باینری سازی است. سه کانال تصویر پلان طبقه ورودی (قرمز، آبی و سبز) در یک کانال ادغام شده و باینری می شوند. اطلاعات متنی با استفاده از الگوریتم OCR حذف می شود. سپس تصویر پردازش شده بردار می شود. دی [ 6] فرض می شود که فقط دیوارها به صورت خطوط سیاه ضخیم در طرح پلان به تصویر کشیده می شوند. بنابراین، خطوط ضخیم و نازک را می توان با استفاده از تبدیل مورفولوژیکی تشخیص داد و خطوط ضخیم را می توان به عنوان دیوار در نظر گرفت. با این حال، این رویکرد را فقط می توان برای سبک های پلان طبقه خاص اعمال کرد، زیرا در بسیاری از موارد، دیوارها را می توان به عنوان مناطق سفید نشان داد. برای بردار کردن تصویر بدون توجه به سبک طراحی پلان، ما انتخاب کردیم که مناطق سفید و سیاه را به طور جداگانه بردار کنیم.
روند دقیق به شرح زیر است. یک ناحیه بسته که توسط پیکسل های سیاه در تصویر احاطه شده است به یک شی چند ضلعی تبدیل می شود. به همین ترتیب، مجموعه ای از چند ضلعی ها از تمام مناطق سفید بسته در پلان تولید می شود ( شکل 2 ج). اگر چیدمان پلان طبقه شامل مناطق سیاه باشد، چند ضلعی خالی با اندازه پلان طبقه ( شکل 2 ب) عملیات تفاوت را در مجموعه چند ضلعی سفید انجام می دهد. این مجموعه دومی از چند ضلعی ها را ایجاد می کند که نواحی سیاه را در پلان طبقه نشان می دهد ( شکل 2د). از آنجایی که ما تصویر را باینریزه کردیم، تنها دو رنگ در تصویر وجود دارد که این امکان را فراهم می‌کند که هر ناحیه از تصویر را بدون توجه به سبک طراحی یا طرح‌بندی به چند ضلعی تبدیل کنیم. در نهایت، دو مجموعه چند ضلعی ادغام می شوند و مجموعه کامل چند ضلعی ها ایجاد می شود ( شکل 2 e). در طی این فرآیند، مناطق اشغال شده توسط خطوط پیکسلی که چند ضلعی ها را احاطه کرده اند، در چند ضلعی ها گنجانده نمی شوند. بنابراین، چند ضلعی ها با ضخامت خط پیکسل قبل از اجرای عملیات تفاوت بافر می شوند ( شکل 2 f). بافر کردن چند ضلعی بسیار مهم است زیرا، اگر چند ضلعی ها از یکدیگر جدا شوند، هنگام ساخت نمودار مجاورت، عملیات مجاورت نادرست برمی گردد. در نظر گرفتن ضخامت خط پیکسل t، پارامتر فاصله بافر به عنوان انتخاب می شود تی/2، زیرا هر خط پیکسل باید توسط دو چند ضلعی از دو جهت پوشانده شود.

3.2. تبدیل نمودار مجاورت منطقه (Rag) و استخراج ویژگی

الگوریتم 1 فرآیند تبدیل RAG را توصیف می کند. ابتدا یک نمودار خالی G ایجاد می شود و برای هر عنصر چند ضلعی p در مجموعه چند ضلعی P ، مرکز چند ضلعی p ( vپ) به عنوان یک گره اضافه می شود. برای ساختن مجموعه لبه های G ، p یک عملیات INTERSECTS را روی چند ضلعی دیگر اجرا می کندq∈پ،q≠پ. با بقیه عناصر چند ضلعی در P ، p باید عملیات INTERSECTS را اجرا کند|پ|-1بار، و تعداد تکرارها برای P به صورت تصاعدی با تعداد گره ها افزایش می یابد. برای کاهش تعداد تکرارها و پیچیدگی، به جای دو حلقه تو در تو، از STRtree [ 21 ] استفاده کردیم که یک الگوریتم نمایه سازی فضایی بر اساس درخت R است . درخت یک مجموعه چند ضلعی Q حاصل را برمی گرداند زمانی که p از INTERSECTS سایر اشیاء فضایی پرس و جو کند . اگر یک عنصر چند ضلعی q در Q باشد و مساحت q بزرگتر از پارامتر مساحت حداقل m باشد ، یال بین vپو vqبه مجموعه لبه E اضافه می شود . با استفاده از STRtree ، پیچیدگی زمانی فرآیند تبدیل RAG کاهش می یابد O(n2)به O(nورود به سیستممترn). n تعداد چند ضلعی ها (گره ها) و m تعداد ورودی های درخت است.

الگوریتم 1: تبدیل RAG
Ijgi 10 00097 i001

نمودار ساخته شده جی=(V،E)از مجموعه گره تشکیل شده است Vو لبه مجموعه E، که نشان دهنده رابطه مجاور بین گره ها در طرح پلان طبقه است. یک گره چند ضلعی vپبه عنوان مرکز p شناخته می شود و بردار ویژگی منحصر به فرد خود را دارد ایکسvپ∈ایکسv. ایکسvماتریس ویژگی G است که اندازه آن تعداد است Vو بعد بردار ویژگی گره دv. هپqعنصری از مجموعه لبه E است که نحوه گره های چند ضلعی را نشان می دهد vپو vqبه یکدیگر متصل هستند. یک لبه نیز بردار ویژگی خاص خود را دارد ایکسهپq∈ایکسه. هر بردار ویژگی لبه دارد دهامکانات. اگر ده=1، ویژگی لبه را به عنوان مقدار وزن بین دو گره در نظر می گیریم. RAG G ساخته شده به شرح زیر است:

جی=(V،E،ایکسv،ایکسه).
در چارچوب، ما از چهار ویژگی برای ایکسvو یک ویژگی واحد برای ایکسه(مقدار وزنی). بردار ویژگی گره برای گره vپ( ایکسvپ∈ایکسv) شامل مساحت p ، درجه گره، ممان مرکزی نرمال شده مرتبه 1 و 1 برای چند ضلعی، و ممان زرنیک [ 22 ] از مرتبه 4 و تکرار 2 است. ایکسvپ∈آر4). دو ممان مورد استفاده مقیاس و چرخش ثابت هستند. بردار ویژگی لبه ایکسهپq∈ایکسهاز فاصله اقلیدسی بین دو گره آن تشکیل شده است (vپ،vq). ویژگی های لبه از پارامتر ابعاد ویژگی لبه به عنوان وزن های G در نظر گرفته می شوندده=1. مجموعه چند ضلعی P و RAG G برای هر طرح پلان طبقه در مجموعه داده ها ساخته می شوند. در بخش بعدی، مدل‌های مختلف GNN را برای طبقه‌بندی کلاس‌های چندضلعی در P با استفاده از G توضیح خواهیم داد.

3.3. مدل های شبکه عصبی نموداری

یک GNN پیش‌بینی‌هایی را بر روی وظایف مختلف انجام می‌دهد، مانند طبقه‌بندی گره، پیش‌بینی لبه و طبقه‌بندی گراف. مانند سایر مدل‌های یادگیری عمیق، یک بردار جاسازی منحصر به فرد از هر موجودیت در مجموعه داده هدف استخراج می‌کند و شباهت آن را با سایر بردارهای جاسازی مقایسه می‌کند تا نتیجه را تا حد امکان نزدیک به داده‌های برچسب پیش‌بینی کند. دامنه مورد علاقه GNN متفاوت است، از جمله گره ها، لبه ها، نمودارها و زیرگراف ها [ 23 ]. GNN ماتریس مجاورت A و ماتریس ویژگی X از گراف هدف را به عنوان ورودی می گیرد. A نشان دهنده رابطه بین گره ها و X استبردار ویژگی را برای هر گره در نمودار هدف نگه می دارد. اگر ویژگی ها در لبه ها یافت شوند، می توان آنها را به مقدار A اضافه کرد یا به عنوان یک ماتریس ویژگی لبه جداگانه در نظر گرفت.

GNN چندین لایه دارد و هر لایه از توابع AGGREGATE و UPDATE تشکیل شده است. تابع AGGREGATE اطلاعاتی را که از گره های همسایه به دست می آید را جمع می کند و پیامی را برمی گرداند. تابع UPDATE بردار تعبیه گره هدف و پیام را برای به روز رسانی بردار جاسازی پنهان جدید گره هدف ترکیب می کند. این فرآیند را ارسال پیام می نامند. فرآیند انتشار رو به جلو یک مدل GNN وانیلی برای تولید بردار تعبیه‌شده جدید گره v در لایه k می‌تواند به صورت زیر باشد [ 24 ]:

ساعتن(v)ک=تجمیعک({ساعتتوک-1،∀تو∈ن(v)})ساعتvک=به روز رسانیکساعتvک-1،ساعتن(v)ک،

جایی که ن(v)مجموعه گره های مجاور v و استساعتتوک-1بردار تعبیه نهفته است تو∈ن(v)در لایه ک-1. تجمیعکبردارهای جاسازی شده را جمع می کند تا پیام را برگرداند مترن(v)ک. به روز رسانیکطول می کشد مترن(v)کبا ساعتvک-1، که بردار جاسازی گره v در لایه است ک-1به عنوان ورودی و بردار تعبیه گره v را در لایه k ایجاد می کند. هر دو تجمیعکو به روز رسانیکتوابع قابل تمایز دلخواه در لایه k (یعنی شبکه های عصبی) هستند. بسته به وظیفه ای که مدل می خواهد حل کند، این دو تابع را می توان به روش های مختلفی تعریف کرد. تعریف تابع AGGREGATE به گره‌های همسایه اجازه می‌دهد تا تعیین کنند که چگونه بر گره هدف تأثیر می‌گذارند، و تابع UPDATE نحوه ترکیب پیام و بردار جاسازی گره هدف لایه قبلی و نحوه تولید بردار جاسازی را تعیین می‌کند.

هدف ما طبقه‌بندی گره‌های چند ضلعی با استخراج بردارهای تعبیه پنهان برای هر گره در نمودار پلان طبقه‌بندی است که به عنوان یک وظیفه طبقه‌بندی گره طبقه‌بندی می‌شود. عملکرد یک مدل GNN برای طبقه بندی گره ها به شدت به ساختار شبکه آن بستگی دارد، نه تنها با توجه به توابع مورد استفاده برای AGGREGATE و UPDATE، بلکه با توجه به تعداد لایه ها. با افزایش تعداد لایه ها، اطلاعات گره همسایگی گسترده تر می شود. این شبیه به میدان پذیرنده یک پیکسل هدف در CNN است. با افزایش تعداد لایه ها، میدان پذیرنده گسترده می شود.

3.3.1. یک نوع GNN برای یادگیری استقرایی روی نمودارها

بیشتر مدل‌های GNN یک گراف بزرگ مانند یک شبکه اجتماعی را هدف قرار می‌دهند که بر تولید گره‌های جاسازی شده از یک گراف ثابت متمرکز است. با این حال، از نقطه نظر کاربرد دنیای واقعی، یک مدل GNN که بردارهای جاسازی شده برای گره‌های دیده نشده، یا نمودارهای کاملاً جدید را تولید می‌کند، مورد نیاز است [ 17 ]. شکل 3تفاوت بین یادگیری انتقالی و یادگیری استقرایی را در نمودارها توضیح می دهد. مطالعه ما همچنین به مدل GNN یادگیری القایی نیاز داشت زیرا مجموعه داده های پلان طبقه عمدتاً از پلان های مختلف طبقه تشکیل شده است و هر پلان طبقه به یک نمودار منحصر به فرد تبدیل می شود. یادگیری استقرایی امکان پیش‌بینی در این نمودارهای کاملاً دیده نشده را فراهم می‌کند. ما مدل GNN مبتنی بر یادگیری استقرایی را بر روی نمودارهای پلان طبقه مجموعه آموزشی آموزش دادیم، و مدل کلاس‌های گره‌ها را در نمودارهای طرح طبقه مجموعه آزمایشی پیش‌بینی کرد.

بسیاری از مدل های GNN مبتنی بر فضایی موجود، مدل های GNN مبتنی بر یادگیری انتقالی هستند [ 16 ، 18 ]، در حالی که GraphSAGE [ 17 ] بر اساس یادگیری استقرایی است. GraphSAGE یک چارچوب استقرایی کلی برای تولید بردارهای نهفته جاسازی گره های کاملاً نادیده است. در مدل GraphSAGE که از لایه های K تشکیل شده است، الگوریتم تولید بردار جاسازی گره v در لایه k به شرح زیر است:

ساعتن(v)ک=تجمیعک({ساعتتوک-1،∀تو∈ن(v)})ساعتvک=σدبلیوک·CONCAT(ساعتvک-1،ساعتن(v)ک)،

جایی که دبلیوکیک ماتریس پارامتر وزن است که باید آموزش داده شود و σیک تابع فعال سازی غیر خطی است (به عنوان مثال، تابع سیگموئید). تابع UPDATE در GraphSAGE یک تابع الحاق ضرب در ماتریس وزن است.

بردار اولیه گره v بردار ویژگی گره ورودی است، و با افزایش تعداد لایه ها، بردار جاسازی گره v اطلاعاتی را که از همسایگان دورتر می آید نگه می دارد. این بدان معناست که اگر ک=0، ساعتv0است ایکسv∈ایکسv، و ساعتvکتمام اطلاعات همسایه های داخل K- hops از v را در نمودار جمع می کند. همیلتون و همکاران [ 17 ] تفاوت عملکرد را در میان توابع مختلف AGGREGATE نشان داد. برای تابع AGGREGATE، آنها از عملگر MEAN (مشابه GCN [ 16 ])، یک لایه LSTM و یک تابع POOL بر اساس عملگر MAX با پارامتر ماتریس وزن استفاده کردند. بر خلاف دیگران، LSTM تغییر ناپذیر نیست، اما عملکرد و بیان قوی را نشان می دهد زیرا شبکه های عصبی اضافی را آموزش می دهد [ 17 ].

3.3.2. یک مدل GNN برای استفاده از ویژگی وزن فاصله

نموداری که یک مثال واقعی را توصیف می کند ممکن است نه تنها ویژگی های گره، بلکه ویژگی های لبه را نیز داشته باشد. در شبکه های فضایی، فاصله بین دو گره را می توان به عنوان یک ویژگی لبه یا مقدار وزن نمودار [ 25 ] بیان کرد. مقادیر وزن لبه یک ویژگی مهم است زیرا رابطه بین گره ها را در یک نمودار فضایی توصیف می کند. طبق قانون اول جغرافیا، گره‌های همسایه که نزدیک به یک گره هدف هستند، باید در مقایسه با سایر همسایه‌هایی که از گره هدف دور هستند، ارزش‌های توجه نسبتاً بالایی داشته باشند [ 12 ].
با این حال، بیشتر مدل‌های GNN موجود از ویژگی لبه در شبکه‌های خود استفاده نمی‌کنند. مطالعاتی که از ویژگی لبه در وظایف طبقه‌بندی گره و نمودار استفاده کرده‌اند، بر ویژگی‌های چند بعدی تمرکز کرده‌اند، نه ویژگی‌های تک بعدی مانند مقادیر وزن در شبکه‌های فضایی [ 26 ، 27 ]. گلیمر و همکاران [ 26 ] مدلی را پیشنهاد کرد که از ویژگی های لبه در فرآیند ارسال پیام استفاده می کند. با این حال، مدل آنها بسیار کلی است، زیرا تابع پیام است متیروش خاصی نیست و می تواند هر تابعی باشد. یک مدل GNN که بتواند شبکه‌های فضایی متشکل از گره‌ها و وزن‌های فاصله را مدیریت کند، مورد نیاز است.

ما یک مدل GNN مبتنی بر یادگیری القایی جدید به نام شبکه عصبی نمودار وزنی فاصله (DWGNN) پیشنهاد می‌کنیم. DWGNN یک مدل مبتنی بر GraphSAGE است که در آن مکانیسم ویژگی لبه در فرآیند ارسال پیام اعمال می‌شود. نمودار هدف آن یک شبکه فضایی را نشان می دهد که در آن فاصله بین گره ها یک مقدار وزن یک بعدی است. هنگامی که DWGNN اطلاعات همسایه را جمع می کند، مقادیر توجه را به بردارهای تعبیه شده گره های همسایه با توجه به فاصله نسبی از گره هدف اختصاص می دهد. روند به روز رسانی DWGNN به شرح زیر است.

ساعتن(v)ک=تجمیعک(دبلیو0ک·(ساعتتوک-1⊙سافت مین(هن(v))تو)،∀تو∈ن(v))ساعتvک=σ(دبلیو1ک·(ساعتvک-1+ساعتن(v)ک))،

جایی که هن(v)بردار وزن فاصله گره v و مجموعه گره همسایه آن است ن(v)و ⊙ نشان دهنده ضرب عنصر است. Softmin تابعی است که هر عنصر را تبدیل می کند هن(v)به ارزش توجه به صورت زیر تعریف می شود

سافت مین(ایکسمن)=هایکسپ(-ایکسمن)∑jهایکسپ(-ایکسj).
مشابه تابع softmax که هر عنصر از بردار ورودی را به مقداری بین تبدیل می کند [0،1]و مجموع همه مقادیر تبدیل شده برابر با 1 است، مانند یک مقدار احتمال، تابع softmin یک بردار نرمال شده را برمی گرداند که در آن هر عنصر اگر مقدار وزن آن نسبتاً کوچکتر از سایر عناصر باشد، مقدار توجه بیشتری را دریافت می کند. این به گره های مجاور نزدیک ارزش توجه بیشتری نسبت به گره های دور از هم اختصاص می دهد. علاوه بر این، مانند GraphSAGE، تابع AGGREGATE DWGNN را می توان بین توابع مختلف مانند SUM، MEAN، MAX و LSTM انتخاب کرد. روند به روز رسانی DWGNN در شکل 4 نشان داده شده است . اگر وزن ها نقش مهمی در یک شبکه فضایی ایفا کنند، DWGNN می تواند یک مدل GNN مناسب برای تجزیه و تحلیل چنین نمودارهایی باشد.

4. نتایج

4.1. مجموعه داده ها

برای آزمایش و ارزیابی چارچوب پیشنهادی، آزمایش‌هایی را روی دو معیار پلان طبقه مختلف، همراه با یک مجموعه داده افزوده شده انجام دادیم. ما از مجموعه داده های پلان طبقه که در کارهای قبلی استفاده شده بود استفاده نکردیم، زیرا تصاویر شطرنجی آنها نویز زیادی داشت و/یا وضوح بسیار پایین بود (به عنوان مثال، R2V [ 8 ]، RF-P [ 9 ]) یا قادر نبود. به دست آید (ILPIso [ 20 ]). ما مسائل مربوط به کاربرد را به طور مفصل در بخش 5 مورد بحث قرار خواهیم داد. در ادامه، به دو مجموعه داده پلان طبقه متفاوتی که در آزمایش‌ها استفاده کردیم، خواهیم پرداخت. هر دو مجموعه داده از کلاس های ساختاری پایه و کلاس های عناصر فضایی همراه با کلاس شی تشکیل شده اند. کلاس آبجکت شامل مبلمان و تأسیسات مختلفی است که در یک محیط داخلی مانند کابینت، صندلی یا توالت قرار می گیرند. هر شی دیگری که در یک دسته ساختاری یا فضایی نباشد به کلاس شی اختصاص داده می شود.
CubiCasa5K [ 28] (CubiCasa) مجموعه داده شامل 5000 پلان طبقه آپارتمان مختلف است. کیفیت تصاویر پلان زمین از تصاویر تمیز و بدون نویز گرفته تا تصاویر خط خورده یا نویزدار متفاوت است. آنها به سه دسته تقسیم می شوند: کیفیت بالا، کیفیت معماری بالا و رنگارنگ. ما از تصاویر پلان طبقه با برچسب‌گذاری شده با فرمت SVG که توسط کارشناسان به صورت دستی حاشیه‌نویسی شده‌اند، به عنوان داده‌های ورودی، با تبدیل آنها به داده‌های تصویر شطرنجی استفاده کردیم. بعد از اینکه چند ضلعی ها را بردار کردیم، چند ضلعی ها را به هشت کلاس طبقه بندی کردیم: چهار کلاس عناصر ساختاری (دیوارها، پنجره ها، درها و پله ها)، سه کلاس عنصر فضایی (اتاق ها، ایوان ها و فضای بیرونی)، و کلاس شی شامل: نمادهای مختلف ما 400 تصویر پلان طبقه با کیفیت بالا را انتخاب کردیم و آنها را به طور مساوی به مجموعه های آموزشی و آزمایشی تقسیم کردیم.
مجموعه داده‌های دانشگاه سئول (UOS) که شامل پلان‌هایی برای هفت طبقه از ساختمان قرن بیست و یکم در دانشگاه سئول است، برای ارزیابی اینکه آیا این چارچوب برای داده‌های پلان زمین بزرگ به همراه موارد نسبتاً کوچک، مانند CubiCasa5K قابل اجرا است یا خیر، استفاده شد. ما داده های پلان طبقه CAD را به داده های شطرنجی صادر کردیم. ما عناصر پلان‌های برداری را به نه کلاس طبقه‌بندی کردیم: پنج کلاس عناصر ساختاری (شامل آسانسور)، سه کلاس عنصر فضایی (اتاق‌ها، راهروها و اتاق‌های X)، و کلاس شی. اگرچه تعداد پلان ها به دلیل مسائل امنیتی محدود است، اگر چارچوب قادر به تعمیم و طبقه بندی عناصر داخلی در UOS باشد، می توان گفت که چارچوب با تعداد کمتری از پلان های طبقه به خوبی کار می کند. ما از یک استراتژی اعتبارسنجی متقابل هفت برابری استفاده کردیم. هر جلسه شامل شش برنامه آموزشی و یک برنامه برای آزمون بود. میانگین نتیجه نهایی در هر هفت جلسه بود.

4.2. مدل های GNN

ما چهار مدل GNN را برای مقایسه عملکرد پیاده‌سازی کردیم. ما آزمایش‌های یادگیری استقرایی را تحت شرایط و تنظیمات یکسان انجام دادیم. در زیر مدل های استفاده شده GNN آورده شده است.
(1)

GCN [ 16 ]: شبکه‌های پیچیدگی نمودار گره‌های همسایه گره هدف را با استفاده از یک گراف نرمال شده متقارن لاپلاسی جمع‌آوری می‌کنند. D˜-12آ˜D˜-12ساخته شده با نمودار مجاورت خود حلقه آ˜=آ+منو یک ماتریس درجه مورب D˜=∑jآمنj˜. بردارهای جاسازی گره های هدف با جمع کردن اطلاعات گره های همسایه و نمایش بر روی یک ماتریس وزن ایجاد می شوند. روند به روز رسانی GCN است

ساعتvک=σدبلیوک-1·∑تو∈ن(v)1جvتوساعتتوک-1،

جایی که جvتویک ثابت عادی سازی برای لبه است (v،تو)نشات گرفته از D˜-12آ˜D˜-12.

(2)

GIN [ 18 ]: یک شبکه ایزومورفیسم نمودار برای به حداکثر رساندن قدرت تمایز و بازنمایی هر گره در یک گراف پیشنهاد شد. تقریباً همان عملکردی را نشان می‌دهد که آزمون هم‌شکلی گراف Weisfeiler-Lehman [ 29 ]. ما از عملیات MAX، MEAN و SUM به عنوان تابع AGGREGATE در آزمایشات خود استفاده کردیم. روند به روز رسانی GIN است

ساعتvک=σMLPک(1+ϵک)·ساعتvک-1+تجمیعساعتتوک-1،تو∈ن(v)،

جایی که MLPکیک پرسپترون چند لایه است که در لایه k قرار می گیرد تا قدرت تمایز بردارهای تعبیه شده تولید شده را به حداکثر برساند. همراه با MLP ها ϵکیک پارامتر اسکالر در لایه k است که باید آموزش داده شود. رفع کردیم ϵک=0.

(3)

GraphSAGE [ 17 ]: ما از همان مدلی استفاده کردیم که در بخش 3.3.1 معرفی شد. MEAN از آزمایش حذف شد زیرا تفاوت زیادی با قانون انتشار GCN ندارد. هنگام استفاده از جمع کننده POOL، یک ماتریس وزن قبل از عملیات MAX اضافه شد تا قدرت بیان تابع پیام افزایش یابد. جمع کننده POOL به صورت زیر تعریف می شود:

تجمیعکاستخر=حداکثر{σ(دبلیواستخرکساعتتوک+ب)،∀تو∈ن(v)}.
(4)
DWGNN: مدل توسعه یافته توسط نویسندگان و معرفی شده در بخش 3.3.2 اجرا شد. MAX، MEAN، SUM و LSTM برای تابع AGGREGATE در آزمایش ما استفاده شد.

4.3. جزئیات پیاده سازی

در آزمایش ما، هر تصویر پلان طبقه از مجموعه داده ها بردار شده و با توجه به شرایط کلاس که قبلا توضیح داده شد برچسب گذاری شد. پارامترهای مورد استفاده در فرآیند برداری، پارامتر حداقل مساحت m برابر 20 و t به عنوان 2 بود. تمام ویژگی‌های گره و لبه در نمودارها با استفاده از تکنیک استانداردسازی مقیاس‌بندی شدند. برای آموزش مدل‌های GNN، از بهینه‌ساز Adam با نرخ یادگیری اولیه 0.01 استفاده کردیم. نرمال سازی دسته ای [ 30 ] برای هر لایه پنهان برای CubiCasa اعمال شد. تعداد لایه های پنهان برای هر مدل GNN شش لایه بود و MLP ها دو لایه برای GIN داشتند [ 31]. فراپارامترهای آزمایش‌ها عبارت بودند از: (1) تعداد ابعاد پنهان برای لایه‌های پنهان به 128 ثابت شد. (2) برای CubiCasa، مینی دسته ای از 10 نمودار برای هر تکرار تنظیم شد و هیچ دسته کوچکی برای UOS تنظیم نشد، زیرا ما از استراتژی اعتبارسنجی متقابل برای آن استفاده کردیم. (3) تعداد دوره‌ها برای همه مدل‌های GNN به‌جز مدل‌های مبتنی بر یادگیری استقرایی با یک جمع‌کننده LSTM (تنظیم شده روی 300) روی 1000 تنظیم شد. از آنجایی که LSTM پارامترهای بیشتری برای آموزش دارد، دوره‌های مدل‌های مبتنی بر یادگیری استقرایی با یک جمع‌کننده LSTM کمتر از مدل‌های دیگر تنظیم شد.
ویژگی‌های سخت‌افزاری مورد استفاده برای آزمایش‌ها، پردازنده Intel i7-9700KF، پردازنده گرافیکی NVIDIA GeForce GTX 1660 Ti و 64 گیگابایت رم بود. برای پیاده‌سازی کد، از بسته Rasterio برای برداری و از بسته‌های Shapely، GeoPandas، NetworkX برای ایجاد و مدیریت بردارها و نمودارهای چندضلعی استفاده کردیم. مدل‌های GNN با استفاده از Deep Graph Library [ 32 ] با باطن PyTorch ساخته شدند. کد در https://github.com/LymanSong/FP_GNN موجود است (در 22 فوریه 2021 قابل دسترسی است).

4.4. آزمایش بر روی مجموعه داده Cubicasa

جدول 1 نتایج کلاس های پیش بینی شده عناصر در مجموعه آزمایشی CubiCasa را با استفاده از مدل های مختلف GNN و روش های کل نشان می دهد. در میان مدل های GNN، GraphSAGE بالاترین دقت را نشان داد. علاوه بر این، روش LSTM aggregate بالاترین نتایج را نشان داد.
دقت پله ها در همه مدل ها نسبتا پایین بود. به این دلیل که با توجه به اینکه پله ها به صورت مجموعه ای از چند ضلعی های مستطیلی به تصویر کشیده می شوند، مستطیل ها اغلب در کلاس های عناصر مختلف ظاهر می شوند. علاوه بر این، چند ضلعی های پله ای با اشکال مختلف در یک کلاس واحد مشترک هستند و تعداد پلان ها از جمله پله ها به طور قابل توجهی کمتر است. از سوی دیگر، پنجره‌ها و درها دارای دقت بالایی هستند، ظاهراً به این دلیل که هر یک از آنها ساختار بسیار مشخصی در سبک طراحی CubiCasa دارند.
ما می‌توانیم دریافتیم که در مقایسه با مدل‌های مبتنی بر یادگیری انتقالی (GCN و GIN)، مدل‌های مبتنی بر یادگیری استقرایی (GraphSAGE و DWGNN) در تشخیص عناصر فضایی به خوبی عمل کردند. در جدول 1DWGNN با روش SUM در مقایسه با GIN با روش SUM کمی کمتر عمل کرد، اما در مورد عناصر فضایی (اتاق ها، ایوان ها و فضاهای بیرونی) بهتر از GIN با SUM طبقه بندی شد. اگر کلاس‌های عنصر را به دو کلاس (فضایی و غیر فضایی) تقسیم کنیم، مدل‌های مبتنی بر یادگیری استقرایی، کلاس‌های فضایی را بسیار بهتر از مدل‌های مبتنی بر یادگیری انتقالی یافتند. این بدان معناست که مدل‌های استقرایی می‌توانند ویژگی‌های کلاس‌ها را به خوبی تعمیم دهند و به راحتی ویژگی‌های غالب را روی داده‌های دیده نشده بیابند، مانند پیش‌بینی فضایی یا غیرمکانی بودن آن با نگاه کردن به ویژگی ناحیه.
شکل 5 نتایج تجسم نمونه هایی از پلان های طبقه را نشان می دهد که از طریق چارچوب پیشنهادی تحلیل شده اند. فریم ورک ابتدا تصاویر ورودی را بردارید و آنها را به RAG تبدیل می کند. سپس مدل‌های GNN آموزش‌دیده این نمودارها را به عنوان ورودی می‌گیرند و ویژگی‌هایی را برای پیش‌بینی کلاس‌های چندضلعی‌ها استخراج می‌کنند. در مقایسه با حقایق پایه، مدل‌های مبتنی بر یادگیری استقرایی می‌توانند طبقات پایه و عناصر فضایی را به خوبی طبقه‌بندی کنند. از سوی دیگر، مدل‌های مبتنی بر یادگیری انتقالی قادر به پیش‌بینی برخی کلاس‌های عناصر پایه و فضایی نیستند. به ویژه، GCN و GIN نتوانستند درها و دیوارها را به درستی پیدا کنند. همانطور که قبلا گفته شد، همه مدل ها پله ها را به اشتباه طبقه بندی کردند.

4.5. آزمایش بر روی پلان های بزرگ و پیچیده طبقه: Uos و Uos-Aug

پلان های مساحت کوچک دارای چند ضلعی های کمتری هستند و RAG های آنها ساختار نسبتاً ساده ای در مقایسه با ساختمان های بزرگ و پیچیده دارند. ما آزمایشاتی را بر روی پلان های بزرگ و پیچیده طبقه انجام دادیم تا چارچوب خود را آزمایش کنیم. پلان های طبقه مجموعه داده UOS بزرگ و پیچیده بود، بنابراین چند ضلعی های زیادی با روابط پیچیده ایجاد شد. تعداد پلان های طبقه در مجموعه داده UOS هفت بود، بنابراین ما از یک استراتژی اعتبارسنجی متقابل هفت برابری استفاده کردیم. هر جلسه شامل شش طرح برای آموزش و یک برنامه برای تست بود. جدول 2 نتایج آزمایش روی مجموعه داده UOS را نشان می دهد.
نمره دقت کلی کمتر از مجموعه داده CubiCasa بود. کلاس عنصر فضایی در مقایسه با مجموعه داده CubiCasa عملکرد ضعیفی داشت زیرا کلاس‌های غیرمکانی در مجموعه داده‌های UOS دارای درب‌ها و بالابرهای بزرگ بودند که مساحت آنها بزرگ بود و می‌توان به کلاس فضایی اضافه کرد. مانند مجموعه داده CubiCasa، مدل‌های مبتنی بر یادگیری انتقالی در مقایسه با مدل‌های مبتنی بر یادگیری استقرایی عملکرد کمتری داشتند. برخلاف آزمایش قبلی، GraphSAGE با جمع‌کننده LSTM در هر کلاس عنصر رتبه اول را کسب نکرد، و برای پله‌ها و راهروها، DWGNN بهتر از GraphSAGE با LSTM عمل کرد ( جدول 2 را ببینید).). این به این دلیل است که اشکال عناصر پله در مقایسه با CubiCasa تعریف‌تر هستند و DWGNN می‌تواند مجموعه ساختاریافته چندضلعی‌ها را تعمیم دهد و الگوهای تشکیل آنها را بهتر از GraphSAGE بیابد. برای راهروها، آنها تمایل دارند به بسیاری از عناصر دیگر با فواصل مربوطه مرتبط شوند، و بنابراین تعمیم DWGNN در مورد ویژگی های راهروها را با در نظر گرفتن مقادیر توجه آسان می کند (نشان داده شده در شکل 6 ).

از آنجایی که تعداد طرح‌ها در مجموعه داده UOS محدود بود، تعمیم ویژگی‌های کلاس‌ها دشوار بود. اگر یک مدل GNN گره‌ای داشته باشد که قبلاً دیده نشده است، گره نه تنها بر روی خود تأثیر می‌گذارد، بلکه گره‌های همسایه را تا K hops نیز تحت تأثیر قرار می‌دهد. این به این دلیل رخ می دهد که GNN ویژگی طیف وسیع تری از گره ها را با افزایش تعداد لایه ها جمع می کند. علاوه بر این، مدل GNN ممکن است به سادگی مجموعه داده های آموزشی را به خاطر بسپارد زیرا تعداد طرح ها محدود است. برای کاهش این مشکلات، ما مجموعه داده UOS را با استفاده از یک تبدیل افین افزایش دادیم. برای همه نقاط در مجموعه چند ضلعی های پلان طبقه، یک نقطه در مورد مبدا با ضریب مقیاس 0.7 مقیاس بندی شد، سپس بر روی محور y چرخانده شد. پس از آن، چند ضلعی ها را 90 درجه در خلاف جهت عقربه های ساعت چرخاندیم ( شکل 7 را ببینید). فرمول تبدیل به شرح زیر است.

ایکس”y”1=cos90∘-گناه90∘0گناه90∘cos90∘00010.7000-0.70001ایکسy1
ما یک مجموعه داده جدید UOS-aug را تشکیل دادیم که شامل هفت پلن افزوده شده با طرح های اصلی UOS است. از آنجایی که عملکرد طبقه‌بندی از طریق افزایش داده‌ها بهبود یافته است، می‌توان نتیجه گرفت که نتایج مدل GNN نسبت به مقیاس و چرخش ثابت است. علاوه بر این، این ثابت می‌کند که مدل GNN الگوی به‌روزرسانی بردارهای تعبیه‌شده آن گره را در رابطه با همسایگان هر گره، به جای به خاطر سپردن ساختار ترسیم، می‌آموزد. نتایج در جدول 3 نشان داده شده است.
نتایج در مقایسه با جدول 2 بهبود یافته است. اگرچه طرح‌های افزوده شده تغییرات زیادی را پشت سر گذاشته‌اند، اما به‌صورت مکمل با طرح‌های اصلی کار می‌کنند، به این معنی که مدل‌های GNN نسبت به مقیاس و چرخش ثابت هستند. این ثابت می‌کند که مدل‌های GNN گره‌های خود را با استفاده از رابطه و الگوهای میان گره‌ها و ویژگی‌های درون هر گراف طبقه‌بندی می‌کنند، نه تشکیل و ترتیب گره‌ها.
دوره-آموزش-حرفه-ای-gis

5. بحث

مشارکت های کار ما به شرح زیر است. ابتدا، ما یک فرآیند شطرنجی به برداری برای تصاویر پلان طبقه مستقل از سبک طراحی ایجاد کردیم. با روش های پیش پردازش مناسب تصویر، می تواند هر نوع تصویر پلان طبقه را به داده های برداری چند ضلعی تبدیل کند. با بردار کردن تصویر پلان طبقه قبل از تقسیم بندی پیکسل، ما قادر بودیم نه تنها عناصر ساختاری، بلکه نمادها و عناصر فضایی را بدون از دست دادن اطلاعات شکل ثبت کنیم. دوم، برای طبقه بندی چند ضلعی ها، از رویکرد شبکه عصبی گراف استفاده کردیم. مدل‌های GNN نسبت به مقیاس و چرخش ثابت هستند زیرا GNN ورودی را به عنوان یک نمودار می‌گیرد و ساختار داده‌های گراف هیچ جایگشت ثابتی از گره‌ها ندارد. استفاده از GNN باعث می شود که چارچوب قوی و آسان برای تعمیم مجموعه داده های پلان طبقه از هر سبکی باشد. سوم، ما نیاز به مدل‌های GNN یادگیری القایی را برای وظایف طبقه‌بندی عناصر پلان طبقه تعریف کردیم و از میان بسیاری از مدل‌های GNN، مدل مناسب (GraphSAGE) را انتخاب کردیم. علاوه بر این، ما یک مدل GNN جدید ایجاد کردیم که با استفاده از تابع softmin، مقدار وزن فاصله را در فرآیند ارسال پیام در نظر گرفت.
در حالی که نتایج نشان داد که چارچوب ما می‌تواند عناصر پلان طبقه چند برچسب‌دار را شناسایی و طبقه‌بندی کند، چند محدودیت به شرح زیر استخراج شد. ویژگی هایی که در حال حاضر در ماتریس ویژگی چند ضلعی ها استفاده می شوند قابل توجه هستند، اما اگر از اطلاعات ویژگی های اضافی استفاده کنیم که به طور کامل چند ضلعی ها را در بین انواع مختلف عناصر پلان طبقه بندی توصیف می کند، امکان طبقه بندی اضافی وجود دارد. چارچوب پیشنهادی نتیجه را در قالب برداری خروجی می دهد، که استفاده از آن را در تحقیقات اضافی یا برنامه های کاربردی دنیای واقعی تسهیل می کند. به عنوان مثال، Zeng et al. [ 10 ] مدل‌های سه‌بعدی نتایج حاصل از روش خود را نشان دادند، و خروجی چارچوب پیشنهادی از قبل داده‌هایی از نوع برداری است، که این کار را برای مدل‌سازی سه‌بعدی آسان‌تر می‌کند.
بر خلاف مدل‌های مبتنی بر CNN، که در برابر تصاویر پر سر و صدا قوی هستند، استفاده از چارچوب پیشنهادی برای تصاویر نویزدار یا با وضوح پایین دشوار است. به خصوص در مرحله پیش پردازش تصویر، خروجی به شدت به نویز و وضوح بستگی دارد. به عنوان مثال، اگر مقادیر پیکسل نماد به دلیل وضوح پایین ناهموار باشد، درها تمایل دارند خط قوس دقیق را از دست بدهند و به چند ضلعی تبدیل نشوند. برای غلبه بر این محدودیت ها، می توان یک مدل تولید تصویر را اعمال کرد و در مرحله پیش پردازش استفاده کرد. با این حال، به دلیل ماهیت مدل تولیدی، انتظار بهبود دقیق در سطح پیکسل دشوار است. علاوه بر این، چارچوب ما از اطلاعات متنی در تصویر استفاده نمی‌کند، بنابراین استفاده از اطلاعات معنایی را غیرممکن می‌کند، که به صراحت ماهیت هر شی را نشان می‌دهد.
در بیشتر آزمایش‌ها، DWGNN دقت کمی کمتر از GraphSAGE نشان داد. به این دلیل است که در مرحله تبدیل RAG، گره نمودار با مرکز چند ضلعی ها مطابقت دارد و مقدار وزن بین مختصات جفت گره ها محاسبه می شود، بنابراین از نگهداری اطلاعات شکل چند ضلعی ها جلوگیری می شود. به خصوص برای دیوارها یا فضای بیرونی، بیشتر مختصات گره که چند ضلعی ها را نشان می دهند، اغلب در جایی قرار می گیرند که چند ضلعی واقعی قرار ندارد. برای کاهش این مشکل، DWGNN از تابع softmin برای تخصیص مقادیر توجه استفاده می کند. با این حال، ویژگی های لبه بی معنی هنوز از آموزش مدل و پیش بینی صحیح کلاس ها جلوگیری می کند. با ماهیت DWGNN، فکر می کنیم که می تواند مدل مناسبی برای حل مسائل بهینه سازی ترکیبی در شبکه های فضایی باشد.

6. نتیجه گیری

این مقاله چارچوب جدیدی را برای استخراج و طبقه بندی عناصر در یک پلان طبقه ارائه می کند. بر خلاف رویکردهای قبلی که ابتدا تصویر پلان طبقه را بخش بندی می کردند، روش ما تصاویر پلان طبقه را بردار می کند و مجموعه چند ضلعی را به یک RAG تبدیل می کند. سپس مدل از یک GNN برای طبقه‌بندی گره‌ها در نمودار بر اساس ویژگی‌های منحصر به فرد و رابطه همسایگی آنها استفاده می‌کند. یادگیری استقرایی بر روی نمودارهای پلان طبقه به منظور پیش بینی نمودارهای کاملاً دیده نشده انجام شد. چارچوب ما نه تنها کلاس‌های عناصر و نمادهای پایه را طبقه‌بندی می‌کند، بلکه عناصر فضایی مانند اتاق‌ها را نیز با خروجی‌های فرمت برداری برای به حداقل رساندن انتزاع و از دست دادن اطلاعات شکل طبقه‌بندی می‌کند. برای ارزیابی عملکرد چارچوب پیشنهادی، ما آزمایش‌هایی را روی دو مجموعه داده پلان طبقه با مناطق و توزیع‌های مختلف و یک مجموعه داده افزوده شده انجام دادیم. نتایج میزان دقت بالایی را در کار طبقه‌بندی با قدرت بیان خروجی نهایی نشان داد. با مقایسه مدل‌های مختلف GNN، ما همچنین دریافتیم که مدل‌های GNN مبتنی بر یادگیری استقرایی از مدل‌های مبتنی بر یادگیری انتقالی بهتر عمل می‌کنند. به عنوان تحقیقات بیشتر، راهی برای مدیریت تصاویر پلان طبقه با وضوح پایین و بهبود عملکرد طبقه بندی با استخراج ویژگی های اضافی پیدا خواهیم کرد.

منابع

  1. دوش، پ. تامبر، ک. آه سون، سی. ماشینی، جی. یک سیستم کامل برای تجزیه و تحلیل نقشه های معماری. بین المللی J. Doc. مقعدی تشخیص. 2000 ، 3 ، 102-116. [ Google Scholar ] [ CrossRef ]
  2. مکه، اس. لوکتو، اچ. والونی، ای. Tabbone, S. سیستمی برای تشخیص اتاق ها در تصاویر پلان طبقه معماری. در مجموعه مقالات نهمین کارگاه بین المللی IAPR در مورد سیستم های تجزیه و تحلیل اسناد، بوستون، MA، ایالات متحده، 9-11 ژوئن 2010. صص 167-174. [ Google Scholar ]
  3. لو، تی. یانگ، اچ. یانگ، آر. Cai, S. تجزیه و تحلیل خودکار و یکپارچه سازی نقشه های معماری. بین المللی J. Doc. مقعدی تشخیص. 2007 ، 9 ، 31-47. [ Google Scholar ] [ CrossRef ]
  4. احمد، س. لیویکی، ام. وبر، ام. دنگل، الف. تشخیص خودکار اتاق و برچسب‌گذاری اتاق از روی پلان‌های معماری. در مجموعه مقالات دهمین کارگاه بین المللی IAPR در سال 2012 در مورد سیستم های تجزیه و تحلیل اسناد. ساحل طلایی، کوئینزلند، استرالیا، 27 تا 29 مارس 2012. صص 167-174. [ Google Scholar ]
  5. باردوچی، آ. Marinai, S. تشخیص اشیاء در پلان طبقات توسط نمودارهای اجزای سفید متصل. در مجموعه مقالات بیست و یکمین کنفرانس بین المللی شناخت الگو، تسوکوبا، ژاپن، 11 تا 15 نوامبر 2012. صص 298-301. [ Google Scholar ]
  6. De, P. برداری از پلان های معماری معماری. بین المللی دوازدهم Conf. تحقیر کردن محاسبه کنید. 2019 ، 10 ، 1-5. [ Google Scholar ]
  7. De las Heras، LP; احمد، س. لیویکی، ام. والونی، ای. سانچز، جی. تقسیم بندی آماری و شناخت ساختاری برای تفسیر پلان طبقه. بین المللی J. Doc. مقعدی تشخیص. 2014 ، 17 ، 221-237. [ Google Scholar ] [ CrossRef ]
  8. لیو، سی. وو، جی. کهلی، پ. Furukawa, Y. Raster-to-Vector: Revisiting restoring planplans. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، ونیز، ایتالیا، 22 تا 29 اکتبر 2017؛ صص 142-149. [ Google Scholar ]
  9. دوج، اس. خو، جی. Stenger، B. تجزیه تصاویر پلان طبقه. در مجموعه مقالات پانزدهمین کنفرانس بین المللی IAPR 2017 درباره کاربردهای بینایی ماشین (MVA)، سالن تویودا، دانشگاه ناگویا، ناگویا، ژاپن، 8 تا 12 مه 2017؛ صص 358-361. [ Google Scholar ]
  10. زنگ، ز. لی، ایکس. یو، YK; تشخیص پلان طبقه عمیق Fu، CW با استفاده از شبکه چند وظیفه ای با توجه هدایت شده از مرز اتاق. در مجموعه مقالات کنفرانس بین‌المللی IEEE در مورد چشم انداز رایانه، مرکز کنوانسیون COEX، سئول، کره، 2 اکتبر تا 11 نوامبر 2019؛ صفحات 9096-9104. [ Google Scholar ]
  11. زلاتانوا، اس. لی، کی جی. لمن، سی. Oosterom، P. Indoor Abstract Spaces: Linking IndoorGML و LADM. در مجموعه مقالات پنجمین کارگاه بین المللی کاداستر سه بعدی FIG، آتن، یونان، 18 تا 20 اکتبر 2016. صص 317-328. [ Google Scholar ]
  12. Tobler, WR یک فیلم کامپیوتری شبیه سازی رشد شهری در منطقه دیترویت. اقتصاد Geogr. 2016 ، 46 (ضمیمه 1)، 234-240. [ Google Scholar ] [ CrossRef ]
  13. دومینگز، بی. گارسیا، Á.L. Feito، FR تشخیص نیمه خودکار توپولوژی کف از نقشه های معماری CAD. محاسبه کنید. به دس کمک کرد. 2012 ، 44 ، 367-378. [ Google Scholar ] [ CrossRef ]
  14. گوری، م. منفردینی، جی. Scarselli, F. مدلی جدید برای یادگیری در حوزه های نمودار. در مجموعه مقالات کنفرانس مشترک بین المللی IEEE در سال 2005 در مورد شبکه های عصبی، مونترال، QC، کانادا، 31 ژوئیه تا 4 اوت 2005. جلد 2، ص 729–734. [ Google Scholar ]
  15. اسکارسلی، اف. گوری، م. Tsoi، AC; هاگنبوشنر، ام. منفردینی، جی. مدل شبکه عصبی گراف. IEEE Trans. شبکه عصبی فرا گرفتن. سیستم 2009 ، 20 ، 61-80. [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
  16. Kipf، TN; Welling, M. طبقه بندی نیمه نظارت شده با شبکه های کانولوشن گراف. در مجموعه مقالات کنفرانس بین المللی در مورد بازنمایی های یادگیری، ICLR، تولون، فرانسه، 24-26 آوریل 2017. [ Google Scholar ]
  17. همیلتون، دبلیو. یینگ، ز. Leskovec, J. یادگیری نمایش استقرایی در نمودارهای بزرگ. در مجموعه مقالات پیشرفت‌ها در سیستم‌های پردازش اطلاعات عصبی 30 (NIPS 2017)، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 4 تا 9 دسامبر 2017؛ صص 1024–1034. [ Google Scholar ]
  18. خو، ک. هو، دبلیو. لسکووچ، جی. جگلکا، اس. شبکه های عصبی گراف چقدر قدرتمند هستند؟ arXiv 2018 , arXiv:1810.00826. [ Google Scholar ]
  19. هو، آر. هوانگ، ز. تانگ، ی. ون کایک، او. ژانگ، اچ. Huang, H. Graph2Plan: یادگیری نسل پلان طبقه از نمودارهای چیدمان. arXiv 2020 ، arXiv:2004.13204. [ Google Scholar ] [ CrossRef ]
  20. رنتون، جی. هروکس، پی. گاوزیر، بی. شبکه عصبی Adam, S. Graph برای تشخیص نماد در تصاویر سند. در مجموعه مقالات کنفرانس بین المللی 2019 کارگاه های آموزشی تجزیه و تحلیل و تشخیص اسناد (ICDARW)، سیدنی، استرالیا، 20 تا 25 سپتامبر 2019؛ جلد 1، ص 62-66. [ Google Scholar ]
  21. Pfoser، D.; جنسن، CS; تئودوریدیس، ی. رویکردهای رمانی به نمایه سازی مسیرهای جسم متحرک. در مجموعه مقالات بیست و ششمین کنفرانس VLDB، قاهره، مصر، 10-14 سپتامبر 2000. صص 395-406. [ Google Scholar ]
  22. Zernike، F. تئوری پراش روش برش و شکل بهبود یافته آن، روش کنتراست فاز. Physica 1934 , 1 , 56. [ Google Scholar ]
  23. ژانگ، ز. کوی، پی. زو، دبلیو. یادگیری عمیق روی نمودارها: یک نظرسنجی. IEEE Trans. بدانید. مهندسی داده 2020 . [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  24. همیلتون، یادگیری نمایش نمودار WL. مصنوعی. لکت. آرتیف. هوشمند ماخ فرا گرفتن. 2020 ، 14 ، 1-159. [ Google Scholar ] [ CrossRef ]
  25. Barthélemy، M. شبکه های فضایی. فیزیک Rep. 2011 , 499 , 1-101. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  26. گیلمر، جی. Schoenholz، SS; رایلی، پی اف. وینیالز، او. ارسال پیام عصبی دال، جنرال الکتریک برای شیمی کوانتومی. arXiv 2017 , arXiv:1704.01212. [ Google Scholar ]
  27. گونگ، ال. چنگ، Q. بهره برداری از ویژگی های لبه برای شبکه های عصبی نمودار. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 16 تا 20 ژوئن 2019؛ ص 9211–9219. [ Google Scholar ]
  28. کالروو، ا. ایلیویناس، جی. هایکیو، م. کارهو، ا. Kannala، J. Cubicasa5k: یک مجموعه داده و یک مدل چند وظیفه ای بهبود یافته برای تجزیه و تحلیل تصویر پلان طبقه. در کنفرانس اسکاندیناوی در تجزیه و تحلیل تصویر ; Springer: Cham، سوئیس، 2019; ص 28-40. [ Google Scholar ]
  29. ویسفایلر، بی. Lehman، AA کاهش یک نمودار به شکل متعارف و جبری که در طی این کاهش ایجاد می شود. Nauchno-Tech. به اطلاع رساندن. 1968 ، 2 ، 12-16. [ Google Scholar ]
  30. آیوف، اس. Szegedy, C. Batch normalization: تسریع آموزش عمیق شبکه با کاهش تغییر متغیر داخلی. arXiv 2015 ، arXiv:1502.03167. [ Google Scholar ]
  31. Kingma، DP; Ba, J. Adam: روشی برای بهینه سازی تصادفی. arXiv 2014 ، arXiv:1412.6980. [ Google Scholar ]
  32. وانگ، ام. یو، ال. ژنگ، دی. گان، Q. گای، ی. بله، ز. Huang, Z. Deep graph library: به سوی یادگیری عمیق کارآمد و مقیاس پذیر بر روی نمودارها. arXiv 2019 ، arXiv:1909.01315. [ Google Scholar ]
شکل 1. مروری بر چارچوب پیشنهادی. تصویر پلان طبقه ورودی از قبل پردازش شده است تا متون را پاک کرده و باینریزه شود. سپس تصویر پردازش شده بسته به مناطق بسته آن بردار شده و به RAG تبدیل می شود. نمودار پلان طبقه به یک ماژول GNN وارد می شود تا هر چند ضلعی را بر اساس بردارهای ویژگی آن و همسایگان طبقه بندی کند.
شکل 2. نمای کلی از فرآیند برداری. نواحی سفید در ( a ) بردار شده و بر اساس ضخامت خطوط پیکسل اطراف آنها ( c ) بافر می شوند. نواحی سیاه به چند ضلعی ( d ) تبدیل می‌شوند که با عملیات تفاوت بین ( b ، c ) ایجاد می‌شوند. در نهایت، مجموعه کامل چند ضلعی ( e ) با ادغام دو مجموعه چند ضلعی تولید می شود. ( f ) فرآیند دقیق بافر چند ضلعی را توصیف می کند (رنگ قاب هر مرحله مربع کوچک مربوطه را در فرآیند به طور دقیق نشان می دهد).
شکل 3. طبقه بندی گره بر روی یک روش GNN یادگیری انتقالی ( a ) و یک روش GNN یادگیری القایی ( b ). در روش یادگیری انتقالی، ( الف ) مدل با دسترسی به تمام گره‌ها و لبه‌ها به منظور پیش‌بینی کلاس گره‌ها در مجموعه تست (که با علامت‌های سوال مشخص می‌شوند) آموزش داده می‌شود. از سوی دیگر، در روش یادگیری استقرایی ( b )، مجموعه نمودارها به مجموعه آموزشی و آزمایشی تقسیم می‌شود و مجموعه آزمون با یک مدل GNN آموزش‌دیده بر روی مجموعه‌ای از نمودارهای آموزشی پیش‌بینی می‌شود.
شکل 4. تصویر بصری فرآیند به روز رسانی گره v (یک بخش در). تابع softmin مقادیر توجه مربوطه را به هر همسایه v با توجه به فاصله آنها تا v اختصاص می دهد ( هتومنv). بردار جاسازی هر گره در لایه ک-1از نظر عنصر با مقدار توجه مربوطه ضرب می شود. آنها از یک ماتریس وزن عبور می کنند دبلیو0و در یک پیام جمع می شود. این پیام به بردار جاسازی v در لایه اضافه می شودک-1و با ماتریس وزن ضرب می شود دبلیو1. نتیجه، بردار جاسازی گره v در لایه k است. در شکل، آن(v)بردار توجه تبدیل شده است و AGGتابع AGGREGATE است.
شکل 5. نمونه هایی از تصویر ورودی ( a ) و حقیقت زمین ( b )، و مقایسه بصری نتایج طبقه بندی عناصر داخلی توسط مدل های GNN برای یادگیری انتقالی ( c ، d ) و مدل های یادگیری استقرایی ( e ، f ). کلاس عنصر “فضای بیرونی” برای دید پاک می شود.
شکل 6. نتایج مشاهده شده از طبقه بندی بر روی مجموعه داده UOS.
شکل 7. نمونه ای از افزایش داده ها. طرح اصلی ( a ) با معادله ( 9 ) تبدیل می شود و یک پلان تقویت شده ( b ) را برمی گرداند.
جدول 1. مقایسه دقت طبقاتی با مدل های مختلف GNN در مجموعه داده CubiCasa (متوسط ​​نمره F1 میکرو). AGG مخفف روش AGGREGATE است.
جدول 2. مقایسه دقت طبقاتی در مدل های مختلف GNN در مجموعه داده UOS.
جدول 3. مقایسه دقت طبقاتی در مدل های مختلف GNN در مجموعه داده UOS-aug.

بدون دیدگاه

دیدگاهتان را بنویسید