1. مقدمه
پلان طبقه طرحی است که طرح کلی یک سطح خاص از یک ساختمان یا یک سازه را توصیف می کند. روشهای مختلفی برای قالببندی پلان طبقه وجود دارد، اما همه پلانهای طبقه دارای عناصر ساختاری داخلی مانند دیوارها، پنجرهها، درها و پلهها و عناصر فضایی مانند اتاقها و راهروها هستند.
دیجیتالی کردن پلان های طبقه چالش برانگیز است، زیرا، در بیشتر موارد، آنها اساساً تصاویری هستند بدون اطلاعات صریح از هر شی. بنابراین استخراج ویژگی و تجزیه و تحلیل دادههای فضایی داخلی بهدستآمده از تصاویر پلان با پیش پردازش تصویر ورودی با استفاده از تکنیکهای پردازش تصویر و سپس اعمال الگوریتمهای آماری و تحلیلی انجام شده است. مطالعات با الگوریتم های ابتکاری منجر به دقت و دقت بالا شده است. با این حال،1 ، 2 ، 3 ، 4 ، 5 ، 6 ]. برای کاهش این محدودیت ها، رویکردهای مختلف مبتنی بر یادگیری ماشین در تحلیل پلان طبقه استفاده شده است. در میان آنها، رویکردهای مبتنی بر شبکه عصبی کانولوشن بیشتر مورد استفاده قرار گرفتهاند، زیرا میتوانند برای بسیاری از سبکهای تصاویر پلان طبقهای قابل اجرا باشند.
رویکردهای مبتنی بر CNN فقط به یک سطح اولیه از تکنیک های پیش پردازش تصویر نیاز دارند و نسبت به نویز پلان طبقه قوی هستند. علاوه بر این، آنها را می توان برای هر سبک طراحی بدون نیاز به تغییر استفاده کرد، که آنها را کارآمد و همه کاره می کند [ 7 ، 8 ، 9 ، 10 ].
با این حال، از آنجایی که این روشها تقسیمبندی در سطح پیکسل را انجام میدهند، شکل دقیق عناصر داخلی به سختی قابل ثبت است. برای غلبه بر این محدودیت، این رویکردها مراحل اضافی پس پردازشی را ادغام کرده اند که خروجی شبکه عصبی را انتزاع می کند. با این حال، این منجر به از بین رفتن ویژگی عناصر داخلی اصلی می شود، مانند نحوه بیان چند ضلعی ها به عنوان بردارهای خط. به عنوان مثال، دیوارها باید دارای ضخامت و مساحت خاص خود باشند. با این وجود، همانطور که اشکال هنگام عبور از لایه های پیچشی تار می شوند، دیوارها در نهایت به عنوان بردارهای خط توسط الگوریتم های پس پردازش ترسیم می شوند [ 7 ، 8 ]]. اگرچه انتزاع یک طرح طبقه از طریق مدلهای مبتنی بر یادگیری ماشین ممکن است برای اهداف خاص کاربر ضروری باشد، مانند بیان مناطق قابل کشتیرانی در قالب IndoorGML [ 11 ]، خروجیهای برداری که شکل تصویر پلان طبقه اصلی را دست نخورده نگه میدارند، میتوانند به اشیاء مختلف بسته به هدف کاربر، با توجه به انعطاف پذیری بالا و توانایی تغییر شکل نوع داده برداری.
در این مقاله، چارچوبی را پیشنهاد میکنیم که بدون از دست دادن اطلاعات شکل، هر نوع عنصری را در پلان طبقه پیدا میکند. ابتدا تصویر پلان طبقه ورودی را بردار می کند تا شکل عناصر اصلی داخلی را حفظ کند و انتزاع را به حداقل برساند. سپس مجموعه برداری چند ضلعی به نمودار مجاورت منطقه تبدیل می شود. سپس نمودار به یک شبکه عصبی گراف مبتنی بر یادگیری استقرایی (GNN) وارد میشود که برای مقایسه نمودارهای چند طبقه و انجام طبقهبندی گرهها با تجزیه و تحلیل ویژگیهای ذاتی و روابط بین گرهها استفاده میشود. این به کاربر اجازه می دهد تا عناصر اصلی داخلی (به عنوان مثال، دیوارها، پنجره ها، درها، و غیره) و نمادها را همراه با عناصر فضایی (مانند اتاق ها، راهروها یا فضاهای بیرونی)، بدون از دست دادن شکل و ویژگی های آریالی خود طبقه بندی کند. علاوه بر این، یک مدل جدید GNN، شبکه عصبی نمودار وزنی فاصله (DWGNN)، ارائه شده است. مطابق قانون اول جغرافیا [12 ]، به گره های همسایه ای که نزدیک به یک گره هدف هستند، باید مقادیر توجه نسبتاً بالایی در مقایسه با همسایگانی که از گره هدف دور هستند، داده شود. برای انجام این کار، یک مدل GNN ایجاد کردیم که مقادیر توجه را به همسایگان در زیرگراف همسایه گره هدف اختصاص میدهد. DWGNN اطلاعات فاصله بین گره ها را که با ویژگی های لبه بیان می شود در شبکه فضایی (گراف) در نظر می گیرد. برای ارزیابی عملکرد و بیان چارچوب پیشنهادی جدید تجزیه و تحلیل پلان طبقه، آن را روی دو مجموعه داده پلان طبقه و یک مجموعه داده افزوده شده با داده اعمال کردیم.
ساختار باقی مانده مقاله به شرح زیر است. در بخش 2 ، ما محدودیت های تحقیقات قبلی مربوط به تجزیه و تحلیل پلان طبقه، به ویژه در مورد طبقه بندی عناصر داخلی با استفاده از روش های مبتنی بر قانون و رویکردهای یادگیری ماشین را مورد بحث قرار می دهیم. در بخش 3 ، بر اساس محدودیت های توصیف شده، ما چارچوبی را برای طبقه بندی عناصر پلان طبقه از طریق GNN پیشنهاد می کنیم. در نهایت، نتایج را بر روی سه مجموعه داده تجزیه و تحلیل می کنیم و مسائل و تحقیقات بیشتر را مورد بحث قرار می دهیم.
2. آثار مرتبط
2.1. روشهای اکتشافی مبتنی بر قانون و الگوریتمهای یادگیری ماشین در تحقیقات تحلیل پلان طبقه
شناسایی و طبقه بندی عناصر یا نواحی اساسی پلان طبقات سال هاست که با رویکردهای مختلف مورد مطالعه قرار گرفته است. رویکردهای اکتشافی مبتنی بر قانون از روشهای مبتنی بر پردازش تصویر، مانند فیلتر مورفولوژیکی [ 1 ، 6 ]، تبدیل Hough [ 2 ، 4 ]، تشخیص متن/گرافیک [ 3 ، 4 ] یا استفاده از الگوریتمهای نمودار [ 5 ، 13 ] استفاده میکنند. . اگرچه آنها خروجی های معناداری را نشان داده اند، رویکردهای اکتشافی مبتنی بر قاعده برای حفظ اشکال عناصر تلاش می کنند و فقط می توانند برای سبک های طراحی خاص اعمال شوند.
برای اجتناب از این اکتشافیهای وابسته به سبک و کلیت بیانی در میان سبکهای مختلف طراحی، رویکردهایی با استفاده از الگوریتمهای یادگیری ماشین پدید آمدهاند. د لاس هراس و همکاران [ 7] از یک الگوریتم یادگیری ماشین برای شناسایی عناصر داخلی استفاده کرد و سپس خروجی را به داده برداری تبدیل کرد. با استناد به این محدودیت که روشهای مبتنی بر قوانین موجود موقتی هستند و فقط برای سبکهای طراحی خاص قابل اجرا هستند، آنها یک روش خودکار ارائه کردند که مرزهای اتاق را در پلانهای طبقات غیرمتغیر با سبک نقشهها تشخیص میداد. آنها از یک کیسه ماشین بردار پشتیبانی از کلمات بصری (SVM-BOVW) برای تشخیص مرزهای پیکسلی عناصر ساختاری که شامل دیوارها، درها و پنجره ها می شود، استفاده کردند و سپس داده های برداری را ایجاد کردند. علاوه بر این، مدل با یافتن مناطق بسته احاطه شده توسط بردارهای عناصر ساختاری، مرزهای اتاق را در پلان طبقه تشخیص می دهد. لیو و همکاران [ 8] به یک CNN آموزش داد تا اتصالات، مانند گوشه های دیوار، را در یک پلان طبقه شناسایی کند و از برنامه ریزی اعداد صحیح برای استخراج داده های برداری با ترکیب اتصالات برای ساختن موارد اولیه ساده مانند دیوارها و پنجره ها استفاده کرد. علاوه بر این، آنها فضاهایی با ترکیبات بسته از بدوی ساده پیدا کردند. با این حال، همه عناصر عمودی و افقی در نظر گرفته شدند، بنابراین اشکال عناصر را ثابت نکردند و در نتیجه به شکلهای ابتدایی تا حد زیادی انتزاعی، مانند بیان دیوارها با بردارهای خط، منجر شد. دوج و همکاران [ 9 ] از شبکههای کاملاً متصل (FCN) و سریعتر R-CNN برای تقسیمبندی دیوارها و شناسایی اشیاء به ترتیب در پلانهای طبقه با سبکهای مختلف طراحی استفاده کرد. آنها همچنین از OCR استفاده کردند تا بتوانند اندازه اتاقها را تشخیص دهند و مدلهای مبلمان را متناسب با صحنه قرار دهند. زنگ و همکاران [ 10] روشی را پیشنهاد کرد که با آموزش رمزگذار-رمزگر VGG، دیوارها، درها، پنجرهها و اتاقها را شناسایی و طبقهبندی میکند. بر خلاف [ 8 ]، روش آنها برای عناصر شکل غیر مستطیلی قابل استفاده است و قادر است ویژگی های شکل عناصر داخلی را به دست آورد. علاوه بر این، آنها از مکانیزم توجه برای واحدهای رمزگشا استفاده کردند. دو رمزگشا مقادیر توجه را برای پیش بینی مرز و نوع اتاق ها به اشتراک می گذارند. با این حال، روش آنها تنها به چند کلاس محدود می شود، که به عنوان یک طرح برای کمک به رمزگشا برای یافتن مرزهای اتاق استفاده می شود. این مرزها در نهایت تحت یک طبقه قرار می گیرند.
تجزیه و تحلیل پلان طبقه با استفاده از الگوریتم های یادگیری ماشین پتانسیل زیادی را در مجموعه داده های مختلف پلان طبقه نشان داده است، اما با این حال، هر رویکرد محدودیت ها و کاستی های خاص خود را دارد. مدلهایی که بر روی مجموعه دادههای پلان طبقه ورودی مختلف آموزش داده شدهاند، ممکن است سازگاری بالایی داشته باشند، اما خروجیهای آنها ممکن است تار باشد زیرا آنها تقسیمبندی در سطح پیکسل را انجام میدهند. این باعث ایجاد مشکلاتی در خروجی می شود، مانند خطوط غیر متصل، که منجر به بردارهای بسته نمی شود. در بسیاری از موارد، تشخیص و شناسایی اتاق به شدت به عناصر سازه ای در پلان طبقه، مانند دیوارها، درها و/یا پنجره ها بستگی دارد و اگر این عناصر ساختاری دارای مسائل بسته باشند، به طور قابل توجهی بر روند تشکیل اتاق تأثیر می گذارد. زیرا عناصر ممکن است اطلاعات شکل خود را در طول فرآیند برداری از دست بدهند [ 7 ، 8]، برخی از رویکردها این فرآیند را به منظور ایمن سازی ویژگی های شکل حذف می کنند [ 9 ، 10 ]. علاوه بر این، هیچ یک از رویکردهایی که بر شناسایی عناصر ساختاری و عناصر فضایی متمرکز شدهاند، عناصر نمادین مانند کابینت، حمام، یا توالت و غیره را در نظر نمیگیرند.
2.2. شبکه عصبی نمودار (Gnn) و تحلیل پلان طبقه با استفاده از Gnn
یک ساختار داده گراف از مجموعه محدودی از گره ها (راس) و یال ها (پیوندها) تشکیل شده است. یک گره نشان دهنده یک موجودیت است و یک لبه نشان دهنده رابطه بین دو گره است. نمودارها اغلب به عنوان ساختارهای داده غیر اقلیدسی نامیده می شوند، زیرا آنها به هیچ بعد خاصی محدود نمی شوند. الگوریتمهای یادگیری عمیق موجود که برای ساختارهای داده اقلیدسی اعمال میشوند، عملکرد بسیار خوبی از خود نشان دادهاند. با این حال، مدلهای یادگیری عمیق موجود قادر به یادگیری نمودارها نیستند زیرا جایگشت بین گرهها میتواند به روشهای مختلفی ظاهر شود. بر این اساس، GNN ها [ 14 ، 15 ] برای توصیف راهی برای بیان ترتیب گره ها و اجازه دادن به شبکه عصبی برای یادگیری ساختار داده های گراف ابداع شده اند.
در سال های اخیر، GNN ها دستخوش تغییرات متعددی از تعریف اولیه شده اند. کیپف و همکاران [ 16 ] شبکههای پیچیدگی گراف (GCN) را برای استفاده از عملیات پیچیدگی بر روی نمودارها با بهروزرسانی بردار نهفته گرهها با استفاده از یک ماتریس نرمال لاپلاسی به عنوان ماتریس مجاورت گراف ورودی معرفی کرد. همیلتون و همکاران [ 17 ] GraphSAGE را پیشنهاد کرد و نشان داد که نتایج بردار نهفته پیامد با توابع مختلف AGGREGATE متفاوت است، و این مفهوم را برای اجرای یادگیری استقرایی برای آموزش مدل نه با نمودارهای منفرد، بلکه چندگانه به کار برد. خو و همکاران [ 18] دریافت که مدلهای GNN را نمیتوان به درستی آموزش داد و مدل جدیدی به نام شبکه ایزومورفیسم گراف (GIN) معرفی کرد که میتواند به اندازه تست WL که یک تست همشکلی برای ساختار گراف است، انجام دهد. آنها همچنین وظایف مرتبط با گراف را طبقه بندی کردند که می توانند به طور مناسب با توجه به روش های AGGREGATE اعمال شوند.
یک GNN می تواند مسائل مختلف دنیای واقعی را تحلیل کند. با توجه به ویژگیهای ذاتیشان، میتوان آنها را بهعنوان یک نمودار نشان داد و GNN آنها را بهعنوان ورودی برای تحلیل و پیشبینی استفاده میکند. پلان طبقه را می توان با در نظر گرفتن نواحی سلولی به عنوان گره و ساختن یک ماتریس مجاورت بر اساس مجاورت میان نواحی پلان طبقه، به نمودار تبدیل کرد. الگوریتمها و تحلیلهای مختلف نمودار برای نمودارهای پلان طبقه استفاده شدهاند. به طور خاص، نمودارهای پلان طبقه به طور گسترده در زمینه تحقیقات طراحی پلان طبقه استفاده شده است، که اخیرا روش های مختلف را با استفاده از GNN مورد مطالعه قرار داده است. به عنوان مثال، یک چارچوب تولید خودکار برای طراحی پلان طبقه با استفاده از GNN توسط Hu و همکاران ارائه شد. [ 19]. هنگامی که نوبت به شناسایی و طبقه بندی نمادها یا عناصر داخلی می رسد، رنتون و همکاران. [ 20] از GNN برای طبقه بندی نمادها در پلان طبقه استفاده کرد. آنها تصاویر پلان طبقه را از قبل پردازش کردند و مرکز مناطق احاطه شده توسط پیکسل های سیاه را به عنوان گره در نظر گرفتند. سپس یک نمودار مجاورت منطقه با اتصال گره هایی که یک خط پیکسل مشترک دارند ساخته می شود. سپس، نمودار پلان طبقه به یک مدل GNN به عنوان نمودار ورودی وارد می شود و یک نمودار به دست می آید که در آن گره ها بر اساس وابستگی های محلی خود طبقه بندی شده اند. این مطالعه اولین مطالعه ای است که از GNN برای طبقه بندی نمادها در تصاویر پلان طبقه استفاده می کند. با این حال، فقط نمادها و اشیاء را هدف قرار داد، به استثنای دیوارها و اتاق ها، که مهمترین عناصر تصاویر پلان طبقه هستند. علاوه بر این، خروجی نهایی رویکرد محدود به نمودارهایی است که فقط کلاسهای نماد را نشان میدهند و برای استفاده به خروجی فرمت برداری تبدیل نمیشوند.

3. مواد و روشها
برای غلبه بر محدودیت های شرح داده شده در مطالعات قبلی در مورد استخراج عناصر پلان طبقه و وظایف طبقه بندی، الزامات زیر تعریف شد.
- (1)
-
چارچوب باید عناصر فضایی مانند اتاق ها را به همراه عناصر اصلی (دیوارها، درها و غیره) و نمادها شناسایی و طبقه بندی کند.
- (2)
-
چارچوب باید با داده های شطرنجی شروع شود و داده های برداری خروجی بدون انتزاع شکل را حفظ کند.
- (3)
-
چارچوب باید یادگیری استقرایی را با جدا کردن مجموعهای از نمودارها با انواع و اندازههای مختلف در واحدهای نمودار انجام دهد، نه یادگیری انتقالی که با یک گراف بزرگ سر و کار دارد.
برای برآورده ساختن این الزامات، توسعه و گسترش ایده های مورد استفاده در [ 20 ]، ما چارچوب جدیدی را به شرح زیر پیشنهاد می کنیم. تصویر پلان طبقه شطرنجی به عنوان داده ورودی به چارچوب داده می شود. تصویر ابتدا از قبل پردازش می شود تا یک تصویر باینریزه به دست آید تا بردار شود. مناطق بسته در تصویر پس از فرآیند برداری به چند ضلعی تبدیل می شوند. پس از آن چند ضلعی های دارای ویژگی های شکل به یک نمودار مجاورت منطقه (RAG) با توجه به رابطه مجاور آنها با چند ضلعی های همسایه تبدیل می شوند. سپس RAG برای آموزش مدل GNN وارد شبکه عصبی می شود. خروجی نهایی فریم ورک مجموعه ای از چند ضلعی ها با کلاس های مختلف است. نمای کلی چارچوب پیشنهادی در شکل 1 نشان داده شده است .
3.1. پیش پردازش و برداری تصویر
مرحله پیش پردازش ممکن است بسته به سبک چیدمان پلان های طبقه متفاوت باشد، اما بیشتر شامل حذف متن و باینری سازی است. سه کانال تصویر پلان طبقه ورودی (قرمز، آبی و سبز) در یک کانال ادغام شده و باینری می شوند. اطلاعات متنی با استفاده از الگوریتم OCR حذف می شود. سپس تصویر پردازش شده بردار می شود. دی [ 6] فرض می شود که فقط دیوارها به صورت خطوط سیاه ضخیم در طرح پلان به تصویر کشیده می شوند. بنابراین، خطوط ضخیم و نازک را می توان با استفاده از تبدیل مورفولوژیکی تشخیص داد و خطوط ضخیم را می توان به عنوان دیوار در نظر گرفت. با این حال، این رویکرد را فقط می توان برای سبک های پلان طبقه خاص اعمال کرد، زیرا در بسیاری از موارد، دیوارها را می توان به عنوان مناطق سفید نشان داد. برای بردار کردن تصویر بدون توجه به سبک طراحی پلان، ما انتخاب کردیم که مناطق سفید و سیاه را به طور جداگانه بردار کنیم.
روند دقیق به شرح زیر است. یک ناحیه بسته که توسط پیکسل های سیاه در تصویر احاطه شده است به یک شی چند ضلعی تبدیل می شود. به همین ترتیب، مجموعه ای از چند ضلعی ها از تمام مناطق سفید بسته در پلان تولید می شود ( شکل 2 ج). اگر چیدمان پلان طبقه شامل مناطق سیاه باشد، چند ضلعی خالی با اندازه پلان طبقه ( شکل 2 ب) عملیات تفاوت را در مجموعه چند ضلعی سفید انجام می دهد. این مجموعه دومی از چند ضلعی ها را ایجاد می کند که نواحی سیاه را در پلان طبقه نشان می دهد ( شکل 2د). از آنجایی که ما تصویر را باینریزه کردیم، تنها دو رنگ در تصویر وجود دارد که این امکان را فراهم میکند که هر ناحیه از تصویر را بدون توجه به سبک طراحی یا طرحبندی به چند ضلعی تبدیل کنیم. در نهایت، دو مجموعه چند ضلعی ادغام می شوند و مجموعه کامل چند ضلعی ها ایجاد می شود ( شکل 2 e). در طی این فرآیند، مناطق اشغال شده توسط خطوط پیکسلی که چند ضلعی ها را احاطه کرده اند، در چند ضلعی ها گنجانده نمی شوند. بنابراین، چند ضلعی ها با ضخامت خط پیکسل قبل از اجرای عملیات تفاوت بافر می شوند ( شکل 2 f). بافر کردن چند ضلعی بسیار مهم است زیرا، اگر چند ضلعی ها از یکدیگر جدا شوند، هنگام ساخت نمودار مجاورت، عملیات مجاورت نادرست برمی گردد. در نظر گرفتن ضخامت خط پیکسل t، پارامتر فاصله بافر به عنوان انتخاب می شود تی/2، زیرا هر خط پیکسل باید توسط دو چند ضلعی از دو جهت پوشانده شود.
3.2. تبدیل نمودار مجاورت منطقه (Rag) و استخراج ویژگی
الگوریتم 1 فرآیند تبدیل RAG را توصیف می کند. ابتدا یک نمودار خالی G ایجاد می شود و برای هر عنصر چند ضلعی p در مجموعه چند ضلعی P ، مرکز چند ضلعی p ( vپ) به عنوان یک گره اضافه می شود. برای ساختن مجموعه لبه های G ، p یک عملیات INTERSECTS را روی چند ضلعی دیگر اجرا می کندq∈پ،q≠پ. با بقیه عناصر چند ضلعی در P ، p باید عملیات INTERSECTS را اجرا کند|پ|-1بار، و تعداد تکرارها برای P به صورت تصاعدی با تعداد گره ها افزایش می یابد. برای کاهش تعداد تکرارها و پیچیدگی، به جای دو حلقه تو در تو، از STRtree [ 21 ] استفاده کردیم که یک الگوریتم نمایه سازی فضایی بر اساس درخت R است . درخت یک مجموعه چند ضلعی Q حاصل را برمی گرداند زمانی که p از INTERSECTS سایر اشیاء فضایی پرس و جو کند . اگر یک عنصر چند ضلعی q در Q باشد و مساحت q بزرگتر از پارامتر مساحت حداقل m باشد ، یال بین vپو vqبه مجموعه لبه E اضافه می شود . با استفاده از STRtree ، پیچیدگی زمانی فرآیند تبدیل RAG کاهش می یابد O(n2)به O(nورود به سیستممترn). n تعداد چند ضلعی ها (گره ها) و m تعداد ورودی های درخت است.
الگوریتم 1: تبدیل RAG |
![Ijgi 10 00097 i001]() |
نمودار ساخته شده جی=(V،E)از مجموعه گره تشکیل شده است Vو لبه مجموعه E، که نشان دهنده رابطه مجاور بین گره ها در طرح پلان طبقه است. یک گره چند ضلعی vپبه عنوان مرکز p شناخته می شود و بردار ویژگی منحصر به فرد خود را دارد ایکسvپ∈ایکسv. ایکسvماتریس ویژگی G است که اندازه آن تعداد است Vو بعد بردار ویژگی گره دv. هپqعنصری از مجموعه لبه E است که نحوه گره های چند ضلعی را نشان می دهد vپو vqبه یکدیگر متصل هستند. یک لبه نیز بردار ویژگی خاص خود را دارد ایکسهپq∈ایکسه. هر بردار ویژگی لبه دارد دهامکانات. اگر ده=1، ویژگی لبه را به عنوان مقدار وزن بین دو گره در نظر می گیریم. RAG G ساخته شده به شرح زیر است:
در چارچوب، ما از چهار ویژگی برای ایکسvو یک ویژگی واحد برای ایکسه(مقدار وزنی). بردار ویژگی گره برای گره vپ( ایکسvپ∈ایکسv) شامل مساحت p ، درجه گره، ممان مرکزی نرمال شده مرتبه 1 و 1 برای چند ضلعی، و ممان زرنیک [ 22 ] از مرتبه 4 و تکرار 2 است. ایکسvپ∈آر4). دو ممان مورد استفاده مقیاس و چرخش ثابت هستند. بردار ویژگی لبه ایکسهپq∈ایکسهاز فاصله اقلیدسی بین دو گره آن تشکیل شده است (vپ،vq). ویژگی های لبه از پارامتر ابعاد ویژگی لبه به عنوان وزن های G در نظر گرفته می شوندده=1. مجموعه چند ضلعی P و RAG G برای هر طرح پلان طبقه در مجموعه داده ها ساخته می شوند. در بخش بعدی، مدلهای مختلف GNN را برای طبقهبندی کلاسهای چندضلعی در P با استفاده از G توضیح خواهیم داد.
3.3. مدل های شبکه عصبی نموداری
یک GNN پیشبینیهایی را بر روی وظایف مختلف انجام میدهد، مانند طبقهبندی گره، پیشبینی لبه و طبقهبندی گراف. مانند سایر مدلهای یادگیری عمیق، یک بردار جاسازی منحصر به فرد از هر موجودیت در مجموعه داده هدف استخراج میکند و شباهت آن را با سایر بردارهای جاسازی مقایسه میکند تا نتیجه را تا حد امکان نزدیک به دادههای برچسب پیشبینی کند. دامنه مورد علاقه GNN متفاوت است، از جمله گره ها، لبه ها، نمودارها و زیرگراف ها [ 23 ]. GNN ماتریس مجاورت A و ماتریس ویژگی X از گراف هدف را به عنوان ورودی می گیرد. A نشان دهنده رابطه بین گره ها و X استبردار ویژگی را برای هر گره در نمودار هدف نگه می دارد. اگر ویژگی ها در لبه ها یافت شوند، می توان آنها را به مقدار A اضافه کرد یا به عنوان یک ماتریس ویژگی لبه جداگانه در نظر گرفت.
GNN چندین لایه دارد و هر لایه از توابع AGGREGATE و UPDATE تشکیل شده است. تابع AGGREGATE اطلاعاتی را که از گره های همسایه به دست می آید را جمع می کند و پیامی را برمی گرداند. تابع UPDATE بردار تعبیه گره هدف و پیام را برای به روز رسانی بردار جاسازی پنهان جدید گره هدف ترکیب می کند. این فرآیند را ارسال پیام می نامند. فرآیند انتشار رو به جلو یک مدل GNN وانیلی برای تولید بردار تعبیهشده جدید گره v در لایه k میتواند به صورت زیر باشد [ 24 ]:
جایی که ن(v)مجموعه گره های مجاور v و استساعتتوک-1بردار تعبیه نهفته است تو∈ن(v)در لایه ک-1. تجمیعکبردارهای جاسازی شده را جمع می کند تا پیام را برگرداند مترن(v)ک. به روز رسانیکطول می کشد مترن(v)کبا ساعتvک-1، که بردار جاسازی گره v در لایه است ک-1به عنوان ورودی و بردار تعبیه گره v را در لایه k ایجاد می کند. هر دو تجمیعکو به روز رسانیکتوابع قابل تمایز دلخواه در لایه k (یعنی شبکه های عصبی) هستند. بسته به وظیفه ای که مدل می خواهد حل کند، این دو تابع را می توان به روش های مختلفی تعریف کرد. تعریف تابع AGGREGATE به گرههای همسایه اجازه میدهد تا تعیین کنند که چگونه بر گره هدف تأثیر میگذارند، و تابع UPDATE نحوه ترکیب پیام و بردار جاسازی گره هدف لایه قبلی و نحوه تولید بردار جاسازی را تعیین میکند.
هدف ما طبقهبندی گرههای چند ضلعی با استخراج بردارهای تعبیه پنهان برای هر گره در نمودار پلان طبقهبندی است که به عنوان یک وظیفه طبقهبندی گره طبقهبندی میشود. عملکرد یک مدل GNN برای طبقه بندی گره ها به شدت به ساختار شبکه آن بستگی دارد، نه تنها با توجه به توابع مورد استفاده برای AGGREGATE و UPDATE، بلکه با توجه به تعداد لایه ها. با افزایش تعداد لایه ها، اطلاعات گره همسایگی گسترده تر می شود. این شبیه به میدان پذیرنده یک پیکسل هدف در CNN است. با افزایش تعداد لایه ها، میدان پذیرنده گسترده می شود.
3.3.1. یک نوع GNN برای یادگیری استقرایی روی نمودارها
بیشتر مدلهای GNN یک گراف بزرگ مانند یک شبکه اجتماعی را هدف قرار میدهند که بر تولید گرههای جاسازی شده از یک گراف ثابت متمرکز است. با این حال، از نقطه نظر کاربرد دنیای واقعی، یک مدل GNN که بردارهای جاسازی شده برای گرههای دیده نشده، یا نمودارهای کاملاً جدید را تولید میکند، مورد نیاز است [ 17 ]. شکل 3تفاوت بین یادگیری انتقالی و یادگیری استقرایی را در نمودارها توضیح می دهد. مطالعه ما همچنین به مدل GNN یادگیری القایی نیاز داشت زیرا مجموعه داده های پلان طبقه عمدتاً از پلان های مختلف طبقه تشکیل شده است و هر پلان طبقه به یک نمودار منحصر به فرد تبدیل می شود. یادگیری استقرایی امکان پیشبینی در این نمودارهای کاملاً دیده نشده را فراهم میکند. ما مدل GNN مبتنی بر یادگیری استقرایی را بر روی نمودارهای پلان طبقه مجموعه آموزشی آموزش دادیم، و مدل کلاسهای گرهها را در نمودارهای طرح طبقه مجموعه آزمایشی پیشبینی کرد.
بسیاری از مدل های GNN مبتنی بر فضایی موجود، مدل های GNN مبتنی بر یادگیری انتقالی هستند [ 16 ، 18 ]، در حالی که GraphSAGE [ 17 ] بر اساس یادگیری استقرایی است. GraphSAGE یک چارچوب استقرایی کلی برای تولید بردارهای نهفته جاسازی گره های کاملاً نادیده است. در مدل GraphSAGE که از لایه های K تشکیل شده است، الگوریتم تولید بردار جاسازی گره v در لایه k به شرح زیر است:
جایی که دبلیوکیک ماتریس پارامتر وزن است که باید آموزش داده شود و σیک تابع فعال سازی غیر خطی است (به عنوان مثال، تابع سیگموئید). تابع UPDATE در GraphSAGE یک تابع الحاق ضرب در ماتریس وزن است.
بردار اولیه گره v بردار ویژگی گره ورودی است، و با افزایش تعداد لایه ها، بردار جاسازی گره v اطلاعاتی را که از همسایگان دورتر می آید نگه می دارد. این بدان معناست که اگر ک=0، ساعتv0است ایکسv∈ایکسv، و ساعتvکتمام اطلاعات همسایه های داخل K- hops از v را در نمودار جمع می کند. همیلتون و همکاران [ 17 ] تفاوت عملکرد را در میان توابع مختلف AGGREGATE نشان داد. برای تابع AGGREGATE، آنها از عملگر MEAN (مشابه GCN [ 16 ])، یک لایه LSTM و یک تابع POOL بر اساس عملگر MAX با پارامتر ماتریس وزن استفاده کردند. بر خلاف دیگران، LSTM تغییر ناپذیر نیست، اما عملکرد و بیان قوی را نشان می دهد زیرا شبکه های عصبی اضافی را آموزش می دهد [ 17 ].
3.3.2. یک مدل GNN برای استفاده از ویژگی وزن فاصله
نموداری که یک مثال واقعی را توصیف می کند ممکن است نه تنها ویژگی های گره، بلکه ویژگی های لبه را نیز داشته باشد. در شبکه های فضایی، فاصله بین دو گره را می توان به عنوان یک ویژگی لبه یا مقدار وزن نمودار [ 25 ] بیان کرد. مقادیر وزن لبه یک ویژگی مهم است زیرا رابطه بین گره ها را در یک نمودار فضایی توصیف می کند. طبق قانون اول جغرافیا، گرههای همسایه که نزدیک به یک گره هدف هستند، باید در مقایسه با سایر همسایههایی که از گره هدف دور هستند، ارزشهای توجه نسبتاً بالایی داشته باشند [ 12 ].
با این حال، بیشتر مدلهای GNN موجود از ویژگی لبه در شبکههای خود استفاده نمیکنند. مطالعاتی که از ویژگی لبه در وظایف طبقهبندی گره و نمودار استفاده کردهاند، بر ویژگیهای چند بعدی تمرکز کردهاند، نه ویژگیهای تک بعدی مانند مقادیر وزن در شبکههای فضایی [ 26 ، 27 ]. گلیمر و همکاران [ 26 ] مدلی را پیشنهاد کرد که از ویژگی های لبه در فرآیند ارسال پیام استفاده می کند. با این حال، مدل آنها بسیار کلی است، زیرا تابع پیام است متیروش خاصی نیست و می تواند هر تابعی باشد. یک مدل GNN که بتواند شبکههای فضایی متشکل از گرهها و وزنهای فاصله را مدیریت کند، مورد نیاز است.
ما یک مدل GNN مبتنی بر یادگیری القایی جدید به نام شبکه عصبی نمودار وزنی فاصله (DWGNN) پیشنهاد میکنیم. DWGNN یک مدل مبتنی بر GraphSAGE است که در آن مکانیسم ویژگی لبه در فرآیند ارسال پیام اعمال میشود. نمودار هدف آن یک شبکه فضایی را نشان می دهد که در آن فاصله بین گره ها یک مقدار وزن یک بعدی است. هنگامی که DWGNN اطلاعات همسایه را جمع می کند، مقادیر توجه را به بردارهای تعبیه شده گره های همسایه با توجه به فاصله نسبی از گره هدف اختصاص می دهد. روند به روز رسانی DWGNN به شرح زیر است.
جایی که هن(v)بردار وزن فاصله گره v و مجموعه گره همسایه آن است ن(v)و ⊙ نشان دهنده ضرب عنصر است. Softmin تابعی است که هر عنصر را تبدیل می کند هن(v)به ارزش توجه به صورت زیر تعریف می شود
مشابه تابع softmax که هر عنصر از بردار ورودی را به مقداری بین تبدیل می کند [0،1]و مجموع همه مقادیر تبدیل شده برابر با 1 است، مانند یک مقدار احتمال، تابع softmin یک بردار نرمال شده را برمی گرداند که در آن هر عنصر اگر مقدار وزن آن نسبتاً کوچکتر از سایر عناصر باشد، مقدار توجه بیشتری را دریافت می کند. این به گره های مجاور نزدیک ارزش توجه بیشتری نسبت به گره های دور از هم اختصاص می دهد. علاوه بر این، مانند GraphSAGE، تابع AGGREGATE DWGNN را می توان بین توابع مختلف مانند SUM، MEAN، MAX و LSTM انتخاب کرد. روند به روز رسانی DWGNN در شکل 4 نشان داده شده است . اگر وزن ها نقش مهمی در یک شبکه فضایی ایفا کنند، DWGNN می تواند یک مدل GNN مناسب برای تجزیه و تحلیل چنین نمودارهایی باشد.
4. نتایج
4.1. مجموعه داده ها
برای آزمایش و ارزیابی چارچوب پیشنهادی، آزمایشهایی را روی دو معیار پلان طبقه مختلف، همراه با یک مجموعه داده افزوده شده انجام دادیم. ما از مجموعه داده های پلان طبقه که در کارهای قبلی استفاده شده بود استفاده نکردیم، زیرا تصاویر شطرنجی آنها نویز زیادی داشت و/یا وضوح بسیار پایین بود (به عنوان مثال، R2V [ 8 ]، RF-P [ 9 ]) یا قادر نبود. به دست آید (ILPIso [ 20 ]). ما مسائل مربوط به کاربرد را به طور مفصل در بخش 5 مورد بحث قرار خواهیم داد. در ادامه، به دو مجموعه داده پلان طبقه متفاوتی که در آزمایشها استفاده کردیم، خواهیم پرداخت. هر دو مجموعه داده از کلاس های ساختاری پایه و کلاس های عناصر فضایی همراه با کلاس شی تشکیل شده اند. کلاس آبجکت شامل مبلمان و تأسیسات مختلفی است که در یک محیط داخلی مانند کابینت، صندلی یا توالت قرار می گیرند. هر شی دیگری که در یک دسته ساختاری یا فضایی نباشد به کلاس شی اختصاص داده می شود.
CubiCasa5K [ 28] (CubiCasa) مجموعه داده شامل 5000 پلان طبقه آپارتمان مختلف است. کیفیت تصاویر پلان زمین از تصاویر تمیز و بدون نویز گرفته تا تصاویر خط خورده یا نویزدار متفاوت است. آنها به سه دسته تقسیم می شوند: کیفیت بالا، کیفیت معماری بالا و رنگارنگ. ما از تصاویر پلان طبقه با برچسبگذاری شده با فرمت SVG که توسط کارشناسان به صورت دستی حاشیهنویسی شدهاند، به عنوان دادههای ورودی، با تبدیل آنها به دادههای تصویر شطرنجی استفاده کردیم. بعد از اینکه چند ضلعی ها را بردار کردیم، چند ضلعی ها را به هشت کلاس طبقه بندی کردیم: چهار کلاس عناصر ساختاری (دیوارها، پنجره ها، درها و پله ها)، سه کلاس عنصر فضایی (اتاق ها، ایوان ها و فضای بیرونی)، و کلاس شی شامل: نمادهای مختلف ما 400 تصویر پلان طبقه با کیفیت بالا را انتخاب کردیم و آنها را به طور مساوی به مجموعه های آموزشی و آزمایشی تقسیم کردیم.
مجموعه دادههای دانشگاه سئول (UOS) که شامل پلانهایی برای هفت طبقه از ساختمان قرن بیست و یکم در دانشگاه سئول است، برای ارزیابی اینکه آیا این چارچوب برای دادههای پلان زمین بزرگ به همراه موارد نسبتاً کوچک، مانند CubiCasa5K قابل اجرا است یا خیر، استفاده شد. ما داده های پلان طبقه CAD را به داده های شطرنجی صادر کردیم. ما عناصر پلانهای برداری را به نه کلاس طبقهبندی کردیم: پنج کلاس عناصر ساختاری (شامل آسانسور)، سه کلاس عنصر فضایی (اتاقها، راهروها و اتاقهای X)، و کلاس شی. اگرچه تعداد پلان ها به دلیل مسائل امنیتی محدود است، اگر چارچوب قادر به تعمیم و طبقه بندی عناصر داخلی در UOS باشد، می توان گفت که چارچوب با تعداد کمتری از پلان های طبقه به خوبی کار می کند. ما از یک استراتژی اعتبارسنجی متقابل هفت برابری استفاده کردیم. هر جلسه شامل شش برنامه آموزشی و یک برنامه برای آزمون بود. میانگین نتیجه نهایی در هر هفت جلسه بود.
4.2. مدل های GNN
ما چهار مدل GNN را برای مقایسه عملکرد پیادهسازی کردیم. ما آزمایشهای یادگیری استقرایی را تحت شرایط و تنظیمات یکسان انجام دادیم. در زیر مدل های استفاده شده GNN آورده شده است.
- (1)
-
GCN [ 16 ]: شبکههای پیچیدگی نمودار گرههای همسایه گره هدف را با استفاده از یک گراف نرمال شده متقارن لاپلاسی جمعآوری میکنند. D˜-12آ˜D˜-12ساخته شده با نمودار مجاورت خود حلقه آ˜=آ+منو یک ماتریس درجه مورب D˜=∑jآمنj˜. بردارهای جاسازی گره های هدف با جمع کردن اطلاعات گره های همسایه و نمایش بر روی یک ماتریس وزن ایجاد می شوند. روند به روز رسانی GCN است
جایی که جvتویک ثابت عادی سازی برای لبه است (v،تو)نشات گرفته از D˜-12آ˜D˜-12.
- (2)
-
GIN [ 18 ]: یک شبکه ایزومورفیسم نمودار برای به حداکثر رساندن قدرت تمایز و بازنمایی هر گره در یک گراف پیشنهاد شد. تقریباً همان عملکردی را نشان میدهد که آزمون همشکلی گراف Weisfeiler-Lehman [ 29 ]. ما از عملیات MAX، MEAN و SUM به عنوان تابع AGGREGATE در آزمایشات خود استفاده کردیم. روند به روز رسانی GIN است
جایی که MLPکیک پرسپترون چند لایه است که در لایه k قرار می گیرد تا قدرت تمایز بردارهای تعبیه شده تولید شده را به حداکثر برساند. همراه با MLP ها ϵکیک پارامتر اسکالر در لایه k است که باید آموزش داده شود. رفع کردیم ϵک=0.
- (3)
-
GraphSAGE [ 17 ]: ما از همان مدلی استفاده کردیم که در بخش 3.3.1 معرفی شد. MEAN از آزمایش حذف شد زیرا تفاوت زیادی با قانون انتشار GCN ندارد. هنگام استفاده از جمع کننده POOL، یک ماتریس وزن قبل از عملیات MAX اضافه شد تا قدرت بیان تابع پیام افزایش یابد. جمع کننده POOL به صورت زیر تعریف می شود:
- (4)
-
DWGNN: مدل توسعه یافته توسط نویسندگان و معرفی شده در بخش 3.3.2 اجرا شد. MAX، MEAN، SUM و LSTM برای تابع AGGREGATE در آزمایش ما استفاده شد.
4.3. جزئیات پیاده سازی
در آزمایش ما، هر تصویر پلان طبقه از مجموعه داده ها بردار شده و با توجه به شرایط کلاس که قبلا توضیح داده شد برچسب گذاری شد. پارامترهای مورد استفاده در فرآیند برداری، پارامتر حداقل مساحت m برابر 20 و t به عنوان 2 بود. تمام ویژگیهای گره و لبه در نمودارها با استفاده از تکنیک استانداردسازی مقیاسبندی شدند. برای آموزش مدلهای GNN، از بهینهساز Adam با نرخ یادگیری اولیه 0.01 استفاده کردیم. نرمال سازی دسته ای [ 30 ] برای هر لایه پنهان برای CubiCasa اعمال شد. تعداد لایه های پنهان برای هر مدل GNN شش لایه بود و MLP ها دو لایه برای GIN داشتند [ 31]. فراپارامترهای آزمایشها عبارت بودند از: (1) تعداد ابعاد پنهان برای لایههای پنهان به 128 ثابت شد. (2) برای CubiCasa، مینی دسته ای از 10 نمودار برای هر تکرار تنظیم شد و هیچ دسته کوچکی برای UOS تنظیم نشد، زیرا ما از استراتژی اعتبارسنجی متقابل برای آن استفاده کردیم. (3) تعداد دورهها برای همه مدلهای GNN بهجز مدلهای مبتنی بر یادگیری استقرایی با یک جمعکننده LSTM (تنظیم شده روی 300) روی 1000 تنظیم شد. از آنجایی که LSTM پارامترهای بیشتری برای آموزش دارد، دورههای مدلهای مبتنی بر یادگیری استقرایی با یک جمعکننده LSTM کمتر از مدلهای دیگر تنظیم شد.
ویژگیهای سختافزاری مورد استفاده برای آزمایشها، پردازنده Intel i7-9700KF، پردازنده گرافیکی NVIDIA GeForce GTX 1660 Ti و 64 گیگابایت رم بود. برای پیادهسازی کد، از بسته Rasterio برای برداری و از بستههای Shapely، GeoPandas، NetworkX برای ایجاد و مدیریت بردارها و نمودارهای چندضلعی استفاده کردیم. مدلهای GNN با استفاده از Deep Graph Library [ 32 ] با باطن PyTorch ساخته شدند. کد در https://github.com/LymanSong/FP_GNN موجود است (در 22 فوریه 2021 قابل دسترسی است).
4.4. آزمایش بر روی مجموعه داده Cubicasa
جدول 1 نتایج کلاس های پیش بینی شده عناصر در مجموعه آزمایشی CubiCasa را با استفاده از مدل های مختلف GNN و روش های کل نشان می دهد. در میان مدل های GNN، GraphSAGE بالاترین دقت را نشان داد. علاوه بر این، روش LSTM aggregate بالاترین نتایج را نشان داد.
دقت پله ها در همه مدل ها نسبتا پایین بود. به این دلیل که با توجه به اینکه پله ها به صورت مجموعه ای از چند ضلعی های مستطیلی به تصویر کشیده می شوند، مستطیل ها اغلب در کلاس های عناصر مختلف ظاهر می شوند. علاوه بر این، چند ضلعی های پله ای با اشکال مختلف در یک کلاس واحد مشترک هستند و تعداد پلان ها از جمله پله ها به طور قابل توجهی کمتر است. از سوی دیگر، پنجرهها و درها دارای دقت بالایی هستند، ظاهراً به این دلیل که هر یک از آنها ساختار بسیار مشخصی در سبک طراحی CubiCasa دارند.
ما میتوانیم دریافتیم که در مقایسه با مدلهای مبتنی بر یادگیری انتقالی (GCN و GIN)، مدلهای مبتنی بر یادگیری استقرایی (GraphSAGE و DWGNN) در تشخیص عناصر فضایی به خوبی عمل کردند. در جدول 1DWGNN با روش SUM در مقایسه با GIN با روش SUM کمی کمتر عمل کرد، اما در مورد عناصر فضایی (اتاق ها، ایوان ها و فضاهای بیرونی) بهتر از GIN با SUM طبقه بندی شد. اگر کلاسهای عنصر را به دو کلاس (فضایی و غیر فضایی) تقسیم کنیم، مدلهای مبتنی بر یادگیری استقرایی، کلاسهای فضایی را بسیار بهتر از مدلهای مبتنی بر یادگیری انتقالی یافتند. این بدان معناست که مدلهای استقرایی میتوانند ویژگیهای کلاسها را به خوبی تعمیم دهند و به راحتی ویژگیهای غالب را روی دادههای دیده نشده بیابند، مانند پیشبینی فضایی یا غیرمکانی بودن آن با نگاه کردن به ویژگی ناحیه.
شکل 5 نتایج تجسم نمونه هایی از پلان های طبقه را نشان می دهد که از طریق چارچوب پیشنهادی تحلیل شده اند. فریم ورک ابتدا تصاویر ورودی را بردارید و آنها را به RAG تبدیل می کند. سپس مدلهای GNN آموزشدیده این نمودارها را به عنوان ورودی میگیرند و ویژگیهایی را برای پیشبینی کلاسهای چندضلعیها استخراج میکنند. در مقایسه با حقایق پایه، مدلهای مبتنی بر یادگیری استقرایی میتوانند طبقات پایه و عناصر فضایی را به خوبی طبقهبندی کنند. از سوی دیگر، مدلهای مبتنی بر یادگیری انتقالی قادر به پیشبینی برخی کلاسهای عناصر پایه و فضایی نیستند. به ویژه، GCN و GIN نتوانستند درها و دیوارها را به درستی پیدا کنند. همانطور که قبلا گفته شد، همه مدل ها پله ها را به اشتباه طبقه بندی کردند.
4.5. آزمایش بر روی پلان های بزرگ و پیچیده طبقه: Uos و Uos-Aug
پلان های مساحت کوچک دارای چند ضلعی های کمتری هستند و RAG های آنها ساختار نسبتاً ساده ای در مقایسه با ساختمان های بزرگ و پیچیده دارند. ما آزمایشاتی را بر روی پلان های بزرگ و پیچیده طبقه انجام دادیم تا چارچوب خود را آزمایش کنیم. پلان های طبقه مجموعه داده UOS بزرگ و پیچیده بود، بنابراین چند ضلعی های زیادی با روابط پیچیده ایجاد شد. تعداد پلان های طبقه در مجموعه داده UOS هفت بود، بنابراین ما از یک استراتژی اعتبارسنجی متقابل هفت برابری استفاده کردیم. هر جلسه شامل شش طرح برای آموزش و یک برنامه برای تست بود. جدول 2 نتایج آزمایش روی مجموعه داده UOS را نشان می دهد.
نمره دقت کلی کمتر از مجموعه داده CubiCasa بود. کلاس عنصر فضایی در مقایسه با مجموعه داده CubiCasa عملکرد ضعیفی داشت زیرا کلاسهای غیرمکانی در مجموعه دادههای UOS دارای دربها و بالابرهای بزرگ بودند که مساحت آنها بزرگ بود و میتوان به کلاس فضایی اضافه کرد. مانند مجموعه داده CubiCasa، مدلهای مبتنی بر یادگیری انتقالی در مقایسه با مدلهای مبتنی بر یادگیری استقرایی عملکرد کمتری داشتند. برخلاف آزمایش قبلی، GraphSAGE با جمعکننده LSTM در هر کلاس عنصر رتبه اول را کسب نکرد، و برای پلهها و راهروها، DWGNN بهتر از GraphSAGE با LSTM عمل کرد ( جدول 2 را ببینید).). این به این دلیل است که اشکال عناصر پله در مقایسه با CubiCasa تعریفتر هستند و DWGNN میتواند مجموعه ساختاریافته چندضلعیها را تعمیم دهد و الگوهای تشکیل آنها را بهتر از GraphSAGE بیابد. برای راهروها، آنها تمایل دارند به بسیاری از عناصر دیگر با فواصل مربوطه مرتبط شوند، و بنابراین تعمیم DWGNN در مورد ویژگی های راهروها را با در نظر گرفتن مقادیر توجه آسان می کند (نشان داده شده در شکل 6 ).
از آنجایی که تعداد طرحها در مجموعه داده UOS محدود بود، تعمیم ویژگیهای کلاسها دشوار بود. اگر یک مدل GNN گرهای داشته باشد که قبلاً دیده نشده است، گره نه تنها بر روی خود تأثیر میگذارد، بلکه گرههای همسایه را تا K hops نیز تحت تأثیر قرار میدهد. این به این دلیل رخ می دهد که GNN ویژگی طیف وسیع تری از گره ها را با افزایش تعداد لایه ها جمع می کند. علاوه بر این، مدل GNN ممکن است به سادگی مجموعه داده های آموزشی را به خاطر بسپارد زیرا تعداد طرح ها محدود است. برای کاهش این مشکلات، ما مجموعه داده UOS را با استفاده از یک تبدیل افین افزایش دادیم. برای همه نقاط در مجموعه چند ضلعی های پلان طبقه، یک نقطه در مورد مبدا با ضریب مقیاس 0.7 مقیاس بندی شد، سپس بر روی محور y چرخانده شد. پس از آن، چند ضلعی ها را 90 درجه در خلاف جهت عقربه های ساعت چرخاندیم ( شکل 7 را ببینید). فرمول تبدیل به شرح زیر است.
ما یک مجموعه داده جدید UOS-aug را تشکیل دادیم که شامل هفت پلن افزوده شده با طرح های اصلی UOS است. از آنجایی که عملکرد طبقهبندی از طریق افزایش دادهها بهبود یافته است، میتوان نتیجه گرفت که نتایج مدل GNN نسبت به مقیاس و چرخش ثابت است. علاوه بر این، این ثابت میکند که مدل GNN الگوی بهروزرسانی بردارهای تعبیهشده آن گره را در رابطه با همسایگان هر گره، به جای به خاطر سپردن ساختار ترسیم، میآموزد. نتایج در جدول 3 نشان داده شده است.
نتایج در مقایسه با جدول 2 بهبود یافته است. اگرچه طرحهای افزوده شده تغییرات زیادی را پشت سر گذاشتهاند، اما بهصورت مکمل با طرحهای اصلی کار میکنند، به این معنی که مدلهای GNN نسبت به مقیاس و چرخش ثابت هستند. این ثابت میکند که مدلهای GNN گرههای خود را با استفاده از رابطه و الگوهای میان گرهها و ویژگیهای درون هر گراف طبقهبندی میکنند، نه تشکیل و ترتیب گرهها.

5. بحث
مشارکت های کار ما به شرح زیر است. ابتدا، ما یک فرآیند شطرنجی به برداری برای تصاویر پلان طبقه مستقل از سبک طراحی ایجاد کردیم. با روش های پیش پردازش مناسب تصویر، می تواند هر نوع تصویر پلان طبقه را به داده های برداری چند ضلعی تبدیل کند. با بردار کردن تصویر پلان طبقه قبل از تقسیم بندی پیکسل، ما قادر بودیم نه تنها عناصر ساختاری، بلکه نمادها و عناصر فضایی را بدون از دست دادن اطلاعات شکل ثبت کنیم. دوم، برای طبقه بندی چند ضلعی ها، از رویکرد شبکه عصبی گراف استفاده کردیم. مدلهای GNN نسبت به مقیاس و چرخش ثابت هستند زیرا GNN ورودی را به عنوان یک نمودار میگیرد و ساختار دادههای گراف هیچ جایگشت ثابتی از گرهها ندارد. استفاده از GNN باعث می شود که چارچوب قوی و آسان برای تعمیم مجموعه داده های پلان طبقه از هر سبکی باشد. سوم، ما نیاز به مدلهای GNN یادگیری القایی را برای وظایف طبقهبندی عناصر پلان طبقه تعریف کردیم و از میان بسیاری از مدلهای GNN، مدل مناسب (GraphSAGE) را انتخاب کردیم. علاوه بر این، ما یک مدل GNN جدید ایجاد کردیم که با استفاده از تابع softmin، مقدار وزن فاصله را در فرآیند ارسال پیام در نظر گرفت.
در حالی که نتایج نشان داد که چارچوب ما میتواند عناصر پلان طبقه چند برچسبدار را شناسایی و طبقهبندی کند، چند محدودیت به شرح زیر استخراج شد. ویژگی هایی که در حال حاضر در ماتریس ویژگی چند ضلعی ها استفاده می شوند قابل توجه هستند، اما اگر از اطلاعات ویژگی های اضافی استفاده کنیم که به طور کامل چند ضلعی ها را در بین انواع مختلف عناصر پلان طبقه بندی توصیف می کند، امکان طبقه بندی اضافی وجود دارد. چارچوب پیشنهادی نتیجه را در قالب برداری خروجی می دهد، که استفاده از آن را در تحقیقات اضافی یا برنامه های کاربردی دنیای واقعی تسهیل می کند. به عنوان مثال، Zeng et al. [ 10 ] مدلهای سهبعدی نتایج حاصل از روش خود را نشان دادند، و خروجی چارچوب پیشنهادی از قبل دادههایی از نوع برداری است، که این کار را برای مدلسازی سهبعدی آسانتر میکند.
بر خلاف مدلهای مبتنی بر CNN، که در برابر تصاویر پر سر و صدا قوی هستند، استفاده از چارچوب پیشنهادی برای تصاویر نویزدار یا با وضوح پایین دشوار است. به خصوص در مرحله پیش پردازش تصویر، خروجی به شدت به نویز و وضوح بستگی دارد. به عنوان مثال، اگر مقادیر پیکسل نماد به دلیل وضوح پایین ناهموار باشد، درها تمایل دارند خط قوس دقیق را از دست بدهند و به چند ضلعی تبدیل نشوند. برای غلبه بر این محدودیت ها، می توان یک مدل تولید تصویر را اعمال کرد و در مرحله پیش پردازش استفاده کرد. با این حال، به دلیل ماهیت مدل تولیدی، انتظار بهبود دقیق در سطح پیکسل دشوار است. علاوه بر این، چارچوب ما از اطلاعات متنی در تصویر استفاده نمیکند، بنابراین استفاده از اطلاعات معنایی را غیرممکن میکند، که به صراحت ماهیت هر شی را نشان میدهد.
در بیشتر آزمایشها، DWGNN دقت کمی کمتر از GraphSAGE نشان داد. به این دلیل است که در مرحله تبدیل RAG، گره نمودار با مرکز چند ضلعی ها مطابقت دارد و مقدار وزن بین مختصات جفت گره ها محاسبه می شود، بنابراین از نگهداری اطلاعات شکل چند ضلعی ها جلوگیری می شود. به خصوص برای دیوارها یا فضای بیرونی، بیشتر مختصات گره که چند ضلعی ها را نشان می دهند، اغلب در جایی قرار می گیرند که چند ضلعی واقعی قرار ندارد. برای کاهش این مشکل، DWGNN از تابع softmin برای تخصیص مقادیر توجه استفاده می کند. با این حال، ویژگی های لبه بی معنی هنوز از آموزش مدل و پیش بینی صحیح کلاس ها جلوگیری می کند. با ماهیت DWGNN، فکر می کنیم که می تواند مدل مناسبی برای حل مسائل بهینه سازی ترکیبی در شبکه های فضایی باشد.
6. نتیجه گیری
این مقاله چارچوب جدیدی را برای استخراج و طبقه بندی عناصر در یک پلان طبقه ارائه می کند. بر خلاف رویکردهای قبلی که ابتدا تصویر پلان طبقه را بخش بندی می کردند، روش ما تصاویر پلان طبقه را بردار می کند و مجموعه چند ضلعی را به یک RAG تبدیل می کند. سپس مدل از یک GNN برای طبقهبندی گرهها در نمودار بر اساس ویژگیهای منحصر به فرد و رابطه همسایگی آنها استفاده میکند. یادگیری استقرایی بر روی نمودارهای پلان طبقه به منظور پیش بینی نمودارهای کاملاً دیده نشده انجام شد. چارچوب ما نه تنها کلاسهای عناصر و نمادهای پایه را طبقهبندی میکند، بلکه عناصر فضایی مانند اتاقها را نیز با خروجیهای فرمت برداری برای به حداقل رساندن انتزاع و از دست دادن اطلاعات شکل طبقهبندی میکند. برای ارزیابی عملکرد چارچوب پیشنهادی، ما آزمایشهایی را روی دو مجموعه داده پلان طبقه با مناطق و توزیعهای مختلف و یک مجموعه داده افزوده شده انجام دادیم. نتایج میزان دقت بالایی را در کار طبقهبندی با قدرت بیان خروجی نهایی نشان داد. با مقایسه مدلهای مختلف GNN، ما همچنین دریافتیم که مدلهای GNN مبتنی بر یادگیری استقرایی از مدلهای مبتنی بر یادگیری انتقالی بهتر عمل میکنند. به عنوان تحقیقات بیشتر، راهی برای مدیریت تصاویر پلان طبقه با وضوح پایین و بهبود عملکرد طبقه بندی با استخراج ویژگی های اضافی پیدا خواهیم کرد.
بدون دیدگاه