1. مقدمه
در سال های اخیر، پذیرش سنجش از دور در طیف گسترده ای از کاربردها به سرعت افزایش یافته است. با افزایش تعداد ماهواره های پرتاب شده در چند سال گذشته، سیل داده های رصد زمین (EO) وجود داشته است. با این حال، سرعت اکتشاف داده تا حد زیادی از سرعت تولید داده های EO توسط این سیستم عامل های سنجش از راه دور عقب است [ 1 ]]. تصاویر سنجش از دور که توسط این پلتفرمها ثبت میشوند، پتانسیل بالایی در درک بسیاری از پدیدههای طبیعی و همچنین انسانساز دارند. این عمدتاً به دلیل حجم و سرعت بسیار زیاد داده ها تا حد زیادی ناشناخته باقی می ماند. این امر مستلزم نیاز به روشهای نوآورانه و کارآمد برای کاوش و بهرهبرداری سریع از دادههای EO است. مشکل تحقیقاتی توانمندسازی ماشینها برای تفسیر و درک یک صحنه به عنوان یک انسان، توجه زیادی را در جامعه سنجش از دور به خود جلب کرده است.
حوزه درک صحنه سنجش از دور برای استخراج و بازیابی اطلاعات، تفسیر صحنه از جمله طبقهبندی پوشش زمین کاربری (LULC) و تشخیص تغییر در میان کاربردهای متعدد دیگر، در طول سالها به طور قابل توجهی تکامل یافته است. بیشتر تحقیقات در مورد این پارادایم بر روی مشکل اطلاعات کاوی و بازیابی از صحنه های سنجش از دور متمرکز شده است. کارهای قبلی [ 2 ، 3 ] روی مشکل شناسایی و بازیابی صحنه با مقایسه دادههای رادار دیافراگم مصنوعی (SAR) صحنههای مختلف با استفاده از رویکرد وارونگی صحنه مبتنی بر مدل با استنتاج بیزی تمرکز داشتند. این آثار مدلهای ریاضی را برای استخراج ویژگیهای فیزیکی سطح پایین صحنههای سهبعدی از تصاویر دوبعدی پیشنهاد و بحث میکنند. ارجاع [4 ] ادغام اطلاعات را برای درک صحنه با پیشنهاد نگاشت ویژگی های ابتدایی استخراج شده به معناشناسی سطح بالاتر که عناصر صحنه شهری را نشان می دهد، معرفی کرد.
تحقیقات قابل توجهی در زمینه استخراج اطلاعات تصویر برای تصاویر سنجش از دور انجام شده است که منجر به توسعه چارچوب های تصویر کاوی اطلاعاتی (IIM) متعددی در چند دهه اخیر شده است. سیستم GeoBrowse [ 5 ] یکی از اولین سیستم های IIM برای تصاویر سنجش از راه دور است. این سیستم که بر اساس اصول محاسبات توزیع شده توسعه یافته است، از یک پایگاه داده رابطه ای شی گرا برای ذخیره سازی داده ها و بازیابی اطلاعات استفاده می کند. سیستم اطلاعات کاوی دانش محور (KIM) [ 6 ، 7 ] بر روی منابع [ 2 ، 3 ] و مرجع [ 4 ] ساخته شد.] پیشنهاد استفاده از شبکههای بیزی را برای پیوند دادن برچسبهای معنایی تعریفشده توسط کاربر به فهرست محتوای جهانی ایجاد شده به شیوهای بدون نظارت ارائه کرد. سیستم بازیابی و نمایه سازی اطلاعات مکانی (GeoIRIS) [ 8 ] ویژگی های توصیفگر تخصصی را برای استخراج و نقشه برداری اشیاء خاص از صحنه های سنجش از راه دور، با پشتیبانی از پرس و جو توسط پیکربندی فضایی اشیاء برای بازیابی کاشی های صحنه سنجش از دور، شناسایی کرد. سیستم PicSOM [ 9 ] نقشه های خودسازماندهی را برای بهینه سازی بازیابی تصاویر بر اساس محتوای درخواست شده توسط کاربر اعمال کرد. همچنین روشهای تشخیص تغییر نظارت شده و بدون نظارت را علاوه بر شناسایی سازههای دستساز از تصاویر ماهوارهای پیشنهاد کرد. بازیابی دانش تصویر تعاملی هوشمند (I3KR) [ 1سیستم ] استفاده از هستی شناسی های وابسته به دامنه را برای کشف دانش پیشرفته از داده های رصد زمین پیشنهاد کرد. از ترکیبی از تکنیکهای نظارتشده و بدون نظارت برای تولید مدلهایی برای کلاسهای شی استفاده میکرد و به دنبال آن مفاهیم معنایی به کلاسها در هستیشناسی تخصیص داده میشد که بهطور خودکار با مکانیسمهای استنتاج مبتنی بر منطق به دست میآمد. چارچوب استخراج اطلاعات تصویر فضایی [ 10 ] با الهام از I3KR [ 1 ]] بر مدلسازی روابط جهتی و توپولوژیکی بین مناطق در یک تصویر و توسعه نمودار معنایی فضایی متمرکز شده است. SIIM همچنین یک مدل مبتنی بر چارچوب توصیف منبع (RDF) برای نمایش یک تصویر، مرتبط کردن مناطق با کلاسها و روابط آنها، هم جهتی و هم توپولوژیکی، در میان خود، همراه با ابردادههای ساختاری، مانند مختصات جغرافیایی و زمان دریافت، پیشنهاد کرد.
هر یک از سیستمهای استخراج اطلاعات تصویر برای تصاویر سنجش از دور که در بالا ذکر شد، تلاش کردهاند تا مشکل بازیابی مؤثر اطلاعات مبتنی بر محتوا از آرشیوهای عظیم سنجش از دور را برطرف کنند. برخی از سیستمهای IIM فعال معناشناسی اخیر نیز به موضوع «شکاف معنایی» بین ویژگیهای ابتدایی سطح پایین و انتزاعات معنایی سطح بالا در یک صحنه سنجش از دور پرداختهاند. با این حال، مشکل تحقیق درک و تفسیر جامع صحنههای سنجش از دور از منظر فضایی-مکانی برای تعاملات انسان و ماشین هنوز به طور کامل مورد توجه قرار نگرفته است.
اخیراً، چند مطالعه تحقیقاتی بر روی شرح صحنههای سنجش از راه دور برای تفسیر صحنهها به توصیف زبان طبیعی متمرکز شدهاند. مرجع [ 11 ] استفاده از یک شبکه عصبی چندوجهی عمیق متشکل از یک شبکه عصبی کانولوشن را برای استخراج ویژگیهای تصویر و به دنبال آن یک شبکه عصبی تکراری آموزش داده شده بر روی مجموعه دادهای از جفتهای تصویر-کپشن برای تولید توضیحات متن تک جمله پیشنهاد کرد. چارچوب پیشنهادی در مرجع [ 12] شامل دو مرحله برای کار زیرنویس تصویر سنجش از راه دور است: (1) درک تصویر چند سطحی، با استفاده از شبکههای کاملاً پیچیده (FCN)، و (2) تولید زبان، با استفاده از رویکرد مبتنی بر الگو. مرحله اول برای تولید سهقلوها از تصاویر به شکل (ELM، ATR و RLT) طراحی شد که عناصر زمین، ویژگیهای آنها و روابط آنها با عناصر دیگر را نشان میدهند. این سهگانهها به عنوان ورودی مکانیسم قالببندی برای تولید توصیفهای متنی زبان طبیعی مناسب عمل میکنند. مجموعه داده های زیرنویس تصویر سنجش از دور (RSICD) در مرجع [ 13] شامل جفتهای تصویر-جملهای است که بهصورت دستی برای 10921 صحنه سنجش از دور عمومی با اندازه 224 × 224 پیکسل تولید میشوند. مجموعه داده توسعهیافته با دو روش زیرنویس تصویر ارزیابی شد: (1) رویکرد چندوجهی [ 11 ] و (2) یک رویکرد مبتنی بر توجه پیشنهاد شده در مرجع [ 13 ] که از روشهای توجه قطعی و تصادفی استفاده میکند. چارچوب یادگیری متریک معنایی جمعی (CSML) [ 14 ] بازنمایی جمله جمعی مربوط به یک نمایش تصویر سنجش از راه دور واحد در فضای معنایی را برای یک کار شرح چند جمله ای پیشنهاد کرد. با هدف اطمینان از تمرکز بر مناطق مورد علاقه، مدل توجه همسویی بصری (VAA) [ 15 ]] یک تابع از دست دادن تراز بصری جدید را پیشنهاد کرد که برای به حداکثر رساندن شباهت ویژگی بین بردارهای ویژگی تصویر استخراج شده و بردارهای جاسازی کلمه طراحی شده است. شبکه حافظه مکرر Retrieval Topic [ 16 ] استفاده از کلمات موضوعی بازیابی شده از مخزن موضوع تولید شده از جملات حقیقت پایه در مرحله آموزش را پیشنهاد کرد. در مرحله آزمایش، کلمات موضوعی بازیابی شده به شکل سلولهای حافظه موضوعی در شبکه جاسازی میشوند و فرآیند تولید جمله را کنترل و هدایت میکنند. مرجع [ 17] به مشکلات (1) تمرکز بر ویژگیهای فضایی مختلف در مقیاسهای مختلف و (2) روابط معنایی بین اشیاء در تصویر سنجش از دور اشاره کرد. این پیشنهاد استفاده از یک ماژول توجه چند سطحی را برای محاسبه ویژگیهای فضایی در مقیاسهای مختلف و نسبت دادن شبکه کانولوشن گراف مبتنی بر گراف برای توضیح رابطه معنایی بین اشیاء در تصویر سنجش از دور پیشنهاد کرد.
چارچوبهای زیرنویس تصویر سنجش از دور که در بالا ذکر شد، مشکل زیرنویس کردن صحنههای سنجش از دور به جملات زبان طبیعی را حل کردهاند. چند مطالعه اخیر در این زمینه بر روابط بصری معنایی بین اشیاء در صحنه ها متمرکز شده است. با این حال، مشکل تحقیق ایجاد پاراگرافهای شرح مفصل متشکل از چندین جملات به زبان طبیعی، که به طور جامع یک صحنه سنجش از دور را توصیف میکند، با در نظر گرفتن روابط فضایی-زمینهای بین اشیا، تا حد زیادی ناشناخته باقی میماند. علاوه بر این، جملات تولید شده در چارچوب های فوق به مناطق خاصی از صحنه مبتنی نیستند و بنابراین فاقد قابلیت توضیح هستند. اصطلاح “زمین دار” در توصیف صحنه به نگاشت صریح کلمات یا عبارات موجود در آن به مناطقی در صحنه ای که توصیف می کند اشاره دارد. این قابلیت توضیح و قابلیت اطمینان توصیف صحنه را در وظیفه خود برای توصیف صحنه به زبان طبیعی تقویت می کند.
تفسیر جامع، قابل توضیح و متنی از یک صحنه سنجش از دور به ویژه در شرایط فاجعه ای مانند سیل از اهمیت بالایی برخوردار است. در طول وقوع سیل، درک الگوهای طغیان سیل و عقبنشینی در زمینه پیکربندی فضایی کاربری زمین/پوشش زمین در مناطق سیلزده بسیار مهم است. علاوه بر این، معناشناسی متنی صحنه سیل نیز تحت تأثیر مؤلفه زمانی است. با گذشت زمان، یک منطقه سیل زده ممکن است از نظر اندازه کوچک شود یا رشد کند، که بر معنایی مناطق دیگر که از نظر فضایی با آنها تعامل دارد، تأثیر می گذارد. بنابراین، نیاز مبرمی به توسعه رویکردهایی وجود دارد که بتواند وضعیت زمینی در دنیای واقعی را در حین یا پس از فاجعه به گونهای ترجمه کند که به راحتی توسط انسان و ماشین قابل جذب باشد.
این مقاله به مشکل درک صحنه سنجش از راه دور می پردازد که به طور خاص بر تفسیر جامع و قابل توضیح صحنه ها از دیدگاه فضایی-مکانی برای تعاملات مؤثر انسان و ماشین تمرکز می کند. در این راستا، چارچوب رمان درک صحنه سنجش از دور مبتنی بر معناشناسی (Sem-RSSU) برای تولید توصیفهای صحنهای به زبان طبیعی مبتنی بر زبان طبیعی از صحنههای سنجش از دور توسعه داده شد. شکل 1شرح صحنه فضایی-زمینهای مبتنی بر پایه را به تصویر میکشد که توسط چارچوب درک صحنه سنجش از دور مبتنی بر معناشناسی (Sem-RSSU) برای صحنه سنجش از دور سیلهای شهری ارائه شده است. تا جایی که ما می دانیم، این تحقیق اولین تحقیق در نوع خود است که به بررسی ارائه توصیف صحنه های زمینی جامع برای صحنه های سنجش از دور با استفاده از یک رویکرد مبتنی بر معناشناسی می پردازد.
هدف گسترده این تحقیق تبدیل یک صحنه سنجش از دور به یک نمودار دانش فضایی- زمینهای و بیشتر به توصیف صحنههای زبان طبیعی قابل توضیح برای افزایش آگاهی موقعیتی و تعامل مؤثر انسان و ماشین است.
مشارکت های پژوهشی عمده
مشارکت های عمده تحقیقاتی ما در این کار دو جنبه دارد:
-
ما نمایش و مدلسازی دانش فضایی-زمینهای را در صحنههای سنجش از دور در قالب نمودارهای دانش صحنه سنجش از دور (RSS-KGs)، از طریق توسعه هستیشناسی صحنه سنجش از دور (RSSO) – هستیشناسی هستهای برای یک کنترل از راه دور فراگیر، رسمی میکنیم. محصول داده های صحنه حسی ما یک دانش حوزه زمینهای را توسعه میدهیم که شامل هستیشناسی صحنه سیل (FSO) است، تا مفاهیمی را که در طول یک سناریوی سیل تکثیر میشوند، نشان دهیم.
-
ما چارچوب درک صحنه سنجش از راه دور (Sem-RSSU) را بهعنوان خط لولهای جامع برای تولید توصیفات صحنه فضایی-زمینهای مبتنی بر پایه، پیشنهاد و پیادهسازی میکنیم تا آگاهی موقعیتی در سطح کاربر و همچنین ماشین را افزایش دهیم. -قابلیت توضیح در سطح صحنه ها
در این راستا، ما (1) تجمع سهگانه فضایی-مکانی مبتنی بر هستیشناسی و (2) الگوریتمهای برنامهریزی و تحقق محتوای توصیف صحنه را پیشنهاد میکنیم تا بتوان توصیفهای صحنههای زبان طبیعی مبتنی بر زبان طبیعی را از صحنههای سنجش از دور ارائه کرد. ما یافته های خود را از ارزیابی های گسترده چارچوب گزارش و بحث می کنیم.
ساختار مقاله به شرح زیر است: بخش 2 چارچوب پیشنهادی درک صحنه سنجش از دور مبتنی بر معناشناسی (Sem-RSSU) را شرح می دهد. این لایه ها و اجزای مختلف چارچوب را با جزئیات ارائه می کند. بخش 3 تنظیمات آزمایشی، نتایج را با استراتژی های ارزیابی مورد استفاده برای تأیید کارایی چارچوب مورد بحث قرار می دهد. در بخش 4 و بخش 5 ، چارچوب را مورد بحث و بررسی قرار می دهیم و با جهت گیری های آتی این تحقیق نتیجه گیری می کنیم.
2. چارچوبی برای درک صحنه سنجش از دور مبتنی بر معناشناسی
تمرکز اصلی چارچوب درک صحنه سنجش از راه دور (Sem-RSSU) با قابلیت Semantics به سمت فعال کردن آگاهی موقعیتی پیشرفته از صحنههای سنجش از راه دور است. در نظر دارد به کاربران/تصمیم گیرندگان امکان دهد تا درک بیشتری از وضعیت به دست آورند و به انتخاب بهتر برای پاسخگویی محتاطانه به آن کمک کنند. به خوبی درک شده است که هر چه مقدار اطلاعات هدفمند بیشتر باشد، شانس بهتری برای واکنش مثبت به موقعیت وجود دارد. با این حال، اطلاعات باید بسیار متنی، به راحتی قابل درک و مرتبط با آن موقعیت خاص باشد. در غیر این صورت، خطر اضافه بار اطلاعات منجر به عواقب نامطلوب وجود دارد. از این رو،
شکل 2 معماری سیستم چارچوب پیشنهادی را نشان می دهد. این چارچوب به طور منطقی به 6 لایه تقسیم شد: لایه ذخیرهسازی داده، لایه جذب صحنه، لایه میانجیگری داده، لایه غنیسازی معنایی، لایه پردازش طبیعی و لایه رندر.
لایه ذخیرهسازی داده شامل یک فروشگاه سهگانه برای ذخیره، بازیابی و بهروزرسانی نمودارهای دانش صحنه سنجش از راه دور (RSS-KGs) تولید شده از صحنهها است. همچنین هستیشناسیها – هستیشناسی صحنه سنجش از راه دور (RSSO) و هستیشناسی صحنههای سیلابی متنی (FSO) – را برای استدلال قیاسی روی یک ذخیرهسازی مبتنی بر دیسک ذخیره میکند. لایه Scene Ingestion با وارد کردن صحنه های سنجش از راه دور مورد علاقه در چارچوب برای ارائه توضیحات صحنه جامع، پایه و قابل توضیح می پردازد.
2.1. میانجیگری داده
لایه میانجیگری داده شامل (1) مولفه تقسیمبندی چند طبقه مبتنی بر یادگیری عمیق است که صحنه جذبشده را به مناطق کاربری زمین/پوشش زمین تقسیم میکند و (2) مؤلفه مولد گراف RDF که کاربری زمین تقسیمشده را تغییر میدهد. /مناطق پوشش زمین در صحنه به نمایش نموداری از صحنه مطابق با هستی شناسی صحنه سنجش از دور پیشنهادی.
2.1.1. تقسیم بندی چند کلاسه
صحنه سنجش از دور شامل چندین منطقه کاربری/پوشش زمین است که به صورت فضایی با یکدیگر تعامل دارند. برای استنتاج انتزاعات سطح بالاتر از صحنه، شناسایی ویژگی های اولیه و پیش بینی کاربری زمین/پوشش زمین ضروری است. با استفاده از رویکرد شبکه عصبی عمیق، به هر پیکسل در صحنه، برچسبی از پوشش زمین اختصاص داده شده است. برخی از پیشرفته ترین معماری های شبکه عصبی عمیق مبتنی بر معماری رمزگذار-رمزگشا برای مجموعه داده سیل شهری برای این تحقیق آزمایش شدند.
معماری شبکه کاملا کانولوشن (FCN) [ 18 ] استفاده از شبکه های عصبی کانولوشنال سرتاسر را برای تقسیم بندی معنایی رایج کرد. FCN برای اولین بار استفاده از اتصالات پرش را برای انتشار اطلاعات مکانی به لایه های رمزگشا و بهبود خروجی نمونه برداری معرفی کرد. معماری U-Net [ 19 ] که بر روی FCN ساخته شده است، برای اولین بار برای تقسیمبندی تصویر پزشکی پیشنهاد شد و ثابت کرده است که به خوبی در طیف وسیعی از دامنهها سازگار است. این یک معماری U شکل متقارن برای رمزگذاری و رمزگشایی با لایههای upsampling متعدد و استفاده از عملیات الحاق به جای عملیات جمع پیشنهاد کرد. شبکه تجزیه صحنه هرمی (PSPNet) [ 20] از کانولوشن گشاد شده برای افزایش میدان گیرنده علاوه بر استفاده از ماژول ادغام هرمی در رمزگذار برای ضبط و تجمیع بافت جهانی استفاده می کند. معماری SegNet [ 21 ] از ذخیره و انتقال شاخصهای max-pooling به رمزگشا برای بهبود کیفیت نمونهبرداری حمایت میکرد. معماری ResNet [ 22 ]، یک معماری شبکه عصبی کانولوشنال، استفاده از اتصالات رد هویت با بلوکهای باقیمانده را برای مقابله با مشکل گرادیان ناپدید شدنی که هنگام آموزش شبکههای عصبی عمیق با آن مواجه میشود، پیشنهاد کرد. ResNet و VGG-16 [ 23] به عنوان ساختارهای ستون فقرات برای معماریهای شبکه عصبی FCN، U-Net، SegNet و PSP برای آزمایش بر روی مجموعه دادههای سیل شهری متشکل از صحنههای سنجش از دور با وضوح بالا که در طول یک رویداد سیل شهری ضبط شدهاند، استفاده شد. هر یک از معماری ها بر روی این مجموعه داده پیاده سازی و ارزیابی شدند.
هر دو ResNet و VGG- 16 به عنوان ساختارهای ستون فقرات نتایج امیدوارکننده ای را برای تقسیم بندی چند کلاسه (همچنین به عنوان Semantic Segmentation) برای صحنه های سنجش از دور نشان داده اند. معماریهای تقسیمبندی چند کلاسه در نظر گرفته شده در Sem-RSSU با در نظر گرفتن اثربخشی و ارتباط آنها برای وظیفه تقسیمبندی و محدود کردن دامنه مطالعه انتخاب شدند. لازم به ذکر است که Sem-RSSU به صورت ماژولار ساخته شده است و بنابراین برای استفاده با هر رویکرد عصبی عمیق پیشرفته برای تقسیم بندی چند طبقه قابل استفاده است.
2.1.2. مولد گراف RDF
مؤلفه RDF Graph Generator، مناطق کاربری/پوشش زمین را از شطرنجی به نمایش نمودار مبتنی بر چارچوب توصیف منبع ترجمه میکند. نتایج تقسیمبندی معنایی (همچنین به عنوان نقشههای طبقهبندی شناخته میشوند) بر اساس برچسبهای رنگی که به پیکسلها اختصاص داده شدهاند، به نمایش هندسه متن شناخته شده (WKT) تبدیل میشوند. یک آستانه از پیش تعریف شده برای حداقل پیکسل ها در یک منطقه برای تشکیل یک شی در یک نمودار دانش، در این مؤلفه، برچسب های پیکسل سرگردان و پر سر و صدا را فیلتر می کند. این با استفاده از شکل ( https://pypi.org/project/Shapely ) و رستریو ( https://pypi.org/project/rasterio ) اجرا شد.) کتابخانه ها در پایتون. این فرآیند برداری با کدگذاری و ارائه هندسه های WKT در یک رشته مطابق با یک نمایش RDF دنبال می شود. نمایش نمودار RDF صحنه سنجش از دور شامل سه مورد مربوط به مناطق کاربری/پوشش زمین در صحنه با هندسه و سایر اطلاعات فضایی ذخیره شده مطابق با GeoRDF است ( https://www.w3.org/wiki /GeoRDF ) استاندارد توسط W3C و هستی شناسی صحنه سنجش از راه دور پیشنهادی (RSSO).
2.2. لایه غنی سازی معنایی
منطق توصیف (DL) بلوک اساسی برای رسمی کردن بازنمایی دانش را تشکیل می دهد. همچنین اساس زبان هستی شناسی وب (OWL) را تشکیل می دهد که برای ساختن هستی شناسی ها استفاده می شود. چارچوب Sem-RSSU رسمی کردن دانش صحنه سنجش از دور را از طریق توسعه هستیشناسی صحنه سنجش از دور (RSSO) و هستیشناسی صحنه سیل متنی (FSO) پیشنهاد میکند. بدیهیات مبتنی بر DL که در این بخش مورد بحث قرار گرفت، در هستی شناسی های پیشنهادی کدگذاری شدند تا استنتاج دانش ضمنی از صحنه های سنجش از دور را تسهیل کنند.
لایه غنیسازی معنایی به شیوهای چند لایه ساختار یافته بود تا غنیسازی معنایی سلسله مراتبی نمایش نمودار RDF صحنههای سنجش از راه دور را برای تولید نمودارهای دانش صحنه سنجش از دور غنیشده (RSS-KGs) تسهیل کند.
هستی شناسی صحنه سنجش از دور (RSSO) داده های RDF را با استنباط روابط مکانی-توپولوژیکی و جهتی بین مناطق کاربری/پوشش زمین غنی می کند، در نتیجه تولید نمودارهای دانش صحنه سنجش از دور (RSS-KGs) را تسهیل می کند. KGها بیشتر با مفاهیم و روابط متنی با هستی شناسی صحنه سیل غنی می شوند، دانش حوزه ای که هستی شناسی را در بر می گیرد و مفاهیم و روابط در حال تکثیر در طول سناریوی سیل را رسمی می کند. KGهای غنی شده بیشتر به صورت متنی از نقطه نظر توصیف صحنه سنجش از راه دور با الگوریتم تجمع سه گانه فضایی – متنی تجمیع می شوند.
یک استدلال قیاسی مبتنی بر هستیشناسی، غنیسازی نمودارهای دانش را در هر سطح تسهیل میکند. شکل 3 معماری چند لایه لایه Semantic Reasoning را نشان می دهد. رویکرد چند لایه غنیسازی معنایی در قالب دانش فضایی، زمینهای و انبوه (1) مدولار بودن و (2) توسعهپذیری را ممکن میسازد، بنابراین معماری را برای مقیاسبندی و ادغام با سایر منابع داده (به عنوان مثال، GeoNames، UK Ordnance Survey) آماده میکند. و غیره) برای سایر برنامه های سنجش از راه دور.
شکل همچنین نمونهای از فرآیند غنیسازی گراف دانش سلسله مراتبی را در حین انتشار به سمت لایه پردازش زبان طبیعی نشان میدهد. در لایه میانجیگری داده، نمونههای وسایل نقلیه و یک جاده با استفاده از چارچوب شرح منابع (RDF) به عنوان نموداری از صحنه سنجش از دور نشان داده میشوند. نمایش نمودار در فرم RDF به لایه غنیسازی دانش فضایی منتشر میشود که در آن RSSO با استنتاج روابط فضایی-توپولوژیکی و جهتدار بین نمونهها، آن را غنیسازی کرده و به یک نمودار دانش تبدیل میکند. رابطه توپولوژیکی “geo:ntpp” Non-Tangential Proper Part از RCC8 در این مرحله استنباط می شود. نمودار دانش بیشتر برای غنیسازی متنی با استفاده از FSO به سمت بالا منتشر میشود. در این لایه، رابطه متنی “روشن” استنباط می شود و نمونه “جاده” بیشتر به یک نمونه کلاس “جاده بی پیرایه” تخصصی می شود. علاوه بر این، نمودار دانش با استفاده از تجمیع سهگانه فضایی-مضمونی برای ارائه توصیف صحنه که در آن نمونههای خودروی متعدد «در» جاده جمعآوری شدهاند و یک نمونه کلاس «تراکم ترافیک» استنباط میشود، جمعآوری میشود.
2.2.1. مدل سازی داده های معنایی در Sem-RSSU
چارچوب Sem-RSSU نمایش صحنه های سنجش از دور را در قالب نمودارهای دانش از طریق توسعه هستی شناسی ها رسمیت می بخشد. از هستیشناسیهای توسعهیافته برای غنیسازی دانش به شکل مدولار و سلسله مراتبی استفاده میکند تا برای سایر برنامههای سنجش از دور قابل ادغام و گسترش باشد.
توسعه هستی شناسی برای غنی سازی معنایی فضایی
هستیشناسی صحنه سنجش از دور (RSSO) برای ترجمه نمایش دادههای RDF از صحنههای سنجش از راه دور به نمودارهای دانش با استنباط مفاهیم و روابط مکانی-توپولوژیکی و جهتدار بین مناطق شناساییشده توسعه داده شد. هستی شناسی معنایی یک صحنه سنجش از دور عمومی را که توسط یک پلت فرم سنجش از دور گرفته شده است، رسمیت می بخشد. برای سنجش قابلیت اطمینان یک محصول داده سنجش از راه دور و تعیین منشأ آن، ابرداده همراه با محصول داده نقش مهمی ایفا می کند. در این راستا، RSSO کلاسها، شیها و ویژگیهای داده را برای مدلسازی ابرداده یک صحنه سنجش از راه دور برای ایجاد سلسله دادههای جامع تعریف میکند. ویژگی های داده «hasGroundSamplingDistance»، «hasProjection»، «EnumerateBands»، «hasResamplingMethod»، «hasSpectralBands»، «hasAcquisitionDateTime»، و غیره،
سیستم طبقه بندی کاربری زمین/پوشش زمین اندرسون به عنوان مرجعی برای مدل سازی کلاس های LULC در RSSO استفاده شد. شکل 4 a سلسله مراتب کلاس ها، ویژگی های داده و ویژگی های شی را در RSSO نشان می دهد. ویژگیهای شی برای مدلسازی و گرفتن روابط توپولوژیکی و جهتگیری بین نمونههای مناطق مختلف کاربری/پوشش زمین استفاده شد. شکل 4b تجسم نمونه ای از کلاس “صحنه” و “Scene256” گرفته شده توسط “GeoEye-01” را نشان می دهد که نمونه ای از کلاس “ماهواره” است که یک “RemoteSensingPlatform” است. یک نمونه کلاس “scene” با نمونه های کلاس “region” از طریق ویژگی شی “hasRegions” رابطه دارد. بنابراین، یک صحنه دارای چندین ناحیه در داخل خود است که هر یک از مناطق دارای یک LULC از طریق ویژگی داده “hasLULC” هستند. شکل 5 قطعه ای از نمودار دانش صحنه را نشان می دهد که در فرم چارچوب شرح منابع (RDF) برای منطقه “R40” در یک صحنه سنجش از دور نشان داده شده است.
توسعه هستی شناسی برای غنی سازی معنایی متنی
هستی شناسی صحنه سیل (FSO) معرفی شده در مرجع [ 28 ] به عنوان بخشی از این مطالعه بیشتر بهبود یافته و غنی شده است. FSO RSSO را گسترش می دهد و به گونه ای مفهوم سازی شده است که شامل دانش دامنه جامع از فاجعه سیل از دیدگاه درک صحنه سنجش از دور باشد. هستیشناسی برای غنیسازی معنایی متنی نمودارهای دانش صحنه با تعریف مفاهیم و روابط خاص زمینه که در طول سناریوی سیل تکثیر میشوند، توسعه داده شد.
FSO بر روی RSSO ایجاد میکند و کلاسهای تخصصی را رسمی میکند که در نظر گرفته شده است از صحنههای سنجش از دور سیلهای شهری استنتاج شوند. در زیر عبارات رسمی، همراه با تعاریف زبان طبیعی آنها، برای برخی از کلاس های تخصصی که به عنوان قوانین SWRL در هستی شناسی کدگذاری شده اند، آمده است. علاوه بر این، برخی از جستارهای GeoSPARQL متناظر آنها که می تواند به عنوان یک پیاده سازی جایگزین به جای قوانین SWRL استفاده شود، به تصویر کشیده شده است.
ساختمان مسکونی سیلزده :اگر منطقهای باشد که دارای LULC بهعنوان« ساختمان مسکونی » است و از بیرون به حداقل یک منطقه که دارای LULC بهعنوان « آب سیل » است، به منطقهای که دارای LULC بهعنوان «سیلاب» است، بهعنوان «ساختمان مسکونی سیلزده » نامیده میشود .
ساختمان مسکونی قابل دسترسی :اگر منطقه ای باشد که دارای LULC به عنوان « ساختمان مسکونی سیل زده» است و از خارج با حداقل یک منطقه که دارای LULC به عنوان « جاده بدون تأثیر » است، به یک منطقه به عنوان « ساختمان مسکونی قابل دسترس » گفته می شود. . در نظر گرفته شده است که این کلاس از منظر مدیریت بلایا از اهمیت زیادی برخوردار باشد، به ویژه برای توسعه روشهای عملیاتی استاندارد (SOPs) برای تخلیه. شکل 10 کوئری GeoSPARQL مربوطه را نشان می دهد.
ساختمان مسکونی بدون تأثیر : اگر منطقه ای است که دارای LULC به عنوان « ساختمان مسکونی » است و LULC استنباط شده به عنوان « ساختمان مسکونی سیل زده» ندارد ، طبق FSO به عنوان « ساختمان مسکونی بدون تأثیر » نامیده می شود.
وسیله نقلیه راهاندازی :اگر منطقهای باشد که دارای LULC بهعنوان « وسیله نقلیه » است و از خارج با حداقل یک منطقه که دارای LULC بهعنوان « آب سیل » است، به منطقهای که دارای LULC بهعنوان «آب سیل» است، به عنوان « وسیله نقلیه سرگردان » نامیده میشود .
شکل 11 یک عکس فوری از کلاس های رسمی شده در هستی شناسی صحنه سیل پیشنهادی (FSO) را نشان می دهد که هستی شناسی صحنه سنجش از دور پیشنهادی (RSSO) را گسترش می دهد.
تجمیع فضایی- بافتی در صحنه های سنجش از دور
یک صحنه سنجش از دور عمومی شامل چندین منطقه جداگانه بسته به مقیاس و وضوح صحنه است که هر منطقه متعلق به یک کلاس LULC خاص است. توصیف صحنه به زبان طبیعی می تواند مستلزم توصیف هر یک از این مناطق جداگانه باشد. با این حال، توصیف صحنه ای که هر منطقه را در صحنه به زبان طبیعی توصیف می کند، منجر به اضافه بار اطلاعاتی شدید می شود و هدف اصلی ما برای افزایش آگاهی موقعیتی از طریق توصیف صحنه را خراب می کند. بنابراین، نیاز به تجمیع مناطق به گونه ای وجود دارد که اطلاعات لازم مربوط به صحنه را به صورت جامع و در عین حال مختصر به کاربر منتقل کند. از آثار [ 29 ، 30 ] مشهود است] در حوزه ادراک و روانشناسی انسان که ما انسانها تمایل طبیعی به گروه بندی اشیا در صحنه ها بر اساس درک خود از تعاملات (فضایی و زمینه ای) آنها با یکدیگر داریم. این پدیده که به عنوان «گروهبندی ادراکی» نامیده میشود، به مناطقی در صحنههای سنجش از دور در الگوریتم پیشنهادی تجمیع سهگانه فضایی- زمینهای بسط داده شد تا مسئله اضافه بار اطلاعات را کاهش دهد. مرجع [ 31] روشی را با هدف مشابه کشف گروه هایی از اشیاء در تصاویر چند رسانه ای عمومی برای درک صحنه توصیف می کند. با این حال، آنها یک رویکرد مبتنی بر Hough-Transform را پیشنهاد میکنند که به طور خودکار گروههای شی را در تصاویر چند رسانهای عمومی با جعبههای محدود حاشیهنویسی میکند. الگوریتم تجمیع سهگانه فضایی-زمینهای پیشنهادی سهگانه در نمودارهای دانش صحنه غنیشده از نظر معنایی گروهبندی میکند تا مجموعههایی تولید کند که به چندین منطقه در یک صحنه ارجاع میدهند که از لحاظ مکانی و زمینهای مشابه هستند.
هستیشناسی صحنه سیل (FSO) کلاسهای انبوه را در خطوط مشابه بهعنوان کلاسهای متنی تعریف میکند که بهعنوان فرزندان کلاس «منطقه» که قبلاً بحث شد، تعریف میشود. با این حال، نمونههای کلاسهای انبوه در نظر گرفته شدهاند تا به طور منطقی چندین نمونه فرزند کلاس منطقه را از طریق ویژگی شی “hasCompositionOf” در خود جای دهند.
شکل 12برخی از ویژگی های شی FSO را نشان می دهد. ویژگی شی “hasCompositionOf” دارای ویژگی های فرزند برای هر یک از مجموعه های کلاس مربوطه است. به عنوان مثال، یک نمونه از کلاس “FloodedResidentialBuildingAggregate” دارای چندین نمونه از “FloodedResidentialBuilding” است که از طریق ویژگی شی – “hasFloodedResidentialBuilding” متصل شده است. بنابراین، این ویژگیهای شی به نگاشت هر یک از نمونههای انبوه به نمونههای منطقه جزء آنها کمک میکند. ویژگی داده “hasInferredAggregateName” به FSO اجازه می دهد تا نام های مرتبط با زمینه را برای نمونه های نمونه اضافه کند تا در توضیحات صحنه استفاده شود. به عنوان مثال، چندین اتومبیل در یک جاده می توانند جمع آوری شوند و به عنوان «ترافیک» یا به سادگی «وسایل نقلیه» در توضیحات صحنه ارجاع داده شوند.
Sem-RSSU مفهوم منطقه برجسته را در یک صحنه سنجش از دور فرض می کند. منطقه برجسته به عنوان منطقه ای با اهمیت قابل توجه از منظر فضایی- زمینه ای در یک صحنه تعریف می شود. مفهوم برجسته بودن در مرجع [ 32] با زمینه صحنه سنجش از دور در Sem-RSSU اقتباس شد. انتخاب منطقه برجسته در یک صحنه به معیارهای برجسته بستگی دارد: (1) منطقه ای که آن را پوشش می دهد و (2) کلاس LULC که به آن تعلق دارد. یک صحنه سنجش از دور ممکن است دارای یک منطقه برجسته در آن باشد یا نداشته باشد. یک صحنه حداکثر می تواند یک منطقه برجسته داشته باشد. منطقه برجسته، منطقه اولیه در صحنه است که پیشنهاد می شود به عنوان مرجع برای توصیف تمام مناطق دیگر در صحنه عمل کند. این امر برنامه ریزی و تحقق توصیف صحنه به زبان طبیعی را برای صحنه تسهیل می کند. در صحنه هایی که فاقد منطقه برجسته هستند، مناطق با ارجاع به کل صحنه تجمیع می شوند و شرح صحنه بر اساس آن برنامه ریزی و تحقق می یابد.
الگوریتم انتخاب منطقه برجسته (الگوریتم 1) انتخاب منطقه برجسته در صحنه را تسهیل می کند. این الگوریتم مناطق را در نمودارهای دانش صحنه بر اساس مقدار آستانه مساحت و LULC تنظیم شده در هستی شناسی صحنه سیل متنی فیلتر می کند تا برجسته ترین منطقه را انتخاب کند. Sem-RSSU به صورت ماژولار طراحی شده است، به طوری که هستی شناسی متنی (FSO در این مورد) مرتبط ترین LULC و مقدار سطح آستانه را برای منطقه برجسته، بسته به کاربرد، در خود جای می دهد. در سناریوی سیل شهری از منظر توصیف صحنه سنجش از دور، LULC “جاده” به عنوان مرتبط ترین کلاس انتخاب شد. شکل 12عکس فوری کلاسهای انبوه و ویژگیهای شی متناظر آنها را همانطور که در هستیشناسی صحنه سیل پیشنهادی (FSO) رسمی شده است، به تصویر میکشد.
الگوریتم 1 انتخاب منطقه برجسته |
ورودی :
g : نمودار دانش صحنه RS
fso : هستی شناسی متنی – هستی شناسی صحنه سیل |
خروجی :
sr : منطقه برجسته |
ثابت ها :
SalientRegionLULC ← LULC_Name—تعریف شده در Contextual Ontology— fso
SalientRegionAreaThreshold ← Value—تعریف شده در Contextual Ontology— fso |
1. تابع salientRegionSelection ( g، fso ) |
2. g را بخوانید |
3. SalientRegionCandidates را راه اندازی کنید : = [] |
4. مقداردهی اولیه SalientRegionCandidateAreas : = [] |
5. برای منطقه در g: |
6. اگر Region.LULC == SalientRegionLULC و |
7. Region.Area > SalientRegionAreaThreshold سپس |
8. SalientRegionCandidates .append (Region) |
9. SalientRegionCandidateAreas.append(Region.Area) |
10. دیگری |
11. sr : = 0 |
12. بازگشت sr |
13. maxArea: = max( SalientRegionCandidateAreas ) |
14. maxAreainde : = SalientRegionCandidateAreas. شاخص ( maxArea ) |
15. sr : = SalientRegionCandidates [ maxAreaindex ] |
16. بازگشت sr |
17. پایان |
شکل 13 تجسم یک مجموعه سه گانه فضایی- زمینه ای (الگوریتم 2) ایجاد شده توسط الگوریتم در صحنه سنجش از دور را نشان می دهد. الگوریتم تمام مناطق با LULC استنتاج شده را به عنوان «ساختمان مسکونی سیلزده» که در جهت «غربی» منطقه برجسته هستند با LULC استنتاج شده بهعنوان «جاده بدون تأثیر» جمعآوری کرد. بنابراین، مناطقی که با رنگ قرمز تجسم شده اند، متعلق به یک مجموعه سه گانه فضایی-مکانی با ویژگی داده “hasAggLULC” آن به “FloodedResidentialBuildings” تنظیم شده است. این نگاشت انباشته ها به نواحی ترکیب جداگانه آنها با ویژگی شی “hasCompositionOf” رندر شرح صحنه را تسهیل می کند.
الگوریتم 2 تجمع سه گانه فضایی- زمینه ای |
ورودی :
g : نمودار دانش صحنه RS
sr : منطقه برجسته
rsso : هستی شناسی فضایی — هستی شناسی صحنه سنجش از دور
fso : هستی شناسی متنی — هستی شناسی صحنه سیل |
خروجی :
g′:
نمودار دانش صحنه غنی شده با مجموعات فضایی-زمینه ای مناطق LULC |
ثابت ها :
LeafNodes _ LULC_Classes_List ← همه نام های کلاس های LULC استنباط
شده – تعریف شده در Contextual Ontology— fso
LeafNodes_SpatialRelations_List ← همه روابط فضایی استنباط شده
توپولوژیکی و جهت دار (ویژگی های شیء)
– تعریف شده در فضایی- sotsot . |
1. تابع spatioContextualTripleAggregation ( g، sr، rsso، fso ) |
2. g را بخوانید |
3. g ′:= g |
4. برای RegionLULC در LeafNodes_LULC_Classes_List : |
5. برای SpatialRelation در LeafNodes_SpatialRelations_List : |
6. مقداردهی اولیه SCAggregate = [] |
7. برای منطقه در g : |
8. اگر Triple <Region, SpatialRelation, sr> در g ′ و |
9. Region.hasInferredLULC == Region.LULC سپس |
10. SCAggregate .append( Region ) |
11. اگر len( SCAggregate ) > 1 پس |
12. Triple < sr، SpatialRelation، SCAggregate > را در g وارد کنید . |
13. Triple <SCAggregate, hasAggLULC, RegionLULC> را در g وارد کنید . |
14. برای منطقه در SCAggregate : |
15. Triple < SCAggretate, hasCompositionOf, Region > را در g وارد کنید |
16. برگرداندن g |
17. پایان |
2.3. لایه پردازش زبان طبیعی
اکثر تحقیقات پیشرفته [ 33 ، 34 ، 35 ] در زیرنویس تصویر با توصیف یک تصویر با یک جمله سروکار دارند. این امر به دلیل این واقعیت امکان پذیر است که تصاویر مورد استفاده در این مطالعات، تصاویر چند رسانه ای عمومی هستند و می توانند به اندازه کافی با یک جمله خلاصه شوند. تحقیقات اخیر [ 12 ، 13 ، 17] در قسمت زیرنویس تصویر سنجش از دور به توصیف یک صحنه در یک جمله می پردازد، اما چنین توصیفی جامع نیست و متن صحنه را به طور کامل بیان نمی کند. صحنه های سنجش از دور حاوی اشیاء مهم متعددی هستند که از نظر فضایی با یکدیگر تعامل دارند و بنابراین نمی توان آنها را به طور جامع در یک جمله خلاصه کرد. علاوه بر این، در صحنههای سنجش از دور، زمینه رویداد زمانی که صحنه گرفته شد، نقش مهمی در توصیف صحنه بازی میکند. یک توصیف ساده وجودی که صرفاً وجود همه اشیاء در یک صحنه را اطلاع دهد نیز نامطلوب است. در عوض، توصیف متنی دقیق از اشیا در یک صحنه بر اساس تعامل جهتی و توپولوژیکی آنها با یکدیگر از منظر متنی رویداد مطلوب است.
نمودار دانش صحنه که با معناشناسی فضایی و زمینه ای غنی شده و توسط الگوریتم تجمیع سه گانه فضایی- زمینه ای تجمیع شده است به عنوان ورودی لایه پردازش زبان طبیعی عمل می کند. وظایف فردی، همانطور که توسط مرجع [ 36]، برای یک سیستم تولید زبان طبیعی عمومی شامل (1) تعیین محتوا، (2) ساختار اسناد، (3) تجمیع، (4) واژگانی سازی، (5) تولید بیان و (6) تحقق است. تولید زبان طبیعی برای توصیف صحنه در Sem-RSSU به طور آزاد از این رویکرد پیروی می کند. لایه Semantic Enrichment در Sem-RSSU به طور ذاتی وظایف تعیین محتوا و ساختار اسناد را با تولید و غنیسازی نمودار دانش صحنه انجام میدهد. الگوریتم انباشتگی فضایی-مکانی در لایه غنیسازی معنایی، نمودار را برای ارائه توضیحات صحنه جمعآوری میکند، بنابراین تجمیع را به عنوان یکی از وظایف NLG انجام میدهد. وظایف واژگانی سازی،
طرحریزی و تحقق توصیف صحنه زمیندار پیشنهادی (GSDPR) الگوریتم اولیهای است که برای توصیف مناطق در صحنه از منظر فضایی-زمینهای با منطقه برجسته بهعنوان مرجع، با استفاده از یک رویکرد مبتنی بر الگو طراحی شده است. جهت گیری ناحیه برجسته در ابتدا با الگوریتم تشخیص جهت گیری ناحیه برجسته (الگوریتم 4) تعیین می شود. این الگوریتم اولیه را با اطلاعاتی ارائه می دهد که آیا منطقه برجسته در جهت شمال-جنوب یا شرق-غرب است. این با استفاده از مختصات جعبه مرزی هندسه منطقه برجسته تعیین می شود. این اطلاعات در هنگام توصیف مناطق دیگر در صحنه با اشاره به منطقه برجسته بسیار مهم است.
الگوریتم GSDPR در ابتدا وجود ناحیه برجسته (SR) را در نمودار دانش صحنه بررسی می کند. با تشخیص SR، جهت آن را تشخیص می دهد. بسته به جهت گیری SR، بیشتر به تشریح مجموعه های سه گانه فضایی- زمینه ای (تعیین شده در لایه غنی سازی معنایی) در برابر جهت گیری جهت SR ادامه می دهد. اگر الگوریتم تشخیص دهد که یک نمودار دانش صحنه فاقد منطقه برجسته است، سپس با در نظر گرفتن کل هندسه صحنه به عنوان یک منطقه برجسته و توصیف مناطق با ارجاع به خود صحنه، به روشی مشابه جلو می رود. به عنوان مثال، با یک منطقه برجسته «جاده بدون تأثیر» که در جهت «شمال-جنوب» است، همه مناطق دیگر مانند «ساختمانهای مسکونی سیلزده»، «وسایل نقلیه سرگردان»، «گیاههای سیلآلود» و غیره، با اشاره به “جاده بی پیرایه” با جهت “شرق-غرب” توصیف شده اند. با این حال، سنگدانه های سه گانه که هندسه آنها با هندسه منطقه برجسته تلاقی می کند، در امتداد جهت جهت SR توصیف می شوند. به عنوان مثال، “وسایل نقلیه” یا “ترافیک” در “جاده بی تاثیر” که در جهت “شمال-جنوب” است، در جهت “شمال-جنوب” نیز توضیح داده می شود. این شرایط، اگرچه خاص هستند، اما به نظر می رسد برای صحنه های سنجش از دور به خوبی تعمیم می یابند. تابع “describe” در الگوریتم GSDPR از مکانیزم الگوسازی مبتنی بر توصیف صحنه سنجش از راه دور پیشنهادی Grammar G استفاده میکند. جملهای را با ساختارهای زبان طبیعی مناسب بازمیگرداند که سهگانه ورودی ارسال شده به آن را توصیف میکند. تابع “VisualizeAndMap” مسئول تجسم مناطق با کد رنگی است که به جملات تولید شده توسط تابع “describe” نگاشت می شوند. این کار با تجسم هندسههای مناطق مجزا متعلق به مجموع سهگانه فضایی – زمینهای که توسط ویژگی شی “hasCompositonOf” در نمودار دانش صحنه نگاشت شده است، اجرا میشود. بنابراین، توصیف اتمی مجموعههای سهگانه فضایی-زمینهای و نقشهبرداری مناطق تشکیلدهنده آنها به ارائه توصیفهای صحنههای زبان طبیعی مبتنی بر زبان کمک میکند.
الگوریتم 3 شرح صحنه زمینی برنامه ریزی و تحقق |
ورودی:
g : نمودار دانش صحنه RS
rsso : هستی شناسی فضایی — هستی شناسی صحنه RS
fso : هستی شناسی متنی — هستی شناسی صحنه سیل
خروجی:
sd : فهرست جملات زبان طبیعی به عنوان شرح صحنه
groundedRegions : فهرست مناطق زمینی شرح هندسه های مربوط به صحنه تولید ثابتها
:
LeafNodes_LULC_Classes_List ← همه نامهای کلاس LULC استنباطشده
– تعریف شده در Contextual Ontology- fso
EWDir ← [“East”، “West”]
– تعریف شده در Spatial Ontology—rsso
NSDir← [“شمال”، “جنوب”]
-تعریف شده در هستی شناسی فضایی—rsso
1. تابع SceneDescriptionPlanAndRealization(g, rsso, fso, rssao)
2. خواندن g
3. sr: = salientRegionSelection(g, fso)
4. if len( sr ) > 0 سپس
5. //مورد با 1 منطقه برجسته
6. srOrientation: = salientRegionOrientationDetection(g, sr)
7. اگر srOrientation == ‘NS’ سپس
8. alongSROorientation : = NSDir
9. againstSROorientation: =
EWDir
11. alongSROorientation : = EWDir
12. againstSROrientation: = NSDir
13. sd .append(describe( sr ))
14. groundedRegions.append ( visualizeAndMap( sr ))
15. g′ = sptioContextualTriple ,1.so ,
forsogregation SCTripleAggregate در g’ :
17. //بررسی کنید که آیا SCTripleAggregate با SalientRegion
18 تلاقی می کند. if ntpp( SCTripleAggregate .geometry, sr .geometry):
19. جهت : = alongSROorientation
20. other:
21. جهت : = در مقابلSROorientation
22. برای currentLULC در LeafNodes_LULC_Classes_List:
23. //بررسی کنید که آیا SCTripleAggregate دارای جریان LULC است و در جهت Wrt SRf
یافت می شود و سپس
-25. //I .append(describe( SCTripleAggregate, جهت, sr )) 26. groundedRegions.append (visualizeAndMap( SCTripleAggregate ))27. else:
28. //مورد با 0 منطقه برجسته
29. sr : = “thisScene”
30. g′ = spatioContextualTripleAggregation ( g, sr, rsso, fso )
31. برای SCTripleAggregate در g′ : Lees_LU_LCList
برای کلاس جریان_32 . : 33. //بررسی کنید که آیا SCTripleAggregate دارای LULC فعلی است و در هر یک از Cardinal 34 جهتگیری شده است یا خیر. Directions wrt SR—Scene 35 .
SCTripleAggregate, CardinalDirection, sr ))
37. groundedRegions.append (visualizeAndMap( SCTripleAggregate ))
38. end; |
الگوریتم 4 تشخیص جهت گیری منطقه برجسته |
ورودی:
g : نمودار دانش صحنه RS
sr :
خروجی منطقه برجسته :
جهت : جهت گیری منطقه برجسته
1. تابع salientRegionOrientationDetection ( g, sr )
2. خواندن g
3. دریافت مختصات BoundingBox— LLX، LLY ، URX و URY از g4 .
اندازه ضلع افقی به عنوان افقی و ضلع عمودی به عنوان
عمودی
5. جعبه مرزی
6. اگر افقی > عمودی باشد،
7. جهت = “EW”
8. else
9. orientation = “NS”
10. جهت گیری
بازگشت 11. پایان |
الگوریتم های توسعه یافته در این تحقیق در پایتون پیاده سازی شدند. کتابخانه پایتون RDFLib برای تسهیل استفاده از GeoSPARQL بر روی نمودارهای دانش صحنه تولید شده استفاده شد. کتابخانههای Descartes و Matplotlib شکلدار برای رندر کردن تجسمهای هندسی برای توصیف صحنههای زمینی استفاده شدند.
توضیحات صحنه زبان طبیعی تولید شده توسط لایه NLP در Sem-RSSU با شرح صحنه سنجش از دور زیر مطابقت دارد. گرامر قوانین تولید را برای زمینه کاربرد توصیف صحنه سنجش از دور با استفاده از پارامترهای T، N، S و R تعریف می کند (الگوریتم 5).
الگوریتم 5 توصیف صحنه سنجش از دور Grammar G |
G = ( T , N , S , R)
T یک الفبای متناهی از پایانهها است . N ∪ T) * T = { ساختمان های سیل زده، ساختمان های قابل دسترسی، ساختمان های بدون تأثیر، جاده های بی پیرایه، وسایل نقلیه، وسایل نقلیه گیر افتاده، ترافیک، پوشش گیاهی سیل زده، پوشش گیاهی بی پیرایه، جاده، صحنه، گسترش در سراسر، به، از، در، شرق، غرب , شمال, جنوب, آنجا, a, an, is, are } N = {
ZeroSalientRegion، OneSalientRegion، DescribeSalientRegion، Pronoun، AuxiliaryVerb، Article، SalientRegion، DescribeSpatioContextualAggregate، SpatialReference، DirectionalReference }
S = DescriptionSentence
R = {
<DescriptionSentence> → <ZeroSalientRegion> | <OneSalientRegion>
<OneSalientRegion> → <DescribeSalientRegion> | <
DescribeSpatioContextualAggregate> <ZeroSalientRegion> → <DescribeSpatioContextualAggregate> <DescribeSalientRegion>
→ <Pronoun> <AuxiliaryVerb> <Article> <SalientRegion> <DescribeSpatioContextualAggregate>
<
DescribeSpatioContextualAggregate> <DescribeSpatioContextualAggregate> <SalientRegion>
<SpatioContextualAggregates> → ساختمانهای سیل زده | ساختمان های قابل دسترسی | ساختمان های بی پیرایه | جاده های بی پیرایه | وسایل نقلیه | وسایل نقلیه سرگردان | ترافیک | پوشش گیاهی سیل زده | پوشش گیاهی بی پیرایه
<SalientRegion> → جاده | صحنه
<SpatialReference> → در سراسر <Article> | به <DirectionalReference> <Article> | در <مقاله>
<DirectionalReference> → east | غرب | شمال | جنوب
<ضمیر> → آنجا
<مقاله> → | یک | یک
<AuxiliaryVerb> → | است هستند
} |
توصیف صحنه به زبان طبیعی صحنه های سنجش از دور تولید شده توسط G را می توان به صورت زیر تعریف کرد:
گرامر برای هر فراخوانی به تابع “شرح” در الگوریتم GSDPR فراخوانی می شود. بنابراین، توصیفهای صحنههای زبان طبیعی ارائهشده توسط Sem-RSSU برای صحنههای سنجش از دور میتوانند با تجزیه و تحلیل توصیف صحنه سنجش از دور پیشنهادی Grammar G استخراج و تأیید شوند.
لایه رندر شامل توضیحات صحنه زبان طبیعی تولید شده در قالب متن و تجسم کد رنگی متناظر آن است که نگاشت زمینی جملات در توضیحات را به مناطق در صحنه نشان می دهد. این قابلیت توضیح صحنه های تولید شده توسط Sem-RSSU را تقویت می کند. شکل زیر قسمت جلویی یک برنامه مبتنی بر وب را نشان میدهد که چارچوب Sem-RSSU را برای مرور، پیشنمایش، ارائه توضیحات صحنههای زمینی، پرس و جو و تجسم صحنههای سنجش از راه دور پیادهسازی میکند.
برنامه مبتنی بر وب که در شکل 14 نشان داده شده است، از Python با RDFLib و GraphDB سه گانه در بکاند با فراخوانیهای API مبتنی بر REST که از تعاملات کاربر سرچشمه میگیرد، استفاده میکند و توضیحات صحنه، پاسخها و تجسمها را در صفحه وب ارائه میکند.
3. راه اندازی آزمایشی و نتایج
چارچوب Sem-RSSU برای افزایش آگاهی موقعیتی از صحنههای سنجش از راه دور از طریق ارائه توصیفهای صحنه فضایی-زمینهای زمیندار به زبان طبیعی طراحی و اجرا شد. با درک اهمیت افزایش آگاهی موقعیتی از صحنه های سنجش از دور در طول یک فاجعه پویا، مانند سیل، آن را به عنوان سناریوی آزمایشی برای نشان دادن کاربرد Sem-RSSU انتخاب کردیم. این بخش مجموعه دادهها و نتایج بهدستآمده از جمله تقسیمبندی چند طبقهای از صحنههای سنجش از دور و توصیف صحنههای زبان طبیعی زمیندار ارائهشده توسط Sem-RSSU را مورد بحث قرار میدهد. همچنین در مورد استراتژی های ارزیابی مختلف به کار گرفته شده برای ارزیابی Sem-RSSU در مراحل مختلف در چارچوب بحث می کند. این بخش با بحث مختصری در مورد نتایج به دست آمده با چارچوب، تجزیه و تحلیل، پایان می یابد.
3.1. توضیحات داده ها
برای این کار از تصاویر ماهواره ای چندطیفی و پانکروماتیک که توسط WorldView-2 با فاصله نمونه برداری از زمین 0.5 متر از منطقه سرینگار در هند گرفته شده است، در طول سیل سپتامبر 2014 استفاده شد. عملیات Pansharpening برای ادغام دو محصول ماهواره ای – پانکروماتیک و چند طیفی – انجام شد و تصاویر حاصل برای استفاده توسط Sem-RSSU انتخاب شدند. تصاویر ماهوارهای که در مساحتی به وسعت 25 کیلومتر مربع بر روی زمین قرار دارند، به صحنههایی با ابعاد 512 × 512 پیکسل تقسیم شدند تا توسط چارچوب Sem-RSSU برای ارائه توصیف صحنههای فضایی-زمانی زمینی استفاده شوند. شکل 15چند صحنه ماهواره از مجموعه داده انتخابی را به تصویر می کشد. داده های آموزشی مورد نیاز برای تقسیم بندی چند کلاسه صحنه، که باید توسط شبکه عصبی مصرف شود، با حاشیه نویسی تصاویر ماهواره ای تولید شد.
حاشیه نویسی تصاویر ماهواره ای به صورت دستی مطابق با اصول تفسیر تصاویر سنجش از دور انجام شد. در مجموع هفت کلاس – “ResidentialBuilding”، “Road”، “Shrub”، “Shadow”، “FloodWater”، “Vehicle” و “FallowLand” – برای تقسیم بندی چند طبقه ای مجموعه داده های سیل شهری انتخاب شدند. مجموعه ای از 150 صحنه حاشیه نویسی برای این مطالعه در نظر گرفته شد. برای آموزش و اعتبارسنجی مدل های یادگیری عمیق از تقسیم داده های 70 و 30 درصد استفاده شد. شکل 16 یک صحنه ماهواره ای از مجموعه داده را با حقیقت زمینی مشروح متناظر آن نشان می دهد.
3.2. نتایج و ارزیابی
نتایج تجربی و ارزیابی های مربوط به آنها برای مراحل مختلف در چارچوب Sem-RSSU در این بخش مورد بحث قرار می گیرد.
3.2.1. نتایج تقسیم بندی چند طبقه از صحنه های سیل شهری
معماریهای پیشرفتهی مختلف با یادگیری عمیق برای تقسیمبندی چند کلاسه مجموعه دادههای سیلهای شهری آزمایش شدند. مدلهای شبکه عصبی عمیق از ابتدا بر روی مجموعه دادههای سیل شهری مشروح شده بدون استفاده از وزنهای مدل از پیش آموزشدیده مجدداً آموزش داده شدند. معیارهای ارزیابی تقاطع بیش از اتحادیه (IoU) – از نظر کلاس، میانگین و وزن IoU با فرکانس – علاوه بر دقت کلی، برای ارزیابی مدلها استفاده شد.
از آزمایشها، مشخص شد که SegNet، با ResNet به عنوان ستون فقرات خود در معماری شبکه عصبی عمیق، بهترین دقت کلی را، 89.74 درصد، تولید میکند، در حالی که SegNet با VGG-16 به عنوان ستون فقرات، بهترین میانگین IoU و وزن فرکانسی را تولید میکند. IoU به ترتیب 0.5299 و 0.6702. شکل 17 نتیجه تقسیم بندی چند کلاسه را همانطور که توسط SegNet با معماری ResNet پیش بینی شده بود نشان می دهد.
از مقادیر پایینتر ثابت IoU بر اساس کلاس در جدول 1 برای کلاس «خودرو» برای همه معماریهای یادگیری عمیق، بدیهی است که با توجه به تعداد پیکسلهای کمی برای آن در آموزش، پیشبینی آن سختترین است. داده ها. به طور مشابه، از مقادیر بالاتر ثابت IoU بر اساس کلاس برای کلاسهای «ResidentialBuildings» و «FloodWater»، پیشبینی این کلاسها برای شبکههای عصبی عمیق با توجه به امضای طیفی متمایز و تعداد نسبتاً بالاتر پیکسلها در آموزش، نسبتاً آسانتر است. داده ها. معماری شبکه عصبی در پایتون با استفاده از کتابخانه یادگیری عمیق Keras پیاده سازی شد. این مدلها بهطور مکرر از طریق پردازنده گرافیکی Nvidia Tesla P100 آموزش دیده و تأیید شدند.
3.2.3. ارائه توضیحات صحنه به زبان طبیعی زمینی-مکانی
شکل 1 و شکل 18 برخی از توصیفات صحنه زبان طبیعی ایجاد شده توسط Sem-RSSU را به همراه صحنه های سنجش از دور و تجسم های زمینی مربوطه نشان می دهند. Sem-RSSU تجسمهای نگاشت زمینی را با کدگذاری رنگی مناطق، برای مطابقت با جملات مربوطه آنها در توضیحات صحنه ارائه میکند.
3.2.4. ارزیابی توصیفهای صحنههای زبان طبیعی مبتنی بر فضایی- بافتی
تا آنجایی که ما می دانیم، این تحقیق اولین تحقیق در نوع خود در ارائه توصیفات صحنه فضایی- زمینه ای جامع از صحنه های سنجش از دور است. مطالعات تحقیقاتی موجود در این زمینه به این موضوع از توضیحات جامع صحنه نمی پردازد. در این رابطه، فقدان مجموعه دادههای معیار شامل صحنههای سنجش از راه دور با توصیفهای صحنه چند جملهای جامع مربوطه وجود دارد. با توجه به این کاستی، این تحقیق چارچوب Sem-RSSU را در برابر مجموعه دادههای اعتبارسنجی صحنههای سیل شهری با توصیفهای صحنه رونویسی دستی متناظر آنها تأیید میکند. برای ارزیابی جامع توصیفهای صحنههای زبان طبیعی ایجاد شده، آنها با استفاده از یک استراتژی دو وجهی مورد ارزیابی قرار گرفتند: (1) ارزیابی خودکار، با استفاده از معیارهای ارزیابی پذیرفته شده،38 ]، متریک برای ارزیابی ترجمه با ترتیب صریح (METEOR) [ 39 ]، ROUGE_L [ 40 ] و ارزیابی توصیف تصویر مبتنی بر اجماع (CIDEr) [ 41 ]؛ و (2) ارزیابی های انسانی، با استفاده از مجموعه ای از معیارهای ارزیابی پیشنهادی برای محاسبه طبیعی بودن و کیفیت در توصیف صحنه.
ارزیابی خودکار برای توصیف صحنههای زبان طبیعی فضایی-مکانی
مجموعهای از صحنههای سنجش از دور از مجموعه دادههای سیل شهری برای رونویسی دستی شرح صحنه صحنهها به منظور ارزیابی انتخاب شد. این مجموعه متشکل از 50 صحنه سنجش از دور و شرح صحنه تولید شده به صورت دستی مربوط به آنها برای ارزیابی خودکار توصیفات صحنه به زبان طبیعی تولید شده توسط Sem-RSSU استفاده شد.
مطالعه دو زبانه ارزیابی (BLEU) یک نسخه اصلاح شده از دقت را برای تعیین کمیت شباهت بین متن تولید شده توسط ماشین و متن مرجع محاسبه می کند. BLUE_1 تا BLEU_4 به n گرم همپوشانی بین متن تولید شده توسط ماشین و متن مرجع اشاره دارد. متریک برای ارزیابی ترجمه با ترتیب صریح (METEOR) شباهت بین متون را بر اساس میانگین هارمونیک دقت یک گرمی و یادآوری محاسبه می کند. مطالعه فراخوانی گرا برای ارزیابی معانی (ROGUE_L) شباهت بین متون را بر اساس طولانی ترین دنباله متداول محاسبه می کند. در حالی که ارزیابی توصیف تصویر مبتنی بر اجماع (CIDEr) با در نظر گرفتن دقت و یادآوری، علاوه بر استفاده از TF-IDF برای هر n-گرم، اجماع شرحهای تصویر را کمیت میکند.
جدول 2 نمرات متریک ارزیابی برای توصیف صحنه تولید شده توسط Sem-RSSU برای مجموعه داده سیل شهری را نشان می دهد. از جدول، مشهود است که Sem-RSSU با Segnet به طور مداوم بالاترین امتیازات را برای تمام معیارهای ارزیابی ایجاد می کند. این به خوبی با این واقعیت مرتبط است که معماری SegNet بهترین دقت و IoU را برای تقسیم بندی چند کلاسه ایجاد می کند. بنابراین، بدیهی است که تقسیم بندی چند کلاسه بر کیفیت توصیف صحنه تولید شده توسط Sem-RSSU تأثیر می گذارد.
ارزیابی انسانی توصیفهای صحنههای زبان طبیعی مبتنی بر فضای-زمینهای
ارزیابی انسانی توصیفهای صحنههای زبان طبیعی مبتنی بر فضایی-زمینهای با استفاده از یک رویکرد مبتنی بر مقیاس انجام شد، که در آن از شرکتکنندگان انسانی خواسته شد تا توصیفات صحنه ارائهشده توسط Sem-RSSU را بر اساس چندین پارامتر امتیاز دهند. برای ارزیابی جامع توصیفات صحنه، ارزیابی انسانی در دو مرحله انجام شد: (1) ارزیابی ذهنی توصیفات صحنه زبان طبیعی فضایی- بافتی، با تمرکز بر ساختارهای زبان طبیعی و خوانایی، و (2) ارزیابی ذهنی نگاشت های زمینه ای و فضایی. -اطلاعات متنی ارائه شده در توضیحات صحنه. نمرات جداول زیر توسط گروهی متشکل از هفت محقق سنجش از دور در IIT بمبئی به صورت جداگانه برای مجموعه 50 صحنه سنجش از دور درجه بندی شدند. محققان در زمینه تفسیر تصاویر سنجش از دور با تجربه و ماهر بوده و از تسلط کامل به زبان انگلیسی برخوردارند. نمرات درجه بندی شده توسط شرکت کنندگان انسانی به طور متوسط و مقیاس بندی شدند تا از 0 تا 1 برای یکنواختی باشد.
ارزیابی ذهنی توصیفات صحنه زبان طبیعی فضایی- بافتی
پارامترهای [ 42 ] خوانایی، دقت، کفایت و ارتباط برای ارزیابی ذهنی توصیف صحنه انتخاب شدند. خوانایی طبیعی بودن توصیف ها را به حساب می آورد در حالی که دقت یا صحت، کفایت و مرتبط بودن، آموزنده بودن توضیحات صحنه را به حساب می آورد. از جدول 3 ، مشهود است که توصیفات صحنه تولید شده توسط Sem-RSSU تا حد زیادی توسط شرکت کنندگان انسانی قابل خواندن و دقیق تلقی می شد، با این حال کفایت و ارتباط برای شرکت کنندگان منصفانه به نظر می رسید.
ارزیابی ذهنی نگاشت های زمینه ای و اطلاعات فضایی- زمینه ای
ارزیابی ذهنی نگاشتهای زمینی و اطلاعات فضایی – متنی منجر به توسعه پارامترهای خاص مورد نیاز برای ارزیابی توصیفهای صحنه سنجش از دور شد. پارامترهای ارزیابی عمومی برای سنجش کیفیت توصیفات در حوزه تحقیقاتی تولید زبان طبیعی – کفایت و دقت یا صحت – برای مطابقت با زمینه توصیف صحنه سنجش از دور اصلاح شدند. پارامترهای پیشنهادی به همراه تعاریف آنها که برای شرکت کنندگان انسانی نمایش داده می شود به شرح زیر است:
Grounding Correctness : دقت یا صحت نگاشت بین مناطق در صحنه و جملات در توضیحات صحنه برای صحنه سنجش از دور.
صحت جهت : دقت یا صحت جهت های اصلی با توجه به منطقه مرجع ذکر شده در توضیحات صحنه برای صحنه سنجش از دور.
صحت متنی : دقت یا صحت زمینه ای که توسط توصیف صحنه برای صحنه سنجش از دور منتقل می شود.
صحت توپولوژیکی : دقت یا صحت روابط توپولوژیکی بین مناطق ذکر شده در توضیحات صحنه برای صحنه سنجش از دور.
کفایت زمین : کفایت نگاشت بین مناطق در صحنه و جملات در توصیف صحنه برای توصیف جامع صحنه سنجش از دور.
کفایت جهتی : کفایت روابط جهتی بین مناطق ذکر شده در توصیف صحنه برای توصیف جامع جهت ها در صحنه سنجش از دور.
کفایت متنی : کفایت زمینه ذکر شده در توصیف صحنه برای انتقال جامع زمینه صحنه سنجش از دور.
کفایت توپولوژیکی : کفایت روابط توپولوژیکی بین مناطق ذکر شده در توصیف صحنه برای توصیف جامع توپولوژی صحنه سنجش از دور.
از نمرات جدول 4 ، مشهود است که زمینه، زمینه و توپولوژی به درستی در توضیحات صحنه تولید شده توسط Sem-RSSU منتقل شده اند، اما توافق کلی از نظر روابط جهت در توصیف صحنه، همانطور که توسط شرکت کنندگان انسانی امتیازدهی شده است، منصفانه است.
4. بحث
چارچوب Sem-RSSU با استفاده از استراتژیهای ارزیابی مربوطه در مراحل مختلف عملیات آن به دقت مورد ارزیابی قرار گرفت. بخشبندی چند کلاسه صحنههای سنجش از راه دور برای مجموعه دادههای سیل شهری در لایه میانجیگری داده چارچوب با آزمایش با معماریهای مختلف شبکه عصبی عمیق پیشرفته اجرا شد. از آزمایشها، مشاهده شد که معماری SegNet با ستون فقرات ResNet بهترین نتایج را نسبت به مجموعه دادههای سیل شهری از نظر دقت و میانگین IoU ایجاد میکند. از آزمایشها، مشخص شد که چارچوب Sem-RSSU برای صحنههای سنجش از دور با وضوح بسیار بالا با توجه به اهمیت تقسیمبندی چند کلاسه مؤثر در چارچوب، بهترین گزینه است. با این حال، همچنین اشاره شد که نادرستیهای جزئی در نقشه طبقهبندی ایجاد شده توسط مؤلفه تقسیمبندی، تأثیر قابلتوجهی بر توصیف صحنههای زبان طبیعی ندارد، در درجه اول به دلیل الگوریتم تجمع سهگانه فضایی-مکانی، که چندین اشیاء را در یک صحنه به عنوان «مجموعهها» گروهبندی میکند. بر اساس رابطه فضایی- زمینه ای آنها با منطقه برجسته. هستی شناسی های هستی شناسی صحنه سنجش از دور و هستی شناسی صحنه سیل که به طور گسترده در Sem-RSSU استفاده می شود، مطابق با اصول طراحی هستی شناسی، همانطور که توسط مرجع [پیشنهاد شده است] ارزیابی شدند. که چندین اشیاء را در یک صحنه بر اساس رابطه فضایی – زمینه ای آنها با منطقه برجسته به عنوان “جمع” گروه بندی می کند. هستی شناسی های هستی شناسی صحنه سنجش از دور و هستی شناسی صحنه سیل که به طور گسترده در Sem-RSSU استفاده می شود، مطابق با اصول طراحی هستی شناسی، همانطور که توسط مرجع [پیشنهاد شده است] ارزیابی شدند. که چندین اشیاء را در یک صحنه بر اساس رابطه فضایی – زمینه ای آنها با منطقه برجسته به عنوان “جمع” گروه بندی می کند. هستی شناسی های هستی شناسی صحنه سنجش از دور و هستی شناسی صحنه سیل که به طور گسترده در Sem-RSSU استفاده می شود، مطابق با اصول طراحی هستی شناسی، همانطور که توسط مرجع [پیشنهاد شده است] ارزیابی شدند.37]. توصیفهای صحنهای مبتنی بر فضایی-زمینهای ارائه شده توسط Sem-RSSU به طور گسترده با استفاده از یک استراتژی دو وجهی ارزیابی شدند – ارزیابیهای خودکار (هدف) و ارزیابیهای انسانی (ذهنی). معیارهای BLEU، METEOR، ROGUE_L و CIDEr برای ارزیابی توصیفات صحنه تولید شده توسط Sem-RSSU با معماریهای مختلف شبکه عصبی عمیق برای تقسیمبندی چند کلاسه استفاده شدند. مشاهده شد که معیارهای ارزیابی خودکار به طور مداوم بالاترین امتیاز را برای SegNet با معماری ResNet کسب میکنند، بنابراین اهمیت تقسیمبندی چند کلاسه را تقویت میکنند. لازم به ذکر است که چارچوب Sem-RSSU به صورت لایه ای طراحی شده است تا ماژولار باشد و بنابراین می تواند استفاده از هر رویکرد پیشرفته ای را برای تقسیم بندی چند کلاسه برای بهترین نتایج تسهیل کند.
از تجزیه و تحلیل تجربی، این قابل درک است که روابط جهت استنباط شده توسط Sem-RSSU در مواردی که شامل مناطق دراز و نامنظم است به دلیل استفاده از رویکرد مبتنی بر مرکز در استنتاج روابط جهتی در لایه غنیسازی معنایی ناقص است. یک رویکرد قویتر که هندسههای کلنگر مناطق را در نظر میگیرد، برای استنباط روابط جهتدار نیاز به تحقیق دارد. Sem-RSSU در هسته خود از ترکیب سه گانه فضایی- زمینه ای و برنامه ریزی و تحقق الگوریتم های توصیف صحنه زمینی استفاده می کند. دومی متکی به یک مکانیسم قالب برای تولید توصیف صحنه های زبان طبیعی از سه گانه های انباشته شده، منطقه برجسته و اطلاعات جهتی است که به آن ارسال می شود. با در نظر گرفتن تعداد محدودی از ساختارهای زبان طبیعی لازم برای توصیف جامع صحنه های سنجش از دور، یک رویکرد مبتنی بر الگو برای توسعه چارچوب Sem-RSSU محتاطانه به نظر می رسید. با این حال، با استفاده گسترده از روشهای ترجمه ماشین عصبی، کشف یک رویکرد عصبی برای ترجمه نمودارهای دانش صحنه به توصیف صحنههای زبان طبیعی جذاب خواهد بود.
5. نتیجه گیری و جهت گیری های آینده
چارچوب درک صحنه سنجش از دور مبتنی بر معناشناسی (Sem-RSSU) که در این مقاله ارائه شده است، با هدف افزایش آگاهی موقعیتی از صحنههای سنجش از راه دور از طریق ارائه توصیفهای صحنههای طبیعی مبتنی بر زبان طبیعی از دیدگاه فضایی-زمانی است. اگرچه فاجعه سیل به عنوان یک سناریوی آزمایشی برای نشان دادن سودمندی درک جامع صحنه انتخاب شد، Sem-RSSU همچنین می تواند برای نظارت بر سایر بلایا مانند زلزله، آتش سوزی جنگل ها، طوفان، رانش زمین و غیره و همچنین گسترش شهری به کار رود. تجزیه و تحلیل و سناریوهای مرتبط با دفاع، مانند نظارت متخاصم در مناطق درگیر.
این چارچوب ادغام یک یادگیری عمیق و یک رویکرد مبتنی بر دانش را پیشنهاد میکند، در نتیجه از (1) یادگیری عمیق برای تقسیمبندی چند طبقه و (2) استدلال قیاسی برای استخراج دانش ضمنی استفاده میکند. این چارچوب از تبدیل صحنههای سنجش از دور به نمودارهای دانش صحنه که از طریق توسعه هستیشناسی صحنه سنجش از دور (RSSO) رسمیت یافته است، حمایت میکند. هستی شناسی نمایش یک صحنه سنجش از دور عمومی را در قالب نمودارهای دانش با تعریف مفاهیم مربوط به اصل و نسب صحنه و مناطق کاربری زمین/پوشش زمین و روابط فضایی بین آنها مدل می کند. هستی شناسی متنی صحنه سیل که به عنوان بخشی از این تحقیق توسعه یافته است، مفاهیم و روابط مرتبط را در طول یک فاجعه سیل در منظر شهری تعریف می کند. بنابراین هستی شناسی سازگاری Sem-RSSU را با زمینه های کاربردی مختلف نشان می دهد. هستی شناسی صحنه سنجش از دور (https://geosysiot.in/rsso/ApplicationSchema ) و هستی شناسی صحنه سیل ( https://geosysiot.in/fso/ApplicationSchema )) برای مرجع در وب منتشر شده است. این چارچوب الگوریتمهای برنامهریزی و اجرای توصیف صحنه مبتنی بر فضایی-مکانی را پیشنهاد و پیادهسازی میکند تا (1) نمودارهای دانش صحنه را برای کمک به ارائه توصیف صحنه از منظر فضایی-زمانی و (2) رندر نگاشتهای بین مناطق در صحنه را جمعآوری کند. و جملاتی را به ترتیب در توضیحات صحنه تولید کرد. همچنین گرامر توصیف صحنه سنجش از راه دور را تعریف می کند که توصیفات صحنه به زبان طبیعی ارائه شده با آن مطابقت دارد. رابط جست و جوی GeoSPARQL این چارچوب، پرس و جو و تجسم را بر روی نمودارهای دانش صحنه استنتاج شده امکان پذیر می کند، بنابراین به کاربران امکان می دهد صحنه سنجش از دور را بیشتر کاوش و تجزیه و تحلیل کنند.
اگرچه رویکرد ارائه توصیف صحنه به زبان طبیعی مبتنی بر زبان در Sem-RSSU نتایج منصفانه ای ایجاد می کند، کاوش و مقایسه با یک رویکرد عصبی برای ترجمه نمودارهای دانش صحنه به زبان طبیعی جالب خواهد بود. علاوه بر استفاده از روابط جهتی و توپولوژیکی، بررسی استفاده از روابط فضایی کیفی استنباط شده، مانند “نزدیک”، “اطراف” و “کنار” در آینده، برای تولید توصیفات طبیعی بیشتر مفید خواهد بود. . علاوه بر این، مؤلفه زمانی در توصیف صحنههای زبان طبیعی برای به تصویر کشیدن صحنههای در حال تکامل سنجش از دور تا حد زیادی ناشناخته باقی مانده است. جهتهای آینده این تحقیق عبارتند از: (1) کشف رویکردهای عصبی، ارائه توصیفهای صحنه به زبان طبیعی از نمودارهای دانش صحنه. (2) برای کشف استفاده از روابط فضایی کیفی استنباط شده، برای بهبود طبیعی بودن توضیحات صحنه ارائه شده. و (3) برای کاوش مؤلفه زمانی در نمودارهای دانش صحنه، برای کمک به ارائه توضیحات صحنه به زبان طبیعی صحنههای سنجش از راه دور که به سرعت در حال تکامل هستند در طول زمان.
بدون دیدگاه