خلاصه

هنگامی که یک زمین لغزش اتفاق می افتد، شناسایی اجسام متاثر از خطر اطراف زمین لغزش برای ارزیابی خطر و نجات اضطراری مهم است. برای تحقق شناخت، نیاز به تعریف رابطه فضایی بین زمین لغزش و سایر اشیاء جغرافیایی مانند سکونت، جاده ها و مدارس است. در مقایسه با تقسیم‌بندی معنایی و تقسیم‌بندی نمونه‌ای که فقط می‌تواند اشیاء جغرافیایی را به طور جداگانه تشخیص دهد، شرح تصویر می‌تواند اطلاعات معنایی غنی‌تری از جمله رابطه فضایی بین این اشیاء ارائه دهد. با این حال، روش‌های سنتی شرح تصاویر مبتنی بر RNN دو کاستی اصلی دارند: خطاها در فرآیند پیش‌بینی اغلب انباشته می‌شوند و مکان توجه همیشه دقیق نیست که منجر به قضاوت نادرست ریسک می‌شود. برای رسیدگی به این مشکلات، یک شبکه تفسیر تصویر زمین لغزش بر اساس یک دروازه معنایی و یک شبکه حافظه کوتاه مدت دو زمانی (SG-BiTLSTM) در این مقاله پیشنهاد شده است. در معماری SG-BiTLSTM، یک U-Net به عنوان یک رمزگذار برای استخراج ویژگی های تصاویر و تولید نقشه های ماسک زمین لغزش ها و سایر اشیاء جغرافیایی استفاده می شود. رمزگشای این ساختار از دو شبکه حافظه کوتاه مدت تعاملی (LSTMs) برای توصیف رابطه فضایی بین این اشیاء جغرافیایی تشکیل شده است تا نقش اشیاء جغرافیایی طبقه بندی شده برای شناسایی اجسام آسیب دیده را بیشتر مشخص کند. هدف از این تحقیق قضاوت در مورد بدنه های آسیب دیده زمین لغزش (به عنوان مثال، ساختمان ها و جاده ها) از طریق شبکه SG-BiTLSTM برای ارائه پشتیبانی اطلاعات جغرافیایی برای خدمات اضطراری است. داده‌های سنجش از دور توسط ماهواره Worldview پس از وقوع زلزله ونچوان در سال 2008 گرفته شد. نتایج تجربی نشان می‌دهد که شبکه SG-BiTLSTM در مقایسه با LSTM سنتی (مدل پایه) پیشرفت‌های قابل‌توجهی را در شناسایی اجسام آسیب‌دیده از زمین لغزش و خطر نشان می‌دهد. ، BLEU1 SG-BiTLSTM 5.89٪ بهبود یافته است، نرخ تطابق بین نقشه های ماسک و ماتریس تمرکز توجه 42.81٪ بهبود یافته است. در نتیجه، شبکه SG-BiTLSTM می تواند زمین لغزش ها و بدنه های متاثر از خطر را به طور همزمان شناسایی کند تا خدمات اطلاعات جغرافیایی پایه را برای تصمیم گیری اضطراری ارائه دهد. نتایج تجربی نشان می‌دهد که شبکه SG-BiTLSTM در مقایسه با LSTM سنتی (مدل پایه) پیشرفت‌های قابل‌توجهی در تشخیص زمین لغزش و اجسام متاثر از خطر نشان می‌دهد، BLEU1 SG-BiTLSTM تا 5.89% بهبود یافته است، نرخ تطابق. بین نقشه های ماسک و ماتریس تمرکز توجه 42.81 درصد بهبود یافته است. در نتیجه، شبکه SG-BiTLSTM می تواند زمین لغزش ها و بدنه های متاثر از خطر را به طور همزمان شناسایی کند تا خدمات اطلاعات جغرافیایی پایه را برای تصمیم گیری اضطراری ارائه دهد. نتایج تجربی نشان می‌دهد که شبکه SG-BiTLSTM در مقایسه با LSTM سنتی (مدل پایه) پیشرفت‌های قابل‌توجهی در تشخیص زمین لغزش و اجسام متاثر از خطر نشان می‌دهد، BLEU1 SG-BiTLSTM تا 5.89% بهبود یافته است، نرخ تطابق. بین نقشه های ماسک و ماتریس تمرکز توجه 42.81 درصد بهبود یافته است. در نتیجه، شبکه SG-BiTLSTM می تواند زمین لغزش ها و بدنه های متاثر از خطر را به طور همزمان شناسایی کند تا خدمات اطلاعات جغرافیایی پایه را برای تصمیم گیری اضطراری ارائه دهد.

کلید واژه ها:

رانش زمین ; زیرنویس تصویر ; دو زمانی LSTM ; تقسیم بندی معنایی

1. معرفی

وقوع زمین لغزش در نقاط مختلف سطوح مختلفی از خطر را ایجاد می کند. برای مثال، لغزش‌هایی که در مناطق پرجمعیت اتفاق می‌افتد، مضرتر از مناطق خالی از سکنه هستند ( شکل 1 ).
برای طراحی یک طرح نجات اضطراری، تصمیم گیرندگان باید نه تنها مکان ها و مرزهای زمین لغزش، بلکه روابط فضایی بین زمین لغزش و سایر اشیاء جغرافیایی را نیز پاکسازی کنند. اجسام اطراف زمین لغزش ها اجسام متاثر از خطر نامیده می شوند که از طریق رابطه فضایی بین زمین لغزش و سایر اشیاء جغرافیایی شناسایی می شوند. در این مقاله، اجساد متاثر از خطر به جاده ها و ساختمان های مرتبط با امداد و نجات اضطراری اشاره می کنند. با این حال، اکثر مطالعات کنونی تنها بر روی این موضوعات به طور جداگانه تمرکز می کنند. در مطالعات تشخیص موقعیت و محدوده زمین لغزش ها بر اساس تکنیک های سنجش از دور، کار قبلی عمدتاً بر شناسایی زمین لغزش ها و نقشه برداری حساسیت تمرکز دارد [ 1 ، 2 ، 3 ]]. در مطالعات اجسام متاثر از خطر، به دلیل مرتبط بودن خطر بلایای زمین‌شناسی مانند رانش زمین با عوامل خطر و آسیب‌پذیری بدنه‌های متاثر از خطر [ 4 ]، برخی تحقیقات بر ارزیابی آسیب‌پذیری آن‌ها متمرکز شده و از آن به عنوان یکی از شاخص‌ها استفاده می‌کنند. سیستم ارزیابی ریسک [ 5 ، 6 ]. علاوه بر این، تکنیک سنجش از دور برای نظارت بر اجسام متاثر از خطر خاص و ارزیابی تأثیر تغییرات آنها بر توسعه اقتصادی محلی استفاده می‌شود [ 7 ، 8 ، 9 ].
تقسیم بندی معنایی [ 10 ] می تواند زمین لغزش ها و سایر اشیاء جغرافیایی را با ارزیابی یک برچسب برای هر پیکسل تشخیص دهد. تشخیص لبه [ 11 ] می تواند مرز زمین لغزش ها و سایر اشیاء جغرافیایی را استخراج کند. تجزیه و تحلیل تصویر مبتنی بر شی جغرافیایی (GeoBIA) با به تصویر کشیدن و تجزیه و تحلیل اشیاء تصویر، موجودات یا پدیده های جغرافیایی را به جای پیکسل های فردی مطالعه می کند . در مقایسه با روش سنتی مدل‌سازی مبتنی بر پیکسل، ویژگی منحصربه‌فرد اشیاء-تصویر به واحدهای اساسی تحلیل تبدیل می‌شوند، زیرا آنها موجودات یا پدیده‌های جغرافیایی «معنادار» را در مقیاس‌های چندگانه نشان می‌دهند [ 16 ، 17 ]]. این مقاله سعی می کند GeoBIA و تقسیم بندی معنایی را برای تشخیص بهتر اشیاء جغرافیایی ترکیب کند.
با این حال، روابط بین این اشیاء پیچیده تر است و مطالعات مربوطه ناکافی است.
در نتیجه، برای شناسایی اجسام متاثر از خطر، تفسیر دستی از طریق تحلیل فضایی تکنیک GIS مورد نیاز است، در حالی که ممکن است منجر به راندمان و دقت پایین شود. شرح تصویر [ 18 ، 19 ] که بر اساس یک شبکه حافظه بلند مدت (LSTM) است، می تواند روابط بین این اشیاء جغرافیایی را به زبان طبیعی توصیف کند. LSTM بر اساس توجه [ 20 ، 21 ] می تواند منطقه ای را در تصویر تعریف کند که با کلمه فعلی مطابقت دارد و روش مفیدی برای تشخیص همزمان اشیاء جغرافیایی و روابط فضایی آنها ارائه دهد. در حال حاضر، حافظه بلند مدت کانولوشنال (Conv LSTM) [ 21] در تحقیقات مربوط به تقسیم بندی معنایی توجه بیشتری را به خود جلب می کند، زیرا ورودی آن را می توان از 1 بعدی به 2 بعدی صرف کرد که برای پردازش تصاویر سنجش از دور بهتر است [ 22 ، 23 ، 24 ، 25 ]. بر اساس تحقیقات فوق، ما یک روش جدید برای شناسایی زمین لغزش و اجسام متاثر از خطر به طور همزمان پیشنهاد کردیم. در این روش، از یک شبکه LSTM برای استخراج رابطه بین اشیاء جغرافیایی استفاده شد، سپس آن را با ماسکی از زمین لغزش های تولید شده از U-Net برای قضاوت بدنه های متاثر از خطر ترکیب کرد، تا بتوان یک پشتیبانی اطلاعاتی برای اضطراری ارائه کرد. تصمیم گیری. با این حال، هنوز سه نقص در این روش وجود دارد که باید برطرف شود:
(1)
خطای انباشته: در فرآیند آموزش، شرح تصویر بسته به حقیقت زمین (GT) کلمه به کلمه ایجاد می شود. با این حال، در فرآیند پیش‌بینی، کلمه t فقط می‌تواند به کلمه t-1 تولید شده قبلی تکیه کند ، اگر کلمه t-1 نادرست باشد، ممکن است منجر به زنجیره‌ای نادرست در عنوان تصویر شود که باعث ایجاد یک خطای انباشته می‌شود.
(2)
قسمت‌های مختلف شرح تصویر اغلب بیشتر به ویژگی‌های تصویر یا اطلاعات زمینه متکی است، اما بیشتر LSTM فعلی مبتنی بر توجه نمی‌تواند بین تصویر و اطلاعات زمینه انتخابی پویا و تطبیقی ​​داشته باشد [ 26 ].
(3)
مکان توجه ها به اندازه کافی دقیق نیست، یعنی توجه ها همیشه موقعیت واقعی زمین لغزش ها و اجساد آسیب دیده را دقیقاً تعیین نمی کنند، با وجود این، مکانیسم اصلاحی در روش های موجود وجود ندارد.
بنابراین، ما یک شبکه زیرنویس تصویر جدید به نام دروازه معنایی و یک شبکه حافظه کوتاه مدت دوزمانی (SG-BiTLSTM) برای رفع نواقص پیشنهاد کردیم. سهم اصلی این مقاله به شرح زیر است:
(1)
ما یک LSTM دوزمانی جدید معرفی کردیم که از سه افت زبان، پیش‌بینی و توجه برای آموزش پارامترهای شبکه استفاده می‌کند تا خطای انباشته در فرآیند پیش‌بینی را کاهش دهد.
(2)
ما یک دروازه معنایی پیشنهاد کردیم که شبکه را قادر می‌سازد تا به صورت پویا و تطبیقی ​​به تصویر یا زمینه تکیه کند.
(3)
ما یک مکانیسم اصلاح توجه جدید برای بهبود دقت مکان در تصاویر سنجش از دور ایجاد می کنیم.
بقیه مقاله به شرح زیر سازماندهی شده است: بخش 2 مروری بر ادبیات تحقیقات قبلی در مورد زمین لغزش ها ارائه می کند. بخش 3 پیشینه روش مورد استفاده در این مقاله را شرح می دهد. استراتژی اصلی این مقاله در بخش 4 ارائه شده است . آزمایش ها و بحث در بخش 5 و بخش 6 ارائه شده است و نتیجه گیری در بخش پایانی مورد بحث قرار می گیرد.

2. مربوط به کار

تحقیقات موجود در مورد زمین لغزش شامل شناسایی زمین لغزش و نقشه‌برداری حساسیت زمین لغزش است که روش‌های مورد استفاده در این تحقیقات را می‌توان به دو نوع روش سنتی و روش‌های مبتنی بر یادگیری عمیق تقسیم کرد.

2.1. تجزیه و تحلیل زمین لغزش بر اساس روش های سنتی

روش های سنتی برای تجزیه و تحلیل زمین لغزش شامل ماشین بردار پشتیبان (SVM)، مدل درخت تصمیم و غیره است. Chen et al. [ 27 ] یک روش نقشه برداری زمین لغزش شیئی-شرقی بر اساس جنگل های تصادفی و مورفولوژی ریاضی برای تشخیص زمین لغزش های رخ داده در تاریخ پیشنهاد کرد. روش پیشنهادی برای واکنش سریع اضطراری به بلایای طبیعی خوب است. این مقاله همچنین تأثیر هر دو زمین لغزش ناشی از زلزله و رویدادهای بارندگی شدید را با استفاده از مدل‌های آماری سنتی و روش‌های داده کاوی برای مقایسه اثربخشی روش‌های مختلف بر روی نقشه‌برداری حساسیت زمین لغزش مورد بررسی قرار داد. با توجه به نتایج، ماشین بردار پشتیبان پیشنهادی بهترین اثربخشی را در ساخت نقشه حساسیت هر دو نوع زمین لغزش روی و همکاران به دست آورد. [28 ] روش جدیدی را ارائه کرد که وزن شواهد (WofE) و ماشین بردار پشتیبان (SVM) را با مجموعه داده‌های سنجش از دور و سیستم‌های اطلاعات جغرافیایی (GIS) یکپارچه کرد. نتایج تجربی حاصل از روش پیشنهادی و نتیجه گیری برای مدیران و برنامه ریزان شهری مناطق مستعد زمین لغزش مثبت است. شن و همکاران [ 29 ] نقشه‌های حساسیت زمین لغزش را با استفاده مستقیم از داده‌های بین‌سنجی پراکنده پایدار (PSI) به‌روزرسانی و اصلاح کرد. روش تصفیه شده ارائه شده در این مقاله قادر است درجه حساسیت را در بخشی از منطقه مورد مطالعه افزایش دهد و نقشه حساسیت زمین لغزش با اطمینان بیشتری را در منطقه ایجاد کند. پارک و همکاران [ 30] مدل‌های درخت تصمیم مورد استفاده در مجموع 548 زمین لغزش را شناسایی کردند، سپس رابطه بین وقوع زمین لغزش و عوامل ایجاد کننده زمین لغزش را با استفاده از تشخیص تعامل خودکار Chi-square (CHAID)، CHAID خسته شده و تصمیم درخت آماری سریع، بی‌طرف و کارآمد (QUEST) تجزیه و تحلیل کردند. مدل های درختی نتایج با استفاده از روش مساحت زیر منحنی (AUC) تأیید شد. بر اساس این مقاله، حساسیت زمین لغزش در مناطق کوهستانی بیشتر از مناطق ساحلی است. کدوی و همکاران [ 31] نقشه‌های حساسیت زمین لغزش را با استفاده از مدل‌های مختلف یادگیری ماشین (مدل AdaBoost، LogitBoost، Multiclass Classifier و Bagging) تولید کرد، نتایج با استفاده از ناحیه تحت روش منحنی (AUC) اعتبارسنجی شدند. روش طبقه‌بندی چند کلاسه بالاترین دقت پیش‌بینی 85.9 درصد را نسبت به مدل‌های دیگر به دست آورد. شائو و همکاران [ 32 ] فهرستی از زمین لغزش های ناشی از زلزله در ژاپن در 5 سپتامبر 2018 ایجاد کرد، سپس از هر دو روش رگرسیون لجستیک (LR) و ماشین بردار پشتیبان (SVM) برای ارزیابی حساسیت زمین لغزش استفاده کرد. با توجه به نتایج تجربی، SVM از مدل LR در نگاشت حساسیت بهتر عمل کرد.

2.2. تجزیه و تحلیل زمین لغزش بر اساس شبکه های عصبی

پراکاش و همکاران [ 33 ] یک U-Net اصلاح شده برای تکمیل بخش‌بندی معنایی زمین لغزش‌ها در مقیاس منطقه‌ای از داده‌های مشاهده زمین (EO) با استفاده از بلوک‌های ResNet 34 برای استخراج ویژگی پیشنهاد کرد، سپس این روش را با روش‌های یادگیری ماشین سنتی مقایسه کرد. روش یادگیری عمیق از روش‌های یادگیری ماشین مبتنی بر پیکسل و مبتنی بر شی بهتر عمل کرد. در رفر. [ 34]، نویسندگان شبکه های عصبی کانولوشنال (CNN) را با لایه های مختلف برای تولید هشت نقشه توزیع زمین لغزش طراحی کردند، سپس با استفاده از روش های مختلف برای ارزیابی دقت، آنها را با چندضلعی های زمین لغزش استخراج شده به صورت دستی مقایسه کردند. نتیجه گیری نشان داد که اثربخشی CNN ها برای تشخیص زمین لغزش به طراحی شبکه متکی است که شامل اندازه پنجره پچ نمونه، داده های مورد استفاده در شبکه و روش آموزش است.
به طور خلاصه، محققان قبلی عمدتاً بر شناسایی زمین لغزش‌ها و نقشه‌برداری حساسیت آنها تمرکز می‌کنند، نگرانی در مورد اجسام متاثر از خطر که زمین لغزش‌ها را احاطه کرده‌اند کافی نیست. علاوه بر این، اکثر روش‌های مورد استفاده در تحقیق قبلی SVM یا مدل درخت تصمیم هستند، تعداد کمی شامل تکنیک شبکه عصبی عمیق است.

3. پیشینه روش مورد استفاده

3.1. تقسیم بندی معنایی

تقسیم بندی معنایی مبتنی بر شبکه های عصبی توسط FCN [ 35 ]، و تکامل یافته U-Net [ 36 ] و DenseNet [ 37 ] و غیره نشان داده شده است. ساختار اتصال پرش همراه با لایه‌های دکانولوشن و لایه‌های پیچیدگی در اعماق مختلف به‌منظور بازگرداندن مکان‌های دقیق اشیاء جغرافیایی و افزودن برچسب‌های معنایی به هر پیکسل از تصویر. شبکه‌های تقسیم‌بندی معنایی مبتنی بر CNN به طور گسترده در شناسایی ساختمان‌ها [ 38 ، 39 ، 40 ، 41 ]، استخراج مرزهای کاداستر [ 42 ] استفاده می‌شوند.] و تغییر کاربری یا پوشش زمین [ 43 ، 44 ]. کاربردها همچنین برای شناخت گیاهان کشاورزی [ 45 ]، آفات و بیماری ها [ 46 ، 47 ]، به ویژه Refs گسترش یافته است. [ 48 ] ​​مکانیسم توجه را برای تحقق بخشیدن به بخش بندی بهتر با مهار نویز ویژگی های سطح پایین در سراسر ویژگی های سطح بالا معرفی کرد. با توسعه مداوم برنامه ها، با توجه به ویژگی های ساختار داده سنجش از دور چند باند، شبکه LSTM اغلب در تقسیم بندی معنایی تصاویر سنجش از دور استفاده می شود [ 49 ، 50 ، 51 ، 52 ، 53 .، 54 ]. مراجع. [ 51 و 52 ] یک پیکسل مرکزی و پیکسل های همسایگی با n × n کانال را به عنوان ورودی اتخاذ کرد، ویژگی های فضایی و طیف چند کانالی را برای تشخیص انواع پیکسل های سنجش از دور ترکیب می کند.
در نتیجه، تقسیم بندی معنایی مبتنی بر شبکه عصبی عمیق به طور گسترده در تشخیص اشیاء جغرافیایی استفاده شده است. با این حال، تقسیم بندی معنایی نمی تواند روابط فضایی بین اشیاء و توصیف معنایی سناریو را به دست آورد.

3.2. زیرنویس تصویر

زیرنویس تصویر سنجش از دور می تواند یک جمله به زبان طبیعی برای توصیف اشیاء و روابط بین آنها ایجاد کند [ 55 ]. تحقیقات مرتبط از توصیف تصاویر سنجش از راه دور [ 56 ، 57 ] در زبان عصبی در بعد محاسبات به دست آمده است. LSTM های مبتنی بر توجه [ 58 ] می توانند اطلاعات معنایی تصاویر را خروجی بگیرند و مکان اشیاء جغرافیایی را به کلمات در زمان مربوطه مطابق با ماتریس فوکوس به طور همزمان متصل کنند. برای استفاده بهتر از توضیحات و ویژگی های تصویر، مرجع [ 59] مکانیزمی را طراحی کرد که LSTM را قادر می‌سازد تا بر روی اطلاعات معنایی یا ویژگی‌های تصویر به صورت تطبیقی ​​در هر زمان تمرکز کند. در بعد سنجش از دور، برخی از محققین کاوش های مفیدی انجام داده اند. کو و همکاران [ 58 ] از یک شبکه عصبی بازگشتی (RNN) برای تولید جملات به زبان طبیعی برای توصیف تصاویر سنجش از دور استفاده کرد. شی و همکاران [ 59 ] یک چارچوب زیرنویس تصویر سنجش از دور بر اساس CNN ها پیشنهاد کرد. برای ترویج توسعه شرح تصاویر سنجش از دور، یک مجموعه داده معیار در مقیاس بزرگ ارائه شده است [ 60 ]. وانگ و همکاران [ 61 ] زیرنویس تصویر سنجش از دور را با استفاده از تعبیه معنایی توسط CNNها به عنوان یک وظیفه تعبیه معنایی پنهان در نظر گرفت. ژانگ و همکاران [ 62] مکانیزم توجه ویژگی را برای زیرنویس تصویر سنجش از راه دور ارائه می کند، این مکانیسم تصویر را حس می کند و مطابقت بین ویژگی ها و کلمات را تفسیر می کند. تحقیقات فوق، CNN ها را به عنوان رمزگذار و LSTM را به عنوان رمزگشا اتخاذ کردند، بنابراین، تبدیل تصاویر به توصیف زبان طبیعی می تواند محقق شود.
تحقیقات در مورد زیرنویس تصویر سنجش از دور اخیراً دستاوردهایی داشته است، اما هنوز مشکلات زیادی وجود دارد، به عنوان مثال، ناحیه در تصویر مربوط به ماتریس وزن توجه اغلب نمی‌تواند همزمان با شی سنجش از دور مطابق با کلمه مطابقت داشته باشد. مشکل دیگر، خطای انباشته در فرآیند آموزش است. در نتیجه، تحقیقات بیشتر هنوز ضروری است.

3.3. تلفیقی از تقسیم بندی معنایی و عنوان تصویر

پژوهش حاضر نشان می‌دهد که روند ترکیبی از تقسیم‌بندی معنایی و عنوان تصویر، تقسیم‌بندی تصویر ارجاع‌دهنده [ 63 ، 64 ، 65 ] و پاسخ‌گویی به سؤالات بصری [ 66 ، 67 ] در حال تبدیل شدن به کانون‌های تحقیقاتی هستند. نقطه مشترک این تحقیقات این است که آنها یک تصویر را بر اساس یک زبان طبیعی تقسیم بندی می کنند. برای تحقق بخشیدن به یک پیکسل، محققان از یک شبکه LSTM مکرر برای رمزگذاری عبارت ارجاعی در یک بردار استفاده کردند و از یک شبکه کاملاً کانولوشنی برای استخراج ویژگی‌های فضایی از تصویر و خروجی نقشه پاسخ فضایی برای شی استفاده کردند [ 63]. محققان دیگر یک LSTM چندوجهی کانولوشن را برای ترکیب تعاملات متوالی بین کلمات، اطلاعات بصری و فضایی پیشنهاد کردند. در مقاله [ 66 ]، یک مکانیسم توجه بصری بالا در زیرنویس تصویر و پاسخ به سؤال بصری (VQA) استفاده شد که می‌تواند تصاویر را با استفاده از تجزیه و تحلیل دقیق و چندین مرحله استدلال درک کند. Paper [ 67 ] مکانیزمی را پیشنهاد کرد که مکانیسم توجه از پایین به بالا و بالا به پایین را ترکیب می کند، سپس از این روش در درک سناریوی بصری و VQA استفاده می کند. تطبیق تصویر-متن یک کانون تحقیقاتی در جنبه‌های بینایی و زبانی است. مقاله [ 68] یک روش قابل درک برای تولید نمایش بصری ارائه می دهد که می تواند اشیاء کلیدی را در یک سناریو ثبت کند. در جنبه سنجش از دور، مقاله [ 69 ] روشی را برای تحقق بخشیدن چند مقیاسی و تشخیص روابط فضایی تصاویر به طور همزمان با استفاده از مدل توجه پیشنهاد کرد. این روش مزایای هر دو بخش بندی معنایی و شرح تصویر را در نظر می گیرد و توصیف معنایی تصاویر سنجش از دور را غنی می کند.
به طور خلاصه، تحقیقات فعلی در حال حاضر دستاوردهایی داشته است، اما در عنوان تصویر، تحقیقات بیشتر با هدف تطبیق بین مکان اشیاء و ماسک تقسیم‌بندی و کاهش خطای انباشته در شبکه‌های تکراری هنوز ضروری است.

4. روش شناسی

در بخش 4 ، شبکه SG-BiTLSTM، شامل معماری، یک دروازه معنایی جدید و تابع از دست دادن یکپارچه را شرح خواهیم داد.

4.1. نمودار جریان روش شناختی

روش ما بر اساس نمودار جریان نشان داده شده در شکل 2 توسعه می یابد .
مرحله 1. آماده سازی داده ها: تصویر مورد استفاده در این مطالعه توسط ماهواره Worldview-1 به دست آمده است، وضوح فضایی آن 0.5 متر است، ما یک تجزیه و تحلیل با کیفیت روی تصویر انجام می دهیم، جزئیات در بخش 5.1 ارائه شده است . نتایج نشان می‌دهد که کیفیت تصویر می‌تواند نیازهای آزمایش‌های ما را برآورده کند. داده های مورد استفاده در این تحقیق به 7 کلاس زمین لغزش، جاده، گرینلند، کشاورزی، ساختمان، رودخانه و غیره تقسیم می شوند. ما به صورت دستی جعبه نمونه را انتخاب کردیم و 224 × 224 پیکسل را به عنوان نمونه برش دادیم. تعداد کل نمونه ها 2910 است. ما 1925 نمونه را به عنوان مجموعه آموزشی انتخاب کردیم و 985 نمونه باقیمانده به عنوان مجموعه اعتبار سنجی استفاده شد. نمونه ای از نمونه ها در شکل 3 ارائه شده است .
مرحله 2. تنظیمات شبکه و پارامتر: شبکه ما شامل دو ساختار جزئی، یک شبکه تقسیم بندی معنایی و یک شبکه زیرنویس تصویر است. ما با استفاده از ماتریس فوکوس، ماسک اشیایی را که از شبکه تقسیم‌بندی معنایی تولید می‌شوند و رابطه بین اشیاء خروجی از عنوان تصویر دوزمانی را با استفاده از ماتریس فوکوس ادغام کردیم، به طوری که تشخیص خودکار زمین‌لغزش‌ها و اجسام متاثر از خطر را بر اساس فضای مکانی انجام دادیم. رابطه بین آنها علاوه بر این، این شبکه می تواند کلمه را به صورت پویا و تطبیقی ​​انتخاب کند که بیشتر بر تصویر یا اطلاعات زمینه تکیه کند. تعداد پارامترهای U-Net 8.64 میلیون است در حالی که تعداد LSTM 0.24 میلیون است. معماری دقیق شبکه در بخش 4.2 توضیح داده خواهد شد .
مرحله 3. تنظیم عملکرد تلفات یکپارچه: به منظور بهبود دقت مکان، استراتژی مکان GT را طراحی کردیم، سپس آن را با تابع تلفات دو زمانی ادغام کردیم، که شبکه را قادر می‌سازد لغزش‌ها و اجسام متاثر از خطر را به دقت تشخیص دهد و تفسیر کند. رابطه فضایی آنها جزئیات در بخش 4.6 توضیح داده خواهد شد .
مرحله 4. آموزش و اعتبارسنجی: ما مدل خود را بر روی یک واحد پردازش گرافیکی (GPU) آموزش و اعتبارسنجی کردیم، زمان‌های تکرار در فرآیند آموزش 1600 و نرخ یادگیری 0.001 بود. مدل های دقیق و روش های آموزشی در بخش 5.2 ارائه خواهد شد .
مرحله 5. ارزیابی عملکرد: ما نتایج تجربی خود را از مدل SG-BiTLSTM در مجموعه اعتبار سنجی تحلیل کردیم، بهبود را در مقایسه با مدل پایه توضیح دادیم. پایداری مدل ما با آزمایش مونت کارلو ثابت شد. شرح مفصل در بخش 5.4 و بخش 6.1 ارائه خواهد شد .
مرحله 6. پیش بینی: در حین پیش بینی، از یک برنامه خود برنامه ریزی شده برای اسکن تصویر خط به خط استفاده کردیم، هر 224 × 224 پیکسل به عنوان نمونه برش داده شد، وضوح فضایی 0.5 متر در همه نمونه ها حفظ شد. ما این نمونه‌ها را به شبکه آموزش‌دیده SG-BiTLSTM وارد می‌کنیم تا زمین لغزش‌ها و بدنه‌های متاثر از خطر آن‌ها را پیش‌بینی کنیم، به طوری که می‌توان پشتیبانی داده‌ای را برای تصمیم‌گیرنده اضطراری ارائه کرد. شرح مفصل در بخش 4.7 ارائه خواهد شد .
خروجی شبکه SG-BiTLSTM شامل دو بخش است: یکی ماسک های خروجی اشیاء جغرافیایی از U-Net، دیگری توصیف زبان طبیعی زمین لغزش ها و اشیاء اطراف آنها است که از BiTLSTM تولید می شوند. ما می توانیم اجسام متاثر از خطر را از طریق رابطه فضایی (کنار یا اطراف) بین زمین لغزش و سایر اشیاء جغرافیایی تعیین کنیم. علاوه بر این، با ارائه یک نگاشت ماتریس فوکوس بر روی نقشه ماسک شی، می‌توانیم برچسب، مکان و مرز اجسام آسیب‌دیده را تعیین کنیم، بنابراین خدمات اطلاعاتی را برای موارد اضطراری بلایا ارائه می‌کنیم.

4.2. معماری شبکه

SG-BiTLSTM بر اساس یک U-Net و یک LSTM دو زمانی است. U-Net به عنوان یک رمزگذار استفاده می شود، در حالی که رمزگشا یک LSTM دو زمانی است که از دو LSTM به هم پیوسته تشکیل شده است، از آن برای تولید دو کلمه در هر زمان استفاده می شود.
U-Net به عنوان یک رمزگذار شبکه SG-BiTLSTM، تصاویر سنجش از راه دور را دریافت می کند و نقشه های تقسیم بندی معنایی و نقشه های ویژگی چند کانالی را خروجی می دهد. نقشه های تقسیم بندی معنایی در اندازه 224 × 224 × 7 (ارتفاع × عرض × کانال) هستند و با پوشاندن به محل اشیاء سنجش از دور منتقل می شوند. ویژگی های سنجش از راه دور چند کاناله در اندازه 224 × 224 × 32 (ارتفاع × عرض × کانال) هستند. رمزگشا شامل دو LSTM دو زمانی به هم پیوسته است. در زمان t، زبان LSTM ویژگی های خروجی اندازه 224 × 224 × 32 را از رمزگذار می پذیرد. ساعت1– 1ℎ�−11از زبان LSTM و ساعت2تیℎ�2از پیش‌بینی LSTM در زمان قبلی. را ساعت2تیℎ�2، که به عنوان اطلاعات متناظر کلمه در نظر گرفته می شود y1تی��1که از زبان LSTM تولید خواهد شد، برای کنترل سهم تصویر در کلمه بعدی، وارد دروازه معنایی شد. این ساختار می‌تواند تصمیم تطبیقی ​​را برای تمرکز بر روی تصویر یا اطلاعات معنایی در حین ایجاد زیرنویس‌ها محقق کند. سپس، زبان LSTM یک کلمه تولید می کند y1تی��1در زمان t و خروجی مربوطه ساعت1تیℎ�1و ج1تی��1به پیش بینی LSTM برای پیش بینی مربوطه ساعت21ℎ�+12برای دفعه بعد ساختار SG-BiTLSTM در شکل 4 نشان داده شده است .

4.3. U-Net و اشیاء جغرافیایی

U-Net، یک شبکه تقسیم بندی معنایی، برای تولید یک نقشه طبقه بندی مبتنی بر شی جغرافیایی در SG-BiTLSTM استفاده می شود. در این شبکه، در مقایسه با چارچوب مطالعاتی GeoBIA کلاسیک، نیازی به انجام مراحل جداگانه تقسیم‌بندی، ادغام ویژگی‌های مبتنی بر شی، استخراج ویژگی و طبقه‌بندی وجود ندارد [ 70 ]. به طور خلاصه، چنین یادگیری انتها به انتها عدم قطعیت تعیین مقیاس و انتخاب ویژگی را کاهش می دهد و در نتیجه درجه خودکارسازی حاشیه نویسی معنایی را بهبود می بخشد.
ما از اشیاء سنجش از دور چند مقیاسی برای ساختن GT برای آموزش استفاده می‌کنیم، بنابراین شبکه می‌تواند ویژگی‌های چند مقیاسی اشیاء را بیاموزد و هر پیکسل را بر اساس آن برچسب‌گذاری کند. یک تمایز کلیدی بین رویکردهای کلاسیک مبتنی بر پیکسل و GeoBIA این است که GeoBIA خرد کاربر را در چارچوب های خود گنجانده است، به عنوان مثال، از معناشناسی برای ترجمه اشیاء تصویر به ویژگی های دنیای واقعی استفاده می کند [ 71 ]، بنابراین ما معتقدیم که شبکه پیشنهادی ایده GeoBIA را جذب می کند. همانطور که در شکل 5 نشان داده شده است.

4.4. Bi-Temporal LSTM

هسته SG-BiTLSTM LSTM دو زمانی است که توسط یک زبان LSTM، یک LSTM پیش بینی و یک دروازه معنایی تشکیل شده است. برخلاف LSTM سنتی، در زمان t، زمانی که زبان LSTM یک کلمه تولید می کند، نه تنها به اطلاعات لایه پنهان متکی است. ساعت1– 1ℎ�−11در زمان t − 1، بلکه the را نیز در نظر بگیرید ساعت2تیℎ�2تولید شده از پیش بینی LSTM در زمان t – 1، به این معنی است که عنوان تصویر از زبان LSTM در زمان t اثرات دو شبکه LSTM را در دو زمان یکپارچه می کند.
بنابراین، دو سری زیرنویس تصویر ایجاد خواهد شد: ساعت1تیℎ�1= { ساعت11ℎ11، ساعت12ℎ21، ساعت13ℎ31,…, ساعت1تیℎ�1، EOS} و ساعت2تیℎ�2= { ساعت22ℎ22، ساعت23ℎ32,…, ساعت2تیℎ�2, EOS, EOS}. را ساعت1تیℎ�1در یک جمله تولید خواهد شد Y1تی��1= { y11�11، y12�21، y13�31,…, y1تی��1، EOS}، که می تواند به عنوان عنوان تصویر سنجش از راه دور استفاده شود. یک عنوان تصویر دیگر، یعنی Y2تی��2= { y22�22، y23�32,…, y2تی��2، EOS، EOS}، برای دو منظور استفاده شد: یکی ایجاد ضرر برای تسهیل آموزش زبان LSTM، دیگری به عنوان ورودی دروازه معنایی برای کنترل پویا و تطبیقی ​​باز یا بسته شدن دروازه معنایی برای تحقق گزینه تمرکز بر روی تصویر یا زمینه با توجه به کلمات مختلف. LSTM دو زمانی در شکل 6 نشان داده شده است .
روش دقیق در زیر ارائه شده است.
راه اندازی زبان LSTM زمانی که t = 0:

در زمان اولیه، واحد حافظه زبان LSTM به شرح زیر است:

ج10=f10ج1– 1+من10σساعت(دبلیوج1[ساعت1– 1،ایکس10] +بج1)�01=�01·�−11+�01·�ℎ(��1[ℎ−11,�01]+��1)

مقادیر اولیه گیت ورودی و دروازه فراموشی را می توان به صورت زیر محاسبه کرد:

من10σ(دبلیومن1[ساعت1– 1،ایکس10] +بمن1)�01=�(��1[ℎ−11,�01]+��1)
f10σ(دبلیوf1[ساعت1– 1،ایکس10] +بf1)�01=�(��1[ℎ−11,�01]+��1)

ایکس10�01، ج1– 1�−11، ساعت1– 1ℎ−11را می توان به صورت زیر محاسبه کرد:

ایکس10[w10_ساعت1– 1، ساعت2– 1) ]�01=[�01;���������(�,ℎ−11, ℎ−12)]
ج1– 1=دبلیوج1– 1⋅ +بج1– 1�−11=��−11·�+��−11
ساعت1– 1=دبلیوساعت1– 1⋅ +بساعت1– 1ℎ−11=�ℎ−11·�+�ℎ−11

جایی که vویژگی تصویر سنجش از دور با ابعاد است 224 × 224 × 32224×224×32و w10�01بردار تعبیه کلمه اولیه با ابعاد 35 است.

راه اندازی LSTM پیش بینی زمانی که t = 0:

LSTM دو زمانی از واحد حافظه ( ج10�01) و اطلاعات لایه پنهان ( ساعت10ℎ01) از زبان LSTM به عنوان مقادیر اولیه پیش بینی LSTM:

ج2– 1=ج10�−12=�01
ساعت2– 1=ساعت10ℎ−12=ℎ01

ایکس20�02از تعبیه می آید ( w11�11) خروجی از زبان LSTM در زمان اولیه:

ایکس20[w10_ ساعت2– 1) ]�02=[�01;���������(�, ℎ−12)]
ج20=f20ج2– 1+من20σساعت(دبلیوج2[ساعت2– 1،ایکس20] +بج2) =f20ج10+من20σساعت(دبلیوج2[ساعت10،ایکس20] +بج2)�02=�02·�−12+�02·�ℎ(��2[ℎ−12,�02]+��2)=�02·�01+�02·�ℎ(��2[ℎ01,�02]+��2)

مقادیر اولیه گیت ورودی و دروازه فراموشی را می توان به صورت زیر محاسبه کرد:

من20σ(دبلیومن2[ساعت2– 1،ایکس20] +بمن2) =σ(دبلیومن2[ساعت10،ایکس20] +بمن2)�02=�(��2[ℎ−12,�02]+��2)=�(��2[ℎ01,�02]+��2)
f20σ(دبلیوf2[ساعت2– 1،ایکس20] +بf2) =σ(دبلیوf2[ساعت10،ایکس20] +بf2)�02=�(��2[ℎ−12,�02]+��2)=�(��2[ℎ01,�02]+��2)
تفاوت اصلی با روش اصلی این است که حالت پنهان پیش بینی LSTM به روز می شود ساعت10ℎ01در حالی که ساعت2– 1ℎ�−12استخدام شده است برای ساعت10 ℎ0 1vویژگی تصویر سنجش از دور با ابعاد است 224 × 224 × 32224×224×32، و w1�1بردار تعبیه کلمه t = 1 از زبان LSTM با ابعاد 512 است.
وضعیت زبان LSTM زمانی که t≥ 1 باشد:

در زمان t: مقادیر دروازه ورودی، دروازه فراموشی و دروازه خروجی را می توان به صورت زیر محاسبه کرد:

من1تیσ(دبلیومن1[ساعت1– 1،ایکس1تی] +بمن1)��1=�(��1[ℎ�−11,��1]+��1)
f1تیσ(دبلیوf1[ساعت1– 1،ایکس1تی] +بf1)��1=�(��1[ℎ�−11,��1]+��1)
o1تیσ(دبلیوo1[ساعت1– 1،ایکس1تی] +بo1)��1=�(��1[ℎ�−11,��1]+��1)

جایی که مقدار ورودی ایکستی��را می توان به صورت زیر محاسبه کرد:

ایکس1تی[w1– 1d yt تی1تی_ساعت1– 1، ساعت2تی) ]��1=[��−11, �,������� ����1(�,ℎ�−11, ℎ�2)]
فرمول (16) در بخش 3.3 به تفصیل توضیح داده خواهد شد .

علاوه بر این، مقادیر سلول حافظه معنایی در زمان t را می توان به صورت زیر محاسبه کرد:

ج1تی=f1تیج1– 1+من1تیσساعت(دبلیوج1[ساعت1– 1،ایکس1تی] +بج1)��1=��1·��−11+��1·�ℎ(��1[ℎ�−11,��1]+��1)

اطلاعات لایه پنهان ساعتتیℎ�در زمان t را می توان به صورت زیر محاسبه کرد:

ساعت1تی=o1تیσساعت(ج1تی)ℎ�1=��1·�ℎ(��1)
وضعیت پیش‌بینی LSTM زمانی که t≥ 1 باشد:

در زمان t، ساعت1تیℎ�1، w1تی d ج1تی��1 ��� ��1ورودی به LSTM پیش‌بینی می‌شوند که باعث تولید می‌شود ساعت21ℎ�+12در زمان t + 1، از این رو، دروازه معنایی را می توان کنترل کرد. ارزش ورودی ایکستی��می توان با استفاده از:

ایکس21[w11, ساعت1تی) ]��+12=[�11,�,���������(�, ℎ�1)]

مقادیر دروازه ورودی، دروازه فراموشی و دروازه خروجی را می توان به صورت زیر محاسبه کرد:

من21σ(دبلیومن2[ساعت1تی،ایکس21] +بمن2)��+12=�(��2[ℎ�1,��+12]+��2)
f21σ(دبلیوf2[ساعت1تی،ایکس21] +بf2)��+12=�(��2[ℎ�1,��+12]+��2)
o21σ(دبلیوo2[ساعت1تی،ایکس21] +بo2)��+12=�(��2[ℎ�1,��+12]+��2)

علاوه بر این، مقادیر واحد حافظه پیش‌بینی LSTM را می‌توان به صورت زیر محاسبه کرد:

ج2تی=ج1تی��2=��1
ج21=f21ج1تی+من21σساعت(دبلیوج2[ساعت1تی،ایکس21] +بج2)��+12=��+12·��1+��+12·�ℎ(��2[ℎ�1,��+12]+��2)

اطلاعات لایه پنهان ساعت21ℎ�+12در زمان t + 1 را می توان به صورت زیر محاسبه کرد:

ساعت21=o21σساعت(ج21)ℎ�+12=��+12·�ℎ(��+12))
LSTM دو زمانی دو جمله زیرنویس ایجاد می کند، به طور خاص، زبان LSTM می تواند مجموعه را تولید کند. Y1تی��1، و پیش بینی LSTM می تواند سری را ایجاد کند Y2تی��2.

فاز از عنصر ابتدای جمله (BOS) که معمولاً یک بردار صفر است شروع می شود و با عنصر انتهای جمله (EOS) به پایان می رسد. دنباله پیش بینی ساعت21ℎ�+12بستگی دارد به ساعت1تیℎ�1، بدین ترتیب y21�12در نیست Y2تی��2.

Y1تی{y11، y12، y13… ,  y1تیEOS } ��1={�11, �21, �31, …, ��1, EOS}
Y2تی{y22، y23… ,  y2تیEOS } ��2={�22, �32, …, ��2, EOS}

4.5. دروازه معنایی

دروازه معنایی ساختار پرسپترون چند لایه (MLP) را اتخاذ می کند. مربوط می شود ساعت2تیℎ�2، که توسط پیش بینی LSTM در زمان t – 1 پیش بینی می شود، به عنوان ورودی در زمان t، ما به طور جداگانه از تابع Sigmoid و یک تابع سفارشی به عنوان توابع فعال سازی استفاده کردیم. برای درک مکانیسم صحیح توجه و کنترل باز یا بسته شدن دروازه معنایی، دو قانون توجه GT را در فرآیند آموزش طراحی کردیم.
(1)
ما ماسک‌های زمین لغزش و سایر اشیاء جغرافیایی را که با کلمه در زمان t مطابقت دارند به عنوان GT توجه زمانی که کلمه تولید شده یک اسم است، می‌پذیریم.
(2)
GT توجه زمانی که کلمه تولید شده یک اسم نباشد 0 است، به این معنی که کلمه در حال حاضر شی سنجش از راه دور را در تصویر توصیف نمی کند.
ما از دست دادن توجه را به از دست دادن یکپارچه اضافه کردیم تا پارامترهای دروازه معنایی را آموزش دهیم تا در صورت باز شدن ساعت2تیℎ�2از پیش‌بینی LSTM یک اسم را توصیف می‌کند (شیء سنجش از دور)، یا برای بستن دروازه در غیر این صورت. بنابراین، دروازه معنایی می تواند به طور خودکار تصمیم بگیرد که چه زمانی روی تصویر بیشتر تمرکز کند و چه زمانی بیشتر بر مدل زبان تکیه کند.
نوآوری این ساختار این است که ما قبلاً کلمه را پیش بینی کرده ایم y2تی��2ساعت2تیℎ�2) از پیش بینی LSTM قبل از y1تی��1توسط زبان LSTM تولید می شود. در نتیجه، y2تی��2ساعت2تیℎ�2) می تواند دروازه معنایی را برای تولید کنترل کند y1تی��1دقیق تر. به همین ترتیب، زبان LSTM می تواند کنترل کند ساعت2تیℎ�2مطابق با ساعت1تیℎ�1. دو LSTM با یکدیگر کوپل شده و برای بهبود دقت آموزش داده شده اند. شرح مفصل در زیر ارائه شده است:

در زمان t، ورودی ویژگی تصویر اصلی به صورت زیر بیان می شود:

ایکس1تی[w1– 1دytتی1تی_ساعت1– 1، ساعت2تی) ]��1=[��−11;�����������1(�,ℎ�−11, ℎ�2)]

فرمول های توجه عبارتند از:

ه1تی منfیک تی تی (vمن،ساعت1– 1)���1=����(��,ℎ�−11)
 α1تیf(ه1تی) ��1=�������(��1)
یک تیتی1تی=ک1α1من ، تیvمن����1=∑1���,�1��

دروازه معنایی به صورت زیر محاسبه می شود:

tه1تیf(دبلیوg[ساعت2تی] +بg)�������������1=�(���[ℎ�2]+���)
دytتی1تی_ساعت1– 1، ساعت2تی) =semanticGatه1تی⋅ tتی1تیf(دبلیوg[ساعت2تی] +بg) ⋅ک1α1من ، تیvمن�����������1(�,ℎ�−11, ℎ�2)=�������������1·����1=�(���[ℎ�2]+���)·∑1���,�1��

جایی که vویژگی تصویر سنجش از دور با ابعاد است 224 × 224 × 32224×224×32، k = 224 × 224، ساعت1– 1ℎ�−11و ساعت2تیℎ�2اطلاعات لایه پنهان در زمان t − 1 و زمان t هستند. w1– 1��−11زبان بردار تعبیه کلمه LSTM با ابعاد 512 در زمان t − 1 است، دبلیوg���یک ماتریس وزنی از دروازه معنایی است و بg���افست است.

برای کنترل بهتر باز یا بسته شدن دروازه معنایی، از یک تابع فعال سازی سفارشی جدید استفاده کردیم که به شرح زیر تعریف شده است. ( شکل 7 )

f) = {،هایکس،≥ 00�(�)={1,�≥0��,�<0
عملکرد فعال سازی سفارشی دارای ویژگی های زیر است:
(1)
اگر ساعت2تیℎ�2از پیش بینی LSTM بردار جاسازی اسم است، پس دبلیومن1[ساعت2تی] +بمن1��1[ℎ�2]+��1≥ 0، f(دبلیومن1[ساعت2تی] +بمن1)�(��1[ℎ�2]+��1)= 1، بنابراین دروازه معنایی به طور کامل باز می شود. این کار تأثیر تصویر سنجش از راه دور را بر تولید کلمه در آن زمان به حداکثر می‌رساند.
(2)
اگر ساعت2تیℎ�2از پیش بینی LSTM بردار جاسازی کلمات تابع (مثلاً روابط) است دبلیومن1[ساعت2تی] +بمن1��1[ℎ�2]+��1< 0، f(دبلیومن1[ساعت2تی] +بمن1)�(��1[ℎ�2]+��1)< 1، دروازه معنایی اطلاعات تصویر را مهار می کند، که باعث می شود LSTM بیشتر به اطلاعات زمینه تکیه کند.
این استراتژی‌ها را می‌توان برای تصمیم‌گیری پویا پیاده‌سازی کرد که آیا هنگام تولید کلمه در زمان کنونی بیشتر به اطلاعات تصویر تکیه کنیم یا اطلاعات معنایی.

4.6. عملکرد جامع از دست دادن

از دست دادن زبان LSTM از سه بخش تشکیل شده است. دو بخش اول عبارتند از ضرر خودش (مشخص به ضرر 1) و ضرری که در پیش‌بینی LSTM معرفی می‌کنیم (معنی ضرر 2) که کلمه فعلی را قادر می‌سازد تا خروجی‌های دو شبکه را در نظر بگیرد.

برای بهبود دقت مکان، این مقاله GT توجه را طراحی کرد. سپس، آنتروپی متقاطع بین ماسک شی و ماتریس توجه را به عنوان loss3 محاسبه می کنیم و آن را با Losses 1 و 2 در زمان t ترکیب می کنیم، به طوری که SG-BiTLSTM می تواند هم دقت مکان و هم توانایی را بهبود بخشد. به طور خودکار تصمیم می گیرید که چه زمانی روی تصویر بیشتر تمرکز کنید و چه زمانی بیشتر به بافت زبان تکیه کنید.

ضرر 1تی1تیورود به سیستم (پ1تی( y1تی|y1– 1)loss1=−1�∑�=1�log(��1( ��1|�11:�−1))
ضرر 1تی– 12تیورود به سیستم (پ2تی(y2تی|y2– 2)ضرر – زیان2=-1تی-1∑تی=2تیورود به سیستم(پتی2(�تی2|�21:تی-2))
ضرر 1تی1تیyαتیورود به سیستم (پتی(yαتی) )+(1yαتی) log ( پتی(yαتی)ضرر – زیان3=-1تی∑تی=1تی�تی�ورود به سیستم(پتی(�تی�))+(1-�تی�)ورود به سیستم(1-پتی(�تی�))

سه تلفات را می توان از طریق فرمول های زیر محاسبه کرد، ضریب یک مقدار تجربی است که از آزمایش ها به دست می آید:

ضرر = c_loss/5.0 + next_c_loss/5.0 + a_loss

4.7. پیش بینی

به دلیل محدودیت‌های حافظه GPU، کل تصویر با وضوح بالا باید در مدل‌های شبکه عصبی عمیق به تکه‌ها (نمونه‌ها) تقسیم شود. این اغلب منجر به این می شود که یک شیء جغرافیایی کامل به قسمت های مختلف بریده شده و به نمونه های مختلف تخصیص داده شود. برای به دست آوردن اطلاعات کامل جغرافیایی، لازم است که نتایج هر نمونه به طور جامع با دوخت پچ به پچ بازیابی شود. بنابراین، فرآیند پیش‌بینی زیر را طراحی کردیم.
در مرحله اول، یک برنامه خود برنامه ریزی شده برای اسکن تصویر سنجش از راه دور خط به خط استفاده می شود. هر پچ 224 × 224 پیکسل به عنوان نمونه برش داده می شود. پیکسل ها وضوح فضایی اصلی 0.5 متر را حفظ می کنند. این نمونه ها به شبکه آموزش دیده SG-BiTLSTM برای پیش بینی زمین لغزش مربوطه و بدنه های متاثر از خطر آن (همانطور که در شکل 8 a,b نشان داده شده است) وارد می شوند.
ثانیاً، از یک برنامه دوخت نمونه برای دوخت نمونه‌های پیش‌بینی‌شده یک به یک استفاده شد و اجسام متاثر از خطر بر اساس رابطه فضایی ایجاد شده از عنوان تصویر شناسایی می‌شوند.
مراحل دقیق در زیر نشان داده شده است:
(1)
تبدیل رابطه از قسمت به کل شی: به هر پیکسل از نمونه پیش‌بینی‌شده 224 × 224 یک کانال به عنوان یک پرچم اضافه کردیم که اطلاعات مربوط به مجاورت پیکسل با لغزش‌ها را ذخیره می‌کند. با مرور تمام نمونه‌های پیش‌بینی‌شده (وصله‌ها)، از یک جمله توضیح تصویری استفاده می‌کنیم (مثلاً شرح تصویر نمونه a: «لغزش کوچک در کنار ساختمان و کشاورزی و سرزمین سبز») برای یافتن اشیا (ساختمان‌ها) مجاور زمین لغزش، سپس از ماتریس وزن فوکوس (به عنوان مثال، شکل 8 d,g) تولید شده توسط SG-BiTLSTM برای مکان یابی ماسک شی مربوطه استفاده کنید (به عنوان مثال، شکل 9متر). مقدار کانال اضافی پیکسل های بخشی از اشیاء (o در l) روی غیر صفر تنظیم شد، به طوری که رابطه فضایی در جمله عنوان می تواند بر روی پیکسل های بخشی از شیء نمایش داده شود.
(2)
اجسام متاثر از خطر را شناسایی کنید: ما از برنامه stitching برای ادغام وصله‌های نمونه پیش‌بینی‌شده با کل تصویر استفاده کردیم، سپس از هر شیء کامل (O) عبور کردیم تا قضاوت کنیم که آیا یک پرچم غیر صفر وجود دارد یا خیر. اگر وجود داشته باشد، کل شیء O در m بدن متاثر از خطر است.
(3)
هر پیکسل در تصویر ادغام شده مربوط به همان نقطه مکانی تصویر اصلی است و مختصات مکانی آن قابل بازیابی است. به این ترتیب، بدن متاثر از خطر شناسایی شده می تواند اطلاعات مهمی مانند مکان، مرز و برچسب کلاس را برای واکنش اضطراری ارائه دهد.

5. آزمایش ها و تجزیه و تحلیل

5.1. معرفی منطقه تحقیق و نمونه

این مطالعه شامل منطقه ای در ونچوان، استان سیچوان پس از زمین لرزه 1 ژوئیه 2008 است. محدوده طول و عرض جغرافیایی 31°25’48” شمالی تا 31°31’23” شمالی و 103°31’34” شرقی تا 103 است. °38′13 اینچ شرقی، به ترتیب. مساحت این محدوده ها 149.36 کیلومتر مربع است. این تصویر توسط ماهواره Worldview-1 گرفته شده است، وضوح فضایی آن 0.5 متر است، شامل سه نوار قرمز، سبز و آبی است.
قبل از استخراج اطلاعات از یک تصویر ماهواره ای، باید کیفیت آن را ارزیابی کرد. در این مقاله، 5 صحنه به طور تصادفی از تصویر اصلی انتخاب شده است ( شکل 10 )، اندازه هر صحنه 1792 × 1792 پیکسل (معادل اندازه 8 × 8 نمونه آموزشی). از نظر کیفیت مهندسی، کیفیت تصویر از دو جنبه ارزیابی می شود: ویژگی سطح خاکستری و ویژگی بافت [ 72 ]. صحنه های انتخاب شده در زیر نشان داده شده است:
در این مقاله معمولاً از مقدار میانگین استفاده می شود E=1× nمتر1n1gمن ، ج ) )(�=1متر×�∑من=1متر∑�=1��(من،�))و میانگین انحراف مربع ( σ=1× nمتر1n1gj ) – Eمن ، ج ) ]�=1متر×�∑من=1متر∑�=1�[�(من،�)-�(من،�)]) برای منعکس کردن ویژگی های سطح خاکستری تصویر و همگنی ( اچای ام=– 10– 10j )− j |اچ�م=∑من=0�-1∑�=0�-1پ(من،�)1+|من-�|) و آنتروپی اطلاعات ( Eنتی=– 10– 10j ) log j )�نتی=∑من=0متر-1∑�=0�-1پ(من،�)ورود به سیستمپ(من،�)) بر اساس ماتریس همزمانی سطح خاکستری محاسبه می شوند تا ویژگی های بافت تصویر را منعکس کنند. در جایی که m و n عرض و ارتفاع تصویر انتخاب شده را نشان می دهند، g(i,j) مقدار خاکستری را در نقطه (i,j) نشان می دهد، p(i,j) مقدار همزمانی سطح خاکستری نرمال شده را نشان می دهد. ماتریس [ 72 ].
نتایج محاسبه سطح خاکستری و شاخص های بافت هر تصویر در جدول 1 زیر ارائه شده است.
همانطور که از جدول مشخص است:
  • مقادیر میانگین هر باند از تصاویر a-c و e بالاتر از تصویر d است، به این معنی که شدت تابش تصاویر a-c و e بیشتر از تصویر d است.
  • میانگین انحراف مربع هر باند از تصاویر a-c بیشتر از تصاویر d و e است که نشان می دهد سلسله مراتب اطلاعات تصاویر a-c بهتر از تصاویر d و e است.
  • همگنی تصاویر a-c کمتر از تصاویر d و e است، به این معنی که تصاویر قبلی کنتراست بافت غنی تری نسبت به تصاویر دوم دارند و می توانند مرزهای واضحی را بین اشیاء جغرافیایی مختلف نشان دهند.
  • آنتروپی اطلاعات هر باند از تصاویر a-c بالاتر از تصاویر d و e است، که نشان می دهد محتوای اطلاعات تصاویر a-c غنی تر از تصاویر d و e است.
نتایج آماری بالا نشان می دهد که تصاویر انتخاب شده (به ویژه تصاویر a-c که شامل اکثر کلاس های اشیاء در این مقاله است) حاوی اطلاعات غنی از اشیاء جغرافیایی و انواع شیء جغرافیایی متنوع است که می تواند جزئیات اطلاعات سطح را به خوبی توصیف کند و الزامات را برآورده کند. استخراج اطلاعات پیچیده در این مقاله
نتایج تجربی ما نیز این موضوع را تایید می کند. دقت کلی تقسیم بندی معنایی 0.93، دقت تشخیص زمین لغزش، ساختمان ها و جاده ها به ترتیب 0.94، 0.91 و 0.87 است. این نتایج نشان می‌دهد که نتیجه تقسیم‌بندی به اندازه کافی خوب بود تا ویژگی‌های تصویر با کیفیت بالا را برای BiTLSTM ارائه دهد و نتیجه تشخیص بدن متاثر از خطر را معتبر کند.
نمونه‌های مورد استفاده در این پژوهش شامل دو نوع نمونه‌های «چند تا چندگانه» و نمونه‌های «۱ تا ۱» است. نمونه “چند تا چندگانه” نمونه ای است که در آن حداقل دو رابطه بین زمین لغزش و بدنه متاثر از خطر در تصویر و جمله وجود دارد. در حالی که نمونه “1 به 1” به نمونه ای اطلاق می شود که در آن فقط یک نوع رابطه بین اشیاء در تصویر و در جمله به طور همزمان وجود دارد. تعداد نمونه های “چند تا چندگانه” 1364 و نمونه های “1 تا 1” 1546 است. کل منطقه تحقیق در شکل 11 نشان داده شده است .

5.2. معرفی حالت های آموزشی

همانطور که در زیر نشان داده شده است، ما از چهار مدل برای مقایسه با مدل خود (پنجم) استفاده کرده ایم. به ویژه، ما از LSTM مبتنی بر توجه به عنوان یک مدل پایه برای مقایسه نتایج تجربی و یک تصحیح توجه با مدل دروازه معنایی II برای تأیید اثرات کنترلی توابع فعال‌سازی مختلف بر روی دروازه معنایی استفاده کردیم.
(1) مدل پایه
این مدل یک معماری سنتی LSTM مبتنی بر توجه است. در فرآیند آموزش، نرخ یادگیری را 0.001، سایز دسته ای را 5 و دوره آموزشی را 40 قرار می دهیم.
(2) مدل تصحیح توجه
یک مکانیسم اصلاح توجه به مدل پایه اضافه شد. نمونه ها را یکی یکی آموزش دادیم، نرخ یادگیری را 0.001 و دوره آموزش ها را 20 قرار دادیم.
(3) تصحیح توجه با مدل I دروازه معنایی
یک دروازه معنایی به LSTM تصحیح توجه اضافه شد تا ویژگی تصویر یا اطلاعات متن جمله در نظر گرفته شده را کنترل کند. هر دو آموزش دسته ای و تک مرحله ای در فرآیند آموزش مورد استفاده قرار گرفتند. در این مدل، نرخ یادگیری را 0.001، اندازه های دسته ای برای آموزش تک مرحله ای و دسته ای را به ترتیب 1 و 5 تنظیم می کنیم. دوره های آموزش برای آنها به ترتیب تا 20 و 40 می باشد.
(4) تصحیح توجه با Semantic Gate Model II
یک تابع فعال‌سازی سیگموئید به مکانیسم توجه اصلی اصلاح توجه با دروازه معنایی LSTM اضافه شد، هدف این است که مقدار خروجی توجه را بین 0 و 1 عادی کند تا تأثیر بهتری برای کنترل دروازه معنایی حاصل شود. در فرآیند آموزش از آموزش تک مرحله ای استفاده شد. در این مدل نرخ یادگیری را 0.001، سایز دسته ای را 1 و دوره آموزشی را 20 قرار می دهیم.
(5) مدل SG-BiTLSTM
ما از یک تابع فعال سازی سفارشی شده به جای تابع sigmoid در دروازه معنایی استفاده کردیم، و در تابع فعال سازی جدید، y = e x اگر x < 0، و y = 1 اگر x > 0 است. در این مدل، ما را تنظیم می کنیم. نرخ یادگیری به 0.001، اندازه دسته به 1 و دوره آموزش به 20.

5.3. تحلیل دقت معنایی

ما از پنج مدل فوق برای انجام آزمایش ها استفاده کردیم. برای تعیین تفاوت بین آموزش دسته ای و تک مرحله ای، تصحیح توجه را با گیت معنایی مدل I در دو حالت آموزش دادیم: دسته را جداگانه روی 1 و 5 قرار دادیم. در حالت آموزش تک مرحله ای، ما در هر 5 دسته یک نقطه شمارش را انتخاب کردیم، بنابراین روش شمارش می تواند به طور معادل با حالت آموزش دسته ای یکسان باشد.
منحنی های تلفات همه مدل ها در شکل 12 ارائه شده است.
مطابق شکل، در مقایسه با مدل پایه، مدل های ارائه شده در این مقاله دارای مزایایی هستند. علاوه بر این، استفاده از تلفات چندگانه و گیت معنایی می‌تواند راندمان آموزش یک پله را به اندازه دسته‌ها افزایش دهد، در حالی که تفاوت معنی‌داری در سرعت همگرایی وجود ندارد و تلفات پس از همگرایی تقریباً یکسان است.
نتایج ارزیابی مدل ها در جدول 2 و شکل 13 ارائه شده است.
از شکل می بینیم که BLEU1 مدل پایه کمترین است و مدل های پیشنهادی بهتر از مدل پایه هستند. در این مدل های جدید، مدل SG-BiTLSTM بهترین تاثیر را در شناسایی و مکان یابی زمین لغزش دارد، BLEU1 این مدل به بالاترین میزان یعنی 0.8611 می رسد. Bleus مدل تصحیح توجه نسبتاً کمتر از سایر مدل‌های پیشنهادی است، یعنی دقت مدل‌های پیشنهادی دیگر نسبتاً سازگار است. بنابراین، مدل تصحیح توجه در تحلیل پیگیری رها شده است.

5.4. تحلیل پایداری مدل

به منظور تأیید پایداری و مقیاس‌پذیری شبکه SG-BiTLSTM، کل نمونه‌ها را به‌طور تصادفی به مجموعه‌های آموزشی و اعتبارسنجی به همان نسبت آزمایش‌های قبلی اختصاص می‌دهیم و 10 اجرای مستقل مونت کارلو و سپس Bleu_1، Bleu_2 را انجام می‌دهیم. ، Bleu_3 و Bleu_4 این آزمایش ها با هم مقایسه شدند که روند آنها در شکل 15 نشان داده شده است. در آزمایشات مونت کارلو، میانگین مقادیر Bleu_1، Bleu_2، Bleu_3 و Bleu_4 0.8586، 0.8166، 0.7738، 0.7749 و 0 بود. انحراف معیار 0.00139، 0.00291، 0.00457 و 0.00629 بود که پایداری و مقیاس پذیری نتایج تجربی را ثابت کرد. نتایج در جدول 3 و شکل 14 نشان داده شده است.

6. بحث

در این فصل، ما دقت تطابق مکان بین ماتریس توجه اسامی ایجاد شده از عنوان تصویر و ماسک اشیاء تولید شده از شبکه تقسیم بندی معنایی را تجزیه و تحلیل خواهیم کرد، این مرحله کلیدی برای شناسایی اجسام متاثر از خطر از طریق فضایی است. ارتباط. علاوه بر این، کنترل دینامیکی و تطبیقی ​​دروازه معنایی نیز در این بخش با توجه به تغییر ماتریس توجه در زمان‌های مختلف نشان داده شده است.

6.1. تجزیه و تحلیل دقت موقعیت مکانی

برای اطمینان از دقت مکان توجه مدل‌های مختلف، دقت تطابق بین ماتریس وزن توجه اسم‌ها و اشیاء سنجش از راه دور (لغزش زمین یا اجسام متاثر از خطر) 5 مدل را تجزیه و تحلیل کرده‌ایم. نتایج در جدول 4 و شکل 15 ارائه شده است.
با توجه به جدولی که دقت تطبیق اسم و شی مدل پایه تنها 44.38 درصد است، دقت تطبیق مدل های اصلاح شده بین 79.78 درصد و 87.19 درصد است، با مدل SG-BiTLSTM به قوی ترین دقت تطبیق 87.19 درصد می رسد. مدل‌های پیشنهادی پیشرفت‌های زیادی از نظر دقت معنایی (Bleu) و دقت تطبیق دارند.
برای اثبات تأثیر حالت آموزش بر دقت تطبیق اسامی و اشیاء سنجش از دور (لغزش زمین و اجسام متاثر از خطر)، تجزیه و تحلیل دقت تصحیح توجه با مدل دروازه معنایی I با دو حالت در این بخش انجام شده است. و نتایج در جدول 5 ارائه شده است.
با توجه به جدول بالا، در دو حالت آموزشی، دقت معنایی آموزش تک مرحله ای کمی بیشتر است، این می تواند نشان دهنده تاثیر محدود حالت آموزش بر دقت کپشن بندی تصاویر باشد. از نظر دقت تطابق بین اسم ها و اشیاء، حالت آموزش تک مرحله ای دقت تطابق بالاتری را به میزان 83.80 درصد دریافت می کند، که در حالت آموزش دسته ای 4.02 درصد پیشرو است. در نتیجه، آموزش تک مرحله ای از حالت دیگر بهتر عمل می کند و در آزمایش های بعدی از آن استفاده می شود.
برای تقویت عملکرد دروازه معنایی، دروازه معنایی را با یک تابع فعال سازی سفارشی فعال می کنیم، نتایج تجربی در جدول 6 ارائه شده است :
با توجه به آزمایش‌های فوق، با استفاده از تابع فعال‌سازی سفارشی، دقت تطابق اسم و شی از 85.76% به 87.19% بهبود یافته و میزان بهبود 1.43% است. بنابراین مدل SG-BiTLSTM به عنوان بهترین مدل انتخاب شده است.

6.2. تجزیه و تحلیل مکان نمونه های “چند تا چندگانه” و “1 به 1”.

در مرحله بعد، دقت تطابق اسم و شی نمونه‌های «چند به چند» و «۱ به ۱» را تجزیه و تحلیل می‌کنیم.
با توجه به نتایج تجربی نشان داده شده در جدول 7 و شکل 16 ، دقت تطبیق بین اسم ها و اشیاء در نمونه های “1 تا 1” بیشتر از نمونه های “چند تا چندگانه” است. SG-BiTLSTM هر دو بالاترین دقت تطبیق اسم و شی 91.54% را در وضعیت «1 به 1» و 77.86 درصد در موقعیت «چند به چندگانه» دریافت می کند.

6.3. تحلیل دروازه معنایی

همانطور که قبلا ذکر شد، یک تابع Sigmoid و یک تابع فعال سازی سفارشی در این مقاله برای تجزیه و تحلیل اثرات دروازه معنایی استفاده شده است، نتایج تجربی به شرح زیر ارائه شده است.
از شکل 17 می توان دریافت که اکثر اسم ها با درصد 82.72 درصد، بین 0.8 و 1 متمرکز شده اند، در حالی که اکثر کلمات رابطه بین 0 تا 0.2 متمرکز هستند، با درصد 85.30 درصد. این نشان می دهد که تابع Sigmoid نقش خاصی در کنترل دروازه معنایی ایفا می کند. با این حال، از اسامی و کلمات رابطه، 15.79٪ و 14.42٪ هنوز بین 0.6 و 0.8 قرار دارند، که نشان می دهد که اثر کنترلی دروازه معنایی هنوز نیاز به بهبود دارد.
از شکل 18 می توان دریافت که مقدار دروازه معنایی اکثر اسم ها برابر با 1 است، با درصد 98.09٪، به طور همزمان، اکثر کلمات رابطه بین 0 و 0.2 متمرکز هستند، درصد در اینجا 95.26٪ است. مقادیر دروازه معنایی اسامی و کلمات رابطه در سایر فواصل بسیار کم است، که نشان می دهد تابع فعال سازی سفارشی شده به خوبی در کنترل دروازه معنایی عمل می کند.
در مرحله بعد، 3 نمونه را انتخاب می کنیم ( شکل 19 a-c) و منحنی های خروجی را از دروازه معنایی ارائه می کنیم تا رابطه بین مقادیر گیت آن و مراحل زمانی را نشان دهیم.
از شکل 19 می بینیم که ماتریس وزن توجه نهایی می تواند اشیاء موجود در تصویر را بهتر از ماتریس وزن توجه اصلی قرار دهد، که نشان می دهد که دروازه معنایی می تواند به طور پویا و تطبیقی ​​تصمیم بگیرد که بر تصویر یا اطلاعات معنایی تکیه کند.
نتایج تجربی نشان می دهد که وقتی کلمه تولید شده از زبان LSTM یک اسم نباشد، مقدار ماتریس وزن اصلی ممکن است به دلیل خطای محاسباتی نسبتاً بالا باشد، یعنی توجه نادرستی را در تصویر جلب می کنند، که ممکن است منجر به اشتباه شود. کلمات با این حال، در این زمان، مقدار دروازه معنایی 0 است و کانال بسته است، این مشکل را می توان با کنترل شبکه حل کرد تا فقط بر روی اطلاعات بافت معنایی تمرکز کند. اگر کلمه خروجی از پیش بینی LSTM یک اسم باشد، مقدار دروازه معنایی 1 باشد، کانال باز می شود، ماتریس وزن نهایی مانند ماتریس وزن اصلی خواهد بود و شبکه بر روی ویژگی تصویر تمرکز می کند. . در نتیجه،

6.4. خلاصه

در مقایسه با LSTM اصلی (خط پایه)، دقت نمونه های “چند به چند” و “1 به 1” مدل SG-BiTLSTM که در این مقاله پیشنهاد شده است به ترتیب 77.86٪ و 91.54٪ است که هر دو به طور قابل توجهی هستند. بالاتر از LSTM اصلی. بنابراین این مدل در توصیف معنایی تصاویر سنجش از دور عملکرد بهتری دارد.
از طریق تمام بهبودهای بالا، نتایج تجربی ما در شکل 20 نشان داده شده است.

7. نتیجه گیری

برای ارزیابی دقیق خطر زمین لغزش، ما یک شبکه عصبی عمیق جدید، مدل SG-BiTLSTM پیشنهاد کردیم که می تواند زمین لغزش ها و اجسام متاثر از خطر را به طور همزمان از طریق شرح تصاویر تشخیص دهد. در نتیجه، روش ما می تواند خدمات اطلاعات جغرافیایی پایه را برای تصمیم گیری اضطراری ارائه دهد.
این معماری از یک LSTM دو زمانی تشکیل شده است که می تواند مشکل خطای انباشته شده در فرآیند پیش بینی را حل کند. به طور همزمان، ما یک دروازه معنایی برای کنترل شبکه طراحی کردیم تا انتخاب کنیم که بیشتر بر تصویر یا اطلاعات بافت معنایی تکیه کند. برای بهبود دقت مکان، روشی را برای ایجاد GT توجه تعریف کردیم و یک روش محاسبه برای از دست دادن توجه پیشنهاد کردیم. نتایج تجربی نشان می‌دهد که تأثیر مدل‌های پیشنهادی در این مقاله به‌طور معنی‌داری بیشتر از تأثیر مدل پایه از نظر دقت شبکه و مکان توجه است.
شبکه ما بر اساس یک پلت فرم منبع باز هوش مصنوعی (AI) (TensorFlow)، دروازه معنایی، مکانیسم جفت شدن دو زمانی و عملکرد تلفات سفارشی طراحی شده‌اند تا ماژول‌های مستقلی باشند که می‌توانند به طور یکپارچه در سایر برنامه‌های مرتبط جاسازی شوند. در نتیجه قابلیت حمل و نقل و عمومیت خوبی دارند.
با این حال، به عنوان پیوندی بین تقسیم‌بندی معنایی و شبکه‌های زیرنویس تصویر، این کار هنوز نیاز به بهبود بیشتری دارد. منبع داده های این مطالعه یک تصویر سنجش از دور است، بنابراین قضاوت در مورد انواع و عمق زمین لغزش ها دشوار است. شناسایی زمین لغزش ها با توجه به اطلاعات طیفی و بافتی در این مقاله محقق می شود. بنابراین، زمین لغزش های تحت پوشش پوشش گیاهی بر اساس روش ما قابل شناسایی نیستند. علاوه بر این، ما اجساد متاثر از خطر را بر اساس رابطه فضایی آنها با زمین لغزش شناسایی کردیم. این رابطه از یک تصویر سنجش از دور زمانی که توسط Worldview-1 Satellite گرفته شده بود استخراج شد. بنابراین، محاسبه بزرگی زمین لغزش توسط داده های مورد استفاده در این مقاله پشتیبانی نمی شود. در تحقیقات آینده، هنوز هم لازم است که یادگیری عمیق را ترکیب کنیم، سنجش از دور و رانش زمین از سوی دیگر، تشخیص تغییر بر اساس تصویر سنجش از راه دور چند زمانی [73 ] نیز جهتی است که در مرحله بعد باید به آن توجه کرد.

منابع

  1. پیرالیلو، ST; شهابی، ح. جاریانی، ب. قربانزاده، ا. بلاشکه، تی. غلام نیا، ک. مینا، اس آر. Aryal, J. تشخیص زمین لغزش با استفاده از تقسیم‌بندی تصویر در مقیاس چندگانه و مدل‌های مختلف یادگیری ماشین در هیمالیاهای عالی. Remote Sens. 2019 , 11 , 2575. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  2. روابده، ع. او، اف. موسی، ع. شیمی، NE; حبیب، الف. استفاده از یک سیستم تصویربرداری دیجیتال مبتنی بر وسیله نقلیه هوایی بدون سرنشین برای استخراج یک ابر نقطه سه بعدی برای تشخیص لغزش اسکارپ. Remote Sens. 2016 , 8 , 95. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  3. اسکایونی، م. لونگونی، ال. ملیلو، وی. پاپینی، ام. سنجش از دور برای تحقیقات زمین لغزش: مروری بر دستاوردها و چشم اندازهای اخیر. Remote Sens. 2014 , 6 , 9600–9652. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  4. سان، آر. گائو، جی. گونگ، ز. وو، جی. مروری بر روش‌های تحلیل ریسک برای بلایای طبیعی. نات. خطرات 2020 ، 100 ، 571-593. [ Google Scholar ] [ CrossRef ]
  5. چن، ال. هوانگ، ی. بای، آر. چن، الف. ارزیابی ریسک بلایای منطقه ای چین بر اساس مدل ریسک جهانی. نات. خطرات 2017 ، 89 ، 647-660. [ Google Scholar ] [ CrossRef ]
  6. گائو، جی. سانگ، ی. شناسایی و برآورد خطر فاجعه جریان زمین لغزش-آوار در پردیس‌های مدارس ابتدایی و راهنمایی در مناطق کوهستانی جنوب غربی چین. بین المللی جی. فاجعه. Res. 2017 ، 25 ، 60-71. [ Google Scholar ] [ CrossRef ]
  7. ژانگ، دبلیو. او، اچ. هوانگ، اچ. Cui, Y. HJ-1 Satellite’s Stable Operation 3 Anniversaries and Disaster Reduction Application. در مجموعه مقالات دومین کنفرانس بین المللی 2012 سنجش از دور، محیط زیست و مهندسی حمل و نقل، نانجینگ، چین، 1 تا 3 ژوئن 2012. صص 1-4. [ Google Scholar ]
  8. لیو، اس. وانگ، دی. لیانگ، اس. ارزیابی ریسک خطرات جغرافیایی در منطقه لس: مطالعه موردی شهرستان روئوآن در شهرستان هوآچی، استان گانسو، چین. J. Eng. جئول 2018 ، 26 ، 142-148. [ Google Scholar ]
  9. چی، دبلیو. Su, G. روش مبتنی بر سنجش از دور با وضوح بالا برای تعیین تغییرات خطر تلفات از زنجیره خطر زمین‌لرزه ناشی از زلزله. در مجموعه مقالات 2013 کنفرانس بین المللی سنجش از دور، محیط زیست و مهندسی حمل و نقل، نانجینگ، چین، 26 تا 28 ژوئیه 2013. [ Google Scholar ]
  10. یانگ، اچ. یو، بی. Luo, J. تقسیم بندی معنایی تصاویر با وضوح فضایی بالا با شبکه های عصبی عمیق. GIScience Remote Sens. 2019 ، 56 ، 749–768. [ Google Scholar ] [ CrossRef ]
  11. بیان، جی. ژانگ، ز. چن، جی. چن، اچ. کوی، سی. لی، ایکس. چن، اس. فو، کیو. ارزیابی ساده شده تنش آب پنبه با استفاده از تصویر حرارتی وسیله نقلیه هوایی بدون سرنشین با وضوح بالا. Remote Sens. 2019 , 11 , 267. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  12. کاستیا، جی. Hay، GJ تجزیه و تحلیل تصویر مبتنی بر شی ; Springer: برلین، آلمان، 2008; صص 91-110. [ Google Scholar ]
  13. کوی، دبلیو. گائو، ال. وانگ، ال. لی، دی. مطالعه بر روی هستی شناسی جغرافیایی بر اساس تحلیل سنجش از دور شی گرا. در مجموعه مقالات کنفرانس بین المللی در مورد پردازش و تجزیه و تحلیل داده های مشاهده زمین، ووهان، چین، 28 تا 30 دسامبر 2008. [ Google Scholar ]
  14. کوی، دبلیو. لی، آر. یائو، ز. چن، جی. تانگ، اس. لی، کیو. مطالعه بر روی مقیاس تقسیم بندی بهینه بر اساس ابعاد فراکتال تصاویر سنجش از دور. J. دانشگاه ووهان. تکنولوژی 2011 ، 12 ، 83-86. [ Google Scholar ]
  15. کوی، دبلیو. ژنگ، ز. ژو، Q. هوانگ، جی. یوان، ی. کاربرد یک شبکه عصبی کانولوشن طیفی- فضایی موازی در طبقه‌بندی کاربری زمین سنجش از دور شی گرا. سنسور از راه دور Lett. 2018 ، 9 ، 334-342. [ Google Scholar ] [ CrossRef ]
  16. هی، GJ; مارسئو، دی جی; دوبه، پ. Bouchard، A. چارچوب چند مقیاسی برای تجزیه و تحلیل چشم انداز: تجزیه و تحلیل شی خاص و ارتقاء مقیاس. Landsc. Ecol. 2001 ، 16 ، 471-490. [ Google Scholar ] [ CrossRef ]
  17. چن، جی. هی، جی. St-Onge، B. چارچوب GEOBIA برای برآورد پارامترهای جنگل از Lidar Transects، Quickbird Imagery and Machine Learning: مطالعه موردی در کبک، کانادا. بین المللی J. Appl. زمین Obs. 2012 ، 15 ، 28-37. [ Google Scholar ] [ CrossRef ]
  18. Duynhoven، AV; Dragicevic، S. تجزیه و تحلیل اثرات وضوح زمانی و طبقه بندی اطمینان برای مدل سازی تغییر پوشش زمین با شبکه های حافظه کوتاه مدت بلند مدت. Remote Sens. 2019 , 11 , 2784. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  19. وانگ، اچ. ژائو، ایکس. ژانگ، ایکس. وو، دی. Du, X. طبقه‌بندی پوشش زمین سری طولانی در چین از سال 1982 تا 2015 بر اساس یادگیری عمیق Bi-LSTM. Remote Sens. 2019 , 11 , 1639. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  20. او، تی. زی، سی. لیو، کیو. گوان، اس. لیو، جی. ارزیابی و مقایسه شبکه‌های جنگل تصادفی و A-LSTM برای شناسایی گندم زمستانه در مقیاس بزرگ. Remote Sens. 2019 ، 11 ، 1665. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  21. تیموری، ن. دیرمن، ام. Jorgansen، RN یک شبکه جدید فضایی-زمانی FCN-LSTM برای تشخیص انواع مختلف محصول با استفاده از تصاویر رادار چندموقت. Remote Sens. 2019 , 11 , 990. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  22. چی، دبلیو. ژانگ، ایکس. وانگ، ن. ژانگ، ام. Cen, Y. یک شبکه عصبی کانولوشنال سه بعدی آبشاری طیفی-فضایی با یک شبکه حافظه کوتاه مدت کانولوشنال برای طبقه‌بندی تصاویر فراطیفی. Remote Sens. 2019 , 11 , 2363. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  23. مک.؛ لی، اس. وانگ، آ. یانگ، جی. Chen, G. ادی Nowcasting مبتنی بر مشاهده ارتفاع سنج با استفاده از یک شبکه Conv-LSTM بهبود یافته. Remote Sens. 2019 , 11 , 783. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  24. چانگ، ی. Luo, B. شبکه عصبی LSTM کانولوشنال دو جهته برای وضوح تصویر فوق العاده سنجش از دور. Remote Sens. 2019 , 11 , 2333. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  25. Gallego، AJ; گیل، پ. پرتوسا، ا. فیشر، تقسیم بندی معنایی RB تصاویر SLAR با رمزگذارهای خودکار انتخابی Convolutional LSTM. Remote Sens. 2019 , 11 , 1402. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  26. لو، جی. شیونگ، سی. پریخ، د. سوچر، آر. دانستن زمان نگاه کردن: توجه تطبیقی ​​از طریق یک نگهبان بصری برای شرح تصویر. در مجموعه مقالات کنفرانس IEEE 2017 در مورد دید رایانه و تشخیص الگو (CVPR)، هونولولو، HI، ایالات متحده آمریکا، 21 تا 26 ژوئیه 2017؛ صص 375-383. [ Google Scholar ]
  27. دو، جی. یونس، AP; Bui، DT; ساهانا، م. چن، سی. زو، ز. وانگ، دبلیو. فام، BT ارزیابی مدل‌های آماری چندگانه مبتنی بر GIS و داده‌کاوی برای حساسیت زمین لغزش ناشی از زلزله و بارندگی با استفاده از Lidar DEM. Remote Sens. 2019 ، 11 ، 6. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  28. روی، جی. سها، س. عربامری، ع. بلاشکه، تی. Bui، DT یک رویکرد جدید گروهی برای نقشه‌برداری حساسیت زمین لغزش (LSM) در منطقه دارجلینگ و کالیمپونگ، بنگال غربی، هند. Remote Sens. 2019 , 11 , 2866. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  29. شن، سی. فنگ، ز. زی، سی. نیش، اچ. ژائو، بی. او، دبلیو. زو، ی. وانگ، ک. لی، اچ. بای، اچ. و همکاران اصلاح نقشه حساسیت زمین لغزش با استفاده از تداخل سنجی پراکنده مداوم در مناطق فعالیت های معدنی شدید در منطقه کارست در جنوب غربی چین. Remote Sens. 2019 , 11 , 2821. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  30. پارک، جی. لی، سی دبلیو؛ لی، اس. لی، MJ نقشه‌برداری و مقایسه حساسیت زمین لغزش با استفاده از مدل‌های درخت تصمیم: مطالعه موردی منطقه جومونجین، کره. Remote Sens. 2018 , 10 , 1545. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  31. کدوی، روابط عمومی; لی، سی دبلیو; لی، اس. کاربرد مدل‌های یادگیری ماشینی مبتنی بر مجموعه برای نقشه‌برداری حساسیت زمین لغزش. Remote Sens. 2018 , 10 , 1252. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  32. شائو، ایکس. ما، س. Xu, C. فهرست‌بندی مبتنی بر تصویر سیاره و نقشه‌برداری حساسیت مبتنی بر یادگیری ماشین برای زمین‌لغزش‌های ناشی از زمین‌لرزه توماکومای ژاپن 6.6 Mw6 2018. Remote Sens. 2019 , 11 , 978. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  33. پراکاش، ن. مانکونی، آ. Loew, S. Mapping Landslides on EO Data: عملکرد مدل های یادگیری عمیق در مقابل مدل های یادگیری ماشین سنتی. Remote Sens. 2020 , 12 , 346. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  34. قربانزاده، ا. مینا، اس آر. بلاشکه، تی. تشخیص شکست شیب مبتنی بر پهپاد Aryal، J. با استفاده از شبکه‌های عصبی کانولوشنال یادگیری عمیق. Remote Sens. 2019 ، 11 ، 2046. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  35. شلهامر، ای. لانگ، جی. دارل، تی. شبکه های کاملاً پیچیده برای تقسیم بندی معنایی. IEEE Trans. الگوی مقعدی ماخ هوشمند 2017 ، 39 ، 640-651. [ Google Scholar ] [ CrossRef ]
  36. رونبرگر، او. فیشر، پی. Brox، T. U-Net: شبکه های کانولوشن برای تقسیم بندی تصویر زیست پزشکی. در محاسبات تصویر پزشکی و مداخله به کمک کامپیوتر – MICCAI 2015 ; نواب، ن.، هورنگر، ج.، ولز، دبلیو ام، فرانگی، اف.اف.، ویرایش. انتشارات بین المللی Springer: چم، سوئیس، 2015; جلد 9351، ص 234–241. [ Google Scholar ]
  37. هوانگ، جی. لیو، ز. ون در ماتن، ال. واینبرگر، شبکه‌های کانولوشن با اتصال متراکم KQ. در مجموعه مقالات کنفرانس IEEE 2017 در مورد دید رایانه و تشخیص الگو (CVPR)، هونولولو، HI، ایالات متحده آمریکا، 21 تا 26 ژوئیه 2017؛ ص 2261-2269. [ Google Scholar ]
  38. لی، ال. لیانگ، جی. ونگ، ام. Zhu, H. یک شبکه استفاده مجدد با ویژگی های چندگانه برای استخراج ساختمان ها از تصاویر سنجش از دور. Remote Sens. 2018 ، 10 ، 1350. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  39. یانگ، اچ. وو، پی. یائو، ایکس. وو، ی. وانگ، بی. Xu, Y. استخراج ساختمان در تصاویر با وضوح بسیار بالا توسط شبکه های متراکم توجه. Remote Sens. 2018 ، 10 ، 1768. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  40. سان، جی. هوانگ، اچ. ژانگ، ا. لی، اف. ژائو، اچ. Fu, H. ادغام شبکه های عصبی کانولوشن چند مقیاسی برای استخراج ساختمان در تصاویر با وضوح بسیار بالا. Remote Sens. 2019 , 11 , 227. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  41. هوانگ، ز. چنگ، جی. وانگ، اچ. لی، اچ. شی، ال. Pan, C. استخراج ساختمان از تصاویر سنجش از راه دور چند منبعی از طریق شبکه‌های عصبی دکانولوشن عمیق. در مجموعه مقالات سمپوزیوم بین المللی علوم زمین و سنجش از دور IEEE 2016 (IGARSS)، پکن، چین، 10 تا 15 ژوئیه 2016؛ صفحات 1835–1838. [ Google Scholar ]
  42. کروملینک، اس. کووا، م. یانگ، م. Vosselman, G. کاربرد یادگیری عمیق برای ترسیم مرزهای مرئی کاداستر از تصاویر سنجش از دور. Remote Sens. 2019 ، 11 ، 2505. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  43. ژانگ، تی. تانگ، اچ. ارزیابی جامع رویکردها برای استخراج منطقه ساخته شده از تصاویر Landsat Oli با استفاده از نمونه های عظیم. Remote Sens. 2019 , 11 , 2. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  44. فو، ی. لیو، ک. شن، ز. دنگ، ج. گان، م. لیو، ایکس. لو، دی. وانگ، ک. نقشه برداری از سطوح غیرقابل نفوذ در کمربندهای انتقال شهر به روستا با استفاده از تصاویر GF-2 چین و CNN های عمیق مبتنی بر شی. Remote Sens. 2019 , 11 , 280. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  45. لی، دبلیو. دونگ، آر. فو، اچ. Yu, L. تشخیص درخت نخل روغنی در مقیاس بزرگ از تصاویر ماهواره ای با وضوح بالا با استفاده از شبکه های عصبی کانولوشنال دو مرحله ای. Remote Sens. 2019 ، 11 ، 11. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  46. ژانگ، دی. وانگ، دی. گو، سی. جین، ن. ژائو، اچ. چن، جی. لیانگ، اچ. لیانگ، دی. استفاده از شبکه عصبی برای شناسایی شدت سوختگی سر فوزاریوم گندم در محیط مزرعه. Remote Sens. 2019 , 11 , 2375. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  47. ایتان، ال. تایر، دبلیو. نیکلاس، ک. چاد، دی. وو، اچ. هود، ال. ربکا، جی. مایکل، الف. فنوتیپ کمی سوختگی برگ شمالی در تصاویر پهپاد با استفاده از یادگیری عمیق. Remote Sens. 2019 , 11 , 2209. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  48. پانبونیوئن، تی. جیتکاجورنوانیچ، ک. لااویرووجونگ، س. سرستاساتیرن، پ. Vateekul، P. Semantic Semantic Segmentation on Remote Sensing Images using an Enhanced Global Convolutional Network با توجه کانال و یادگیری انتقال خاص دامنه. Remote Sens. 2019 ، 11 ، 83. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  49. مو، ال. غمیسی، پ. Zhu، XX شبکه‌های عصبی بازگشتی عمیق برای طبقه‌بندی تصاویر فراطیفی. IEEE Trans. Geosci. Remote Sens. 2017 , 55 , 3639–3655. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  50. وو، اچ. پراساد، S. شبکه های عصبی بازگشتی کانولوشن برای طبقه بندی داده های فراطیفی. Remote Sens. 2017 , 9 , 298. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  51. ندیکومانا، ای. Minh، DHT؛ بغدادی، ن. کورو، دی. Hossard، L. شبکه عصبی بازگشتی عمیق برای طبقه بندی کشاورزی با استفاده از SAR Sentinel-1 چند زمانی برای Camargue، فرانسه. Remote Sens. 2018 , 10 , 1217. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  52. لیو، بی. یو، ایکس. یو، ا. ژانگ، پی. Wan, G. طبقه‌بندی طیفی- فضایی تصاویر فراطیفی بر اساس شبکه‌های عصبی مکرر. سنسور از راه دور Lett. 2018 ، 9 ، 1118–1127. [ Google Scholar ] [ CrossRef ]
  53. لیو، کیو. ژو، اف. هنگ، آر. یوان، X. یادگیری ویژگی های طیفی-فضایی مبتنی بر LSTM دو جهته برای طبقه بندی تصاویر فراطیفی. Remote Sens. 2017 , 9 , 1330. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  54. ما، ا. فیلیپی، AM; وانگ، ز. یین، زی. طبقه‌بندی تصویر فراطیفی با استفاده از شبکه‌های عصبی عمیق بازگشتی مبتنی بر اندازه‌گیری‌های شباهت. Remote Sens. 2019 , 11 , 194. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  55. وینیالز، او. توشف، ا. بنژیو، اس. Erhan, D. نمایش و بگویید: A Neural Image Caption Generator. در مجموعه مقالات کنفرانس IEEE 2015 در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، بوستون، MA، ایالات متحده آمریکا، 7 تا 12 ژوئن 2015؛ صص 3156–3164. [ Google Scholar ]
  56. کارپاتی، ا. لی، F.-F. ترازهای بصری- معنایی عمیق برای تولید توضیحات تصویر. در مجموعه مقالات کنفرانس IEEE 2015 در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، بوستون، MA، ایالات متحده آمریکا، 7 تا 12 ژوئن 2015؛ صص 3128–3137. [ Google Scholar ]
  57. خو، ک. با، ج. کیروس، آر. چو، ک. کورویل، آ. سالاخوتدینوف، ر. زمل، آر. Bengio، Y. نمایش، حضور و گفتن: ایجاد شرح تصویر عصبی با توجه بصری. در مجموعه مقالات کنفرانس بین المللی یادگیری ماشین، لیل، فرانسه، 6 تا 11 ژوئیه 2015؛ صفحات 2048–2057. [ Google Scholar ]
  58. کو، بی. لی، ایکس. تائو، دی. لو، ایکس. درک معنایی عمیق تصویر سنجش از دور با وضوح بالا. در مجموعه مقالات کنفرانس بین المللی 2016 کامپیوتر، اطلاعات و سیستم های مخابراتی (CITS)، کونمینگ، چین، 6 تا 8 ژوئیه 2016؛ صص 1-5. [ Google Scholar ]
  59. شی، ز. Zou, Z. آیا ماشینی می‌تواند توصیفات زبانی انسان‌مانند را برای تصویر سنجش از راه دور ایجاد کند؟ IEEE Trans. Geosci. Remote Sens. 2017 , 55 , 3623–3634. [ Google Scholar ] [ CrossRef ]
  60. لو، ایکس. وانگ، بی. ژنگ، ایکس. لی، ایکس. کاوش مدل‌ها و داده‌ها برای تولید عنوان تصویر سنجش از دور. IEEE Trans. Geosci. Remote Sens. 2018 , 56 , 2183–2195. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  61. وانگ، بی. لو، ایکس. ژنگ، ایکس. لیو، دبلیو توضیحات معنایی تصاویر سنجش از دور با وضوح بالا. IEEE Geosci. سنسور از راه دور Lett. 2019 ، 99 ، 1274-1278. [ Google Scholar ] [ CrossRef ]
  62. ژانگ، ایکس. وانگ، ایکس. تانگ، ایکس. ژو، اچ. Li, C. توضیحات نسل برای تصاویر سنجش از دور با استفاده از مکانیسم توجه ویژگی. Remote Sens. 2019 , 11 , 612. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  63. هو، آر. رورباخ، م. دارل، تی. تقسیم بندی از عبارات زبان طبیعی. در مجموعه مقالات کنفرانس اروپایی بینایی رایانه، آمستردام، هلند، 11 تا 14 اکتبر 2016. [ Google Scholar ]
  64. لیو، سی. لین، ز. شن، ایکس. یانگ، جی. لو، ایکس. Yuille، A. تعامل چندوجهی مکرر برای بخش بندی تصویر ارجاع دهنده. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتری (ICCV)، ونیز، ایتالیا، 22 اکتبر 2017. [ Google Scholar ]
  65. چن، دی. جیا، اس. لو، ی. چن، اچ. لیو، تی. گروه‌بندی از طریق متن برای ارجاع بخش‌بندی تصویر. در مجموعه مقالات کنفرانس بین المللی IEEE در مورد عکس محاسباتی (ICCP)، توکیو، ژاپن، 15 تا 17 مه 2019. [ Google Scholar ]
  66. لو، اچ. لین، جی. لیو، ز. لیو، اف. تانگ، ز. Yao, Y. توجه بصری مبتنی بر تقسیم بندی ویدیویی SegEQA برای پاسخگویی به سؤالات تجسم یافته. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر (ICCV)، سئول، کره، 27 اکتبر تا 2 نوامبر 2019؛ صفحات 9967–9976. [ Google Scholar ]
  67. پیتر، ا. او، X. کریس، بی. دیمین، تی. مارک، جی. استفان، جی. ژانگ، L. توجه از پایین به بالا و بالا به پایین برای شرح تصاویر و پاسخگویی به سؤالات تصویری. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، سالت لیک سیتی، UT، ایالات متحده آمریکا، 18 تا 23 ژوئن 2018. [ Google Scholar ]
  68. لی، ک. ژانگ، ی. لی، ک. لی، ی. Fu, Y. استدلال معنایی بصری برای تطبیق تصویر-متن. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر (ICCV)، سئول، کره، 27 اکتبر تا 2 نوامبر 2019؛ صص 4654–4662. [ Google Scholar ]
  69. کوی، دبلیو. وانگ، اف. او، X. ژانگ، دی. خو، X. یائو، ام. وانگ، ز. Huang, J. بخش بندی معنایی چند مقیاسی و تشخیص روابط فضایی تصاویر سنجش از دور بر اساس یک مدل توجه. Remote Sens. 2019 , 11 , 1044. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  70. چن، جی. ونگ، کیو. هی، GJ; He, Y. تجزیه و تحلیل تصویر مبتنی بر شی جغرافیایی (GEOBIA): روندهای در حال ظهور و فرصت های آینده. GIScience Remote Sens. 2018 ، 55 ، 159-182. [ Google Scholar ] [ CrossRef ]
  71. بلاشکه، تی. Strobl، J. مشکل پیکسل ها چیست؟ برخی از پیشرفت های اخیر در ارتباط با سنجش از دور و GIS. Z. Geoinformationssysteme 2001 ، 14 ، 12-17. [ Google Scholar ]
  72. چن، ام. ژو، دبلیو. یوان، T. GF-1 ارزیابی کیفیت تصویر و کاربردهای بالقوه برای طبقه بندی کاربری زمین در منطقه معدن. جی. ژئومات. علمی تکنولوژی 2015 ، 32 ، 494-499. [ Google Scholar ]
  73. وو، اچ. کلارک، ک. شی، دبلیو. نیش، ال. لین، ا. ژو، جی. بررسی حساسیت مقیاس فضایی در شبیه‌سازی زنجیره مارکوف سلولی اتوماتای ​​سلولی تغییر کاربری زمین. بین المللی جی. جئوگر. Inf. علمی 2019 ، 33 ، 1040–1061. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
شکل 1. مقایسه زمین لغزش ها در نقاط مختلف رخ داده است. خطر وقوع زمین لغزش در یک منطقه پرجمعیت ( a ) بیشتر از یک منطقه غیر مسکونی ( b ) است.
شکل 2. نمودار جریان روش شناختی این مطالعه.
شکل 3. نمونه ای از نمونه ها و حقیقت زمین آن (GT) مورد استفاده در این مقاله. ( a ) تصویر اصلی است، در حالی که ( b ) GT مربوطه است. در این نمونه 4 طبقه وجود دارد: زمین لغزش، گرینلند، کشاورزی و ساختمان. در GT، یک رنگ خاص به هر کلاس از اشیاء جغرافیایی داده می شد.
شکل 4. معماری اصلی دروازه معنایی و یک شبکه حافظه کوتاه مدت دوزمانی (SG-BiTLSTM). U-Net به عنوان یک رمزگذار استفاده می شود. رمزگشای این ساختار از دو LSTM تشکیل شده است: یک زبان LSTM و یک LSTM پیش بینی.
شکل 5. ( الف ) نمونه سنجش از دور. ( ب ) GT مبتنی بر شی برای آموزش شبکه. ( ج ) ماسک شی (لغزش زمین) از شبکه تقسیم بندی معنایی ما.
شکل 6. معماری BiTLSTM.
شکل 7. تابع فعال سازی سفارشی دروازه معنایی. از شکل می توان دریافت که وقتی x ≥ 0 باشد، مقدار f(x) برابر با 1 است، در غیر این صورت برابر با e x است.
شکل 8. ماتریس تمرکز وزن هر زمان.
شکل 9. تبدیل رابطه از جزء به کل شی. رابطه فضایی در وصله l بر اساس بخش‌های اشیاء (o in ( l )) وجود دارد، باید توسط یک الگوریتم به کل شی (O in ( m )) سوئیچ شود.
شکل 10. تصاویری از 5 صحنه که شامل اشیاء اصلی تحقیق ما، یعنی ساختمان ها، رانش زمین و کشاورزی است.
شکل 11. منطقه تحقیق این مطالعه (ونچوان).
شکل 12. تلفات مدل ها. روند زیان مدل های مختلف را نشان می دهد.
شکل 13. مقادیر Bleu مدل ها.
شکل 14. روند Bleu از 10 آزمایش. از شکل مشاهده می شود که در این آزمایش ها، دامنه تغییرات Bleu_1، Bleu_2، Bleu_3 و Bleu_4 ظریف است که می تواند تصادفی بودن توزیع داده ها و استحکام آزمایش ها را ثابت کند.
شکل 15. دقت مکان یابی مدل ها.
شکل 16. تجزیه و تحلیل مکان نمونه ها. ( الف ) تجزیه و تحلیل مکان نمونه های “چند تا چندگانه”. (ب) تجزیه و تحلیل مکان نمونه های “1 تا 1”.
شکل 17. اثر دروازه معنایی با فعال سازی سیگموئید.
شکل 18. اثر دروازه معنایی با فعال سازی سفارشی.
شکل 19. اثر کنترلی دروازه معنایی.
شکل 20. نتیجه روش ما: ( الف ) نقشه تقسیم بندی معنایی کل منطقه تحقیق. ( ب ) تصویر سنجش از دور مربوط به قسمت موجود در کادر قرمز در (الف)؛ ( ج ) نقشه تقسیم بندی معنایی مربوط به ( b )؛ ( د ) نقشه بدن متاثر از خطر (با مرز زرد) از ( b ).

بدون دیدگاه

دیدگاهتان را بنویسید