1. مقدمه
تشخیص تغییر (CD) متعلق به حوزه مهم تفسیر هوشمند تصاویر سنجش از دور است که با هدف شناسایی تفاوت اشیاء یا صحنهها بین تصاویر توالی چند زمانی، نقش مهمی در نظارت بر پوشش زمین، زمین شهری/معدنی ایفا میکند. مدیریت منابع، ارزیابی بلایای طبیعی و غیره [ 1 ]. هدف CD بدست آوردن یک نقشه تغییر سطح پیکسل با تجزیه و تحلیل تصویر سنجش از راه دور دو زمانی ثبت شده است، که در آن به هر پیکسل احتمال تغییر و بدون تغییر اختصاص داده می شود.
روشهای تشخیص تغییر همزمان عمدتاً به CD سطح پیکسل، سطح معنایی و سطح ویژگی تقسیم میشوند. CD سطح پیکسل، پیشبینی طبقهبندی پیکسل به پیکسل را استنباط میکند، که در آن پیکسلهای بدون تغییر به صورت 0، و پیکسلهای تغییر یافته به صورت 1 نشان داده میشوند [ 2 ، 3 ].]. اگرچه این روشها با اتخاذ برخی مدلها برای حل تکلیف تقسیمبندی معنایی به نتایج رقابتی دست یافتند، اما این امر ناگزیر باعث از بین رفتن کامل رابطه مکانی-زمانی بین تصاویر دوزمانی شد. برای روشهای سطح معنایی، تفاوت موجودیتهای شی در صحنه برای به دست آوردن اطلاعات تمایز بین تصاویر دو زمانی مقایسه میشود، بنابراین مناطق برجسته شامل اشیاء مقیاس بزرگ و کوچک نادیده گرفته میشوند. روشهای CD سطح ویژگی معمولاً مدلهای مبتنی بر یادگیری را برای نمایش ویژگیهای تصویر معرفی میکنند، که متعاقباً به عنوان معیار برای طبقهبندی استفاده شدند [ 4 ، 5 ]]، اما اکثر ساختارهای شبکه به شدت به ویژگی نشان دهنده توانایی لایههای مختلف CNN متکی هستند، بنابراین با مدلسازی رابطه زمینه در مرحله استخراج ویژگی، این اثر را کاملا نادیده میگیرند. اکثر آثار سی دی مدرن از شبکه های عصبی کانولوشنال عمیق (DCNN) برای به دست آوردن نقشه تغییر سطح پیکسل استفاده می کنند، اما بسیاری از آنها فقط از ستون فقرات موثر CNN (یعنی VGG [ 6 ]، ResNet [ 7 ]) برای نشان دادن جفت ویژگی های دوتایی استفاده می کنند. محدود به ساختار شبکه است. اگرچه روشهای فراوان مکانیسمهای توجه را برای بهبود زمینه جهانی ویژگیها اتخاذ کردند، کارایی محاسباتی با کاهش قابل توجهی مواجه است. بنابراین، کار ما با معرفی یک ترانسفورماتور یکپارچهکننده شبکه سطح ویژگی، یک مدل نظارت شده برای تشخیص تغییرات دودویی معرفی میکند.
اگرچه بسیاری از روشهای مبتنی بر یادگیری عملکرد خوبی را در مجموعه دادههای عمومی منابع انسانی نشان میدهند، دو محدودیت وجود دارد: (1) در صحنههای پیچیده، ظاهر شی در تصاویر موقتی سازگار نیست. (2) اندازه گیری تفاوت توسط رفتارهای طیفی چهره دشوار است. همانطور که در شکل 1، اشیاء داخل جعبه چین دار قرمز دارای یک تغییر ذاتی در رنگ و زاویه بصری هستند که منجر به ویژگی های متمایز ناسازگار می شود. در این بین، به دلیل تفاوت های ناشی از تغییرات فصلی، بازنمایی های گسترده تغییرات محلی نامربوط ظاهر می شود. تحت این شرایط، اکثر روشهای مبتنی بر CNN، مکانیابی کامل مناطق مورد نظر تغییر را دشوار میدانند. اگرچه بسیاری از روش ها سعی کردند با معرفی انواع مختلف مکانیسم های توجه، مشکل را برطرف کنند، تقریباً همه هزینه های محاسباتی و حافظه سنگینی را مصرف می کنند. ترانسفورماتور بصری به ارث رسیده از ترجمه زبان طبیعی، کارایی محاسباتی مدلسازی بافت جهانی را در بسیاری از کارهای بصری بهبود بخشید. با انگیزه ترانسفورماتور بینایی (ViT [ 8])، ما یک لایه مبتنی بر ترانسفورماتور را معرفی میکنیم که جایگزین توجه به خود میشود تا وابستگیهای مسافت طولانی هر مجموعه ویژگیهای زمانی ایجاد شود. با اتصال با رمزگذار ترانسفورماتور، توجه چند سر برای ایجاد تعاملات پچ به پچ درگیر می شود. با این حال، ماژولهای ترانسفورماتور قبلی فقط دنبالههای تصویر تعبیهشده ثابت را اتخاذ میکردند، و نمایش نشانههای تصویر چند مقیاسی را نادیده میگرفتند، به این معنی که میدان پذیرنده در لایه ترانسفورماتور به اشیاء صحنه معمولی محدود میشود، که منجر به یک میدان ضعیف برای صحنههای پیچیده میشود که اشیا را متفاوت نشان میدهد. با اندازه های متنوع علاوه بر این، چنین دانه بندی ویژگی ناقصی در بین هر تصویر زمانی ناگزیر باعث تغییرات نامربوط در مقیاس های مختلف می شود. در این کار، ما یک ساختار ترانسفورماتور هیبریدی را از طریق استراتژی تجمع توکن برای تشخیص تغییر تصویر از راه دور HR پیشنهاد میکنیم. که به طور خلاقانه همبستگی ویژگی ها را به صورت درشت دانه و ریزدانه در یک لایه ترانسفورماتور نشان می دهد. به طور خاص، توجهات چند سر در ترانسفورماتور هیبریدی ما به چندین گروه تقسیم میشوند که هر کدام حاوی اطلاعات توجه با دانهبندی خاص متفاوت است. برای گروههای ریز دانه، مقدار کمی از نشانهها حاوی اطلاعات محلی دقیقتر جمعآوری میشوند. برای اکثر گروههای درشت دانه باقیمانده، سرهای توجه مربوطه توانایی گرفتن انتخابی اشیاء بزرگ را با جمعآوری توکنهای بزرگ نشان میدهند. که هر کدام حاوی اطلاعات توجه با جزئیات خاص متفاوت است. برای گروههای ریز دانه، مقدار کمی از نشانهها حاوی اطلاعات محلی دقیقتر جمعآوری میشوند. برای اکثر گروههای درشت دانه باقیمانده، سرهای توجه مربوطه توانایی گرفتن انتخابی اشیاء بزرگ را با جمعآوری توکنهای بزرگ نشان میدهند. که هر کدام حاوی اطلاعات توجه با جزئیات خاص متفاوت است. برای گروههای ریز دانه، مقدار کمی از نشانهها حاوی اطلاعات محلی دقیقتر جمعآوری میشوند. برای اکثر گروههای درشت دانه باقیمانده، سرهای توجه مربوطه توانایی گرفتن انتخابی اشیاء بزرگ را با جمعآوری توکنهای بزرگ نشان میدهند.
روشهای CD مبتنی بر اواخر فیوژن [ 9 ، 10 ، 11] عملیات الحاق کانال یا تفاوت سطح فضایی را در ترکیب جفت ویژگی اعمال کرد، بنابراین نقشههای ویژگی معنایی سطح بالا را تولید کرد. در خط مبنا پیشنهادی ما، دو روش، به نامهای Late-Diff (LD) و Early-Diff (ED)، برای تولید ویژگیهای متمایز که با توجه به خود تقویت میشوند، پیشنهاد شدهاند: (1) نشانههای متوالی دوجفتی از یک رمزگذار هیبریدی ترانسفورماتور. H-TE) دنبال می شوند، توسط یک رمزگشای هیبریدی-ترانسفورماتور سیامی (H-TD) دوباره طرح ریزی می شوند، و جفت توکن تولید شده با یک عملیات تفاوت مطلق انجام می شود. (2) روش ED به جای بازپخش جداگانه در هر توکن موقتاً کدگذاری شده از H-TE قبلی با H-TD، بین جفت توکن تقویت شده در مرحله اولیه برای به دست آوردن مستقیم ویژگیهای تفاوت متمایز که باید بازپخش شوند، تمایز قائل میشود.
برای بازیابی کامل وضوح ویژگی در رمزگشا، روشهای قبلی [ 12 ] بر افزودن اتصالات پرش از ویژگیهای لایه کم عمق به لایههای سطح بالا متمرکز بودند، بنابراین ویژگیهایی حاوی بافت دقیق و اطلاعات معنایی بسیار معرف به دست میآیند. U-Net++ [ 13 ] یک استراتژی همجوشی چند جانبه را برای ایجاد نقشههای تغییر معنایی چند سطحی متراکم اتخاذ کرد، اما با این وجود پیچیدگی محاسباتی بالایی را اشغال کرد. مرجع [ 14] یک ماژول انتخاب مقیاس را برای جمعآوری تطبیقی نقشههای نهایی از سطوح مختلف ویژگیها پیشنهاد کرد. با این حال، جزئیات تغییر گسترده همراه با مراحل نمونهبرداری پیشرونده در رمزگشا نادیده گرفته میشوند، بنابراین یک رمزگشای ویژگی آبشاری برای کاهش عدم وجود نمایشهای مقیاس مختلف پیشنهاد شد.
به طور کلی، در این کار، ما یک شبکه ترانسفورماتور تصویر دوزمانی بهبود یافته را برای مدلسازی بافت دوربرد در تصویر دو زمانی به شیوهای چند مقیاسی معرفی میکنیم. نکته کلیدی این است که نمایشهای سطح بالا از تغییرات مرتبط را میتوان در کلمات بصری سریالی نشان داد. مشارکت های ما را می توان به شرح زیر خلاصه کرد:
(1) ما یک شبکه تشخیص تغییر مبتنی بر ترانسفورماتور (Hybrid-TransCD) پیشنهاد کردیم که محاسبات بسیار پیچیده ناشی از توجه اولیه را به طور کامل کاهش می دهد. فعل و انفعالات دوربرد ثبت شده توسط ماژول ترانسفورماتور، نمایش ویژگی های تقویت شده را ارتقا داد.
(2) یک رمزگذار ترانسفورماتور ترکیبی (H-TE) و یک رمزگشای ترانسفورماتور هیبریدی (H-TD) برای تولید نشانههای تفاوت قویتر (ویژگیها) طراحی شدهاند، که هر دو زمینه توکنهای چند مقیاسی را در یک توجه به خود جلب میکنند. مسدود کردن از طریق تجمع توکن ساختار ترانسفورماتور پیشنهادی، توکنهای سلسله مراتبی را در میان مناطق با مقیاس بزرگ و اشیاء در مقیاس کوچک ادغام میکند و در عین حال هزینههای محاسباتی و حافظه سبک را حفظ میکند.
(3) با ایجاد روابط بین دنبالههای رمز رمزگذاریشده و توکن باقیمانده اصلی، ما دو روش را برای نمایش ویژگیهای متمایز بین تصاویر موقتی پیشنهاد کردیم، که هر دو زمینه تفاوت امیدوارکننده حاوی اطلاعات چند دانهبندی را به تصویر میکشند. در مقایسه با سیانان سنتی که ویژگیها را در مرحله نهایی برای تولید ویژگیهای دیفرانسیل ترکیب میکند، ساختارهای طراحیشده ما لایه ترانسفورماتور را بهبود میبخشند به طوری که ویژگیهای متمایز را میتوان مستقیماً هنگام مدلسازی بافت زمانی مکانی به دست آورد.
(4) برای استفاده از ویژگی های درشت دانه و ریزدانه غنی تر در میان لایه های بلند و کم عمق، یک رمزگشای ویژگی آبشاری برای دستیابی به پیش بینی تغییرات متراکم معرفی شد.
(5) آزمایشهای فراوان نشان میدهد که رویکرد پیشنهادی بهتر از سایر روشهای تشخیص تغییر مبتنی بر توجه و یادگیری در مورد و هزینه پارامترها به طور خاص، در مقایسه با روشهای پیشرفته، بهترتیب در مجموعه دادههای LEVIR-CD و SYSU-CD به بهبودی 0.75 و 1.98 امتیازی دست یافتیم.
2. کارهای مرتبط
2.1. روش های مبتنی بر توجه
اخیراً، مدلسازی زمینه جهانی و درک وابستگیهای دوربرد توجه فزایندهای را در تشخیص تغییر تصویر سنجش از دور به خود جلب کرده است و بسیاری از مکانیسمهای مبتنی بر توجه، از جمله توجه کانال، توجه فضایی، و توجه به خود، به تدریج در موارد چندگانه اعمال میشوند. مدل سازی همبستگی مکانی-زمانی زمانی [ 15 ، 16 ، 17 ]. با این حال، این روش ها فقط زمینه دوربرد هر تصویر زمانی را به طور جداگانه ایجاد می کنند، یا مستقیماً تصویر ذوب شده اولیه را با وزن دهی مجدد در فضاهای فضایی و کانالی به روز می کنند. برخی از آثار [ 18 ، 19] عملکرد امیدوارکنندهای را با عملیات متراکم غیرمحلی برای ایجاد همبستگی تفاوت معنایی پیکسل به پیکسل بین تصاویر دوزمانی به دست آورد، اما اکثریت هزینههای محاسباتی/حافظه را بارگذاری کردهاند که باعث ایجاد یک فرآیند یادگیری ناکارآمد برای تصاویر سنجش از راه دور HR میشود. Zhang [ 20 ] اشاره کرد که روشهای تشخیص تغییر مبتنی بر یادگیری عمیق فعلی محدودیتهای خاصی در ترکیب و نظارت عمیق دارند، بنابراین آنها یک شبکه ترکیبی تصویر تحت نظارت عمیق با معماری دو شاخه را پیشنهاد کردند، که توانایی تشخیص تفاوتها را بهبود میبخشد. قرار دادن یک ماژول توجه فضایی و یک ماژول توجه کانال در لایه های ویژگی چند سطحی. رضا [ 21] استراتژیهای همجوشی نهایی را بر اساس توجه فضایی/کانالی با تکرار چندین بار پیشنهاد کرد، بنابراین برای اصلاح ویژگیهای چند مقیاسی عمل کرد.
2.2. ویژن ترانسفورماتور
با انگیزه ViT، BiT [ 22 ] ابتدا یک شبکه ترانسفورماتور تصویر دوزمانی را برای مدلسازی موثر بافتهای زمانی- مکانی پیشنهاد کرد، که به طور خلاقانه توانایی افزایش را با ترکیب یک CNN و یک ترانسفورماتور ثابت کرد. TransCD [ 23 ] محدودیت میدان دریافت محلی شبکه های CNN سنتی را در نظر گرفت، بنابراین آنها یک ترانسفورماتور بینایی سیامی (SViT) را در چارچوب SCD تفاوت ویژگی برای حل وظیفه تشخیص تغییر صحنه گنجانیدند. با این حال، این چارچوب های CD مبتنی بر ترانسفورماتور ذکر شده صرفاً قادر به گرفتن وابستگی های متقابل جهانی اشیاء تک مقیاس در هر لایه ترانسفورماتور هستند، که تمایل به از دست دادن استحکام در صحنه های فضایی غنی از تصاویر سنجش از دور دارند.
مدل های جدید ترانسفورماتور بینایی همه کاره مانند PVT [ 24 ] و ترانسفورماتور swin [ 25 ]] راهحلهای مؤثری برای هزینههای محاسباتی سنگین موجود در شبکههای مبتنی بر ترانسفورماتور خالص ارائه کرد: اولی در نظر داشت ویژگیهای با وضوح بالا را با جایگزینی وصلههای تصویر درشت دانه با وصلههای ریزدانه نشان دهد و طول توکنها متعاقبا کاهش یافت و یک هرم پیشرونده را اتخاذ کرد. استراتژی دومی یک ساختار سلسله مراتبی را برای کاهش هزینه محاسباتی سنگین موجود در خودتوجهی سطح نشانه معرفی کرد و روش پنجرههای تغییر یافته تعامل بین گروههای پچ مجاور را تسهیل میکند. اگرچه هر دوی آنها هزینههای محاسباتی و حافظه ناشی از نقشههای ویژگی با وضوح بالا را کاهش میدهند، بلوکهای رمزگذار ترانسفورماتور یا صرفاً بافت محلی را در منطقه باریک مدلسازی میکنند یا اطلاعات ریزدانه مخلوطی را بین اشیا و پسزمینههای نامربوط ضبط میکنند. برای رفع محدودیت های فوق، ما یک ساختار ترانسفورماتور ترکیبی را برای حفظ وابستگیهای جهانی چند دانهای در میان جفتهای توکن پیشبینیشده معرفی میکنیم، بنابراین بازنماییهای تفاوت بین تصاویر موقتی را برای اجسام بزرگ و کوچک به دست میآوریم. مقایسه اثر در نشان داده شده استشکل 2 .
کارهای دیگر [ 26 ] با ساختن خود توجهی متقابل پیشرونده در یک لایه، یا ترکیبی از توجه وصله به ساخت میدان دریافت سلسله مراتبی (RF) برهمکنش های ویژگی های چند مقیاسی ایجاد کردند [ 27 ]]. آنها ویژگی های چند دانه بندی را به قیمت افزایش شاخه های اضافی برای وصله های در مقیاس بزرگ نشان می دهند که باعث کارایی محاسباتی در عین حال ناقص می شود. در این کار، ما یک ماژول ترانسفورماتور تشخیص تغییر دید ترکیبی را برای تقویت نه تنها مناطق تغییر بزرگ (به عنوان مثال، ساختمان) بلکه همچنین اجسام کوچک (مانند ماشین) طراحی میکنیم. به طور قابل توجهی، ما دو ماژول مبتنی بر ترانسفورماتور (رمزگذار ترانسفورماتور و رمزگشای ترانسفورماتور تفاوت) را برای مدلسازی بافت معنایی نشانههای دوزمانی و نشانههای تفاوت سطح پیکسل پیشنهاد میکنیم، که هر دو با تعداد مختلف ( N و M ) ترانسفورماتور ترکیبی تشکیل شدهاند. بلوک ها
3. مواد و روشها
3.1. نمای کلی شبکه
مشابه بیشتر روشهای همجوشی دیررس، روش پیشنهادی یک نقشه ویژگی تفاوت متمایز را در بالاترین لایه ایجاد میکند، به این معنی که جفت ویژگیهای استخراجشده از ستون فقرات CNN ابتدا توسط ترانسفورماتور هیبریدی افزایش مییابد. سپس، نقشههای ویژگی تفاوت تولید شده برای بازیابی نمایش تغییر زمینه با اندازه اولیه به رمزگشا ارسال میشوند. به طور قابل توجهی متفاوت از خط لوله عمومی CD، که ویژگیهای ترکیب شده تصاویر دوتایی از بالاترین لایه را به عنوان نمایش معنایی تغییر در نظر میگیرد، در اینجا، ساختار ترانسفورماتور را برای به دست آوردن ویژگیهای متمایز در سطح پیکسل با جفت توکنهای فشرده، وارد مرحله ترکیب ویژگیها کردیم.
جریان کلی شبکه در شکل 3 نشان داده شده است . یک ماژول ترانسفورماتور هیبریدی در خط لوله عمومی مبتنی بر CNN گنجانده شده است تا از یک جفت ویژگی دوزمانی پیچیده استخراج شده توسط ستون فقرات سیامی که به صورت بیان شده است استفاده کند. ، و زمینه جهانی توسط ترانسفورماتور افزایش می یابد، بنابراین یک جفت رمز رمزگذاری شده ایجاد می شود ، که در آن P نشان دهنده شماره وصله جاسازی شده است، در حالی که D نشان دهنده پارامتر از پیش تعریف شده ابعاد پنهان نشانه است که باید پیش بینی شود.
به طور خاص، با توجه به هر ویژگی زمانی، یک رمزگذار ترانسفورماتور هیبریدی (H-TE) برای ساختن پچهای درشت دانه و ریزدانه استفاده میشود. جفت نشانه های معنایی تولید شده همراه با تعبیههای پچ باقیمانده مربوطه به لایه رمزگشای هیبریدی-ترانسفورماتور (H-DE) فرستاده می شوند تا وابستگی بین نشانه های معنایی رمزگذاری شده و ویژگی های اصلی در سطح پیکسل، نشانه های تفاوت ایجاد شده را افزایش دهند. متعاقباً به یک تانسور ویژگی-بعدی که به صورت نمایش داده میشود، بازیابی میشوند با انجام عملیات جایگشت و تغییر شکل، که در آن D تعداد از پیش تعریف شده کانال های پنهان است. از آنجایی که تفاوت مطلق ابتدا از جفت رمز کدگذاری شده گرفته می شود و سپس رمزگشایی می شود (تفاوت اولیه)، یا جفت نشانه ابتدا رمزگشایی می شود و سپس ایجاد می شود (تفاوت دیر)، ویژگی های تولید شده حاوی اطلاعات تغییرات معنایی فراوانی هستند. متعاقباً، ویژگیهای ذوب شده همراه با اتصالات پرش از ستون فقرات CNN برای بازیابی وضوح اصلی توسط رمزگشای ویژگی آبشاری پیشنهادی نمونهبرداری میشوند. سر پیش بینی متشکل از a پیچیدگی برای ایجاد یک نقشه احتمال تغییر پیشبینیشده استفاده میشود .
به طور قابل توجهی، ResNet ترکیبی [ 7 ]، به جای یک استخراج کننده ترانسفورماتور خالص، برای اعمال نفوذ قدرت ترانسفورماتور CNN استفاده می شود. H-TE سیامی توسط یک بلوک ترانسفورماتور رمزگذار ترکیبی چندگانه ( M ) ساخته شده است در حالی که H-TD از بلوک های ترانسفورماتور رمزگشای هیبریدی N تشکیل شده است ، بنابراین بازده محاسباتی مناسب را تثبیت می کند.
3.2. رمزگذار هیبریدی-ترانسفورماتور
به عنوان جزء اصلی ViT، ماژول رمزگذار ترانسفورماتور برای استخراج ویژگی های تصویر استفاده می شود. به طور خاص، تصویر دو بعدی اصلی به دنباله جاسازی یک بعدی، یعنی ورودی تبدیل می شود. به ترتیب بلوک های اندازه تقسیم می شود ، و طول دنباله است . در همان زمان، جاسازی موقعیت برای رمزگذاری اطلاعات موقعیت نشانه ها، اجتناب از مدل، برای یادگیری اطلاعات موقعیت مطلق با معنایی پچ های تصویر، اضافه می شود. همانطور که از شکل 4 مشاهده می شود ، رمزگذار ترانسفورماتور شامل یک توجه چند سر (MHA)، دو لایه نرمال سازی (Norm) و یک لایه پرسپترون چند لایه (MLP) است که با توجه محصول نقطه مقیاس شده، همانطور که در شکل نشان داده شده است، عمل می کند. 5 . پرس و جو، کلید و مقدار توسط پیچیدگی، که در آن کلید و مقدار جفت می شوند. با توجه به خود توجهی، حاصلضرب داخلی با تطبیق k بردارهای کلیدی محاسبه می شود ( ) با بردار پرس و جو ( ) که سپس توسط نرمال می شود . برای MHA توجه چند سر ( شکل 6 )، سرهای توجه h به ترتیب روی توالی ورودی عمل می کنند و در عمل، تکه های دنباله تصویر به دنباله های h با اندازه تقسیم می شوند . ، و خروجی های h سر توجه مختلف به هم متصل می شوند. در نهایت یک تبدیل خطی برای به دست آوردن خروجی نهایی انجام می شود که به صورت بیان می شود
جایی که،
برای هر MSA، یک شبکه پیشخور (FFN) برای نگاشت غیرخطی دنبال می شود.
با توجه به ویژگی سطح بالا که توسط CNN نشان داده شده است، عملیات توکن سازی ابتدا برای به دست آوردن دنباله های پچ دو بعدی انجام می شود که به صورت مشخص شده اند. ، جایی که اندازه پچ است ، و به معنی طول تکه ها است.
سپس، تکههای سریالسازی شده با استفاده از پیشبینیهای خطی قابل یادگیری در فضای پنهان با ابعاد بالا ( D ) جاسازی میشوند. به طور خاص، ما یک کانولوشن را با a می گیریم اندازه هسته و گام P . برای یادگیری اطلاعات موقعیت پچ، جاسازی موقعیت قابل آموزش را به شرح زیر اضافه کردیم:
جایی که وزن طرح ریزی پچ تعبیه شده است، و موقعیت های مطلق ابعادی فضا-زمان نشانه ها را رمزگذاری می کند.
جفت توکنهای پیشبینیشده خطی به رمزگذار سیامی حاوی بلوکهای رمزگذار ترانسفورماتور هیبریدی متعدد برای تولید بافت معنایی غنیتر در میان تصویر هر زمانی وارد میشود. برای هر بلوک رمزگذار ترانسفورماتور هیبریدی، ورودی فوروارد شده در ابتدا توسط واحد باقیمانده پیشهنجار (PreNorm) [ 8 ] نرمال میشود. سپس، دنباله های خروجی به پرس و جو ( Q )، کلید ( K ) و مقدار ( V ) پیش بینی می شوند. در مرحله بعد، یک عملیات خودتوجهی چند سر هیبریدی (H-MSA) برای محاسبه موازی خودتوجهی ترکیبی اتخاذ میشود ( شکل 7 ). متفاوت از سویین [ 25 ] که گسترده تر می شود در چندین منطقه کوچک، لایه SRA را در PVT [ 24 ] دنبال میکنیم تا یک استراتژی توجه کاهش فضایی ترکیبی را اتخاذ کنیم، تا هزینه محاسباتی را کاهش دهیم و در عین حال اطلاعات معنایی چند دانهبندی را دریافت کنیم. مقایسه بین شیوه های مختلف توجه به خود در شکل 8 نشان داده شده است. به جای اعمال توجه به خود در سراسر جهان بر روی نقشههای ویژگی پاییننمونهشده نهایی یا خودتوجه محلی بر روی نقشههای ویژگی در مقیاس بزرگ در مناطق کوچک تقسیمبندی شده، خودتوجهی ترکیبی ما از تجمع نشانهها در بین چندین جفت کلید-مقدار استفاده میکند، جایی که هر جفت کلید-مقدار است. تولید شده توسط نمونه برداری به اندازه های مختلف. به طور خاص، در هر بلوک b ، K و Vاز سرهای مختلف به عنوان نشان داده شده است
جایی که ، ، و وزن های طرح ریزی خطی قابل یادگیری برای خروجی قبلی هستند در سر من . این یک عملیات تجمیع توکن چند مقیاسی را با نرخ نمونه برداری پایین انجام دهید در سر من . در اینجا، یک لایه پیچشی با اندازه هسته و گام از اجرا می شود. در واقع، مختلف در یک لایه در میان سرهای متعدد، توجه به خود چند مقیاسی محاسبه شده توسط K و V را به ارمغان می آورد . مرحله تقویت محلی است ، پیاده سازی شده توسط یک پیچیدگی عمیق برای V. در مقایسه با ماژول SRA در PVT، رمزگذار ترانسفورماتور اطلاعات طیف فضایی و زمانی درشت و ریزدانه تکمیلی را میآموزد. سر توجه i با محاسبه می شود
جایی که نشان دهنده بعد کانال پیش بینی شده و تابع softmax است. سپس خودتوجهی چند سر ( MSA ) یک عملیات الحاقی را برای ترکیب اطلاعات نمایش از فضاهای ابعاد مختلف انجام می دهد. به طور مشخص،
جایی که ماتریس وزن طرح ریزی خطی است در حالی که h نشان دهنده عدد هد است. این لایه پیشخور برای بازپخش توکن ها است که با نرمال لایه نرمال شده است ( ) در اینجا، ما یک لایه پیشخور بهبود یافته ( DE ) برای تکمیل نمایش های محلی مشخص شده برای جزئیات ارائه می دهیم. همانطور که در شکل 9 ، در مقایسه با سنتی و ، یک لایه DE بین دو لایه کاملاً متصل اضافه می کنیم، بنابراین جزئیات محلی ریز دانه را حفظ می کنیم. و توابع فعالسازی غیرخطی و پیچیدگی قابل تفکیک در عمق هستند. فرمول این است
جایی که و پارامترهای وزن قابل یادگیری هستند .
از بالا، بلوک ترانسفورماتور هیبریدی ما قادر به گرفتن اشیاء در مقیاس های مختلف است. با کنترل نرخ نمونهبرداری پایین r ، میتوانیم با هزینههای محاسباتی کارآمد به عملکرد موجود دست یابیم. به طور خاص، هرچه r بزرگتر باشد، نشانه های کوتاه تر ( ) ادغام می شوند، بنابراین نشانه های معنایی غنی تری برای مناطق بزرگ به شیوه ای سبک تولید می کنند. برعکس، r کوچکتر جزئیات محلی بیشتری را برای اشیاء کوچک حفظ می کند. ادغام چند r در یک بلوک توجه ویژگی های چند دانه بندی را می آموزد. در کارمان، ما H-TE سیامی را با تعداد مختلف بلوکهای ترانسفورماتور هیبریدی میسازیم، و توکنهای معنایی رمزگذاریشده را تولید میکنیم. در میان تصاویر دو زمانی
3.3. رسیور هیبریدی-ترانسفورماتور
در این بخش رمزگشای هیبریدی-ترانسفورماتور بهبود یافته را معرفی می کنیم. عملیات MLP، LayerNorm و خود توجهی در اینجا با رمزگذار ترانسفورماتور هیبریدی یکسان است، به جز اینکه MHA با MA جایگزین شده است.
به منظور گرفتن اطلاعات معنایی متمایز قوی، لایه رمزگشای هیبریدی-ترانسفورماتور (H-TD) حاوی دو ساختار H-TD برای نمایش توکن های کدگذاری شده به فضای پیکسل پیشنهاد شده است، بنابراین ویژگی های تغییر اصلاح شده را تولید می کند. به طور خاص، جفت توکن های پیش بینی شده از جفت ویژگی های اصلی همراه با جفت توکن های کدگذاری شده زمینه به لایه H-TD فرستاده می شوند تا از روابط جداگانه بین هر پیکسل در هر ویژگی و توکن کدگذاری شده مربوطه بهره برداری کنند. ( شکل 10 )، یا تغییر روابط بین هر پیکسل از ویژگی های تفاوت و کد تفاوت رمزگذاری شده ( شکل 11 ).
جفت نشانه های ویژگی داده شده و جفت نشانه زمینه غنی ، اولین ساختار رمزگشا از رمزگشای هیبریدی-ترانسفورماتور سیامی برای به دست آوردن نمایش های رمزگشایی استفاده می کند. برای هر تصویر زمانی، که سپس عملیات تغییر شکل و جایگشت را برای بازیابی به جفت ویژگی های سطح پیکسل نهایی انجام می دهد. . در نهایت، نقشههای ویژگی تمایز تغییر با انجام تفاوت مطلق بین ایجاد میشوند و . متفاوت از اولین تفاوت دیرهنگام ( ) شیوه، دومین تفاوت اولیه ( ) ساختار عملیات تفاوت را در مرحله قبلی انجام می دهد. در عمل، توکن های باقیمانده جفت می شوند و جفت رمزگذاری شده به ترتیب، خروجی هایی را که به طور موثر با H-TD مورد بهره برداری قرار می گیرند، کم کنید. با مدلسازی روابط تفاوت مستقیم، توالی توکن تولید شده یک تبعیض تغییر معنایی در سطح پیکسل را نشان میدهد. عملیات جایگشت و تغییر شکل نیز برای به دست آوردن ویژگی های تغییر سطح بالا انجام می شود.
به طور قابل توجهی، H-TD ما از بلوک N از بلوک رمزگشای ترانسفورماتور ترکیبی تشکیل شده است، که هر کدام از آنها لایههای پیشخور چند سر هیبریدی (H-MA) و DE بهبود یافته را ایجاد میکنند. به جای ایجاد توجه به خود در توکن های رمزگذاری شده، MA به شدت توجه متقابل را بین توکن های رمزگذاری شده و توکن های پردازش نشده اصلی ایجاد می کند. علاوه بر این، هر دو ED و LD به لطف مقادیر متعدد، نمایش های چند مقیاسی را ثبت می کنند ، بنابراین اشیاء با تغییرات کوچک را که توسط مناطق پس زمینه بزرگ احاطه شده اند، می گیرند. ساختار خاص بلوک رمزگشای ترانسفورماتور هیبریدی در شکل 12 نشان داده شده است . تنها تفاوت با بلوک H-TD این است که پرس و جوها در MA از آن مشتق شده اند یا به جای نشانه های خالص . فرمول ها به این صورت تعریف می شوند
برای به دست آوردن نشانه های رمزگشایی شده، فرموله شده به عنوان
مجموعه نشانههای تفاوت رمزگشایی شده در نهایت به ویژگی های سه بعدی آشکار می شود .
3.4. رسیور ویژگی آبشاری
کارهای دید همزمان کارایی ترکیب ویژگی های چند مقیاسی را در لایه های سطح پایین و سطح بالا رمزگذاری شده نشان می دهد. اتصالات پرش در مراحل رمزگشا به شدت جزئیات گم شده ناشی از فرآیندهای نمونه برداری جهانی را کاهش می دهد. در اینجا، ما یک رمزگشای ویژگی آبشاری (CFD) را برای جمعآوری ویژگیهای معنایی با مقیاسهای چندگانه به شیوهای متراکم پیشنهاد میکنیم. همانطور که در شکل 13 ، نقشه های ویژگی بهبود یافته توسط ترانسفورماتور هیبریدی ما از بالاترین لایه ستون فقرات CNN به مقیاس معمولی نمونه برداری می شوند و خروجی همراه با اتصال پرش قبلی به عنوان ورودی بلوک رمزگشای بعدی عمل می کند. ویژگی های مرحله رمزگشای n- ام را می توان به صورت فرموله کرد
جایی که و هستند عملیات پیچیدگی و نمونه برداری به ترتیب. در کار ما، از چهار بلوک رمزگشا برای تولید ویژگیهای رمزگشایی استفاده میشود، که در آن هر بلوک شامل نمونهبرداری با درونیابی دوخطی، الحاق و دو کانولوشن با اندازه هسته است. . برای چند مرحله رمزگشا، شماره کانال رمزگشایی شده است .
تا به حال، نقشههای ویژگی ارتقا یافته را به دست آوردهایم ، که در آن اندازه فضایی با تصویر ورودی یکسان است. برای به دست آوردن نقشه های احتمال تغییر یک هد پیشبینی متشکل از یک پیچش سبک و یک تابع softmax برای ترسیم نتیجه پیشبینی متراکم استفاده میشود، جایی که اندازه هسته کانولوشن برابر است با و padding 1 است. نقشه احتمال پیکسلی در بین هر کانال P نشان دهنده احتمال تغییر یافته و بدون تغییر مربوط به این پیکسل است که در آن مقدار بالاتر تعیین می شود. در مرحله استنتاج، از نظر پیکسلی عملیات برای تولید یک نقشه پیش بینی بصری اتخاذ شده است.
4. آزمایشات
4.1. مجموعه داده ها و جزئیات پیاده سازی
در این کار، ما آزمایشهایی را روی دو مجموعه دادههای تشخیص تغییر تصاویر راه دور HR انجام میدهیم. اولین مورد LEVIR-CD [ 16 ] است که به طور عمومی از Google Earth (GE) جمع آوری شده است که چندین منطقه را در زمان های مختلف (2002 تا 2018) پوشش می دهد. این شامل 637 جفت وصله تصویر موقتی با اندازه است ، که در آن اکثریت بزرگی از تغییرات پوشش زمین بر تغییرات ساختمان ساخته دست بشر متمرکز است. با پیروی از نسبت تقسیم پیشفرض، تصاویر 445:64:128 بهعنوان مجموعه آموزشی/اعتباری/آزمایشی بهدست میآیند. با توجه به مصرف حافظه GPU، تمام تصاویر به تکه های کوچک در اندازه برش داده می شوند . بنابراین، 7120/1024/2048 جفت پچ برای آموزش/اعتبار/آزمایش تولید میشود. دیگری SYSU-CD [ 28 ] است که شامل 20000 جفت تصویر هوایی 0.5/پیکسلی در اندازه است. در بازه زمانی 2007 تا 2014 در هنگ کنگ. متفاوت از سابق، SYSU-CD انواع تغییرات ریزدانه از جمله ساخت و ساز جدید و تخریب ساختمان ها، جایگزینی زمین شهری، تغییرات فصلی در پوشش گیاهی و اقیانوس ها، و گسترش جاده ها را می سازد. تقسیم آموزش/ اعتبارسنجی/تست پیش فرض ۱۲۰۰۰/۴۰۰۰/۴۰۰۰ است.
برای نشان دادن اثربخشی Hybrid-TransCD ما، برخی از مدلهای اساسی برای مقایسه فرسایش تنظیم شدهاند.
-
خط پایه : یک ستون فقرات سبک CNN (ResNet18) با یک زیرشبکه رمزگشای تک سطحی. زیرشبکه رمزگشا شامل چهار بلوک نمونه برداری برای بازیابی تدریجی مقیاس تصویر است و ادغام بین خروجی های متعدد برای پیش بینی نقشه تغییر نهایی استفاده می شود.
-
H-Res-E4-D4-ED-CFD : ستون فقرات CNN با لایه ترانسفورماتور هیبریدی پیشنهادی شامل چهار بلوک H-TE و چهار بلوک H-TD، ساختار رمزگشا ED به عنوان لایه H-TD عمل می کند. در مراحل رمزگشای ویژگی، از رمزگشای ویژگی آبشاری استفاده می شود.
-
H-Res-E4-D4-LD-CFD : همان H-Res-E4-D4-ED-CFD است، با این تفاوت که رمزگشای ED با LD جایگزین شده است.
-
H-Res-E1-D1-ED-CFD : تعداد بلوک H-TE ( M ) و بلوک H-TD ( N ) هر دو به 1 کاهش می یابد.
-
H-Res-E1-D1-LD-CFD : مشابه قبلی است به جز اینکه ساختار رمزگشای ED با LD جایگزین شده است.
-
H-Res-E4-D0-LD-CFD : H-TD پشت H-TE با تنظیم N روی 0 در حالی که M 4 است حذف می شود.
-
H-Res-E0-D4-LD-CFD : H-TE با تنظیم M روی 0 حذف می شود در حالی که چهار H-TD استفاده می شود.
-
H-E4-D4-LD-CFD : متفاوت از موارد فوق، که ویژگی های مبتنی بر CNN و مبتنی بر ترانسفورماتور را ترکیب می کند، ورودی در اینجا مستقیماً توسط شبکه ترانسفورماتور هیبریدی ما پردازش می شود. به طور خاص، تصاویر bitemporal به جای اینکه به صورت خطی پیش بینی می شوند .
-
H-Res-E4-D4-LD-Single : در مقایسه با H-Res-E4-D4-LD-CFD، رمزگشای ویژگی آبشاری برای این ساختار اعمال نمی شود. به طور خاص، نقشههای ویژگی از آخرین مرحله رمزگشا با اتصالات پرش برای تولید ویژگیهای نهایی به هم پیوستهاند.
کار ما توسط PyTorch با یک واحد گرافیکی NVIDIA 3090 با حافظه 24 گیگابایتی پیاده سازی شده است. عملیات افزایش داده های عمومی، از جمله برش، چرخش، چرخش، و تاری گاوسی برای جلوگیری از تطبیق بیش از حد اتخاذ شده است. حل کننده Adam [ 29 ] به عنوان بهینه ساز مدل استفاده می شود و . نرخ یادگیری اولیه 0.0005 است و با توجه به تکرارهای آموزشی به صورت خطی کاهش می یابد. برای هر دو مجموعه داده LEVIR-CD و SYSU-CD، دوره های آموزشی پیش فرض ما 100 است. ResNet ستون فقرات (یعنی ResNet18) یا ترکیبی-ViT در ImageNet از قبل آموزش داده شده اند [ 30 ]. در مرحله آموزش از تابع آنتروپی متقاطع به عنوان تابع ضرر مدل استفاده می کنیم که به صورت تعریف شده است
برای تأیید اثربخشی روش ما، از شش معیار به شرح زیر استفاده می شود:
در جایی که مثبت واقعی ( TP ) تعداد پیکسلهای پیشبینیشده درست را بهعنوان تغییر نشان میدهد، منفی واقعی ( TN ) تعداد پیکسلهای پیشبینیشده درست را بدون تغییر نشان میدهد، مثبت کاذب ( FP ) نشاندهنده تعداد پیکسلهایی است که بهدرستی پیشبینی شدهاند، در حالی که منفی کاذب ( FN ) ) به معنی تعداد پیکسل هایی است که به طور اشتباه بدون تغییر پیش بینی شده اند. به طور جامع دقت و فراخوان را در نظر می گیرد، بنابراین شاخص اصلی را انجام می دهد. علاوه بر این، بیشتر مجموعه دادههای تشخیص تغییر عمومی ذاتاً دارای ویژگیهای نامتعادل کلاس هستند، که مدل را جزئی به یک دسته میکند. از این رو، با جایگزین کردن، شاخص “سوگیری” را جریمه می کند ، به این معنی که هر چه ماتریس سردرگمی نامتعادل تر باشد، p بالاتر و کمتر است ، در نتیجه امتیاز پایینی به مدل با “سوگیری” قوی می دهد.
4.2. مطالعه ابلیشن روشهای موجود
در اینجا، ما روی دو مجموعه داده آزمایش میکنیم تا روش پیشنهادی را با روشهای تشخیص تغییرات اخیر، که شامل مدلهای مبتنی بر CNN، مبتنی بر توجه و مبتنی بر ترانسفورماتور است، مقایسه کنیم. همانطور که در جدول 1 نشان داده شده است ، چهار مورد اول فقط شبکه های عصبی کانولوشن عمیق سرتاسر را بدون در نظر گرفتن زمینه های کلی ویژگی می سازند، جایی که مورد چهارم یک چارچوب شبکه ترکیبی با وضوح چند سطحی پیچیده تر را پیشنهاد می کند. اگرچه U-Net++ به یک بالاتر می رسد (4.22%) و (0.98٪) در مقایسه با FC-Siam-Conc، هزینه محاسباتی نسبتاً زیاد است. Hybrid-TransCD ما با 6.37/1.96/3.58 امتیاز از FC-Siam-Conc بهتر عمل می کند. ، ، و ، در حالی که (99.00٪) به بهبود ناچیز دست می یابد. دو مورد بعدی همه روشهای CD مبتنی بر توجه هستند که در آن DASNet ماژولهای توجه فضایی و توجه کانال را بر اساس یادگیری متریک معرفی میکند، اما برای جفت ویژگیهای دوگانه، از ویژگیهای تغییر نسبتاً متمایز استفاده میشود که منجر به 3.78 امتیاز میشود. و 5.31 امتیاز از در مقایسه با FC-Siam-Conc کاهش یافته است. BiT ابتدا یک ترانسفورماتور را به یک شبکه عمیق تشخیص تغییر معرفی کرد و به بالاترین حد خود دست یافت ، ، و در مقایسه با روش های قبلی مبتنی بر CNN. با این حال، BiT صرفاً ViT یک مقیاس را در یک لایه ترانسفورماتور پذیرفت و باعث ضعیف شدن آن شد (89.24%) و (80.68%) که به ترتیب 1.42% و 0.26% کمتر از U-Net++ هستند. Hybrid-TransCD ما با ViTs ترکیبی برای مدلسازی توجههای چند مقیاسی در هر لایه کار میکند، بنابراین چندین اشیاء در مقیاسهای مختلف در صحنه بهطور مؤثری ثبت میشوند. در مقایسه با U-Net++، روش ما 2.15 امتیاز بهبود یافته است و 0.98 امتیاز از . در مقایسه با روشهای مبتنی بر توجه مانند STANet، وضعیت ما کمی بدتر است 2.3٪، اما (81.92%) و (89.54 درصد) به ترتیب 3.28 و 2.88 امتیاز بالاتر هستند. با توجه به ماهیت با وضوح بالا مناطق تغییر ضمنی ذاتی در این مجموعه داده، همه روشها به بالا دست پیدا میکنند. . نتایج مقایسه بصری LEVIR-CD در شکل 14 نشان داده شده است.
به طور مشابه، نتایج مقایسه کمی SYSU-CD در جدول 2 نشان داده شده است. Hybrid-TransCD ما برتری دارد (80.13%)، IoU (66.84%) و (74.27٪) در میان روش های پیشرفته CD مبتنی بر یادگیری. در مقایسه با شبکه های سبک وزن ذکر شده در سه مورد اول، روش ما در تمام معیارها پیشرفت قابل توجهی پیدا می کند. در مورد مدل بهتر FC-Siam-Conc، امتیاز 3.78/5.09/1.94 در ، و بهبود یافته اند. اگرچه U-Net++ کمی پایین تر به دست آورد (81.36%) که 7.77 امتیاز کمتر از FC-Siam-Diff (89.13%) است. (75.39%) به طور قابل توجهی با 14.18 امتیاز بهبود یافته است. در مقایسه با مدل ما، 1.87 امتیاز از و 4.7 امتیاز از بهبود یافته اند. STANet به بهترین ها دست می یابد (85.33%)، و بسیار کمتر از 12.29 درصد ما است که باعث افت 2.76 واحدی شده است. BiT بهبود یافته است و ، و بهبود در سناریوهای پیچیده هنوز پایدار نیست. نتایج مقایسه بصری در SYSU-CD در شکل 15 نشان داده شده است.
مقایسه بازده محاسباتی الگوریتم های مختلف در جدول 3 نشان داده شده است ، جایی که مدل ما از چهار بلوک کدگذاری ترکیبی و چهار بلوک رمزگشایی ترکیبی استفاده می کند. همانطور که مشاهده می شود، در مقایسه با UNet++، مدل ما تنها 35.31 M پارامتر را افزایش می دهد، اما نتایج بهتری به دست می آوریم. روش مبتنی بر توجه STANet 116.93 M پارامتر را به دلیل عملیات ضرب ماتریس بیشتر مصرف می کند. اگرچه ما فقط پارامترهای 46.97 M را افزایش می دهیم، اما اثر به طور قابل توجهی بهبود یافته است. BiT مدل سنتی ViT را اتخاذ میکند، اما نمایشهای چند مقیاسی را نادیده میگیرد، بنابراین با بهبود توجه چند سر، به ضبط زمینه چند دانهای دست مییابیم و پارامترها تنها 44.72 مگابایت افزایش مییابند.
4.3. مطالعه فرسایش ماژول های پیشنهادی
برای ارزیابی اثربخشی ترانسفورماتور هیبریدی معرفی شده، ساختارهای مدل چندگانه در بخش 4.1 برای آزمایش بر روی دادههای آزمایش مجموعه دادههای LEVIR-CD و SYSU-CD استفاده شد. همانطور که در جدول 4 ، معیارهای لازم شامل ، ، و در بین روش های متعدد آورده شده است. علاوه بر این، تعداد پارامترهای مدل ( ) و هزینه محاسباتی ( ) پیچیدگی ساختار مربوطه را نشان می دهد. با مقایسه سه مورد اول، میتوانیم مشاهده کنیم که هر دو روش رمزگشای ترانسفورماتور ED و LD برای وظیفه CD ما مؤثر هستند، جایی که ED و LD به ترتیب به معنای ساختارهای زودتفاوت و دیرتفاوت رمزگشای هیبریدی-ترانسفورماتور هستند. این نشان می دهد که آیا ستون فقرات ResNet برای نمایش ویژگی های معنایی کم عمق استفاده می شود یا خیر. این اعداد بلوک H-TE و بلوک H-TD را نشان می دهد، که در آن 0 به این معنی است که عملیات ترانسفورماتور برای رمزگذار و رمزگشای مربوطه پذیرفته نمی شود. ما می توانیم مشاهده کنیم که H-Res-E4-D4-ED-CFD به بالاترین سطح دست می یابد ، ، و در هر دو مجموعه داده اما هزینه های محاسباتی کمی بیشتری را اشغال می کند. در مقایسه با پایه، H-Res-E4-D4-LD-CFD با 2.94 و 4.71 امتیاز بهبود یافت. و ، به ترتیب، در حالی که (55.18 G) تقریباً دو برابر شد. با مقایسه H-Res-E4-D4-LD-CFD و H-Res-E1-D1-LD-CFD، بلوک های ترانسفورماتور هیبریدی بیشتر بهبود را به میزان 0.83/0.29 درصد نشان می دهند. و 0.45٪ / 0.41٪ از در LEVIR/SYSU، و مقایسه بین H-Res-E1-D1-ED-CFD و H-Res-E4-D4-ED-CFD مشابه است. با مقایسه H-Res-E4-D4-LD-CFD و H-Res-E0-D4-LD-CFD، H-Res-E4-D4-LD-CFD، و H-Res-E4-D0-LD-CFD به ترتیب، به وضوح ثابت شده است که هر دو H-TE و H-TD می توانند به طور موثر توانایی جذب وابستگی های جهانی مدل ما را بهبود بخشند. علاوه بر این، آزمایش همچنین با روش مدل ترانسفورماتور خالص (H-E4-D4-LD-CFD) بر اساس تصاویر دو زمانی اولیه انجام شد تا اثر ویژگی های استخراج شده توسط CNN را شکاف دهد. این نشان میدهد که ساختار ترانسفورماتور ترکیبی طراحیشده بهشدت ویژگیهای معنایی متمایز را برای بارگذاری وظیفه CD با هزینههای محاسباتی سبکتر نشان میدهد، اما هنوز شکافهایی با ساختار خالص مبتنی بر CNN وجود دارد. سرانجام، روش (H-Res-E4-D4-LD-Single) جایگزینی CFD با یک رمزگشای تک جریانی ساده برای بررسی کارایی CFD انجام شده است. نتایج آزمایش فرسایش تجسمی در نشان داده شده استشکل 16 ، که از آن مشاهده می کنیم که ویژگی های سطح پایین از لایه های کم عمق CNN به شدت با ویژگی های معنایی سطح بالا که توسط ماژول ترانسفورماتور ترکیبی تقویت شده اند، ادغام می شوند. علاوه بر این، بسیاری از صحنههایی که در آن اجسام در مقیاسهای مختلف در هم آمیخته شدهاند، بهعنوان ناحیه تغییر بهطور دقیق متمایز میشوند که استحکام بالای مدل ترانسفورماتور پیشنهادی را نشان میدهد.
از آنجایی که ساختار ترانسفورماتور هیبریدی ما یک استراتژی جدید برای تجمیع توکنهای چند مقیاسی پیشنهاد میکند، مقایسههای عملیات تجمیع توکنهای مختلف در جدول 5 آورده شده است. در مقایسه با توابع تجمع خطی و کانولوشن، عملیات ما با هزینههای محاسباتی مشابه، پیشرفتهای بیشتری را به دست میآورد. به خصوص برای آن اشیاء در مقیاس پیچیده، روش پیشنهادی به طور تطبیقی اطلاعات جهانی و محلی را حفظ می کند. نتایج مقایسه بصری در شکل 17 d,e,h آورده شده است که در آن چهار خط اول و چهار خط آخر نتایج LEVIR-CD و SYSU-CD هستند.
در ViT [ 8 ]، لایه پیشخور به سادگی عملیات MLP را با دو تابع خطی انجام میدهد و باعث غفلت اطلاعات سطح پیکسل میشود. پیچیدگیهای قابل تفکیک عمیق بعدی، قابلیت یکپارچهسازی اطلاعات جهانی را در لایه پیشخور [ 25 ] نشان میدهد، اما هنوز هیچ تعاملی از اطلاعات نشانههای مختلف وجود ندارد. بنابراین، ما آزمایشهایی را روی لایه پیشخور با جزئیات بیشتر انجام میدهیم تا توانایی اطلاعات نشانههای جهانی و محلی را برای تکمیل یکدیگر نشان دهیم. از جدول 6، لایه پیشخور سنتی، لایه پیشخور در عمق و لایه ما با هم مقایسه می شوند. لایه فید فوروارد با جزئیات افزایش یافته عملکرد برتر را در هر دو مجموعه داده به دست می آورد، در حالی که پارامترهای مدل (173.73 M) و FLOPs (55.19 G) با لایه DW-feedforward یکسان هستند. نتایج مقایسه بصری در شکل 17 f-h آورده شده است.
5. بحث
همانطور که پیشنهاد شد، ماژول ترانسفورماتور به شدت ویژگیهای معنایی غنی را نشان میدهد که اشیاء یا مناطق تغییر پیچیده را نشان میدهد، جایی که نشانههای حاوی مفاهیم کلی و محلی به طور موثر توجههای چند مقیاسی را مدلسازی میکنند. علاوه بر این، رمزگشای ویژگی آبشاری، شکاف جبران بین ویژگیهای سطح پایین CNN و ویژگیهای سطح بالا از ترانسفورماتور را تکمیل میکند، بنابراین اطلاعات معنایی دقیق سطح پیکسل را یاد میگیرد. همانطور که در شکل 18 ، ما نقشه های ویژگی دوزمانی تولید شده توسط ترانسفورماتور هیبریدی و مرحله نهایی رمزگشا را در هر دو مجموعه داده تجسم می کنیم، که در آن شکل 18 b، نقشه های توجهی را نشان می دهد که روی نسخه اصلی قرار گرفته اند. و به ترتیب، و شکل 18 h نقشه حرارتی را نشان می دهد . قرمز نشان دهنده ضریب توجه بالاتر و آبی نشان دهنده عامل کمتر است. از شکل 18 می توان مشاهده کرد که ویژگی های تقویت شده توسط ترانسفورماتور هیبریدی به طور فعال نمایش های مربوط به مناطق تغییر را یاد می گیرند. به خصوص برای تغییرات ساختمان در مجموعه داده LEVIR-CD، مدل حتی لبه شیء ظریف را متمایز کرد. اگرچه مجموعه داده SYSU-CD شامل تغییرات گسترده جنگلها و علفزارهای فازی است، مدل همچنان بر تغییرات اصلی، به جز برخی تغییرات چند نمای غیرقابل پیشبینی (به عنوان مثال، سایههای ساختمانها و درختان) بهتر تأکید میکند. برای تجزیه و تحلیل بیشتر اطلاعات معنایی نشانه ها، شکل 18c,f نقشه های توجه نشانه ها را برای تصاویر دوزمانی نشان می دهد. همانطور که مشاهده می شود، این نشانه ها به طور کامل وابستگی های دوربرد وصله های هر تصویر را دریافت می کنند، در نتیجه تغییرات را در دسته ها و مقیاس های مختلف متمایز می کنند، جایی که نوارهایی با رنگ های مختلف نشان دهنده اطلاعات نشانه های مختلف است.
6. نتیجه گیری
در این کار، ما یک شبکه جدید مبتنی بر ترانسفورماتور Hybrid-TransCD برای تشخیص تغییر تصویر سنجش از راه دور HR پیشنهاد میکنیم. در مقایسه با روشهای اولیه مبتنی بر CNN و مبتنی بر توجه، مدل ما بدون افزایش هزینههای محاسباتی سنگین به عملکرد برتر دست یافت. در همین حال، ما یک ساختار ترانسفورماتور هیبریدی را برای گرفتن وابستگیهای زمینه جهانی دانهبندی چندگانه معرفی کردیم. با بهبود ViT و PVT عمومی، ما یک خودتوجهی چند مقیاسی جدید طراحی کردیم، و نشانههایی که جزئیات تغییرات ریز در اشیاء کوچک و اطلاعات مناطق تغییر دانه درشت را نشان میدهند، به صورت ترکیبی جمعآوری میشوند، بنابراین به طور موثر فضایی-طیفی را حفظ میکنند. ویژگی های صحنه های پیچیده دو ساختار رمزگشای هیبریدی-ترانسفورماتور برای انجام یک پس پروجکشن روی توکن های کدگذاری شده پیشنهاد شده است. بنابراین بیشتر به دست آوردن ویژگی های تمایز تفاوت مبتنی بر زمینه. هر دو لایه H-TE و H-TD چندین بار انجام می شوند تا اطلاعات نشانه تفاوت سلسله مراتبی را نشان دهند، جایی که توجه به خود در یک بلوک قادر به گرفتن نمایش های محلی و جهانی با هزینه عملیات ضرب ماتریس سبک است. از آنجایی که ویژگیهای سطح پایین جزئیات بافت غنی را نشان میدهند، ما یک رمزگشای ویژگی آبشاری برای ادغام تدریجی ویژگیهای سطح پایین و ویژگیهای سطح بالا غنی از معنایی در حین بازیابی وضوح ویژگیها طراحی کردیم. آزمایشها روی دو مجموعه داده تشخیص تغییر تصویر از راه دور HR عمومی، کارایی روش ما را نشان میدهد و زمان آموزش در مقایسه با روشهای مبتنی بر یادگیری همزمان بسیار کاهش مییابد.
بدون دیدگاه