هدف روش‌های تشخیص تغییر تصویر سنجش از راه دور نوری (CD) یادگیری یک تصمیم متمایز مناسب با تجزیه و تحلیل اطلاعات ویژگی‌های تصاویر موقتی به‌دست‌آمده در همان مکان است. با این حال، صحنه‌های پیچیده در تصاویر از راه دور با وضوح بالا (HR) باعث نتایج رضایت‌بخش نمی‌شوند، به‌ویژه برای برخی از اشیاء نامنظم و مسدود. اگرچه مدل‌های تشخیص تغییر مبتنی بر خودتوجه اخیر با CNN به اثرات امیدوارکننده‌ای دست می‌یابند، هزینه‌های پارامترهای محاسباتی و مصرف‌شده به‌عنوان یک شکاف غیرقابل عبور برای تصاویر HR ظاهر می‌شوند. در این مقاله، ما از یک ساختار ترانسفورماتور استفاده می‌کنیم که جایگزین توجه به خود می‌شود تا نمایش ویژگی‌های قوی‌تر در هر تصویر را بیاموزیم. علاوه بر این، مدل‌های ترانسفورماتور بینایی همزمان فقط توکن‌های تصویر تک بعدی را در نظر می‌گیرند. بنابراین در ایجاد تعاملات طولانی مدت چند مقیاسی بین ویژگی ها شکست خورده است. در اینجا، ما یک ماژول ترانسفورماتور چند مقیاسی ترکیبی برای تشخیص تغییر تصاویر از راه دور HR پیشنهاد می‌کنیم، که به طور کامل توجه‌های نمایشی را در مقیاس‌های ترکیبی هر تصویر از طریق یک مکانیسم خودتوجهی ریز دانه مدل‌سازی می‌کند. ایده کلیدی ساختار ترانسفورماتور هیبریدی ایجاد نشانه های معنایی ناهمگن حاوی چندین میدان گیرنده است، بنابراین به طور همزمان جسم بزرگ و ویژگی های ریز دانه را حفظ می کند. برای ایجاد روابط بین ویژگی‌ها بدون جاسازی با دنباله‌های نشانه از توکنایزر سیامی، ما همچنین یک لایه رمزگشای ترانسفورماتور اختلاف ترکیبی (HDTD) معرفی کردیم تا وابستگی‌های جهانی چند مقیاسی ویژگی‌های سطح بالا را بیشتر تقویت کنیم. در مقایسه با گرفتن توکن های تک جریانی، لایه HDTD ما به طور مستقیم بر نمایش ویژگی های دیفرانسیل بدون افزایش هزینه محاسباتی نمایی تمرکز می کند. در نهایت، ما یک رمزگشای ویژگی آبشاری (CFD) برای جمع‌آوری ویژگی‌های نمونه‌برداری با ابعاد مختلف با ایجاد اتصالات پرش تفاوت پیشنهاد می‌کنیم. برای ارزیابی اثربخشی روش پیشنهادی، آزمایش‌هایی بر روی دو مجموعه داده CD سنجش از دور HR انجام می‌شود. در مقایسه با روش‌های پیشرفته، Hybrid-TransCD ما در هر دو مجموعه داده (یعنی LEVIR-CD، SYSU-CD) به ترتیب با بهبودهای 0.75% و 1.98% به عملکرد برتر دست یافت. آزمایش‌هایی بر روی دو مجموعه داده سنجش از دور HR انجام شده است. در مقایسه با روش‌های پیشرفته، Hybrid-TransCD ما در هر دو مجموعه داده (یعنی LEVIR-CD، SYSU-CD) به ترتیب با بهبودهای 0.75% و 1.98% به عملکرد برتر دست یافت. آزمایش‌هایی بر روی دو مجموعه داده سنجش از دور HR انجام شده است. در مقایسه با روش‌های پیشرفته، Hybrid-TransCD ما در هر دو مجموعه داده (یعنی LEVIR-CD، SYSU-CD) به ترتیب با بهبودهای 0.75% و 1.98% به عملکرد برتر دست یافت.

کلید واژه ها:

تشخیص تغییر ؛ یادگیری عمیق ؛ ترانسفورماتور ; توجه به خود

1. مقدمه

تشخیص تغییر (CD) متعلق به حوزه مهم تفسیر هوشمند تصاویر سنجش از دور است که با هدف شناسایی تفاوت اشیاء یا صحنه‌ها بین تصاویر توالی چند زمانی، نقش مهمی در نظارت بر پوشش زمین، زمین شهری/معدنی ایفا می‌کند. مدیریت منابع، ارزیابی بلایای طبیعی و غیره [ 1 ]. هدف CD بدست آوردن یک نقشه تغییر سطح پیکسل با تجزیه و تحلیل تصویر سنجش از راه دور دو زمانی ثبت شده است، که در آن به هر پیکسل احتمال تغییر و بدون تغییر اختصاص داده می شود.
روش‌های تشخیص تغییر همزمان عمدتاً به CD سطح پیکسل، سطح معنایی و سطح ویژگی تقسیم می‌شوند. CD سطح پیکسل، پیش‌بینی طبقه‌بندی پیکسل به پیکسل را استنباط می‌کند، که در آن پیکسل‌های بدون تغییر به صورت 0، و پیکسل‌های تغییر یافته به صورت 1 نشان داده می‌شوند [ 2 ، 3 ].]. اگرچه این روش‌ها با اتخاذ برخی مدل‌ها برای حل تکلیف تقسیم‌بندی معنایی به نتایج رقابتی دست یافتند، اما این امر ناگزیر باعث از بین رفتن کامل رابطه مکانی-زمانی بین تصاویر دوزمانی شد. برای روش‌های سطح معنایی، تفاوت موجودیت‌های شی در صحنه برای به دست آوردن اطلاعات تمایز بین تصاویر دو زمانی مقایسه می‌شود، بنابراین مناطق برجسته شامل اشیاء مقیاس بزرگ و کوچک نادیده گرفته می‌شوند. روش‌های CD سطح ویژگی معمولاً مدل‌های مبتنی بر یادگیری را برای نمایش ویژگی‌های تصویر معرفی می‌کنند، که متعاقباً به عنوان معیار برای طبقه‌بندی استفاده شدند [ 4 ، 5 ]]، اما اکثر ساختارهای شبکه به شدت به ویژگی نشان دهنده توانایی لایه‌های مختلف CNN متکی هستند، بنابراین با مدل‌سازی رابطه زمینه در مرحله استخراج ویژگی، این اثر را کاملا نادیده می‌گیرند. اکثر آثار سی دی مدرن از شبکه های عصبی کانولوشنال عمیق (DCNN) برای به دست آوردن نقشه تغییر سطح پیکسل استفاده می کنند، اما بسیاری از آنها فقط از ستون فقرات موثر CNN (یعنی VGG [ 6 ]، ResNet [ 7 ]) برای نشان دادن جفت ویژگی های دوتایی استفاده می کنند. محدود به ساختار شبکه است. اگرچه روش‌های فراوان مکانیسم‌های توجه را برای بهبود زمینه جهانی ویژگی‌ها اتخاذ کردند، کارایی محاسباتی با کاهش قابل توجهی مواجه است. بنابراین، کار ما با معرفی یک ترانسفورماتور یکپارچه‌کننده شبکه سطح ویژگی، یک مدل نظارت شده برای تشخیص تغییرات دودویی معرفی می‌کند.
اگرچه بسیاری از روش‌های مبتنی بر یادگیری عملکرد خوبی را در مجموعه داده‌های عمومی منابع انسانی نشان می‌دهند، دو محدودیت وجود دارد: (1) در صحنه‌های پیچیده، ظاهر شی در تصاویر موقتی سازگار نیست. (2) اندازه گیری تفاوت توسط رفتارهای طیفی چهره دشوار است. همانطور که در شکل 1، اشیاء داخل جعبه چین دار قرمز دارای یک تغییر ذاتی در رنگ و زاویه بصری هستند که منجر به ویژگی های متمایز ناسازگار می شود. در این بین، به دلیل تفاوت های ناشی از تغییرات فصلی، بازنمایی های گسترده تغییرات محلی نامربوط ظاهر می شود. تحت این شرایط، اکثر روش‌های مبتنی بر CNN، مکان‌یابی کامل مناطق مورد نظر تغییر را دشوار می‌دانند. اگرچه بسیاری از روش ها سعی کردند با معرفی انواع مختلف مکانیسم های توجه، مشکل را برطرف کنند، تقریباً همه هزینه های محاسباتی و حافظه سنگینی را مصرف می کنند. ترانسفورماتور بصری به ارث رسیده از ترجمه زبان طبیعی، کارایی محاسباتی مدل‌سازی بافت جهانی را در بسیاری از کارهای بصری بهبود بخشید. با انگیزه ترانسفورماتور بینایی (ViT [ 8])، ما یک لایه مبتنی بر ترانسفورماتور را معرفی می‌کنیم که جایگزین توجه به خود می‌شود تا وابستگی‌های مسافت طولانی هر مجموعه ویژگی‌های زمانی ایجاد شود. با اتصال با رمزگذار ترانسفورماتور، توجه چند سر برای ایجاد تعاملات پچ به پچ درگیر می شود. با این حال، ماژول‌های ترانسفورماتور قبلی فقط دنباله‌های تصویر تعبیه‌شده ثابت را اتخاذ می‌کردند، و نمایش نشانه‌های تصویر چند مقیاسی را نادیده می‌گرفتند، به این معنی که میدان پذیرنده در لایه ترانسفورماتور به اشیاء صحنه معمولی محدود می‌شود، که منجر به یک میدان ضعیف برای صحنه‌های پیچیده می‌شود که اشیا را متفاوت نشان می‌دهد. با اندازه های متنوع علاوه بر این، چنین دانه بندی ویژگی ناقصی در بین هر تصویر زمانی ناگزیر باعث تغییرات نامربوط در مقیاس های مختلف می شود. در این کار، ما یک ساختار ترانسفورماتور هیبریدی را از طریق استراتژی تجمع توکن برای تشخیص تغییر تصویر از راه دور HR پیشنهاد می‌کنیم. که به طور خلاقانه همبستگی ویژگی ها را به صورت درشت دانه و ریزدانه در یک لایه ترانسفورماتور نشان می دهد. به طور خاص، توجهات چند سر در ترانسفورماتور هیبریدی ما به چندین گروه تقسیم می‌شوند که هر کدام حاوی اطلاعات توجه با دانه‌بندی خاص متفاوت است. برای گروه‌های ریز دانه، مقدار کمی از نشانه‌ها حاوی اطلاعات محلی دقیق‌تر جمع‌آوری می‌شوند. برای اکثر گروه‌های درشت دانه باقیمانده، سرهای توجه مربوطه توانایی گرفتن انتخابی اشیاء بزرگ را با جمع‌آوری توکن‌های بزرگ نشان می‌دهند. که هر کدام حاوی اطلاعات توجه با جزئیات خاص متفاوت است. برای گروه‌های ریز دانه، مقدار کمی از نشانه‌ها حاوی اطلاعات محلی دقیق‌تر جمع‌آوری می‌شوند. برای اکثر گروه‌های درشت دانه باقیمانده، سرهای توجه مربوطه توانایی گرفتن انتخابی اشیاء بزرگ را با جمع‌آوری توکن‌های بزرگ نشان می‌دهند. که هر کدام حاوی اطلاعات توجه با جزئیات خاص متفاوت است. برای گروه‌های ریز دانه، مقدار کمی از نشانه‌ها حاوی اطلاعات محلی دقیق‌تر جمع‌آوری می‌شوند. برای اکثر گروه‌های درشت دانه باقیمانده، سرهای توجه مربوطه توانایی گرفتن انتخابی اشیاء بزرگ را با جمع‌آوری توکن‌های بزرگ نشان می‌دهند.
روش‌های CD مبتنی بر اواخر فیوژن [ 9 ، 10 ، 11] عملیات الحاق کانال یا تفاوت سطح فضایی را در ترکیب جفت ویژگی اعمال کرد، بنابراین نقشه‌های ویژگی معنایی سطح بالا را تولید کرد. در خط مبنا پیشنهادی ما، دو روش، به نام‌های Late-Diff (LD) و Early-Diff (ED)، برای تولید ویژگی‌های متمایز که با توجه به خود تقویت می‌شوند، پیشنهاد شده‌اند: (1) نشانه‌های متوالی دوجفتی از یک رمزگذار هیبریدی ترانسفورماتور. H-TE) دنبال می شوند، توسط یک رمزگشای هیبریدی-ترانسفورماتور سیامی (H-TD) دوباره طرح ریزی می شوند، و جفت توکن تولید شده با یک عملیات تفاوت مطلق انجام می شود. (2) روش ED به جای بازپخش جداگانه در هر توکن موقتاً کدگذاری شده از H-TE قبلی با H-TD، بین جفت توکن تقویت شده در مرحله اولیه برای به دست آوردن مستقیم ویژگی‌های تفاوت متمایز که باید بازپخش شوند، تمایز قائل می‌شود.
برای بازیابی کامل وضوح ویژگی در رمزگشا، روش‌های قبلی [ 12 ] بر افزودن اتصالات پرش از ویژگی‌های لایه کم عمق به لایه‌های سطح بالا متمرکز بودند، بنابراین ویژگی‌هایی حاوی بافت دقیق و اطلاعات معنایی بسیار معرف به دست می‌آیند. U-Net++ [ 13 ] یک استراتژی همجوشی چند جانبه را برای ایجاد نقشه‌های تغییر معنایی چند سطحی متراکم اتخاذ کرد، اما با این وجود پیچیدگی محاسباتی بالایی را اشغال کرد. مرجع [ 14] یک ماژول انتخاب مقیاس را برای جمع‌آوری تطبیقی ​​نقشه‌های نهایی از سطوح مختلف ویژگی‌ها پیشنهاد کرد. با این حال، جزئیات تغییر گسترده همراه با مراحل نمونه‌برداری پیشرونده در رمزگشا نادیده گرفته می‌شوند، بنابراین یک رمزگشای ویژگی آبشاری برای کاهش عدم وجود نمایش‌های مقیاس مختلف پیشنهاد شد.
به طور کلی، در این کار، ما یک شبکه ترانسفورماتور تصویر دوزمانی بهبود یافته را برای مدل‌سازی بافت دوربرد در تصویر دو زمانی به شیوه‌ای چند مقیاسی معرفی می‌کنیم. نکته کلیدی این است که نمایش‌های سطح بالا از تغییرات مرتبط را می‌توان در کلمات بصری سریالی نشان داد. مشارکت های ما را می توان به شرح زیر خلاصه کرد:
(1) ما یک شبکه تشخیص تغییر مبتنی بر ترانسفورماتور (Hybrid-TransCD) پیشنهاد کردیم که محاسبات بسیار پیچیده ناشی از توجه اولیه را به طور کامل کاهش می دهد. فعل و انفعالات دوربرد ثبت شده توسط ماژول ترانسفورماتور، نمایش ویژگی های تقویت شده را ارتقا داد.
(2) یک رمزگذار ترانسفورماتور ترکیبی (H-TE) و یک رمزگشای ترانسفورماتور هیبریدی (H-TD) برای تولید نشانه‌های تفاوت قوی‌تر (ویژگی‌ها) طراحی شده‌اند، که هر دو زمینه توکن‌های چند مقیاسی را در یک توجه به خود جلب می‌کنند. مسدود کردن از طریق تجمع توکن ساختار ترانسفورماتور پیشنهادی، توکن‌های سلسله مراتبی را در میان مناطق با مقیاس بزرگ و اشیاء در مقیاس کوچک ادغام می‌کند و در عین حال هزینه‌های محاسباتی و حافظه سبک را حفظ می‌کند.
(3) با ایجاد روابط بین دنباله‌های رمز رمزگذاری‌شده و توکن باقی‌مانده اصلی، ما دو روش را برای نمایش ویژگی‌های متمایز بین تصاویر موقتی پیشنهاد کردیم، که هر دو زمینه تفاوت امیدوارکننده حاوی اطلاعات چند دانه‌بندی را به تصویر می‌کشند. در مقایسه با سی‌ان‌ان سنتی که ویژگی‌ها را در مرحله نهایی برای تولید ویژگی‌های دیفرانسیل ترکیب می‌کند، ساختارهای طراحی‌شده ما لایه ترانسفورماتور را بهبود می‌بخشند به طوری که ویژگی‌های متمایز را می‌توان مستقیماً هنگام مدل‌سازی بافت زمانی مکانی به دست آورد.
(4) برای استفاده از ویژگی های درشت دانه و ریزدانه غنی تر در میان لایه های بلند و کم عمق، یک رمزگشای ویژگی آبشاری برای دستیابی به پیش بینی تغییرات متراکم معرفی شد.
(5) آزمایش‌های فراوان نشان می‌دهد که رویکرد پیشنهادی بهتر از سایر روش‌های تشخیص تغییر مبتنی بر توجه و یادگیری در مورد و هزینه پارامترها به طور خاص، در مقایسه با روش‌های پیشرفته، به‌ترتیب در مجموعه داده‌های LEVIR-CD و SYSU-CD به بهبودی 0.75 و 1.98 امتیازی دست یافتیم.

2. کارهای مرتبط

2.1. روش های مبتنی بر توجه

اخیراً، مدل‌سازی زمینه جهانی و درک وابستگی‌های دوربرد توجه فزاینده‌ای را در تشخیص تغییر تصویر سنجش از دور به خود جلب کرده است و بسیاری از مکانیسم‌های مبتنی بر توجه، از جمله توجه کانال، توجه فضایی، و توجه به خود، به تدریج در موارد چندگانه اعمال می‌شوند. مدل سازی همبستگی مکانی-زمانی زمانی [ 15 ، 16 ، 17 ]. با این حال، این روش ها فقط زمینه دوربرد هر تصویر زمانی را به طور جداگانه ایجاد می کنند، یا مستقیماً تصویر ذوب شده اولیه را با وزن دهی مجدد در فضاهای فضایی و کانالی به روز می کنند. برخی از آثار [ 18 ، 19] عملکرد امیدوارکننده‌ای را با عملیات متراکم غیرمحلی برای ایجاد همبستگی تفاوت معنایی پیکسل به پیکسل بین تصاویر دوزمانی به دست آورد، اما اکثریت هزینه‌های محاسباتی/حافظه را بارگذاری کرده‌اند که باعث ایجاد یک فرآیند یادگیری ناکارآمد برای تصاویر سنجش از راه دور HR می‌شود. Zhang [ 20 ] اشاره کرد که روش‌های تشخیص تغییر مبتنی بر یادگیری عمیق فعلی محدودیت‌های خاصی در ترکیب و نظارت عمیق دارند، بنابراین آنها یک شبکه ترکیبی تصویر تحت نظارت عمیق با معماری دو شاخه را پیشنهاد کردند، که توانایی تشخیص تفاوت‌ها را بهبود می‌بخشد. قرار دادن یک ماژول توجه فضایی و یک ماژول توجه کانال در لایه های ویژگی چند سطحی. رضا [ 21] استراتژی‌های همجوشی نهایی را بر اساس توجه فضایی/کانالی با تکرار چندین بار پیشنهاد کرد، بنابراین برای اصلاح ویژگی‌های چند مقیاسی عمل کرد.

2.2. ویژن ترانسفورماتور

با انگیزه ViT، BiT [ 22 ] ابتدا یک شبکه ترانسفورماتور تصویر دوزمانی را برای مدل‌سازی موثر بافت‌های زمانی- مکانی پیشنهاد کرد، که به طور خلاقانه توانایی افزایش را با ترکیب یک CNN و یک ترانسفورماتور ثابت کرد. TransCD [ 23 ] محدودیت میدان دریافت محلی شبکه های CNN سنتی را در نظر گرفت، بنابراین آنها یک ترانسفورماتور بینایی سیامی (SViT) را در چارچوب SCD تفاوت ویژگی برای حل وظیفه تشخیص تغییر صحنه گنجانیدند. با این حال، این چارچوب های CD مبتنی بر ترانسفورماتور ذکر شده صرفاً قادر به گرفتن وابستگی های متقابل جهانی اشیاء تک مقیاس در هر لایه ترانسفورماتور هستند، که تمایل به از دست دادن استحکام در صحنه های فضایی غنی از تصاویر سنجش از دور دارند.
مدل های جدید ترانسفورماتور بینایی همه کاره مانند PVT [ 24 ] و ترانسفورماتور swin [ 25 ]] راه‌حل‌های مؤثری برای هزینه‌های محاسباتی سنگین موجود در شبکه‌های مبتنی بر ترانسفورماتور خالص ارائه کرد: اولی در نظر داشت ویژگی‌های با وضوح بالا را با جایگزینی وصله‌های تصویر درشت دانه با وصله‌های ریزدانه نشان دهد و طول توکن‌ها متعاقبا کاهش یافت و یک هرم پیشرونده را اتخاذ کرد. استراتژی دومی یک ساختار سلسله مراتبی را برای کاهش هزینه محاسباتی سنگین موجود در خودتوجهی سطح نشانه معرفی کرد و روش پنجره‌های تغییر یافته تعامل بین گروه‌های پچ مجاور را تسهیل می‌کند. اگرچه هر دوی آنها هزینه‌های محاسباتی و حافظه ناشی از نقشه‌های ویژگی با وضوح بالا را کاهش می‌دهند، بلوک‌های رمزگذار ترانسفورماتور یا صرفاً بافت محلی را در منطقه باریک مدل‌سازی می‌کنند یا اطلاعات ریزدانه مخلوطی را بین اشیا و پس‌زمینه‌های نامربوط ضبط می‌کنند. برای رفع محدودیت های فوق، ما یک ساختار ترانسفورماتور ترکیبی را برای حفظ وابستگی‌های جهانی چند دانه‌ای در میان جفت‌های توکن پیش‌بینی‌شده معرفی می‌کنیم، بنابراین بازنمایی‌های تفاوت بین تصاویر موقتی را برای اجسام بزرگ و کوچک به دست می‌آوریم. مقایسه اثر در نشان داده شده استشکل 2 .
کارهای دیگر [ 26 ] با ساختن خود توجهی متقابل پیشرونده در یک لایه، یا ترکیبی از توجه وصله به ساخت میدان دریافت سلسله مراتبی (RF) برهمکنش های ویژگی های چند مقیاسی ایجاد کردند [ 27 ]]. آنها ویژگی های چند دانه بندی را به قیمت افزایش شاخه های اضافی برای وصله های در مقیاس بزرگ نشان می دهند که باعث کارایی محاسباتی در عین حال ناقص می شود. در این کار، ما یک ماژول ترانسفورماتور تشخیص تغییر دید ترکیبی را برای تقویت نه تنها مناطق تغییر بزرگ (به عنوان مثال، ساختمان) بلکه همچنین اجسام کوچک (مانند ماشین) طراحی می‌کنیم. به طور قابل توجهی، ما دو ماژول مبتنی بر ترانسفورماتور (رمزگذار ترانسفورماتور و رمزگشای ترانسفورماتور تفاوت) را برای مدل‌سازی بافت معنایی نشانه‌های دوزمانی و نشانه‌های تفاوت سطح پیکسل پیشنهاد می‌کنیم، که هر دو با تعداد مختلف ( N و M ) ترانسفورماتور ترکیبی تشکیل شده‌اند. بلوک ها

3. مواد و روشها

3.1. نمای کلی شبکه

مشابه بیشتر روش‌های همجوشی دیررس، روش پیشنهادی یک نقشه ویژگی تفاوت متمایز را در بالاترین لایه ایجاد می‌کند، به این معنی که جفت ویژگی‌های استخراج‌شده از ستون فقرات CNN ابتدا توسط ترانسفورماتور هیبریدی افزایش می‌یابد. سپس، نقشه‌های ویژگی تفاوت تولید شده برای بازیابی نمایش تغییر زمینه با اندازه اولیه به رمزگشا ارسال می‌شوند. به طور قابل توجهی متفاوت از خط لوله عمومی CD، که ویژگی‌های ترکیب شده تصاویر دوتایی از بالاترین لایه را به عنوان نمایش معنایی تغییر در نظر می‌گیرد، در اینجا، ساختار ترانسفورماتور را برای به دست آوردن ویژگی‌های متمایز در سطح پیکسل با جفت توکن‌های فشرده، وارد مرحله ترکیب ویژگی‌ها کردیم.
جریان کلی شبکه در شکل 3 نشان داده شده است . یک ماژول ترانسفورماتور هیبریدی در خط لوله عمومی مبتنی بر CNN گنجانده شده است تا از یک جفت ویژگی دوزمانی پیچیده استخراج شده توسط ستون فقرات سیامی که به صورت بیان شده است استفاده کند. ، و زمینه جهانی توسط ترانسفورماتور افزایش می یابد، بنابراین یک جفت رمز رمزگذاری شده ایجاد می شود ، که در آن P نشان دهنده شماره وصله جاسازی شده است، در حالی که D نشان دهنده پارامتر از پیش تعریف شده ابعاد پنهان نشانه است که باید پیش بینی شود.
به طور خاص، با توجه به هر ویژگی زمانی، یک رمزگذار ترانسفورماتور هیبریدی (H-TE) برای ساختن پچ‌های درشت دانه و ریزدانه استفاده می‌شود. جفت نشانه های معنایی تولید شده همراه با تعبیه‌های پچ باقی‌مانده مربوطه به لایه رمزگشای هیبریدی-ترانسفورماتور (H-DE) فرستاده می شوند تا وابستگی بین نشانه های معنایی رمزگذاری شده و ویژگی های اصلی در سطح پیکسل، نشانه های تفاوت ایجاد شده را افزایش دهند. متعاقباً به یک تانسور ویژگی-بعدی که به صورت نمایش داده می‌شود، بازیابی می‌شوند با انجام عملیات جایگشت و تغییر شکل، که در آن D تعداد از پیش تعریف شده کانال های پنهان است. از آنجایی که تفاوت مطلق ابتدا از جفت رمز کدگذاری شده گرفته می شود و سپس رمزگشایی می شود (تفاوت اولیه)، یا جفت نشانه ابتدا رمزگشایی می شود و سپس ایجاد می شود (تفاوت دیر)، ویژگی های تولید شده حاوی اطلاعات تغییرات معنایی فراوانی هستند. متعاقباً، ویژگی‌های ذوب شده همراه با اتصالات پرش از ستون فقرات CNN برای بازیابی وضوح اصلی توسط رمزگشای ویژگی آبشاری پیشنهادی نمونه‌برداری می‌شوند. سر پیش بینی متشکل از a پیچیدگی برای ایجاد یک نقشه احتمال تغییر پیش‌بینی‌شده استفاده می‌شود .
به طور قابل توجهی، ResNet ترکیبی [ 7 ]، به جای یک استخراج کننده ترانسفورماتور خالص، برای اعمال نفوذ قدرت ترانسفورماتور CNN استفاده می شود. H-TE سیامی توسط یک بلوک ترانسفورماتور رمزگذار ترکیبی چندگانه ( M ) ساخته شده است در حالی که H-TD از بلوک های ترانسفورماتور رمزگشای هیبریدی N تشکیل شده است ، بنابراین بازده محاسباتی مناسب را تثبیت می کند.

3.2. رمزگذار هیبریدی-ترانسفورماتور

به عنوان جزء اصلی ViT، ماژول رمزگذار ترانسفورماتور برای استخراج ویژگی های تصویر استفاده می شود. به طور خاص، تصویر دو بعدی اصلی به دنباله جاسازی یک بعدی، یعنی ورودی تبدیل می شود. به ترتیب بلوک های اندازه تقسیم می شود ، و طول دنباله است . در همان زمان، جاسازی موقعیت برای رمزگذاری اطلاعات موقعیت نشانه ها، اجتناب از مدل، برای یادگیری اطلاعات موقعیت مطلق با معنایی پچ های تصویر، اضافه می شود. همانطور که از شکل 4 مشاهده می شود ، رمزگذار ترانسفورماتور شامل یک توجه چند سر (MHA)، دو لایه نرمال سازی (Norm) و یک لایه پرسپترون چند لایه (MLP) است که با توجه محصول نقطه مقیاس شده، همانطور که در شکل نشان داده شده است، عمل می کند. 5 . پرس و جو، کلید و مقدار توسط پیچیدگی، که در آن کلید و مقدار جفت می شوند. با توجه به خود توجهی، حاصلضرب داخلی با تطبیق k بردارهای کلیدی محاسبه می شود ( ) با بردار پرس و جو ( ) که سپس توسط نرمال می شود . برای MHA توجه چند سر ( شکل 6 )، سرهای توجه h به ترتیب روی توالی ورودی عمل می کنند و در عمل، تکه های دنباله تصویر به دنباله های h با اندازه تقسیم می شوند . ، و خروجی های h سر توجه مختلف به هم متصل می شوند. در نهایت یک تبدیل خطی برای به دست آوردن خروجی نهایی انجام می شود که به صورت بیان می شود

جایی که،

برای هر MSA، یک شبکه پیشخور (FFN) برای نگاشت غیرخطی دنبال می شود.
با توجه به ویژگی سطح بالا که توسط CNN نشان داده شده است، عملیات توکن سازی ابتدا برای به دست آوردن دنباله های پچ دو بعدی انجام می شود که به صورت مشخص شده اند. ، جایی که اندازه پچ است ، و به معنی طول تکه ها است.

سپس، تکه‌های سریال‌سازی شده با استفاده از پیش‌بینی‌های خطی قابل یادگیری در فضای پنهان با ابعاد بالا ( D ) جاسازی می‌شوند. به طور خاص، ما یک کانولوشن را با a می گیریم اندازه هسته و گام P . برای یادگیری اطلاعات موقعیت پچ، جاسازی موقعیت قابل آموزش را به شرح زیر اضافه کردیم:

جایی که وزن طرح ریزی پچ تعبیه شده است، و موقعیت های مطلق ابعادی فضا-زمان نشانه ها را رمزگذاری می کند.

جفت توکن‌های پیش‌بینی‌شده خطی به رمزگذار سیامی حاوی بلوک‌های رمزگذار ترانسفورماتور هیبریدی متعدد برای تولید بافت معنایی غنی‌تر در میان تصویر هر زمانی وارد می‌شود. برای هر بلوک رمزگذار ترانسفورماتور هیبریدی، ورودی فوروارد شده در ابتدا توسط واحد باقیمانده پیش‌هنجار (PreNorm) [ 8 ] نرمال می‌شود. سپس، دنباله های خروجی به پرس و جو ( Q )، کلید ( K ) و مقدار ( V ) پیش بینی می شوند. در مرحله بعد، یک عملیات خودتوجهی چند سر هیبریدی (H-MSA) برای محاسبه موازی خودتوجهی ترکیبی اتخاذ می‌شود ( شکل 7 ). متفاوت از سویین [ 25 ] که گسترده تر می شود در چندین منطقه کوچک، لایه SRA را در PVT [ 24 ] دنبال می‌کنیم تا یک استراتژی توجه کاهش فضایی ترکیبی را اتخاذ کنیم، تا هزینه محاسباتی را کاهش دهیم و در عین حال اطلاعات معنایی چند دانه‌بندی را دریافت کنیم. مقایسه بین شیوه های مختلف توجه به خود در شکل 8 نشان داده شده است. به جای اعمال توجه به خود در سراسر جهان بر روی نقشه‌های ویژگی پایین‌نمونه‌شده نهایی یا خودتوجه محلی بر روی نقشه‌های ویژگی در مقیاس بزرگ در مناطق کوچک تقسیم‌بندی شده، خودتوجهی ترکیبی ما از تجمع نشانه‌ها در بین چندین جفت کلید-مقدار استفاده می‌کند، جایی که هر جفت کلید-مقدار است. تولید شده توسط نمونه برداری به اندازه های مختلف. به طور خاص، در هر بلوک b ، K و Vاز سرهای مختلف به عنوان نشان داده شده است

جایی که ، ، و وزن های طرح ریزی خطی قابل یادگیری برای خروجی قبلی هستند در سر من . این یک عملیات تجمیع توکن چند مقیاسی را با نرخ نمونه برداری پایین انجام دهید در سر من . در اینجا، یک لایه پیچشی با اندازه هسته و گام از اجرا می شود. در واقع، مختلف در یک لایه در میان سرهای متعدد، توجه به خود چند مقیاسی محاسبه شده توسط K و V را به ارمغان می آورد . مرحله تقویت محلی است ، پیاده سازی شده توسط یک پیچیدگی عمیق برای V. در مقایسه با ماژول SRA در PVT، رمزگذار ترانسفورماتور اطلاعات طیف فضایی و زمانی درشت و ریزدانه تکمیلی را می‌آموزد. سر توجه i با محاسبه می شود

جایی که نشان دهنده بعد کانال پیش بینی شده و تابع softmax است. سپس خودتوجهی چند سر ( MSA ) یک عملیات الحاقی را برای ترکیب اطلاعات نمایش از فضاهای ابعاد مختلف انجام می دهد. به طور مشخص،

جایی که ماتریس وزن طرح ریزی خطی است در حالی که h نشان دهنده عدد هد است. این لایه پیشخور برای بازپخش توکن ها است که با نرمال لایه نرمال شده است ( ) در اینجا، ما یک لایه پیشخور بهبود یافته ( DE ) برای تکمیل نمایش های محلی مشخص شده برای جزئیات ارائه می دهیم. همانطور که در شکل 9 ، در مقایسه با سنتی و ، یک لایه DE بین دو لایه کاملاً متصل اضافه می کنیم، بنابراین جزئیات محلی ریز دانه را حفظ می کنیم. و توابع فعال‌سازی غیرخطی و پیچیدگی قابل تفکیک در عمق هستند. فرمول این است

جایی که و پارامترهای وزن قابل یادگیری هستند .

از بالا، بلوک ترانسفورماتور هیبریدی ما قادر به گرفتن اشیاء در مقیاس های مختلف است. با کنترل نرخ نمونه‌برداری پایین r ، می‌توانیم با هزینه‌های محاسباتی کارآمد به عملکرد موجود دست یابیم. به طور خاص، هرچه r بزرگتر باشد، نشانه های کوتاه تر ( ) ادغام می شوند، بنابراین نشانه های معنایی غنی تری برای مناطق بزرگ به شیوه ای سبک تولید می کنند. برعکس، r کوچکتر جزئیات محلی بیشتری را برای اشیاء کوچک حفظ می کند. ادغام چند r در یک بلوک توجه ویژگی های چند دانه بندی را می آموزد. در کارمان، ما H-TE سیامی را با تعداد مختلف بلوک‌های ترانسفورماتور هیبریدی می‌سازیم، و توکن‌های معنایی رمزگذاری‌شده را تولید می‌کنیم. در میان تصاویر دو زمانی

3.3. رسیور هیبریدی-ترانسفورماتور

در این بخش رمزگشای هیبریدی-ترانسفورماتور بهبود یافته را معرفی می کنیم. عملیات MLP، LayerNorm و خود توجهی در اینجا با رمزگذار ترانسفورماتور هیبریدی یکسان است، به جز اینکه MHA با MA جایگزین شده است.
به منظور گرفتن اطلاعات معنایی متمایز قوی، لایه رمزگشای هیبریدی-ترانسفورماتور (H-TD) حاوی دو ساختار H-TD برای نمایش توکن های کدگذاری شده به فضای پیکسل پیشنهاد شده است، بنابراین ویژگی های تغییر اصلاح شده را تولید می کند. به طور خاص، جفت توکن های پیش بینی شده از جفت ویژگی های اصلی همراه با جفت توکن های کدگذاری شده زمینه به لایه H-TD فرستاده می شوند تا از روابط جداگانه بین هر پیکسل در هر ویژگی و توکن کدگذاری شده مربوطه بهره برداری کنند. ( شکل 10 )، یا تغییر روابط بین هر پیکسل از ویژگی های تفاوت و کد تفاوت رمزگذاری شده ( شکل 11 ).
جفت نشانه های ویژگی داده شده و جفت نشانه زمینه غنی ، اولین ساختار رمزگشا از رمزگشای هیبریدی-ترانسفورماتور سیامی برای به دست آوردن نمایش های رمزگشایی استفاده می کند. برای هر تصویر زمانی، که سپس عملیات تغییر شکل و جایگشت را برای بازیابی به جفت ویژگی های سطح پیکسل نهایی انجام می دهد. . در نهایت، نقشه‌های ویژگی تمایز تغییر با انجام تفاوت مطلق بین ایجاد می‌شوند و . متفاوت از اولین تفاوت دیرهنگام ( ) شیوه، دومین تفاوت اولیه ( ) ساختار عملیات تفاوت را در مرحله قبلی انجام می دهد. در عمل، توکن های باقیمانده جفت می شوند و جفت رمزگذاری شده به ترتیب، خروجی هایی را که به طور موثر با H-TD مورد بهره برداری قرار می گیرند، کم کنید. با مدل‌سازی روابط تفاوت مستقیم، توالی توکن تولید شده یک تبعیض تغییر معنایی در سطح پیکسل را نشان می‌دهد. عملیات جایگشت و تغییر شکل نیز برای به دست آوردن ویژگی های تغییر سطح بالا انجام می شود.

به طور قابل توجهی، H-TD ما از بلوک N از بلوک رمزگشای ترانسفورماتور ترکیبی تشکیل شده است، که هر کدام از آنها لایه‌های پیشخور چند سر هیبریدی (H-MA) و DE بهبود یافته را ایجاد می‌کنند. به جای ایجاد توجه به خود در توکن های رمزگذاری شده، MA به شدت توجه متقابل را بین توکن های رمزگذاری شده و توکن های پردازش نشده اصلی ایجاد می کند. علاوه بر این، هر دو ED و LD به لطف مقادیر متعدد، نمایش های چند مقیاسی را ثبت می کنند ، بنابراین اشیاء با تغییرات کوچک را که توسط مناطق پس زمینه بزرگ احاطه شده اند، می گیرند. ساختار خاص بلوک رمزگشای ترانسفورماتور هیبریدی در شکل 12 نشان داده شده است . تنها تفاوت با بلوک H-TD این است که پرس و جوها در MA از آن مشتق شده اند یا به جای نشانه های خالص . فرمول ها به این صورت تعریف می شوند

برای به دست آوردن نشانه های رمزگشایی شده، فرموله شده به عنوان

مجموعه نشانه‌های تفاوت رمزگشایی شده در نهایت به ویژگی های سه بعدی آشکار می شود .

3.4. رسیور ویژگی آبشاری

کارهای دید همزمان کارایی ترکیب ویژگی های چند مقیاسی را در لایه های سطح پایین و سطح بالا رمزگذاری شده نشان می دهد. اتصالات پرش در مراحل رمزگشا به شدت جزئیات گم شده ناشی از فرآیندهای نمونه برداری جهانی را کاهش می دهد. در اینجا، ما یک رمزگشای ویژگی آبشاری (CFD) را برای جمع‌آوری ویژگی‌های معنایی با مقیاس‌های چندگانه به شیوه‌ای متراکم پیشنهاد می‌کنیم. همانطور که در شکل 13 ، نقشه های ویژگی بهبود یافته توسط ترانسفورماتور هیبریدی ما از بالاترین لایه ستون فقرات CNN به مقیاس معمولی نمونه برداری می شوند و خروجی همراه با اتصال پرش قبلی به عنوان ورودی بلوک رمزگشای بعدی عمل می کند. ویژگی های مرحله رمزگشای n- ام را می توان به صورت فرموله کرد

جایی که و هستند عملیات پیچیدگی و نمونه برداری به ترتیب. در کار ما، از چهار بلوک رمزگشا برای تولید ویژگی‌های رمزگشایی استفاده می‌شود، که در آن هر بلوک شامل نمونه‌برداری با درون‌یابی دوخطی، الحاق و دو کانولوشن با اندازه هسته است. . برای چند مرحله رمزگشا، شماره کانال رمزگشایی شده است .

تا به حال، نقشه‌های ویژگی ارتقا یافته را به دست آورده‌ایم ، که در آن اندازه فضایی با تصویر ورودی یکسان است. برای به دست آوردن نقشه های احتمال تغییر یک هد پیش‌بینی متشکل از یک پیچش سبک و یک تابع softmax برای ترسیم نتیجه پیش‌بینی متراکم استفاده می‌شود، جایی که اندازه هسته کانولوشن برابر است با و padding 1 است. نقشه احتمال پیکسلی در بین هر کانال P نشان دهنده احتمال تغییر یافته و بدون تغییر مربوط به این پیکسل است که در آن مقدار بالاتر تعیین می شود. در مرحله استنتاج، از نظر پیکسلی عملیات برای تولید یک نقشه پیش بینی بصری اتخاذ شده است.

4. آزمایشات

4.1. مجموعه داده ها و جزئیات پیاده سازی

در این کار، ما آزمایش‌هایی را روی دو مجموعه داده‌های تشخیص تغییر تصاویر راه دور HR انجام می‌دهیم. اولین مورد LEVIR-CD [ 16 ] است که به طور عمومی از Google Earth (GE) جمع آوری شده است که چندین منطقه را در زمان های مختلف (2002 تا 2018) پوشش می دهد. این شامل 637 جفت وصله تصویر موقتی با اندازه است ، که در آن اکثریت بزرگی از تغییرات پوشش زمین بر تغییرات ساختمان ساخته دست بشر متمرکز است. با پیروی از نسبت تقسیم پیش‌فرض، تصاویر 445:64:128 به‌عنوان مجموعه آموزشی/اعتباری/آزمایشی به‌دست می‌آیند. با توجه به مصرف حافظه GPU، تمام تصاویر به تکه های کوچک در اندازه برش داده می شوند . بنابراین، 7120/1024/2048 جفت پچ برای آموزش/اعتبار/آزمایش تولید می‌شود. دیگری SYSU-CD [ 28 ] است که شامل 20000 جفت تصویر هوایی 0.5/پیکسلی در اندازه است. در بازه زمانی 2007 تا 2014 در هنگ کنگ. متفاوت از سابق، SYSU-CD انواع تغییرات ریزدانه از جمله ساخت و ساز جدید و تخریب ساختمان ها، جایگزینی زمین شهری، تغییرات فصلی در پوشش گیاهی و اقیانوس ها، و گسترش جاده ها را می سازد. تقسیم آموزش/ اعتبارسنجی/تست پیش فرض ۱۲۰۰۰/۴۰۰۰/۴۰۰۰ است.
برای نشان دادن اثربخشی Hybrid-TransCD ما، برخی از مدل‌های اساسی برای مقایسه فرسایش تنظیم شده‌اند.
  • خط پایه : یک ستون فقرات سبک CNN (ResNet18) با یک زیرشبکه رمزگشای تک سطحی. زیرشبکه رمزگشا شامل چهار بلوک نمونه برداری برای بازیابی تدریجی مقیاس تصویر است و ادغام بین خروجی های متعدد برای پیش بینی نقشه تغییر نهایی استفاده می شود.
  • H-Res-E4-D4-ED-CFD : ستون فقرات CNN با لایه ترانسفورماتور هیبریدی پیشنهادی شامل چهار بلوک H-TE و چهار بلوک H-TD، ساختار رمزگشا ED به عنوان لایه H-TD عمل می کند. در مراحل رمزگشای ویژگی، از رمزگشای ویژگی آبشاری استفاده می شود.
  • H-Res-E4-D4-LD-CFD : همان H-Res-E4-D4-ED-CFD است، با این تفاوت که رمزگشای ED با LD جایگزین شده است.
  • H-Res-E1-D1-ED-CFD : تعداد بلوک H-TE ( M ) و بلوک H-TD ( N ) هر دو به 1 کاهش می یابد.
  • H-Res-E1-D1-LD-CFD : مشابه قبلی است به جز اینکه ساختار رمزگشای ED با LD جایگزین شده است.
  • H-Res-E4-D0-LD-CFD : H-TD پشت H-TE با تنظیم N روی 0 در حالی که M 4 است حذف می شود.
  • H-Res-E0-D4-LD-CFD : H-TE با تنظیم M روی 0 حذف می شود در حالی که چهار H-TD استفاده می شود.
  • H-E4-D4-LD-CFD : متفاوت از موارد فوق، که ویژگی های مبتنی بر CNN و مبتنی بر ترانسفورماتور را ترکیب می کند، ورودی در اینجا مستقیماً توسط شبکه ترانسفورماتور هیبریدی ما پردازش می شود. به طور خاص، تصاویر bitemporal به جای اینکه به صورت خطی پیش بینی می شوند .
  • H-Res-E4-D4-LD-Single : در مقایسه با H-Res-E4-D4-LD-CFD، رمزگشای ویژگی آبشاری برای این ساختار اعمال نمی شود. به طور خاص، نقشه‌های ویژگی از آخرین مرحله رمزگشا با اتصالات پرش برای تولید ویژگی‌های نهایی به هم پیوسته‌اند.

کار ما توسط PyTorch با یک واحد گرافیکی NVIDIA 3090 با حافظه 24 گیگابایتی پیاده سازی شده است. عملیات افزایش داده های عمومی، از جمله برش، چرخش، چرخش، و تاری گاوسی برای جلوگیری از تطبیق بیش از حد اتخاذ شده است. حل کننده Adam [ 29 ] به عنوان بهینه ساز مدل استفاده می شود و . نرخ یادگیری اولیه 0.0005 است و با توجه به تکرارهای آموزشی به صورت خطی کاهش می یابد. برای هر دو مجموعه داده LEVIR-CD و SYSU-CD، دوره های آموزشی پیش فرض ما 100 است. ResNet ستون فقرات (یعنی ResNet18) یا ترکیبی-ViT در ImageNet از قبل آموزش داده شده اند [ 30 ]. در مرحله آموزش از تابع آنتروپی متقاطع به عنوان تابع ضرر مدل استفاده می کنیم که به صورت تعریف شده است

برای تأیید اثربخشی روش ما، از شش معیار به شرح زیر استفاده می شود:

در جایی که مثبت واقعی ( TP ) تعداد پیکسل‌های پیش‌بینی‌شده درست را به‌عنوان تغییر نشان می‌دهد، منفی واقعی ( TN ) تعداد پیکسل‌های پیش‌بینی‌شده درست را بدون تغییر نشان می‌دهد، مثبت کاذب ( FP ) نشان‌دهنده تعداد پیکسل‌هایی است که به‌درستی پیش‌بینی شده‌اند، در حالی که منفی کاذب ( FN ) ) به معنی تعداد پیکسل هایی است که به طور اشتباه بدون تغییر پیش بینی شده اند. به طور جامع دقت و فراخوان را در نظر می گیرد، بنابراین شاخص اصلی را انجام می دهد. علاوه بر این، بیشتر مجموعه داده‌های تشخیص تغییر عمومی ذاتاً دارای ویژگی‌های نامتعادل کلاس هستند، که مدل را جزئی به یک دسته می‌کند. از این رو، با جایگزین کردن، شاخص “سوگیری” را جریمه می کند ، به این معنی که هر چه ماتریس سردرگمی نامتعادل تر باشد، p بالاتر و کمتر است ، در نتیجه امتیاز پایینی به مدل با “سوگیری” قوی می دهد.

4.2. مطالعه ابلیشن روشهای موجود

در اینجا، ما روی دو مجموعه داده آزمایش می‌کنیم تا روش پیشنهادی را با روش‌های تشخیص تغییرات اخیر، که شامل مدل‌های مبتنی بر CNN، مبتنی بر توجه و مبتنی بر ترانسفورماتور است، مقایسه کنیم. همانطور که در جدول 1 نشان داده شده است ، چهار مورد اول فقط شبکه های عصبی کانولوشن عمیق سرتاسر را بدون در نظر گرفتن زمینه های کلی ویژگی می سازند، جایی که مورد چهارم یک چارچوب شبکه ترکیبی با وضوح چند سطحی پیچیده تر را پیشنهاد می کند. اگرچه U-Net++ به یک بالاتر می رسد (4.22%) و (0.98٪) در مقایسه با FC-Siam-Conc، هزینه محاسباتی نسبتاً زیاد است. Hybrid-TransCD ما با 6.37/1.96/3.58 امتیاز از FC-Siam-Conc بهتر عمل می کند. ، ، و ، در حالی که (99.00٪) به بهبود ناچیز دست می یابد. دو مورد بعدی همه روش‌های CD مبتنی بر توجه هستند که در آن DASNet ماژول‌های توجه فضایی و توجه کانال را بر اساس یادگیری متریک معرفی می‌کند، اما برای جفت ویژگی‌های دوگانه، از ویژگی‌های تغییر نسبتاً متمایز استفاده می‌شود که منجر به 3.78 امتیاز می‌شود. و 5.31 امتیاز از در مقایسه با FC-Siam-Conc کاهش یافته است. BiT ابتدا یک ترانسفورماتور را به یک شبکه عمیق تشخیص تغییر معرفی کرد و به بالاترین حد خود دست یافت ، ، و در مقایسه با روش های قبلی مبتنی بر CNN. با این حال، BiT صرفاً ViT یک مقیاس را در یک لایه ترانسفورماتور پذیرفت و باعث ضعیف شدن آن شد (89.24%) و (80.68%) که به ترتیب 1.42% و 0.26% کمتر از U-Net++ هستند. Hybrid-TransCD ما با ViTs ترکیبی برای مدل‌سازی توجه‌های چند مقیاسی در هر لایه کار می‌کند، بنابراین چندین اشیاء در مقیاس‌های مختلف در صحنه به‌طور مؤثری ثبت می‌شوند. در مقایسه با U-Net++، روش ما 2.15 امتیاز بهبود یافته است و 0.98 امتیاز از . در مقایسه با روش‌های مبتنی بر توجه مانند STANet، وضعیت ما کمی بدتر است 2.3٪، اما (81.92%) و (89.54 درصد) به ترتیب 3.28 و 2.88 امتیاز بالاتر هستند. با توجه به ماهیت با وضوح بالا مناطق تغییر ضمنی ذاتی در این مجموعه داده، همه روش‌ها به بالا دست پیدا می‌کنند. . نتایج مقایسه بصری LEVIR-CD در شکل 14 نشان داده شده است.
به طور مشابه، نتایج مقایسه کمی SYSU-CD در جدول 2 نشان داده شده است. Hybrid-TransCD ما برتری دارد (80.13%)، IoU (66.84%) و (74.27٪) در میان روش های پیشرفته CD مبتنی بر یادگیری. در مقایسه با شبکه های سبک وزن ذکر شده در سه مورد اول، روش ما در تمام معیارها پیشرفت قابل توجهی پیدا می کند. در مورد مدل بهتر FC-Siam-Conc، امتیاز 3.78/5.09/1.94 در ، و بهبود یافته اند. اگرچه U-Net++ کمی پایین تر به دست آورد (81.36%) که 7.77 امتیاز کمتر از FC-Siam-Diff (89.13%) است. (75.39%) به طور قابل توجهی با 14.18 امتیاز بهبود یافته است. در مقایسه با مدل ما، 1.87 امتیاز از و 4.7 امتیاز از بهبود یافته اند. STANet به بهترین ها دست می یابد (85.33%)، و بسیار کمتر از 12.29 درصد ما است که باعث افت 2.76 واحدی شده است. BiT بهبود یافته است و ، و بهبود در سناریوهای پیچیده هنوز پایدار نیست. نتایج مقایسه بصری در SYSU-CD در شکل 15 نشان داده شده است.
مقایسه بازده محاسباتی الگوریتم های مختلف در جدول 3 نشان داده شده است ، جایی که مدل ما از چهار بلوک کدگذاری ترکیبی و چهار بلوک رمزگشایی ترکیبی استفاده می کند. همانطور که مشاهده می شود، در مقایسه با UNet++، مدل ما تنها 35.31 M پارامتر را افزایش می دهد، اما نتایج بهتری به دست می آوریم. روش مبتنی بر توجه STANet 116.93 M پارامتر را به دلیل عملیات ضرب ماتریس بیشتر مصرف می کند. اگرچه ما فقط پارامترهای 46.97 M را افزایش می دهیم، اما اثر به طور قابل توجهی بهبود یافته است. BiT مدل سنتی ViT را اتخاذ می‌کند، اما نمایش‌های چند مقیاسی را نادیده می‌گیرد، بنابراین با بهبود توجه چند سر، به ضبط زمینه چند دانه‌ای دست می‌یابیم و پارامترها تنها 44.72 مگابایت افزایش می‌یابند.

4.3. مطالعه فرسایش ماژول های پیشنهادی

برای ارزیابی اثربخشی ترانسفورماتور هیبریدی معرفی شده، ساختارهای مدل چندگانه در بخش 4.1 برای آزمایش بر روی داده‌های آزمایش مجموعه داده‌های LEVIR-CD و SYSU-CD استفاده شد. همانطور که در جدول 4 ، معیارهای لازم شامل ، ، و در بین روش های متعدد آورده شده است. علاوه بر این، تعداد پارامترهای مدل ( ) و هزینه محاسباتی ( ) پیچیدگی ساختار مربوطه را نشان می دهد. با مقایسه سه مورد اول، می‌توانیم مشاهده کنیم که هر دو روش رمزگشای ترانسفورماتور ED و LD برای وظیفه CD ما مؤثر هستند، جایی که ED و LD به ترتیب به معنای ساختارهای زود‌تفاوت و دیرتفاوت رمزگشای هیبریدی-ترانسفورماتور هستند. این نشان می دهد که آیا ستون فقرات ResNet برای نمایش ویژگی های معنایی کم عمق استفاده می شود یا خیر. این اعداد بلوک H-TE و بلوک H-TD را نشان می دهد، که در آن 0 به این معنی است که عملیات ترانسفورماتور برای رمزگذار و رمزگشای مربوطه پذیرفته نمی شود. ما می توانیم مشاهده کنیم که H-Res-E4-D4-ED-CFD به بالاترین سطح دست می یابد ، ، و در هر دو مجموعه داده اما هزینه های محاسباتی کمی بیشتری را اشغال می کند. در مقایسه با پایه، H-Res-E4-D4-LD-CFD با 2.94 و 4.71 امتیاز بهبود یافت. و ، به ترتیب، در حالی که (55.18 G) تقریباً دو برابر شد. با مقایسه H-Res-E4-D4-LD-CFD و H-Res-E1-D1-LD-CFD، بلوک های ترانسفورماتور هیبریدی بیشتر بهبود را به میزان 0.83/0.29 درصد نشان می دهند. و 0.45٪ / 0.41٪ از در LEVIR/SYSU، و مقایسه بین H-Res-E1-D1-ED-CFD و H-Res-E4-D4-ED-CFD مشابه است. با مقایسه H-Res-E4-D4-LD-CFD و H-Res-E0-D4-LD-CFD، H-Res-E4-D4-LD-CFD، و H-Res-E4-D0-LD-CFD به ترتیب، به وضوح ثابت شده است که هر دو H-TE و H-TD می توانند به طور موثر توانایی جذب وابستگی های جهانی مدل ما را بهبود بخشند. علاوه بر این، آزمایش همچنین با روش مدل ترانسفورماتور خالص (H-E4-D4-LD-CFD) بر اساس تصاویر دو زمانی اولیه انجام شد تا اثر ویژگی های استخراج شده توسط CNN را شکاف دهد. این نشان می‌دهد که ساختار ترانسفورماتور ترکیبی طراحی‌شده به‌شدت ویژگی‌های معنایی متمایز را برای بارگذاری وظیفه CD با هزینه‌های محاسباتی سبک‌تر نشان می‌دهد، اما هنوز شکاف‌هایی با ساختار خالص مبتنی بر CNN وجود دارد. سرانجام، روش (H-Res-E4-D4-LD-Single) جایگزینی CFD با یک رمزگشای تک جریانی ساده برای بررسی کارایی CFD انجام شده است. نتایج آزمایش فرسایش تجسمی در نشان داده شده استشکل 16 ، که از آن مشاهده می کنیم که ویژگی های سطح پایین از لایه های کم عمق CNN به شدت با ویژگی های معنایی سطح بالا که توسط ماژول ترانسفورماتور ترکیبی تقویت شده اند، ادغام می شوند. علاوه بر این، بسیاری از صحنه‌هایی که در آن اجسام در مقیاس‌های مختلف در هم آمیخته شده‌اند، به‌عنوان ناحیه تغییر به‌طور دقیق متمایز می‌شوند که استحکام بالای مدل ترانسفورماتور پیشنهادی را نشان می‌دهد.
از آنجایی که ساختار ترانسفورماتور هیبریدی ما یک استراتژی جدید برای تجمیع توکن‌های چند مقیاسی پیشنهاد می‌کند، مقایسه‌های عملیات تجمیع توکن‌های مختلف در جدول 5 آورده شده است. در مقایسه با توابع تجمع خطی و کانولوشن، عملیات ما با هزینه‌های محاسباتی مشابه، پیشرفت‌های بیشتری را به دست می‌آورد. به خصوص برای آن اشیاء در مقیاس پیچیده، روش پیشنهادی به طور تطبیقی ​​اطلاعات جهانی و محلی را حفظ می کند. نتایج مقایسه بصری در شکل 17 d,e,h آورده شده است که در آن چهار خط اول و چهار خط آخر نتایج LEVIR-CD و SYSU-CD هستند.
در ViT [ 8 ]، لایه پیشخور به سادگی عملیات MLP را با دو تابع خطی انجام می‌دهد و باعث غفلت اطلاعات سطح پیکسل می‌شود. پیچیدگی‌های قابل تفکیک عمیق بعدی، قابلیت یکپارچه‌سازی اطلاعات جهانی را در لایه پیشخور [ 25 ] نشان می‌دهد، اما هنوز هیچ تعاملی از اطلاعات نشانه‌های مختلف وجود ندارد. بنابراین، ما آزمایش‌هایی را روی لایه پیش‌خور با جزئیات بیشتر انجام می‌دهیم تا توانایی اطلاعات نشانه‌های جهانی و محلی را برای تکمیل یکدیگر نشان دهیم. از جدول 6، لایه پیشخور سنتی، لایه پیشخور در عمق و لایه ما با هم مقایسه می شوند. لایه فید فوروارد با جزئیات افزایش یافته عملکرد برتر را در هر دو مجموعه داده به دست می آورد، در حالی که پارامترهای مدل (173.73 M) و FLOPs (55.19 G) با لایه DW-feedforward یکسان هستند. نتایج مقایسه بصری در شکل 17 f-h آورده شده است.

5. بحث

همانطور که پیشنهاد شد، ماژول ترانسفورماتور به شدت ویژگی‌های معنایی غنی را نشان می‌دهد که اشیاء یا مناطق تغییر پیچیده را نشان می‌دهد، جایی که نشانه‌های حاوی مفاهیم کلی و محلی به طور موثر توجه‌های چند مقیاسی را مدل‌سازی می‌کنند. علاوه بر این، رمزگشای ویژگی آبشاری، شکاف جبران بین ویژگی‌های سطح پایین CNN و ویژگی‌های سطح بالا از ترانسفورماتور را تکمیل می‌کند، بنابراین اطلاعات معنایی دقیق سطح پیکسل را یاد می‌گیرد. همانطور که در شکل 18 ، ما نقشه های ویژگی دوزمانی تولید شده توسط ترانسفورماتور هیبریدی و مرحله نهایی رمزگشا را در هر دو مجموعه داده تجسم می کنیم، که در آن شکل 18 b، نقشه های توجهی را نشان می دهد که روی نسخه اصلی قرار گرفته اند. و به ترتیب، و شکل 18 h نقشه حرارتی را نشان می دهد . قرمز نشان دهنده ضریب توجه بالاتر و آبی نشان دهنده عامل کمتر است. از شکل 18 می توان مشاهده کرد که ویژگی های تقویت شده توسط ترانسفورماتور هیبریدی به طور فعال نمایش های مربوط به مناطق تغییر را یاد می گیرند. به خصوص برای تغییرات ساختمان در مجموعه داده LEVIR-CD، مدل حتی لبه شیء ظریف را متمایز کرد. اگرچه مجموعه داده SYSU-CD شامل تغییرات گسترده جنگل‌ها و علفزارهای فازی است، مدل همچنان بر تغییرات اصلی، به جز برخی تغییرات چند نمای غیرقابل پیش‌بینی (به عنوان مثال، سایه‌های ساختمان‌ها و درختان) بهتر تأکید می‌کند. برای تجزیه و تحلیل بیشتر اطلاعات معنایی نشانه ها، شکل 18c,f نقشه های توجه نشانه ها را برای تصاویر دوزمانی نشان می دهد. همانطور که مشاهده می شود، این نشانه ها به طور کامل وابستگی های دوربرد وصله های هر تصویر را دریافت می کنند، در نتیجه تغییرات را در دسته ها و مقیاس های مختلف متمایز می کنند، جایی که نوارهایی با رنگ های مختلف نشان دهنده اطلاعات نشانه های مختلف است.

6. نتیجه گیری

در این کار، ما یک شبکه جدید مبتنی بر ترانسفورماتور Hybrid-TransCD برای تشخیص تغییر تصویر سنجش از راه دور HR پیشنهاد می‌کنیم. در مقایسه با روش‌های اولیه مبتنی بر CNN و مبتنی بر توجه، مدل ما بدون افزایش هزینه‌های محاسباتی سنگین به عملکرد برتر دست یافت. در همین حال، ما یک ساختار ترانسفورماتور هیبریدی را برای گرفتن وابستگی‌های زمینه جهانی دانه‌بندی چندگانه معرفی کردیم. با بهبود ViT و PVT عمومی، ما یک خودتوجهی چند مقیاسی جدید طراحی کردیم، و نشانه‌هایی که جزئیات تغییرات ریز در اشیاء کوچک و اطلاعات مناطق تغییر دانه درشت را نشان می‌دهند، به صورت ترکیبی جمع‌آوری می‌شوند، بنابراین به طور موثر فضایی-طیفی را حفظ می‌کنند. ویژگی های صحنه های پیچیده دو ساختار رمزگشای هیبریدی-ترانسفورماتور برای انجام یک پس پروجکشن روی توکن های کدگذاری شده پیشنهاد شده است. بنابراین بیشتر به دست آوردن ویژگی های تمایز تفاوت مبتنی بر زمینه. هر دو لایه H-TE و H-TD چندین بار انجام می شوند تا اطلاعات نشانه تفاوت سلسله مراتبی را نشان دهند، جایی که توجه به خود در یک بلوک قادر به گرفتن نمایش های محلی و جهانی با هزینه عملیات ضرب ماتریس سبک است. از آنجایی که ویژگی‌های سطح پایین جزئیات بافت غنی را نشان می‌دهند، ما یک رمزگشای ویژگی آبشاری برای ادغام تدریجی ویژگی‌های سطح پایین و ویژگی‌های سطح بالا غنی از معنایی در حین بازیابی وضوح ویژگی‌ها طراحی کردیم. آزمایش‌ها روی دو مجموعه داده تشخیص تغییر تصویر از راه دور HR عمومی، کارایی روش ما را نشان می‌دهد و زمان آموزش در مقایسه با روش‌های مبتنی بر یادگیری همزمان بسیار کاهش می‌یابد.

منابع

  1. شی، دبلیو. ژانگ، ام. ژانگ، آر. چن، اس. Zhan, Z. تشخیص تغییر بر اساس هوش مصنوعی: جدیدترین و چالش‌ها. Remote Sens. 2020 ، 12 ، 1688. [ Google Scholar ] [ CrossRef ]
  2. لیو، ی. پانگ، سی. ژان، ز. ژانگ، ایکس. Yang, X. تشخیص تغییر ساختمان برای تصاویر سنجش از راه دور با استفاده از مدل شبکه کانولوشنال سیامی عمیق با محدودیت دو وظیفه. IEEE Geosci. سنسور از راه دور Lett. 2020 ، 18 ، 811-815. [ Google Scholar ] [ CrossRef ]
  3. نیش، بی. پان، ال. کو، آر. چارچوب سیامی مبتنی بر یادگیری دوگانه برای تشخیص تغییر با استفاده از تصاویر سنجش از راه دور نوری VHR bitemporal. Remote Sens. 2019 , 11 , 1292. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  4. ویراتاما، دبلیو. لی، جی. Sim, D. تشخیص تغییر در تصاویر چند طیفی بر اساس U-Net سطح ویژگی. دسترسی IEEE 2020 ، 8 ، 12279–12289. [ Google Scholar ] [ CrossRef ]
  5. وو، سی. ژانگ، اف. شیا، جی. خو، ی. لی، جی. زی، جی. دو، ز. لیو، آر. تشخیص آسیب ساختمان با استفاده از U-Net با مکانیسم توجه از مجموعه داده های سنجش از دور قبل و بعد از فاجعه. Remote Sens. 2021 , 13 , 905. [ Google Scholar ] [ CrossRef ]
  6. سیمونیان، ک. Zisserman, A. شبکه های پیچیده بسیار عمیق برای تشخیص تصویر در مقیاس بزرگ. arXiv 2014 ، arXiv:1409.1556. [ Google Scholar ]
  7. او، ک. ژانگ، ایکس. رن، اس. Sun, J. یادگیری باقیمانده عمیق برای تشخیص تصویر. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، لاس وگاس، NV، ایالات متحده، 27-30 ژوئن 2016. صص 770-778. [ Google Scholar ]
  8. کولسنیکوف، آ. دوسوویتسکی، آ. وایسنبورن، دی. هیگلد، جی. Uszkoreit، J. بیر، ال. مایندرر، م. دهقانی، م. هاولزبی، ن. گلی، اس. و همکاران ارزش یک تصویر 16 × 16 کلمه است: ترانسفورماتور برای تشخیص تصویر در مقیاس. arXiv 2020 ، arXiv:2010.11929. [ Google Scholar ]
  9. ژنگ، ز. ما، ا. ژانگ، ال. Zhong، Y. تغییر در همه جا وجود دارد: تشخیص تغییر شی تحت نظارت تک زمانی در تصاویر سنجش از راه دور. در مجموعه مقالات کنفرانس بین المللی IEEE/CVF در بینایی کامپیوتر، مونترال، QC، کانادا، 11 تا 17 اکتبر 2021؛ صفحات 15193-15202. [ Google Scholar ]
  10. لیو، آر. جیانگ، دی. ژانگ، ال. Zhang, Z. شبکه کانولوشن قابل تفکیک عمیق برای تشخیص تغییر در تصاویر هوایی نوری. IEEE J. Sel. بالا. Appl. زمین Obs. Remote Sens. 2020 , 13 , 1109–1118. [ Google Scholar ] [ CrossRef ]
  11. که، Q. Zhang، P. CS-HSNet: یک شبکه تشخیص تغییر متقابل سیامی بر اساس توجه تقسیم سلسله مراتبی. IEEE J. Sel. بالا. Appl. زمین Obs. Remote Sens. 2021 , 14 , 9987–10002. [ Google Scholar ] [ CrossRef ]
  12. رونبرگر، او. فیشر، پی. Brox، T. U-net: شبکه های کانولوشن برای تقسیم بندی تصاویر زیست پزشکی. در مجموعه مقالات کنفرانس بین المللی محاسبات تصویر پزشکی و مداخله به کمک کامپیوتر، مونیخ، آلمان، 5 تا 9 اکتبر 2015. Springer: برلین/هایدلبرگ، آلمان، 2015; صص 234-241. [ Google Scholar ]
  13. ژو، ز. صدیق، MMR; تاجبخش، ن. Liang, J. Unet++: معماری u-net تودرتو برای تقسیم‌بندی تصویر پزشکی. در یادگیری عمیق در تجزیه و تحلیل تصویر پزشکی و یادگیری چندوجهی برای پشتیبانی از تصمیم گیری بالینی . Springer: برلین/هایدلبرگ، آلمان، 2018; صص 3-11. [ Google Scholar ]
  14. دینگ، اچ. جیانگ، ایکس. شوایی، بی. لیو، ای کیو؛ وانگ، جی. تقسیم بندی معنایی با رمزگذاری زمینه و رمزگشایی چند مسیری. IEEE Trans. فرآیند تصویر 2020 ، 29 ، 3520–3533. [ Google Scholar ] [ CrossRef ]
  15. چن، جی. یوان، ز. پنگ، جی. چن، ال. هائوزه، اچ. ژو، جی. لیو، ی. Li, H. DASNet: شبکه‌های سیامی کاملاً کانولوشنال دوگانه برای تشخیص تغییر تصاویر ماهواره‌ای با وضوح بالا. IEEE J. Sel. بالا. Appl. رصد زمین. Remote Sens. 2020 , 14 , 1194–1206. [ Google Scholar ] [ CrossRef ]
  16. چن، اچ. Shi، Z. یک روش مبتنی بر توجه مکانی-زمانی و یک مجموعه داده جدید برای تشخیص تغییر تصویر سنجش از دور. Remote Sens. 2020 , 12 , 1662. [ Google Scholar ] [ CrossRef ]
  17. که، Q. Zhang، P. MCCRNet: یک شبکه اصلاح متنی تغییر چندسطحی برای تشخیص تغییر تصویر سنجش از راه دور. ISPRS Int. J. Geo.-Inf. 2021 ، 10 ، 591. [ Google Scholar ] [ CrossRef ]
  18. ژانگ، ی. فو، ال. لی، ی. Zhang، Y. Hdfnet: شبکه همجوشی پویا سلسله مراتبی برای تشخیص تغییر در تصاویر هوایی نوری. Remote Sens. 2021 , 13 , 1440. [ Google Scholar ] [ CrossRef ]
  19. دندان های نیش.؛ لی، ک. شائو، جی. Li, Z. SNUNet-CD: یک شبکه سیامی با اتصال متراکم برای تشخیص تغییر تصاویر VHR. IEEE Geosci. سنسور از راه دور Lett. 2021 ، 19 ، 1-5. [ Google Scholar ] [ CrossRef ]
  20. ژانگ، سی. یو، پی. تپته، دی. جیانگ، ال. شانگگوان، بی. هوانگ، ال. لیو، جی. یک شبکه ادغام تصویر با نظارت عمیق برای تشخیص تغییر در تصاویر سنجش از دور دوزمانی با وضوح بالا. ISPRS J. Photogramm. Remote Sens. 2020 , 166 , 183–200. [ Google Scholar ] [ CrossRef ]
  21. رضا، ع. لیو، ی. هوو، اچ. Fang, T. EUNet-CD: UNet++ کارآمد برای تشخیص تغییر تصاویر سنجش از راه دور با وضوح بسیار بالا. IEEE Geosci. سنسور از راه دور Lett. 2022 ، 19 ، 1-5. [ Google Scholar ] [ CrossRef ]
  22. چن، اچ. چی، ز. Shi, Z. روش مبتنی بر ترانسفورماتور کارآمد برای تشخیص تغییر تصویر سنجش از دور. arXiv e-Prints 2021 ، arXiv:2103.00208. [ Google Scholar ]
  23. وانگ، ز. ژانگ، ی. لو، ال. Wang, N. TransCD: تشخیص تغییر صحنه از طریق معماری مبتنی بر ترانسفورماتور. انتخاب کنید Express 2021 , 29 , 41409–41427. [ Google Scholar ] [ CrossRef ]
  24. وانگ، دبلیو. زی، ای. لی، ایکس. فن، DP; آهنگ، ک. لیانگ، دی. لو، تی. لو، پی. ترانسفورماتور بینایی Shao, L. Pyramid: یک ستون فقرات همه کاره برای پیش بینی متراکم بدون پیچش. arXiv 2021 ، arXiv:2102.12122. [ Google Scholar ]
  25. لیو، ز. لین، ی. کائو، ی. متعجب.؛ وی، ی. ژانگ، ز. لین، اس. Guo, B. ترانسفورماتور Swin: ترانسفورماتور دید سلسله مراتبی با استفاده از پنجره های جابجا شده. arXiv 2021 ، arXiv:2103.14030. [ Google Scholar ]
  26. وانگ، دبلیو. یائو، ال. چن، ال. لین، بی. کای، دی. او، X. لیو، و. arXiv 2021 ، arXiv:2108.00154. [ Google Scholar ]
  27. لین، اچ. چنگ، ایکس. وو، ایکس. یانگ، اف. شن، دی. وانگ، ز. آهنگ، س. یوان، دبلیو. گربه: توجه متقاطع در ترانسفورماتور بینایی. arXiv 2021 ، arXiv:2106.05786. [ Google Scholar ]
  28. شی، س. لیو، ام. لی، اس. لیو، ایکس. وانگ، اف. Zhang، L. یک شبکه مبتنی بر متریک توجه تحت نظارت عمیق و یک مجموعه داده تصویر هوایی باز برای تشخیص تغییر سنجش از دور. IEEE Trans. Geosci. Remote Sens. 2021 ، 60 ، 1-16. [ Google Scholar ] [ CrossRef ]
  29. Kingma، DP; Ba, J. Adam: روشی برای بهینه سازی تصادفی. arXiv 2014 ، arXiv:1412.6980. [ Google Scholar ]
  30. دنگ، ج. دونگ، دبلیو. سوچر، آر. لی، ال جی; لی، ک. Fei-Fei, L. Imagenet: پایگاه داده تصویر سلسله مراتبی در مقیاس بزرگ. در مجموعه مقالات کنفرانس IEEE 2009 در مورد بینایی کامپیوتری و تشخیص الگو، میامی، FL، ایالات متحده آمریکا، 20-25 ژوئن 2009. ص 248-255. [ Google Scholar ]
شکل 1. تغییرات ویژگی های نامرتبط در اشیاء بین تصاویر سنجش از دور با وضوح بالا در صحنه های پیچیده.
شکل 2. مقایسه مکانیسم های توجه اخیر در تشخیص تغییر. نواحی متصل شده توسط خط نقطه زرد نشان دهنده تفاوت در اطلاعات نشانه بین مناطق تصویر چند زمانی است، جایی که تعداد دایره های زرد تعداد محاسبات مورد نیاز برای توجه به خود را نشان می دهد در حالی که اندازه دایره نشان دهنده فیلد دریافتی است که در آن نشانه قرار دارد.
شکل 3. معماری کلی Hybrid-TransCD ما.
شکل 4. معماری کلی رمزگذار ViT.
شکل 5. تصویر توجه محصول نقطه مقیاس شده.
شکل 6. ساختار توجه چند سر.
شکل 7. معماری بلوک رمزگذار هیبریدی-ترانسفورماتور. وصله‌های جاسازی شده هر ویژگی زمانی توسط خود توجه چند سر و MLP ترکیبی بهبود یافته کدگذاری می‌شوند.
شکل 8. مقایسه خودتوجهی بین مدل های مختلف مبتنی بر ترانسفورماتور. این به ترتیب پرس و جو، کلید و مقدار را نشان می دهد.
شکل 9. مقایسه لایه پیشخور بین مدل های مختلف مبتنی بر ترانسفورماتور. این و به ترتیب عملکرد واحدهای خطی خطای گاوسی و پیچیدگی عمقی را نشان می دهند.
شکل 10. ساختار دیر تفاوت رمزگشای هیبریدی-ترانسفورماتور.
شکل 11. ساختار تفاوت اولیه رمزگشای هیبریدی-ترانسفورماتور.
شکل 12. معماری بلوک رمزگشای هیبریدی-ترانسفورماتور. جفت توکن های کدگذاری شده توسط رمزگشای ترانسفورماتور سیامی رمزگشایی می شود و توجه به خود با توجه چند سر ترکیبی جایگزین می شود.
شکل 13. معماری رمزگشای ویژگی آبشاری. نمونه برداری با درون یابی دو خطی به دست می آید.
شکل 14. مشاهده نتایج مقایسه LEVIR-CD. قرمز نشان دهنده پیکسل های بدون تغییر است که با خطا پیش بینی شده اند و سبز نشان دهنده پیکسل های تغییر یافته نادیده گرفته شده است. ( الف ) تصویر T1. ( ب ) تصویر T2. ج ) حقیقت پایه. ( د ) FC-EF. ( ه ) FC-Siam-Conc. ( f ) U-Net++. ( g ) DASNet. ( ح ) STANet. ( i ) BiT. ( j ) Hybrid-TransCD (مال ما).
شکل 15. مشاهده نتایج مقایسه در SYSU-CD. ( الف ) تصویر T1. ( ب ) تصویر T2. ج ) حقیقت پایه. ( د ) FC-EF. ( ه ) FC-Siam-Conc. ( f ) U-Net++. ( g ) DASNet. ( ح ) STANet. ( i ) BiT. ( j ) Hybrid-TransCD (مال ما).
شکل 16. نتایج فرسایش بصری ساختارهای مدل مختلف. پانل های ( a )–( d ) نتایج LEVIR-CD را نشان می دهند و ( e )–( h ) نتایج SYSU-CD را نشان می دهند. هر ستون، از بالا به پایین، نشان دهنده: خط پایه، H-Res-E4-D4-ED-CFD، H-Res-E4-D4-LD-CFD، H-Res-E1-D1-ED-CFD، H- Res-E1-D1-LD-CFD، H-Res-E4-D0-LD-CFD، H-Res-E0-D4-LD-CFD، H-E4-D4-LD-CFD، H-Res-E4- D4-LD-Single.
شکل 17. نتایج ابلیشن های بصری عملیات های مختلف تجمع توکن ها و لایه های پیشخور متفاوت، که در آن چهار خط اول و چهار خط آخر به ترتیب نتایج LEVIR-CD و SYSU-CD هستند. ( الف ) تصویر T1. ( ب ) تصویر T2. ج ) حقیقت پایه. ( د ) عملیات تجمیع توکن خطی. ( ه ) عملیات تجمیع توکن کانولوشن. ( f ) لایه پیشخور سنتی. ( g ) لایه پیشخور DW. ( h ) عملیات تجمیع توکن چند مقیاسی + لایه پیشخور DE.
شکل 18. نتایج تجسم مدل، که در آن سه خط اول و سه خط آخر به ترتیب نتایج LEVIR-CD و SYSU-CD هستند. الف ) تصویر T1. ( ب ) نقشه توجه تصویر 1. ( ج ) نقشه توجه نشانه 1. ( د ) تصویر T2. ( ه ) نقشه توجه تصویر 2. ( f ) نقشه توجه نشانه 2. ( گ ) حقیقت زمینی. ( h ) Heatmap از ویژگی ها از .

بدون دیدگاه

دیدگاهتان را بنویسید