چکیده

:

در این مقاله، با بهره‌برداری از سری‌های زمانی تصاویر ماهواره‌ای Sentinel-2، با هدف خاص استخراج اطلاعات در مورد “مکان و زمان” محصولات کشاورزی، سهمی نوآورانه در حوزه تحقیقاتی اختصاص داده شده به نقشه‌برداری محصول ارائه می‌کنیم. هدف نهایی، راه‌اندازی یک جریان کاری است که بتواند محصولات مختلفی را که در یک منطقه معین رشد می‌کنند با استفاده از یک شبکه عصبی کانولوشنال (3+2)بعدی (3+2)بعدی برای تقسیم‌بندی معنایی به طور قابل اعتماد شناسایی (طبقه‌بندی) کند. این روش همچنین جاه‌طلبی ارائه اطلاعات، در سطح پیکسل، در مورد دوره‌ای که در آن یک محصول معین در طول فصل کشت می‌شود، دارد. برای این منظور، ما راه‌حلی به نام فاصله فعال‌سازی کلاس (CAI) پیشنهاد می‌کنیم که به ما امکان می‌دهد برای هر پیکسل، استدلال ایجاد شده توسط CNN را در طبقه‌بندی تفسیر کنیم که تعیین می‌کند در کدام فاصله زمانی، از سری زمانی ورودی، کلاس احتمالاً وجود دارد یا نه. آزمایش‌های ما، با استفاده از مجموعه داده‌های حوزه عمومی، نشان می‌دهد که این رویکرد قادر به تشخیص دقیق طبقات محصول با دقت کلی حدود 93٪ است و شبکه می‌تواند فواصل زمانی تبعیض‌آمیز را که در آن محصول کشت می‌شود، شناسایی کند. این نتایج دارای دو اهمیت هستند: (1) نشان دادن توانایی شبکه برای تفسیر صحیح فرآیند فیزیکی مورد بررسی (به عنوان مثال، شرایط خاک خالی، رشد گیاه، پیری و برداشت با توجه به گونه های خاص کشت شده) و (2) ارائه اطلاعات بیشتر به کاربر نهایی (به عنوان مثال، حضور محصولات زراعی و پویایی زمانی آن). نشان می دهد که این رویکرد قادر به تشخیص دقیق طبقات محصول با دقت کلی حدود 93٪ است و این شبکه می تواند فواصل زمانی تبعیض آمیز را که در آن محصول کشت می شود را تشخیص دهد. این نتایج دارای دو اهمیت هستند: (1) نشان دادن توانایی شبکه برای تفسیر صحیح فرآیند فیزیکی مورد بررسی (به عنوان مثال، شرایط خاک خالی، رشد گیاه، پیری و برداشت با توجه به گونه های خاص کشت شده) و (2) ارائه اطلاعات بیشتر به کاربر نهایی (به عنوان مثال، حضور محصولات زراعی و پویایی زمانی آن). نشان می دهد که این رویکرد قادر به تشخیص دقیق طبقات محصول با دقت کلی حدود 93٪ است و این شبکه می تواند فواصل زمانی تبعیض آمیز را که در آن محصول کشت می شود را تشخیص دهد. این نتایج دارای دو اهمیت هستند: (1) نشان دادن توانایی شبکه برای تفسیر صحیح فرآیند فیزیکی مورد بررسی (به عنوان مثال، شرایط خاک خالی، رشد گیاه، پیری و برداشت با توجه به گونه های خاص کشت شده) و (2) ارائه اطلاعات بیشتر به کاربر نهایی (به عنوان مثال، حضور محصولات زراعی و پویایی زمانی آن).

 

چکیده گرافیکی

1. مقدمه

تولید بیشتر (غذا) با مصرف کمتر (مصرف منابع طبیعی) یکی از بزرگترین چالش هایی است که جامعه ما برای تضمین امنیت غذایی در سطح جهانی با آن مواجه است و بنابراین یکی از اولویت های اهداف توسعه توسعه پایدار سازمان ملل است. برای دستیابی به این هدف، تولیدات کشاورزی باید با برنامه ریزی پایدار حمایت شود و یکی از اولین اطلاعات مورد نیاز این است که محصولات در کجا و چه زمانی کشت می شوند. سنجش از دور ماهواره ای بهترین نامزد به عنوان منبع اطلاعاتی برای انجام نظارت بر محصول در سراسر جهان است، اما الگوریتم قدرتمند و قوی برای ارائه اطلاعات صریح زمانی و مکانی در مورد حضور محصول مورد نیاز است. Sentinel-2 (S2) یک ماموریت رصدی زمین کوپرنیک است که به طور سیستماتیک تصاویر نوری با وضوح مکانی بالا از زمین به دست می آورد. این ماموریت یک تغییر پارادایم در کیفیت و کمیت داده های دسترسی باز را معرفی می کند و عصر جدیدی را برای سیستم های نظارت بر زمین به ویژه برای بخش کشاورزی باز می کند. S2 داده های چند طیفی را با وضوح فضایی از 10 متر تا 60 متر فراهم می کند که به لطف مجموعه دو ماهواره می تواند 290 کیلومتر در هر اکتساب را با زمان بازنگری 5 روز پوشش دهد. با این حال، این مفهوم داده های بزرگ را معرفی می کند و بنابراین ما به مدل هایی نیاز داریم که توانایی بهره برداری از این حجم عظیم اطلاعات را داشته باشند. در این چارچوب، ما می خواهیم به نوآوری تحقیقاتی اختصاص داده شده برای انجام شناسایی محصول از تجزیه و تحلیل سری های زمانی تصاویر ماهواره ای Sentinel-2 کمک کنیم. هدف شناسایی رویکردی است که قادر به شناسایی (طبقه بندی) قابل اعتماد محصولات مختلف در یک منطقه معین با استفاده از یک شبکه عصبی کانولوشنال (3+2) بعدی برای تقسیم بندی معنایی باشد. روش همچنین جاه‌طلبی پیش‌بینی دوره‌ای را دارد که در آن یک محصول معین واقعاً در یک فصل رشد می‌کند. ما مدلی مبتنی بر شبکه‌های هرمی ویژگی‌ها (FPN) توسعه می‌دهیم که برای پردازش سری‌های زمانی با هسته‌های سه‌بعدی یک منطقه کوچک مرتبط با هر نمونه ورودی، و می تواند به عنوان خروجی یک نقشه تقسیم بندی با استفاده از هسته های دوبعدی ارائه دهد. علاوه بر این، ما راه حلی را بررسی و پیشنهاد می کنیم تا بفهمیم چگونه CNN فواصل زمانی را که به تعیین فاصله فعال سازی کلاس خروجی (CAI) کمک می کند، شناسایی می کند. این راه حل به ما اجازه می دهد تا استدلال ارائه شده توسط CNN را در طبقه بندی یک پیکسل تفسیر کنیم. ما در آزمایش‌های مختلف نشان می‌دهیم که شبکه ما قادر به شناسایی فواصل زمانی تبعیض‌آمیز در حوزه ویژگی‌های ورودی است، با وجود اینکه CNN فقط برای حل یک کار طبقه‌بندی (یعنی راه‌حل فضایی) آموزش دیده است. بنابراین، با روش CAI خود، می‌توانیم اطلاعاتی درباره «زمانی» که کلاس مرتبط با یک پیکسل در سری زمانی داده‌های رصد زمین (EO) وجود دارد، ارائه دهیم. روش CAI برای تفکیک زمانی مفید می شود که محصولات تنها کشت شده باشند (مثلاً ذرت تابستانی) یا محصول دوم فصل (مانند گندم زمستانه به دنبال ذرت) باشد. در مورد دوم، ذرت معمولاً در اواخر فصل بعد از برداشت غلات و آماده سازی خاک کاشته می شود. توانایی ارائه چنین اطلاعاتی به شناسایی سیستم‌های زراعی (تک یا دو محصول) در کنار کلاس محصولات ساده کمک می‌کند. به لطف CAI، اطلاعات مربوط به دوره کاشت، ایده ای از رقم کشت شده و مقصد محصولات (به عنوان مثال، ذرت برای سیلو یا علوفه) ارائه می دهد.
علاوه بر این، رویکرد پیشنهادی دارای اهمیت دوگانه است: نشان دادن ظرفیت شبکه برای تفسیر صحیح فرآیند فیزیکی مورد بررسی و ارائه اطلاعات اضافی به کاربر نهایی (به عنوان مثال، حضور محصول و پویایی زمانی آن. ارائه خروجی CAI است. روشی برای ارزیابی استحکام مدل برای هر طبقه معنایی، زیرا نمایشی صریح از دوره زمانی که احتمال کشت محصول در آن وجود دارد، چنین اطلاعاتی برای یک منطقه مورد مطالعه خاص می‌تواند توسط دانش تخصصی تأیید شود یا اطلاعات ارزش افزوده برای کاربر نهایی ارائه شود. شکل 1یک نمایش گرافیکی از اطلاعات CAI برای یک زیر مجموعه فضایی از داده های S2 تجزیه و تحلیل شده که در آن ذرت کشت می شود، ارائه می دهد. مقادیر پایین CAI در ابتدای سری های زمانی (دسامبر تا می) زمانی که بقایای محصول (دیگر محصول) وجود دارد رخ می دهد در حالی که مقادیر شاخص به طور قابل توجهی در دوره رشد مناسب (اردیبهشت تا سپتامبر) افزایش می یابد.
انواع مختلفی از شبکه های عصبی کانولوشنال (CNN) وجود دارد و همه آنها می توانند به بهبود سرعت و دقت بسیاری از وظایف بینایی کامپیوتر کمک زیادی کنند. به طور خاص، مدل‌های سه‌بعدی CNN اغلب برای بهبود شناسایی اشیا در فیلم‌ها یا حجم‌های سه بعدی، مانند فیلم‌های دوربین‌های امنیتی [ 1 ] و اسکن‌های پزشکی بافت سرطانی [ 2 ] استفاده می‌شوند.
بعد فضایی و زمانی تصاویر ماهواره ای Sentinel-2 شباهت های زیادی به ویدئو دارد. به همین دلیل، ما مدل هایی مشابه آنچه برای تجزیه و تحلیل فیلم ها استفاده می شود، اتخاذ می کنیم. در سال‌های اخیر، داده‌های مکانی-زمانی از طریق مدل‌های CNN که از سه ایده اصلی پیروی می‌کنند پرداخته شده است: CNN 2D (مثلاً ConvNets دو جریانی [ 3 ] و شبکه بخش زمانی (TSN) [ 4 ])، CNN 3D (مثلا SFSeg [ 5 ] ] و ResNet 3D [ 6 ] و (2+1)D CNN (به عنوان مثال، P3D [ 7 ] و R(2+1)D [ 8]). پیشنهاد ما تا حدی از ایده CNN های سه بعدی استفاده شده برای مجموعه داده های ویدئویی پیروی می کند، اما در عین حال از هسته های دو بعدی (i) برای ایجاد نقشه های تقسیم بندی و (ii) برای پیش بینی فواصل فعال سازی کلاس ها در حوزه زمانی استفاده می کند.
اخیراً، سطوح عملکرد سی‌ان‌ان‌های سه‌بعدی در زمینه‌های مختلف به‌شدت بهبود یافته است [ 6 ] و علاوه بر این، حجم عظیمی از داده‌های ماهواره‌ای رایگان [ 9 ] داریم که می‌توانند به راحتی توسط مدل‌های سه‌بعدی تفسیر شوند. با انگیزه موفقیت شبکه [ 10 ] 2D-FPN که برای تقسیم بندی معنایی چند کلاسه استفاده می شود، همچنین با موفقیت در داده های ماهواره ای برای تقسیم بندی معنایی از تصاویر RGB استفاده می شود [ 11 ]]، در این مقاله ما یک FPN (3+2)D برای تقسیم‌بندی معنایی چند کلاسه، بر اساس لایه‌های کانولوشن 3 بعدی و 2 بعدی ایجاد می‌کنیم. به ویژه مدلی که ما پیشنهاد کردیم برای تقسیم‌بندی معنایی محصولات به منظور بهبود دقت تشخیص خودکار محصول با اجرای قابلیت‌های چند مقیاسی سه‌بعدی و افزایش وضوح مکانی و زمانی محصول موضوعی طراحی شد. این مدل برای تقسیم‌بندی معنایی محصولات به منظور بهبود دقت تشخیص محصولات با پیاده‌سازی قابلیت‌های چند مقیاسی سه بعدی و افزایش وضوح مکانی و زمانی محصولات طراحی شده است.
شبکه هرمی ویژگی (FPN) بسیار شبیه یک شبکه عصبی کانولوشنال U شکل (U-Net) است [ 12 ]. مانند U-Net، FPN یک اتصال جانبی بین هرم پایین به بالا و هرم از بالا به پایین دارد. با این حال، در جایی که U-net به سادگی ویژگی‌ها را کپی می‌کند و آنها را اضافه می‌کند، FPN قبل از اضافه کردن آنها، یک سطح پیچیدگی 1 × 1 اعمال می‌کند. این به هرم از پایین به بالا به نام “ستون فقرات” اجازه می دهد تا تقریباً هر چیزی باشد که ما می خواهیم. با توجه به این انعطاف پذیری بیشتر FPN، ما آن را انتخاب کرده و با مشکل خاص (3+2) بعدی خود تطبیق داده ایم. U-Net همچنین برای مسائل تقسیم بندی سه بعدی تطبیق داده شده است و با موفقیت برای بسیاری از مسائل تقسیم بندی دو بعدی و سه بعدی استفاده شده است [ 13 ]]. متأسفانه، ما نمی‌توانیم مستقیماً با U-Net مقایسه کنیم، زیرا باید آن را تغییر دهیم تا بتوانیم همزمان روی یک ورودی سه بعدی و یک خروجی دو بعدی کار کنیم، اما دانستن اینکه FPN و U-Net دو بسیار هستند. مدل های مشابه و اینکه FPN در مقایسه با U-Net انعطاف پذیرتر است، ما تصمیم گرفته ایم که فقط با FPN کار کنیم.
مقالات اخیر توسط ژو و همکاران. [ 14 و 15 ] نشان داده‌اند که واحدهای کانولوشنال لایه‌های مختلف شبکه‌های عصبی کانولوشنال (CNN) در واقع به‌عنوان آشکارساز شی عمل می‌کنند، علی‌رغم اینکه هیچ نظارتی بر محل جسم ندارند. مقاله مشابهی [ 16 ] تکنیکی را برای شفاف‌تر کردن CNN با افزودن «توضیحات بصری» به کلاس بزرگی از مدل‌ها پیشنهاد می‌کند. آنها نشان دادند که شبکه می‌تواند قابلیت قابل توجه محلی‌سازی اشیاء خود را تا لایه نهایی حفظ کند، بنابراین به آن اجازه می‌دهد تا به راحتی مناطق تصویر متمایز را در یک پاس رو به جلو برای طیف گسترده‌ای از فعالیت‌ها شناسایی کند، حتی آن‌هایی که شبکه در ابتدا برای آنها آموزش ندیده بود. با الهام از نقشه های فعال سازی کلاس (CAM) پیشنهاد شده توسط ژو و همکاران. [14 ]، ما پیشنهاد می‌کنیم که FPN CNN (3+2) بعدی پیشنهادی را با مکانیزمی گسترش دهیم که امکان تجسم بازه زمانی سری‌های زمانی را فراهم می‌کند که به تعیین کلاس برای هر پیکسل کمک می‌کند.
با FPN (3+2)D ما می‌خواهیم در پاسخ به سؤال « یک برش خاص کجاست » در داخل یک تصویر دقیق‌تر باشیم، اما نمی‌دانیم چگونه به سؤال « زمانی که آن برش وجود داشت » در داخل یک تصویر پاسخ دهیم. سری زمانی. به همین دلیل ما مکانیزمی را به شبکه اضافه کرده‌ایم که پیش‌بینی می‌کند چه زمانی کلاس در سری‌های زمانی ورودی وجود دارد، بدون اینکه نیازی به ارائه حقیقت بیشتر به شبکه باشد. به روشی مشابه آنچه در [ 14 ] اتفاق می‌افتد، جایی که شبکه برای درک « کدام ناحیه از تصویر ورودی » بیشتر در تعیین کلاس خروجی کمک می‌کند، ما راه‌حلی برای پیش‌بینی هر پیکسل پیشنهاد کرده‌ایم. فاصله زمانییک کلاس خاص در مجموعه داده سری زمانی ورودی وجود دارد. دقیقاً همانطور که برای CAM اتفاق می‌افتد، جایی که می‌توانیم بگوییم کدام ناحیه از تصویر در تعیین کلاس خروجی نقش داشته و در مورد کلاس‌های دیگر چیزی نگوییم، از CAI برای تشخیص اینکه کلاس در سری‌های زمانی ورودی چه زمانی فعال بوده است استفاده می‌کنیم بدون اینکه چیزی بگوییم. در مورد کلاس های دیگر در آن پیکسل. این بدان معناست که رویکرد ما روی هر پیکسلی که مدل به عنوان ورودی می‌بیند، چند کلاسه است، اما چند برچسبی نیست.
نوآوری هایی که در این مقاله پیشنهاد می کنیم به شرح زیر است:
  • ما یک مدل تقسیم‌بندی معنایی جدید مناسب برای سری‌های زمانی سنجش از دور پیشنهاد می‌کنیم.
  • ما مکانیزمی را به CNN پیشنهادی اضافه می‌کنیم که به تجسم بازه زمانی سری‌های زمانی کمک می‌کند که به تعیین کلاس برای هر پیکسل کمک می‌کند.
  • ما از حدود 4%وضعیت هنر در مجموعه داده های عمومی با سری های زمانی ماهواره ای.

2. روش پیشنهادی

روشی که ما در این مقاله پیشنهاد می کنیم از دو بخش ابتکاری اصلی تشکیل شده است، شبکه عصبی کانولوتیو که از پیچیدگی سه بعدی در سری های زمانی استفاده می کند و فاصله فعال سازی کلاس که برای درک زمانی که یک کلاس (مرتبط با یک پیکسل خروجی منفرد) با توجه به فعال است. سری زمانی تحلیل شده در ورودی

2.1. (3+2)D ویژگی های شبکه هرمی

پیشرفت‌های اخیر در بینایی کامپیوتر نشان می‌دهد که شبکه‌های هرمی ویژگی‌ها (FPNs) [ 10 ] در تشخیص اشیاء در مقیاس‌های مختلف بسیار مؤثر هستند، اما آنها همچنین ابزاری عالی برای بسیاری از مشکلات تقسیم‌بندی تصویر هستند [ 17 ، 18 ]. با این حال، FPN های سنتی برای تصاویر دو بعدی طراحی شده اند. در اینجا، ما یک شبکه FPN را پیشنهاد می‌کنیم که از هسته‌های سه‌بعدی در سری‌های زمانی ورودی و تقریباً در کل شبکه استفاده می‌کند، به جز در آخرین لایه‌های نزدیک خروجی که در آن از هسته‌های دوبعدی استفاده می‌کنیم تا بتوانیم یک نقشه را قطعه‌بندی کنیم.
شکل 2 یک نمایش گرافیکی از مدل پایان به انتها پیشنهادی را نشان می دهد. سمت چپ ترین ستون نشان دهنده مسیر از پایین (داده های ورودی) به بالا است، یعنی محاسبات پیشخور ConvNet ستون فقرات. برای این مسیر پایین به بالا، یک مدل شناخته شده استفاده شده است و در شکل 2 ، ما از نسخه اصلاح شده ResNet 50 استفاده کردیم، اما آزمایش هایی را با مدل های دیگر انجام دادیم. برخلاف [ 10 ] که شبکه برای تصاویر بزرگ طراحی شده است، ما مدل را در برخی مکان ها تغییر می دهیم تا بتوانیم به طور کلی با تصویر کوچک کار کنیم (یعنی 48×48اندازه پیکسل در مورد خاص). به عنوان مثال، به عنوان ورودی، از یک اندازه هسته برابر با استفاده می کنیم (7،3،3)، با گام برداشتن =(1،1،1)و بالشتک =(3،1،1)، برای جلوگیری از رسیدن به بلوک ها ج4یا ج5شکل 2 را ببینید ) با اندازه تصویر =1×1. لایه های صاف بعد از بلوک ها را برداشتیم پ4، پ3و پ2شکل 2 را ببینید ) تا از تخریب بیش از حد سیگنال جلوگیری کنیم زیرا از تصاویر بسیار کوچک استفاده می کنیم.
اجازه دهید منآرب×تی×اچ×دبلیوسری زمانی با تصاویر T باشداچ×دبلیوبا کانال های B ، و اجازه دهیدy^=f(من)بخشی از شبکه باشد که تصویر I را به شاخص NDVI [ 19 ] تبدیل می کند (به معادله ( 2 ) مراجعه کنید) مرتبط با هر پیکسل. به این معنا که، y^آرتی×اچ×دبلیوخروجی آخرین لایه دوم به نام لایه NDVI است. خروجی نهایی yمن،j،جمدل، برای هر پیکسل محاسبه می شود (من،j)نقشه تقسیم بندی و برای هر کلاس جسی، را می توان با عملیات پیچیدگی زیر بین یک هسته نوشت تی×ک×کو y^ارزش های:

yمن،j،ج=تی=1تیj=1کمن=1کwمن،j،تیج·y^من+من،j+j،تی
بلوک های پایین به بالا و بالا به پایین ما به یک اندازه هستند تا از دست دادن اطلاعات بیش از حد از سری های زمانی جلوگیری شود. علاوه بر این، در بلوک معنایی قبل از خروجی، از هسته های سه بعدی به هسته های دو بعدی تغییر می کنیم. در نهایت، در لایه NDVI از یک تابع تلفات MSE برای پیش‌بینی شاخص گیاهی تفاوت عادی شده (NDVI) استفاده می‌کنیم.

نDVمن=نمنآرآرEDنمنآر+آرED=ب8ب4ب8+ب4

جایی که ب8و ب4دو باند طیفی از ماهواره Sentinel-2 هستند که در آن هر پیکسل مربوط به یک منطقه جغرافیایی است. 10×10متر NDVI یک اندازه گیری رادیومتری از تابش فعال فتوسنتزی جذب شده توسط کلروفیل در برگ های سبز است و بنابراین، یک شاخص ساده برای ارزیابی حضور و کمیت پوشش گیاهی سبز در هدف مشاهده شده است. در نظارت بر کشاورزی، سری زمانی NDVI اجازه می دهد تا دوره کاشت، رشد گیاه و برداشت محصولات را دنبال کنید. به لطف این رگرسیون قبل از لایه طبقه بندی، شبکه باید بگوید که کدام مقادیر NDVI سری زمانی ورودی به تعیین فعال سازی کلاس کمک می کند. ما از این وابستگی سوء استفاده می کنیم تا بتوانیم فاصله فعال سازی کلاس (CAI) را که در بخش زیر توضیح داده شده است محاسبه کنیم.

در شکل 3 ، دو نمونه از آنچه لایه NDVI در مرحله آموزش به عنوان هدف می بیند و آنچه در هر پیکسل پیش بینی می کند را نشان می دهیم (به عنوان میانگین و واریانس مقادیر تمام پیکسل های متعلق به آن کلاس نشان داده شده است). برای تولید مقادیر هدف، NDVI (معادله ( 2 )) را برای هر پیکسل با کلاس هدف یکسان محاسبه می کنیم و سپس همه این شاخص ها را در یک بردار واحد جمع می کنیم. تیمن،j=[تی1،تی2،،تیتی]به طوری که تمام پیکسل ها (من،j)جهمان بردار را مرتبط کرده اند. برای جمع آوری تمام مقادیر NDVI یک کلاس، میانگین را به اضافه یک فیلتر حداکثر متحرک 1 بعدی با اندازه 5 محاسبه می کنیم و خروجی توسط یک تابع ReLU فیلتر می شود تا فقط مقادیر مثبت به دست آید. با نگاهی به مثال منحنی خط چین قرمز متوسط ​​سیگنال NDVI در شکل 4 ، می‌توان دوره رشد و برداشت را مشاهده کرد که پس از تابستان انجام شد و سپس، برداشت، چیز دیگری شروع به رشد کرد. از همان شکل می توان مشاهده کرد که مقادیر واقعی NDVI بسیار نویز هستند و رویدادهایی مانند عبور یک ابر می تواند منجر به خطاهای طبقه بندی شود. به همین دلیل ما تصمیم گرفتیم که مقادیر واقعی NDVI را با میانگین محاسبه شده NDVI خود جایگزین کنیم.
ما از دو تابع ضرر برای آموزش مدل استفاده کردیم، از دست دادن MSE برای یادگیری روند NDVI و از دست دادن Cross Entropy برای یادگیری برچسب‌های کلاس مرتبط با هر پیکسل. بنابراین می توانیم باخت اول را برای یک امتیاز معرفی کنیم (من،j)مانند:

Lمن،jماسE(y^،تی)=(y^من،jتیمن،j)2
برای لایه آخر از یک تابع از دست دادن آنتروپی متقاطع استفاده کردیم که می توان آن را به صورت زیر نوشت

Lمن،jسیE(y،ج)=αجلogهyمن،j،جک=1سیهyمن،j،ک

جایی که yآرسی×اچ×دبلیوو αجوزنه ای برای کلاس c است که برای متعادل کردن مجموعه تمرینی استفاده می شود. تابع زیان یک نمونه با جمع کردن تمام دو تلفات که قبلا توضیح داده شد به دست می آید:

L=j=1اچمن=1دبلیوLمن،jسیE(y،ج)+λj=1اچمن=1دبلیوLمن،jماسE(y^،تی)
اینجا، λیک اسکالر است که به عنوان یک فراپارامتر منظم‌سازی استفاده می‌شود که می‌توان مقدار آن را برای نتایج بهتر بهینه کرد. توجه داشته باشید که معادله ( 5 ) شامل یک شاخص جدید برای مینی بچ می شود و سپس با استفاده از مجموع کاهش می یابد.

2.2. فواصل فعال سازی کلاس

در این بخش، ما روش تولید بازه فعال سازی کلاس (CAI) را با استفاده از یک شبکه عصبی کاملاً کانولوشنال (3+2)D توضیح می دهیم. CAI برای یک دسته خاص، فواصل متمایز استفاده شده توسط CNN برای شناسایی آن دسته را نشان می دهد (به چند نمونه در شکل 1 ، شکل 2 و شکل 3 و شکل 5 مراجعه کنید). روش مکان یابی این فواصل زمانی در شکل 5 نشان داده شده است . همانطور که در شکل 2 نشان داده شده است ، دو لایه کانولوشن با فیلترهای 2 بعدی ک×ک=3×3برای بدست آوردن دو لایه آخر که دو افت معادله ( 3 ) و ( 4 ) به آنها مرتبط است، استفاده شد. فرض کنید با کلاس های C و در نتیجه مطابقت هر پیکسل مشکل داریم(من،j)در ورودی، در خروجی یک بردار از عناصر داریم [y1،y2،،yسی]. همانطور که در معادله زیر ( 6 )، هر یک از این عناصر توضیح داده شده استyجبه عنوان خروجی یک کانولوشن به دست می آید و بنابراین فقط به عناصر موجود در یک همسایگی بستگی دارد (من،j،0)(من+ک،j+ک،تی)از لایه قبلی رسمی تر

yمن،j،ج=تی=1تیj=1کمن=1کwمن،j،تیج·y^من+من،j+j،تی=تی=1تیnمن،j،تیج
با تجزیه و تحلیل معادله ( 6 ) مشخص می‌شود که وقتی برچسب c کلاس برنده به دست آمد، می‌توان برای فهمیدن اینکه این مقدار خروجی به کدام بازه زمانی بستگی دارد، برگشت. بنابراین، برای دریافت فواصل فعال سازی کلاس در یک نقطه (من،j)، به این معنا که سیآمنمن،j=[nمن،j،1ج،،nمن،j،تیج]باید به صورت زیر عمل کنیم

nمن،j،تیج=j=1کمن=1کwمن،j،تیج·y^من+من،j+j،تی
مثبت nمن،j،تیجمقادیر نشان می دهد که تاریخ t سری زمانی حاوی اطلاعات مفید برای تعیین کلاس است، در حالی که مقادیر منفی نشان می دهد که تاریخ t در تعیین کلاس کمکی نمی کند.
توجه داشته باشید که از دست دادن معادله ( 5 ) را می توان به صورت موازی محاسبه کرد، اما اگر بخواهیم هر برچسب کلاس خروجی به مقادیر NDVI بستگی داشته باشد، لایه NDVI باید قبل از لایه تقسیم بندی خروجی قرار گیرد. اگر دو لایه را به صورت موازی قرار دهیم، نمی‌توانیم درباره وابستگی بین برچسب کلاس و فعال‌سازی NDVI با توجه به سری زمانی ورودی چیزی بگوییم و بنابراین نمی‌توانیم CAI را محاسبه کنیم.

3. مجموعه داده

در آزمایش‌های خود از مجموعه داده مونیخ استفاده شده در [ 20 ] که شامل بلوک‌های مربعی است استفاده کردیم48×48پیکسل ها شامل 13 باند Sentinel-2 (به برخی از نمونه ها در شکل 6 مراجعه کنید). هر بلوک 480 متری از یک منطقه جغرافیایی مورد علاقه (102 کیلومتر × 42 کیلومتر) واقع در شمال مونیخ، آلمان استخراج شد. در آزمایش‌های خود از تقسیم 0 مجموعه داده استفاده کردیم که شامل 6534 بلوک برای مجموعه آموزشی، 2016 بلوک برای مجموعه آزمایشی و 1944 بلوک برای مجموعه ارزیابی است.
حقیقت زمین یک تصویر دو بعدی است که شامل تقسیم بندی محصولات مختلف موجود در هر نمونه است، که در آن هر پیکسل دارای یک برچسب کلاس مرتبط است که از دو فصل رشد 2016 و 2017 به دست آمده است. داده های تقسیم بندی برای هر تاریخ سری زمانی نیست، بلکه با یک سال کامل مرتبط هستند، بنابراین در هر پیکسل، برچسب نشان دهنده محصول برداشت اعلام شده در آن سال است. 17 کلاس موجود در مجموعه داده در جدول 1 گزارش شده است. مجموعه داده حاوی اطلاعاتی درباره زمان حضور یک محصول (کاشت و رشد گیاه) و زمان غیبت آن (برداشت) در طول یک سال مشاهدات نیست. مجموعه داده‌ها به مجموعه‌های آموزشی، اعتبارسنجی و آزمون تقسیم شدند. مجموعه داده بسیار نامتعادل است و کاردینالیته دو مجموعه آخر در جدول 1 نشان داده شده است. کاردینالیته گزارش شده در مقاله [ 20 ] علیرغم استفاده از تقسیمات مشابه، با ما مطابقت ندارد، احتمالاً به این دلیل که از یک سری زمانی با تعداد نمونه های مختلف استفاده کردیم (30 نمونه در هر سری زمانی استخراج کردیم) یا به این دلیل که برخی از تقویت تصویر استفاده شده است. در مقاله آنها مجموعه داده اصلی را می توان از [ 21 ] دانلود کرد.

4. آزمایشات

ما سه گروه اصلی آزمایش را انجام داده‌ایم: در ابتدا، در بخش 4.1 ، برخی از تکنیک‌ها را برای خنثی کردن اثر مجموعه داده‌های نامتعادل آزمایش می‌کنیم. به عنوان آزمایش دوم، در بخش 4.2 ، مدل پیشنهادی را با ادبیات مقایسه می‌کنیم. در نهایت، در بخش 4.3 ، ما CAI تولید شده توسط مدل آموزش دیده را تجزیه و تحلیل می کنیم.
در آزمایش‌های خود، از برخی معیارهای شناخته شده برای ارزیابی خوب بودن مدل خود استفاده کردیم. به طور خاص، ما عمدتاً از دقت کلی، کاپا [ 22 ]، یادآوری، دقت و ضرایب اندازه گیری F برای مقایسه نتایج خود با نتایج منتشر شده در [ 20 ] استفاده می کنیم.
ما هیچ آزمایش سیستماتیکی انجام نداده‌ایم تا بفهمیم بهترین مقدار برای تخصیص به فراپارامتر چیست. λبرای تابع ضرر تعریف شده در رابطه ( 5 ) و بنابراین ما این مقدار را بر روی λ=1. ما هر آزمایش را برای 300 دوره اجرا می کنیم. بهینه ساز SGD [ 23 ] است، با تکانه برابر با 0.9، کاهش وزن 0.001 و با نرخ یادگیری اولیه 0.01 و زمانبندی که از تابع کسینوس برای کاهش نرخ یادگیری پس از هر دوره استفاده می کند. تمام سری های زمانی مورد استفاده از 30 نمونه استخراج شده به طور تصادفی از هر یک از دو سال موجود تشکیل شده است.
مدل های آموزش دیده در pythorch-hub [ 24 ] و کد منبع برای اجرای آزمایش ها در یک مخزن gitlab [ 24 ] موجود است.

4.1. آزمایش های عدم تعادل طبقاتی

تقریباً همه مجموعه داده‌های تقسیم‌بندی کاربری زمین مشکل غلبه برخی طبقات بر سایرین را دارند. اینکه کدام طبقات نسبت به سایرین غالب هستند، این بستگی به منطقه جغرافیایی، فصل و وسعت قلمرو مورد تجزیه و تحلیل دارد. علاوه بر این، به همین دلیل، تقسیم بندی چند طبقه برای مشکلات پوشش زمین از طریق تجزیه و تحلیل تصاویر ماهواره ای هنوز یک مشکل چالش برانگیز باقی مانده است. تعداد نمونه‌ها از مجموعه داده آموزشی مورد استفاده برای تخمین گرادیان خطا در طول آموزش، اندازه دسته نامیده می‌شود و یک فراپارامتر مهم است که بر مدل آموزش‌دیده حاصل تأثیر می‌گذارد. اگر مجموعه داده نامتعادل باشد، تعداد پیکسل‌های متعلق به هر کلاس که شبکه عصبی برای محاسبه گرادیان استفاده می‌کند به اندازه دسته بستگی دارد. اگر دسته خیلی بزرگ باشد، کلاس‌های غالب کلاس‌هایی را که نمونه‌های بسیار کمی دارند، کاملاً خرد می‌کنند، در حالی که اگر دسته کوچک باشد، تعداد پیکسل‌های هر کلاس متعادل‌تر است. به همین دلیل، در این آزمایش اول، ما به طور تجربی اثر اندازه دسته را به همراه دو تکنیک توزین کلاس تجزیه و تحلیل می کنیم.
در این بخش، عملکرد مدل پیشنهادی را بدون لایه NDVI، با استفاده از تکنیک‌های مختلف برای مقابله با اثر ناشی از مجموعه داده نامتعادل، تحلیل می‌کنیم. به طور خاص، ما از دو نوع مختلف استفاده می کنیم αجوزن تابع از دست دادن (به معادله ( 4 ) مراجعه کنید) که در زیر توضیح داده شده است، برای مقابله با اثر عدم تعادل کلاس‌هایی که در مجموعه داده داریم، و سپس آن را با وزن مقایسه می‌کنیم. αج=1برای تمام کلاس ها (بدون وزن). به عنوان مسیر پایین به بالا FPN پیشنهادی (3+2)D، در این آزمایش‌ها از ResNet1 01 استفاده می‌کنیم.
در جدول 2 نتایجی از مدل داریم که فقط از آنتروپی متقاطع تعریف شده در رابطه ( 4 ) استفاده می کند اما بدون αجوزن (بدون وزن) و ما آن را با طرح وزن دهی (وزن دسته ای) مقایسه می کنیم که بر اساس «تعداد مؤثر نمونه» در هر دسته [ 25 ] اختصاص داده شده به αجوزن، و با استراتژی های وزن دهی بر اساس تعداد کل نمونه های موجود در هر کلاس (وزن جهانی) حتی به αجوزن. طرح وزن پیشنهادی در [ 25 ]، برای هر دسته از مجموعه آموزشی، تعداد نمونه های واقعی را محاسبه می کند. nجدر هر کلاس c . وزن موثر مورد استفاده در هر دسته با استفاده از یک فرمول ساده تعریف می شود αج=(1β)/(1βnج)، جایی که β[0،1)یک هایپر پارامتر است. در اوزان جهانی از وزنه استفاده می کنیم αج=حداکثرج(nج)/nج)برای هر کلاس، با استفاده از کل مجموعه آموزشی محاسبه می شود.
با تجزیه و تحلیل دقت کلی (OA)، کاپا، فراخوان وزنی (wR)، دقت (wP) و اندازه گیری F (w.F1) در جدول 2 و نمودارهای شکل 7 ، می بینیم که تکنیک های وزن دهی تابع از دست دادن منجر نمی شود. به هر گونه مزیت در این مجموعه داده. از سوی دیگر، باید توجه داشت که اندازه دسته (به ستون دوم با برچسب دسته در جدول 2 مراجعه کنید ) تأثیر زیادی بر نتیجه دارد و سپس اندازه دسته بسیار کوچک اجازه می دهد تا بهترین نتایج را به دست آورید. از جدول 1 می بینیم که کلاسی که کمترین تعداد پیکسل (ستون #pix) را در مجموعه اعتبارسنجی دارد، کلاس مارچوبه است. در حالی که در شکل 7 اثر وزن αجتابع از دست دادن و اثر اندازه دسته را می توان به عنوان تابعی از تعداد نمونه برای هر کلاس تجزیه و تحلیل کرد. تجزیه و تحلیل، به عنوان مثال، کلاس مارچوبه زمانی که وزن αج=1برای همه کلاس ها (نقشه بالای شکل 7 ) می بینیم که بهترین نتایج زمانی حاصل می شود که از اندازه کوچک باخ استفاده کنیم. در نتیجه این آزمایش‌ها، در آزمایش‌های دیگر از وزن استفاده نمی‌کنیم αج.

4.2. مقایسه ها

مجموعه داده های دامنه عمومی کمی در زمینه سنجش از دور وجود دارد، و به ویژه، مجموعه داده های عمومی تقسیم بندی چند طبقه، مناسب برای آموزش یک مدل عمیق، نادر هستند. در این بخش، نتایج مقایسه بین روش خود و نتایج مرتبط با تنها مجموعه داده عمومی موجود را نشان می‌دهیم [ 20 ]. علاوه بر این، ما یک تجزیه و تحلیل در مورد استفاده از ResNet های مختلف مورد استفاده به عنوان ستون فقرات بلوک پایین به بالا مدل پیشنهادی انجام دادیم. نتایج در جدول 3 گزارش شده است و نشان می دهد که با افزایش پیچیدگی بلوک پایین به بالا، دقت طبقه بندی بهبود می یابد. ما به دلیل در دسترس بودن سخت افزار محدود از مدل های پیچیده تر استفاده نکرده ایم، اما احتمالاً باید با استفاده از مدل های قدرتمندتر نتایج بهتری بگیریم.
در جدول 1 ، نتایج مقایسه انجام شده را با آنچه در مقاله روسبورم و کورنر [ 20 ] منتشر شده گزارش می‌کنیم و می‌توانیم نتیجه بگیریم که مدل پیشنهادی ما از نقطه نظر همه معیارهای مورد استفاده در این مقایسه بهتر عمل می‌کند. اگرچه کاردینالیته در هر کلاس یکسان نیست، می‌توانیم ببینیم که رفتار (3+2)D FPN هم در اعتبارسنجی و هم در مجموعه آزمایشی بسیار مشابه است.

4.3. آزمایش‌هایی روی CAI و مطالعه فرسایش

برای ارزیابی کیفیت بازه‌های فعال‌سازی کلاس‌های پیش‌بینی‌شده توسط شبکه، ما هیچ ارزش پایه‌ای نداریم و بنابراین از کارشناسان نظر خواستیم. نتیجه تولید شده مطابق با دانش کارشناسان است. به عنوان مثال، از شکل 3 می توانیم ببینیم که چگونه برای CAI کلاس ذرت، مدل فاصله زمانی را که از ماه می تا ابتدای نوامبر می رود، پیش بینی کرده است، در حالی که برای گندم زمستانهاین مدل یک CAI را پیش‌بینی کرده است که از اواخر آوریل تا اوایل جولای ادامه می‌یابد، علیرغم اینکه مقادیر NDVI هنوز بالا هستند. این مقدار بالای NDVI معمولاً به دلیل حضور علف های هرز، رشد مجدد پس از برداشت و محصول بعدی است. در واقع، مدل در این داده‌های پر سر و صدا و پیچیده، حوزه زمانی را شناسایی کرد که به طور منحصر به فردی با رشد گندم مرتبط است.
برای درک اینکه چگونه CAI با تغییر وصله‌ای که روی آن محاسبه می‌شود تغییر می‌کند، کلاس گندم زمستانه را در نظر گرفته‌ایم و همه بردارهای CAI را در کل مجموعه آزمایشی محاسبه کرده‌ایم. ما در شکل 8 یک مقدار میانگین مجموع برای هر وصله نشان می‌دهیم، و می‌توانیم ببینیم که چگونه بازه زمانی مرتبط با این کلاس با توجه به پچ تغییر نمی‌کند، حتی اگر میانگین مقادیر فعال‌سازی باشد. nمن،j،تیجکمی تغییر کند شبکه مورد استفاده در این آزمایش از Resnet 101 به عنوان بلوک پایین به بالا استفاده می کند و نتایج عددی در جدول 1 گزارش شده است.
برای درک تأثیر یادگیری شاخص‌های NDVI با هدف پیش‌بینی CAI، ما همچنین یک مطالعه ابلیشن انجام دادیم که در آن از دست دادن MSE در طول آموزش حذف می‌کنیم و این نتیجه را با همان مدلی که از تابع ضرر استفاده می‌کند مقایسه می‌کنیم. از نتایج عددی گزارش شده در جدول 3 می‌توان دید که ضرر MSE تأثیر زیادی بر عملکرد طبقه‌بندی ندارد.

5. نتیجه گیری ها

مدل پیشنهادی نشان‌دهنده یک روش کارآمد برای تولید نقشه‌های محصول با بهره‌برداری از اطلاعات مکانی-زمانی داده‌های S2 است. FPN (3+2)D پیشنهادی وقتی روی داده‌های Sentinel-2 اعمال می‌شود بسیار خوب عمل می‌کند و راه‌حل پیشنهادی را بیش از حد انجام می‌دهد. کار انجام شده دری را برای مطالعات جدید در زمینه درک الگوریتم های یادگیری عمیق در کاربردهای کشاورزی و محیطی باز می کند. ما در نظر می گیریم که روش توصیف شده نشان دهنده گامی رو به جلو برای درک رفتار مدل های یادگیری عمیق در کاربردهای کشاورزی است. ارائه مقادیر CAI در سطح پیکسل راهی برای ارزیابی استحکام تفسیر شبکه کلاس معنایی در نظر گرفته شده است. اگر دوره زمانی (یعنی زیرمجموعه سری های زمانی تصویر) که به عنوان اهمیت شبکه در نظر گرفته می شود، با روش های کشاورزی شناخته شده موافق باشد (یعنی دوره کاشت محصولات زراعی) می توان از صادرات پذیری روش در زمینه های دیگر اطمینان داشت. علاوه بر این، تکنیک پیشنهادی برای تفسیر بازه فعال‌سازی یک کلاس در حوزه زمانی بسیار نوآورانه است و می‌تواند با سایر حوزه‌هایی که از مدل‌های عمیق کاملاً پیچیده استفاده می‌کنند، تطبیق داده شود. علاوه بر این، در کنار سهم نوآورانه در حوزه تشخیص الگو، ما در نظر می‌گیریم که این نتایج دلگرم‌کننده می‌تواند کمک بسیار زیادی برای کاربر نهایی باشد. به‌ویژه تشخیص خودکار «مکان و زمان» محصولات کشاورزی یک حمایت اساسی از برنامه‌ریزان و سیاست‌گذاران سرزمینی است. به ویژه در زمینه اروپا، سیاست مشترک کشاورزی (CAP) به حمایت از کشاورزان با ارائه یارانه بر اساس محصول کشت شده و انجام اقدامات کشاورزی مناسب اختصاص داده شده است. آژانس های پرداخت،https://esa-sen4cap.org/ ، مشاهده شده در 11 ژوئیه 2021). مدل تقسیم‌بندی پیشنهادی اطلاعات مکانی بسیار جالبی (که محصول کجاست) و زمانی (زمانی که کشت می‌شود) به عنوان پشتیبانی برای کاربران علاقه‌مند به نظارت بر پویایی محصول برای یک منطقه جغرافیایی معین فراهم می‌کند. برای کمک بیشتر به پایش محصولات با توجه به کشاورزی پایدار و شیوه‌های سازگار با آب و هوا، گام بعدی بالقوه این مطالعه، آزمایش امکان ارائه نشانه‌هایی در مورد وضعیت زمین (چه مدت و برای چه مدت) قبل و بعد از کشت محصول برای شناسایی خاک خواهد بود. مدیریتی مانند وجود گیاهان پوششی و یا بقایایی که نشانگر اقدامات حفاظتی کشاورزی هستند. به این ترتیب، مدل باید برای هر پیکسل از نقشه تقسیم‌بندی خروجی، دارای چند برچسب و همچنین چند کلاسه شود.

مشارکت های نویسنده

مفهوم سازی، ایگنازیو گالو و میرکو بوشتی. روش شناسی، ایگنازیو گالو؛ نرم افزار، ایگنازیو گالو، نیکولا لندر و ریکاردو لا گراسا. اعتبار سنجی، تجزیه و تحلیل رسمی، تحقیق، نوشتن، ایگنازیو گالو، نیکولا لاندرو، ریکاردو لا گراسا و میرکو بوشکتی. سرپرستی داده، میرکو بوشتی. همه نویسندگان نسخه منتشر شده نسخه خطی را خوانده و با آن موافقت کرده اند.

منابع مالی

این تحقیق هیچ بودجه خارجی دریافت نکرد.

بیانیه هیئت بررسی نهادی

قابل اجرا نیست.

بیانیه رضایت آگاهانه

قابل اجرا نیست.

تضاد علاقه

نویسندگان هیچ تضاد منافع را اعلام نمی کنند.

منابع

  1. سوچور، ج. هروت، ا. Havel, J. Boxcars: جعبه‌های سه‌بعدی به‌عنوان ورودی cnn برای بهبود تشخیص ریزدانه خودرو. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، لاس وگاس، NV، ایالات متحده، 27-30 ژوئن 2016. صص 3006–3015. [ Google Scholar ]
  2. لیو، جی. کائو، ال. آکین، او. Tian, ​​Y. تشخیص دقیق و قوی ندول ریوی توسط شبکه هرمی ویژگی سه بعدی با آموزش ویژگی های خود نظارتی. arXiv 2019 ، arXiv:1907.11704. [ Google Scholar ]
  3. سیمونیان، ک. Zisserman، A. شبکه های کانولوشن دو جریانی برای تشخیص عمل در ویدیوها. Adv. عصبی Inf. روند. سیستم 2014 ، 27 ، 568-576. [ Google Scholar ]
  4. فایختنهوفر، سی. پینز، ا. Zisserman، A. ادغام شبکه دو جریانی کانولوشن برای تشخیص اقدام ویدیویی. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، لاس وگاس، NV، ایالات متحده، 27-30 ژوئن 2016. صفحات 1933-1941. [ Google Scholar ]
  5. بورچانو، ای. Leordeanu، M. یک رویکرد کانولوشنال سه بعدی برای تقسیم بندی اشیاء طیفی در فضا و زمان. در مجموعه مقالات بیست و نهمین کنفرانس مشترک بین المللی هوش مصنوعی، IJCAI، وین، اتریش، 23 تا 29 ژوئیه 2020؛ صص 495-501. [ Google Scholar ]
  6. هارا، ک. کاتائوکا، اچ. Satoh, Y. آیا cnns های 3 بعدی فضایی و زمانی می توانند تاریخچه cnn های 2 بعدی و imagenet را بازیابی کنند؟ در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، سالت لیک سیتی، UT، ایالات متحده آمریکا، 18 تا 23 ژوئن 2018؛ صص 6546–6555. [ Google Scholar ]
  7. کیو، ز. یائو، تی. Mei, T. یادگیری نمایش مکانی-زمانی با شبکه‌های باقیمانده شبه سه بعدی. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، ونیز، ایتالیا، 22 تا 29 اکتبر 2017؛ صص 5533-5541. [ Google Scholar ]
  8. تران، دی. وانگ، اچ. تورسانی، ال. ری، جی. LeCun، Y.; پالوری، ام. نگاهی دقیق تر به پیچیدگی های مکانی-زمانی برای تشخیص کنش. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، سالت لیک سیتی، UT، ایالات متحده آمریکا، 18 تا 23 ژوئن 2018؛ صص 6450–6459. [ Google Scholar ]
  9. جریان داده نگهبان از برنامه کوپرنیک. 2021. در دسترس آنلاین: https://www.copernicus.eu/en (در 11 ژوئیه 2021 قابل دسترسی است).
  10. لین، TY; دلار، پی. گیرشیک، آر. او، ک. حریهاران، بی. Belongie, S. شبکه های هرمی را برای تشخیص اشیا مشخص کنید. در مجموعه مقالات کنفرانس IEEE در مورد دید رایانه و تشخیص الگو، هونولولو، HI، ایالات متحده آمریکا، 21 تا 26 ژوئیه 2017؛ صص 2117–2125. [ Google Scholar ]
  11. سفربکوف، اس.اس. ایگلوویکوف، وی. بوسلایف، آ. Shvets، A. ویژگی شبکه هرمی برای تقسیم زمین چند طبقه. در مجموعه مقالات کنفرانس IEEE/CVF در کارگاه های آموزشی بینایی کامپیوتری و تشخیص الگو (CVPRW)، سالت لیک سیتی، UT، ایالات متحده آمریکا، 2018؛ صص 272-275. [ Google Scholar ]
  12. رونبرگر، او. فیشر، پی. Brox، T. U-net: شبکه های کانولوشن برای تقسیم بندی تصاویر زیست پزشکی. در کنفرانس بین المللی محاسبات تصویر پزشکی و مداخله به کمک رایانه ؛ Springer: برلین/هایدلبرگ، آلمان، 2015; صص 234-241. [ Google Scholar ]
  13. آیزنسی، اف. Jäger، PF; Kohl, SA; پترسن، جی. Maier-Hein، KH طراحی خودکار روش‌های یادگیری عمیق برای تقسیم‌بندی تصویر پزشکی. arXiv 2019 ، arXiv:1904.08128. [ Google Scholar ]
  14. ژو، بی. خسلا، ع. لاپدریزا، ا. اولیوا، ا. Torralba، A. یادگیری ویژگی های عمیق برای محلی سازی متمایز. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، لاس وگاس، NV، ایالات متحده، 27-30 ژوئن 2016. صفحات 2921-2929. [ Google Scholar ]
  15. ژو، بی. خسلا، ع. لاپدریزا، ا. اولیوا، ا. Torralba، A. آشکارسازهای شی در cnns های صحنه عمیق ظاهر می شوند. arXiv 2014 ، arXiv:1412.6856. [ Google Scholar ]
  16. سلواراجو، آر.آر. کگزول، ام. داس، ا. ودانتام، ر. پریخ، د. Batra, D. Grad-cam: توضیحات بصری از شبکه های عمیق از طریق محلی سازی مبتنی بر گرادیان. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، ونیز، ایتالیا، 22 تا 29 اکتبر 2017؛ صص 618-626. [ Google Scholar ]
  17. کریلوف، آ. گیرشیک، آر. او، ک. Dollár, P. Panoptic دارای شبکه های هرمی هستند. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 15 تا 20 ژوئن 2019؛ صص 6399–6408. [ Google Scholar ]
  18. زو، ال. دنگ، ز. هو، ایکس. فو، CW; خو، X. کوین، جی. شبکه هرمی دو جهته Heng، PA با ماژول‌های باقیمانده توجه مکرر برای تشخیص سایه. در مجموعه مقالات کنفرانس اروپایی بینایی کامپیوتر (ECCV)، مونیخ، آلمان، 8 تا 14 سپتامبر 2018؛ صص 121-136. [ Google Scholar ]
  19. راسل، جی. هاس، آر. شل، جی. Deering، D. نظارت بر سیستم های پوشش گیاهی در دشت های بزرگ با ERTS. در مجموعه مقالات سومین ماهواره فناوری منابع زمین-1 سمپوزیوم; ناسا: واشنگتن، دی سی، ایالات متحده آمریکا، 1974; صص 309-317. [ Google Scholar ]
  20. روسبورم، ام. Körner، M. طبقه بندی پوشش زمین چند زمانی با رمزگذارهای تکراری متوالی. ISPRS Int. J. Geo-Inf. 2018 ، 7 ، 129. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  21. Rußwurm، MKM Munich Dataset. 2018. در دسترس آنلاین: https://github.com/tum-lmf/mtlcc-pytorch (در 11 ژانویه 2021 قابل دسترسی است).
  22. مک هیو، پایایی Interrater ML: آمار کاپا. بیوشیمی. مدیکا بیوشیم. Medica 2012 ، 22 ، 276-282. [ Google Scholar ] [ CrossRef ]
  23. رابینز، اچ. مونرو، اس. روش تقریب تصادفی. ان ریاضی. آمار 1951 ، 22 ، 400-407. [ Google Scholar ] [ CrossRef ]
  24. گالو، آی. لا گراسا، آر. لندر، ن. Boschetti، M. Pytorch کد منبع برای مدل پیشنهادی در این مقاله. 2021. در دسترس آنلاین: https://gitlab.com/ignazio.gallo/sentinel-2-time-series-with-3d-fpn-and-time-domain-cai (در 11 ژوئیه 2021 قابل دسترسی است).
  25. کوی، ی. جیا، م. لین، TY; آهنگ، ی. Belongie، S. اتلاف متوازن کلاس بر اساس تعداد موثر نمونه. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 15 تا 20 ژوئن 2019. [ Google Scholar ]
شکل 1. نمایش تکنیک پیشنهادی برای بازه فعال سازی کلاس (CAI). CNN کاملاً پیچیده که برای تقسیم‌بندی تصویر آموزش دیده است، قادر به شناسایی بازه‌های زمانی سری‌های زمانی ورودی است که حضور کلاس را تعیین می‌کند. CAI را می توان در یک مرحله رو به جلو محاسبه کرد: برای طبقه بندی ذرت، نتایج مربوط به داده ها را از ماه می تا اکتبر نشان می دهد.
شکل 2. طرح خلاصه از مدل کانولوشن پیشنهادی. لایه های سبز سمت چپ نشان دهنده مسیر پایین به بالا است که در اینجا با نسخه اصلاح شده ResNet 50 نشان داده شده است. خروجی آخرین لایه هر بلوک برای غنی سازی مسیر بالا به پایین (لایه های زرد) با اتصال جانبی استفاده می شود. نقشه های ویژگی از مسیر پایین به بالا و مسیر از بالا به پایین با افزودن عناصر ادغام می شوند. این مجموعه از نقشه های ویژگی نامیده می شود {پ2،پ3،پ4،پ5}، مربوط به {سی2،سی3،سی4،سی5}که به ترتیب از یک شکل هستند. برای به دست آوردن آخرین بلوک برای پیش بینی {اس2،اس3،اس4،اس5}، برخی از هسته های سه بعدی استفاده می شوند که منجر به نقشه های ویژگی هایی با ابعاد 1 می شوند که حذف می شوند. خروجی‌های دو کانولوشن دو بعدی آخر توسط MSE Loss و Cross-Entropy Loss برای محاسبه نقشه تقسیم‌بندی و فواصل فعال‌سازی کلاس استفاده می‌شوند.
شکل 3. دو مثال واقعی که شاخص NDVI هدف (خط سبز) را برای دو نمونه آزمایش مختلف استخراج شده از مجموعه آزمایشی مونیخ نشان می دهد. خروجی های پیش بینی شده توسط شبکه برای هر پیکسل از نمونه ورودی با مقادیر میانگین و واریانس (نوارهای قرمز) نشان داده می شود. به رنگ آبی، مقدار فاصله فعالسازی کلاس برای دو کلاس گندم زمستانه ( پانل بالا ) و ذرت ( پانل پایین ) است.
شکل 4. منحنی های رنگی پیوسته، NDVI واقعی تمام پیکسل های کلاس “گندم زمستانه” موجود در یک پچ با اندازه 48 × 48 پیکسل، در یک سال (30 نمونه) هستند. در حالی که منحنی خط چین قرمز نشان دهنده مقدار متوسط ​​محاسبه شده توسط ما است. توجه داشته باشید که مقدار متوسط ​​همیشه مثبت است زیرا سیگنال را با یک تابع RELU فیلتر کردیم.
شکل 5. نمایش شماتیک دو لایه آخر مدل عصبی درگیر در محاسبه بازه های فعال سازی کلاس. شروع از ویژگی های کل [y^1،،y^تی]می توان بردار فعال سازی ها را بدست آورد [y1،،yسی]برای تعیین کلاس مرتبط با یک پیکسل و بالعکس، می توان فواصل فعال سازی کلاس را به دست آورد. [n1،،nتی]با شروع از مقادیر [y1،،yسی].
شکل 6. ( A )–( D ) چهار نمونه تصادفی از جفت ورودی-خروجی از مجموعه داده مونیخ. ورودی سمت چپ به عنوان یک تصویر RGB نشان داده می شود، در حالی که خروجی برچسب های کلاس را به صورت رنگ نشان می دهد.
شکل 7. دقت مدل 3 بعدی FPN زیرا اندازه دسته در مجموعه داده مونیخ متفاوت است. نمودار بالا نشان می دهد که چگونه دقت برای هر کلاس با تغییر اندازه دسته در مرحله تمرین وقتی که وزن تابع کاهش برای هر دسته تغییر می کند، تغییر می کند. نمودار پایین سه روش مختلف وزن دهی تابع کاهش را در زمانی که اندازه دسته 2 و 32 است مقایسه می کند.
شکل 8. میانگین CAIهای محاسبه شده برای همه وصله های مجموعه آزمایشی مونیخ که حاوی حداقل 100 پیکسل هستند که با کلاس گندم زمستانه برچسب گذاری شده اند. مقادیر CAI برای هر پچ با استفاده از میانگین جمع‌آوری شد. محور X مقادیر صحیح را از 1 تا تعداد تصاویر استفاده شده در سری های زمانی گزارش می کند و بنابراین نمونه ای از دوره زمانی تحلیل شده در هر سری است (یک سال در این مقاله). محور Y نشان دهنده فعال شدن کلاس پیش بینی شده خروجی (CAI) در تاریخی است که در سری زمانی ورودی مشاهده کرد.

بدون دیدگاه

دیدگاهتان را بنویسید