1. مقدمه
بحران تنوع زیستی، به عنوان مثال، از بین رفتن گونه ها در سراسر جهان و آسیب به اکوسیستم ها، به شتاب ادامه داده است. مطالعه حضور و رفتار حیوانات در خطر انقراض در پرداختن به چالش های محیطی، مانند گونه های مهاجم، آب و هوا و تغییر کاربری زمین بسیار مهم است [ 1 ]. با پیشرفت در جمع آوری داده ها و فناوری های بینایی رایانه ای برای تشخیص و ردیابی حیات وحش، تحقیقات تنوع زیستی به سرعت در حال تبدیل شدن به یک رشته غنی از داده است. داده های تصویربرداری در تجزیه و تحلیل گذشته نگر و نظارت بر حضور و رفتار گونه های جانوری در خطر انقراض ضروری شده اند [. 2 ]]. بهره برداری دستی از داده های تصویر برای وضعیت برنامه غیرممکن است. بنابراین، لازم است که عدم قطعیت را در نظر بگیریم و روشهای تشخیص خودکار را پیشنهاد کنیم.
GIS سنتی و تجزیه و تحلیل فضایی دارای محدودیت هایی در پیچیدگی مدل در پرداختن به داده های بزرگ هستند که طبیعتاً پیچیده هستند. موفقیتهای اخیر در یادگیری عمیق منجر به استفاده از روشهای محاسباتی خودکار برای نظارت بر حیوانات در حال انقراض، از جمله تکنیکهای خودکار پردازش تصویر و ویدئو برای تشخیص دقیق دستههای مختلف اشیا و حیوانات شده است [ 3 ]. با این حال، توسعه این روش ها توسط مجموعه داده های آموزشی در مقیاس بزرگ مخدوش شده است. در نتیجه، این مدل در کاربردهای چند شات، مانند تشخیص حیوانات در خطر انقراض، بیش از حد برازش شدید را نشان میدهد و معمولاً به دلیل کمبود شدید نمونههای آموزشی، نمیتواند کار کند. برای پرداختن به این موضوع، اخیراً، بسیاری از مطالعات بر روی مدلهای تشخیص شی چند شات متمرکز شدهاند [ 4 ، 5 ] 6 ]. به طور کلی این روش ها عمدتاً شامل دو مرحله آموزشی می باشند. اول، فراآموزش [ 7 ، 8 ] از طریق استفاده از مثالهای زیادی از کلاس پایه انجام میشود تا مدل بتواند مستقل از کار فعلی، توانایی تعمیم را به دست آورد. دوم، تنها چند نمونه کلاس جدید برای تنظیم دقیق آموزش استفاده میشود تا کار تشخیص شی با مدلهای ناشناخته تکمیل شود. با این حال، این روش ها کاربرد محدودی در حساسیت های زمینه دارند و تنها صحنه های منفرد و ساده را ارائه می دهند. در مقابل، تشخیص عملی حیوانات وحشی بر اشیاء و زمینههای مختلف تأکید دارد. بنابراین، کاربردهای مستقیم راهحلهای یادگیری چند شات موجود، زمانی که وظیفه تشخیص حیوانات در خطر انقراض را بر عهده دارند، عملکرد نامناسبی دارند.
در اینجا، ما چارچوبی را نشان میدهیم که انطباق با یک محیط در حال تغییر پویا را برای تشخیص حیوانات در خطر انقراض پیشنهاد میکند، که اجازه میدهد یادگیری چند شات در سناریوهای مختلف با وابستگی فضایی اعمال شود. علاوه بر این، از یک پیشنهاد جدید استفاده میکند: مجموعهای از اشیا و محیطها بهجای اینکه بهصورت جداگانه شناسایی شوند، پردازش، ترکیب میشوند و بر یکدیگر تأثیر میگذارند. به عنوان مثال، با توجه به یک تصویر حیوان در حال انقراض، ماژول ابتدا از شبکه برجسته U2-Net [ 9 ] از پیش آموزش دیده برای تقسیمبندی پیشزمینه و پسزمینه خود استفاده میکند. سپس از شبکه CR-Fill که از قبل آموزش داده شده است استفاده می کند [ 10] برای تعمیر قطعات گم شده. در نهایت، پیشزمینه و پسزمینه را از تصاویر جداگانه مخلوط کردیم تا نمونههای جدیدی تولید کنیم. در حالی که مخلوط پیش زمینه-پس زمینه می تواند برای تقویت داده ها موثر باشد، برنامه فاقد دانش معنایی جغرافیایی است. این ممکن است منجر به پسزمینههای بسیاری شود که نسبت به پیشزمینه نابهنگام هستند. به عنوان مثال، Nipponia Nippon نمی تواند در بیابان ظاهر شود. با توجه به همبستگی محیطی بین حیوانات در معرض خطر و عوامل محیطی، ما یک فرهنگ لغت دانش و یک شبکه ارتباطی را در چارچوب محدودیت فضایی پیشنهاد میکنیم. با محاسبه امتیازات رابطه در چارچوب، ما یک مدل وابستگی فضایی پیشینی را با هدف محدود کردن اختلاط تصاویر پیشزمینه و پسزمینه فقط به آنهایی که منطقی هستند، توسعه دادیم.
ماژول پیشنهادی کلی است و به تشخیص حیوانات محدود نمی شود و به عنوان یک بلوک ساختمانی ضروری است که به طور انعطاف پذیر در هر معماری قابل استفاده است. کمک های اصلی ما به شرح زیر است:
- (1)
-
ما یک مجموعه داده تصویری جدید میسازیم که به شناسایی حیوانات در معرض خطر، از جمله دستههای حیوانات مستقل، خواه در معرض خطر هستند یا نه، اختصاص داده شده است. گونه های در حال انقراض تنها در چند نمونه نشان داده شده اند، در حالی که گونه های در معرض خطر در نمونه های بیشتری نشان داده شده اند.
- (2)
-
ما یک چارچوب جدید برای تشخیص حیوانات در معرض خطر با استفاده از یادگیری چند شات پیشنهاد میکنیم، که میتواند در سناریوهای ناشناخته با تقویت بخشهای تولید مصنوعی تصاویر جداگانه مفید باشد.
- (3)
-
ما یک مدل محدودیتهای فضایی را با دو جزء اصلی ارائه میکنیم: فرهنگ لغت دانش و شبکه ارتباط، بنابراین از اختلاط گونههای پیشزمینه با تصاویر پسزمینه ناسازگار از منظر جغرافیایی جلوگیری میکنیم.
2. آثار مرتبط
روش پیشنهادی با یک کار چالش برانگیز در فرآیند شناسایی حیوانات در حال انقراض سر و کار دارد، کاری که در افزایش داده ها و یادگیری چند شات به وجود می آید، که ارتباط نزدیکی با دو جریان تحقیق در ادبیات دارد، یعنی تشخیص داده محور حیوانات وحشی. حیوانات ( بخش 2.1 ) و یادگیری چند شات ( بخش 2.2 ).
2.1. تشخیص حیوانات وحشی مبتنی بر داده
حوزه نوظهور علم غنی از داده، مدلهای بینایی کامپیوتری را برای تشخیص الگو برای شناسایی گونههای جانوری متعدد از طریق ظاهر فنوتیپی اتخاذ کرده است [ 11 ]. از نظر عملی، روشهای شناسایی حیوانات فردی برای لمورها [ 12 ]، ماکاکها [ 13 ] و شامپانزهها [ 14 ] اعمال شده است. یک مانع اساسی، توسعه مدلهای قوی برای اجرا بر روی مجموعههای داده بسیار چالش برانگیز، مانند آنهایی که پسزمینههای درهم ریخته دارند، است [ 15 ]. این مسئله میتواند تفریق پسزمینه را با آستانهها و تطبیق رنگ انجام دهد [ 16]. اخیراً، یادگیری عمیق تجزیه و تحلیل مجموعه دادههای بیومتریک حیوانات و انجام وظایف تصویربرداری پیچیده، از جمله تقسیمبندی و طبقهبندی را ممکن کرده است [ 17 ، 18 ]. در حالی که این روش ها کمک های ارزشمندی کرده اند، اما در برابر تغییرات محیطی اجتناب ناپذیر مقاوم نیستند. چالش توسعه مدل هایی است که در تصاویر با نور ضعیف یا محیط های نامشخص به خوبی کار کنند [ 19 ]. با توجه به مطالعات با استفاده از یادگیری عمیق، شناسایی مجدد فردی برای تحقیق در مورد رفتار حیوانات در طبیعت حیاتی بوده است. 20 ]]. با این حال، این به تنهایی نمی تواند پیچیدگی کامل حیوانات و محیط را به تصویر بکشد. رویکردهای موجود مبتنی بر ویژگیهای زمانی یا مکانی در قابلیت تطبیقی محدود هستند. علاوه بر این، آنها به یک محیط ثابت و ثابت نیاز دارند که شناسایی حیوانات در معرض خطر ناشناخته را به طور ذاتی چالش برانگیز می کند. در عمل، ماهیت رویکردهای تشخیص حیوانات وحشی در انطباق سریع با داده های جدید نهفته است، بنابراین یک چالش باز باقی می ماند.
در مقابل، کار ما با فرمولبندی یک ماژول آگاه از متن تطبیقی بهعنوان یک کار یادگیری چند مرحلهای، گامی رو به جلو برداشته و از یک شبکه برجسته و شبکه نقاشی برای شناسایی حیوانات وحشی برای کاهش چالش استفاده میکند.
2.2. آموزش چند شات
موفقیت های اخیر در هوش مصنوعی مزایای گسترده ای را ارائه می دهد. با این حال، یادگیری مفاهیم جدید از نمونه های بسیار کمی برای رویکردهای بینایی کامپیوتری یک چالش مهم باقی می ماند [ 21 ، 22 ]. پردازش میلیونها تصویر از تلههای دوربین و سایر مطالعات برای محققان دشوار است. تمرکز اساسی برای توسعه اولیه، ترکیب اشیاء از قطعات با استفاده از مدلهای احتمالی است [ 23 ]. پیشرفت در یادگیری عمیق امکان استفاده از تقویت داده [ 24 ، 25 ]، تقویت حافظه [ 26 ، 27 ، 28 ]، و انجام فرا یادگیری [ 29 ، 30 ] را ممکن ساخته است.] را ممکن ساخته است. به عنوان مثال، چن و همکاران. [25 ] یک شبکه تغییر شکل تصویر جدید طراحی کرد، که یاد می گیرد با ترکیب یک جفت تصویر مرجع، تصاویر اضافی را ترکیب کند. رامالهو و همکاران [ 27 ] نشان داد که الگوریتم APL میتواند خطوط پایه پیشرفته را در معیارهای طبقهبندی چند عکس با ردپای حافظه کوچکتر انجام دهد. وانگ و همکاران [ 29 ] TAFE-Nets را برای یادگیری نحوه تطبیق نمایش تصویر با یک کار جدید به روش فرا یادگیری پیشنهاد کرد. علاوه بر این، تشخیص چند شات آگنوستیک دامنه ارائه شده است [ 30]، جایی که دامنه کار آزمایشی ناشناخته است. با این حال، یادگیری عمیق و تجزیه و تحلیل افزوده بر ویژگیهای موجود تمرکز دارد، رمزگذار فاقد توانایی تطبیق است و عملکرد محدود است. بسیاری از مطالعات بر روی ویژگیهای چند مقیاسی و روابط بین نمونهها برای طبقهبندی یادگیری چند شات تمرکز کردهاند [ 31 ، 32 ، 33 ]. پس از یادگیری در محیطهای مختلف، یک طبقهبندیکننده وظیفه-اگنوستیک بهتر میتواند ویژگیها را ثبت کند. علیرغم بهبود عملکرد، پارامترهای تطبیقی با کار، جزئیات ضروری داده های واقعی را از دست می دهند و این نوع روش ها را محدود می کند. در سناریوهای نظارتی، این رویکردها مستلزم تکرارپذیر بودن اشیا و تنظیمات هستند که برای تشخیص حیوانات در معرض خطر در محیط های ناشناخته چالش برانگیز است.
در مقابل، ما یادگیری چند شات را برای یک صحنه بصری جدید، به عنوان مثال، تشخیص حیوانات در خطر انقراض، به چالش کشیدن چارچوب های فعلی اعمال می کنیم. هدف آن یادگیری یک مدل قوی با چند نمونه برای تشخیص ترکیبات بصری جدید برای حیوانات در حال انقراض است. ما از شبکه برجسته عمومی و شبکه inpainting برای یادگیری یک ماژول آگاه از زمینه تطبیقی استفاده می کنیم که به طور کارآمد و مؤثر با وظایف چند شات از حوزه های مختلف سازگار می شود.
3. روش پیشنهادی
3.1. بررسی اجمالی
این مطالعه عمدتاً ترکیبی از راهبردهای مبتنی بر داده و دانش محور جغرافیایی را توسعه داد. تفاوت اصلی بین روش ما و روشهای تشخیص چند شات قبلی، یک الگوریتم تقویتشده دادهها برای نمونههای جدید است که استحکام مدل را در برابر تغییرات محیطی با سازگاری فضایی افزایش میدهد. بنابراین، رویکرد ما میتواند قابلیتهای یادگیری عمیق قدرتمند و وابستگیها و روابط سطح بالا را از فضای مکانی ترکیب کند. در اینجا، ما یک نمای کلی از روش خود ارائه می دهیم (نگاه کنید به شکل 1 را ببینید). رویکرد ما با دو مرحله جمعآوری داده آغاز میشود، که در طی آن ماژول وزندهی مجدد و آشکارساز چند شات را اعمال میکنیم. اول، ما دادهها را در دستههای حیوانات معمولی جمعآوری میکنیم و از این دادهها برای آموزش یک ماژول استفاده میکنیم که ترکیبی از ویژگیهای وزندهیشده است، که یک رویکرد ارزشمند کلیتر در تشخیص حیوانات است. پس از اینکه ماژول از قبل آموزش داده شد، دادههای مربوط به حیوانات در معرض انقراض را جمعآوری کردیم و مدل را با تخصص در تشخیص حیوانات در معرض انقراض، دوباره آموزش دادیم.
3.2. تعریف مشکل
GIS با تفکر و دیدگاه فضایی متمایز آن مشخص می شود. همچنین نیاز به توسعه دارد، زیرا داده های جغرافیایی در عصر داده های بزرگ گسترش یافته اند. این نیاز و توانایی عالی یادگیری عمیق با حجم روزافزون دادههای تنوع زیستی مطابقت دارد. این مطالعه اطلاعات بالقوه موجود در تصاویر تنوع زیستی را استخراج میکند و دشواری به کارگیری روشهای تحلیل فضایی سنتی یا مدلهای کلاسیک یادگیری ماشین را که بهویژه به نمونههای نویزدار یا ناکافی حساس هستند، بهبود میبخشد. ما اجازه میدهیم یک مجموعه داده پشتیبانی شده حاوی تعداد کمی از دستههای حیوانات در حال انقراض در این چارچوب باشد، و یک مجموعه داده کمکی شامل نمونههای خوبی از دستههای حیوانات معمولی است. برای تصویر پرس و جو qاز جمله حیوانات در حال انقراض، هدف ما استفاده از مجموعه داده های پشتیبانی و مجموعه داده های تکمیلی برای یادگیری نحوه خودکارسازی طبقه بندی گونه ها و ترسیم جعبه های محدود آنهاست. فرض کنید مجموعه داده پشتیبان شامل N گونه جانوری در خطر انقراض است و هر گونه حاوی K نمونه است. در آن صورت، مشکل به نام وظیفه تشخیص K-shot N-way در صحنه های حیوانات در معرض خطر نامیده می شود.
با الهام از مدل یادگیری مولد [ 34]، در الگوی بازسازی جدید، یک نمای مشترک صحنه را تشکیل می دهیم. سازگاری با محیط های غیر ثابت و نامطمئن مفید خواهد بود. برای انعکاس تغییرات صحنه و عدم قطعیت، ما یک خط لوله تشخیص شی چند شات با آگاهی زمینه تطبیقی به نام FRW-ACA پیشنهاد می کنیم. رویکرد ما به طور کامل از اطلاعات زمینه در تصاویر حیوانات در حال انقراض استفاده می کند. برای قابل اجرا کردن فرآیند، از یک استخراج کننده ویژگی استفاده می کنیم که یاد می گیرد چگونه متا ویژگی ها را از تصویر جستجوی ورودی برای تشخیص حیوانات در معرض انقراض استخراج کند. برای انطباق با وظیفه تشخیص، ما همچنین از ماژول وزندهی مجدد ویژگی برای تبدیل چندین نمونه پشتیبانی در دسته حیوانات در معرض خطر به یک بردار جهانی استفاده میکنیم که نشاندهنده اهمیت یا همبستگی متا ویژگیها برای تشخیص شی مربوطه است.
علاوه بر این، اشیاء پیش زمینه ممکن است با تمام تصاویر پس زمینه برای مخلوط پیش زمینه-پس زمینه از جنبه جغرافیایی مطابقت نداشته باشند. ترکیب اشتباه در افزایش داده ها استفاده می شود که منجر به یک مدل غیر قابل اعتماد می شود. بنابراین، ذکر این نکته ضروری است که مخلوط را می توان به عنوان احتمال تطبیق یک گونه پیش زمینه خاص با تصاویر پس زمینه خاص تفسیر کرد، به عنوان مثال، ماژول محدودیت های فضایی انجام شده است.
3.3. ماژول متن آگاه سازگار
ماژول آگاه از متن تطبیقی ابتدا از شبکه برجسته U2-Net برای تقسیم تصویر به پیش زمینه و پس زمینه استفاده می کند. سپس، از شبکه تصویرسازی CR-Fill برای ترمیم قسمت گم شده پسزمینه استفاده میکند. در نهایت، ما پیش زمینه ها و پس زمینه ها را از تصاویر جداگانه مخلوط کردیم تا نمونه های جدیدی با محدودیت های مکانی تولید کنیم. در مورد تشخیص حیوانات در حال انقراض، مدل تشخیص عمومی در چنین صحنه ای به دلیل عدم قطعیت و متغیر بودن محیط ناپایدار است. ماژول ما مبتنی بر شبکه پیشآموزشی است و مستقل از یک شبکه خاص است و باعث میشود ماژول با محیط در حال تغییر سازگار شود. بنابراین، به راحتی میتواند این توانایی تطبیقی آگاهانه را برای زمینههای جدید در شبکههای دیگر تعبیه کند.
3.3.1. شبکه برجسته
به عنوان یک مرحله پیش پردازش، الگوریتم های تولید سوپرپیکسل [ 35 ] برای شبکه برجسته سود می برند. ما فرض می کنیم که هر تصویر به طور مستقل توسط آن نشان داده می شود سوپر پیکسل با توجه به توضیحات بخش برای هر تصویر ، آنها به یک رمزگذار شش مرحله ای و یک رمزگشای پنج مرحله ای وارد می شوند که یک نقشه برجسته را خروجی می دهد. در فرآیند آموزش، ضرر با نقشه برجستگی خروجی جانبی ترکیب می شود و نقشه برجسته خروجی همجوشی نهایی . برای هر ترم ، از دست دادن آنتروپی متقاطع به صورت زیر استفاده می شود:
جایی که و به ترتیب مقادیر سوپرپیکسل یکم حقیقت زمین و نقشه احتمال برجسته پیش بینی شده را نشان دهید.
ما نقشه برجستگی مربوطه را بدست می آوریم از طریق شبکه برجسته ، سپس پیش زمینه:
3.3.2. شبکه Inpainting
نقشه برجسته پس زمینه را با یک انتقال واحد بدست می آورد و منطقه پیش زمینه را نادیده می گیرد. بنابراین برای استخراج تمامی ویژگیهای پسزمینه در آموزش بعدی و جلوگیری از ناپایداری ناشی از از دست دادن منطقه، از شبکه inpainting تصویر استفاده میکنیم. برای تعمیر منطقه از دست رفته و به دست آوردن پس زمینه کامل:
ما دو استراتژی ترکیبی را هنگام مخلوط کردن پیشزمینه و پسزمینه اتخاذ میکنیم [ 36 ]. اولین استراتژی اختلاط درون طبقاتی است. پیش زمینه متناظر آن با همان دسته پسزمینه ترکیب میشود تا تصویری از حیوانات در حال انقراض ایجاد شود تا تصویر جدیدی شکل بگیرد. هر تصویر می تواند یک تصویر جدید K − 1 اضافی از طریق این استراتژی ایجاد کند. با این وجود، نمیتواند در تنظیمات یکشات مؤثر باشد زیرا هر دستهبندی تنها شامل یک تصویر در این تنظیم است.
استراتژی دوم اختلاط بین طبقاتی است. تحت این استراتژی، ما میتوانیم پیشزمینه و پسزمینه را بین تصاویر حیوانات در حال انقراض مختلف ترکیب کنیم. این نمونههای تصویری جدید توسعهیافته به مجموعه داده پشتیبانی میپیوندند و اطلاعات حاشیهنویسی اشیاء پیشزمینه خود را دنبال میکنند تا از آموزش نظارت شده اطمینان حاصل کنند. به طور شهودی، پراکنش حیوانات وحشی دارای ویژگی های جغرافیایی قابل توجهی است. بنابراین، ما با رویکرد دیگری سروکار داریم: محدودیتهای فضایی. ما فرض می کنیم که اطلاعات قبلی در مورد منابع مختلط داریم. در اینجا، به شکل تصاویر پس زمینه مرتبط با پیش زمینه های مختلط است.
3.3.3. محدودیت های فضایی
اگرچه ترکیب پیشزمینه-پسزمینه تصاویر جدا شده میتواند چندین نمونه تصویر جدید ایجاد کند، پیچیدگیهای زیادی در ادغام گونههای جانوری پیشزمینه در پسزمینههای نامشخص وجود دارد. به عنوان مثال، پاندا وحشی فقط در جنگل های بامبوی کوهستانی جنوب غربی چین زندگی می کند و ما نمی توانیم پاندا را با پس زمینه بیابانی مخلوط کنیم. بنابراین، این باید با فیلتر کردن تصاویر پس زمینه نامناسب تأیید شود. برای مدلسازی ارتباط بین گونههای پیشزمینه و انتخاب پسزمینه، فرهنگ لغتنامههای دانش و شبکههای ارتباطی ایجاد کردیم تا چارچوب اساسی روش محدودیتهای فضایی خود را تشکیل دهیم، که به تفصیل درباره آن بحث میکنیم. با توجه به فرهنگ لغت دانش و شبکه رابطه، تابع محدودیت فضایی اشیاء پیش زمینه را در مدل های وابستگی فضایی پیشینی ترکیب می کند.
(1) فرهنگ لغت دانش. ماژول فرهنگ لغت دانش یک مجموعه داده تصویری دارد که نام گونه های پیش زمینه (نام گونه) را به عنوان ورودی می گیرد و مجموعه ای از گروه های تصویر پس زمینه مفهومی مرتبط را به عنوان خروجی برمی گرداند (صحنه های توزیع گونه). شکل 2 معماری فرهنگ لغت دانش را نشان می دهد.
فرهنگ لغت دانش باید بین دقت و سرعت محاسباتی تحلیل فضایی تعادل ایجاد کند. ما این مشکل را با استفاده از روشهای نمونهگیری فضایی برای صحنههای توزیع گونهها برای به دست آوردن گروههای تصویر پسزمینه برطرف میکنیم. یک روش بصری برای تولید نمونه در مکانهای فضایی مختلف با در نظر گرفتن عوامل مختلفی مانند توزیع و عوامل آب و هوایی نمونهبرداری میشود. برای هر گونه، ما به طور تصادفی یک عکس دارای برچسب جغرافیایی را از یک منطقه مجزا انتخاب می کنیم، مرزها را محاسبه می کنیم و چند ضلعی های Voronoi را روی نمونه انتخابی قرار می دهیم. این کار به راحتی با پلتفرم های نرم افزار GIS قابل انجام است.
در حالی که چند ضلعی های Voronoi منطقه را تقسیم بندی می کنند، به طور تصادفی تصاویر دارای برچسب جغرافیایی را انتخاب می کنیم که تراکم نمونه برداری هر منطقه را منعکس می کند و به صورت دستی برخی از نمونه ها را با در نظر گرفتن عوامل آب و هوا حذف می کنیم و در نتیجه یک گروه تصویر پس زمینه برای یک گونه ایجاد می کنیم.
فرهنگ لغت دانش مجموعه ای از نقشه برداری است . برای وضوح، ما بین دو کلاس، نام گونههای پیشزمینه ( F ) و گروههای تصویر پسزمینه ( B ) تمایز قائل میشویم، جایی که F به نام گونههای جانوری در حال انقراض اشاره دارد که برای جستجو در فرهنگ لغت نمایه شدهاند، و B به یک تعریف اشاره دارد. یک F در فرهنگ لغت اجازه دهید I امین گونه در مجموعه داده پیش زمینه آموزشی باشد، که در آن . علاوه بر این، N تعداد گونههای جانوری در حال انقراض در مجموعه دادههای آموزشی و تعریف آن است در فرهنگ لغت است ، جایی که J به تعداد پس زمینه های معمولی اشاره دارد. به عنوان مثال، نگاشت فرهنگ لغت زیر را در نظر بگیرید: “panda” { I j , j = 1, …, J } که در آن { I j } یک گروه تصویر پس زمینه است که از مناطق زندگی پانداهای وحشی در فصول مختلف تشکیل شده است. توجه داشته باشید که J در گونه های مختلف متغیر است. در این رویکرد، توزیع جغرافیایی و تنوع فصل برای انتخاب تصاویر پسزمینه معمولی گونههای جانوری برای بهبود استحکام در برابر تغییرات ظاهری اعمال میشود. فرهنگ لغت دانش ساده است و به راحتی قابل گسترش است.
(2) شبکه ارتباط. این مقاله شبکه رابطه را برای تجزیه و تحلیل کمی همبستگی های فضایی بین تصاویر پس زمینه و صحنه های توزیع گونه ها اتخاذ کرد. از GIS سنتی و تجزیه و تحلیل فضایی، موقعیت جغرافیایی تصاویر یا تعیین موقعیت فیزیکی صحنه مورد نیاز است. با این حال، تنها بخش کوچکی از تصاویر در مجموعه دادهها و مجموعه دادههای آنلاین ما برچسبگذاری جغرافیایی دارند. در اینجا، ما پیشنهاد میکنیم که ویژگیهای بینایی تصاویر میتواند اطلاعات ارزشمندی در مورد میزان شباهتهای فضایی ارائه دهد. بنابراین، ما انتخاب میکنیم که همبستگی فضایی را به صورت سرتاسری یاد بگیریم. هدف شبکه رابطه یادگیری یک متریک عمیق قابل انتقال برای مقایسه رابطه بین تصاویر پس زمینه از شبکه Inpainting ( بخش 3.3.2) است.) و صحنه های توزیع گونه ها از فرهنگ لغت دانش.
با الهام از پیشرفتهای اخیر در شبکههای رابطهای که از ابتدا به صورت سرتاسر آموزش داده شدهاند [ 37 ]، یک شبکه رابطه در چارچوب محدودیتهای فضایی پیشنهاد شده است ( شکل 3 را ببینید ). پس از آموزش، شبکه می تواند با محاسبه امتیازات رابطه بین تصاویر پس زمینه و گونه ها بدون به روز رسانی بیشتر، همبستگی های فضایی ایجاد کند. تاکید می کنیم که مختصات جغرافیایی را به تصاویر اختصاص ندهیم. در عوض، شبکه رابطه یک مدل مبتنی بر تشابه و اندازه گیری است که شباهت را با استفاده از نمایش های بصری یاد می گیرد.
ما این را فرض می کنیم از الحاق عمق برای اپراتور تصاویر پسزمینه و صحنههای توزیع گونهها استفاده میکند. ماژول تعبیه است و نقشه های ویژگی را تولید می کند. تصاویر پسزمینه نقاشیشده و صحنههای توزیع گونهها به ماژول رابطه وارد میشوند ، که در نهایت یک اسکالر در محدوده [0، 1] ایجاد می کند که شباهت صحنه بین صحنه های توزیع گونه ها را نشان می دهد. و تصاویر پس زمینه نقاشی شده از شبکه Inpainting. بنابراین، نمرات رابطه ایجاد می کنیم برای رابطه بین گونه ها و زمینه های احتمالی:
جایی که تعداد تصاویر پس زمینه از شبکه Inpainting است. حداکثر مقدار M K – 1 + K ( N – 1) است .
ما از میانگین مربعات خطا (MSE) از دست دادن (معادله (5)) برای آموزش مدل، رگرسیون نمره رابطه استفاده می کنیم. به حقیقت اصلی: جفت های منطبق دارای مقدار شباهت 1 و جفت نامتناسب دارای مقدار مشابه 0 هستند.
بنابراین، تصویر ذوب شده از حیوانات در حال انقراض و تصاویر پس زمینه مرتبط به دست می آید که با نشان داده شده است و . به طور مشخص، مدل تولید شده به شکل فشرده زیر نوشته شده است:
جایی که و پارامترهای منظم سازی هستند، آستانه است و به معنای تعداد صحنههای پسزمینه انتخابشده به ترتیب است . (ما در این مقاله 40 درصد برتر را انتخاب می کنیم و مقدار به صورت تجربی مشاهده می شود).
3.4. ماژول وزن دهی مجدد
ما بیشتر ماژول وزندهی مجدد ویژگی را بررسی کردیم گرفتن به عنوان ورودی و جاسازی آن در نمایش مخصوص کلاس:
جایی که i نمایانگر طبقات حیوانات در خطر انقراض است، زیرمجموعه i از مجموعه داده تصویر را نشان می دهد ، و اولین ماسک است ما می توانیم قسمت مخصوص کلاس را بدست آوریم توسط:
جایی که نشان دهنده ضرب کانالی است. ویژگی خاص کلاس به پیش بینی تشخیص منتقل می شود 🝒 برای به دست آوردن نمره عینیت ، انحراف موقعیت جسم ، امتیاز طبقه بندی مربوطه و امتیاز طبقه بندی مربوطه :
برای مجموعه ای از وظایف تشخیص j ، ضرر بعدی به حداقل می رسد تا مشترکاً یادگیرنده ویژگی بهینه شود ، ماژول وزن مجدد و پیش بینی کننده تشخیص 🝒 :
جایی که ، ، و پارامترهای ویژگی یادگیرنده هستند ، ماژول وزن دهی مجدد و پیش بینی کننده تشخیص 🝒 ، به ترتیب. مجموعه داده پشتیبانی شده شامل N نمونه از دسته های مختلف است نمایش تصویر و حاشیه نویسی مربوطه در مجموعه داده پرس و جو برای ارزیابی عملکرد مدل. از دست دادن آشکارساز از ضرر آنتروپی متقابل امتیاز طبقه بندی [ 34 ]، امتیاز طبقه بندی، از دست دادن رگرسیون جعبه مرزی و از دست دادن رگرسیون شیئی [ 38 ] محاسبه می شود.
3.5. بهینه سازی
الگوریتم تجربی به حداقل رساندن ریسک (ERM) یک ابزار محبوب برای بهینه سازی روش های تشخیص است. اصل اساسی آن انتخاب طبقه بندی کننده با کمترین مقدار یک تابع ریسک است. با توجه به یک فرضیه و جفت داده ها با توزیع احتمال مشترک ، می توانیم مسئله بهینه سازی تابع را به مسئله کمینه سازی ریسک مورد انتظار تبدیل کنیم:
برای سادگی، ما فقط از تابع ریسک تجربی استفاده می کنیم جایگزینی ریسک مورد انتظار:
علاوه بر این، آموزش مورد نیاز برای پردازش حجم زیادی از داده ها همچنان مقیاس و عمق ERM را محدود می کند [ 39 ]. ما نیاز به ایجاد یک روش بهینه سازی جدید برای یادگیری چند شات تحت پارادایم ERM داریم. شکل 4 a,b تفاوت بین نمونه های کافی و کم را در فرآیند یادگیری ماشین نشان می دهد.
ما میتوانیم از ماژول ACA فوق استفاده کنیم (که در بخش 3.3 ذکر شد )، که از دانش قبلی برای دستیابی به توانایی آگاه از زمینه تطبیقی استفاده میکند و تعداد نمونهها را بهطور چشمگیری بهبود میبخشد. بنابراین، میتوانیم تابع کمینهسازی ریسک تجربی دقیقتری به دست آوریم ( شکل 4 ج). الگوریتم 1 روش آموزش را نشان می دهد.
الگوریتم 1 الگوریتم تشخیص مدل FRW-ACA |
ورودی : مجموعه کمکی و مجموعه پشتیبانی . |
خروجی : موقعیت شی (x، y، h، w) و امتیاز اطمینان c. |
1: سازماندهی مجدد تصاویر آموزشی با چند کار چند شات . |
2: برای دوره آموزشی = 1 تا 500 انجام دهید . |
3: هر کار را به آموزش اضافه کنید و آن را تنظیم کنید ، ، برای بهینه سازی معادله (10). |
4: پایان برای. |
5: تصاویر اضافی را از طریق ماژول ACA ایجاد کرده و به آن اضافه کنید . |
6: برای دوره آموزشی = 1 تا 20 انجام دهید. |
7: آموزش چند شات را برای تنظیم دقیق مدل با استفاده از تصاویر انجام دهید . |
8: پایان برای. |
9: مدل را بارگذاری کنید و تصویر پرس و جو را وارد کنید تا به نتیجه برسید. |
4. آزمایشات
در این بخش، آزمایشهایی را ارائه میکنیم که از یک مجموعه داده جدید ساخته شده برای صحنه تشخیص اشیاء حیوانات در حال انقراض استفاده میکنند. علاوه بر این، محدودیتهای مکانی روش خود را حذف میکنیم تا مزایایی را که ارائه میکنند نشان دهیم.
4.1. مجموعه داده
برای اهداف ارزیابی، آزمایشها برای تشخیص حیوانات در معرض خطر انقراض چند شات در محیطهای نامشخص در نظر گرفته شدند. سپس به دادههایی نیاز داریم که از آنها میتوان حیوانات، در معرض خطر انقراض یا غیرمشخص، و پسزمینههای نامشخص را با هم افزود. با این حال، این دادهها در مجموعه دادههای رایج تشخیص اشیا موجود نیستند. شکاف زمینه ای وسیعی بین تصاویر این دسته بندی های اساسی و تصاویر حیوانات در حال انقراض وجود دارد. شکل 5 نمونه هایی را در مجموعه داده عمومی نشان می دهد.
بنابراین، ما یک مجموعه داده EAOD (تشخیص اشیاء حیوانات در معرض خطر) را برای ارزیابی منصفانه ساختیم. ما تصاویر حیوانات را از منابع عمومی مانند OIDv4 [ 40 ]، AwA2 [ 41 ] به دست آوردیم.]، Flickr و Google Images برای ساخت مجموعه داده EAOD ما. با این حال، ما نمیتوانیم مستقیماً از این مجموعه دادهها استفاده کنیم زیرا (1) استانداردهای برچسبگذاری مجموعه دادههای مختلف ناسازگار هستند. به عنوان مثال، همان دسته از اشیاء دارای برچسب های دیگری در مجموعه داده های مختلف است. (2) بسیاری از تصاویر کیفیت برچسب گذاری ضعیفی در مجموعه داده دارند. (3) علاوه بر مجموعه دادههای تشخیص شی، تصاویر سایر منابع حاوی برچسبگذاری جعبه مرزی مورد نیاز در وظیفه تشخیص شی نیستند. بنابراین، ابتدا استانداردهای برچسبگذاری را در EAOD یکسان کردیم تا اطمینان حاصل کنیم که اشیاء دستهبندی یکسان دارای نام برچسبگذاری هستند. سپس، تصاویری را که متناسب با اندازه شی هستند، حذف کردیم، مانند اشیایی که حتی انسانها نمیتوانند آنها را به دقت تشخیص دهند، زیرا این اشیاء چه به عنوان نمونه کلاس پایه و چه به عنوان نمونه کلاس جدید مناسب نیستند. بعد،42 ] قالب مجموعه داده ها و تقسیم داده ها به مجموعه های آموزشی و آزمون با توجه به مجموعه آموزش چند شات.
این مجموعه داده شامل 13455 تصویر و 20 دسته با 15 دسته حیوانات معمولی برای آموزش پایه است. پنج دسته باقی مانده حیوانات در معرض خطر برای آموزش تنظیم دقیق چند شات هستند. مجموعههای آموزشی و آزمایشی دستههای مکرر حاوی نمونههای تصویری کافی برای کل کار تشخیص هستند و به 8:2 تقسیم میشوند. مجموعه آموزشی برای دستههای حیوانات در حال انقراض از تنظیمات چند عکس استفاده میکند (هر دسته از 1/2/3/5/10 شی استفاده میکند)، و مجموعه آزمایشی شامل 100 تصویر در هر دسته برای ارزیابی است.
4.2. تنظیمات آزمایشی
همه آزمایشها از یک پلتفرم با پردازنده Intel Xeon Gold 6126*4، NVIDIA Tesla V100*2، 256G RAM و Ubuntu 16.04 استفاده میکنند. mAP (میانگین دقت متوسط)، منحنی دقیق-یادآوری (منحنی PR)، و AP نرمال شده به عنوان معیارهای ارزیابی انتخاب می شوند.
یادگیری یک یادگیرنده خوب متا ویژگی چالش برانگیز است و یک ماژول وزن مجدد در آموزش مدل به دلیل فاصله زیاد بین نمونه های حیوانات در حال انقراض و معمولی. بنابراین، ما از یک طرح یادگیری دو مرحلهای برای اطمینان از عملکرد تعمیم مدل برای دستههای حیوانات در معرض خطر استفاده کردیم. مرحله اول آموزش پایه است و ما فقط از دسته های حیوانات معمولی برای آموزش استفاده می کنیم. اگرچه بسیاری از نمونههای استاندارد حیوانات پیادهسازی شدهاند، ما هنوز با چندین تکالیف یادگیری تشخیص چند شات روبهرو هستیم تا اطمینان حاصل کنیم که این مدل در وظایف تشخیص شی حیوانات در حال انقراض به خوبی عمل میکند. به طور خاص، ما از یک اندازه دسته ای 64 برای آموزش نمونه های کلاس پایه برای 500 دوره استفاده کردیم، که در آن نرخ یادگیری 1 × 10-3 ، تکانه 9 × 10-1 ، و کاهش وزن 5 × 10-4 است.
مرحله دوم تنظیم دقیق چند شات است. مجدداً، نمونههای دستهبندی حیوانات معمولی و حیوانات در حال انقراض به طور همزمان آموزش داده میشوند و هر کلاس فقط دارای جعبههای حاشیهدار با حاشیهنویسی K خواهد بود که میتوان از آنها استفاده کرد. این مرحله از فرآیند آموزش مانند مرحله اول است اما به تکرارهای کمتری نیاز دارد زیرا مدل از ویژگی های مربوطه به طور کامل استفاده می کند. بنابراین، در این مرحله، ما از اندازه دستهای 4 برای انجام 20 دوره آموزشی دوره تنظیم دقیق برای همه دستهها استفاده کردیم که در آن نرخ یادگیری به 1 × 10-4 تنظیم شده بود ، و سایر تنظیمات با مرحله آموزش پایه سازگار بود.
4.3. پایه
آشکارساز چند شات ما بر اساس چارچوب تشخیص مدل یک مرحله ای ساخته شده است. با در نظر گرفتن پیشرفتهترین مدلهای یک مرحلهای همراه با استراتژیهای یادگیری چند شات، مدل YOLOv4 [ 43 ] را بهعنوان پایه انتخاب میکنیم، از جمله YOLOv4-joint و YOLOv4-ft، و YOLOv4-ft-full. خط پایه دیگر یک مدل عمومی تشخیص شی چند شات FRW است که عمدتاً از ماژول وزندهی مجدد ویژگی برای استفاده کامل از ویژگیهای کلاس پایه استفاده میکند. این متا ویژگی های تعمیم یافته را برای تشخیص اشیاء جدید استخراج می کند. ما همچنین روش خود را با سایر مدلهای تشخیص اشیا، مانند EfficientDet [ 44 ]، CenterNet [ 45 ]، RetinaNet [ 46 ] و Meta R-CNN [ 47 ] مقایسه میکنیم.
4.4. نتایج و مقایسه ها
نتایج EAOD. نتایج کمی در جدول 1 و نمونه های تشخیص در شکل 6 نشان داده شده است.
جدول 1 روش ما را با عملکردهای مختلف تشخیص پایه (mAP) در مجموعه داده EAOD نشان می دهد. برای نشان دادن کامل عملکرد همه روشها در تشخیص حیوانات در خطر انقراض، ما پنج تنظیمات چند شات را برای آزمایشها اتخاذ کردیم، یعنی 1-shot، 2-shot، 3-shot، 5-shot و 10-shot. میز 1نتایج را خلاصه میکند و نشان میدهد که روش ما در تنظیمات چند شات، بهویژه در مجموعه 1 شات، نسبت به سایر خطوط پایه برتر است. از منظری دیگر، نتایج استحکام مدل ما را برای نمونههای جدید تأیید میکند، که بهویژه در صحنههای چند عکس شدید برجسته است. عملکرد مفصل YOLOv4 به خصوص در تنظیمات سه شات اول ناکافی است. علاوه بر این، نتیجه نشان میدهد که زمانی که نمونههای پایه و نمونههای جدید به طور همزمان در صحنههای چند نما، مانند تشخیص حیوانات در حال انقراض، آموزش داده میشوند، بهدست آوردن یک مدل تعمیمیافته دشوار است. همچنین نشان می دهد که طرح آموزشی دو مرحله ای ما بهتر است، به خصوص با محدودیت های فضایی. علاوه بر این، شکل 6برخی از نتایج کیفی را در EAOD با استفاده از مدل FRW-ACA ما با وابستگی فضایی نشان میدهد.
برای ارزیابی عملکرد جامع تر، مقایسه منحنی های PR را پیشنهاد می کنیم ( شکل 7 ). در مقایسه با سایر روش ها، تفاوت قابل توجهی بین روش ما و روش های ذکر شده در بالا این است که اقدامات تطبیقی را انجام می دهد که به تغییرات محیطی پاسخ می دهد. علاوه بر این، رویکرد ما به طور قابل توجهی عملکرد را بهبود می بخشد و بهترین عملکرد را در مجموعه داده EAOD نشان می دهد.
زمان-هزینه شکل 8سرعت یادگیری از روش های مختلف را نشان می دهد. به طور شهودی، سیستم ما ممکن است زمان بیشتری را نشان دهد زیرا نمونههای جدید بسیاری را که حاوی اطلاعات معنایی اضافی در طول آموزش هستند، تولید میکند که شبکه قبلاً هرگز آنها را ندیده بود. با این حال، نتیجه نشان میدهد که مدل ما هنوز توانایی یادگیری سریع بر اساس FRW را حفظ میکند و تنها چند تکرار دوره برای نزدیک شدن به مقدار همگرایی مورد نیاز است. در YOLOv4، این شاخص به طور مداوم افزایش مییابد و تکرارهای بیشتری برای تطبیق با صحنه جدید مورد نیاز است. در اینجا، ما فقط از منحنی واحد FRW-ACA استفاده می کنیم زیرا مدل ما به طور کامل از دانش آموخته شده در مرحله آموزش پایه استفاده می کند. بنابراین، مدل به سرعت در مرحله آموزش حیوانات در حال انقراض همگرا می شود. تفاوت معنی داری در سرعت یادگیری بین سه راهبرد تطبیقی وجود ندارد.
ارزیابی بین مجموعه داده ها. علاوه بر این، برای نشان دادن توانایی تعمیم مدل ما و توانایی سازگاری آگاه از زمینه در صحنه تشخیص اشیا حیوانات در خطر انقراض، ما همچنین از معیار VOC که به طور گسترده در تشخیص اشیا استفاده میشود برای ارزیابی مدل در دستههای حیوانات در معرض خطر استفاده میکنیم. به طور خاص، ما ابتدا از تصاویر موجود در مجموعه داده VOC برای آموزش پایه استفاده کردیم و سپس از تصاویر حیوانات در حال انقراض برای آموزش تنظیم دقیق در تنظیمات چند شات استفاده کردیم. در نهایت، عملکرد دستههای حیوانات در معرض خطر را روی مجموعه داده EAOD ارزیابی کردیم. همانطور که در جدول 2 نشان داده شده است، تعداد mAP برای هر روش تشخیص چند شات به دلیل اعداد شات تا حدودی متفاوت بود . مدل ما دقت بالایی را با چند عکس امکان پذیر می کند.
در نتیجه، مدل ما همچنان بهترین شاخص عملکرد را دارد. با این حال، مشاهده کردیم که مقادیر mAP مدل ما و سایر خطوط پایه به درجات متفاوتی در مقایسه با مجموعه داده EAOD کاهش یافته است. نتیجه عمدتاً به این دلیل است که دستههای تصویر در مجموعه داده VOC با دستههای تصاویر حیوانات در معرض خطر کاملاً متفاوت هستند. بنابراین، مدل نمی تواند به طور کامل از ویژگی های آموخته شده در مرحله اولیه استفاده کند. با این حال، همچنین نشان می دهد که مجموعه داده EAOD ساخته شده توسط ما کاربرد بهتری در سناریوی تشخیص شی حیوانات در معرض خطر دارد.
4.5. تحلیل و بررسی
تحقیقات ما شواهدی را ارائه میکند که محدودیتهای فضایی ممکن است امکان افزایش دقیقتر دادهها را فراهم کند، و ویژگیهای بینایی تصاویر میتواند اطلاعات مفیدی در مورد میزان شباهتهای فضایی ارائه دهد. علاوه بر این، روش ما دقت تشخیص را از نتایج کلی تجربی بهبود میبخشد، عمدتاً به دلیل ماژول آگاه از متن تطبیقی و مجموعه داده EAOD. ماژول آگاه از متن تطبیقی به چارچوب کمک می کند تا معنای متنی بیشتری را با نمونه های کم به دست آورد. سپس، این مدل در سناریوهای جدید از قابلیت تعمیم و سازگاری بیشتری برخوردار است. علاوه بر این، مجموعه داده EAOD شکاف زمینه بین مجموعه داده های معمولی و نمونه ها در صحنه های حیوانات در معرض خطر را جبران می کند. در نتیجه، مدل می تواند به طور کامل از ویژگی های آموخته شده در مرحله آموزش اولیه استفاده کند.
5. نتیجه گیری و کار آینده
انفجار داده ها چالش ها و فرصت هایی را برای جامعه اطلاعات جغرافیایی ایجاد کرده است. GIS باید گسترش یابد تا مشاهدات دینامیکی حسگرها، از جمله اطلاعات جغرافیایی داوطلبانه را در خود جای دهد. با ترکیب فناوریهای پدید آمده از علم دادههای جغرافیایی و بینش رایانه، میتوانیم دادههای بزرگ را به اطلاعات و دانش مفیدی تبدیل کنیم که به طور مؤثرتری در خدمت تحقیقات تنوع زیستی باشد.
به طور کلی، روش ارائه شده در اینجا مسیرهای جالبی را برای تجزیه و تحلیل داده های تنوع زیستی باز می کند. برخلاف روشهای اتوماسیون کاملاً مبتنی بر داده، روش ما مبتنی بر استراتژیهای دانش محور و داده محور است. همچنین تصاویر اولیه را برای تولید مجموعهای غنی از نمونهها با ترکیب جزئیات متنی ارائه میکند که میتواند برای افزایش کارایی نمونه یادگیری، بهویژه برای تشخیص حیوانات در خطر انقراض، ارزشمند باشد. علاوه بر این، شبکه تعبیه تطبیقی می تواند بینش های ارزشمندی را در مورد چارچوب یادگیری مولد برای یادگیری چند شات ارائه دهد که منجر به پردازش تطبیقی، توانمندتر و کارآمدتر می شود. چنین رویکردی همچنین باید به عنوان یک بلوک ساختمانی تعبیه شده ای عمل کند که به طور انعطاف پذیر در هر معماری قابل استفاده است.
برای مطالعه ما محدودیت هایی وجود دارد، به ویژه اندازه مجموعه داده ما. محدودیت دیگر مربوط به این واقعیت است که، برای تشخیص در سطح فردی، روش ما به شدت به عملکرد تشخیص قطعات برجسته وابسته است. به عنوان مثال، آشکارساز اغلب در تشخیص نوزادان حیوانی شکست می خورد. در عصر کلان داده، نقش سرویس داده های مکانی باید از انبارهای داده به ارائه دهندگان اطلاعات هوشمند تغییر کند [ 48 ]]. بنابراین، جهتهای آینده برای بهبود چارچوب ما شامل اتخاذ متغیرهای متعدد و افزایش دادهها برای افزایش دقت و تعمیمپذیری و گسترش GIS سنتی و تجزیه و تحلیل فضایی در تحقیقات تنوع زیستی است. علاوه بر این، تشخیص چند شات که متمایز است در حوزه های مختلف وجود دارد. ما برنامه های ممکن را برای چارچوب خود در نظر می گیریم، به عنوان مثال، تشخیص حیوانات وحشی برای نظارت تصویری، تشخیص خودکار رفتار و غیره.
بدون دیدگاه