ضبط تصویر در حال حاضر در زمینه های حفاظت از حیوانات در حال انقراض و GIS در همه جا وجود دارد. با این حال، حیوانات در حال انقراض به ندرت دیده می شوند، و بنابراین، تنها چند نمونه از تصاویر آنها در دسترس است. به طور خاص، مطالعه تشخیص حیوانات در حال انقراض دارای یک جزء فضایی حیاتی است. ما یک رویکرد یادگیری تطبیقی ​​و چند شات را برای تشخیص حیوانات در معرض خطر از طریق افزایش داده‌ها با اعمال محدودیت‌هایی در ترکیب تصاویر پیش‌زمینه و پس‌زمینه بر اساس توزیع گونه‌ها پیشنهاد می‌کنیم. ابتدا، شبکه برجسته U2-Net از پیش آموزش دیده، پیش زمینه و پس زمینه تصاویر حیوانات در حال انقراض را تقسیم بندی می کند. سپس از شبکه تکمیل تصویر از پیش آموزش دیده CR-Fill برای تعمیر محیط ناقص استفاده می شود. علاوه بر این، رویکرد ما یک ترکیب پیش‌زمینه-پس‌زمینه از تصاویر مختلف را شناسایی می‌کند تا چندین نمونه تصویر جدید تولید کند، با استفاده از شبکه ارتباطی برای اجازه دادن به ترکیب واقعی‌تری از تصاویر پیش‌زمینه و پس‌زمینه. نیازی به نظارت بیشتر ندارد و به راحتی در شبکه‌های موجود جاسازی می‌شود، شبکه‌هایی که یاد می‌گیرند عدم قطعیت‌ها و ناپایداری‌های یادگیری چندباره را جبران کنند. نتایج تجربی ما با پیش‌بینی‌های نظری با معیارهای ارزیابی مختلف مطابقت دارد و پتانسیل آینده نظارت تصویری را برای رسیدگی به تشخیص حیوانات در معرض خطر در مطالعات رفتار و حفاظت از آنها آشکار می‌کند. و تعبیه آن در شبکه‌های موجود آسان است، شبکه‌هایی که یاد می‌گیرند عدم قطعیت‌ها و ناپایداری‌های یادگیری چند شات را جبران کنند. نتایج تجربی ما با پیش‌بینی‌های نظری با معیارهای ارزیابی مختلف مطابقت دارد و پتانسیل آینده نظارت تصویری را برای رسیدگی به تشخیص حیوانات در معرض خطر در مطالعات رفتار و حفاظت از آنها آشکار می‌کند. و تعبیه آن در شبکه‌های موجود آسان است، شبکه‌هایی که یاد می‌گیرند عدم قطعیت‌ها و ناپایداری‌های یادگیری چند شات را جبران کنند. نتایج تجربی ما با پیش‌بینی‌های نظری با معیارهای ارزیابی مختلف مطابقت دارد و پتانسیل آینده نظارت تصویری را برای رسیدگی به تشخیص حیوانات در معرض خطر در مطالعات رفتار و حفاظت از آنها آشکار می‌کند.

کلید واژه ها:

یادگیری چند شات ; GIS _ توزیع گونه ها ; محدودیت های فضایی

1. مقدمه

بحران تنوع زیستی، به عنوان مثال، از بین رفتن گونه ها در سراسر جهان و آسیب به اکوسیستم ها، به شتاب ادامه داده است. مطالعه حضور و رفتار حیوانات در خطر انقراض در پرداختن به چالش های محیطی، مانند گونه های مهاجم، آب و هوا و تغییر کاربری زمین بسیار مهم است [ 1 ]. با پیشرفت در جمع آوری داده ها و فناوری های بینایی رایانه ای برای تشخیص و ردیابی حیات وحش، تحقیقات تنوع زیستی به سرعت در حال تبدیل شدن به یک رشته غنی از داده است. داده های تصویربرداری در تجزیه و تحلیل گذشته نگر و نظارت بر حضور و رفتار گونه های جانوری در خطر انقراض ضروری شده اند [. 2 ]]. بهره برداری دستی از داده های تصویر برای وضعیت برنامه غیرممکن است. بنابراین، لازم است که عدم قطعیت را در نظر بگیریم و روش‌های تشخیص خودکار را پیشنهاد کنیم.
GIS سنتی و تجزیه و تحلیل فضایی دارای محدودیت هایی در پیچیدگی مدل در پرداختن به داده های بزرگ هستند که طبیعتاً پیچیده هستند. موفقیت‌های اخیر در یادگیری عمیق منجر به استفاده از روش‌های محاسباتی خودکار برای نظارت بر حیوانات در حال انقراض، از جمله تکنیک‌های خودکار پردازش تصویر و ویدئو برای تشخیص دقیق دسته‌های مختلف اشیا و حیوانات شده است [ 3 ]. با این حال، توسعه این روش ها توسط مجموعه داده های آموزشی در مقیاس بزرگ مخدوش شده است. در نتیجه، این مدل در کاربردهای چند شات، مانند تشخیص حیوانات در خطر انقراض، بیش از حد برازش شدید را نشان می‌دهد و معمولاً به دلیل کمبود شدید نمونه‌های آموزشی، نمی‌تواند کار کند. برای پرداختن به این موضوع، اخیراً، بسیاری از مطالعات بر روی مدل‌های تشخیص شی چند شات متمرکز شده‌اند [ 4 ، 5 ] 6 ]. به طور کلی این روش ها عمدتاً شامل دو مرحله آموزشی می باشند. اول، فراآموزش [ 7 ، 8 ] از طریق استفاده از مثال‌های زیادی از کلاس پایه انجام می‌شود تا مدل بتواند مستقل از کار فعلی، توانایی تعمیم را به دست آورد. دوم، تنها چند نمونه کلاس جدید برای تنظیم دقیق آموزش استفاده می‌شود تا کار تشخیص شی با مدل‌های ناشناخته تکمیل شود. با این حال، این روش ها کاربرد محدودی در حساسیت های زمینه دارند و تنها صحنه های منفرد و ساده را ارائه می دهند. در مقابل، تشخیص عملی حیوانات وحشی بر اشیاء و زمینه‌های مختلف تأکید دارد. بنابراین، کاربردهای مستقیم راه‌حل‌های یادگیری چند شات موجود، زمانی که وظیفه تشخیص حیوانات در خطر انقراض را بر عهده دارند، عملکرد نامناسبی دارند.
در اینجا، ما چارچوبی را نشان می‌دهیم که انطباق با یک محیط در حال تغییر پویا را برای تشخیص حیوانات در خطر انقراض پیشنهاد می‌کند، که اجازه می‌دهد یادگیری چند شات در سناریوهای مختلف با وابستگی فضایی اعمال شود. علاوه بر این، از یک پیشنهاد جدید استفاده می‌کند: مجموعه‌ای از اشیا و محیط‌ها به‌جای اینکه به‌صورت جداگانه شناسایی شوند، پردازش، ترکیب می‌شوند و بر یکدیگر تأثیر می‌گذارند. به عنوان مثال، با توجه به یک تصویر حیوان در حال انقراض، ماژول ابتدا از شبکه برجسته U2-Net [ 9 ] از پیش آموزش دیده برای تقسیم‌بندی پیش‌زمینه و پس‌زمینه خود استفاده می‌کند. سپس از شبکه CR-Fill که از قبل آموزش داده شده است استفاده می کند [ 10] برای تعمیر قطعات گم شده. در نهایت، پیش‌زمینه و پس‌زمینه را از تصاویر جداگانه مخلوط کردیم تا نمونه‌های جدیدی تولید کنیم. در حالی که مخلوط پیش زمینه-پس زمینه می تواند برای تقویت داده ها موثر باشد، برنامه فاقد دانش معنایی جغرافیایی است. این ممکن است منجر به پس‌زمینه‌های بسیاری شود که نسبت به پیش‌زمینه نابهنگام هستند. به عنوان مثال، Nipponia Nippon نمی تواند در بیابان ظاهر شود. با توجه به همبستگی محیطی بین حیوانات در معرض خطر و عوامل محیطی، ما یک فرهنگ لغت دانش و یک شبکه ارتباطی را در چارچوب محدودیت فضایی پیشنهاد می‌کنیم. با محاسبه امتیازات رابطه در چارچوب، ما یک مدل وابستگی فضایی پیشینی را با هدف محدود کردن اختلاط تصاویر پیش‌زمینه و پس‌زمینه فقط به آن‌هایی که منطقی هستند، توسعه دادیم.
ماژول پیشنهادی کلی است و به تشخیص حیوانات محدود نمی شود و به عنوان یک بلوک ساختمانی ضروری است که به طور انعطاف پذیر در هر معماری قابل استفاده است. کمک های اصلی ما به شرح زیر است:
(1)
ما یک مجموعه داده تصویری جدید می‌سازیم که به شناسایی حیوانات در معرض خطر، از جمله دسته‌های حیوانات مستقل، خواه در معرض خطر هستند یا نه، اختصاص داده شده است. گونه های در حال انقراض تنها در چند نمونه نشان داده شده اند، در حالی که گونه های در معرض خطر در نمونه های بیشتری نشان داده شده اند.
(2)
ما یک چارچوب جدید برای تشخیص حیوانات در معرض خطر با استفاده از یادگیری چند شات پیشنهاد می‌کنیم، که می‌تواند در سناریوهای ناشناخته با تقویت بخش‌های تولید مصنوعی تصاویر جداگانه مفید باشد.
(3)
ما یک مدل محدودیت‌های فضایی را با دو جزء اصلی ارائه می‌کنیم: فرهنگ لغت دانش و شبکه ارتباط، بنابراین از اختلاط گونه‌های پیش‌زمینه با تصاویر پس‌زمینه ناسازگار از منظر جغرافیایی جلوگیری می‌کنیم.

2. آثار مرتبط

روش پیشنهادی با یک کار چالش برانگیز در فرآیند شناسایی حیوانات در حال انقراض سر و کار دارد، کاری که در افزایش داده ها و یادگیری چند شات به وجود می آید، که ارتباط نزدیکی با دو جریان تحقیق در ادبیات دارد، یعنی تشخیص داده محور حیوانات وحشی. حیوانات ( بخش 2.1 ) و یادگیری چند شات ( بخش 2.2 ).

2.1. تشخیص حیوانات وحشی مبتنی بر داده

حوزه نوظهور علم غنی از داده، مدل‌های بینایی کامپیوتری را برای تشخیص الگو برای شناسایی گونه‌های جانوری متعدد از طریق ظاهر فنوتیپی اتخاذ کرده است [ 11 ]. از نظر عملی، روش‌های شناسایی حیوانات فردی برای لمورها [ 12 ]، ماکاک‌ها [ 13 ] و شامپانزه‌ها [ 14 ] اعمال شده است. یک مانع اساسی، توسعه مدل‌های قوی برای اجرا بر روی مجموعه‌های داده بسیار چالش برانگیز، مانند آنهایی که پس‌زمینه‌های درهم ریخته دارند، است [ 15 ]. این مسئله می‌تواند تفریق پس‌زمینه را با آستانه‌ها و تطبیق رنگ انجام دهد [ 16]. اخیراً، یادگیری عمیق تجزیه و تحلیل مجموعه داده‌های بیومتریک حیوانات و انجام وظایف تصویربرداری پیچیده، از جمله تقسیم‌بندی و طبقه‌بندی را ممکن کرده است [ 17 ، 18 ]. در حالی که این روش ها کمک های ارزشمندی کرده اند، اما در برابر تغییرات محیطی اجتناب ناپذیر مقاوم نیستند. چالش توسعه مدل هایی است که در تصاویر با نور ضعیف یا محیط های نامشخص به خوبی کار کنند [ 19 ]. با توجه به مطالعات با استفاده از یادگیری عمیق، شناسایی مجدد فردی برای تحقیق در مورد رفتار حیوانات در طبیعت حیاتی بوده است. 20 ]]. با این حال، این به تنهایی نمی تواند پیچیدگی کامل حیوانات و محیط را به تصویر بکشد. رویکردهای موجود مبتنی بر ویژگی‌های زمانی یا مکانی در قابلیت تطبیقی ​​محدود هستند. علاوه بر این، آنها به یک محیط ثابت و ثابت نیاز دارند که شناسایی حیوانات در معرض خطر ناشناخته را به طور ذاتی چالش برانگیز می کند. در عمل، ماهیت رویکردهای تشخیص حیوانات وحشی در انطباق سریع با داده های جدید نهفته است، بنابراین یک چالش باز باقی می ماند.
در مقابل، کار ما با فرمول‌بندی یک ماژول آگاه از متن تطبیقی ​​به‌عنوان یک کار یادگیری چند مرحله‌ای، گامی رو به جلو برداشته و از یک شبکه برجسته و شبکه نقاشی برای شناسایی حیوانات وحشی برای کاهش چالش استفاده می‌کند.

2.2. آموزش چند شات

موفقیت های اخیر در هوش مصنوعی مزایای گسترده ای را ارائه می دهد. با این حال، یادگیری مفاهیم جدید از نمونه های بسیار کمی برای رویکردهای بینایی کامپیوتری یک چالش مهم باقی می ماند [ 21 ، 22 ]. پردازش میلیون‌ها تصویر از تله‌های دوربین و سایر مطالعات برای محققان دشوار است. تمرکز اساسی برای توسعه اولیه، ترکیب اشیاء از قطعات با استفاده از مدل‌های احتمالی است [ 23 ]. پیشرفت در یادگیری عمیق امکان استفاده از تقویت داده [ 24 ، 25 ]، تقویت حافظه [ 26 ، 27 ، 28 ]، و انجام فرا یادگیری [ 29 ، 30 ] را ممکن ساخته است.] را ممکن ساخته است. به عنوان مثال، چن و همکاران. [25 ] یک شبکه تغییر شکل تصویر جدید طراحی کرد، که یاد می گیرد با ترکیب یک جفت تصویر مرجع، تصاویر اضافی را ترکیب کند. رامالهو و همکاران [ 27 ] نشان داد که الگوریتم APL می‌تواند خطوط پایه پیشرفته را در معیارهای طبقه‌بندی چند عکس با ردپای حافظه کوچک‌تر انجام دهد. وانگ و همکاران [ 29 ] TAFE-Nets را برای یادگیری نحوه تطبیق نمایش تصویر با یک کار جدید به روش فرا یادگیری پیشنهاد کرد. علاوه بر این، تشخیص چند شات آگنوستیک دامنه ارائه شده است [ 30]، جایی که دامنه کار آزمایشی ناشناخته است. با این حال، یادگیری عمیق و تجزیه و تحلیل افزوده بر ویژگی‌های موجود تمرکز دارد، رمزگذار فاقد توانایی تطبیق است و عملکرد محدود است. بسیاری از مطالعات بر روی ویژگی‌های چند مقیاسی و روابط بین نمونه‌ها برای طبقه‌بندی یادگیری چند شات تمرکز کرده‌اند [ 31 ، 32 ، 33 ]. پس از یادگیری در محیط‌های مختلف، یک طبقه‌بندی‌کننده وظیفه-اگنوستیک بهتر می‌تواند ویژگی‌ها را ثبت کند. علیرغم بهبود عملکرد، پارامترهای تطبیقی ​​با کار، جزئیات ضروری داده های واقعی را از دست می دهند و این نوع روش ها را محدود می کند. در سناریوهای نظارتی، این رویکردها مستلزم تکرارپذیر بودن اشیا و تنظیمات هستند که برای تشخیص حیوانات در معرض خطر در محیط های ناشناخته چالش برانگیز است.
در مقابل، ما یادگیری چند شات را برای یک صحنه بصری جدید، به عنوان مثال، تشخیص حیوانات در خطر انقراض، به چالش کشیدن چارچوب های فعلی اعمال می کنیم. هدف آن یادگیری یک مدل قوی با چند نمونه برای تشخیص ترکیبات بصری جدید برای حیوانات در حال انقراض است. ما از شبکه برجسته عمومی و شبکه inpainting برای یادگیری یک ماژول آگاه از زمینه تطبیقی ​​استفاده می کنیم که به طور کارآمد و مؤثر با وظایف چند شات از حوزه های مختلف سازگار می شود.

3. روش پیشنهادی

3.1. بررسی اجمالی

این مطالعه عمدتاً ترکیبی از راهبردهای مبتنی بر داده و دانش محور جغرافیایی را توسعه داد. تفاوت اصلی بین روش ما و روش‌های تشخیص چند شات قبلی، یک الگوریتم تقویت‌شده داده‌ها برای نمونه‌های جدید است که استحکام مدل را در برابر تغییرات محیطی با سازگاری فضایی افزایش می‌دهد. بنابراین، رویکرد ما می‌تواند قابلیت‌های یادگیری عمیق قدرتمند و وابستگی‌ها و روابط سطح بالا را از فضای مکانی ترکیب کند. در اینجا، ما یک نمای کلی از روش خود ارائه می دهیم (نگاه کنید به شکل 1 را ببینید). رویکرد ما با دو مرحله جمع‌آوری داده آغاز می‌شود، که در طی آن ماژول وزن‌دهی مجدد و آشکارساز چند شات را اعمال می‌کنیم. اول، ما داده‌ها را در دسته‌های حیوانات معمولی جمع‌آوری می‌کنیم و از این داده‌ها برای آموزش یک ماژول استفاده می‌کنیم که ترکیبی از ویژگی‌های وزن‌دهی‌شده است، که یک رویکرد ارزشمند کلی‌تر در تشخیص حیوانات است. پس از اینکه ماژول از قبل آموزش داده شد، داده‌های مربوط به حیوانات در معرض انقراض را جمع‌آوری کردیم و مدل را با تخصص در تشخیص حیوانات در معرض انقراض، دوباره آموزش دادیم.

3.2. تعریف مشکل

GIS با تفکر و دیدگاه فضایی متمایز آن مشخص می شود. همچنین نیاز به توسعه دارد، زیرا داده های جغرافیایی در عصر داده های بزرگ گسترش یافته اند. این نیاز و توانایی عالی یادگیری عمیق با حجم روزافزون داده‌های تنوع زیستی مطابقت دارد. این مطالعه اطلاعات بالقوه موجود در تصاویر تنوع زیستی را استخراج می‌کند و دشواری به کارگیری روش‌های تحلیل فضایی سنتی یا مدل‌های کلاسیک یادگیری ماشین را که به‌ویژه به نمونه‌های نویزدار یا ناکافی حساس هستند، بهبود می‌بخشد. ما اجازه می‌دهیم یک مجموعه داده پشتیبانی شده حاوی تعداد کمی از دسته‌های حیوانات در حال انقراض در این چارچوب باشد، و یک مجموعه داده کمکی شامل نمونه‌های خوبی از دسته‌های حیوانات معمولی است. برای تصویر پرس و جو qاز جمله حیوانات در حال انقراض، هدف ما استفاده از مجموعه داده های پشتیبانی و مجموعه داده های تکمیلی برای یادگیری نحوه خودکارسازی طبقه بندی گونه ها و ترسیم جعبه های محدود آنهاست. فرض کنید مجموعه داده پشتیبان شامل N گونه جانوری در خطر انقراض است و هر گونه حاوی K نمونه است. در آن صورت، مشکل به نام وظیفه تشخیص K-shot N-way در صحنه های حیوانات در معرض خطر نامیده می شود.
با الهام از مدل یادگیری مولد [ 34]، در الگوی بازسازی جدید، یک نمای مشترک صحنه را تشکیل می دهیم. سازگاری با محیط های غیر ثابت و نامطمئن مفید خواهد بود. برای انعکاس تغییرات صحنه و عدم قطعیت، ما یک خط لوله تشخیص شی چند شات با آگاهی زمینه تطبیقی ​​به نام FRW-ACA پیشنهاد می کنیم. رویکرد ما به طور کامل از اطلاعات زمینه در تصاویر حیوانات در حال انقراض استفاده می کند. برای قابل اجرا کردن فرآیند، از یک استخراج کننده ویژگی استفاده می کنیم که یاد می گیرد چگونه متا ویژگی ها را از تصویر جستجوی ورودی برای تشخیص حیوانات در معرض انقراض استخراج کند. برای انطباق با وظیفه تشخیص، ما همچنین از ماژول وزن‌دهی مجدد ویژگی برای تبدیل چندین نمونه پشتیبانی در دسته حیوانات در معرض خطر به یک بردار جهانی استفاده می‌کنیم که نشان‌دهنده اهمیت یا همبستگی متا ویژگی‌ها برای تشخیص شی مربوطه است.
علاوه بر این، اشیاء پیش زمینه ممکن است با تمام تصاویر پس زمینه برای مخلوط پیش زمینه-پس زمینه از جنبه جغرافیایی مطابقت نداشته باشند. ترکیب اشتباه در افزایش داده ها استفاده می شود که منجر به یک مدل غیر قابل اعتماد می شود. بنابراین، ذکر این نکته ضروری است که مخلوط را می توان به عنوان احتمال تطبیق یک گونه پیش زمینه خاص با تصاویر پس زمینه خاص تفسیر کرد، به عنوان مثال، ماژول محدودیت های فضایی انجام شده است.

3.3. ماژول متن آگاه سازگار

ماژول آگاه از متن تطبیقی ​​ابتدا از شبکه برجسته U2-Net برای تقسیم تصویر به پیش زمینه و پس زمینه استفاده می کند. سپس، از شبکه تصویرسازی CR-Fill برای ترمیم قسمت گم شده پس‌زمینه استفاده می‌کند. در نهایت، ما پیش زمینه ها و پس زمینه ها را از تصاویر جداگانه مخلوط کردیم تا نمونه های جدیدی با محدودیت های مکانی تولید کنیم. در مورد تشخیص حیوانات در حال انقراض، مدل تشخیص عمومی در چنین صحنه ای به دلیل عدم قطعیت و متغیر بودن محیط ناپایدار است. ماژول ما مبتنی بر شبکه پیش‌آموزشی است و مستقل از یک شبکه خاص است و باعث می‌شود ماژول با محیط در حال تغییر سازگار شود. بنابراین، به راحتی می‌تواند این توانایی تطبیقی ​​آگاهانه را برای زمینه‌های جدید در شبکه‌های دیگر تعبیه کند.

3.3.1. شبکه برجسته

به عنوان یک مرحله پیش پردازش، الگوریتم های تولید سوپرپیکسل [ 35 ] برای شبکه برجسته سود می برند. ما فرض می کنیم که هر تصویر به طور مستقل توسط آن نشان داده می شود سوپر پیکسل با توجه به توضیحات بخش برای هر تصویر ، آنها به یک رمزگذار شش مرحله ای و یک رمزگشای پنج مرحله ای وارد می شوند که یک نقشه برجسته را خروجی می دهد. در فرآیند آموزش، ضرر با نقشه برجستگی خروجی جانبی ترکیب می شود و نقشه برجسته خروجی همجوشی نهایی . برای هر ترم ، از دست دادن آنتروپی متقاطع به صورت زیر استفاده می شود:

جایی که و به ترتیب مقادیر سوپرپیکسل یکم حقیقت زمین و نقشه احتمال برجسته پیش بینی شده را نشان دهید.

ما نقشه برجستگی مربوطه را بدست می آوریم از طریق شبکه برجسته ، سپس پیش زمینه:

3.3.2. شبکه Inpainting

نقشه برجسته پس زمینه را با یک انتقال واحد بدست می آورد و منطقه پیش زمینه را نادیده می گیرد. بنابراین برای استخراج تمامی ویژگی‌های پس‌زمینه در آموزش بعدی و جلوگیری از ناپایداری ناشی از از دست دادن منطقه، از شبکه inpainting تصویر استفاده می‌کنیم. برای تعمیر منطقه از دست رفته و به دست آوردن پس زمینه کامل:

ما دو استراتژی ترکیبی را هنگام مخلوط کردن پیش‌زمینه و پس‌زمینه اتخاذ می‌کنیم [ 36 ]. اولین استراتژی اختلاط درون طبقاتی است. پیش زمینه متناظر آن با همان دسته پس‌زمینه ترکیب می‌شود تا تصویری از حیوانات در حال انقراض ایجاد شود تا تصویر جدیدی شکل بگیرد. هر تصویر می تواند یک تصویر جدید K − 1 اضافی از طریق این استراتژی ایجاد کند. با این وجود، نمی‌تواند در تنظیمات یک‌شات مؤثر باشد زیرا هر دسته‌بندی تنها شامل یک تصویر در این تنظیم است.
استراتژی دوم اختلاط بین طبقاتی است. تحت این استراتژی، ما می‌توانیم پیش‌زمینه و پس‌زمینه را بین تصاویر حیوانات در حال انقراض مختلف ترکیب کنیم. این نمونه‌های تصویری جدید توسعه‌یافته به مجموعه داده پشتیبانی می‌پیوندند و اطلاعات حاشیه‌نویسی اشیاء پیش‌زمینه خود را دنبال می‌کنند تا از آموزش نظارت شده اطمینان حاصل کنند. به طور شهودی، پراکنش حیوانات وحشی دارای ویژگی های جغرافیایی قابل توجهی است. بنابراین، ما با رویکرد دیگری سروکار داریم: محدودیت‌های فضایی. ما فرض می کنیم که اطلاعات قبلی در مورد منابع مختلط داریم. در اینجا، به شکل تصاویر پس زمینه مرتبط با پیش زمینه های مختلط است.
3.3.3. محدودیت های فضایی
اگرچه ترکیب پیش‌زمینه-پس‌زمینه تصاویر جدا شده می‌تواند چندین نمونه تصویر جدید ایجاد کند، پیچیدگی‌های زیادی در ادغام گونه‌های جانوری پیش‌زمینه در پس‌زمینه‌های نامشخص وجود دارد. به عنوان مثال، پاندا وحشی فقط در جنگل های بامبوی کوهستانی جنوب غربی چین زندگی می کند و ما نمی توانیم پاندا را با پس زمینه بیابانی مخلوط کنیم. بنابراین، این باید با فیلتر کردن تصاویر پس زمینه نامناسب تأیید شود. برای مدل‌سازی ارتباط بین گونه‌های پیش‌زمینه و انتخاب پس‌زمینه، فرهنگ لغت‌نامه‌های دانش و شبکه‌های ارتباطی ایجاد کردیم تا چارچوب اساسی روش محدودیت‌های فضایی خود را تشکیل دهیم، که به تفصیل درباره آن بحث می‌کنیم. با توجه به فرهنگ لغت دانش و شبکه رابطه، تابع محدودیت فضایی اشیاء پیش زمینه را در مدل های وابستگی فضایی پیشینی ترکیب می کند.
(1) فرهنگ لغت دانش. ماژول فرهنگ لغت دانش یک مجموعه داده تصویری دارد که نام گونه های پیش زمینه (نام گونه) را به عنوان ورودی می گیرد و مجموعه ای از گروه های تصویر پس زمینه مفهومی مرتبط را به عنوان خروجی برمی گرداند (صحنه های توزیع گونه). شکل 2 معماری فرهنگ لغت دانش را نشان می دهد.
فرهنگ لغت دانش باید بین دقت و سرعت محاسباتی تحلیل فضایی تعادل ایجاد کند. ما این مشکل را با استفاده از روش‌های نمونه‌گیری فضایی برای صحنه‌های توزیع گونه‌ها برای به دست آوردن گروه‌های تصویر پس‌زمینه برطرف می‌کنیم. یک روش بصری برای تولید نمونه در مکان‌های فضایی مختلف با در نظر گرفتن عوامل مختلفی مانند توزیع و عوامل آب و هوایی نمونه‌برداری می‌شود. برای هر گونه، ما به طور تصادفی یک عکس دارای برچسب جغرافیایی را از یک منطقه مجزا انتخاب می کنیم، مرزها را محاسبه می کنیم و چند ضلعی های Voronoi را روی نمونه انتخابی قرار می دهیم. این کار به راحتی با پلتفرم های نرم افزار GIS قابل انجام است.
در حالی که چند ضلعی های Voronoi منطقه را تقسیم بندی می کنند، به طور تصادفی تصاویر دارای برچسب جغرافیایی را انتخاب می کنیم که تراکم نمونه برداری هر منطقه را منعکس می کند و به صورت دستی برخی از نمونه ها را با در نظر گرفتن عوامل آب و هوا حذف می کنیم و در نتیجه یک گروه تصویر پس زمینه برای یک گونه ایجاد می کنیم.
فرهنگ لغت دانش مجموعه ای از نقشه برداری است . برای وضوح، ما بین دو کلاس، نام گونه‌های پیش‌زمینه ( F ) و گروه‌های تصویر پس‌زمینه ( B ) تمایز قائل می‌شویم، جایی که F به نام گونه‌های جانوری در حال انقراض اشاره دارد که برای جستجو در فرهنگ لغت نمایه شده‌اند، و B به یک تعریف اشاره دارد. یک F در فرهنگ لغت اجازه دهید I امین گونه در مجموعه داده پیش زمینه آموزشی باشد، که در آن . علاوه بر این، N تعداد گونه‌های جانوری در حال انقراض در مجموعه داده‌های آموزشی و تعریف آن است در فرهنگ لغت است ، جایی که J به تعداد پس زمینه های معمولی اشاره دارد. به عنوان مثال، نگاشت فرهنگ لغت زیر را در نظر بگیرید: “panda” { j , j = 1, …, J } که در آن { j } یک گروه تصویر پس زمینه است که از مناطق زندگی پانداهای وحشی در فصول مختلف تشکیل شده است. توجه داشته باشید که J در گونه های مختلف متغیر است. در این رویکرد، توزیع جغرافیایی و تنوع فصل برای انتخاب تصاویر پس‌زمینه معمولی گونه‌های جانوری برای بهبود استحکام در برابر تغییرات ظاهری اعمال می‌شود. فرهنگ لغت دانش ساده است و به راحتی قابل گسترش است.
(2) شبکه ارتباط. این مقاله شبکه رابطه را برای تجزیه و تحلیل کمی همبستگی های فضایی بین تصاویر پس زمینه و صحنه های توزیع گونه ها اتخاذ کرد. از GIS سنتی و تجزیه و تحلیل فضایی، موقعیت جغرافیایی تصاویر یا تعیین موقعیت فیزیکی صحنه مورد نیاز است. با این حال، تنها بخش کوچکی از تصاویر در مجموعه داده‌ها و مجموعه داده‌های آنلاین ما برچسب‌گذاری جغرافیایی دارند. در اینجا، ما پیشنهاد می‌کنیم که ویژگی‌های بینایی تصاویر می‌تواند اطلاعات ارزشمندی در مورد میزان شباهت‌های فضایی ارائه دهد. بنابراین، ما انتخاب می‌کنیم که همبستگی فضایی را به صورت سرتاسری یاد بگیریم. هدف شبکه رابطه یادگیری یک متریک عمیق قابل انتقال برای مقایسه رابطه بین تصاویر پس زمینه از شبکه Inpainting ( بخش 3.3.2) است.) و صحنه های توزیع گونه ها از فرهنگ لغت دانش.
با الهام از پیشرفت‌های اخیر در شبکه‌های رابطه‌ای که از ابتدا به صورت سرتاسر آموزش داده شده‌اند [ 37 ]، یک شبکه رابطه در چارچوب محدودیت‌های فضایی پیشنهاد شده است ( شکل 3 را ببینید ). پس از آموزش، شبکه می تواند با محاسبه امتیازات رابطه بین تصاویر پس زمینه و گونه ها بدون به روز رسانی بیشتر، همبستگی های فضایی ایجاد کند. تاکید می کنیم که مختصات جغرافیایی را به تصاویر اختصاص ندهیم. در عوض، شبکه رابطه یک مدل مبتنی بر تشابه و اندازه گیری است که شباهت را با استفاده از نمایش های بصری یاد می گیرد.

ما این را فرض می کنیم از الحاق عمق برای اپراتور تصاویر پس‌زمینه و صحنه‌های توزیع گونه‌ها استفاده می‌کند. ماژول تعبیه است و نقشه های ویژگی را تولید می کند. تصاویر پس‌زمینه نقاشی‌شده و صحنه‌های توزیع گونه‌ها به ماژول رابطه وارد می‌شوند ، که در نهایت یک اسکالر در محدوده [0، 1] ایجاد می کند که شباهت صحنه بین صحنه های توزیع گونه ها را نشان می دهد. و تصاویر پس زمینه نقاشی شده از شبکه Inpainting. بنابراین، نمرات رابطه ایجاد می کنیم برای رابطه بین گونه ها و زمینه های احتمالی:

جایی که تعداد تصاویر پس زمینه از شبکه Inpainting است. حداکثر مقدار K – 1 + K ( N – 1) است .

ما از میانگین مربعات خطا (MSE) از دست دادن (معادله (5)) برای آموزش مدل، رگرسیون نمره رابطه استفاده می کنیم. به حقیقت اصلی: جفت های منطبق دارای مقدار شباهت 1 و جفت نامتناسب دارای مقدار مشابه 0 هستند.

بنابراین، تصویر ذوب شده از حیوانات در حال انقراض و تصاویر پس زمینه مرتبط به دست می آید که با نشان داده شده است و . به طور مشخص، مدل تولید شده به شکل فشرده زیر نوشته شده است:

جایی که و پارامترهای منظم سازی هستند، آستانه است و به معنای تعداد صحنه‌های پس‌زمینه انتخاب‌شده به ترتیب است . (ما در این مقاله 40 درصد برتر را انتخاب می کنیم و مقدار به صورت تجربی مشاهده می شود).

3.4. ماژول وزن دهی مجدد

ما بیشتر ماژول وزن‌دهی مجدد ویژگی را بررسی کردیم گرفتن به عنوان ورودی و جاسازی آن در نمایش مخصوص کلاس:

جایی که i نمایانگر طبقات حیوانات در خطر انقراض است، زیرمجموعه i از مجموعه داده تصویر را نشان می دهد ، و اولین ماسک است ما می توانیم قسمت مخصوص کلاس را بدست آوریم توسط:

جایی که نشان دهنده ضرب کانالی است. ویژگی خاص کلاس به پیش بینی تشخیص منتقل می شود 🝒 برای به دست آوردن نمره عینیت ، انحراف موقعیت جسم ، امتیاز طبقه بندی مربوطه و امتیاز طبقه بندی مربوطه :

برای مجموعه ای از وظایف تشخیص j ، ضرر بعدی به حداقل می رسد تا مشترکاً یادگیرنده ویژگی بهینه شود ، ماژول وزن مجدد و پیش بینی کننده تشخیص 🝒 :

جایی که ، ، و پارامترهای ویژگی یادگیرنده هستند ، ماژول وزن دهی مجدد و پیش بینی کننده تشخیص 🝒 ، به ترتیب. مجموعه داده پشتیبانی شده شامل N نمونه از دسته های مختلف است نمایش تصویر و حاشیه نویسی مربوطه در مجموعه داده پرس و جو برای ارزیابی عملکرد مدل. از دست دادن آشکارساز از ضرر آنتروپی متقابل امتیاز طبقه بندی [ 34 ]، امتیاز طبقه بندی، از دست دادن رگرسیون جعبه مرزی و از دست دادن رگرسیون شیئی [ 38 ] محاسبه می شود.

3.5. بهینه سازی

الگوریتم تجربی به حداقل رساندن ریسک (ERM) یک ابزار محبوب برای بهینه سازی روش های تشخیص است. اصل اساسی آن انتخاب طبقه بندی کننده با کمترین مقدار یک تابع ریسک است. با توجه به یک فرضیه و جفت داده ها با توزیع احتمال مشترک ، می توانیم مسئله بهینه سازی تابع را به مسئله کمینه سازی ریسک مورد انتظار تبدیل کنیم:

برای سادگی، ما فقط از تابع ریسک تجربی استفاده می کنیم جایگزینی ریسک مورد انتظار:

علاوه بر این، آموزش مورد نیاز برای پردازش حجم زیادی از داده ها همچنان مقیاس و عمق ERM را محدود می کند [ 39 ]. ما نیاز به ایجاد یک روش بهینه سازی جدید برای یادگیری چند شات تحت پارادایم ERM داریم. شکل 4 a,b تفاوت بین نمونه های کافی و کم را در فرآیند یادگیری ماشین نشان می دهد.

ما می‌توانیم از ماژول ACA فوق استفاده کنیم (که در بخش 3.3 ذکر شد )، که از دانش قبلی برای دستیابی به توانایی آگاه از زمینه تطبیقی ​​استفاده می‌کند و تعداد نمونه‌ها را به‌طور چشمگیری بهبود می‌بخشد. بنابراین، می‌توانیم تابع کمینه‌سازی ریسک تجربی دقیق‌تری به دست آوریم ( شکل 4 ج). الگوریتم 1 روش آموزش را نشان می دهد.

الگوریتم 1 الگوریتم تشخیص مدل FRW-ACA
ورودی : مجموعه کمکی و مجموعه پشتیبانی .
خروجی : موقعیت شی (x، y، h، w) و امتیاز اطمینان c.
 1: سازماندهی مجدد تصاویر آموزشی با چند کار چند شات .
 2: برای دوره آموزشی = 1 تا 500 انجام دهید .
 3: هر کار را به آموزش اضافه کنید و آن را تنظیم کنید ، ، برای بهینه سازی معادله (10).
 4: پایان برای.
 5: تصاویر اضافی را از طریق ماژول ACA ایجاد کرده و به آن اضافه کنید .
 6: برای دوره آموزشی = 1 تا 20 انجام دهید.
 7: آموزش چند شات را برای تنظیم دقیق مدل با استفاده از تصاویر انجام دهید .
 8: پایان برای.
 9: مدل را بارگذاری کنید و تصویر پرس و جو را وارد کنید تا به نتیجه برسید.

4. آزمایشات

در این بخش، آزمایش‌هایی را ارائه می‌کنیم که از یک مجموعه داده جدید ساخته شده برای صحنه تشخیص اشیاء حیوانات در حال انقراض استفاده می‌کنند. علاوه بر این، محدودیت‌های مکانی روش خود را حذف می‌کنیم تا مزایایی را که ارائه می‌کنند نشان دهیم.

4.1. مجموعه داده

برای اهداف ارزیابی، آزمایش‌ها برای تشخیص حیوانات در معرض خطر انقراض چند شات در محیط‌های نامشخص در نظر گرفته شدند. سپس به داده‌هایی نیاز داریم که از آن‌ها می‌توان حیوانات، در معرض خطر انقراض یا غیرمشخص، و پس‌زمینه‌های نامشخص را با هم افزود. با این حال، این داده‌ها در مجموعه داده‌های رایج تشخیص اشیا موجود نیستند. شکاف زمینه ای وسیعی بین تصاویر این دسته بندی های اساسی و تصاویر حیوانات در حال انقراض وجود دارد. شکل 5 نمونه هایی را در مجموعه داده عمومی نشان می دهد.
بنابراین، ما یک مجموعه داده EAOD (تشخیص اشیاء حیوانات در معرض خطر) را برای ارزیابی منصفانه ساختیم. ما تصاویر حیوانات را از منابع عمومی مانند OIDv4 [ 40 ]، AwA2 [ 41 ] به دست آوردیم.]، Flickr و Google Images برای ساخت مجموعه داده EAOD ما. با این حال، ما نمی‌توانیم مستقیماً از این مجموعه داده‌ها استفاده کنیم زیرا (1) استانداردهای برچسب‌گذاری مجموعه داده‌های مختلف ناسازگار هستند. به عنوان مثال، همان دسته از اشیاء دارای برچسب های دیگری در مجموعه داده های مختلف است. (2) بسیاری از تصاویر کیفیت برچسب گذاری ضعیفی در مجموعه داده دارند. (3) علاوه بر مجموعه داده‌های تشخیص شی، تصاویر سایر منابع حاوی برچسب‌گذاری جعبه مرزی مورد نیاز در وظیفه تشخیص شی نیستند. بنابراین، ابتدا استانداردهای برچسب‌گذاری را در EAOD یکسان کردیم تا اطمینان حاصل کنیم که اشیاء دسته‌بندی یکسان دارای نام برچسب‌گذاری هستند. سپس، تصاویری را که متناسب با اندازه شی هستند، حذف کردیم، مانند اشیایی که حتی انسان‌ها نمی‌توانند آن‌ها را به دقت تشخیص دهند، زیرا این اشیاء چه به عنوان نمونه کلاس پایه و چه به عنوان نمونه کلاس جدید مناسب نیستند. بعد،42 ] قالب مجموعه داده ها و تقسیم داده ها به مجموعه های آموزشی و آزمون با توجه به مجموعه آموزش چند شات.
این مجموعه داده شامل 13455 تصویر و 20 دسته با 15 دسته حیوانات معمولی برای آموزش پایه است. پنج دسته باقی مانده حیوانات در معرض خطر برای آموزش تنظیم دقیق چند شات هستند. مجموعه‌های آموزشی و آزمایشی دسته‌های مکرر حاوی نمونه‌های تصویری کافی برای کل کار تشخیص هستند و به 8:2 تقسیم می‌شوند. مجموعه آموزشی برای دسته‌های حیوانات در حال انقراض از تنظیمات چند عکس استفاده می‌کند (هر دسته از 1/2/3/5/10 شی استفاده می‌کند)، و مجموعه آزمایشی شامل 100 تصویر در هر دسته برای ارزیابی است.

4.2. تنظیمات آزمایشی

همه آزمایش‌ها از یک پلتفرم با پردازنده Intel Xeon Gold 6126*4، NVIDIA Tesla V100*2، 256G RAM و Ubuntu 16.04 استفاده می‌کنند. mAP (میانگین دقت متوسط)، منحنی دقیق-یادآوری (منحنی PR)، و AP نرمال شده به عنوان معیارهای ارزیابی انتخاب می شوند.
یادگیری یک یادگیرنده خوب متا ویژگی چالش برانگیز است و یک ماژول وزن مجدد در آموزش مدل به دلیل فاصله زیاد بین نمونه های حیوانات در حال انقراض و معمولی. بنابراین، ما از یک طرح یادگیری دو مرحله‌ای برای اطمینان از عملکرد تعمیم مدل برای دسته‌های حیوانات در معرض خطر استفاده کردیم. مرحله اول آموزش پایه است و ما فقط از دسته های حیوانات معمولی برای آموزش استفاده می کنیم. اگرچه بسیاری از نمونه‌های استاندارد حیوانات پیاده‌سازی شده‌اند، ما هنوز با چندین تکالیف یادگیری تشخیص چند شات روبه‌رو هستیم تا اطمینان حاصل کنیم که این مدل در وظایف تشخیص شی حیوانات در حال انقراض به خوبی عمل می‌کند. به طور خاص، ما از یک اندازه دسته ای 64 برای آموزش نمونه های کلاس پایه برای 500 دوره استفاده کردیم، که در آن نرخ یادگیری 1 × 10-3 ، تکانه 9 × 10-1 ، و کاهش وزن 5 × 10-4 است.
مرحله دوم تنظیم دقیق چند شات است. مجدداً، نمونه‌های دسته‌بندی حیوانات معمولی و حیوانات در حال انقراض به طور همزمان آموزش داده می‌شوند و هر کلاس فقط دارای جعبه‌های حاشیه‌دار با حاشیه‌نویسی K خواهد بود که می‌توان از آنها استفاده کرد. این مرحله از فرآیند آموزش مانند مرحله اول است اما به تکرارهای کمتری نیاز دارد زیرا مدل از ویژگی های مربوطه به طور کامل استفاده می کند. بنابراین، در این مرحله، ما از اندازه دسته‌ای 4 برای انجام 20 دوره آموزشی دوره تنظیم دقیق برای همه دسته‌ها استفاده کردیم که در آن نرخ یادگیری به 1 × 10-4 تنظیم شده بود ، و سایر تنظیمات با مرحله آموزش پایه سازگار بود.

4.3. پایه

آشکارساز چند شات ما بر اساس چارچوب تشخیص مدل یک مرحله ای ساخته شده است. با در نظر گرفتن پیشرفته‌ترین مدل‌های یک مرحله‌ای همراه با استراتژی‌های یادگیری چند شات، مدل YOLOv4 [ 43 ] را به‌عنوان پایه انتخاب می‌کنیم، از جمله YOLOv4-joint و YOLOv4-ft، و YOLOv4-ft-full. خط پایه دیگر یک مدل عمومی تشخیص شی چند شات FRW است که عمدتاً از ماژول وزن‌دهی مجدد ویژگی برای استفاده کامل از ویژگی‌های کلاس پایه استفاده می‌کند. این متا ویژگی های تعمیم یافته را برای تشخیص اشیاء جدید استخراج می کند. ما همچنین روش خود را با سایر مدل‌های تشخیص اشیا، مانند EfficientDet [ 44 ]، CenterNet [ 45 ]، RetinaNet [ 46 ] و Meta R-CNN [ 47 ] مقایسه می‌کنیم.

4.4. نتایج و مقایسه ها

نتایج EAOD. نتایج کمی در جدول 1 و نمونه های تشخیص در شکل 6 نشان داده شده است.
جدول 1 روش ما را با عملکردهای مختلف تشخیص پایه (mAP) در مجموعه داده EAOD نشان می دهد. برای نشان دادن کامل عملکرد همه روش‌ها در تشخیص حیوانات در خطر انقراض، ما پنج تنظیمات چند شات را برای آزمایش‌ها اتخاذ کردیم، یعنی 1-shot، 2-shot، 3-shot، 5-shot و 10-shot. میز 1نتایج را خلاصه می‌کند و نشان می‌دهد که روش ما در تنظیمات چند شات، به‌ویژه در مجموعه 1 شات، نسبت به سایر خطوط پایه برتر است. از منظری دیگر، نتایج استحکام مدل ما را برای نمونه‌های جدید تأیید می‌کند، که به‌ویژه در صحنه‌های چند عکس شدید برجسته است. عملکرد مفصل YOLOv4 به خصوص در تنظیمات سه شات اول ناکافی است. علاوه بر این، نتیجه نشان می‌دهد که زمانی که نمونه‌های پایه و نمونه‌های جدید به طور همزمان در صحنه‌های چند نما، مانند تشخیص حیوانات در حال انقراض، آموزش داده می‌شوند، به‌دست آوردن یک مدل تعمیم‌یافته دشوار است. همچنین نشان می دهد که طرح آموزشی دو مرحله ای ما بهتر است، به خصوص با محدودیت های فضایی. علاوه بر این، شکل 6برخی از نتایج کیفی را در EAOD با استفاده از مدل FRW-ACA ما با وابستگی فضایی نشان می‌دهد.
برای ارزیابی عملکرد جامع تر، مقایسه منحنی های PR را پیشنهاد می کنیم ( شکل 7 ). در مقایسه با سایر روش ها، تفاوت قابل توجهی بین روش ما و روش های ذکر شده در بالا این است که اقدامات تطبیقی ​​را انجام می دهد که به تغییرات محیطی پاسخ می دهد. علاوه بر این، رویکرد ما به طور قابل توجهی عملکرد را بهبود می بخشد و بهترین عملکرد را در مجموعه داده EAOD نشان می دهد.
زمان-هزینه شکل 8سرعت یادگیری از روش های مختلف را نشان می دهد. به طور شهودی، سیستم ما ممکن است زمان بیشتری را نشان دهد زیرا نمونه‌های جدید بسیاری را که حاوی اطلاعات معنایی اضافی در طول آموزش هستند، تولید می‌کند که شبکه قبلاً هرگز آن‌ها را ندیده بود. با این حال، نتیجه نشان می‌دهد که مدل ما هنوز توانایی یادگیری سریع بر اساس FRW را حفظ می‌کند و تنها چند تکرار دوره برای نزدیک شدن به مقدار هم‌گرایی مورد نیاز است. در YOLOv4، این شاخص به طور مداوم افزایش می‌یابد و تکرارهای بیشتری برای تطبیق با صحنه جدید مورد نیاز است. در اینجا، ما فقط از منحنی واحد FRW-ACA استفاده می کنیم زیرا مدل ما به طور کامل از دانش آموخته شده در مرحله آموزش پایه استفاده می کند. بنابراین، مدل به سرعت در مرحله آموزش حیوانات در حال انقراض همگرا می شود. تفاوت معنی داری در سرعت یادگیری بین سه راهبرد تطبیقی ​​وجود ندارد.
ارزیابی بین مجموعه داده ها. علاوه بر این، برای نشان دادن توانایی تعمیم مدل ما و توانایی سازگاری آگاه از زمینه در صحنه تشخیص اشیا حیوانات در خطر انقراض، ما همچنین از معیار VOC که به طور گسترده در تشخیص اشیا استفاده می‌شود برای ارزیابی مدل در دسته‌های حیوانات در معرض خطر استفاده می‌کنیم. به طور خاص، ما ابتدا از تصاویر موجود در مجموعه داده VOC برای آموزش پایه استفاده کردیم و سپس از تصاویر حیوانات در حال انقراض برای آموزش تنظیم دقیق در تنظیمات چند شات استفاده کردیم. در نهایت، عملکرد دسته‌های حیوانات در معرض خطر را روی مجموعه داده EAOD ارزیابی کردیم. همانطور که در جدول 2 نشان داده شده است، تعداد mAP برای هر روش تشخیص چند شات به دلیل اعداد شات تا حدودی متفاوت بود . مدل ما دقت بالایی را با چند عکس امکان پذیر می کند.
در نتیجه، مدل ما همچنان بهترین شاخص عملکرد را دارد. با این حال، مشاهده کردیم که مقادیر mAP مدل ما و سایر خطوط پایه به درجات متفاوتی در مقایسه با مجموعه داده EAOD کاهش یافته است. نتیجه عمدتاً به این دلیل است که دسته‌های تصویر در مجموعه داده VOC با دسته‌های تصاویر حیوانات در معرض خطر کاملاً متفاوت هستند. بنابراین، مدل نمی تواند به طور کامل از ویژگی های آموخته شده در مرحله اولیه استفاده کند. با این حال، همچنین نشان می دهد که مجموعه داده EAOD ساخته شده توسط ما کاربرد بهتری در سناریوی تشخیص شی حیوانات در معرض خطر دارد.

4.5. تحلیل و بررسی

تحقیقات ما شواهدی را ارائه می‌کند که محدودیت‌های فضایی ممکن است امکان افزایش دقیق‌تر داده‌ها را فراهم کند، و ویژگی‌های بینایی تصاویر می‌تواند اطلاعات مفیدی در مورد میزان شباهت‌های فضایی ارائه دهد. علاوه بر این، روش ما دقت تشخیص را از نتایج کلی تجربی بهبود می‌بخشد، عمدتاً به دلیل ماژول آگاه از متن تطبیقی ​​و مجموعه داده EAOD. ماژول آگاه از متن تطبیقی ​​به چارچوب کمک می کند تا معنای متنی بیشتری را با نمونه های کم به دست آورد. سپس، این مدل در سناریوهای جدید از قابلیت تعمیم و سازگاری بیشتری برخوردار است. علاوه بر این، مجموعه داده EAOD شکاف زمینه بین مجموعه داده های معمولی و نمونه ها در صحنه های حیوانات در معرض خطر را جبران می کند. در نتیجه، مدل می تواند به طور کامل از ویژگی های آموخته شده در مرحله آموزش اولیه استفاده کند.

5. نتیجه گیری و کار آینده

انفجار داده ها چالش ها و فرصت هایی را برای جامعه اطلاعات جغرافیایی ایجاد کرده است. GIS باید گسترش یابد تا مشاهدات دینامیکی حسگرها، از جمله اطلاعات جغرافیایی داوطلبانه را در خود جای دهد. با ترکیب فناوری‌های پدید آمده از علم داده‌های جغرافیایی و بینش رایانه، می‌توانیم داده‌های بزرگ را به اطلاعات و دانش مفیدی تبدیل کنیم که به طور مؤثرتری در خدمت تحقیقات تنوع زیستی باشد.
به طور کلی، روش ارائه شده در اینجا مسیرهای جالبی را برای تجزیه و تحلیل داده های تنوع زیستی باز می کند. برخلاف روش‌های اتوماسیون کاملاً مبتنی بر داده، روش ما مبتنی بر استراتژی‌های دانش محور و داده محور است. همچنین تصاویر اولیه را برای تولید مجموعه‌ای غنی از نمونه‌ها با ترکیب جزئیات متنی ارائه می‌کند که می‌تواند برای افزایش کارایی نمونه یادگیری، به‌ویژه برای تشخیص حیوانات در خطر انقراض، ارزشمند باشد. علاوه بر این، شبکه تعبیه تطبیقی ​​می تواند بینش های ارزشمندی را در مورد چارچوب یادگیری مولد برای یادگیری چند شات ارائه دهد که منجر به پردازش تطبیقی، توانمندتر و کارآمدتر می شود. چنین رویکردی همچنین باید به عنوان یک بلوک ساختمانی تعبیه شده ای عمل کند که به طور انعطاف پذیر در هر معماری قابل استفاده است.
برای مطالعه ما محدودیت هایی وجود دارد، به ویژه اندازه مجموعه داده ما. محدودیت دیگر مربوط به این واقعیت است که، برای تشخیص در سطح فردی، روش ما به شدت به عملکرد تشخیص قطعات برجسته وابسته است. به عنوان مثال، آشکارساز اغلب در تشخیص نوزادان حیوانی شکست می خورد. در عصر کلان داده، نقش سرویس داده های مکانی باید از انبارهای داده به ارائه دهندگان اطلاعات هوشمند تغییر کند [ 48 ]]. بنابراین، جهت‌های آینده برای بهبود چارچوب ما شامل اتخاذ متغیرهای متعدد و افزایش داده‌ها برای افزایش دقت و تعمیم‌پذیری و گسترش GIS سنتی و تجزیه و تحلیل فضایی در تحقیقات تنوع زیستی است. علاوه بر این، تشخیص چند شات که متمایز است در حوزه های مختلف وجود دارد. ما برنامه های ممکن را برای چارچوب خود در نظر می گیریم، به عنوان مثال، تشخیص حیوانات وحشی برای نظارت تصویری، تشخیص خودکار رفتار و غیره.

منابع

  1. هاوک، تی. Steinhage، V. بهره برداری از اطلاعات عمق برای نظارت بر حیات وحش. arXiv 2021 ، arXiv:2102.05607. [ Google Scholar ]
  2. کاراواگی، ا. بانک ها، پ. برتون، سی. Finlay، CMV؛ هاسول، PM; هیوارد، مگاوات؛ راکلیف، ام. وود، ام. مروری بر تله گذاری دوربین برای تحقیقات رفتار حفاظتی. سنسور از راه دور Ecol. حفظ کنید. 2017 ، 3 ، 109-122. [ Google Scholar ] [ CrossRef ]
  3. یانگ، ال. لو، پی. تغییر، LC; Tang, X. مجموعه داده ماشین در مقیاس بزرگ برای طبقه بندی و تأیید دقیق. در مجموعه مقالات کنفرانس IEEE 2015 در مورد دید رایانه و تشخیص الگو (CVPR)، بوستون، MA، ایالات متحده آمریکا، 7 تا 12 ژوئن 2015. [ Google Scholar ]
  4. جی، ز. لیو، ایکس. پانگ، ی. اویانگ، دبلیو. لی، ایکس. شناسایی تعامل انسان و شی چند شات با شبکه نمونه‌های اولیه توجه هدایت‌شده معنایی. IEEE Trans. فرآیند تصویر 2020 ، 30 ، 1648-1661. [ Google Scholar ] [ CrossRef ]
  5. لی، ایکس. وو، جی. سان، ز. ما، ز. کائو، جی. ژو، جی.-اچ. BSNet: شبکه دو شباهت برای طبقه بندی تصاویر ریز دانه چند شات. IEEE Trans. فرآیند تصویر 2020 ، 30 ، 1318-1331. [ Google Scholar ] [ CrossRef ] [ PubMed ]
  6. لیو، بی. یو، ایکس. یو، ا. ژانگ، پی. وان، جی. وانگ، آر. یادگیری چند شات عمیق برای طبقه بندی تصاویر فراطیفی. IEEE Trans. Geosci. Remote Sens. 2018 , 57 , 2290–2304. [ Google Scholar ] [ CrossRef ]
  7. گو، ک. ژانگ، ی. Qiao, J. Ensemble Meta-Learning برای تشخیص چگالی دوده چند شات. IEEE Trans. Ind. اطلاع رسانی. 2020 ، 17 ، 2261-2270. [ Google Scholar ] [ CrossRef ]
  8. ما، ایکس. شاهبختی، م. چیگان، سی. متا-یادگیری توزیع شده مبتنی بر خودروی متصل برای مدل‌سازی مصرف سوخت موتور/قطره تطبیقی ​​آنلاین. IEEE Trans. وه تکنولوژی 2020 ، 69 ، 9553-9565. [ Google Scholar ] [ CrossRef ]
  9. Qin، X. ژانگ، ز. هوانگ، سی. دهقان، م. Zaiane، OR; Jagersand، M. U2-Net: با ساختار U تودرتو برای تشخیص اشیاء برجسته، عمیق‌تر می‌رویم. تشخیص الگو 2020 , 106 , 107404. [ Google Scholar ] [ CrossRef ]
  10. زنگ، ی. لین، ز. لو، اچ. Patel، VM Cr-fill: inpainting تصویر مولد با بازسازی زمینه کمکی. در مجموعه مقالات کنفرانس بین المللی IEEE/CVF 2021 در بینایی رایانه (ICCV)، مونترال، QC، کانادا، 11 تا 17 اکتبر 2021. [ Google Scholar ]
  11. نوروززاده، ام اس; نگوین، ا. کوسملا، م. سوانسون، ا. پالمر، ام اس; پکر، سی. Clune, J. شناسایی خودکار، شمارش و توصیف حیوانات وحشی در تصاویر تله دوربین با یادگیری عمیق. Proc. Natl. آکادمی علمی ایالات متحده آمریکا 2018 ، 115 ، E5716–E5725. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  12. کروس، دی. جیکوبز، RL; ریچاردسون، ز. کلوم، اس. جین، ا. بادن، آل. Tecot، SR LemurFaceID: یک سیستم تشخیص چهره برای تسهیل شناسایی فردی لمورها. BMC Zool. 2017 ، 2 ، 562. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  13. Witham، CL تشخیص خودکار چهره ماکاک های رزوس. J. Neurosci. Methods 2017 ، 300 ، 157-165. [ Google Scholar ] [ CrossRef ] [ PubMed ]
  14. دب، دی. برف پاک کن، اس. گونگ، اس. شی، ی. تیموشک، سی. فلچر، ا. جین، AK تشخیص چهره: نخستی‌سانان در طبیعت. در مجموعه مقالات نهمین کنفرانس بین المللی IEEE 2018 در نظریه، کاربردها و سیستم های بیومتریک (BTAS)، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 22 تا 25 اکتبر 2018. [ Google Scholar ]
  15. واینستین، BG چشم انداز کامپیوتری برای اکولوژی حیوانات. J. Anim. Ecol. 2017 ، 87 ، 533-545. [ Google Scholar ] [ CrossRef ] [ PubMed ]
  16. کونیار، د. هارگاش، ال. لونکوا، ز. دوچون، اف. Beňo, P. کاربرد ماشین بینایی در ردیابی مسیر حیوانات. محاسبه کنید. روش ها برنامه های Biomed. 2015 ، 127 ، 258-272. [ Google Scholar ] [ CrossRef ]
  17. یودین، دی. سوتنیکوف، آ. Krishtopik، A. تشخیص حیوانات بزرگ در تصاویر با صحنه های جاده با استفاده از یادگیری عمیق. در مجموعه مقالات کنفرانس بین‌المللی هوش مصنوعی 2019: کاربردها و نوآوری‌ها (IC-AIAI)، Vrdnik، Banja، صربستان، 30 سپتامبر تا 4 اکتبر 2019. [ Google Scholar ]
  18. کوچکی، ف. شمسی، ف. نجفی زاده، ل. تشخیص mtbi با یادگیری ویژگی‌های مکانی-زمانی داده‌های تصویربرداری کلسیم وسیع با استفاده از یادگیری عمیق. در مجموعه مقالات چهل و دومین کنفرانس بین‌المللی سالانه انجمن مهندسی پزشکی و زیست‌شناسی IEEE (EMBC)، مونترال، QC، کانادا، 20 تا 24 ژوئیه 2020 در سال 2020. [ Google Scholar ]
  19. شوفیلد، دی. ناگرانی، ع. زیسرمن، آ. هایاشی، م. ماتسوزاوا، تی. بیرو، دی. تشخیص چهره کاروالیو، اس. شامپانزه از ویدیوهای موجود در طبیعت با استفاده از یادگیری عمیق. علمی Adv. 2019 ، 5 ، eaaw0736. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  20. Kuncheva, L. شناسایی مجدد حیوانات با استفاده از طبقه بندی مجموعه محدود. Ecol. به اطلاع رساندن. 2021 ، 62 ، 101225. [ Google Scholar ] [ CrossRef ]
  21. لای، ن. کان، م. هان، سی. آهنگ، X. شان، اس. یادگیری برای یادگیری طبقه‌بندی‌کننده تطبیقی–پیش‌بینی‌کننده برای یادگیری چند شات. IEEE Trans. شبکه عصبی فرا گرفتن. سیستم 2020 ، 32 ، 3458-3470. [ Google Scholar ] [ CrossRef ]
  22. منخدالایی، ت. یو، اچ. شبکه های متا. در مجموعه مقالات سی و چهارمین کنفرانس بین المللی یادگیری ماشین (ICML)، سیدنی، NSW، استرالیا، 6 تا 11 اوت 2017. [ Google Scholar ]
  23. وانگ، آ. Yuille, AL آموزش یک شات از طریق ترکیب تکه های معنی دار. در مجموعه مقالات کنفرانس بین المللی IEEE 2015 در بینایی کامپیوتر (ICCV)، بوستون، MA، ایالات متحده آمریکا، 7 تا 13 دسامبر 2015. [ Google Scholar ]
  24. حریهاران، بی. Girshick, R. تشخیص بصری کم شات با کوچک شدن و ویژگی های توهم. در مجموعه مقالات کنفرانس بین المللی IEEE 2017 در بینایی کامپیوتری (ICCV)، ونیز، ایتالیا، 22 تا 29 اکتبر 2017. [ Google Scholar ]
  25. چن، ز. فو، ی. وانگ، YX; ما، ال. لیو، دبلیو. هبرت، ام. متا شبکه های تغییر شکل تصویر برای یادگیری تک شات. در مجموعه مقالات کنفرانس IEEE/CVF در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 16 تا 20 ژوئن 2019. [ Google Scholar ]
  26. خو، ز. زو، ال. یانگ، ی. تشخیص شی چند شات از تصاویر وب با برچسب ماشین. در مجموعه مقالات کنفرانس IEEE 2017 در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، هونولولو، HI، ایالات متحده آمریکا، 21 تا 26 ژوئیه 2017. [ Google Scholar ]
  27. رامالهو، تی. گارنلو، ام. یادگیری پسین تطبیقی: یادگیری چند شات با ماژول حافظه مبتنی بر غافلگیری. arXiv 2019 ، arXiv:1902.02527. [ Google Scholar ]
  28. قیصر، Ł. ناچوم، او. روی، ا. Bengio، S. یادگیری به خاطر سپردن رویدادهای نادر. arXiv 2017 , arXiv:1703.03129. [ Google Scholar ]
  29. وانگ، ایکس. یو، اف. وانگ، آر. دارل، تی. Gonzalez، JE Tafe-net: تعبیه‌های ویژگی آگاه از وظایف برای یادگیری کم شات. در مجموعه مقالات کنفرانس IEEE/CVF 2019 در مورد دید رایانه و تشخیص الگو (CVPR)، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 16 تا 20 ژوئن 2019. [ Google Scholar ]
  30. وانگ، R.-Q. ژانگ، X.-Y. لیو، سی.-ال. یادگیری فرا نمونه اولیه برای تشخیص چند شات دامنه-آگنوستیک. IEEE Trans. شبکه عصبی فرا گرفتن. سیستم 2021 ، 1-7. [ Google Scholar ] [ CrossRef ]
  31. لی، اچ. دونگ، دبلیو. می، ایکس. مک.؛ هوانگ، اف. Hu، BG ​​LGM-Net: آموزش ایجاد شبکه های منطبق برای یادگیری چند شات. در مجموعه مقالات سی و ششمین کنفرانس بین المللی یادگیری ماشین (ICML)، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 9 تا 15 ژوئن 2019. [ Google Scholar ]
  32. لیو، کیو. ژانگ، ایکس. لیو، ی. هوو، ک. جیانگ، دبلیو. Li, X. چند قطبی فیوژن چند شات شناسایی هدف HRRP بر اساس چارچوب فرا یادگیری. IEEE Sensors J. 2021 , 21 , 18085-18100. [ Google Scholar ] [ CrossRef ]
  33. رحمان، س. خان، س. Porikli، F. یک رویکرد یکپارچه برای متعارف صفر شات، کلی صفر شات، و چند شات یادگیری. IEEE Trans. فرآیند تصویر 2018 ، 27 ، 5652–5667. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  34. کانگ، بی. لیو، ز. وانگ، ایکس. یو، اف. فنگ، جی. دارل، تی. تشخیص شی چند شات از طریق وزن دهی مجدد ویژگی. در مجموعه مقالات کنفرانس بین المللی IEEE/CVF 2019 در بینایی رایانه (ICCV)، سئول، کره، 27 اکتبر تا 4 نوامبر 2019. [ Google Scholar ]
  35. وانگ، سی. لیو، ز. چان، اس.-سی. تشخیص حرکت دست مبتنی بر سوپرپیکسل با دوربین عمق کینکت. IEEE Trans. چندتایی. 2015 ، 17 ، 29-39. [ Google Scholar ] [ CrossRef ]
  36. ژانگ، اچ. ژانگ، جی. کونیوس، پی. یادگیری چند شات از طریق توهم هدایت‌شده برجستگی نمونه‌ها. در مجموعه مقالات کنفرانس IEEE/CVF 2019 در مورد دید رایانه و تشخیص الگو (CVPR)، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 16 تا 20 ژوئن 2019. [ Google Scholar ]
  37. سونگ، اف. یانگ، ی. ژانگ، ال. شیانگ، تی. Torr، PH; Hospedales، TM آموزش مقایسه: شبکه ارتباطی برای یادگیری چند شات. در مجموعه مقالات کنفرانس IEEE 2018 در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، سالت لیک سیتی، UT، ایالات متحده آمریکا، 18 تا 22 ژوئن 2018. [ Google Scholar ]
  38. ردمون، جی. فرهادی، A. YOLO9000: بهتر، سریعتر، قوی تر. در مجموعه مقالات کنفرانس IEEE 2017 در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، هونولولو، HI، ایالات متحده آمریکا، 21 تا 26 ژوئیه 2017. [ Google Scholar ]
  39. وانگ، ی. یائو، کیو. Kwok، JT; Ni, LM تعمیم از چند مثال: نظرسنجی در مورد یادگیری چند شات. کامپیوتر ACM. Surv. (Csur) 2020 ، 53 ، 1-34. [ Google Scholar ] [ CrossRef ]
  40. کوزنتسوا، آ. رام، اچ. آلدرین، ن. Uijlings، J. کراسین، آی. پونت توست، جی. کمالی، س. پوپوف، اس. مالوچی، م. کولسنیکوف، آ. و همکاران مجموعه داده تصاویر باز v4. بین المللی جی. کامپیوتر. چشم انداز 2020 ، 128 ، 1956-1981. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  41. Xian، Y. لامپرت، CH; شیله، بی. آکاتا، Z. یادگیری بدون شات – ارزیابی جامع از خوب، بد و زشت. IEEE Trans. الگوی مقعدی ماخ هوشمند 2018 ، 41 ، 2251-2265. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  42. اورینگهام، ام. ون گول، ال. ویلیامز، CKI; وین، جی. زیسرمن، آ. چالش کلاس‌های شیء بصری پاسکال (VOC). بین المللی جی. کامپیوتر. Vis. 2009 ، 88 ، 303-338. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  43. بوچکوفسکی، آ. وانگ، سی. Liao، HYM Yolov4: سرعت و دقت بهینه تشخیص اشیا. arXiv 2020 ، arXiv:2004.10934. [ Google Scholar ]
  44. تان، م. پانگ، آر. Le, QV Efficientdet: تشخیص اشیا مقیاس پذیر و کارآمد. در مجموعه مقالات کنفرانس IEEE/CVF 2020 در مورد دید رایانه و تشخیص الگو (CVPR)، سیاتل، WA، ایالات متحده آمریکا، 14 تا 19 ژوئن 2019. [ Google Scholar ]
  45. ژو، ایکس. وانگ، دی. Krähenbühl, P. اشیاء به عنوان نقاط. arXiv 2019 ، arXiv:1904.07850. [ Google Scholar ]
  46. لین، TY; گویال، پ. گیرشیک، آر. او، ک. Dollár, P. از دست دادن کانونی برای تشخیص اجسام متراکم. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتری (ICCV)، ونیز، ایتالیا، 22 تا 29 اکتبر 2017. [ Google Scholar ]
  47. یان، ایکس. چن، ز. خو، آ. وانگ، ایکس. لیانگ، ایکس. Lin, L. Meta r-cnn: به سمت حل کننده کلی برای یادگیری سطح پایین نمونه. در مجموعه مقالات کنفرانس بین المللی IEEE/CVF 2019 در بینایی رایانه (ICCV)، سئول، کره، 27 اکتبر تا 4 نوامبر 2019. [ Google Scholar ]
  48. لی، ایکس. چنگ، جی. وانگ، ال. وانگ، جی. ران، ی. چه، تی. لی، جی. او، اچ. ژانگ، Q. جیانگ، ایکس. و همکاران تقویت اشتراک داده های علوم زمین در چین نات. Geosci. 2021 ، 14 ، 541-542. [ Google Scholar ] [ CrossRef ]
شکل 1. مروری بر چارچوب پیشنهادی برای تشخیص حیوانات در معرض خطر انقراض چند شات.
شکل 2. معماری برای فرهنگ لغت دانش. قبل از جمع‌آوری داده‌ها، گروه‌های تصویر پس‌زمینه برچسب‌گذاری جغرافیایی می‌شوند (مختصات GPS یا GeoName). همه تصاویر از یک پلتفرم به اشتراک گذاری داده آنلاین گرفته شده و توسط شبکه Saliency و شبکه Inpainting از قبل پردازش شده است. توجه داشته باشید که تعداد تصاویر دانلود شده در گونه های مختلف متغیر است. پس از نمونه برداری مکانی، مختصات لازم نیست.
شکل 3. معماری برای پس زمینه های انتخاب شده با فرهنگ لغت دانش و شبکه ارتباط. هدف این است که به طور خودکار ارتباط تصاویر پس‌زمینه و گونه‌های نقاشی شده را با اندازه‌گیری شباهت تصویر شناسایی کنید. توجه داشته باشید که همه تصاویر مختصات جغرافیایی را تعیین نمی کنند زیرا تصاویر موجود در مجموعه داده اغلب دارای برچسب جغرافیایی نیستند. در حالی که ما عکس‌های دارای برچسب جغرافیایی را انتخاب نکرده‌ایم، این چارچوب به ما اجازه می‌دهد تا مدل‌های عمومی‌تری را توسعه دهیم.
شکل 4. مقایسه یادگیری با نمونه های کافی، نمونه های کم و روش ما ( a – c ).
شکل 5. نمونه ای از شکاف های متنی بین تصاویر موجود در مجموعه داده عمومی ( a – e ) و تصاویر حیوانات در حال انقراض ( f – j ).
شکل 6. نمونه های تشخیص 10 شات ما روی حیوانات در حال انقراض، از جمله جعبه های مرزی، دسته ها و امتیازات اطمینان.
شکل 7. منحنی های دقیق-یادآوری مدل ما و سایر خطوط پایه در مجموعه داده EAOD. (* نشان دهنده حذف محدودیت های فضایی در مخلوط است).
شکل 8. مقایسه سرعت یادگیری. ما AP نرمال شده را در برابر تعداد دوره های آموزشی رسم می کنیم.

بدون دیدگاه

دیدگاهتان را بنویسید