تکنیک ردیابی شی متحرک با استفاده از چند فریم با استخراج نقشه ویژگی و فیچر فیوژن

تکنیک های ردیابی شی متحرک با استفاده از ماشین و یادگیری عمیق به مجموعه داده های بزرگی برای آموزش مدل عصبی نیاز دارند. باید استراتژی‌های جدیدی ابداع شود که از اندازه‌های آموزشی داده‌های کوچک‌تر برای درک تأثیر مجموعه داده‌های بزرگ استفاده کند. با این حال، تحقیقات فعلی بین اندازه داده‌های آموزشی و پارامترهای عصبی تعادل برقرار نمی‌کند، که مشکل ناکافی بودن اطلاعات ارائه‌شده توسط محتوای کم داده‌های بصری برای بهینه‌سازی پارامتر را ایجاد می‌کند. برای بهبود عملکرد ردیابی شی متحرک که تنها در چند فریم ظاهر می شود، این تحقیق یک مدل یادگیری عمیق را با استفاده از یک رمزگذار-رمزگشا (یک ترانسفورماتور با وضوح بالا (HRT) رمزگذار-رمزگشا) پیشنهاد می کند. رمزگذار-رمزگر HRT از استخراج نقشه ویژگی استفاده می کند که بر روی نقشه های ویژگی با وضوح بالا تمرکز می کند که بیشتر نماینده شی متحرک هستند. علاوه بر این، ما از رمزگذار-رمزگشای HRT پیشنهادی برای استخراج و ادغام نقشه ویژگی برای بازپرداخت چند فریمی که اطلاعات بصری دارند، استفاده می‌کنیم. آزمایش‌های گسترده ما بر روی مجموعه‌داده‌های Pascal DOC19 و MS-DS17 نشان داده‌اند که مدل فراوان رمزگذار-رمزگشا HRT از مطالعات قبلی که شامل چند فریم شامل اجسام متحرک است، بهتر عمل می‌کند.

کلید واژه ها:

ردیابی شی متحرک ; ردیابی شی متحرک چند فریم ; ویژگی ترکیب نقشه

1. مقدمه

ردیابی اجسام متحرک یک حوزه تحقیقاتی مهم و یک وظیفه بسیار مهم در زمینه سیستم های نظارت بر اتوماسیون امنیتی است. تحقیقات عمده مدل های یادگیری عمیق برای ردیابی شی متحرک شامل CNN های مبتنی بر منطقه [ 1 ] و SSD ها است که مدل های تک شات [ 2 ] هستند. ردیابی شی متحرک گزاره های تحقیقاتی بسیار خوبی را ایجاد کرده است، یعنی Overfat [ 2 ، 3 ، 4 ] و R-CNN با آموزش سریع [ 4 ، 5 ، 6 ، 7 ]]. این مدل‌ها به مقدار زیادی داده بصری در گستره‌ای از فریم‌های زیاد برای نقشه‌های ویژگی زمانی نیاز دارند تا عملکرد بهتری داشته باشند. برچسب‌گذاری نمونه‌های داده می‌تواند هزینه‌های محاسباتی بالایی ایجاد کند، زیرا یافتن آنها دشوار است. این مشکل تا حدودی چالش هایی را برای یادگیری عمیق ایجاد کرده و تحقیقات هوش مصنوعی را متوقف کرده است، که نیاز به استفاده از اندازه داده آموزشی کوچک برای ردیابی اشیاء در محیط های پویا را ایجاد کرده است.

مغز انسان فقط هنگام مشاهده چند نمونه اشیاء متحرک را تشخیص داده و ردیابی می کند، و ما در نظر داریم که مدل های عصبی عمیق نیز باید این قابلیت را ابداع کنند. با فرض وجود یک کلاس فراوان از اشیاء پویا، می توان از یک کلاس متفاوت با فریم های کمی برای ردیابی یک شی متحرک استفاده کرد. همانطور که در شکل 1 نشان داده شده است، مرحله آموزش به دو مرحله تقسیم می شود: آموزش فراوان و آموزش کمیاب. در آموزش فراوان، نمونه‌های آموزش داده کافی برای ایجاد فضای نقشه ویژگی که می‌تواند نقشه‌های ویژگی پویا اجسام متحرک را مشخص کند، استفاده می‌شود. در آموزش کمیاب، یک فرآیند تنظیم مدل یادگیری عمیق اجازه می دهد تا کلاس کمیاب جدید در فضای نقشه ویژگی مشخص شود. نویسندگان [ 3] سیستم ردیابی شی متحرک چند فریمی را در نظر گرفت. با تعریف بردار شی پویا، خواص متا ردیابی را اصلاح کرد. دو مرحله از فرآیند فراآموزشی [ 5 ] و مدل‌های سی‌ان‌ان مبتنی بر منطقه متا [ 5 ، 6 ، 7 ] پیشنهاد شد.

نویسندگان [ 8 ] یک مربی فراخواص و یک فرآیند امتیازدهی دارایی را با استفاده از مدل Googlenetv2 پیشنهاد کردند [ 9 ]] اجازه می دهد تا مدل تشخیص با کلاس های جدید تنظیم شود. یادگیرنده نقشه ویژگی از نمونه‌های کافی (در مرحله آموزش) از نمونه‌های داده برچسب‌گذاری شده فراوان برای استخراج تعمیم متا ویژگی برای طبقه‌بندی شی پویا در آینده استفاده می‌کند. انباشتن امتیازها، برخی از نمونه‌های کمکی را از کلاس کمیاب به بردارهایی تبدیل می‌کند که اهمیت جهانی و همبستگی بالای نقشه متاویژگی محاسبه‌شده شی متحرک ردیابی‌شده مشابه را مشخص می‌کنند. فرآیند ترکیب نقشه فراویژگی توسط مربی نقشه ویژگی با بردار امتیاز محاسبه شده توسط روش امتیازدهی شده یاد می‌گیرد. رگرسیون و اطلاعات پیش بینی شی پویا را می توان محاسبه کرد. با این وجود، این مدل‌ها برای استخراج نقشه ویژگی بسیار منفرد هستند و بسیاری از نمایش‌های ویژگی‌ها نامحدود هستند. به علاوه،

مدل فراوان رمزگذار-رمزگشا HRT پیشنهادی می‌تواند با این مشکل مقابله کند. رمزگذار-رمزگر HRT می‌تواند تمام نمایش‌های ویژگی یک توالی ویدیوی نظارتی معین را استخراج کند و از مجموعه پشتیبانی برای دستیابی به ترکیب نقشه ویژگی و ردیابی شی پویا استفاده کند. مدل رمزگذار-رمزگشا HRT نقشه ویژگی متا شی پویا طیف گسترده را از کلاس ردیابی فراوان استخراج می کند و سپس نقشه ویژگی متا تعمیم یافته آموخته شده را برای پیش بینی اشیاء پویا دیگر اختصاص می دهد. مدل پیشنهادی بر روی تعداد زیادی از نمونه‌های برچسب‌گذاری شده برای استخراج و محاسبه بردارهای متمایز نقشه ویژگی انتخابی که می‌تواند برای برخی از کلاس‌های جدید استفاده شود، آموزش داده شده است. مدل پیشنهادی برای تولید بردارهای تعمیم طراحی شده است. هنگام استفاده از تعداد کمی نمونه از کلاس شی جدید برای تنظیم پارامترهای مدل،

ویژگی های اساسی طبقه فراوان نمایانگر ویژگی های مشترک هر دو طبقه فراوان و جدید است. بنابراین، ویژگی های اساسی اجسام متحرک شباهت های متعددی دارند. به عنوان مثال، اسب دارای چهار پای لوله‌ای شکل است، مانند کلاس‌های جدید گاوها و سگ‌ها، و بنابراین آموزش چند قاب شبیه یک مفهوم یادگیری انتقالی است. برای درک بیشتر، مدل ما نیاز به آموزش دو مرحله‌ای دارد که شامل آموزش فراوان با مجموعه داده‌های بزرگ است که کلاس جدید را ندارد، و به دنبال آن آموزش کمیاب که مطابق با کلاس جدید تنظیم می‌شود.

به طور کلی، سهم عمده این تحقیق به شرح زیر است:

تحقیق ما یک مدل رمزگذار-رمزگشا HRT را ارائه می‌کند که ویژگی‌های فراوان و یک رمزگذار-رمزگشا را برای ترکیب نقشه ویژگی برای پشتیبانی از ردیابی شی متحرک چند فریمی استخراج می‌کند.
تحقیق ما یک مدل یادگیری عمیق را پیشنهاد می‌کند که نقشه‌های ویژگی فراوان را استخراج می‌کند و از روش‌های زمانی و توجه موازی استفاده می‌کند.

2. آثار مرتبط

2.1. ردیابی شی متحرک

مدل‌های یادگیری ماشین برای ردیابی شی متحرک از پردازش ویدیوی نظارتی [ 6 ، 7 ، 8 ، 9 ، 10 ، 11 ، 12 ] استفاده می‌کنند. ردیابی اجسام متحرک از پیش‌بینی‌های جسم متحرک فراوان در موقعیت‌های جسم متحرک استفاده می‌کند. مدل های فعلی ردیابی اجسام متحرک شامل یک یا چند فاز برای ردیابی اجسام متحرک هستند [ 13 , 14 , 15 , 16 , 17]، که با استفاده از محاسبات هندسی حاشیه های اطراف تعریف می شوند. مدل چند فازی به محاسبه مرزهای نامزد با اشیاء متحرک احتمالی نیاز دارد و سپس مرزهای مرزهای استخراج شده را پیش‌بینی و اعتبار می‌بخشد [ 18 ]. مدل قبلی یک تکنیک شبکه‌ای متمرکز بر جسم متحرک را اجرا می‌کند تا پارامترهای پیش‌بینی را محاسبه کند تا شی متحرک را بدون محاسبه هیچ یک از مرزها شناسایی کند. مدل چند فازی عملکرد بالاتری دارد [ 19 ، 20 ، 21]. مدل تک فاز از نظر دقت در مقایسه با مدل چند فاز پایین‌تر است، اما از نظر سرعت از سایر مدل‌ها بهتر عمل می‌کند و با یک الگوی بلادرنگ مشخص می‌شود. با این وجود، این مدل‌ها نقصی دارند که در آن به نمونه‌های داده برچسب‌دار بیشتری برای آموزش مدل نیاز دارند.

2.2. ردیابی شی متحرک چند فریم

یادگیری چند فریم یک مدل پیشرفته است که تنها از چند فریم برای ردیابی اشیا در هر دو طبقه‌بندی آموزشی و پیش‌بینی استفاده می‌کند [ 22 ، 23 ، 24 ]. مدل چند فریمی شامل پیش‌بینی چند فریم برای محاسبه موقعیت جسم متحرک در فیلم‌های نظارتی است. برای شناسایی اجسام متحرک با داده های آموزشی کمی استفاده می شود. معمولاً می‌توانیم این تکنیک را به عنوان یک مدل یادگیری کمیاب تعریف کنیم [ 25 ].

مدل یادگیری کمیاب، ردیابی شی متحرک به دست آمده از چند داده مشابه را به عنوان مرحله یادگیری شروع تعریف می کند. می توان آن را با استفاده از مدل های رگرسیون به موقعیت های ردیابی جدید تغییر داد. نویسندگان [ 26 ] یک الگوریتم یادگیری برای بهبود عملکرد طبقه‌بندی ردیابی شی متحرک با داده‌های کم ارائه کردند. نویسندگان [ 27] اطلاعات شی متحرک را از استان شی متحرک تعیین می کند در حالی که تطبیق را برای تقویت موارد ردیابی شی متحرک با چند فریم انجام می دهد. مدل ارائه یک الگوریتم یادگیری پیش پردازش معمولاً در پارادایم ردیابی شی متحرک اعمال می شود. مفهوم تکنیک یادگیری انتقالی دوره‌های آموزش مدل را به شدت کاهش می‌دهد، اما می‌تواند به یک مشکل بیش از حد تناسب منجر شود، که می‌تواند با مدل سیستماتیک حل شود. علاوه بر این، در حالی که انتقال یادگیری با داده‌های کمیاب می‌تواند سریع‌تر همگرا شود، طبقه‌بندی کننده همچنان با یک تنظیم تعمیم رضایت‌بخش مواجه است.

یادگیری انتقالی به مدل اجازه می دهد تا سریعتر یاد بگیرد. یادگیری انتقالی از پیش‌آموزش کارهای مشابه استفاده می‌کند و یادگیری انتقالی برای تولید پارامترهای فوق‌العاده از آموزش قبلی برای دستیابی به یک مقدار اولیه مدل مناسب استفاده می‌شود. مدل یادگیری انتقال ارائه شده در [ 28 ] فاز یادگیری انتقال و طبقه‌بندی شی متحرک را که می‌تواند دانش و تکنیک‌های یادگیری سریع را کسب کند و طبقه‌بندی کننده را در مورد نحوه استفاده از نمونه‌های داده کمی آموزش دهد. CNN یادگیری انتقال ارائه شده در [ 6 ] از یادگیری انتقالی بر روی ویژگی های منطقه خاص استفاده می کند و تقسیم شی متحرک را از طریق R-CNN افزایش می دهد. نویسندگان [ 29] از گروه بندی ردیابی شی متحرک و ردیابی چند فریم در یک یادگیری انتقال مستقل برای ارائه رویکردی برای تنظیم طبقه بندی کننده استفاده کردند و آنها یک سیستم ردیابی با دقت بالاتر را پیشنهاد کردند و یک تکنیک بهینه سازی را برای نمونه های کمی از داده ها پذیرفتند. نویسندگان [ 30 ] یک آغازگر یادگیری انتقال را به یک CNN پیشنهاد کردند. پس از استفاده، با توجه به چند فریم ویدئوی نظارتی از شی متحرک جدید، آغازگر انتقال می‌تواند تاثیر طبقه‌بندی کننده را در مرحله پیش‌بینی یادگیری تقویت‌شده نمونه‌های جدید به شیوه‌ای حلقه خوراک ایجاد کند. در مقایسه با مدل نت گوگل، نویسندگان [ 30 ] از داده های بسیاری از کلاس ها استفاده کردند و از ویژگی های انتقال استفاده کردند و آنها را برای به دست آوردن یادگیری سریع سایر کلاس ها تنظیم کردند.

2.3. مدل توجه

مدل‌های رمزگذار-رمزگشا (E-DM) همیشه در پردازنده‌های زبان طبیعی استفاده می‌شوند و از یک مدل ترانسفورماتور استفاده می‌کنند [ 29 ، 30 ، 31 ، 32]. مدل‌های E-DM نقشه ورودی M را به ماتریس‌ها و بردارهای زیر تبدیل می‌کنند: ماتریس پشتیبانی V، بردار کلید K، و بردار مقدار VA. E-DM ها حاصل ضرب نقطه ای بین V و K را محاسبه می کنند تا امتیاز توجه نمونه های ورودی را بدست آورند. این روش به عنوان محاسبات توجه شناخته می شود و فرآیند اصلی مدل های رمزگذار-رمزگشا است. عملکرد امتیاز نقشه ویژگی M با استفاده از امتیازات توجه، خروجی های نقشه ویژگی را با پیوندهای خاص بین کلمات ورودی به دست می دهد. مدل‌های رمزگذار-رمزگشا و انحرافات آنها نتایج بهتری در پارادایم‌های NPL به دست آورده‌اند. یک مدل رمزگذار-رمزگشا مانند مدل ترانسفورماتور BERT که در [ 33 ] نشان داده شده است، ترانسفورماتورها را برای ترجمه های ناشناخته با محدود کردن متقابل زمینه ها آموزش می دهد.

مدل‌های توجه مانند آنچه در [ 33 ] نشان داده شده است، از یک مدل رمزگذار – رمزگشا برای داده‌های مکانی استفاده می‌کنند. ثابت شده است که چنین مدل رمزگذار-رمزگشا می تواند عملکرد یادگیری عمیق را، به ویژه در بینایی کامپیوتر، افزایش دهد. نویسندگان [ 34 ] یک معماری CNN را معرفی کردند که از یک جفت رمزگذار – رمزگشا برای ردیابی شی متحرک استفاده می کند. در [ 35]، نویسندگان یک مدل رمزگذار-رمزگشا برای مقابله با دید کامپیوتری ارائه کردند و دقت بالایی بر روی داده‌های چندین ورودی تشخیص قاب ویدیوی نظارتی به دست آوردند. با توجه به دقت بالای مدل‌های رمزگذار-رمزگشا، الگوریتم‌های بینایی کامپیوتری زیادی که به جفت رمزگذار-رمزگشا بستگی دارند معرفی شده‌اند. برای استفاده از مدل‌های رمزگذار-رمزگشا برای ردیابی شی متحرک چند فریم، ما برخی تغییرات را در روش مدل زوج رمزگذار-رمزگشا پیشنهاد می‌کنیم.

3. رویکرد پیشنهادی

این تحقیق یک مدل یادگیری عمیق را با استفاده از یک رمزگذار-رمزگر فراوان (ترانسفورماتور با وضوح بالا (HRT) رمزگذار-رمزگشا) پیشنهاد می‌کند. رمزگذار-رمزگر HRT از استخراج نقشه ویژگی استفاده می کند که بر روی نقشه های ویژگی با وضوح بالا تمرکز می کند که بیشتر نماینده شی متحرک هستند. علاوه بر این، تحقیق ما از رمزگذار-رمزگشای HRT پیشنهادی برای استخراج و ادغام نقشه ویژگی برای بازپرداخت چند فریمی که اطلاعات بصری دارند، استفاده می‌کند. در مدل پیشنهادی، ما یک کلاس فراوان با ویژگی‌های داده زیادی ارائه می‌کنیم، در حالی که یک کلاس کمیاب جدید با مقدار کمی داده نشان داده می‌شود. هدف ما استفاده از کلاس‌های فراوان و کمیاب برای القای مدل یادگیری است که می‌تواند اجسام متحرک را در هر دو کلاس پیش‌بینی کند. در شکل 2، مرحله آموزش دوگانه بکار گرفته شده به تصویر کشیده شده است. مرحله اول از اطلاعات قبلی برای تعریف نقشه ویژگی قاب ویدئویی نظارتی که از کلاس فراوان (A) آموخته شده است، استفاده می کند. فاز دوم مرحله تنظیم است، که در آن تنظیم آموزش کلاس کمیاب برای ارائه انطباق مدل عصبی با اجسام متحرک جدید در کلاس کمیاب (S) اتفاق می‌افتد. ورودی های دوگانه داده به عنوان داده های پشتیبانی تعریف می شوند

b

و داده های پشتیبانی

v

. مرحله یادگیری فراوان، تعریف داده های مجموعه پشتیبانی را به تصویر می کشد

A_{b}

و داده های پشتیبانی مجموعه به

A_{v}

، که به طور مشابه در کلاس جدید کمیاب تعریف شده است. اگر تعداد کلاس های کلاس جدید باشد

M

و تعداد فریم ها در هر کلاس می باشد

f

، مشکل به صورت فرموله شده است

M

-مسیر

f

ردیابی شیء متحرک فریم ها

3.1. مدل Deep CNN

مدل CNN عمیق پیشنهادی عمدتاً شامل یک فرآیند استخراج نقشه ویژگی از نمایش‌های فراوان است که برای استخراج نقشه‌های ویژگی از مجموعه پشتیبانی استفاده می‌شود. متعاقباً، نمایش‌های ویژگی استخراج‌شده در بردارهای مسطح نقشه ویژگی به تصویر کشیده می‌شوند و آنها به لایه ورودی رمزگذار-رمزگشا تغذیه می‌شوند. علاوه بر این، این بردارها در رمزگذارها و رمزگشاهای خودکار برای انجام ترکیب نقشه ویژگی استفاده می شوند. بردارهای مسطح محاسبه شده از پشتیبان و مجموعه های پشتیبانی برای به دست آوردن بردارهای همجوشی استفاده می شوند.

برای استخراج نقشه ویژگی‌های فراوان و کاهش از دست دادن نقشه ویژگی فریم‌های ویدئوی نظارتی، مدل ما از یک مدل آموزش نقشه ویژگی فراوان، همانطور که در شکل 3 در زیر نشان داده شده است، استفاده می‌کند.

3.2. مدل پشتیبانی پیشنهادی

در مدل پشتیبانی پیشنهادی، پارتیشن بندی مدل به چند فاز موازی رمزگذارهای خودتوجهی توسط ادغام دنبال می شود. هر رمزگذار توجه به خود با تصاویر کلاس فراوان تغذیه می شود و تنها دو فاز آخر توسط تصاویر کلاس کمیاب تغذیه می شود. مجموعه ویژگی های متعدد از هر فاز استخراج می شود. تمام مجموعه ویژگی ها از طریق یک مدل ترکیبی گام از نقشه های ویژگی جمع آوری شده و مورد استفاده قرار می گیرند. وضوح حاصل از ماژول های ادغام، وضوح کمتری نسبت به مرحله رمزگذار خودکار دارد. هر عصاره فاز موازی دارای بردارهای نقشه است و سپس مدل همجوشی همجوشی چند مرحله ای را انجام می دهد. نقشه‌های ویژگی هر دو وضوح فراوان و کمیاب ادغام شده‌اند، و مدل ما از رمزگذارهای گام به گام برای فریم‌های ویدیوی نظارتی فراوان و نمونه‌برداری پایین برای لایه‌های ادغام استفاده می‌کند. تکنیک ادغام از میانگین پیکسلی استفاده می‌کند و کانال‌های متعدد نقشه‌های ویژگی وضوح به یک مقدار تنظیم می‌شوند. علاوه بر این، برای افزایش مقدار دریافت، پیچیدگی گام بردارهای نقشه ویژگی را در فاز اول محاسبه می‌کند. به منظور بهبود تمرکز مکان نقشه ویژگی، از توجه زمانی موازی در تکمیل هر فاز استفاده می‌کنیم.

فرآیند PTAP در شکل 3 نشان داده شده است و الگوریتم همانطور که در الگوریتم 1 نشان داده شده است. توجه معمولاً از یک لایه ادغام و دو لایه پیچشی 3×3 تشکیل شده است و در بین آنها از یک فعال سازی ReLU استفاده می شود. فرآیند توجه زمانی دارای چهار پیچیدگی است. توجه PTAP توجه را متمرکز می کند تا تصمیم بگیرد که کدام کانال ها ویژگی های اصلی شی پویا متحرک را در بر می گیرند. فرآیند توجه زمانی بر مسیر زمانی تاکید می‌کند و تشخیص می‌دهد که کدام فریم شامل داده‌های اصلی جسم پویا متحرک است. جزئیات فرآیند به شرح زیر است:

م آ پ اف = من سی \cdot ψ (M آ پ تی آ + اف سی آ)

(1)

م آ پ اس آ = سی پ (سی جی (من ج))

(2)

م آ پ سی آ = سی تو (μ (سی D (م آ پ پ (من ج)))))

(3)

M a p_{F}

نقشه ویژگی خروجی و ورودی (

I_{C}

). توابع فعال سازی

ψ

μ

توابع فعال سازی Sigmoid و ReLu را نشان می دهد.

C_{P}

C_{D}

، و

C_{u}

توابع پیچیدگی را تعریف کنید و

M a p_{P}

حداکثر مقدار میانگین ادغام را نشان می دهد.

M a p_{T A}

نشان دهنده مقدار خروجی توجه زمانی و

M a p_{C A}

خروجی توجه کانال را نشان می دهد.

مدل توجه ما از یک طراحی موازی برای یادگیری نمایش‌های پیچیده قاب ویدیویی نظارتی استفاده می‌کند. ماژول‌های توجه زمانی موازی می‌توانند همبستگی ویژگی‌های کانال را در هر نقطه محاسبه کرده و آنها را برای بهبود توانایی نمایندگی نگاشت نمایش ویژگی‌ها تنظیم کنند.

3.3. مدل رمزگذار – رمزگشا

مدل رمزگذار-رمزگشا توسط گوگل معرفی شد [ 35 ، 36 ، 37 ، 38 ، 39 ، 40 .]. یک رمزگذار-رمزگر HRT از یک روش توجه به خود برای محاسبه نقشه‌های ویژگی در یک مکانیسم موازی از ورودی ویدیوی نظارتی استفاده می‌کند. برای حفظ همبستگی ورودی، مدل از کدگذاری موقعیت برای محاسبه مختصات مکان استفاده می کند. در نتیجه، مدل رمزگذار-رمزگشا می‌تواند همبستگی بین داده‌های قبلی و بعدی را تضمین کند. اما به دلیل ماهیت موازی ورودی، دوره آموزش مدل کاهش می یابد. مدل رمزگذار-رمزگشا دارای یک رمزگذار ساختار ترانسفورماتور است. هنگام استخراج نقشه ویژگی، ورودی موازی برای محاسبات همبستگی به رمزگذار داده می‌شود و سایر نقشه‌های ویژگی داده به دست می‌آیند و رمزگشایی می‌شوند.

3.3.1. ساختار رمزگذار

ماژول کلیدی رمزگذار در مدل رمزگذار-رمزگشا، روش توجه به خود است. برای محاسبه بردار توجه، از سه ورودی مکان، یعنی I1 ، I2 ، I3 ، همانطور که در الگوریتم 1 نشان داده شده است استفاده می شود.

الگوریتم 1: چارچوب رمزگذار
1. همبستگی را در ورودی محاسبه کنید. همبستگی توسط حاصل ضرب نقطه ای محاسبه می شود، که برای محاسبه حاصلضرب نقطه برای بردارها در $I 1$ و هر بردار در $I 2$ . فرمول خاص این است: $Corr = I 1\cdot من_2 تی$ (4)
2. همبستگی محاسبه شده بر پارامتر d برای کاهش گرادیان در مرحله یادگیری، همانطور که در رابطه (5) نشان داده شده است، تقسیم می شود: $Corr = Corr / d$ (5)
که در آن d پارامتر توزیع softmax طبقه بندی کننده را تعریف می کند و منحنی یادگیری انحطاط مدل را نشان می دهد. 3. بردار همبستگی نرمال شده را با استفاده از طبقه بندی کننده softmax به مقداری در محدوده صفر و یک تغییر دهید. همبستگی به صورت زیر به یک ماتریس احتمال Z با مقادیر در محدوده صفر و یک تبدیل می شود: $Z = توجه (I ، J) = سافت مکس (آی جی تی / د)$ (6)
4. مقدار حاصلضرب نقطه ای Z و K را محاسبه کنید. $ایکس = Z \cdot K$ (7)

هدف از جمع آوری یک نمونه RES باقیمانده، جلوگیری از تخریب در مدل عصبی عمیق مدل آموزشی است. تخریب نشان می‌دهد که با تجمع تعداد لایه‌ها در مدل عصبی عمیق، تلفات برای رسیدن به اشباع و تعداد لایه‌ها افزایش می‌یابد.

عادی سازی می تواند روند یادگیری را سرعت بخشد و ثبات منحنی یادگیری را افزایش دهد. با این وجود، عادی سازی باید اندازه کوچک داده ها را حل کند. لایه نرمال سازی به اندازه ورودی متصل است و اگر ورودی کوچک باشد با تداخل بالایی مواجه خواهد شد. میانگین و واریانس ورودی باعث نمایش نادرست توزیع داده می شود. این می تواند منجر به استفاده از مقدار زیادی از حافظه و همچنین زمان یادگیری طولانی شود. مرحله یادگیری ممکن است به دلیل مسیر گرادیان ایستا شکست بخورد. در این مورد، می‌توانیم از نرمال‌سازی کانال استفاده کنیم، که کانال را به کانال‌های فرعی تقسیم می‌کند و داخل دسته را محاسبه می‌کند. محاسبه به اندازه کانال فرعی بستگی ندارد و عملکرد را می توان در دسته های بزرگتر تثبیت کرد. عادی سازی کانال می تواند از مشکلات عادی سازی دسته ای جلوگیری کند. برای فریم‌های ویدیوی نظارتی با اندازه‌های دسته‌ای M، G، H و C، نرمال‌سازی کانال کانال‌ها را به کانال‌های فرعی تعریف می‌کند و میانگین‌ها و انحرافات استاندارد را در هر کانال فرعی محاسبه می‌کند و هر ورودی لایه را مجبور می‌کند از محدوده صفر تا یک پیروی کند. توزیع، که مشکل کوواریانس جابجایی را حل می کند و همگرایی مدل را سرعت می بخشد. این به صورت زیر نشان داده شده است:

r = من - E [ I ] SD [ I ] + ε ——-\sqrt * p 1 + p 2

(8)

جایی که $I$ ورودی است، $r$ ورودی نرمال شده است، $E [I]$ مقدار مورد انتظار است، $SD [I]$ انحراف معیار است، $p 1$ و $p 2$ پارامترهای آموزشی هستند و $ϵ$ آستانه ای است که از رسیدن مخرج به صفر جلوگیری می کند.

3.3.2. ساختار رمزگشا

در مدل رمزگذار-رمزگشا، ساختار رمزگشا نقشه پشتیبانی را به نقشه ویژگی پشتیبانی منتقل می کند. بردار مجموعه پشتیبانی و بردار پشتیبانی به عنوان ورودی به رمزگذار تغذیه می شوند $I$ و $J$ . به طور همزمان، پس‌زمینه خارجی را به شی متحرک تکیه‌گاه تسلیم می‌کنیم و از برچسب بردار پشتیبان به عنوان ورودی فاز آموزشی با بردار پشتیبانی محاسبه‌شده از معادله B استفاده می‌کنیم. $\otimes$ م . سپس، نقشه ویژگی تبدیل شده را با استفاده از معادله توجه محاسبه می کنیم $Z_{B \to I} (B \otimes M)$ . محاسبه به صورت زیر نشان داده شده است:

من c h a n n e l = کانال_هنجار (ز ب \to من ˆ (B\otimes M_، جی ، من) + من)

(9)

در مقایسه با

I

، ویژگی-نقشه تقویت شده است

I_{c h a n n e l}

نقشه های مختلف شی متحرک را از نقشه ویژگی پشتیبانی گروه بندی می کند

I

برای افزایش ارزش آن

ورودی نقشه‌های ویژگی ترکیبی یک شبکه فید فوروارد ( FF ) را با «Avoid Connection» تشکیل می‌دهد. اهمیت آن در فرآیند لایه ReLU نهفته است. بردار نقشه ویژگی با فرآیند توجه به تطبیق نقشه ویژگی استخراج می شود که بیانگر بودن مدل را افزایش می دهد. مدل FF یک مدل پرسپترون دو/چند لایه (D-MLP) است که دارای یک لایه کاملاً متصل (FC) و یک لایه فعال‌سازی ReLU است که در هر مکان به طور مجزا به کار می‌رود. محاسبه به شرح زیر است:

اف اف (O “) = R e L U (O “ سی 1 + آ 1) سی 2 + آ 2

(10)

اینجا،

O^{'}

خروجی لایه قبلی است و

where, C^{1} \in S^{D_{m} \times D_{f}},

C^{2} \in S^{D_{f} \times D_{m}},

a^{1} \in S^{D_{f}},

a^{2} \in S^{D_{m}}

اینها همه پارامترهای فوق العاده مرحله آموزش هستند. مقدار پارامتر

D_{f}

بالاتر از مقدار است

D_{m}

. پس از مرحله گذرا شبکه FF ، از فرآیندهای Acc و عادی سازی کانال استفاده می کنیم.

4. آزمایشات

در این بخش، مدل رمزگذار – رمزگشای HRT را از طریق شبیه‌سازی مدل مقایسه و آزمایش می‌کنیم. در این مقاله، یک مدل رمزگذار-رمزگشا برای شناسایی ردیابی شی متحرک چند فریم استفاده شده است. آزمایش‌ها در بخش‌های فرعی زیر نشان داده شده‌اند.

4.1. مجموعه داده ها

ما از داده های عمومی برای نظارت ردیابی شی متحرک برای آموزش و آزمایش مدل خود استفاده کردیم. دو مجموعه داده وجود داشت: DOC19 و DS17. شرح مجموعه داده مدل رمزگذار-رمزگشا HRT در [ 12 ] نشان داده شده است.

4.1.1. مجموعه داده DOC19

ما از مجموعه داده‌های DS17 و DOC19 برای آموزش مدل با استفاده از 12000 فریم ویدیویی استفاده کردیم. در فرآیند اعتبارسنجی از فریم‌های ویدئویی از هر دو مجموعه داده (5300) استفاده شد. مجموعه داده آموزشی کلاس‌های فراوانی را انتخاب کرد، در حالی که فرآیند پیش‌بینی از نمونه‌های جدیدی استفاده کرد. کلاس‌های فراوان حاوی بسیاری از داده‌های قاب ویدیوی نظارتی بودند و کلاس جدید فریم‌های ویدیویی نظارتی کمی داشت. برای فرآیند ردیابی نظارت کلاس N و M، کلاس جدید را به عنوان N کلاس تعریف کردیم و هر کلاس منفرد دارای قاب‌های ویدیویی M با برچسب‌های برچسب‌گذاری شده بود. در ابتدا آموزش مدل را بر روی کلاس های فراوان انجام دادیم تا امتیاز مدل اولیه را بدست آوریم و در مرحله بعد یک تنظیم دقیق مدل را در کلاس جدید انجام دادیم. در کلاس جدید، ما جسم متحرک را در کلاس فراوان جمع کردیم تا مدل رمزگذار-رمزگشا آموزش دیده بتواند هم کلاس های جدید و هم کلاس های فراوان را شناسایی کند. برای جلوگیری از عمومیت نبودن فرآیند ردیابی مدل، مجموعه داده را به سه زیر مجموعه تقسیم کردیم تا مدل را آموزش و آزمایش کنیم. در هر زیر مجموعه، برای کلاس 22، پنج کلاس به عنوان کلاس های جدید انتخاب شدند و کلاس های دیگر به عنوان داده های کلاس فراوان استفاده شدند. برای هر زیر مجموعه، 3، 7 و 9 را برای پارامتر K کلاس جدید برای آموزش و اعتبار سنجی گرفتیم. هنگام ارزیابی مجموعه داده ها، از میانگین دقت کلاس جدید برای آزمایش استفاده کردیم. وقتی نسبت اتصال و اختلاف بین نتیجه و برچسب واقعی بالاتر از 0.5 بود، نتیجه درست بود، یعنی JD50. برای جلوگیری از عمومیت نبودن فرآیند ردیابی مدل، مجموعه داده را به سه زیر مجموعه تقسیم کردیم تا مدل را آموزش و آزمایش کنیم. در هر زیر مجموعه، برای کلاس 22، پنج کلاس به عنوان کلاس های جدید انتخاب شدند و کلاس های دیگر به عنوان داده های کلاس فراوان استفاده شدند. برای هر زیر مجموعه، 3، 7 و 9 را برای پارامتر K کلاس جدید برای آموزش و اعتبار سنجی گرفتیم. هنگام ارزیابی مجموعه داده ها، از میانگین دقت کلاس جدید برای آزمایش استفاده کردیم. وقتی نسبت اتصال و اختلاف بین نتیجه و برچسب واقعی بالاتر از 0.5 بود، نتیجه درست بود، یعنی JD50. برای جلوگیری از عمومیت نبودن فرآیند ردیابی مدل، مجموعه داده را به سه زیر مجموعه تقسیم کردیم تا مدل را آموزش و آزمایش کنیم. در هر زیر مجموعه، برای کلاس 22، پنج کلاس به عنوان کلاس های جدید انتخاب شدند و کلاس های دیگر به عنوان داده های کلاس فراوان استفاده شدند. برای هر زیر مجموعه، 3، 7 و 9 را برای پارامتر K کلاس جدید برای آموزش و اعتبار سنجی گرفتیم. هنگام ارزیابی مجموعه داده ها، از میانگین دقت کلاس جدید برای آزمایش استفاده کردیم. وقتی نسبت اتصال و اختلاف بین نتیجه و برچسب واقعی بالاتر از 0.5 بود، نتیجه درست بود، یعنی JD50. برای هر زیر مجموعه، 3، 7 و 9 را برای پارامتر K کلاس جدید برای آموزش و اعتبار سنجی گرفتیم. هنگام ارزیابی مجموعه داده ها، از میانگین دقت کلاس جدید برای آزمایش استفاده کردیم. وقتی نسبت اتصال و اختلاف بین نتیجه و برچسب واقعی بالاتر از 0.5 بود، نتیجه درست بود، یعنی JD50. برای هر زیر مجموعه، 3، 7 و 9 را برای پارامتر K کلاس جدید برای آموزش و اعتبار سنجی گرفتیم. هنگام ارزیابی مجموعه داده ها، از میانگین دقت کلاس جدید برای آزمایش استفاده کردیم. وقتی نسبت اتصال و اختلاف بین نتیجه و برچسب واقعی بالاتر از 0.5 بود، نتیجه درست بود، یعنی JD50.

4.1.2. مجموعه داده DS17

مجموعه داده‌های DS17 کلاس‌های غنی و تعداد زیادی فریم ویدیو را در بر می‌گرفت. برای آزمایش ردیابی اشیاء قاب ویدیویی نظارتی استفاده خواهد شد. در پارادایم فرآیند ردیابی شی متحرک، DS17 شامل 76 کلاس مختلف با 10000 فریم ویدیویی برای آموزش و 5000 فریم ویدیویی برای اعتبارسنجی بود. ما 18 کلاس را به عنوان مجموعه کلاس های جدید انتخاب کردیم و کلاس های باقیمانده مجموعه کلاس های فراوان بودند.

4.1.3. فرآیند آموزش

محیط شبیه سازی آزمایش ما یک GPU TX208 با 64 گیگابایت حافظه بود. این با استفاده از پایتون در ایستگاه های خورشیدی لینوکس اجرا شد و از PyTorch یادگیری عمیق برای ساخت مدل های رمزگذار-رمزگشا استفاده شد. گرادیان پارامتر مدل از محاسبات نزول تصادفی با انرژی 0.8 استفاده می‌کند، و تنظیم امتیاز به‌عنوان مقداری برابر با 0.0005 تعریف می‌شود، با دسته‌ای که به اندازه 32 تعریف می‌شود. علاوه بر این، فریم‌های ویدئویی نظارت آموزشی با مدلی از واژگونی افقی، عمودی و نوردهی رنگی برای افزایش اندازه داده‌های آموزشی مدیریت شدند.

4.2. مقایسه

4.2.1. نتایج مربوط به مجموعه داده DOC19

در این بخش، نتایج تجربی را شرح می دهیم. جدول 1 نتایج مدل را هنگام آموزش بر روی مجموعه داده DOC19 مدل رمزگذار-رمزگشا HRT در کلاس جدید نشان می دهد. ما همچنین نتایج را با مدل‌های تک فاز فعلی، مانند SPD [ 41 ]، Meta Googlenet [ 42 ] و Det [ 43 ] مقایسه می‌کنیم. پیش‌بینی‌کننده رمزگذار-رمزگشای HRT پیشنهادی در زمانی که تعداد فریم‌های ویدیویی کلاس جدید زیاد باشد، نتایج ردیابی بالاتری را انجام می‌دهد. در زیرمجموعه اول، ما 1.4 درصد بیشتر از بقیه در پنج فریم، 3.3 درصد بیشتر از بقیه در هفت فریم و 1.3 درصد نسبت به بقیه در یازده فریم توسعه دادیم.

4.2.2. نتایج مربوط به Dataset DS17

در مقایسه با مجموعه داده‌های DOC19، DS17 پیچیدگی‌های بیشتری را در فرآیندهای ردیابی شی متحرک نشان می‌دهد، زیرا مجموعه DS17 دارای فریم‌های ویدیویی بیشتر است. آموزش مدل را با 60 کلاس فراوان DS17 انجام دادیم و سپس فرآیند تنظیم دقیق مدل را زمانی که فریم ها 13 یا 23 بود به صورت جداگانه انجام دادیم. نتایج در جدول 2 نشان داده شده است. مدل پیشنهادی ما از مدل های قبلی بهتر عمل می کند. زمانی که عدد فریم 13 بود، مدل ما عملکرد را 8.1% در JD45: 90 افزایش داد و برای تعداد فریم 23، مدل ما عملکرد را 9.3% در JD45: 90 افزایش داد. نتایج در شکل 4 و شکل نشان داده شده است. 5 .

4.3. آزمایشات فرسایشی

نتایج فرسایش در استفاده از رمزگذار-رمزگشا HRT برای تزریق و در استفاده از یک مدل استخراج فراوان تعیین کننده است. آموزش و آزمایش فرسایش بر روی مجموعه داده‌های DOC19 انجام شد و تعداد فریم با تقسیم فراوان و کلاس جدید مجموعه داده، 7 تعریف شد.

برای آزمایش توجه زمانی در CNN فراوان، نتایج فرسایش این فرآیندها را جمع آوری کردیم. ما آزمایش‌ها را در مدل فراوان CNN انجام دادیم. همانطور که در جدول 3 نشان داده شده است، نتایج تجربی زمانی افزایش می یابد که توجه زمانی جمع شود. هنگامی که توجه کانال در مدل انباشته شد، نتایج بیشتر افزایش یافت. در نتیجه، ما دریافتیم که پارامتر گیرنده تجمعی مدل و امتیاز تعریف شده بالاتر از نقشه ویژگی با استفاده از روش توجه بسیار کاربردی است.

استفاده از روش توجه در مدل رمزگذار-رمزگشا، بهبود رمزگذار-رمزگشا را در مدل بینایی کامپیوتری در [ 33 ] نشان می‌دهد. جدول 4 نتایج فرسایش را نشان می دهد. ادغام بردار نقشه ویژگی مجموعه فراوان با بردار کمیاب عملکرد بهتری را نشان می دهد. علاوه بر این، هنگامی که از یک نما برای جایگزینی مکان زمانی قبلی در فاز رمزگشایی مدل رمزگذار-رمزگشا استفاده می‌شود، نتیجه فرسایش ردیابی شی متحرک مدل نیز می‌تواند افزایش یابد.

پس از شبیه‌سازی فرسایش بر روی مدل محاسباتی نقشه ویژگی و رمزگذار – رمزگشا، بهترین آرایش مدل‌ها برای انجام محاسبات ابلیشن بر روی مدل نقشه ویژگی فراوان و رمزگذار – رمزگشا پیدا می‌شود. جدول 5 نتایج را پس از 200 دوره آموزشی نشان می دهد. ما همچنین تأثیر رویه های انباشته شده را با مدل های آموزشی خود تأیید کردیم. از طریق این تجمع، نتایج مدل کمیاب را می توان برای ردیابی شی متحرک بسیار افزایش داد.

5. نتیجه گیری ها

در این تحقیق، ما یک مدل رمزگذار-رمزگشا HRT را برای تشخیص ردیابی شی متحرک چند فریم معرفی کردیم. در این مدل، ما از یک مدل استخراج نقشه ویژگی فراوان برای استخراج نقشه‌های ویژگی مدل، و همچنین یک رمزگذار – رمزگشای توجه برای القای نقشه‌های ویژگی مجموعه پشتیبانی و نقشه‌های ویژگی پشتیبانی استفاده می‌کنیم. یک پیش‌بینی‌کننده مؤثر با ادغام مدل فراوان و مدل رمزگذار-رمزگشا برای استفاده در نمونه‌های کمیاب جدید پیشنهاد می‌شود. نتایج تجربی ثابت کرد که مدل رمزگذار-رمزگشا HRT پیشنهادی ما زمانی که تعداد فریم‌های ویدئویی بیشتر از سه باشد، بهتر از طبقه‌بندی‌کننده‌های قبلی عمل می‌کند. ما همچنین تأثیر رویه های انباشته شده را با مدل های آموزشی خود تأیید کردیم. از طریق این تجمع، نتایج مدل کمیاب را می توان برای ردیابی شی متحرک بسیار افزایش داد.

منابع

انگل، جی. شوپس، تی. Cremers, D. SLAM بدون اشاره مستقیم تک چشمی. محاسبه کنید. Vis. 2019 ، 8 ، 834–849. [ Google Scholar ]
مورتال، آر. Tardos, J. SCR: یک سیستم SLAM منبع باز برای دوربین های استریو تک چشمی و RGB-D. IEEE Trans. ربات. 2021 ، 33 ، 1255-1262. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
بسکوس، ا. فیسیل، ج. Neira, J. DynaS: ردیابی نقشه برداری و در نقاشی در صحنه های پویا. ربات IEEE. Auton. Lett. 2019 ، 3 ، 4076-4083. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
رونزونی، دی. اولمی، ر. Fantuzzi، C. AGV محلی سازی جهانی با استفاده از نشانه های مصنوعی غیر قابل تشخیص. در مجموعه مقالات کنفرانس IEEE در مورد رباتیک، قاهره، مصر، 31 مه 2020؛ صص 287-292. [ Google Scholar ]
حافظ، ر. David, J. SLAM2: یک سیستم SLAM برای دوربین های استریو تک چشمی و RGB-D. IEEE Trans. ربات. 2020 ، 33 ، 1255-1262. [ Google Scholar ]
میم، جی. Bayun, D. LSD: مدل تک چشمی مستقیم استاتیک بزرگ. محاسبه کنید. Vis. 2020 ، 7 ، 83-89. [ Google Scholar ]
احمد، م. Cremers, D. مدل کیلومتر شمار یادگیری عمیق غیر مستقیم. IEEE Trans. ترانس. الگوی مقعدی ماخ هوشمند 2019 ، 4 ، 61–65. [ Google Scholar ]
انگل، جی. کلتون، وی. Cremers, D. کیلومتر شمار پراکنده مستقیم. IEEE Trans. الگوی مقعدی ماخ هوشمند 2018 ، 40 ، 611-625. [ Google Scholar ] [ CrossRef ]
کالینز، آر. ژو، ایکس. Teh, SK یک وب سایت ارزیابی و بستر آزمایش ردیابی منبع باز. در مجموعه مقالات نظارت ردیابی ارزیابی عملکرد کارگاه IEEE، پاریس، فرانسه، 20 مارس 2020؛ ص 17-24. [ Google Scholar ]
خو، اچ. یانگ، م. وانگ، ایکس. Yang, Q. طراحی سیستم سنجش مغناطیسی برای راهنمایی هوشمند خودرو. IEEE/ASME Trans. مکاترون. 2020 ، 15 ، 652-656. [ Google Scholar ]
لوفسکی، آی. Shimshoni، I. محلی سازی قابل اعتماد و کارآمد برای ربات های متحرک. ربات. Auton. سیستم 2021 ، 58 ، 520-528. [ Google Scholar ] [ CrossRef ]
گایگر، ا. لنز، پی. استیلر، سی. Urtasun, R. Vision ملاقات با روباتیک: مجموعه داده VID. ربات جی. دلیل. 2021 ، 32 ، 123-127. [ Google Scholar ]
Fisher, R. مجموعه داده های حقیقت زمینی نظارت MOVSD4. در مجموعه مقالات کارگاه IEEE Performing Evaluation Tracking Surveillance، لندن، انگلستان، 29 ژانویه 2019؛ ص 12-17. [ Google Scholar ]
فوئنتس، جی. آسنسیو، جی. Mancha, J. محلی سازی و نقشه برداری همزمان بصری: یک بررسی. آرتیف. هوشمند Rev. 2019 , 43 , 55–81. [ Google Scholar ] [ CrossRef ]
ساپوترا، ام. مارکهام، ای. Trigoni، N. SLAM بصری و ساختار از حرکت در محیط های پویا: یک بررسی. کامپیوتر ACM. Surv. 2020 ، 51 ، 37. [ Google Scholar ] [ CrossRef ]
کادنا، سی. کارلون، ال. کاریلو، اچ. لطیف، ی. گذشته حال و آینده محلی سازی و نقشه برداری همزمان: به سوی عصر ادراک قوی. IEEE Trans. ربات. 2016 ، 32 ، 1309-1332. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
وانگ، ی. لین، ام. Ju, R. Visual SLAM و تشخیص جسم متحرک برای یک ربات انسان نما با اندازه کوچک. Adv. ربات. سیستم 2021 ، 7 ، 133-143. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
کندو، ا. کریشنا، ک. Sivaswamy، J. تشخیص شی متحرک با تکنیک‌های هندسی چند نمای از یک ربات تک دوربین. در مجموعه مقالات کنفرانس IEEE/RSJ در مورد رباتیک، لافایت، لس آنجلس، ایالات متحده آمریکا، 4 تا 8 نوامبر 2019؛ صص 436-441. [ Google Scholar ]
لی، اس. Lee, D. RGB-D SLAM در محیط های پویا با استفاده از وزن دهی نقطه ایستا. ربات IEEE. Autosomes 2020 ، 2 ، 223-230. [ Google Scholar ] [ CrossRef ]
تان، دبلیو. لیو، اچ. Bao, H. SLAM تک چشمی قوی در محیط های پویا. در مجموعه مقالات واقعیت افزوده ترکیبی IEEE، آتن، یونان، 27 مه 2019؛ ص 209-218. [ Google Scholar ]
کاریون، ن. ماسا، اف. سینایو، جی. یوسونیر، ن. کریلوف، آ. Zagoruyko، S. ردیابی اجسام متحرک انتها به انتها با رمزگشاهای رمزگذار. در مجموعه مقالات کنفرانس اروپایی بینایی کامپیوتر، گلاسکو، بریتانیا، 23 تا 28 اوت 2020؛ صص 213-229. [ Google Scholar ]
دوسوویتسکی، آ. بیر، ال. کولسنیکوف، آ. وایسنبورن، دی. ژای، ایکس. Unterthiner، T. دهقانی، م. مایندرر، م. هیگلد، جی. گلی، اس. و همکاران یک قاب ویدیوی نظارتی ارزش 16×16 کلمه دارد: رمزگشای رمزگذار برای تشخیص قاب ویدیوی نظارتی در مقیاس. arXiv 2020 ، arXiv:2010.11929. [ Google Scholar ]
سان، ک. شیائو، بی. لیو، دی. Wang, JD یادگیری نقشه فراوان برای تخمین ژست انسان. در مجموعه مقالات کنفرانس IEEE/CVF 2019 در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 15 تا 20 ژوئن 2019؛ صص 5693-5703. [ Google Scholar ]
پارک، جی. وو، اس. لی، جی.-ای. Kweon، IS Bam: ماژول توجه تنگنا. arXiv 2018 , arXiv:1807.06514. [ Google Scholar ]
وو، اس. پارک، جی. لی، جی. Kweon، IS Cbam: ماژول توجه بلوک کانولوشن. در مجموعه مقالات کنفرانس اروپایی بینایی کامپیوتر، مونیخ، آلمان، 8 تا 14 سپتامبر 2018؛ صص 3-19. [ Google Scholar ]
فیشلر، ام. بولز، آر. اجماع نمونه تصادفی: الگویی برای تطبیق مدل با کاربردهای آنالیز تصویر و کارتوگرافی خودکار. اشتراک. ACM 2021 ، 24 ، 381–395. [ Google Scholar ] [ CrossRef ]
کلاین، جی. Murray, D. ردیابی و نقشه برداری موازی برای فضاهای کاری AR کوچک. میکس ACM. تقویت کردن. واقعی. 2017 ، 2 ، 225-234. [ Google Scholar ]
آلکانتریلا، پ. یبس، ج. المازان، ج. Bergasa, L. در مورد ترکیب SLAM بصری و جریان صحنه متراکم برای افزایش استحکام محلی سازی و نقشه برداری در محیط های پویا. در مجموعه مقالات کنفرانس IEEE در مورد رباتیک، اسکندریه، مصر، 29 تا 31 اکتبر 2019؛ صص 190-197. [ Google Scholar ]
جووردانو، دی. مورابیتو، اف. Spampinato، C. تقسیم بندی اشیاء ویدئویی با سوپرپیکسل فراوان با استفاده از سازماندهی ادراکی و مکان قبلی. محاسبه کنید. تشخیص الگو 2020 ، 6 ، 484-489. [ Google Scholar ]
سان، ی. لیو، ام. منگ، ام. بهبود RGB-D SLAM در محیط های پویا: رویکرد حذف حرکت. ربات. سیستم 2021 ، 8 ، 110-122. [ Google Scholar ] [ CrossRef ]
یو، سی. لیو، ز. Wei, Q. DS-SLAM: یک SLAM بصری معنایی به سمت محیط های پویا. در مجموعه مقالات کنفرانس IEEE/RSJ در مورد رباتیک، ونوس، ایتالیا، 20 سپتامبر 2018؛ صص 1168-1174. [ Google Scholar ]
چنگ، ی. Meng, M. نگاشت معنایی در محیط های پویا. Robotica 2020 ، 38 ، 256–270. [ Google Scholar ] [ CrossRef ]
Hirschmuller، H. پردازش استریو با تطبیق نیمه جهانی و اطلاعات متقابل. IEEE Trans. الگوی مقعدی ماخ هوشمند 2020 ، 30 ، 328-341. [ Google Scholar ] [ CrossRef ] [ PubMed ]
Lowe, D. ویژگی‌های تصویر متمایز از نقاط کلیدی تغییرناپذیر مقیاس. جی. کامپیوتر. 2020 ، 6 ، 91-110. [ Google Scholar ]
بی، اچ. اس، ا. Gool، LV SURF: سرعت بخشیدن به ویژگی های قوی. Proc. Conf. محاسبات. Vis. 2021 ، 3 ، 346-359. [ Google Scholar ]
راستن، ای. پورتر، آر. Drummond، T. سریعتر و بهتر: رویکرد یادگیری ماشینی برای تشخیص گوشه. IEEE Trans. الگوی مقعدی ماخ 2021 ، 32 ، 105-119. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
آچانتا، آر. Sässtrunk, S. SLIC superpixels در مقایسه با روش های پیشرفته سوپر پیکسل. IEEE Trans. الگوی مقعدی ماخ هوشمند 2020 ، 4 ، 227-234. [ Google Scholar ]
استورم، جی. Cremers, D. معیاری برای ارزیابی سیستم های RGB-D SLAM. در مجموعه مقالات کنفرانس IEEE/RSJ ربات های هوشمند، پکن، چین، 27 مه 2017؛ صص 573-580. [ Google Scholar ]
کرل، سی. استورم، جی. Cremers, D. تخمین کیلومتر شماری قوی برای دوربین های RGB-D. در مجموعه مقالات کنفرانس IEEE در مورد روبات ها، دهلی نو، هند، 14 تا 18 اکتبر 2019؛ صص 3748–3754. [ Google Scholar ]
سان، ی. حذف Meng, M. Motion برای RGB-D SLAM قابل اعتماد در محیط های پویا. ربات. Auton. سیستم 2018 ، 10 ، 115-128. [ Google Scholar ] [ CrossRef ]
واسوانی، ع. Shazeer, N. پارمار، ن. Uszkoreit، J. جونز، ال. گومز، AN; قیصر، Ł. Polosukhin، I. SPD: توجه تنها چیزی است که نیاز دارید. در پیشرفت در سیستم های پردازش اطلاعات عصبی ; مطبوعات MIT: لس آنجلس، کالیفرنیا، ایالات متحده آمریکا، 2017؛ صفحات 5998–6008. [ Google Scholar ]
دولین، جی. چانگ، M.-W. تره فرنگی.؛ Toutanova، K. Meta Googlenet: انتقال یادگیری رمزگذار دو جهته عمیق. ترانس. الگوی مقعدی ماخ هوشمند 2020 ، 2 ، 22-34. [ Google Scholar ]
Wu، HP; لیو، ی.ال. وانگ، JW بررسی مجموعه داده Det در یادگیری عمیق. محاسبه کنید. ماتر ادامه 2020 ، 63 ، 1309-1321. [ Google Scholar ]

شکل 1. آموزش فراوان در مقابل آموزش کمیاب مدل.

شکل 2. مدل رمزگذار-رمزگشا HRT پیشنهادی: یک مرحله پشتیبانی و یک مرحله یادگیری پشتیبانی. رمزگذار-رمزگر HRT دارای سه فرآیند است: ماژول استخراج پشتیبانی، رمزگذار خودکار و رمزگذار-رمزگشا.

شکل 3. مدل استخراج نقشه ویژگی متشکل از چند فاز موازی و به دنبال آن یک مدل همجوشی.

شکل 4. دقت متوسط برای k = 13.

شکل 5. دقت متوسط برای k = 23.

مقالات داخلی و بین المللی

بدون دیدگاه

دیدگاهتان را بنویسید لغو پاسخ

برای نوشتن دیدگاه باید وارد بشوید.

مشاورین هوش پیروزی

کلید واژه ها:

1. مقدمه

2. آثار مرتبط

2.1. ردیابی شی متحرک

2.2. ردیابی شی متحرک چند فریم

2.3. مدل توجه

3. رویکرد پیشنهادی

3.1. مدل Deep CNN

3.2. مدل پشتیبانی پیشنهادی

3.3. مدل رمزگذار – رمزگشا

3.3.1. ساختار رمزگذار

3.3.2. ساختار رمزگشا

4. آزمایشات

4.1. مجموعه داده ها

4.1.1. مجموعه داده DOC19

4.1.2. مجموعه داده DS17

4.1.3. فرآیند آموزش

4.2. مقایسه

4.2.1. نتایج مربوط به مجموعه داده DOC19

4.2.2. نتایج مربوط به Dataset DS17

4.3. آزمایشات فرسایشی

5. نتیجه گیری ها

منابع

قبلیتجزیه و تحلیل عامل قطعی و ویژگی های مکانی-زمانی تکامل زمین لغزش: مطالعات موردی در حوضه آبخیز رودخانه چیشان در تایوان

بعدیSTSGAN: شبکه‌های پیچیدگی توجه نمودار معنایی جهانی مکانی-زمانی برای پیش‌بینی جریان شهری

مطالب مرتبط ...

آموزش مقاله نویسی در رشته ادبیات فارسی

تأثیر همسایگی درونیابی DEM بر عوامل زمین

رگرسیون وزنی جغرافیایی تطبیقی ​​غیر منفی برای تخمین تراکم جمعیت بر اساس نور شب

بدون دیدگاه

دیدگاهتان را بنویسید لغو پاسخ

درباره سرزمین فناوری مکانی GISLAND

دسترسی سریع

اطلاعات

خبرنامه

خبرنامه

درباره سرزمین فناوری مکانی GISLAND

دسترسی سریع

اطلاعات

دسترسی سریع

رگرسیون وزنی جغرافیایی تطبیقی غیر منفی برای تخمین تراکم جمعیت بر اساس نور شب