1. مقدمه
ردیابی اجسام متحرک یک حوزه تحقیقاتی مهم و یک وظیفه بسیار مهم در زمینه سیستم های نظارت بر اتوماسیون امنیتی است. تحقیقات عمده مدل های یادگیری عمیق برای ردیابی شی متحرک شامل CNN های مبتنی بر منطقه [ 1 ] و SSD ها است که مدل های تک شات [ 2 ] هستند. ردیابی شی متحرک گزاره های تحقیقاتی بسیار خوبی را ایجاد کرده است، یعنی Overfat [ 2 ، 3 ، 4 ] و R-CNN با آموزش سریع [ 4 ، 5 ، 6 ، 7 ]]. این مدلها به مقدار زیادی داده بصری در گسترهای از فریمهای زیاد برای نقشههای ویژگی زمانی نیاز دارند تا عملکرد بهتری داشته باشند. برچسبگذاری نمونههای داده میتواند هزینههای محاسباتی بالایی ایجاد کند، زیرا یافتن آنها دشوار است. این مشکل تا حدودی چالش هایی را برای یادگیری عمیق ایجاد کرده و تحقیقات هوش مصنوعی را متوقف کرده است، که نیاز به استفاده از اندازه داده آموزشی کوچک برای ردیابی اشیاء در محیط های پویا را ایجاد کرده است.
مغز انسان فقط هنگام مشاهده چند نمونه اشیاء متحرک را تشخیص داده و ردیابی می کند، و ما در نظر داریم که مدل های عصبی عمیق نیز باید این قابلیت را ابداع کنند. با فرض وجود یک کلاس فراوان از اشیاء پویا، می توان از یک کلاس متفاوت با فریم های کمی برای ردیابی یک شی متحرک استفاده کرد. همانطور که در شکل 1 نشان داده شده است، مرحله آموزش به دو مرحله تقسیم می شود: آموزش فراوان و آموزش کمیاب. در آموزش فراوان، نمونههای آموزش داده کافی برای ایجاد فضای نقشه ویژگی که میتواند نقشههای ویژگی پویا اجسام متحرک را مشخص کند، استفاده میشود. در آموزش کمیاب، یک فرآیند تنظیم مدل یادگیری عمیق اجازه می دهد تا کلاس کمیاب جدید در فضای نقشه ویژگی مشخص شود. نویسندگان [ 3] سیستم ردیابی شی متحرک چند فریمی را در نظر گرفت. با تعریف بردار شی پویا، خواص متا ردیابی را اصلاح کرد. دو مرحله از فرآیند فراآموزشی [ 5 ] و مدلهای سیانان مبتنی بر منطقه متا [ 5 ، 6 ، 7 ] پیشنهاد شد.
نویسندگان [ 8 ] یک مربی فراخواص و یک فرآیند امتیازدهی دارایی را با استفاده از مدل Googlenetv2 پیشنهاد کردند [ 9 ]] اجازه می دهد تا مدل تشخیص با کلاس های جدید تنظیم شود. یادگیرنده نقشه ویژگی از نمونههای کافی (در مرحله آموزش) از نمونههای داده برچسبگذاری شده فراوان برای استخراج تعمیم متا ویژگی برای طبقهبندی شی پویا در آینده استفاده میکند. انباشتن امتیازها، برخی از نمونههای کمکی را از کلاس کمیاب به بردارهایی تبدیل میکند که اهمیت جهانی و همبستگی بالای نقشه متاویژگی محاسبهشده شی متحرک ردیابیشده مشابه را مشخص میکنند. فرآیند ترکیب نقشه فراویژگی توسط مربی نقشه ویژگی با بردار امتیاز محاسبه شده توسط روش امتیازدهی شده یاد میگیرد. رگرسیون و اطلاعات پیش بینی شی پویا را می توان محاسبه کرد. با این وجود، این مدلها برای استخراج نقشه ویژگی بسیار منفرد هستند و بسیاری از نمایشهای ویژگیها نامحدود هستند. به علاوه،
مدل فراوان رمزگذار-رمزگشا HRT پیشنهادی میتواند با این مشکل مقابله کند. رمزگذار-رمزگر HRT میتواند تمام نمایشهای ویژگی یک توالی ویدیوی نظارتی معین را استخراج کند و از مجموعه پشتیبانی برای دستیابی به ترکیب نقشه ویژگی و ردیابی شی پویا استفاده کند. مدل رمزگذار-رمزگشا HRT نقشه ویژگی متا شی پویا طیف گسترده را از کلاس ردیابی فراوان استخراج می کند و سپس نقشه ویژگی متا تعمیم یافته آموخته شده را برای پیش بینی اشیاء پویا دیگر اختصاص می دهد. مدل پیشنهادی بر روی تعداد زیادی از نمونههای برچسبگذاری شده برای استخراج و محاسبه بردارهای متمایز نقشه ویژگی انتخابی که میتواند برای برخی از کلاسهای جدید استفاده شود، آموزش داده شده است. مدل پیشنهادی برای تولید بردارهای تعمیم طراحی شده است. هنگام استفاده از تعداد کمی نمونه از کلاس شی جدید برای تنظیم پارامترهای مدل،
ویژگی های اساسی طبقه فراوان نمایانگر ویژگی های مشترک هر دو طبقه فراوان و جدید است. بنابراین، ویژگی های اساسی اجسام متحرک شباهت های متعددی دارند. به عنوان مثال، اسب دارای چهار پای لولهای شکل است، مانند کلاسهای جدید گاوها و سگها، و بنابراین آموزش چند قاب شبیه یک مفهوم یادگیری انتقالی است. برای درک بیشتر، مدل ما نیاز به آموزش دو مرحلهای دارد که شامل آموزش فراوان با مجموعه دادههای بزرگ است که کلاس جدید را ندارد، و به دنبال آن آموزش کمیاب که مطابق با کلاس جدید تنظیم میشود.
به طور کلی، سهم عمده این تحقیق به شرح زیر است:
-
تحقیق ما یک مدل رمزگذار-رمزگشا HRT را ارائه میکند که ویژگیهای فراوان و یک رمزگذار-رمزگشا را برای ترکیب نقشه ویژگی برای پشتیبانی از ردیابی شی متحرک چند فریمی استخراج میکند.
-
تحقیق ما یک مدل یادگیری عمیق را پیشنهاد میکند که نقشههای ویژگی فراوان را استخراج میکند و از روشهای زمانی و توجه موازی استفاده میکند.
2. آثار مرتبط
2.1. ردیابی شی متحرک
مدلهای یادگیری ماشین برای ردیابی شی متحرک از پردازش ویدیوی نظارتی [ 6 ، 7 ، 8 ، 9 ، 10 ، 11 ، 12 ] استفاده میکنند. ردیابی اجسام متحرک از پیشبینیهای جسم متحرک فراوان در موقعیتهای جسم متحرک استفاده میکند. مدل های فعلی ردیابی اجسام متحرک شامل یک یا چند فاز برای ردیابی اجسام متحرک هستند [ 13 , 14 , 15 , 16 , 17]، که با استفاده از محاسبات هندسی حاشیه های اطراف تعریف می شوند. مدل چند فازی به محاسبه مرزهای نامزد با اشیاء متحرک احتمالی نیاز دارد و سپس مرزهای مرزهای استخراج شده را پیشبینی و اعتبار میبخشد [ 18 ]. مدل قبلی یک تکنیک شبکهای متمرکز بر جسم متحرک را اجرا میکند تا پارامترهای پیشبینی را محاسبه کند تا شی متحرک را بدون محاسبه هیچ یک از مرزها شناسایی کند. مدل چند فازی عملکرد بالاتری دارد [ 19 ، 20 ، 21]. مدل تک فاز از نظر دقت در مقایسه با مدل چند فاز پایینتر است، اما از نظر سرعت از سایر مدلها بهتر عمل میکند و با یک الگوی بلادرنگ مشخص میشود. با این وجود، این مدلها نقصی دارند که در آن به نمونههای داده برچسبدار بیشتری برای آموزش مدل نیاز دارند.
2.2. ردیابی شی متحرک چند فریم
یادگیری چند فریم یک مدل پیشرفته است که تنها از چند فریم برای ردیابی اشیا در هر دو طبقهبندی آموزشی و پیشبینی استفاده میکند [ 22 ، 23 ، 24 ]. مدل چند فریمی شامل پیشبینی چند فریم برای محاسبه موقعیت جسم متحرک در فیلمهای نظارتی است. برای شناسایی اجسام متحرک با داده های آموزشی کمی استفاده می شود. معمولاً میتوانیم این تکنیک را به عنوان یک مدل یادگیری کمیاب تعریف کنیم [ 25 ].
مدل یادگیری کمیاب، ردیابی شی متحرک به دست آمده از چند داده مشابه را به عنوان مرحله یادگیری شروع تعریف می کند. می توان آن را با استفاده از مدل های رگرسیون به موقعیت های ردیابی جدید تغییر داد. نویسندگان [ 26 ] یک الگوریتم یادگیری برای بهبود عملکرد طبقهبندی ردیابی شی متحرک با دادههای کم ارائه کردند. نویسندگان [ 27] اطلاعات شی متحرک را از استان شی متحرک تعیین می کند در حالی که تطبیق را برای تقویت موارد ردیابی شی متحرک با چند فریم انجام می دهد. مدل ارائه یک الگوریتم یادگیری پیش پردازش معمولاً در پارادایم ردیابی شی متحرک اعمال می شود. مفهوم تکنیک یادگیری انتقالی دورههای آموزش مدل را به شدت کاهش میدهد، اما میتواند به یک مشکل بیش از حد تناسب منجر شود، که میتواند با مدل سیستماتیک حل شود. علاوه بر این، در حالی که انتقال یادگیری با دادههای کمیاب میتواند سریعتر همگرا شود، طبقهبندی کننده همچنان با یک تنظیم تعمیم رضایتبخش مواجه است.
یادگیری انتقالی به مدل اجازه می دهد تا سریعتر یاد بگیرد. یادگیری انتقالی از پیشآموزش کارهای مشابه استفاده میکند و یادگیری انتقالی برای تولید پارامترهای فوقالعاده از آموزش قبلی برای دستیابی به یک مقدار اولیه مدل مناسب استفاده میشود. مدل یادگیری انتقال ارائه شده در [ 28 ] فاز یادگیری انتقال و طبقهبندی شی متحرک را که میتواند دانش و تکنیکهای یادگیری سریع را کسب کند و طبقهبندی کننده را در مورد نحوه استفاده از نمونههای داده کمی آموزش دهد. CNN یادگیری انتقال ارائه شده در [ 6 ] از یادگیری انتقالی بر روی ویژگی های منطقه خاص استفاده می کند و تقسیم شی متحرک را از طریق R-CNN افزایش می دهد. نویسندگان [ 29] از گروه بندی ردیابی شی متحرک و ردیابی چند فریم در یک یادگیری انتقال مستقل برای ارائه رویکردی برای تنظیم طبقه بندی کننده استفاده کردند و آنها یک سیستم ردیابی با دقت بالاتر را پیشنهاد کردند و یک تکنیک بهینه سازی را برای نمونه های کمی از داده ها پذیرفتند. نویسندگان [ 30 ] یک آغازگر یادگیری انتقال را به یک CNN پیشنهاد کردند. پس از استفاده، با توجه به چند فریم ویدئوی نظارتی از شی متحرک جدید، آغازگر انتقال میتواند تاثیر طبقهبندی کننده را در مرحله پیشبینی یادگیری تقویتشده نمونههای جدید به شیوهای حلقه خوراک ایجاد کند. در مقایسه با مدل نت گوگل، نویسندگان [ 30 ] از داده های بسیاری از کلاس ها استفاده کردند و از ویژگی های انتقال استفاده کردند و آنها را برای به دست آوردن یادگیری سریع سایر کلاس ها تنظیم کردند.
2.3. مدل توجه
مدلهای رمزگذار-رمزگشا (E-DM) همیشه در پردازندههای زبان طبیعی استفاده میشوند و از یک مدل ترانسفورماتور استفاده میکنند [ 29 ، 30 ، 31 ، 32]. مدلهای E-DM نقشه ورودی M را به ماتریسها و بردارهای زیر تبدیل میکنند: ماتریس پشتیبانی V، بردار کلید K، و بردار مقدار VA. E-DM ها حاصل ضرب نقطه ای بین V و K را محاسبه می کنند تا امتیاز توجه نمونه های ورودی را بدست آورند. این روش به عنوان محاسبات توجه شناخته می شود و فرآیند اصلی مدل های رمزگذار-رمزگشا است. عملکرد امتیاز نقشه ویژگی M با استفاده از امتیازات توجه، خروجی های نقشه ویژگی را با پیوندهای خاص بین کلمات ورودی به دست می دهد. مدلهای رمزگذار-رمزگشا و انحرافات آنها نتایج بهتری در پارادایمهای NPL به دست آوردهاند. یک مدل رمزگذار-رمزگشا مانند مدل ترانسفورماتور BERT که در [ 33 ] نشان داده شده است، ترانسفورماتورها را برای ترجمه های ناشناخته با محدود کردن متقابل زمینه ها آموزش می دهد.
مدلهای توجه مانند آنچه در [ 33 ] نشان داده شده است، از یک مدل رمزگذار – رمزگشا برای دادههای مکانی استفاده میکنند. ثابت شده است که چنین مدل رمزگذار-رمزگشا می تواند عملکرد یادگیری عمیق را، به ویژه در بینایی کامپیوتر، افزایش دهد. نویسندگان [ 34 ] یک معماری CNN را معرفی کردند که از یک جفت رمزگذار – رمزگشا برای ردیابی شی متحرک استفاده می کند. در [ 35]، نویسندگان یک مدل رمزگذار-رمزگشا برای مقابله با دید کامپیوتری ارائه کردند و دقت بالایی بر روی دادههای چندین ورودی تشخیص قاب ویدیوی نظارتی به دست آوردند. با توجه به دقت بالای مدلهای رمزگذار-رمزگشا، الگوریتمهای بینایی کامپیوتری زیادی که به جفت رمزگذار-رمزگشا بستگی دارند معرفی شدهاند. برای استفاده از مدلهای رمزگذار-رمزگشا برای ردیابی شی متحرک چند فریم، ما برخی تغییرات را در روش مدل زوج رمزگذار-رمزگشا پیشنهاد میکنیم.
3. رویکرد پیشنهادی
این تحقیق یک مدل یادگیری عمیق را با استفاده از یک رمزگذار-رمزگر فراوان (ترانسفورماتور با وضوح بالا (HRT) رمزگذار-رمزگشا) پیشنهاد میکند. رمزگذار-رمزگر HRT از استخراج نقشه ویژگی استفاده می کند که بر روی نقشه های ویژگی با وضوح بالا تمرکز می کند که بیشتر نماینده شی متحرک هستند. علاوه بر این، تحقیق ما از رمزگذار-رمزگشای HRT پیشنهادی برای استخراج و ادغام نقشه ویژگی برای بازپرداخت چند فریمی که اطلاعات بصری دارند، استفاده میکند. در مدل پیشنهادی، ما یک کلاس فراوان با ویژگیهای داده زیادی ارائه میکنیم، در حالی که یک کلاس کمیاب جدید با مقدار کمی داده نشان داده میشود. هدف ما استفاده از کلاسهای فراوان و کمیاب برای القای مدل یادگیری است که میتواند اجسام متحرک را در هر دو کلاس پیشبینی کند. در شکل 2، مرحله آموزش دوگانه بکار گرفته شده به تصویر کشیده شده است. مرحله اول از اطلاعات قبلی برای تعریف نقشه ویژگی قاب ویدئویی نظارتی که از کلاس فراوان (A) آموخته شده است، استفاده می کند. فاز دوم مرحله تنظیم است، که در آن تنظیم آموزش کلاس کمیاب برای ارائه انطباق مدل عصبی با اجسام متحرک جدید در کلاس کمیاب (S) اتفاق میافتد. ورودی های دوگانه داده به عنوان داده های پشتیبانی تعریف می شوند ببو داده های پشتیبانی v�. مرحله یادگیری فراوان، تعریف داده های مجموعه پشتیبانی را به تصویر می کشد آبآبو داده های پشتیبانی مجموعه به آvآ�، که به طور مشابه در کلاس جدید کمیاب تعریف شده است. اگر تعداد کلاس های کلاس جدید باشد ممو تعداد فریم ها در هر کلاس می باشد f�، مشکل به صورت فرموله شده است مم-مسیر f�ردیابی شیء متحرک فریم ها
3.1. مدل Deep CNN
مدل CNN عمیق پیشنهادی عمدتاً شامل یک فرآیند استخراج نقشه ویژگی از نمایشهای فراوان است که برای استخراج نقشههای ویژگی از مجموعه پشتیبانی استفاده میشود. متعاقباً، نمایشهای ویژگی استخراجشده در بردارهای مسطح نقشه ویژگی به تصویر کشیده میشوند و آنها به لایه ورودی رمزگذار-رمزگشا تغذیه میشوند. علاوه بر این، این بردارها در رمزگذارها و رمزگشاهای خودکار برای انجام ترکیب نقشه ویژگی استفاده می شوند. بردارهای مسطح محاسبه شده از پشتیبان و مجموعه های پشتیبانی برای به دست آوردن بردارهای همجوشی استفاده می شوند.
برای استخراج نقشه ویژگیهای فراوان و کاهش از دست دادن نقشه ویژگی فریمهای ویدئوی نظارتی، مدل ما از یک مدل آموزش نقشه ویژگی فراوان، همانطور که در شکل 3 در زیر نشان داده شده است، استفاده میکند.
3.2. مدل پشتیبانی پیشنهادی
در مدل پشتیبانی پیشنهادی، پارتیشن بندی مدل به چند فاز موازی رمزگذارهای خودتوجهی توسط ادغام دنبال می شود. هر رمزگذار توجه به خود با تصاویر کلاس فراوان تغذیه می شود و تنها دو فاز آخر توسط تصاویر کلاس کمیاب تغذیه می شود. مجموعه ویژگی های متعدد از هر فاز استخراج می شود. تمام مجموعه ویژگی ها از طریق یک مدل ترکیبی گام از نقشه های ویژگی جمع آوری شده و مورد استفاده قرار می گیرند. وضوح حاصل از ماژول های ادغام، وضوح کمتری نسبت به مرحله رمزگذار خودکار دارد. هر عصاره فاز موازی دارای بردارهای نقشه است و سپس مدل همجوشی همجوشی چند مرحله ای را انجام می دهد. نقشههای ویژگی هر دو وضوح فراوان و کمیاب ادغام شدهاند، و مدل ما از رمزگذارهای گام به گام برای فریمهای ویدیوی نظارتی فراوان و نمونهبرداری پایین برای لایههای ادغام استفاده میکند. تکنیک ادغام از میانگین پیکسلی استفاده میکند و کانالهای متعدد نقشههای ویژگی وضوح به یک مقدار تنظیم میشوند. علاوه بر این، برای افزایش مقدار دریافت، پیچیدگی گام بردارهای نقشه ویژگی را در فاز اول محاسبه میکند. به منظور بهبود تمرکز مکان نقشه ویژگی، از توجه زمانی موازی در تکمیل هر فاز استفاده میکنیم.
فرآیند PTAP در شکل 3 نشان داده شده است و الگوریتم همانطور که در الگوریتم 1 نشان داده شده است. توجه معمولاً از یک لایه ادغام و دو لایه پیچشی 3×3 تشکیل شده است و در بین آنها از یک فعال سازی ReLU استفاده می شود. فرآیند توجه زمانی دارای چهار پیچیدگی است. توجه PTAP توجه را متمرکز می کند تا تصمیم بگیرد که کدام کانال ها ویژگی های اصلی شی پویا متحرک را در بر می گیرند. فرآیند توجه زمانی بر مسیر زمانی تاکید میکند و تشخیص میدهد که کدام فریم شامل دادههای اصلی جسم پویا متحرک است. جزئیات فرآیند به شرح زیر است:
مآپافمآپافنقشه ویژگی خروجی و ورودی ( منسیمنسی). توابع فعال سازی ψ�و μ�توابع فعال سازی Sigmoid و ReLu را نشان می دهد. سیپسیپ، سیDسی�، و سیتوسیتوتوابع پیچیدگی را تعریف کنید و مآپپمآپپحداکثر مقدار میانگین ادغام را نشان می دهد. مآپتیآمآپتیآنشان دهنده مقدار خروجی توجه زمانی و مآپسیآمآپسیآخروجی توجه کانال را نشان می دهد.
مدل توجه ما از یک طراحی موازی برای یادگیری نمایشهای پیچیده قاب ویدیویی نظارتی استفاده میکند. ماژولهای توجه زمانی موازی میتوانند همبستگی ویژگیهای کانال را در هر نقطه محاسبه کرده و آنها را برای بهبود توانایی نمایندگی نگاشت نمایش ویژگیها تنظیم کنند.
3.3. مدل رمزگذار – رمزگشا
مدل رمزگذار-رمزگشا توسط گوگل معرفی شد [ 35 ، 36 ، 37 ، 38 ، 39 ، 40 .]. یک رمزگذار-رمزگر HRT از یک روش توجه به خود برای محاسبه نقشههای ویژگی در یک مکانیسم موازی از ورودی ویدیوی نظارتی استفاده میکند. برای حفظ همبستگی ورودی، مدل از کدگذاری موقعیت برای محاسبه مختصات مکان استفاده می کند. در نتیجه، مدل رمزگذار-رمزگشا میتواند همبستگی بین دادههای قبلی و بعدی را تضمین کند. اما به دلیل ماهیت موازی ورودی، دوره آموزش مدل کاهش می یابد. مدل رمزگذار-رمزگشا دارای یک رمزگذار ساختار ترانسفورماتور است. هنگام استخراج نقشه ویژگی، ورودی موازی برای محاسبات همبستگی به رمزگذار داده میشود و سایر نقشههای ویژگی داده به دست میآیند و رمزگشایی میشوند.
3.3.1. ساختار رمزگذار
ماژول کلیدی رمزگذار در مدل رمزگذار-رمزگشا، روش توجه به خود است. برای محاسبه بردار توجه، از سه ورودی مکان، یعنی I1 ، I2 ، I3 ، همانطور که در الگوریتم 1 نشان داده شده است استفاده می شود.
الگوریتم 1: چارچوب رمزگذار |
1. همبستگی را در ورودی محاسبه کنید. همبستگی توسط حاصل ضرب نقطه ای محاسبه می شود، که برای محاسبه حاصلضرب نقطه برای بردارها در من1من1و هر بردار در من2من2. فرمول خاص این است:
|
2. همبستگی محاسبه شده بر پارامتر d برای کاهش گرادیان در مرحله یادگیری، همانطور که در رابطه (5) نشان داده شده است، تقسیم می شود:
|
که در آن d پارامتر توزیع softmax طبقه بندی کننده را تعریف می کند و منحنی یادگیری انحطاط مدل را نشان می دهد.
3. بردار همبستگی نرمال شده را با استفاده از طبقه بندی کننده softmax به مقداری در محدوده صفر و یک تغییر دهید. همبستگی به صورت زیر به یک ماتریس احتمال Z با مقادیر در محدوده صفر و یک تبدیل می شود:
|
4. مقدار حاصلضرب نقطه ای Z و K را محاسبه کنید.
|
هدف از جمع آوری یک نمونه RES باقیمانده، جلوگیری از تخریب در مدل عصبی عمیق مدل آموزشی است. تخریب نشان میدهد که با تجمع تعداد لایهها در مدل عصبی عمیق، تلفات برای رسیدن به اشباع و تعداد لایهها افزایش مییابد.
عادی سازی می تواند روند یادگیری را سرعت بخشد و ثبات منحنی یادگیری را افزایش دهد. با این وجود، عادی سازی باید اندازه کوچک داده ها را حل کند. لایه نرمال سازی به اندازه ورودی متصل است و اگر ورودی کوچک باشد با تداخل بالایی مواجه خواهد شد. میانگین و واریانس ورودی باعث نمایش نادرست توزیع داده می شود. این می تواند منجر به استفاده از مقدار زیادی از حافظه و همچنین زمان یادگیری طولانی شود. مرحله یادگیری ممکن است به دلیل مسیر گرادیان ایستا شکست بخورد. در این مورد، میتوانیم از نرمالسازی کانال استفاده کنیم، که کانال را به کانالهای فرعی تقسیم میکند و داخل دسته را محاسبه میکند. محاسبه به اندازه کانال فرعی بستگی ندارد و عملکرد را می توان در دسته های بزرگتر تثبیت کرد. عادی سازی کانال می تواند از مشکلات عادی سازی دسته ای جلوگیری کند. برای فریمهای ویدیوی نظارتی با اندازههای دستهای M، G، H و C، نرمالسازی کانال کانالها را به کانالهای فرعی تعریف میکند و میانگینها و انحرافات استاندارد را در هر کانال فرعی محاسبه میکند و هر ورودی لایه را مجبور میکند از محدوده صفر تا یک پیروی کند. توزیع، که مشکل کوواریانس جابجایی را حل می کند و همگرایی مدل را سرعت می بخشد. این به صورت زیر نشان داده شده است:
جایی که منمنورودی است، r�ورودی نرمال شده است، E [ I]E[من]مقدار مورد انتظار است، SD [ I]SD[من]انحراف معیار است، ص 1پ1و ص 2پ2پارامترهای آموزشی هستند و ϵ�آستانه ای است که از رسیدن مخرج به صفر جلوگیری می کند.
3.3.2. ساختار رمزگشا
در مدل رمزگذار-رمزگشا، ساختار رمزگشا نقشه پشتیبانی را به نقشه ویژگی پشتیبانی منتقل می کند. بردار مجموعه پشتیبانی و بردار پشتیبانی به عنوان ورودی به رمزگذار تغذیه می شوند منمنو جیجی. به طور همزمان، پسزمینه خارجی را به شی متحرک تکیهگاه تسلیم میکنیم و از برچسب بردار پشتیبان به عنوان ورودی فاز آموزشی با بردار پشتیبانی محاسبهشده از معادله B استفاده میکنیم. ⊗⊗ م . سپس، نقشه ویژگی تبدیل شده را با استفاده از معادله توجه محاسبه می کنیم زB → I( B⊗ M _)زب→من(ب⊗م). محاسبه به صورت زیر نشان داده شده است:
در مقایسه با منمن، ویژگی-نقشه تقویت شده است منc h a n n e lمنجساعتآ��هلنقشه های مختلف شی متحرک را از نقشه ویژگی پشتیبانی گروه بندی می کند منمنبرای افزایش ارزش آن
ورودی نقشههای ویژگی ترکیبی یک شبکه فید فوروارد ( FF ) را با «Avoid Connection» تشکیل میدهد. اهمیت آن در فرآیند لایه ReLU نهفته است. بردار نقشه ویژگی با فرآیند توجه به تطبیق نقشه ویژگی استخراج می شود که بیانگر بودن مدل را افزایش می دهد. مدل FF یک مدل پرسپترون دو/چند لایه (D-MLP) است که دارای یک لایه کاملاً متصل (FC) و یک لایه فعالسازی ReLU است که در هر مکان به طور مجزا به کار میرود. محاسبه به شرح زیر است:
اینجا، O“�”خروجی لایه قبلی است و
کجا ، سی1∈اسDمتر×Df،جایی که، سی1∈اس�متر×��،
سی2∈اسDf×Dمتر،سی2∈اس��×�متر،
آ1∈اسDf،آ1∈اس��،و
آ2∈اسDمترآ2∈اس�متر.
اینها همه پارامترهای فوق العاده مرحله آموزش هستند. مقدار پارامتر Df��بالاتر از مقدار است Dمتر�متر. پس از مرحله گذرا شبکه FF ، از فرآیندهای Acc و عادی سازی کانال استفاده می کنیم.
4. آزمایشات
در این بخش، مدل رمزگذار – رمزگشای HRT را از طریق شبیهسازی مدل مقایسه و آزمایش میکنیم. در این مقاله، یک مدل رمزگذار-رمزگشا برای شناسایی ردیابی شی متحرک چند فریم استفاده شده است. آزمایشها در بخشهای فرعی زیر نشان داده شدهاند.
4.1. مجموعه داده ها
ما از داده های عمومی برای نظارت ردیابی شی متحرک برای آموزش و آزمایش مدل خود استفاده کردیم. دو مجموعه داده وجود داشت: DOC19 و DS17. شرح مجموعه داده مدل رمزگذار-رمزگشا HRT در [ 12 ] نشان داده شده است.
4.1.1. مجموعه داده DOC19
ما از مجموعه دادههای DS17 و DOC19 برای آموزش مدل با استفاده از 12000 فریم ویدیویی استفاده کردیم. در فرآیند اعتبارسنجی از فریمهای ویدئویی از هر دو مجموعه داده (5300) استفاده شد. مجموعه داده آموزشی کلاسهای فراوانی را انتخاب کرد، در حالی که فرآیند پیشبینی از نمونههای جدیدی استفاده کرد. کلاسهای فراوان حاوی بسیاری از دادههای قاب ویدیوی نظارتی بودند و کلاس جدید فریمهای ویدیویی نظارتی کمی داشت. برای فرآیند ردیابی نظارت کلاس N و M، کلاس جدید را به عنوان N کلاس تعریف کردیم و هر کلاس منفرد دارای قابهای ویدیویی M با برچسبهای برچسبگذاری شده بود. در ابتدا آموزش مدل را بر روی کلاس های فراوان انجام دادیم تا امتیاز مدل اولیه را بدست آوریم و در مرحله بعد یک تنظیم دقیق مدل را در کلاس جدید انجام دادیم. در کلاس جدید، ما جسم متحرک را در کلاس فراوان جمع کردیم تا مدل رمزگذار-رمزگشا آموزش دیده بتواند هم کلاس های جدید و هم کلاس های فراوان را شناسایی کند. برای جلوگیری از عمومیت نبودن فرآیند ردیابی مدل، مجموعه داده را به سه زیر مجموعه تقسیم کردیم تا مدل را آموزش و آزمایش کنیم. در هر زیر مجموعه، برای کلاس 22، پنج کلاس به عنوان کلاس های جدید انتخاب شدند و کلاس های دیگر به عنوان داده های کلاس فراوان استفاده شدند. برای هر زیر مجموعه، 3، 7 و 9 را برای پارامتر K کلاس جدید برای آموزش و اعتبار سنجی گرفتیم. هنگام ارزیابی مجموعه داده ها، از میانگین دقت کلاس جدید برای آزمایش استفاده کردیم. وقتی نسبت اتصال و اختلاف بین نتیجه و برچسب واقعی بالاتر از 0.5 بود، نتیجه درست بود، یعنی JD50. برای جلوگیری از عمومیت نبودن فرآیند ردیابی مدل، مجموعه داده را به سه زیر مجموعه تقسیم کردیم تا مدل را آموزش و آزمایش کنیم. در هر زیر مجموعه، برای کلاس 22، پنج کلاس به عنوان کلاس های جدید انتخاب شدند و کلاس های دیگر به عنوان داده های کلاس فراوان استفاده شدند. برای هر زیر مجموعه، 3، 7 و 9 را برای پارامتر K کلاس جدید برای آموزش و اعتبار سنجی گرفتیم. هنگام ارزیابی مجموعه داده ها، از میانگین دقت کلاس جدید برای آزمایش استفاده کردیم. وقتی نسبت اتصال و اختلاف بین نتیجه و برچسب واقعی بالاتر از 0.5 بود، نتیجه درست بود، یعنی JD50. برای جلوگیری از عمومیت نبودن فرآیند ردیابی مدل، مجموعه داده را به سه زیر مجموعه تقسیم کردیم تا مدل را آموزش و آزمایش کنیم. در هر زیر مجموعه، برای کلاس 22، پنج کلاس به عنوان کلاس های جدید انتخاب شدند و کلاس های دیگر به عنوان داده های کلاس فراوان استفاده شدند. برای هر زیر مجموعه، 3، 7 و 9 را برای پارامتر K کلاس جدید برای آموزش و اعتبار سنجی گرفتیم. هنگام ارزیابی مجموعه داده ها، از میانگین دقت کلاس جدید برای آزمایش استفاده کردیم. وقتی نسبت اتصال و اختلاف بین نتیجه و برچسب واقعی بالاتر از 0.5 بود، نتیجه درست بود، یعنی JD50. برای هر زیر مجموعه، 3، 7 و 9 را برای پارامتر K کلاس جدید برای آموزش و اعتبار سنجی گرفتیم. هنگام ارزیابی مجموعه داده ها، از میانگین دقت کلاس جدید برای آزمایش استفاده کردیم. وقتی نسبت اتصال و اختلاف بین نتیجه و برچسب واقعی بالاتر از 0.5 بود، نتیجه درست بود، یعنی JD50. برای هر زیر مجموعه، 3، 7 و 9 را برای پارامتر K کلاس جدید برای آموزش و اعتبار سنجی گرفتیم. هنگام ارزیابی مجموعه داده ها، از میانگین دقت کلاس جدید برای آزمایش استفاده کردیم. وقتی نسبت اتصال و اختلاف بین نتیجه و برچسب واقعی بالاتر از 0.5 بود، نتیجه درست بود، یعنی JD50.
4.1.2. مجموعه داده DS17
مجموعه دادههای DS17 کلاسهای غنی و تعداد زیادی فریم ویدیو را در بر میگرفت. برای آزمایش ردیابی اشیاء قاب ویدیویی نظارتی استفاده خواهد شد. در پارادایم فرآیند ردیابی شی متحرک، DS17 شامل 76 کلاس مختلف با 10000 فریم ویدیویی برای آموزش و 5000 فریم ویدیویی برای اعتبارسنجی بود. ما 18 کلاس را به عنوان مجموعه کلاس های جدید انتخاب کردیم و کلاس های باقیمانده مجموعه کلاس های فراوان بودند.
4.1.3. فرآیند آموزش
محیط شبیه سازی آزمایش ما یک GPU TX208 با 64 گیگابایت حافظه بود. این با استفاده از پایتون در ایستگاه های خورشیدی لینوکس اجرا شد و از PyTorch یادگیری عمیق برای ساخت مدل های رمزگذار-رمزگشا استفاده شد. گرادیان پارامتر مدل از محاسبات نزول تصادفی با انرژی 0.8 استفاده میکند، و تنظیم امتیاز بهعنوان مقداری برابر با 0.0005 تعریف میشود، با دستهای که به اندازه 32 تعریف میشود. علاوه بر این، فریمهای ویدئویی نظارت آموزشی با مدلی از واژگونی افقی، عمودی و نوردهی رنگی برای افزایش اندازه دادههای آموزشی مدیریت شدند.
4.2. مقایسه
4.2.1. نتایج مربوط به مجموعه داده DOC19
در این بخش، نتایج تجربی را شرح می دهیم. جدول 1 نتایج مدل را هنگام آموزش بر روی مجموعه داده DOC19 مدل رمزگذار-رمزگشا HRT در کلاس جدید نشان می دهد. ما همچنین نتایج را با مدلهای تک فاز فعلی، مانند SPD [ 41 ]، Meta Googlenet [ 42 ] و Det [ 43 ] مقایسه میکنیم. پیشبینیکننده رمزگذار-رمزگشای HRT پیشنهادی در زمانی که تعداد فریمهای ویدیویی کلاس جدید زیاد باشد، نتایج ردیابی بالاتری را انجام میدهد. در زیرمجموعه اول، ما 1.4 درصد بیشتر از بقیه در پنج فریم، 3.3 درصد بیشتر از بقیه در هفت فریم و 1.3 درصد نسبت به بقیه در یازده فریم توسعه دادیم.
4.2.2. نتایج مربوط به Dataset DS17
در مقایسه با مجموعه دادههای DOC19، DS17 پیچیدگیهای بیشتری را در فرآیندهای ردیابی شی متحرک نشان میدهد، زیرا مجموعه DS17 دارای فریمهای ویدیویی بیشتر است. آموزش مدل را با 60 کلاس فراوان DS17 انجام دادیم و سپس فرآیند تنظیم دقیق مدل را زمانی که فریم ها 13 یا 23 بود به صورت جداگانه انجام دادیم. نتایج در جدول 2 نشان داده شده است. مدل پیشنهادی ما از مدل های قبلی بهتر عمل می کند. زمانی که عدد فریم 13 بود، مدل ما عملکرد را 8.1% در JD45: 90 افزایش داد و برای تعداد فریم 23، مدل ما عملکرد را 9.3% در JD45: 90 افزایش داد. نتایج در شکل 4 و شکل نشان داده شده است. 5 .
4.3. آزمایشات فرسایشی
نتایج فرسایش در استفاده از رمزگذار-رمزگشا HRT برای تزریق و در استفاده از یک مدل استخراج فراوان تعیین کننده است. آموزش و آزمایش فرسایش بر روی مجموعه دادههای DOC19 انجام شد و تعداد فریم با تقسیم فراوان و کلاس جدید مجموعه داده، 7 تعریف شد.
برای آزمایش توجه زمانی در CNN فراوان، نتایج فرسایش این فرآیندها را جمع آوری کردیم. ما آزمایشها را در مدل فراوان CNN انجام دادیم. همانطور که در جدول 3 نشان داده شده است، نتایج تجربی زمانی افزایش می یابد که توجه زمانی جمع شود. هنگامی که توجه کانال در مدل انباشته شد، نتایج بیشتر افزایش یافت. در نتیجه، ما دریافتیم که پارامتر گیرنده تجمعی مدل و امتیاز تعریف شده بالاتر از نقشه ویژگی با استفاده از روش توجه بسیار کاربردی است.
استفاده از روش توجه در مدل رمزگذار-رمزگشا، بهبود رمزگذار-رمزگشا را در مدل بینایی کامپیوتری در [ 33 ] نشان میدهد. جدول 4 نتایج فرسایش را نشان می دهد. ادغام بردار نقشه ویژگی مجموعه فراوان با بردار کمیاب عملکرد بهتری را نشان می دهد. علاوه بر این، هنگامی که از یک نما برای جایگزینی مکان زمانی قبلی در فاز رمزگشایی مدل رمزگذار-رمزگشا استفاده میشود، نتیجه فرسایش ردیابی شی متحرک مدل نیز میتواند افزایش یابد.
پس از شبیهسازی فرسایش بر روی مدل محاسباتی نقشه ویژگی و رمزگذار – رمزگشا، بهترین آرایش مدلها برای انجام محاسبات ابلیشن بر روی مدل نقشه ویژگی فراوان و رمزگذار – رمزگشا پیدا میشود. جدول 5 نتایج را پس از 200 دوره آموزشی نشان می دهد. ما همچنین تأثیر رویه های انباشته شده را با مدل های آموزشی خود تأیید کردیم. از طریق این تجمع، نتایج مدل کمیاب را می توان برای ردیابی شی متحرک بسیار افزایش داد.
5. نتیجه گیری ها
در این تحقیق، ما یک مدل رمزگذار-رمزگشا HRT را برای تشخیص ردیابی شی متحرک چند فریم معرفی کردیم. در این مدل، ما از یک مدل استخراج نقشه ویژگی فراوان برای استخراج نقشههای ویژگی مدل، و همچنین یک رمزگذار – رمزگشای توجه برای القای نقشههای ویژگی مجموعه پشتیبانی و نقشههای ویژگی پشتیبانی استفاده میکنیم. یک پیشبینیکننده مؤثر با ادغام مدل فراوان و مدل رمزگذار-رمزگشا برای استفاده در نمونههای کمیاب جدید پیشنهاد میشود. نتایج تجربی ثابت کرد که مدل رمزگذار-رمزگشا HRT پیشنهادی ما زمانی که تعداد فریمهای ویدئویی بیشتر از سه باشد، بهتر از طبقهبندیکنندههای قبلی عمل میکند. ما همچنین تأثیر رویه های انباشته شده را با مدل های آموزشی خود تأیید کردیم. از طریق این تجمع، نتایج مدل کمیاب را می توان برای ردیابی شی متحرک بسیار افزایش داد.
بدون دیدگاه