مدل یادگیری عمیق YOLOv2 و الگوریتم های مبتنی بر GIS برای ردیابی خودرو

آخرین پیشرفت‌ها در روش‌های مبتنی بر یادگیری عمیق و قابلیت‌های محاسباتی فرصت‌های جدیدی را برای ردیابی خودرو فراهم می‌کند. در این مطالعه، YOLOv2 (شما فقط یک بار نگاه می کنید-نسخه 2) به عنوان یک شبکه عصبی کانولوشن منبع باز (CNN)، برای پردازش تصاویر ماهواره ای با وضوح بالا، به منظور تولید مسیرهای GIS مکانی-زمانی (سیستم اطلاعات جغرافیایی) استفاده می شود. از وسایل نقلیه در حال حرکت در مرحله اول، YOLOv2 با مجموعه ای از تصاویر با وضوح 1024 × 1024 از پایگاه داده VEDAI آموزش داده می شود. مدل نتایج رضایت بخشی را با دقت 91 درصد نشان داد و سپس در مرحله دوم برای پردازش تصاویر هوایی استخراج شده از فیلم هوایی استفاده شد. جعبه‌های مرزبندی خروجی خودرو پردازش شده و به الگوریتم LinkTheDots مبتنی بر GIS وارد شده‌اند که امکان شناسایی وسایل نقلیه و تولید مسیرهای مکانی-زمانی در قالب GIS را فراهم می‌کند.

کلید واژه ها

یادگیری عمیق ، YOLOv2 ، ردیابی خودرو ، GIS

1. مقدمه

ردیابی وسایل نقلیه موضوع مهمی با کاربردهای جالب است. این به طور گسترده از زوایای مختلف، با استفاده از هر دو روش کلاسیک تشخیص اشیاء سنتی و روش‌های GIS، مبتنی بر GPS و ابزارهای ارتباطی بلادرنگ مورد مطالعه قرار گرفته است.

به عنوان یکی از مهمترین وظایف در بینایی کامپیوتر، تشخیص اشیا به لطف آخرین پیشرفت ها در روش های مبتنی بر یادگیری عمیق و قدرت محاسباتی با خوشه های واحدهای پردازش گرافیکی (GPU) به سرعت در حال رشد است. این فرصت‌های جدیدی را برای ردیابی خودرو، از طریق استفاده از تصاویر ماهواره‌ای با وضوح بالا و روش‌های یادگیری عمیق، بر اساس شبکه‌های عصبی کانولوشنال (CNN) ارائه می‌کند [ 1 ]. در این مقاله، برای اهداف ردیابی خودرو، مدل YOLOv2 [ 2 ]، یک سی‌ان‌ان منبع باز در حال رشد سریع، بر روی تصاویر VEDAI، مجموعه داده باز از تصاویر وسایل نقلیه، آموزش می‌یابد. عملکردهای GIS و الگوریتم LinkTheDotes برای ایجاد، کنترل و تجسم مسیرهای مکانی-زمانی استفاده می شود.

طرح این مقاله به شرح زیر است. این بخش مروری بر ادبیات برخی از مطالعات در مورد ردیابی خودرو و تشخیص اشیا، با مفاهیم اساسی یادگیری عمیق، CNN و YOLO ارائه می‌کند. بخش 2 رویکرد کلی، آماده سازی داده های ورودی، آموزش YOLOv2 و الگوریتم LinkTheDots و همچنین ویژگی های GIS مورد استفاده را ارائه می کند. بخش 3 نتایج به دست آمده را بررسی می کند و بخش 4 برخی از نتایج را ارائه می دهد.

1.1. ردیابی خودرو

ردیابی وسایل نقلیه با کاربردهای مهم در بسیاری از زمینه‌ها مانند نظارت بر ترافیک شهری [ 3 ]، سیستم‌های حمل‌ونقل هوشمند [ 4 ]، نظارت زمینی [ 5 ]، ایمنی و امنیت رانندگی [ 6 ]، سیستم‌های کمک رانندگی پیشرفته [ 7 ]، به یک وظیفه مهم تبدیل شد. و غیره.

در حالی که روش‌های کلاسیک ردیابی خودرو مبتنی بر ترکیب GPS، GSM، GPRS و فناوری‌های اینترنتی [ 8 ] [ 9 ] [ 10 ] [ 11 ] است، روش‌های جدید مبتنی بر تصاویر و هوش مصنوعی به سرعت در حال تکامل هستند [ 12 ] – [ 17 ] . مزیت این روش های جدید توانایی آنها برای پردازش داده ها در مقیاس های بزرگ، بدون نیاز به نصب تجهیزات ویژه در وسایل نقلیه ردیابی است. آن‌ها از پیشرفت‌های شتاب‌زده در هوش مصنوعی، به‌ویژه یادگیری عمیق بهره می‌برند و بنابراین هزینه دسترسی به این داده‌های تحلیلی را برای بیشترین تعداد محقق و کسب‌وکار علاقه‌مند کاهش می‌دهند.

1.2. تشخیص شی و GIS

تشخیص اشیا شامل تشخیص نمونه هایی از یک کلاس خاص (مانند وسایل نقلیه، انسان ها یا درختان) در تصاویر دیجیتال است. این یک موضوع بینایی کامپیوتری است که کاربردهای متعددی در زمینه‌های مختلف مانند تشخیص چهره [ 18 ]، رانندگی خودکار [ 19 ] و اخیراً تشخیص ماسک صورت در میان همه‌گیری COVID-19 [ 20 ] پیدا می‌کند. هدف اصلی تشخیص اشیاء، توسعه سیستم‌های محاسباتی است که اطلاعات کلیدی را به برنامه‌های بینایی کامپیوتری ارائه می‌دهد که عبارتند از: “اشیاء کجا هستند”؟ [ 21 ]، که همچنین اساس کاربردهای متعدد GIS (سیستم های اطلاعات جغرافیایی) است. این دو حوزه از یکدیگر سود می برند و مکمل یکدیگر هستند [ 22 ] [ 23 ] [ 24 ].

1) تشخیص شی و طبقه بندی تصویر

هدف از طبقه بندی تصویر استخراج طبقات موجود از اشیاء بصری است، بدون اینکه لزوماً مکان آنها در تصویر مشخص شود. این به این سوال پاسخ می دهد که “چه جسمی در تصویر وجود دارد؟”.

از سوی دیگر، تشخیص شی نمونه‌هایی از کلاس‌ها را روی تصویر، با جعبه‌های مرزی یا چندضلعی‌های محدود [ 25 ] همانطور که در شکل 1 نشان داده شده است، قرار می‌دهد .

2) شناسایی شی

شناسایی شی زمانی اتفاق می افتد که اشیاء شناسایی شده در تصویر باشند

شکل 1 . جعبه‌های محدودکننده (چپ) در مقابل چندضلعی‌های محدودکننده (راست).

کدهای شناسایی منحصر به فرد اختصاص داده شده است. به عنوان مثال برای برنامه های کاربردی ردیابی شی در زمان واقعی استفاده می شود [ 26 ].

1.3. پردازش تصویر با یادگیری عمیق

1) یادگیری عمیق (DL)

تحقیقات اخیر نشان می‌دهد که روش‌های یادگیری عمیق به عنوان روش‌های یادگیری ماشینی قدرتمند برای شناسایی و تشخیص اشیا [ 27 ] [ 28 ] [ 29 ] [ 30 ] [ 31 ] پدید آمده‌اند. یادگیری عمیق با غیرخطی بودن پیچیده، هنگام ترکیب بسیاری از توابع غیرخطی [ 32 ] اتفاق می افتد. در حالی که رویکردهای سنتی هوش مصنوعی و یادگیری ماشین یادگیری نمایش‌های سلسله مراتبی مربوط به داده‌های تحلیل شده را ممکن می‌سازد [ 33 ]، ما تمایل داریم باور کنیم که با شبکه‌های عصبی یادگیری عمیق، یک تکامل تدریجی در نمایش داده‌های خام به دسته‌ها وجود دارد. از انتزاعات هنگامی که سیستم با داده تغذیه می شود [ 34] [ 35 ]. بنابراین، با ظرفیت افزایش یافته خود برای تنظیم میلیاردها پارامتر به لطف قابلیت‌های محاسباتی موازی عظیم، موفقیت الگوریتم‌های یادگیری عمیق در کاربردهای هوش مصنوعی مانند پردازش تصویر و ویدیو فوق‌العاده است [ 36 ].

2) شبکه های عصبی کانولوشن (CNN)

بر خلاف رویکردهای سنتی، مدل‌های یادگیری عمیق ویژگی‌ها را بلافاصله از پیکسل‌های خام یاد می‌گیرند و زمینه‌های دریافتی محلی را از لایه‌های پایین‌تر به لایه‌های بالایی توسعه می‌دهند. به عنوان مثال، لایه‌های پایین‌تر ویژگی‌های ساده‌ای مانند خطوط و گوشه‌ها را تشخیص می‌دهند، در حالی که لایه‌های بالاتر ویژگی‌های پیچیده‌ای را استخراج می‌کنند که نشان‌دهنده اشیاء واقعی مانند وسایل نقلیه است. موفقیت‌های DL در پردازش تصویر توسط کار چالش برانگیز طبقه‌بندی ImageNet در هزاران کلاس [ 30 ] [ 37 ] با استفاده از نوعی شبکه عصبی عمیق به نام شبکه‌های عصبی کانولوشنال (CNN) [ 38 ] گواهی می‌شود.

ساختار CNN ها در ابتدا بر اساس سازمان قشر بینایی حیوانات [ 39 ] بود. پس از شروع آهسته در اوایل دهه 1990 به دلیل محدودیت های ظرفیت محاسباتی [ 40 ] [ 41 ]، CNN ها با توسعه سریع این قابلیت ها، از جمله، رایانش ابری، رونق عظیمی را تجربه کردند.

CNN ها از چندین لایه شبیه به شبکه های عصبی پیشخور ساخته شده اند. خروجی ها و ورودی های لایه ها به صورت مجموعه ای از ماتریس های تصویر ارائه می شوند. CNN ها را می توان با ترکیب های مختلفی از لایه های کانولوشن (که عملیات کانولوشن روی فیلترهای مشخص انجام می شود)، لایه های ادغام شده و لایه های کاملاً متصل (به طور کلی، قبل از خروجی) با توابع فعال سازی غیرخطی ساخت. یک معماری معمولی CNN در شکل 2 نشان داده شده است [ 38 ].

3) تک شات CNN: YOLO

You Only Look Once (YOLO) یک سیستم تشخیص شی شبکه عصبی کانولوشن است که تشخیص اشیا را به عنوان یک مشکل رگرسیونی، از پیکسل های تصویر گرفته تا جعبه های مرزی با احتمالات کلاس خود، کنترل می کند. عملکرد آن بسیار بهتر از سایر روش های سنتی تشخیص اشیا است، زیرا مستقیماً روی تصاویر کامل آموزش می بیند.

YOLO از 27 لایه CNN، با 24 لایه کانولوشن، دو لایه کاملاً متصل، و یک لایه تشخیص نهایی [ 2 ] تشکیل شده است ( شکل 3 ).

YOLO تصاویر ورودی را به یک سلول شبکه N به N تقسیم می‌کند، سپس در حین پردازش، برای هر یک از آنها چندین جعبه محدود را پیش‌بینی می‌کند تا شی مورد شناسایی را پیش‌بینی کند. بنابراین، یک تابع ضرر باید محاسبه شود. YOLO ابتدا، برای هر جعبه مرزی، تقاطع روی اتحاد (IoU) را محاسبه می کند. سپس از خطای مجموع مربع برای محاسبه افت خطا بین نتایج پیش‌بینی‌شده و اشیاء واقعی استفاده می‌کند. ضرر نهایی مجموع سه تابع ضرر است: 1) افت طبقه بندی: مربوط به احتمال کلاس، 2) از دست دادن محلی سازی: مربوط به موقعیت و اندازه جعبه مرزی و 3) از دست دادن اطمینان برای اندازه گیری احتمال اشیاء در جعبه [ 42 ]. ].

شکل 2 . معماری شبکه های عصبی کانولوشنال [ 38 ].

شکل 3 . معماری YOLO [ 2 ] [ 42 ].

2. روش شناسی

به منظور تولید مسیرهای زمانی وسایل نقلیه در قالب GIS از ویدئوی هوایی، یک فرآیند سه مرحله ای اتخاذ شده است:

• برای حل مشکل مدیریت جریان ویدئوی هوایی پیوسته، که یک چالش فنی بزرگ را نشان می‌دهد [ 43 ]، جریان ویدئو به یک سری تصاویر با وضوح مناسب برای الگوریتم آموزش‌دیده YOLOv2 تبدیل می‌شود.

• سپس هر تصویر جداگانه با الگوریتم YOLOv2 که از قبل آموزش داده شده است، پردازش می شود.

• با الگوریتم LinkTheDots، وسایل نقلیه شناسایی شده سپس در سراسر سری خروجی تصاویر ردیابی می شوند و یک مسیر تاریخی خاص GIS برای هر وسیله نقلیه ایجاد می کنند.

شکل 4 روند کلی را نشان می دهد و شکل 5 روند آموزش الگوریتم YOLOv2 را نشان می دهد (فرآیند الگوریتم LinkTheDots در ادامه این بخش توضیح داده شده است).

2.1. داده های ورودی: از ویدیوی منطقه ای تا یک سری عکس

از یک فیلم هوایی از یک پارکینگ شلوغ [ 44 ]، مجموعه ای از فریم ها استخراج شد. شکل 6 یکی از تصاویر استخراج شده را نشان می دهد.

شکل 4 . روند کلی روش

شکل 5 . آموزش الگوریتم YOLOv2.

شکل 6 . فریمی از مجموعه تصاویر استخراج شده از ویدئوی منطقه ای [ 44 ].

فراداده هر فریم حاوی تاریخ دقیق تصویر است که توسط تمام وسایل نقلیه شناسایی شده روی قاب به ارث می رسد.

در این مرحله از مطالعه، مجموعه تصاویر با الگوریتم آموزش دیده YOLOv2 برای تشخیص وسایل نقلیه آماده پردازش یک به یک هستند.

2.2. آموزش الگوریتم YOLOv2

1) داده های آموزشی

الگوریتم‌های YOLO و CNN به طور کلی، زمانی که روی داده‌های تصویری اعمال می‌شوند، می‌توانند با داده‌ها از هر جایی آموزش ببینند و با همان درجه از اطمینان در جاهای دیگر اعمال شوند [ 45 ]. به همین دلیل، در غیاب منابع داده محلی از تصاویر منطقه، از VEDAI (تشخیص خودرو در تصاویر هوایی) منبع داده [ 45 ] استفاده می شود. علاوه بر دسترسی باز و تعداد مهم تصاویر ارائه شده (بیش از 10000)، پایگاه داده VEDAI برچسب هایی را برای هر وسیله نقلیه ارائه می دهد، آماده استفاده برای آموزش الگوریتم های تشخیص شکل 7 .

مدل YOLOv2 با مجموعه ای از تصاویر با وضوح 1024 × 1024 آموزش و آزمایش شد. به طور کلی، مجموعه داده ای از 1200 تصویر استفاده شد. 70 درصد آنها به عنوان داده های آموزشی و 30 درصد برای آزمون.

2) پلت فرم آموزشی

آموزش الگوریتم YOLO، مانند همه مدل های یادگیری عمیق، به ظرفیت محاسباتی قابل توجهی نیاز دارد [ 32 ]. بنابراین، پلت فرم مورد استفاده در فضای ابری با پیکربندی مشخص شده در جدول 1 قرار داشت. یکی از مهمترین جنبه های این پیکربندی، GPU (واحد پردازش گرافیکی) با کارایی بالا است، زیرا دارای معماری موازی کارآمد برای یادگیری مدل است. در ترکیب با خوشه ها یا محاسبات ابری، زمان آموزش شبکه را به میزان قابل توجهی کاهش می دهد.

Darknet [ 46 ] به عنوان یک چارچوب آموزشی استفاده شد. این یک چارچوب شبکه عصبی منبع باز است که به زبان C و CUDA نوشته شده است که از محاسبات CPU و GPU پشتیبانی می کند.

شکل 7 . تصویر مجموعه داده VEDAI.

2.3. الگوریتم LinkTheDots

به منظور ردیابی یک وسیله نقلیه در فریم های متوالی، الگوریتم LinkTheDots توسعه داده شد. وظیفه اصلی آن این است که مرکز جعبه محدود کننده وسایل نقلیه را در یک قاب خاص به مرکز جعبه محدود کننده همان وسیله نقلیه در قاب بعدی متصل کند. این نشان می دهد که، بین دو لحظه فریم، این وسیله نقلیه خاص از نقطه اول به نقطه دوم حرکت کرده است.

پس از اینکه همه فریم ها با الگوریتم آموزش دیده YOLOv2 پردازش شدند و تمام جعبه های مرزی تولید شدند، تمام مرکزهای وسایل نقلیه با ابزار GIS ایجاد می شوند. الگوریتم LinkTheDots تمام این فریم‌های به‌دست‌آمده را پردازش می‌کند، از اولی شروع می‌شود، جایی که همه نقاط باید با شناسه خودرو شناسایی شوند. از آنجا، با شروع فریم دوم، الگوریتم باید بررسی کند که آیا وسیله نقلیه مرتبط قبلاً در فریم قبلی شناسایی شده است تا شناسه آن را به دست آورد، در غیر این صورت، باید یک شناسه وسیله نقلیه جدید نسبت داده شود. شکل 8 روند دقیق الگوریتم LinkTheDots را نشان می دهد.

LinkTheDots با انجام یک جستجوی جغرافیایی، در فاصله Δmax، موقعیت موقعیت خودرو را در فریم قبلی شناسایی می‌کند، که فراتر از آن، با توجه به پارامترهای فرضی مانند حداکثر، هیچ وسیله نقلیه‌ای هرگز نمی‌تواند – فرضاً – بین زمان دو فریم حرکت کند. سرعت وسیله نقلیه بنابراین Δmax به عنوان پارامتر تنظیم الگوریتم در نظر گرفته می شود.

3. نتایج و بحث

3.1. نتایج آموزش الگوریتم YOLOv2

در زیر، در جدول 2 ، پارامترهای اصلی یک آموزش YOLOv2:

شکل 8 . فرآیند الگوریتم LinkTheDots

تکامل میانگین تلفات در طول تکرارهای فرآیند یادگیری در شکل 9 و تصویر نتایج آزمون در شکل 10 ارائه شده است .

شکل 9 . تکامل میانگین از دست دادن با توجه به تعداد تکرار.

شکل 10 . تصویر نتایج آزمون YOLOv2.

این مدل 91 درصد از وسایل نقلیه آزمایشی را شناسایی کرد. این نتایج نشان می‌دهد که مدل آموزش‌دیده می‌تواند وسایل نقلیه را با دقت رضایت‌بخشی که الزامات برنامه مورد نظر برای ردیابی مکانی-زمانی را برآورده می‌کند، شناسایی کند. با مجموعه ای بزرگتر از تصاویر آموزشی، می توان این دقت را به میزان قابل توجهی بهبود بخشید.

3.2. نتایج ردیابی وسایل نقلیه

نتایج الگوریتم آموزش‌دیده YOLOv2 و پردازش داده‌های خروجی ( شکل 4 )، 1) جدول موقعیت‌های وسایل نقلیه در حال حرکت، تولید شده توسط الگوریتم LinkTheDots است که عصاره‌ای از آن در جدول 4 ارائه شده است . و 2) موقعیت وسایل نقلیه در طول زمان ویدیوی منطقه ورودی، که در شکل 11 نشان داده شده است.

شکل 11 . سانتروئیدها در طول زمان تولید شده است.

با استفاده از ابزار GIS برای تبدیل مجموعه ای از نقاط به خطوط، این نقاط به مدار تبدیل شدند که بر اساس شماره شناسه وسایل نقلیه مرتب شدند. بنابراین، مسیرهای مکانی-زمانی وسایل نقلیه در حال حرکت در ویدئوی منطقه به دست آمد ( شکل 12 ).

3.3. محدودیت های الگوریتم LinkTheDots

الگوریتم LinkTheDots بر این فرض استوار است که نزدیکترین مرکز جعبه مرزی در تصویر زیر مربوط به همان وسیله نقلیه است. سپس پارامتر الگوریتم Dmax باید روی مقداری تنظیم شود که از سردرگمی بین دو وسیله نقلیه مختلف در دو فریم متوالی جلوگیری کند.

اجازه دهید:

د: مسافت طی شده وسیله نقلیه بین دو قاب

W _{وسیله نقلیه} : عرض وسیله نقلیه

سپس، برای جلوگیری از سردرگمی بین وسایل نقلیه، باید داشته باشیم:

Δ < W _{وسیله نقلیه} (1)

شکل 12 . مسیرهای مکانی-زمانی GIS وسایل نقلیه.

این بدان معناست که Dmax باید کمتر از حداقل عرض خودرو باشد.

اجازه دهید:

V _{وسیله نقلیه} : سرعت وسیله نقلیه

_دوربینV : سرعت دوربین

F _r : تعداد فریم در ثانیه (نرخ فریم)

سپس:

$Δ = \frac{V_{vehicle} - V_{camera}}{F_{r}}$ (2)

از (1) و (2):

$\frac{V_{vehicle} - V_{camera}}{F_{r}} < W_{vehicle}$ (3)

این بدان معناست که در مورد یک دوربین ثابت (دوربین _V= 0)، برای عرض متوسط وسیله نقلیه 2 متر و نرخ فریم دوربین 15 فریم در ثانیه، حداکثر سرعتی که می توان یک وسیله نقلیه را تا آن زمان ردیابی کرد 30 است. متر بر ثانیه (108 کیلومتر در ساعت).

مفهوم دیگر این است که اگر قرار است وسیله نقلیه ای با سرعت 150 کیلومتر در ساعت ردیابی شود – هنوز با یک دوربین ثابت – دوربین مورد استفاده باید سرعت 21 فریم در ثانیه یا بهتر داشته باشد.

4. نتیجه گیری

در این کار مدل YOLOv2 برای تشخیص وسایل نقلیه بر روی تصاویر هوایی آموزش داده شد. مدل آموزش دیده با الگوریتم LinkTheDots برای ردیابی مکانی-زمانی GIS همراه شد. محدودیت ها و شرایط اعتبار الگوریتم پیشنهادی با توجه به نرخ فریم در فیلم هوایی خام و سرعت وسایل نقلیه ردیابی شده مورد بحث قرار گرفت. دقت مدل آموزش دیده که حدود 91 درصد یافت می شود را می توان با مجموعه ای بزرگتر از تصاویر آموزشی به طور قابل توجهی بهبود بخشید.

منابع

[ 1 ]	Yoon, Y., Jeon, HG, Yoo, D., Lee, JY and So Kweon, I. (2015) یادگیری یک شبکه کانولوشن عمیق برای وضوح تصویر فوق العاده میدان نور. مجموعه مقالات کنفرانس بین المللی IEEE در کارگاه های آموزشی بینایی کامپیوتر، سانتیاگو، 7-13 دسامبر 2015، 24-32. https://doi.org/10.1109/ICCVW.2015.17
[ 2 ]	Redmon, J., Divvala, S., Girshick, R. and Farhadi, A. (2016) You Only Once Look: Unified, Real-Time Object Detection. مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، لاس وگاس، 27-30 ژوئن 2016، 779-788. https://doi.org/10.1109/CVPR.2016.91
[ 3 ]	Cao, X., Jiang, X., Li, X. and Yan, P. (2016) ردیابی اهداف چندگانه مبتنی بر همبستگی با ساختار لایه سلسله مراتبی. معاملات IEEE در سایبرنتیک، 48، 90-102. https://doi.org/10.1109/TCYB.2016.2625320
[ 4 ]	Chen, L. and Englund, C. (2015) مدیریت تقاطع تعاونی: نظرسنجی. معاملات IEEE در سیستم های حمل و نقل هوشمند، 17، 570-586. https://doi.org/10.1109/TITS.2015.2471812
[ 5 ]	Ulmke, M. and Koch, W. (2006) ردیابی هدف متحرک زمینی به کمک نقشه راه. معاملات IEEE در هوا فضا و سیستم های الکترونیکی، 42، 1264-1274. https://doi.org/10.1109/TAES.2006.314571
[ 6 ]	ابراهیم، VM و ویکتور، AA (2012) سیستم امنیتی ضد سرقت مبتنی بر میکروکنترلر با استفاده از شبکه های GSM با پیام متنی به عنوان بازخورد. مجله بین المللی تحقیق و توسعه مهندسی، 2، 18-22.
[ 7 ]	Hasberg, C., Hensel, S. and Stiller, C. (2011) مکان یابی و نقشه برداری همزمان برای حرکت محدود شده مسیر. معاملات IEEE در سیستم های حمل و نقل هوشمند، 13، 541-552. https://doi.org/10.1109/TITS.2011.2177522
[ 8 ]	Almomani, IM, Alkhalil, NY, Ahmad, EM and Jodeh, RM (2011) سیستم ردیابی و مدیریت خودروهای GPS همه جا حاضر. 2011 کنفرانس IEEE اردن در مورد مهندسی برق کاربردی و فن آوری های محاسباتی (AEECT)، امان، 6-8 دسامبر 2011، 1-6. https://doi.org/10.1109/AEECT.2011.6132526
[ 9 ]	Maurya, K., Singh, M. and Jain, N. (2012) سیستم ردیابی خودرو در زمان واقعی با استفاده از فناوری GSM و GPS-یک سیستم ردیابی ضد سرقت. مجله بین المللی مهندسی علوم الکترونیک و کامپیوتر، 1، 1103.
[ 10 ]	Lee, S., Tewolde, G. and Kwon, J. (2014) طراحی و پیاده سازی سیستم ردیابی خودرو با استفاده از فناوری GPS/GSM/GPRS و برنامه تلفن هوشمند. 2014 انجمن جهانی IEEE در اینترنت اشیا (WF-IoT)، سئول، 6-8 مارس 2014، 353-358. https://doi.org/10.1109/WF-IoT.2014.6803187
[ 11 ]	Pham, HD, Drieberg, M. and Nguyen, CC (2013) توسعه سیستم ردیابی خودرو با استفاده از GPS و مودم GSM. 2013 کنفرانس IEEE در سیستم های باز (ICOS)، کوچینگ، 2-4 دسامبر 2013، 89-94. https://doi.org/10.1109/ICOS.2013.6735054
[ 12 ]	Tang, Z., Naphade, M., Liu, MY, Yang, X., Birchfield, S., Wang, S., Hwang, JN, et al. (2019) Cityflow: معیاری در مقیاس شهر برای ردیابی و شناسایی مجدد خودرو با دوربین چند هدفه. مجموعه مقالات کنفرانس IEEE/CVF در مورد دید کامپیوتری و تشخیص الگو، لانگ بیچ، 15-20 ژوئن 2019، 8797-8806. https://doi.org/10.1109/CVPR.2019.00900
[ 13 ]	Tang, Z., Wang, G., Xiao, H., Zheng, A. and Hwang, JN (2018) ردیابی وسیله نقلیه تک دوربینی و بین دوربینی و تخمین سرعت سه بعدی بر اساس تلفیق ویژگی های بصری و معنایی. مجموعه مقالات کنفرانس IEEE در کارگاه های آموزشی بینایی کامپیوتری و تشخیص الگو، سالت لیک سیتی، 18-23 ژوئن 2018، 108-115. https://doi.org/10.1109/CVPRW.2018.00022
[ 14 ]	Chen, Y., Jing, L., Vahdani, E., Zhang, L., He, M. and Tian, Y. (2019) ردیابی و شناسایی مجدد خودرو با دوربین چندگانه در چالش شهر هوش مصنوعی 2019. کارگاه های آموزشی CVPR, جلد 2، 324-332.
[ 15 ]	Hua, S., Kapoor, M. and Anastasiu, DC (2018) ردیابی خودرو و تخمین سرعت از ویدیوهای ترافیک. مجموعه مقالات کنفرانس IEEE در کارگاه های آموزشی بینایی کامپیوتری و تشخیص الگو، سالت لیک سیتی، 18-23 ژوئن 2018، 153-160. https://doi.org/10.1109/CVPRW.2018.00028
[ 16 ]	Peri، N.، خرمشاهی، P.، Rambhatla، SS، Shenoy، V.، Rawat، S.، Chen، JC و Chellappa، R. (2020) Towards Real-Time Systems for Vehicle Re-identification, Multi-Camera Tracking و تشخیص ناهنجاری. مجموعه مقالات کنفرانس IEEE/CVF در کارگاه های آموزشی بینایی رایانه و تشخیص الگو، سیاتل، 14-19 ژوئن 2020، 622-623. https://doi.org/10.1109/CVPRW50498.2020.00319
[ 17 ]	Li، P.، Li، G.، Yan، Z.، Li، Y.، Lu، M.، Xu، P.، Chuxing، D.، و همکاران. (2019) سازگاری مکانی-زمانی و تطابق سلسله مراتبی برای ردیابی خودرو با دوربین چند هدفه. کارگاه های آموزشی CVPR، لانگ بیچ، 16-20 ژوئن 2019، 222-230.
[ 18 ]	Yang, D., Alsadoon, A., Prasad, PC, Singh, AK and Elchouemi, A. (2018) یک مدل تشخیص احساسات بر اساس تشخیص چهره در محیط یادگیری مجازی. Procedia Computer Science, 125, 2-10. https://doi.org/10.1016/j.procs.2017.12.003
[ 19 ]	Grigorescu, S., Trasnea, B., Cocias, T. and Macesanu, G. (2020) بررسی تکنیک های یادگیری عمیق برای رانندگی خودمختار. مجله رباتیک میدانی، 37، 362-386. https://doi.org/10.1002/rob.21918
[ 20 ]	Loey, M., Manogaran, G., Taha, MHN and Khalifa, NEM (2021) مبارزه با COVID-19: یک مدل یادگیری عمیق جدید بر اساس YOLO-v2 با ResNet-50 برای تشخیص ماسک پزشکی صورت. شهرها و جامعه پایدار، 65، شناسه مقاله: 102600. https://doi.org/10.1016/j.scs.2020.102600
[ 21 ]	Zou, Z., Shi, Z., Guo, Y. and Ye, J. (2019) تشخیص شی در 20 سال: یک بررسی.
[ 22 ]	Ardeshir, S., Zamir, AR, Torroella, A. and Shah, M. (2014) تشخیص شی به کمک GIS و مکان یابی جغرافیایی. در: کنفرانس اروپایی بینایی کامپیوتر، Springer، Cham، 602-617. https://doi.org/10.1007/978-3-319-10599-4_39
[ 23 ]	Campbell, A., Both, A. and Sun, QC (2019) تشخیص و نقشه برداری علائم ترافیکی از تصاویر نمای خیابان گوگل با استفاده از یادگیری عمیق و GIS. کامپیوتر، محیط زیست و سیستم های شهری، 77، شناسه مقاله: 101350. https://doi.org/10.1016/j.compenvurbsys.2019.101350
[ 24 ]	Cheng, G. and Han, J. (2016) نظرسنجی در مورد تشخیص اشیاء در تصاویر سنجش از دور نوری. ISPRS مجله فتوگرامتری و سنجش از دور، 117، 11-28. https://doi.org/10.1016/j.isprsjprs.2016.03.014
[ 25 ]	Hurtik, P., Molek, V., Hula, J., Vajgl, M., Vlasanek, P. and Nejezchleba, T. (2020) Poly-YOLO: سرعت بالاتر، تشخیص دقیق تر و تقسیم بندی نمونه برای YOLOv3.
[ 26 ]	Bathija, A. and Sharma, G. (2019) تشخیص و ردیابی شی بصری با استفاده از Yolo و Sort. مجله بین المللی فناوری تحقیقات مهندسی، 8، 705-708.
[ 27 ]	دنگ، ال و یو، دی (2014) یادگیری عمیق: روش ها و کاربردها. مبانی و روند در پردازش سیگنال، 7، 197-387. https://doi.org/10.1561/2000000039
[ 28 ]	Szegedy, C., Toshev, A. and Erhan, D. (2013) شبکه های عصبی عمیق برای تشخیص اشیا.
[ 29 ]	Krizhevsky, A., Sutskever, I. and Hinton, GE (2012) طبقه بندی شبکه تصویری با شبکه های عصبی پیچیده عمیق. پیشرفت‌ها در سیستم‌های پردازش اطلاعات عصبی، 25، 1097-1105.
[ 30 ]	Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., et al. (2015) چالش تشخیص بصری در مقیاس بزرگ Imagenet. International Journal of Computer Vision, 115, 211-252. https://doi.org/10.1007/s11263-015-0816-y
[ 31 ]	Yan, K., Wang, Y., Liang, D., Huang, T. and Tian, Y. (2016) CNN در مقابل Sift برای بازیابی تصویر: جایگزین یا مکمل؟ مجموعه مقالات بیست و چهارمین کنفرانس بین المللی ACM در چند رسانه ای، آمستردام، 15-19 اکتبر 2016، 407-411. https://doi.org/10.1145/2964284.2967252
[ 32 ]	Fan, J., Ma, C. and Zhong, Y. (2019) مروری انتخابی بر یادگیری عمیق.
[ 33 ]	Ilin, R., Watson, T. and Kozma, R. (2017) سلسله مراتب انتزاعی در شبکه های عصبی یادگیری عمیق. کنفرانس مشترک بین‌المللی شبکه‌های عصبی 2017 (IJCNN)، انکوریج، 14-19 مه 2017، 768-774. https://doi.org/10.1109/IJCNN.2017.7965929
[ 34 ]	Schmidhuber, J. (2015) یادگیری عمیق در شبکه های عصبی: یک مرور کلی. شبکه های عصبی، 61، 85-117. https://doi.org/10.1016/j.neunet.2014.09.003
[ 35 ]	Gülcehre, C. and Bengio, Y. (2016) مسائل دانش: اهمیت اطلاعات قبلی برای بهینه سازی. مجله تحقیقات یادگیری ماشین، 17، 226-257.
[ 36 ]	LeCun، Y.، Bengio، Y. و Hinton، G. (2015) یادگیری عمیق. طبیعت، 521، 436-444. https://doi.org/10.1038/nature14539
[ 37 ]	دنگ، جی.، برگ، ا.، ساتش، اس.، سو، اچ.، خوسلا، ا. و لی، FF (2012) چالش تشخیص بصری در مقیاس بزرگ. https://image-net.org/challenges/LSVRC/2012/
[ 38 ]	Ucar, A., Demir, Y. and Güzelis, C. (2017) تشخیص و تشخیص اشیاء با یادگیری عمیق برای برنامه‌های رانندگی خودکار. شبیه سازی، 93، 759-769. https://doi.org/10.1177/0037549717709932
[ 39 ]	Hubel، DH و Wiesel، TN (1968) میدان های پذیرنده و معماری عملکردی قشر مخطط میمون. مجله فیزیولوژی، 195، 215-243. https://doi.org/10.1113/jphysiol.1968.sp008455
[ 40 ]	LeCun, Y., Boser, B., Denker, JS, Henderson, D., Howard, RE, Hubbard, W. and Jackel, LD (1989). محاسبات عصبی، 1، 541-551. https://doi.org/10.1162/neco.1989.1.4.541
[ 41 ]	LeCun, Y., Boser, BE, Denker, JS, Henderson, D., Howard, RE, Hubbard, WE and Jackel, LD (1990) تشخیص ارقام دست نویس با یک شبکه انتشار برگشتی. کنفرانس بین المللی سیستم های پردازش اطلاعات عصبی، جلد. 2، 396-404.
[ 42 ]	Chen, RC (2019) تشخیص خودکار پلاک خودرو از طریق شبکه تاریک پنجره کشویی-YOLO Deep Learning. محاسبات تصویر و بینایی، 87، 47-56. https://doi.org/10.1016/j.imavis.2019.04.007
[ 43 ]	بانو، بی.، راویشانکار، CV، روی-چادری، AK، آغاجان، اچ و ترزوپولوس، دی. (2011) شبکه های حسگر ویدئوی توزیع شده. Springer Science & Business Media، برلین. https://doi.org/10.1007/978-0-85729-127-1
[ 44 ]	بریگان، تی (2017) پارکینگ پرمشغله—تایم لپس هوایی.
[ 45 ]	Bengio، Y. (2009) یادگیری معماری عمیق برای هوش مصنوعی. Now Publishers Inc., Delft. https://doi.org/10.1561/9781601982957
[ 46 ]	Redmon, J. and Farhadi, A. (2017) YOLO9000: Better, Faster, Stronger. مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، هونولولو، 21-26 جولای 2017، 7263-7271. https://doi.org/10.1109/CVPR.2017.690

مقالات داخلی و بین المللی

بدون دیدگاه

دیدگاهتان را بنویسید لغو پاسخ

برای نوشتن دیدگاه باید وارد بشوید.

مشاورین هوش پیروزی

کلید واژه ها