طراحی و توسعه راه حل اینترنتی دوربین های هوشمند برای تشخیص رویدادهای پیچیده در تشخیص رفتار خطر COVID-19

چکیده

رویکردهای یادگیری عمیق در حال ظهور (DL) با محاسبات لبه، اتوماسیون استخراج اطلاعات غنی، مانند رویدادهای پیچیده از فیدهای دوربین را ممکن کرده است. به دلیل سرعت و دقت کم در تشخیص اشیا، برخی از اشیا از قلم افتاده و شناسایی نمی شوند. از آنجایی که اشیاء رویدادهای ساده را تشکیل می دهند، اشیاء از دست رفته منجر به از دست رفتن رویدادهای ساده می شود، بنابراین تعداد رویدادهای پیچیده شناسایی شده است. به عنوان هدف اصلی این مقاله، یک معماری پردازش ابری و لبه یکپارچه طراحی و توسعه داده شد تا رویدادهای ساده از دست رفته را کاهش دهد. برای دستیابی به این هدف، ما چندین دوربین هوشمند (یعنی دوربین‌هایی که به اینترنت متصل می‌شوند و با سیستم‌های کامپیوتری مانند واحد DL یکپارچه می‌شوند) به منظور شناسایی رویدادهای پیچیده از چند نما، مستقر کردیم.
داشتن رویدادهای ساده تر از چندین دوربین می تواند رویدادهای ساده از دست رفته را کاهش دهد و تعداد رویدادهای پیچیده شناسایی شده را افزایش دهد. برای ارزیابی دقت تشخیص رویداد پیچیده، از امتیاز F رفتار خطر در مورد رویدادهای انتشار COVID-19 در جریان‌های ویدیویی استفاده شد. نتایج تجربی نشان می‌دهد که این معماری 1.73 برابر دقت بالاتری در تشخیص رویداد نسبت به معماری مبتنی بر لبه که از یک دوربین ارائه می‌کند، ارائه می‌کند. متوسط ​​تأخیر تشخیص رویداد برای معماری یکپارچه ابر و لبه 1.85 برابر بیشتر از تنها یک دوربین بود. با این حال، این یافته با توجه به مطالعه موردی فعلی ناچیز بود. علاوه بر این، دقت معماری برای تطبیق رویدادهای پیچیده با روابط مکانی و زمانی بیشتر در مقایسه با سناریوی محاسبات لبه بهبود قابل توجهی را نشان داد. در نهایت، دقت تشخیص رویداد پیچیده به طور قابل توجهی به دقت تشخیص شی بستگی دارد. مدل‌های مبتنی بر رگرسیون، مانند شما فقط یک بار نگاه می‌کنید (YOLO)، توانستند دقت بهتری نسبت به مدل‌های مبتنی بر منطقه ارائه دهند.

کلید واژه ها:

اینترنت اشیا ؛ COVID-19 ؛ پخش ویدئو ؛ تشخیص رویداد پیچیده ؛ دوربین هوشمند ؛ پردازش لبه

1. مقدمه

گزارش نهایی کارگاه آموزشی بنیاد ملی علوم (NSF) در سال 2013 پیش‌بینی کرد که در آینده یک دوربین برای هر نفر وجود خواهد داشت. 1 ]]. دوربین ها همیشه به عنوان تجهیزات کم هزینه برای جمع آوری اطلاعات در مورد اشیاء و رویدادهای محیط مورد استفاده قرار گرفته اند. با این حال، نظارت و تجزیه و تحلیل وقایع و اشیاء در فید دوربین می‌تواند چالش برانگیز باشد و در بسیاری از موارد، رویدادهای ساده (یعنی رویدادهایی که شامل هیچ رویدادی نمی‌شوند) یا اشیا برای رسیدن به اهداف پروژه مفید نیستند. به عنوان مثال، رانندگی اتومبیل در سمت راست اتومبیل دیگر یک رویداد ساده است که نتایج معنی داری ایجاد نمی کند. با این حال، رویداد پیچیده رانندگی از سمت راست و سبقت گرفتن با سرعت 150 کیلومتر در ساعت یک اقدام رانندگی تهاجمی در نظر گرفته می شود. با ظهور اخیر ابزارهای پردازش تصویر و ویدئو، تشخیص رویدادهای پیچیده در فریم های ویدئویی به طور گسترده مورد مطالعه قرار گرفته است و در بسیاری از حوزه ها، از ناهنجاری [ 2 ]] تشخیص به پدیده و ردیابی رفتار [ 3 ]. تشخیص رویداد پیچیده فرآیند تشخیص اشیاء پیچیده بر اساس روابط مکانی و زمانی در جریان های ویدئویی است [ 4 ]. رویدادهای ساده به عنوان وقوع اشیا در جریان های ویدئویی [ 5 ] تعریف می شوند، در حالی که رویدادهای پیچیده ترکیبی از چندین رویداد ساده [ 6 ] هستند. تشخیص رویداد پیچیده در چندین برنامه کاربردی مانند حمل و نقل [ 7 ]، ترافیک [ 8 ]، کشاورزی [ 9 ]، نظارت بر سلامت [ 10 ] و تشخیص رفتار غیرعادی [ 11 ] به کار گرفته شده است.]. با توجه به کاربردهای فراوان آن، تشخیص رویداد پیچیده یک فرآیند مهم برای به دست آوردن اطلاعات مکانی-زمانی مفید از محیط است.
برخی از مسائل باید در رابطه با استفاده از قاب دوربین برای تشخیص رویدادهای پیچیده مورد توجه قرار گیرد. یکی از این مسائل حفظ حریم خصوصی افرادی است که چهره و هویت آنها در فید دوربین ها فاش می شود. اکثر تحقیقات در مورد تشخیص اشیا در فید دوربین راه حل های رمزنگاری را برای فریم های دوربین پیشنهاد می کنند و سرعت تشخیص اشیا را به طور قابل توجهی کاهش می دهند [ 12 ]. یک راه حل جایگزین استفاده از معماری مبتنی بر فناوری محاسبات لبه برای ارائه حریم خصوصی است [ 13]. مشکل دیگر در مورد تشخیص رویداد پیچیده این است که تشخیص خودکار الگوی رویداد در واحدهای فریم چالش برانگیز است، زیرا بسیاری از اشیاء و روابط آنها شناسایی نمی شوند. اکثر تحقیقات در مورد تشخیص رویدادهای پیچیده سعی در بهبود پرس و جو از محتوای ویدیویی برای افزایش سهولت بازیابی اطلاعات برای کاربران داشته است [ 14 ، 15 ، 16 ، 17 ، 18 ، 19 ]. همچنین مطالعات دیگری وجود داشت که بر روی تشخیص الگوی رویداد و تطبیق رویداد متمرکز بودند، که فرآیند تطبیق فریم‌های رویدادهای مشاهده‌شده با الگوهای رویداد پیچیده است [ 20 ، 21 ، 22 ]]. با این حال، بیشتر تحقیقات، فریم‌ها و اشیاء گمشده را برای تشخیص رویدادهای پیچیده در سناریوی پخش واقعی دوربین در نظر نگرفتند. مشکل اشیاء از دست رفته زمانی رخ می دهد که اشیا وجود داشته باشند اما توسط آشکارساز شی شناسایی نشوند. پدیده فریم گمشده ناشی از نرخ جریان پایین فریم با محاسبه لبه به دلیل تأخیر پردازش است. از دست دادن اشیاء شناسایی شده و ردیابی برای پردازش خودکار قاب دوربین واقعی مشکلاتی را برای تطبیق رویداد ایجاد می کند. این مسائل گاهی اوقات زمانی اتفاق می‌افتد که اجسام روی هم قرار می‌گیرند، یا زمانی که در موقعیتی قرار نمی‌گیرند که توسط آشکارساز شی قابل تشخیص باشند. برای مثال، با استفاده از سناریویی که در آن تشخیص می‌دهیم زمانی که فردی سرفه می‌کند و دستگیره در را لمس می‌کند، Camera1 می‌تواند عمل سرفه‌های شخصی را تشخیص دهد اما نمی‌تواند دستگیره در را تشخیص دهد. با این حال، Camera2 نمی تواند عمل سرفه را تشخیص دهد اما می تواند لمس درب را تشخیص دهد. بنابراین، نقص هایی که هر دو دوربین با آن مواجه هستند می تواند منجر به گم شدن اشیاء شناسایی شده و ردیابی شود. دلایل بالقوه دیگر برای گم شدن اشیا در فریم ها، دقت کم تشخیص اشیا و ناپیوستگی ردیابی شی در فریم های متوالی به دلیل سرعت پایین تشخیص اشیا و تأخیر پردازش فریم است. به منظور پرداختن به چنین مسائلی، علاوه بر ضرورت بهبود روش تشخیص رویداد پیچیده، انتخاب یک مدل تشخیص شی شبکه عصبی کانولوشن (CNN) که سریع و دقیق باشد نیز ضروری است. دلایل بالقوه دیگر برای گم شدن اشیا در فریم ها، دقت کم تشخیص اشیا و ناپیوستگی ردیابی شی در فریم های متوالی به دلیل سرعت پایین تشخیص اشیا و تأخیر پردازش فریم است. به منظور پرداختن به چنین مسائلی، علاوه بر ضرورت بهبود روش تشخیص رویداد پیچیده، انتخاب یک مدل تشخیص شی شبکه عصبی کانولوشن (CNN) که سریع و دقیق باشد نیز ضروری است. دلایل بالقوه دیگر برای گم شدن اشیا در فریم ها، دقت کم تشخیص اشیا و ناپیوستگی ردیابی شی در فریم های متوالی به دلیل سرعت پایین تشخیص اشیا و تأخیر پردازش فریم است. به منظور پرداختن به چنین مسائلی، علاوه بر ضرورت بهبود روش تشخیص رویداد پیچیده، انتخاب یک مدل تشخیص شی شبکه عصبی کانولوشن (CNN) که سریع و دقیق باشد نیز ضروری است.
یک راه حل بالقوه برای این مشکل جمع آوری داده ها از دوربین های مختلف است که به یک مکان اشاره می کنند. اینترنت اشیا (IoT) اندازه گیری های بلادرنگ را فراهم می کند و به طور خودکار اطلاعات را از منابع مختلف به چیزهای دیگر منتقل می کند. اخیراً، فناوری‌های IoT و پردازش ویدیو به منظور ارائه نظارت و تجزیه و تحلیل سیستم ویدیویی هوشمند [ 23 ] ادغام شدند. این منجر به سیستم‌های نظارت هوشمند کم‌هزینه و با دقت بالا برای سیستم‌های خانه هوشمند [ 24 ]، سیستم‌های مرزی امنیتی [ 25 ] و سیستم‌های اطلاعات ترافیکی هوشمند [ 26 ] شد.]. ادغام یادگیری عمیق (DL) و اینترنت اشیا برای اتوماسیون در تشخیص و نظارت بر اشیاء از جریان های ویدئویی برای شناسایی مجدد افراد با استفاده از دوربین های متعدد [ 27 ]، مدیریت بلایا [ 28 ]، و شناسایی افراد در سیستم های نظارت هوشمند استفاده شده است. [ 29]. این دوربین‌های هوشمند را قادر می‌سازد تا به‌طور خودکار اشیا را از جریان‌های دوربین مختلف شناسایی کرده و سپس آنها را در شبکه اینترنت دوربین هوشمند (IoSC) منتشر کنند. برای این مقاله، معماری طراحی و توسعه داده شد که هدف آن کاهش وقوع رویدادهای ساده از دست رفته و افزایش دقت تشخیص رویداد پیچیده از طریق استفاده از یادگیری عمیق، اینترنت اشیا، محاسبات لبه و فناوری‌های رایانش ابری بود. برای رسیدگی به مسئله حریم خصوصی، معماری باید شامل محاسبات لبه باشد. به منظور ارزیابی این معماری، برخی از اقدامات پیچیده را در نظر گرفتیم که در رابطه با شیوع COVID-19 در اتاق‌های داخل ساختمان خطرناک تلقی می‌شوند.
سهم اصلی این مقاله به شرح زیر است:
طراحی و توسعه یک معماری لبه و محاسبات ابری یکپارچه برای تشخیص رویدادهای پیچیده با استفاده از اینترنت قابل همکاری دوربین های هوشمند. این معماری انعطاف‌پذیر به ما امکان می‌دهد اشیاء را از دوربین‌های منفرد شناسایی کرده و آنها را در یک رویداد پیچیده در بخش محاسبات ابری ادغام کنیم.
برای پیاده سازی معماری یکپارچه محاسبات ابری و لبه IoSC برای شناسایی رفتارهای مخاطره آمیز انجام شده توسط افراد که ممکن است منجر به انتشار احتمالی COVID-19 شود. رفتارهای ریسک رویدادهای پیچیده در نظر گرفته می شوند و با استفاده از مدل معماری شناسایی می شوند و در زمان واقعی به شبکه ابری گزارش می شوند.
برای نشان دادن اینکه مدل تشخیص شی چقدر بر تعداد رویدادهای از دست رفته تأثیر می‌گذارد، مدل‌های تشخیص شی مبتنی بر منطقه و رگرسیون را برای رویدادهای ساده مقایسه کردیم.
بقیه این مقاله به شرح زیر سازماندهی شده است: بخش 2 کار مربوط به کار مرتبط با تشخیص رویداد پیچیده را بررسی می کند، در حالی که بخش 3 جزئیات معماری را توضیح می دهد. بخش 4 یک نمای کلی از معماری پیاده سازی شده ارائه می دهد و بخش 5 نتایج سیستم پیاده سازی شده را مورد بحث قرار می دهد. سپس بخش پایانی یافته‌های این مقاله را جمع‌بندی می‌کند و پیشنهادهایی برای تحقیقات آتی ارائه می‌کند.

2. پس زمینه

یکی از جالب‌ترین نمونه‌های تشخیص رویداد در دانشگاه، اعمال انسان و رفتار افراد است. استفاده از DL در نظارت تصویری برای تشخیص رفتار و تشخیص عمل توجه محققان را به خود جلب کرده است. تشخیص رفتار اغلب به عنوان طبقه بندی الگوهای رفتاری خاص انسان در جریان های ویدئویی تعریف می شود. اکثر مطالعات در این زمینه تلاش کرده اند تا حرکات را با استفاده از تحلیل جریان نوری استخراج کنند [ 30 ]. آنالیز جریان نوری برای ردیابی اجسام از طریق فریم های متوالی استفاده می شود. دسته تحقیقاتی دیگر برای تشخیص رفتار بر ساخت CNN نوآورانه برای استخراج ویژگی و طبقه بندی از فریم ها تمرکز دارد. ساخت یک CNN سه بعدی برای شناسایی اقدامات نمونه ای از این تلاش ها است [ 31 ,32 ، 33 ]. CNN بر اساس آموزش فضایی-زمانی برای تشخیص حرکت اشیا است. با این حال، نتایج این مدل‌ها تنها با استفاده از استریم ویدئوی استاندارد توانسته به نتایجی با دقت بالایی دست یابد. رویکرد دیگری که محققان استفاده کردند، در نظر گرفتن رفتارها به عنوان اشیا و تلاش برای شناسایی اشیاء در زمان واقعی در فریم‌های ویدئو بود [ 34 ]. کو و سیم یک چارچوب DL را برای تشخیص و تشخیص رفتارهای غیرعادی به منظور رسیدگی به موضوعی که توسط کار قبلی در مورد تبعیض رفتارهای انسانی در صحنه‌های جمعیت مطرح شده بود، پیشنهاد کردند [ 35 ]. با این حال، این مطالعات فقط رفتارهای انسانی را به عنوان رویدادهای بالقوه در نظر می گیرند و روابط بین رویدادها در زمان یا مکان را تشخیص نمی دهند.
تشخیص رویداد پیچیده‌تر از تشخیص رفتار چالش برانگیزتر است، زیرا رویدادها از نظر مکانی و زمانی پیچیده‌تر هستند [ 4 ]. برخی از تحقیقات از DL در جریان های ویدیویی برای تشخیص رویدادهای پیچیده با مرتبط کردن رویدادهای ساده استفاده کردند. بیشتر تحقیقات بر طبقه بندی ویدیوها بر اساس کلاس های خاص با استفاده از DL متمرکز بود. گان و همکاران یک مدل DL را برای استخراج فریم های کلیدی برای رویدادهای پیچیده از پیش تعریف شده توسعه داد [ 36 ]. شیونگ و همکاران از DL برای تشخیص فعل و انفعالات افراد و شی به عنوان رویداد استفاده کرد [ 37 ]. چندین مقاله مانند [ 38 ] و [ 39] طبقه بندی را با استفاده از اطلاعات DL و چند وجهی انجام داد. این مطالعات از ادغام مدل‌های DL چندرسانه‌ای به منظور ارائه تخمین بهتر رویدادها در دنیای واقعی استفاده کردند. مطالعات دیگر، مانند [ 40 ، 41 ، 42 ]، از یک آشکارساز مفهومی برای تشخیص رویدادها در جریان های ویدئویی استفاده کردند. با این حال، این مطالعات فقط مربوط به رویدادهای پیچیده ای است که در یک دوره کوتاه رخ می دهد.
جدیدترین نرم‌افزارها و چارچوب‌های تشخیص رویداد پیچیده موجود در بازار، مانند پردازش رویداد پیچیده Oracle (CEP)، WSO2 CEP، ApacheFlink CEP و StreamInsight، عمدتاً برای شناسایی رویدادهای پیچیده و روابط زمانی رویدادها طراحی شده‌اند و در عین حال از روابط فضایی غفلت می‌کنند. . به عنوان مثال، مدیونی و همکاران. وقایع را با شناسایی، ردیابی و استخراج مسیرهای جسم متحرک، تخمین سرعت و استنتاج رفتارهای جسم از فریم ها شناسایی می کند. این مطالعه دارای محدودیت‌های تفکیک مکانی و زمانی بود زیرا مبتنی بر تشخیص پیکسل بود. دوبا و همکاران القاء مدل رویداد رابطه‌ای (REMIND) را طراحی کرد که از یک تکنیک یادگیری رابطه‌ای استقرایی نظارت شده برای شناسایی رویدادها در یک مجموعه داده ویدیویی بزرگ استفاده می‌کند [ 43 ]. مطالعاتی مانند NoScope [44 ] و Focus [ 45 ] تلاش کردند تا پرس و جوی مکانی-زمانی را در جریان های ویدئویی بهینه کنند اما پرس و جوی بیانی برای بازیابی الگوهای مکانی-زمانی ارائه نکردند. از این رو، Yadav و Curry یک چارچوب رویداد پیچیده ویدیویی را پیشنهاد کردند که الگوهای مکانی-زمانی را در جریان‌های ویدئویی شناسایی می‌کند [ 20 ]]. علاوه بر این، آنها یک زبان پرس و جو پیشنهاد کردند که رویدادهای پیچیده را از روابط مکانی و زمانی بین اشیا پردازش می کرد. با این حال، هیچ یک از تحقیقات فوق بر روی روابط مکانی-زمانی از دست رفته در یک سناریوی واقعی که در آن تشخیص اشیا اشیاء را در جریان های ویدئویی از دست می دهد، تمرکز نکرد. علاوه بر این، همه آنها آشکارسازهای رویداد پیچیده تک منبعی را برای جریان‌های ویدیویی آفلاین در زمانی که همه فریم‌ها در دسترس هستند پیشنهاد کردند. برای این مقاله، ما یک معماری لبه و محاسبات ابری یکپارچه را برای پردازش رویدادهای پیچیده از چندین دوربین به منظور حل مشکل تشخیص اشیاء گمشده طراحی و توسعه دادیم. تحقیقات دیگر، مانند EdgeCEP [ 46]، از محاسبات ابری و لبه‌ای برای تشخیص رویدادهای پیچیده استفاده می‌کند، اما هیچ راه‌حلی برای تشخیص رویداد پیچیده ویدیویی ارائه نمی‌کند، زمانی که رویدادها از منابع مختلف بودند.

3. روش تشخیص رویداد پیچیده

هدف اصلی این مقاله توضیح جزئیات و روابط معماری لبه یکپارچه و محاسبات ابری است. شکل 1معماری را نشان می دهد که به حسگر، محاسبات لبه و رایانش ابری تقسیم می شد. بخش محاسبات لبه اشیاء را شناسایی و ردیابی می کند، رویدادهای ساده و پیچیده را شناسایی می کند و با استفاده از بخش رایانش ابری آنها را منتشر می کند. فیدهای دوربین ابتدا یکی پس از دیگری خوانده می شوند. سپس، بخش محاسبات لبه معماری از الگوریتم های تشخیص شی DL برای شناسایی اشیایی که در مدل رویداد پیچیده گنجانده شده اند استفاده می کند. این مرحله منجر به بردار مختصات جعبه محدودکننده شی شناسایی شده، نام کلاس ها و امتیازات اطمینان می شود. مرحله بعدی تجزیه و تحلیل فریم های متوالی و ردیابی، شناسایی و برچسب گذاری هر شی شناسایی شده است. هر شی یک شناسه جهانی در تمام فریم های بردار شی شناسایی شده دارد. بردار تشخیص شی و بردار ردیابی شی با استفاده از محاسبات لبه به یک فرآیند تطبیق رویداد ارسال می شود. سپس روابط فضایی با استفاده از اطلاعات بردار شی شناسایی شده استخراج می شوند. علاوه بر این، بردار شی ردیابی شده برای شناسایی روابط زمانی بین اشیاء در فریم های متوالی مستقر می شود. برای تطبیق روابط مکانی – زمانی استخراج شده اشیاء با الگوهای رویداد موجود، یک پرس و جو به پایگاه داده رویداد edge ارسال می شود تا رویدادهای پیچیده مشابه را پیدا کند. در نهایت، رویداد شناسایی شده فرمت شده و به عنوان اشیاء شناسایی شده به ابر ارسال می شود. محاسبات لبه تنها جزء معماری است که می تواند به فریم های ویدئویی دسترسی داشته باشد. این کامپوننت اشیاء را شناسایی می کند و فقط جعبه های محدود کننده شی، کلاس و شناسه ردیابی را به اجزای ابری برمی گرداند. بنابراین، اشیاء و عکس‌های افراد در هیچ کجا توزیع و/یا ذخیره نمی‌شوند. بنابراین، این امر حریم خصوصی افراد و اشیاء را در جریان های ویدئویی تضمین می کند. بردار شی ردیابی شده برای شناسایی روابط زمانی بین اشیاء در فریم های متوالی مستقر می شود. برای تطبیق روابط مکانی – زمانی استخراج شده اشیاء با الگوهای رویداد موجود، یک پرس و جو به پایگاه داده رویداد edge ارسال می شود تا رویدادهای پیچیده مشابه را پیدا کند. در نهایت، رویداد شناسایی شده فرمت شده و به عنوان اشیاء شناسایی شده به ابر ارسال می شود. محاسبات لبه تنها جزء معماری است که می تواند به فریم های ویدئویی دسترسی داشته باشد. این کامپوننت اشیاء را شناسایی می کند و فقط جعبه های محدود کننده شی، کلاس و شناسه ردیابی را به اجزای ابری برمی گرداند. بنابراین، اشیاء و عکس‌های افراد در هیچ کجا توزیع و/یا ذخیره نمی‌شوند. بنابراین، این امر حریم خصوصی افراد و اشیاء را در جریان های ویدئویی تضمین می کند. بردار شی ردیابی شده برای شناسایی روابط زمانی بین اشیاء در فریم های متوالی مستقر می شود. برای تطبیق روابط مکانی – زمانی استخراج شده اشیاء با الگوهای رویداد موجود، یک پرس و جو به پایگاه داده رویداد edge ارسال می شود تا رویدادهای پیچیده مشابه را پیدا کند. در نهایت، رویداد شناسایی شده فرمت شده و به عنوان اشیاء شناسایی شده به ابر ارسال می شود. محاسبات لبه تنها جزء معماری است که می تواند به فریم های ویدئویی دسترسی داشته باشد. این کامپوننت اشیاء را شناسایی می کند و فقط جعبه های محدود کننده شی، کلاس و شناسه ردیابی را به اجزای ابری برمی گرداند. بنابراین، اشیاء و عکس‌های افراد در هیچ کجا توزیع و/یا ذخیره نمی‌شوند. بنابراین، این امر حریم خصوصی افراد و اشیاء را در جریان های ویدئویی تضمین می کند. برای تطبیق روابط مکانی – زمانی استخراج شده اشیاء با الگوهای رویداد موجود، یک پرس و جو به پایگاه داده رویداد edge ارسال می شود تا رویدادهای پیچیده مشابه را پیدا کند. در نهایت، رویداد شناسایی شده فرمت شده و به عنوان اشیاء شناسایی شده به ابر ارسال می شود. محاسبات لبه تنها جزء معماری است که می تواند به فریم های ویدئویی دسترسی داشته باشد. این کامپوننت اشیاء را شناسایی می کند و فقط جعبه های محدود کننده شی، کلاس و شناسه ردیابی را به اجزای ابری برمی گرداند. بنابراین، اشیاء و عکس‌های افراد در هیچ کجا توزیع و/یا ذخیره نمی‌شوند. بنابراین، این امر حریم خصوصی افراد و اشیاء را در جریان های ویدئویی تضمین می کند. برای تطبیق روابط مکانی – زمانی استخراج شده اشیاء با الگوهای رویداد موجود، یک پرس و جو به پایگاه داده رویداد edge ارسال می شود تا رویدادهای پیچیده مشابه را پیدا کند. در نهایت، رویداد شناسایی شده فرمت شده و به عنوان اشیاء شناسایی شده به ابر ارسال می شود. محاسبات لبه تنها جزء معماری است که می تواند به فریم های ویدئویی دسترسی داشته باشد. این کامپوننت اشیاء را شناسایی می کند و فقط جعبه های محدود کننده شی، کلاس و شناسه ردیابی را به اجزای ابری برمی گرداند. بنابراین، اشیاء و عکس‌های افراد در هیچ کجا توزیع و/یا ذخیره نمی‌شوند. بنابراین، این امر حریم خصوصی افراد و اشیاء را در جریان های ویدئویی تضمین می کند. محاسبات لبه تنها جزء معماری است که می تواند به فریم های ویدئویی دسترسی داشته باشد. این کامپوننت اشیاء را شناسایی می کند و فقط جعبه های محدود کننده شی، کلاس و شناسه ردیابی را به اجزای ابری برمی گرداند. بنابراین، اشیاء و عکس‌های افراد در هیچ کجا توزیع و/یا ذخیره نمی‌شوند. بنابراین، این امر حریم خصوصی افراد و اشیاء را در جریان های ویدئویی تضمین می کند. محاسبات لبه تنها جزء معماری است که می تواند به فریم های ویدئویی دسترسی داشته باشد. این کامپوننت اشیاء را شناسایی می کند و فقط جعبه های محدود کننده شی، کلاس و شناسه ردیابی را به اجزای ابری برمی گرداند. بنابراین، اشیاء و عکس‌های افراد در هیچ کجا توزیع و/یا ذخیره نمی‌شوند. بنابراین، این امر حریم خصوصی افراد و اشیاء را در جریان های ویدئویی تضمین می کند.
به طور خاص، بخش محاسبات ابری مسئول تشخیص رویدادهای پیچیده ای است که هنوز به دلیل گم شدن اشیاء در فریم ها شناسایی نشده اند. این بدان معنی است که اگر قسمت محاسبات لبه نتواند رویدادهای پیچیده را از یک دوربین تشخیص دهد، بخش محاسبات ابری با شناسایی برخی از رویدادهای پیچیده گم شده از دوربین های مختلف، این امر را جبران می کند. بنابراین، سایر نتایج تشخیص دوربین، از جمله زمان و بردار تشخیص، برای یافتن روابط مکانی و زمانی و در نهایت شناسایی رویدادهای پیچیده مورد نیاز است. در مرحله اول، بردارهای شی شناسایی شده و بردارهای شی ردیابی شده هم به سرویس پردازش تطبیق رویداد ابری و هم به پایگاه داده ابر ارسال می شوند. این سرویس به پایگاه داده رویداد ابری متصل است، که شبیه به پایگاه داده رویداد لبه است و شامل الگوهای فضایی و زمانی رویداد است. پس از به دست آوردن بردار تشخیص و ردیابی از محاسبات لبه، سرویس تطبیق ابری پرس و جوهایی را به پایگاه داده ابری ارسال می کند تا بردارهای تشخیص و ردیابی قبلاً استفاده شده را جستجو کند. سپس نتایج مربوط به رویدادهای منطبق به پایگاه داده ابری ارسال می شود.
در زیر بخش های زیر جزئیات بیشتری در مورد تشخیص و ردیابی اشیا، تطبیق رویداد با محاسبات لبه و تطبیق رویداد در ابر ارائه می شود که مهمترین واحدهای این معماری هستند.

3.1. تشخیص و ردیابی شی

رویدادهای ساده در هر فریم تولید می شوند و تشخیص اشیا به عنوان اولین گام در استخراج رویدادها از فریم های ویدئویی استفاده می شود. معماری طراحی شده از الگوریتم های DL برای خودکارسازی تشخیص اشیا از جریان های ویدئویی استفاده می کند. شبکه های عصبی عمیق (DNN) یک مدل معماری عمیق برای یادگیری اشیاء پیچیده با استفاده از مدل های مبتنی بر CNN ارائه می دهند [ 3 ]. CNN مبتنی بر منطقه و شما فقط یک بار نگاه می کنید (YOLO) (مدل مبتنی بر رگرسیون) نمونه هایی از این مدل ها هستند. YOLO تصویر را به شبکه‌های کوچک تقسیم می‌کند و اشیاء را در هر شبکه پیش‌بینی می‌کند قبل از اینکه به هر شی یک امتیاز اطمینان اختصاص دهد. YOLO قادر است اشیاء را سریعتر از مدل های CNN (R-CNN) مبتنی بر منطقه ای تشخیص دهد [ 47 ]. با این حال، دقت کمتری را به خصوص در مورد اجسام کوچک ارائه می دهد [ 48]. برای مدل‌های R-CNN، مناطق پیشنهادی استخراج می‌شوند، ویژگی‌های CNN برای هر منطقه پس از بسته‌بندی مناطق محاسبه می‌شوند و سپس مناطق طبقه‌بندی می‌شوند [ 47 ]. فرآیند تهیه و ساخت یک مدل تشخیص شی مشابه است. در مرحله اول، تصاویر بر اساس قالب مورد نیاز مدل در دو مجموعه داده مورد استفاده برای آموزش و آزمایش برچسب گذاری می شوند. سپس با استفاده از آموزش انتقال، لایه‌های کلی از یک مدل از پیش آموزش‌دیده گرفته شده و تنها لایه‌های آخر تغییر می‌کنند. این بر محدودیت های راه حل های نیمه نظارت شده و همچنین مشکلات کمیاب برای مجموعه داده غلبه می کند [ 49]. خروجی این فرآیند یک مدل تشخیص شی است. اطلاعات اضافی در مورد دقت یا فراخوانی مدل بر اساس مجموعه داده آزمایشی نیز گنجانده شده است. مدل خروجی به عنوان یک پیش بینی برای تشخیص بلادرنگ مستقر شده است.

ردیابی اشیا فرآیند یافتن اشیاء مشابه در فریم های ویدئویی و شناسایی آنها است. این یک بخش اساسی از تشخیص رویداد پیچیده است و اشیاء را در فریم های متوالی شناسایی می کند تا امکان تشخیص روابط زمانی بین رویدادها در فریم ها را فراهم کند. روش های مختلفی برای ردیابی اشیا در فریم های ویدئویی وجود دارد. پیشرفت‌ها در تشخیص اشیا، ردیابی با تشخیص را به یکی از محبوب‌ترین روش‌های ردیابی تبدیل کرده است. ردیابی عمیق آنلاین و بی‌درنگ (DeepSORT) یکی از الگوریتم‌هایی است که در ردیابی خودرو [ 50 ]، ردیابی عابر پیاده [ 51 ]، ردیابی توپ [ 52 ] استفاده می‌شود.] و غیره الگوریتم فقط فریم های قبلی و فعلی را در نظر می گیرد تا یک شناسه به شی شناسایی شده اختصاص دهد. لازم نیست هر بار کل ویدیو را پردازش کند. هدف به حداقل رساندن تابع هزینه زیر است [ 53 ]:

سیمنj=λد(1)(من،j)+(1-λ)د(2)(من،j)

جایی که (1) فاصله فضایی بین جعبه مرزی پیش‌بینی‌شده از فیلتر کالمن (KF) و جعبه مرزی شناخته شده قبلی برای جسم است. فاصله بصری (2) نشان‌دهنده کوچک‌ترین فاصله کسینوس بین جعبه‌های مرزی اشیاء همسان در فریم‌های متوالی است. i و j دو شی را در فریم های مختلف نشان می دهند. λ تأثیر فاصله ها را در فرآیند ردیابی تعیین می کند.

3.2. تطبیق رویداد با Edge

تطبیق رویداد فرآیند تطبیق مدل رویداد ثبت شده در پایگاه داده رویداد با الگوی مکانی-زمانی در ویدیو است. کل فرآیند تطبیق رویداد برای این بخش از معماری با محاسبات لبه انجام می شود. از آنجایی که همه فریم‌ها از یک منبع منفرد می‌آیند، سیستم مختصات و زاویه دوربین در طول فرآیند پیچیده تشخیص رویداد یکسان است. این فرآیند شامل تطبیق شی، تطابق مکانی و تطبیق زمانی است [ 20 ]. شبه کد 1 در پیوست A مراحل الگوریتم تطبیق رویداد پیشنهادی ما را نشان می دهد.
نمونه پرس و جوهای مکانی و زمانی در جدول 1 نشان داده شده است که نمایش های مبتنی بر جهت، توپولوژی و هندسی اشیاء را به عنوان روابط مکانی نشان می دهد. رابطه زمانی توالی (SEQ) ترتیب رویدادها را تعیین می کند. اگر دو رابطه فضایی در یک قاب رخ دهد، آنگاه اینها روابط زمانی برابر (EQ) هستند. پیوند (CONJ) و جدایی (DISJ) به عملگرهای منطقی AND و OR اشاره دارد. زبان پرس و جو رویداد ویدیویی (VEQL) [ 19] برای پرس و جو از اشیا در معماری استفاده شد. برای مثال اول، رابطه فضایی لمس در، تقاطع عقربه با دستگیره در را در آستانه زمانی 10 فریم با حداقل میانگین اطمینان 0.5 برای تشخیص شی در نظر می گیرد. رابطه زمانی دوم، توالی روابط فضایی سرفه را قبل از رابطه فضایی لمس در در آستانه زمانی 3600 فریم با حداقل میانگین اطمینان 0.5 برای تشخیص شی در نظر می‌گیرد.
برای شبه کد 1، تابع capureTime زمانی را به دست می آورد که فریم گرفته می شود. تابع آشکارساز شی همه بردارهای شی شناسایی را در قاب برمی گرداند و در صورت یافتن شی از آن فریم رد می شود. در غیر این صورت، رویدادها را از آرایه الگوهای رویداد اجرا می کند. آرایه eventPatterns از پایگاه داده رویداد edge به دست می آید. تطبیق رویداد شی سپس آرایه را اجرا می کند تا رویدادهای شی را به قاب موجود در بردار رویداد برگرداند. اگر هر یک از اشیاء شناسایی شده با گره های شی از رویداد مطابقت داشته باشد، تطبیق رویداد فضایی را اجرا می کند. هر رابطه فضایی شامل دو شی است. از این رو، تابع find برای یافتن اشیاء شناسایی شده در قاب که با رابطه فضایی sr درگیر هستند اجرا می شود. اجرای تابع رابطه فضایی بین دو شی پیدا شده (یعنی. e.، obj1 و obj2)، سپس بررسی می کند که آیا رابطه درست است یا خیر. اگر چنین است، spatial_rel در قاب به عنوان روابط فضایی شناسایی شده ذخیره می شود. به طور مشابه، temporalRelation بررسی می کند که آیا رابطه زمانی معتبر است یا خیر. در نهایت، روابط ریشه بین رویدادهای زمانی در آخرین لایه مطابقت داده می شود. اگر هر یک از مقادیر rootRelationship نادرست باشد، فریم را رد می کند و فریم بعدی را بررسی می کند. خروجی الگوریتم رویداد پیچیده گزارش شده و بردارهای رابطه زمانی درگیر است. اگر هر یک از مقادیر rootRelationship نادرست باشد، فریم را رد می کند و فریم بعدی را بررسی می کند. خروجی الگوریتم رویداد پیچیده گزارش شده و بردارهای رابطه زمانی درگیر است. اگر هر یک از مقادیر rootRelationship نادرست باشد، فریم را رد می کند و فریم بعدی را بررسی می کند. خروجی الگوریتم رویداد پیچیده گزارش شده و بردارهای رابطه زمانی درگیر است.

3.3. تطبیق رویداد با استفاده از رایانش ابری

تطبیق رویداد در ابر تقریباً همیشه از دستورالعمل‌های تطبیق رویداد از محاسبات لبه پیروی می‌کند. پرس و جوهای مکانی-زمانی شبیه به تطبیق رویداد با لبه هستند. با این حال، از آنجایی که بردارهای شی از دوربین‌های مختلف با دیدگاه‌های متفاوت می‌آیند، گام‌های بیشتری باید برداشته شود. تشخیص و ردیابی شیء الزامات اجرای تطبیق رویداد است. اگر سرویس‌های رایانش ابری مسئول عملیات هستند، فریم‌های خام باید برای تشخیص و ردیابی شی به ابر ارسال شوند. این کار عملکرد کل سیستم را کاهش می دهد و بار ترافیک شبکه را افزایش می دهد. برای جلوگیری از این امر، باید راه حلی پیدا کنیم که روابط مکانی-زمانی را بر اساس بردار شی شناسایی شده تشخیص دهد.
جعبه های مرزی برای اشیاء شناسایی شده از سیستم های مختصات تصویر محلی مختلف می آیند. یک سیستم مختصات منسجم برای همه جعبه‌های مرزی گزارش‌شده به منظور یافتن روابط فضایی بین اشیاء مورد نیاز است. برای این مقاله، ما از تبدیل تصویری برای تبدیل سیستم مختصات تصویر به یک سیستم مختصات جغرافیایی استفاده می‌کنیم [ 53 ، 54 ، 55 ، 56 .]. تبدیل مختصات به IoSC اجازه می دهد تا اشیاء شناسایی شده را از دوربین های مختلف بر روی یک سیستم مختصات مشترک پخش کند. اگر اشیاء پیش بینی شده از یک کلاس باشند، IoSC تقاطع این اشیاء پیش بینی شده را بررسی می کند. اگر دو شی با هم قطع شوند، IoSC آنها را مطابقت می دهد و آنها را به عنوان یک شی شناسایی می کند. اگر بیش از دو شی پیدا شود، IoSC دو شی با بیشترین تلاقی و مجاورت را برای بررسی انتخاب می کند. ما در تحقیق خود از تبدیل همومورفیک (2 بعدی تصویری) استفاده کردیم. برای اشیاء قابل ردیابی مانند افراد، IoSC تمام اشیاء را به صفحه زمین نمایش می دهد. از آنجایی که باید همه نقاط را روی یک صفحه مشترک قرار دهیم، وسط لبه پایین جعبه‌های مرزی اشیاء به زمین کشیده می‌شود. سپس، مختصات شی پیش بینی شده به منظور شناسایی شی ردیابی شده از Camera2 به سیستم مختصات دوربین دیگر تبدیل می شود. برای تطبیق با اشیاء دیگر و یافتن اشیاء یکسان گرفته شده توسط دو دوربین، آنها را بر روی صفحه دیواری (یعنی صفحه ای که عمود بر سطح زمین و در محدوده دید دوربین است) پرتاب می کنند. بنابراین، داشتن حداقل چهار نقطه کنترل برای هر دوربین، تمام مختصات جعبه مرزی را به سیستم مختصات مشترک تبدیل می کند. این سرویس رایانش ابری را قادر می‌سازد تا اشیا را از دوربین‌های مختلف واقع در یک سیستم مختصات منحصر به فرد ردیابی کند، بنابراین استخراج روابط مکانی-زمانی را ممکن می‌سازد. e.، صفحه ای که عمود بر سطح زمین و در محدوده دید دوربین قرار دارد). بنابراین، داشتن حداقل چهار نقطه کنترل برای هر دوربین، تمام مختصات جعبه مرزی را به سیستم مختصات مشترک تبدیل می کند. این سرویس رایانش ابری را قادر می‌سازد تا اشیا را از دوربین‌های مختلف واقع در یک سیستم مختصات منحصر به فرد ردیابی کند، بنابراین استخراج روابط مکانی-زمانی را ممکن می‌سازد. e.، صفحه ای که عمود بر سطح زمین و در محدوده دید دوربین قرار دارد). بنابراین، داشتن حداقل چهار نقطه کنترل برای هر دوربین، تمام مختصات جعبه مرزی را به سیستم مختصات مشترک تبدیل می کند. این سرویس رایانش ابری را قادر می‌سازد تا اشیا را از دوربین‌های مختلف واقع در یک سیستم مختصات منحصر به فرد ردیابی کند، بنابراین استخراج روابط مکانی-زمانی را ممکن می‌سازد.
شکل 2یک نمای کلی از جریان تطبیق رویداد در ابر ارائه می دهد. پس از خواندن یک فریم از Camera1، اشیاء شناسایی شده به پایگاه داده ابری و سرویس رایانش ابری ارسال می شوند. ابتدا، دوربین‌های مربوطه (یعنی دوربین‌هایی که دارای صحنه‌های پوشاننده هستند) برای به دست آوردن پارامترهای هشتگانه تبدیل، پرس و جو می‌شوند. سپس، تبدیل تصویری به منظور تبدیل تمام بردارهای شی شناسایی به سیستم مختصات Camera2 اجرا می شود. مقادیر بردار شناسایی شده بر اساس کلاس شی شناسایی شده و زمان پدیده (یعنی زمان خواندن فریم) پرس و جو می شود. سپس روابط مکانی و زمانی با استفاده از بردار ردیابی برای شی شناسایی شده فعلی و پرس و جوها از پایگاه داده ابر استخراج می شوند. در نهایت، ماژول تطبیق رویداد، رویدادها را شناسایی کرده و به پایگاه داده ابری گزارش می دهد. یک ویدیو نمونه درمواد تکمیلی توضیح می دهد که چگونه دو دوربین با یک ناحیه دید مشترک می توانند یکدیگر را در هنگام استفاده از روش محاسبات ابری تکمیل کنند.

4. اجرا

COVID-19 یک بیماری جهانی است که بیش از 185 کشور را تحت تأثیر قرار داده است و مشاغل، زندگی اجتماعی و اقتصاد را تحت تأثیر قرار داده است. ردیابی رفتارهای پرخطر نشان داده شده توسط افراد در رابطه با انتشار ویروس می تواند به جلوگیری از افزایش تعداد موارد COVID-19 کمک کند. تحقیقات اخیر از فناوری فرکانس رادیویی برای ثبت حرکت انسان و تشخیص سرفه در یک اتاق استفاده کرد [ 57 ]. این رویکرد نیازمند دستگاه‌ها و راه‌اندازی زیرساخت‌های ویژه است. در مطالعه اخیر خود، ما در عوض سعی کردیم از دستگاه‌های دوربین ارزان قیمت برای تشخیص رفتارهای خطرناک ساده مانند سرفه و تراکم جمعیت بالا در اتاق‌ها استفاده کنیم تا تأثیر رفتارهای پرخطر بر گسترش COVID-19 را تخمین بزنیم [ 58 ].]. با این حال، در بسیاری از موارد، این رفتارها پیچیده است و می تواند شامل چندین اقدام مرتبط باشد که در یک بازه زمانی مشخص انجام می شود. بنابراین، یک راه حل ممکن مدلسازی این رفتارها با استفاده از رویدادهای پیچیده خواهد بود. به منظور تشکیل این رویدادها از رویدادهای ساده، اشیاء به طور خودکار با استفاده از دوربین های هوشمند و تکنیک های DL شناسایی و ردیابی می شوند. سپس رویدادهای پیچیده با استفاده از یک فرآیند تشخیص رویداد پیچیده شناسایی می شوند. برای این مقاله، ما از تشخیص اقدام خطر COVID-19 به عنوان یک مورد استفاده به منظور پیاده‌سازی و ارزیابی معماری استفاده کردیم.

4.1. معماری اجرا شده

شکل 3معماری دقیقی را نشان می دهد که ما برای ارزیابی روش پیشنهادی خود توسعه داده ایم. برای محاسبات لبه، ما از برد Jetson Xavier NX با یک پردازنده گرافیکی با 384 هسته NVIDIA CUDA، 48 هسته Tensor و یک CPU 6 هسته ای NVIDIA Carmel ARMx64 استفاده کردیم. یک دوربین USB به برد متصل است تا جریان های ویدئویی را ضبط کند. Jetson Xavier فریم‌ها را می‌خواند، اشیاء هر کدام را شناسایی می‌کند و سپس اطلاعات را به‌عنوان پیام انتقال تله‌متری در صف پیام (MQTT) به هسته اینترنت اشیا (AWS) وب سرویس آمازون می‌فرستد. سه موضوع برای پیام وجود دارد. یکی برای راه اندازی رابط برنامه نویسی کاربردی SensorThings (STA) است که تابع لامبدا را قالب بندی می کند، دیگری برای فعال کردن تابع لامبدا تطبیق رویداد، و آخرین مورد برای به روز رسانی پایگاه داده dynamoDB. پایگاه داده dynamoDB شامل یک جدول الگوهای رویداد در قالب نشانه گذاری شی جاوا اسکریپت (JSON) و یک بردار رویداد شناسایی شده است. JSON نمایش داده ها را ساده می کند [59 ، داده های سلسله مراتبی را برای ذخیره سازی مناسب می کند [ 60 ]، و نه تنها برای پایگاه های داده SQL (NoSQL) و زبان های برنامه نویسی مختلف [ 61 ] پذیرفته می شود. پس از اینکه تطبیق رویداد راه اندازی شد، هم الگوهای رویداد ثبت شده را از dynamoDB و هم اشیاء شناسایی شده ثبت شده را از نقاط پایانی STA انتخاب می کند. سپس، تابع Lambda تطبیق رویداد ابری را برای مطابقت با رویدادها اجرا می کند. هنگامی که یک رویداد جدید به هسته IoT گزارش می شود، قانون به روز رسانی dynamoDB برای به روز رسانی جدول بردار رویداد فعال می شود. در همان زمان، Jetson Xavier بردارهای شی شناسایی شده را نیز به IoTCore ارسال می کند. به محض انتشار پیام در IoTCore، تابع Lambda قالب‌بندی STA، پیام‌های MQTT را به فرمت STA تبدیل می‌کند و آنها را به نقاط پایانی STA ارسال می‌کند.

4.2. مدل STA

معماری توسعه یافته شامل دوربین های چند متصل است. بنابراین، یک مدل داده جامع برای مدل‌سازی دستگاه‌ها و روابط اجزای داده ضروری است. STA یک استاندارد باز مبتنی بر وب است که دستگاه ها، داده ها و برنامه ها را به هم متصل می کند. این یک استاندارد کنسرسیوم فضایی باز (OGC) با قابلیت جغرافیایی است که از استانداردهای MQTT و HTTP [ 62 ] پشتیبانی می کند. STA برای پیاده سازی IoSC به منظور ایجاد قابلیت همکاری بین دوربین های هوشمند استفاده شد. شکل 4 مدل داده STA را نشان می دهد. جعبه های سیاه موجودیت های STA هستند که توسط OGC [ 63 ] تعریف شده اند]، و جعبه های آبی نمونه هایی هستند که در مدل خود استفاده کردیم. برای مدل داده پیشنهادی ما، هر دوربین به عنوان یک حسگر عمل می کند. دوربین‌های مرتبط و مقادیر پارامتر تبدیل تصویری مربوطه توسط فراداده این موجودیت نسبت داده می‌شوند. دوربین های مربوطه یک چیز را تشکیل می دهند. جریان های داده، انواع داده های شی شناسایی شده بر اساس کلاس شی هستند. به عنوان مثال، یک جریان داده برای شخص و یک جریان داده دیگر برای درب وجود دارد. مشاهدات شامل بردار جعبه های محدود، نام کلاس ها، شناسه ردیابی شی شناسایی شده و امتیاز اطمینان است. در نهایت، FeatureofInterest منطقه ای را که دوربین ها ضبط می کنند، تعیین می کند. با استفاده از این ساختار، ما می توانیم از پرس و جوهای رابطه ای برای به دست آوردن تبدیل دوربین و مشاهدات اشیاء شناسایی شده استفاده کنیم. همه مکان‌های دوربین و FeatureofInterests در قالب GeoJSON ذخیره می‌شوند.64 ]. این یک قالب داده ساده و سبک است که برای کار با بسیاری از کتابخانه‌ها و خدمات نقشه، مانند برگه‌ها [ 65 ]، OpenLayers، MapBox و Cesium سازگار است. همچنین از سیستم ها و ویژگی های مختصات جغرافیایی مختلف پشتیبانی می کند [ 66 ].
برای این معماری از دو نوع جداول پایگاه داده استفاده شده است. اولین مورد شامل الگوهای رویداد از پیش تعریف شده و همچنین روابط مکانی و زمانی بین اشیاء در فریم های مختلف در پایگاه داده الگوی رویداد است. به طور کلی، هر رکورد از این جدول درختی از رویدادها و اشیاء مرتبط در فریم های مختلف است. نوع دوم جدول پایگاه داده، جدول پایگاه داده ابری است. جداول پایگاه داده ابری شامل دوربین‌ها، جعبه‌های بردار شی شناسایی شده، بردارهای شی ردیابی شده و رویدادهای منطبق است. شکل 5 یک مدل منطقی از یک پایگاه داده ابری شماتیک ساده شده است که جداول مختلف مورد نیاز را برای محاسبات ابری و ذخیره رویدادها نشان می دهد.
مدل پایگاه داده ابری پیشنهادی دارای یک جدول فراداده حاوی اطلاعات دوربین برای تطبیق رویداد است. هر شی شناسایی شده در جدول برداری تشخیص دارای شناسه دوربین است که اشیاء را به دوربین در جدول فراداده دوربین متصل می کند. شناسه‌های دوربین مربوطه تعیین می‌کنند که آیا دوربین‌ها به همان ناحیه اشاره می‌کنند (یا اینکه نواحی همپوشانی دارند). این برای تطبیق رویداد داده های دوربین های مختلف در ابر استفاده می شود. آرایه نقاط کنترل برای تبدیل مختصات فریم بین دوربین ها استفاده می شود، زیرا مکان های اشیا برای دوربین های مختلف با دیدگاه های متفاوت یکسان نیست. بردار تشخیص شامل بردارهای ردیابی و شناسایی شده است. اگر یک شی در تصویر شناسایی نشده باشد، TrackID به عنوان NULL تنظیم می شود. این شناسه شناسه منحصر به فرد اشیاء شناسایی شده است. امتیاز اطمینان، احتمال ایجاد شده برای تشخیص صحیح شی توسط مدل تشخیص شی است. جدول رویداد منطبق، رویدادهای شناسایی شده را با بازه زمانی گزارش شده، شناسه اشیاء درگیر، و یک ویژگی Boolean ذخیره می کند که مشخص می کند آیا رویدادها در محاسبات لبه شناسایی می شوند یا خیر.

4.3. مدل تشخیص داده و شی

در مجموع 4784 تصویر از منابع مختلف برای آموزش مدل تشخیص شی DL استفاده شد. از این تصاویر برای آموزش مدل DL برای سرفه بازو، سرفه دستی، شخص، دست، در و دستگیره در استفاده شد. برای آموزش مدل DL برای Arm_Coughing و Hand_Coughing، تصاویر عمومی را از گوگل بازیابی کردیم و به صورت دستی آنها را برچسب گذاری کردیم. داده های برچسب گذاری شده توسط افراد از مجموعه داده CoCo [ 67 ] به دست آمد. مجموعه داده دستی [ 68 ] توسط گروه هندسه تصویری دانشگاه آکسفورد تهیه شد. مجموعه داده دستگیره در و در از MCIndoor20000 [ 69 ] و Open Images Dataset V4 [ 70 ] آمده است. به منظور آموزش مدل تشخیص، دو مورد از محبوب‌ترین تکنیک‌های تشخیص شی CNN، Mask-RCNN [ 71 ]] (مبتنی بر منطقه) و Yolov3 [ 47 ] (روش مبتنی بر رگرسیون نمایندگی)، به کار گرفته شدند. برای هر دو مدل، مدل از پیش آموزش دیده CoCo برای یادگیری انتقال استفاده شد.
شکل 6نمودار مربوط به رویدادهای پیچیده رفتارهای مخاطره آمیز را برای روابط مکانی/زمانی و شی نشان می دهد. این رویداد زمانی رخ می دهد که فرد در بازوها یا دستان خود سرفه می کند و سپس دستگیره در را حرکت داده و لمس می کند. از آنجایی که سرفه در بازو در مقابل دست ارزش‌های خطر متفاوتی ایجاد می‌کند، می‌توانیم آنها را به عنوان رویدادهای پیچیده متفاوت در نظر بگیریم، اگرچه ساختار کلی رویداد مشابه است. پایین ترین سطح نمودار اشیایی را نشان می دهد که توسط یک مدل تشخیص شی CNN شناسایی می شوند. کادرهای سطح دوم روابط فضایی بین اشیاء را نشان می دهند. جعبه های مرزی متقاطع به منظور استخراج اشیاء مرتبط در قاب شناسایی شدند. از آنجایی که ما به دستگیره در برای یک در نیاز داشتیم و نه دستگیره برای کشو، جعبه‌های محدودکننده دستگیره در و درب باید برای اطمینان از تأیید صحت شیء دستگیره در قطع می‌شدند. روابط زمانی (روابط توالی که ترتیب رویدادها را در نظر می گیرند) سپس در سطح سوم به تصویر کشیده شدند. برای روابط ریشه، رابطه بین روابط زمانی قبل از اینکه رویداد پیچیده در نهایت شناسایی شود در نظر گرفته شد. VEQL پیشنهاد شده توسط [20 ] برای پرس و جوی رویدادها استفاده شد.
خروجی هر رویداد پیچیده شناسایی شده یک رکورد GeoJSON است که در جدول DynamoDB ذخیره می شود. فایل GeoJSON شامل مسیر (در قالب رشته-خط) رویداد پیچیده در فضای جغرافیایی و همچنین ویژگی های حاوی زمان پدیده، زمان نتایج، مدت زمان، فرمت JSON اشیاء مربوطه، فرمت JSON روابط مکانی و زمانی مرتبط است. و مجموعه ای از نام های دوربین مرتبط.

5. نتایج تجربی

برای ارزیابی معماری توسعه‌یافته، مدل‌های تشخیص شی، دقت تطبیق رویداد، و عملکرد تشخیص رویداد پیچیده ارزیابی شدند.

5.1. دقت تشخیص شی

از آنجایی که دقت مدل‌های تشخیص اشیا بر دقت و عملکرد پیچیده تشخیص رویداد تأثیر می‌گذارد، دو مدل تشخیص شی محبوب Yolov3 و Mask-RCNN برای این روش به کار گرفته شدند. برای ارزیابی نتایج تشخیص اشیا، دو فیلم به ترتیب با 612 و 518 فریم انتخاب شدند. تشخیص در همه آزمون ها با نمره اطمینان بیش از 85 درصد در نظر گرفته شد. شکل 7 و شکل 8 نمای کلی از نتایج ویدیوی آزمایش شده را ارائه می دهند.
هنگام در نظر گرفتن کلاس ها، متوجه شدیم که برای اشیاء پیچیده تر، مانند “در”، YOLO نتایج بهتری ایجاد می کند. در مقایسه، Mask-RCNN نکات مثبت واقعی بیشتری برای هر کلاس ایجاد کرد. جدول 2 یک نمای کلی از عملکرد و دقت مدل های تشخیص اشیا با استفاده از Jetson Xavier و یک لپ تاپ با CPU Core i7 و GPU GeForce RTX 2070 ارائه می دهد.
مدل Mask-RCNN میانگین میانگین دقت (mAP) و میانگین یادآوری بیشتری نسبت به YOLO ارائه می‌دهد. با این حال، این تفاوت ناچیز است. در مقایسه، Yolov3 سرعت تشخیص سریعتری را ارائه می دهد. تعداد اشیاء گمشده برای مدل Yolov3 کمتر از Mask-RCNN بود. به طور کلی، اگرچه دقت آن کمتر از Mask-RCNN برای اشیاء پیچیده است، Yolov3 گزینه بهتری برای تشخیص رویدادهای پیچیده است. تقسیم و تشخیص اشیاء پیچیده با استفاده از مدل Yolov3 برای اشیاء ساده علاوه بر در نظر گرفتن روابط فضایی برای ساخت اشیاء پیچیده احتمالا بهترین رویکرد است. در نتیجه، مدل CNN شناسایی شی مستقر شده مورد استفاده برای دو ارزیابی Yolov3 بود. به طور کلی، مقادیر mAP محاسبه‌شده کمتر از مدل‌های محبوب، مانند CoCo،

5.2. دقت تطبیق رویداد آنلاین

دقت تطبیق رویداد برای معماری لبه و محاسبات ابری یکپارچه در مقایسه با معماری که تمام فرآیندها را با محاسبه لبه با استفاده از تصاویر یک دوربین انجام می‌دهد، دقت تطبیق رویداد معماری را تعیین می‌کند. دقت تطابق رویداد بر اساس مقدار F-Score (معادله (3)) محاسبه شد. از آنجایی که این معیاری است که هم شامل دقت و هم یادآوری می شود، اطلاعات جامع تری در مورد تشخیص رویداد پیچیده ارائه می دهد.

بنابراین، امتیازات F برای سه رویداد پیچیده در دو ویدئو محاسبه شد. دو سناریو مختلف برای تشخیص رویدادهای پیچیده توسط دو دوربین ثبت شد. مقادیر متوسط ​​از دو دوربین برای هر سناریو برای هر دو سناریو محاسبات لبه و آفلاین در نظر گرفته شد. ویدیو 1 اولین ویدیو با 3812 فریم شامل 17 رویداد پیچیده و ویدیو 2 دومین ویدیو با 4218 فریم شامل 23 رویداد پیچیده است. شکل 9مقادیر دقت و فراخوانی را برای هر سه رویداد در دو ویدیو فراهم می کند. در این شکل، رویداد 1 نشان دهنده سرفه کردن با دست و سپس لمس دستگیره در است (شش مورد در ویدیوی 1، هفت مورد در ویدیوی 2). رویداد 2 سرفه کردن در بازوها و سپس لمس دستگیره در است (چهار مورد در ویدیوی 1، هفت مورد در ویدیوی 2). در نهایت، در رویداد 3، یک فرد در دستان خود و سپس بازوها سرفه می کند و سپس دستگیره در را لمس می کند (هفت مورد در ویدیوی 1 و 9 مورد در ویدیوی 2). تمام مقادیر در شکل 9مقادیر متوسط ​​دقت و یادآوری برای دو ویدیو هستند. ارزش یادآوری ها هنگام استفاده از معماری چند دوربین به طور قابل توجهی افزایش یافت، اگرچه افزایش دقت آن ناچیز است. این به دلیل معماری پیشنهادی است که تعداد رویدادهای منفی کاذب را کاهش می دهد، که با انجام این کار، به طور قابل توجهی مقادیر فراخوان را بهبود می بخشد.
شکل 10 نتایج امتیاز F را برای این معماری و رویکرد تک دوربینی برای Camera1 و Camera2 نشان می دهد. در این شکل، میانگین مقادیر F-Score از دو ویدیو، رویدادهای استفاده شده است. شکل دقیق تر در ضمیمه B موجود است.
این بررسی اجمالی از امتیازات F نشان داد که دقت تشخیص رویداد پیچیده با معماری یکپارچه حدود 1.73 برابر بیشتر از سناریوی محاسبات لبه است. این در مورد رویدادهای پیچیده تر (مثلاً رویداد 3) مهم تر بود. این به این دلیل رخ داد که معماری یکپارچه مثبت های واقعی (TP) و منفی های کاذب کمتری (FN) در تشخیص اشیا ایجاد می کند. در نهایت، همانطور که انتظار می رفت، دقت تشخیص شیء بر دقت رویداد پیچیده نهایی تأثیر گذاشت. به عنوان مثال، رویداد 1 (سرفه در دست) منجر به دقت رویداد پیچیده بالاتری نسبت به رویداد 2 (سرفه در بازوها) شد، زیرا میانگین دقت سرفه در دست‌ها از کلاس شی برای سرفه در بازوها بیشتر است. رویدادهایی که شامل رویدادهای ساده تری هستند منجر به خطاهای بیشتری می شوند. به عنوان خطا برای هر رویداد ساده بر دقت رویداد پیچیده نهایی تاثیر می گذارد. در نتیجه، امتیاز F برای رویداد 3 کمتر از رویداد 1 و رویداد 2 برای همه سناریوهای تشخیص رویداد پیچیده است، زیرا رویداد 3 شامل رویدادهای ساده تر و روابط مکانی-زمانی است.

5.3. سرعت تشخیص رویداد آنلاین

به منظور ارزیابی سرعت معماری توسعه‌یافته، تأخیر زمانی تطبیق رویداد برای تشخیص رویداد آفلاین با استفاده از لپ‌تاپ و برای تشخیص رویداد آنلاین با Jetson Xavier با استفاده از پردازش تک دوربین و همچنین معماری یکپارچه در نظر گرفته شد. ما از رابطه (2) برای محاسبه تأخیر نسبی استفاده کردیم. در معادله، t زمانی است که به پایگاه داده ابری اطلاع داده شد، f زمان خواندن فریم است، و w زمانی است که به عنوان آستانه تعریف شده است (به عنوان مثال، سرفه کردن و سپس لمس کردن دستگیره در باید کمتر از دو دقیقه برای اینکه آن را به عنوان یک رفتار خطر تلقی کنیم) برای رویداد در پایگاه داده الگوی رویداد.

در شکل 11 ، میانگین تأخیر زمانی سه رویداد با tw متفاوت برای سه سناریو ارائه شده است سرعت پردازش برای تشخیص شی برای یک سناریوی آفلاین 25 فریم در ثانیه بود، در حالی که برای سناریوی محاسبات لبه حدود 4 فریم در ثانیه بود. tw برای رویدادهای 1 و 2 30 ثانیه بود، در حالی که برای رویداد 3 یک دقیقه بود. مقادیر نشان‌داده‌شده نشان‌دهنده میانگین تأخیر همه دوربین‌ها و ویدیوها است. بنابراین، برای معماری محاسبات آفلاین و لبه، مقادیر میانگین میانگین تأخیر دو دوربین در دو سناریو بود. مقادیر تأخیر معماری یکپارچه نتایج حاصل از میانگین‌گیری تأخیر سناریوهای 1 و 2 است.
مقادیر تأخیر برای رویداد 3 بالاترین در بین تمام سناریوها است زیرا رویداد پیچیده روابط مکانی و زمانی بیشتری دارد. تفاوت در تاخیر برای معماری یکپارچه 0.85 برابر بیشتر از سناریوی محاسبات لبه است، اما این قابل توجه نیست. برای رویدادهای پیچیده تر (یعنی رویدادهای پیچیده که شامل روابط مکانی و زمانی بیشتری هستند)، معماری توسعه یافته رشد تاخیر قابل توجهی را در مقایسه با رویدادهای پیچیده کمتر نشان می دهد. در حالی که این رشد در سناریوی محاسبات لبه قابل توجه نبود، زیرا سرعت پردازش آفلاین بسیار بالاتر از دو سناریو دیگر بود، تفاوت تأخیر بین رویدادهای مختلف در مقایسه با معماری لبه‌ای نسبتاً زیاد بود.

6. بحث

سیستم‌های پردازش رویداد پیچیده (CEP) و تشخیص رویداد پیچیده به طور گسترده در زمینه‌هایی مانند کشف تقلب [ 72 ]، صنایع بانکی و بیمه [ 73 ]، پیش‌بینی انحراف پرواز [ 74 ]، اینترنت اشیا [ 75 ] و اطلاعات خودرو مورد مطالعه و استفاده قرار گرفته‌اند. پردازش [ 76 ]. این سیستم‌ها می‌توانند رویدادها را برای ارائه مواد معنایی فیلتر و جمع‌آوری کنند و رویدادهای معنادار سطح بالا را تشکیل دهند. بیشتر موتورهای CEP موجود، مانند CEP مبتنی بر دانش [ 77 ]، CEP تودرتو آگاه از متن [ 78 ]، model4CEP [ 79 ]، و ماشین به ماشین هوشمند [ 80 ]]، هیچ راه حلی برای کاهش یا مدیریت عدم قطعیت در تشخیص رویداد پیچیده ارائه نکنید.
یکی از جالب ترین کاربردهای موتورهای CEP توانایی آنها در تشخیص رویدادهای پیچیده در جریان های ویدئویی است. اگرچه موتورهای متعددی وجود دارند که می توانند عدم قطعیت های مربوط به رویدادهای پیچیده را کنترل کنند، اما هنوز شکافی در مدیریت عدم قطعیت ها در موتورهای CEP ویدئویی وجود دارد، مانند VidCEP [ 20 ]، Eventnet [ 81 ]، و نمودار دانش رویداد ویدیویی (VEKG) CEP [ 20]. 82 ]. تشخیص رویداد پیچیده در جریان‌های ویدیویی شامل اشیاء مختلف با سطوح اطمینان، روابط مکانی و روابط زمانی متفاوت است. خطاها در هر قسمت بر کیفیت تشخیص رویداد نهایی تأثیر می گذارد. منابع عدم قطعیت برای موتورهای CEP یا داده های از دست رفته یا اطلاعات پرت هستند [ 83]. داده های از دست رفته یک مشکل بزرگ برای موتورهای CEP است و عدم قطعیت نتایج نهایی را افزایش می دهد.
معماری یکپارچه پیشنهادی از چندین جریان دوربین و محاسبات ابری برای حل مشکل داده های از دست رفته استفاده می کند. جمع آوری اطلاعات از نقاط رصدی مختلف به سیستم ما اجازه داد تا مشکل اشیاء گم شده و رویدادهای ساده را در جریان دوربین حل کند. بر اساس نتایج تجربی در بخش 4 ، دقت تشخیص رویداد پیچیده در مقایسه با یک سیستم تشخیص رویداد پیچیده سنتی افزایش یافته است. در نتیجه، می توان استدلال کرد که راه حل، دقت آشکارساز رویداد پیچیده را بهبود بخشید.

7. نتیجه گیری

یکی از مهم ترین مشکلات برای تشخیص رویدادهای پیچیده، مشکل اشیاء گم شده و رویدادهای ساده در جریان های لحظه ای دوربین است. مشکل شی گم شده اغلب به دلیل زوایای دوربین، دقت پایین مدل های تشخیص اشیا، یا سرعت پردازش پایین و فریم های از دست رفته رخ می دهد. این تحقیق به موضوع دوم و سوم با استفاده از محاسبات YOLO با سرعت بالا با محاسبات لبه قبل از استفاده از یک معماری لبه و محاسبات ابری یکپارچه پرداخت که دیدگاه‌های مختلفی از یک صحنه را با استفاده از دوربین‌های متعدد به منظور افزایش سطح اطمینان تشخیص اشیا ارائه می‌کرد. این مقاله یک IoSC مبتنی بر لبه یکپارچه و معماری محاسبات ابری برای تشخیص رویداد پیچیده ارائه می‌کند. برای این کار، نتایج پخش ویدیو (به عنوان مثال، اشیاء شناسایی شده و رویدادهای ساده) از چندین دوربین که در یک صحنه مشترک با زوایای دید متفاوت هدایت شده اند، به دست آمد. معماری طراحی شده، بخش‌های مختلف یک رویداد پیچیده را از چندین دوربین جمع‌آوری کرده و با استفاده از خدمات ابری، رویداد را مطابقت داده است. با انجام این کار، این معماری امکان گم شدن اشیا و اتفاقات ساده را کاهش داد. در نهایت، ما OGC STA را به عنوان یک استاندارد بین المللی منبع باز به منظور بهبود قابلیت همکاری بین دوربین های هوشمند به کار بردیم.
نتایج تجربی تطبیق رویداد آنلاین، دقت هر دو مدل تشخیص شی و رویداد پیچیده نهایی اثر سرعت را نشان می‌دهد. نتایج تشخیص شی نشان می دهد که مدل YOLO دقت بهتری را برای پردازش رویدادهای پیچیده ارائه می دهد زیرا فریم های کمتری را از دست می دهد. به منظور ارزیابی معماری طراحی شده، از امتیازات F تشخیص رویداد آنلاین استفاده شد. آنها نشان می دهند که دقت معماری لبه یکپارچه توسعه یافته و محاسبات ابری به طور قابل توجهی بیشتر از معماری محاسبات لبه است. تأخیر معماری یکپارچه 0.85 برابر بیشتر از معماری مبتنی بر لبه بود. این معماری توسعه یافته به تعداد روابط مکانی و زمانی در رابطه با تاخیر حساس تر بود. از این رو، تفاوت بین تاخیر معماری توسعه‌یافته برای سناریوهای محاسبات لبه و آفلاین نسبت به رویدادهای پیچیده‌تر قابل توجه‌تر بود. در نهایت، یک معماری محاسبات ابری و لبه‌ای یکپارچه برای IoSC برای شناسایی رفتارهای خطر مرتبط با گسترش COVID-19 اجرا شد. نتایج نشان می‌دهد که معماری توسعه‌یافته دارای دقت متوسط ​​۶۸ درصد است. این بالاتر از سناریوی محاسبات لبه تک دوربین بود. در نتیجه، دوربین های متعدد نتایج بهتری نسبت به دوربین های تک در رابطه با دقت تشخیص رویداد پیچیده ارائه می دهند. تأخیر معماری یکپارچه بیشتر از معماری محاسباتی مبتنی بر لبه بود، اما این تفاوت تأثیر قابل‌توجهی بر مطالعه موردی تشخیص رفتار خطر COVID-19 ما نداشت. یک معماری محاسبات ابری و لبه یکپارچه برای IoSC برای شناسایی رفتارهای خطر مرتبط با گسترش COVID-19 اجرا شد. نتایج نشان می‌دهد که معماری توسعه‌یافته دارای دقت متوسط ​​۶۸ درصد است. این بالاتر از سناریوی محاسبات لبه تک دوربین بود. در نتیجه، دوربین های متعدد نتایج بهتری نسبت به دوربین های تک در رابطه با دقت تشخیص رویداد پیچیده ارائه می دهند. تأخیر معماری یکپارچه بیشتر از معماری محاسباتی مبتنی بر لبه بود، اما این تفاوت تأثیر قابل‌توجهی بر مطالعه موردی تشخیص رفتار خطر COVID-19 ما نداشت. یک معماری محاسبات ابری و لبه یکپارچه برای IoSC برای شناسایی رفتارهای خطر مرتبط با گسترش COVID-19 اجرا شد. نتایج نشان می‌دهد که معماری توسعه‌یافته دارای دقت متوسط ​​۶۸ درصد است. این بالاتر از سناریوی محاسبات لبه تک دوربین بود. در نتیجه، دوربین های متعدد نتایج بهتری نسبت به دوربین های تک در رابطه با دقت تشخیص رویداد پیچیده ارائه می دهند. تأخیر معماری یکپارچه بیشتر از معماری محاسباتی مبتنی بر لبه بود، اما این تفاوت تأثیر قابل‌توجهی بر مطالعه موردی تشخیص رفتار خطر COVID-19 ما نداشت. این بالاتر از سناریوی محاسبات لبه تک دوربین بود. در نتیجه، دوربین های متعدد نتایج بهتری نسبت به دوربین های تک در رابطه با دقت تشخیص رویداد پیچیده ارائه می دهند. تأخیر معماری یکپارچه بیشتر از معماری محاسباتی مبتنی بر لبه بود، اما این تفاوت تأثیر قابل‌توجهی بر مطالعه موردی تشخیص رفتار خطر COVID-19 ما نداشت. این بالاتر از سناریوی محاسبات لبه تک دوربین بود. در نتیجه، دوربین های متعدد نتایج بهتری نسبت به دوربین های تک در رابطه با دقت تشخیص رویداد پیچیده ارائه می دهند. تأخیر معماری یکپارچه بیشتر از معماری محاسباتی مبتنی بر لبه بود، اما این تفاوت تأثیر قابل‌توجهی بر مطالعه موردی تشخیص رفتار خطر COVID-19 ما نداشت.
ما قصد داریم برای تحقیقات آتی بر افزایش و تأیید صحت تشخیص رویدادهای ساده و پیچیده از انواع حسگرهای مختلف تمرکز کنیم. به عنوان مثال، تشخیص صداها و تصاویر اشیاء از دوربین ها و میکروفون ها ما را قادر می سازد تا رویدادهای پیچیده را از منابع مختلف با دقت بیشتری تشخیص دهیم [ 58 ، 84 ]. علاوه بر این، مرحله بعدی تحقیقات ما بر روی تشخیص رویدادهای پیچیده از دوربین‌هایی که به سمت مکان‌های مختلف هدایت می‌شوند تمرکز خواهد کرد [ 85 ]. علاوه بر این، یک منطقه بالقوه مورد علاقه برای کاوش بیشتر، ایجاد چارچوبی برای ساخت رویدادهای پیچیده از رویدادهای ساده ناشی از مناطق تشخیص جداگانه است.

پیوست اول

شبه کد تطبیق رویداد توسعه یافته
  • تعریف 1 (بردار رویداد). یک رویداد ذخیره شده در پایگاه داده رویداد یک بردار با عناصر زیر در نظر گرفته می شود:
  • O = آرایه ای از کلاس های شی شناسایی شده.
  • Sr = بردار رابطه فضایی که شامل بیان رابطه فضایی و کلاس های شی درگیر است.
  • Tr = بردار رابطه زمانی که شامل بیان رابطه زمانی و روابط فضایی درگیر است.
  • Rt = آرایه ای (بردار ریشه) از بردارها شامل روابط بین Tr. برای مثال، یک Rt به شکل زیر است:
  • Rt = [R 1 (Tr 1 ,Tr 2 ,relationship_expression1), …, Rn(Tr n−1 ,Tr n ,relationship_expression n )]
  • تعریف 2 (بردار شی تشخیص). شی شناسایی شده در هر فریم که شامل عناصر زیر است:
  • Bbox = مستطیل جعبه های محدود کننده شی یک آرایه است: [ min , min , width , height ];
  • Class = نام کلاس شی شناسایی شده.
  • Confidence = مقدار اطمینان احتمالی شی شناسایی شده.
  • Trackid = شناسه ای که هنگام اجرای ماژول ردیابی به هر شی اختصاص داده می شود.
شبه کد 1—فرآیند تطبیق رویداد
شروع می شود
c = captureFrame()
spatial_rel=[]
temporal_rel=[]
در حالی که c
t = captureTime()
det_obj = objectDetector(c)
اگر det_obj.siz>0
برای هر رویداد از eventPatterns انجام دهید
object_event = []
برای هر obj_pattern از event.object
اگر det_obj در obj_pattern پایان را انجام دهید      object_event.add
(det_obj)     اگر     object_event.size() > 1      برای هر sr از event.Sr انجام دهید       object1 = find(sr.object1.class,object_event)       object2 = find(sr.object2.class,object_event)       r = spatialRelation(object1,object2)      اگر r درست است
s = (sr,obj1,obj2,t)
spatial_rel.add(s)
انتهای
انتهایی
برای هر temporal_rel از event.Tr انجام دهید
sr1 = find(temporal_rel.s1,spatial_rel)
sr2 = find(temporal_rel.s2, spatial_rel)
event_detected = temporalRelation(sr1.t,sr2.t)
اگر event_detected True باشد انجام دهید
T = (sr,obj1,obj2,t)
temporal_rel.add(T)
انتهای
انتهایی
برای هر root_vector از event.Rt انجام
R1 = find( root_vector.T1,temporal_rel)
R2 = find(root_vector.T2,temporal_rel)
R = root_relationship(R1,R2)
اگر R False است انجام دهید
skipFrame()
پایان
پایان
بازگشت رویداد
پایان
پایان
پایان
پایان
پایان

ضمیمه B

مقادیر دقیق برای دقت تطبیق معماری یکپارچه و نتایج محاسبات لبه برای Camera1 و Camera2 با استفاده از دو ویدیو از سه رویداد.
شکل A1. نتایج تطبیق رویداد ( الف ) نتایج تشخیص رویداد معماری طراحی شده یکپارچه. ( ب ) معماری مبتنی بر لبه تک دوربین برای Camera1 نتیجه می گیرد. ( ج ) معماری مبتنی بر لبه تک دوربین برای Camera2 نتیجه می گیرد. رویداد 1 سرفه کردن با دست و لمس دستگیره در است. رویداد 2 سرفه کردن در آغوش و لمس دستگیره در است. رویداد 3 سرفه کردن با دست و/یا بازو و لمس دستگیره در است.

منابع

  1. بانرجی، اس. Wu, DO گزارش نهایی از کارگاه آموزشی NSF در مسیرهای آینده در شبکه های بی سیم . بنیاد ملی علوم: واشنگتن، دی سی، ایالات متحده آمریکا، 2013. [ Google Scholar ]
  2. فرانکوفسکی، جی. جرزاک، م. میلوستان، م. نواک، ت. Pawłowski، M. کاربرد سیستم پردازش رویداد پیچیده برای تشخیص ناهنجاری و نظارت بر شبکه. محاسبه کنید. علمی 2015 ، 16 ، 351-371. [ Google Scholar ]
  3. لی، اس. پسر، SH; Stankovic، JA خدمات تشخیص رویداد با استفاده از میان افزار سرویس داده در شبکه های حسگر توزیع شده. در پردازش اطلاعات در شبکه های حسگر ; Springer: برلین/هایدلبرگ، آلمان، 2003; ص 502-517. [ Google Scholar ]
  4. فن، اچ. چانگ، ایکس. چنگ، دی. یانگ، ی. خو، دی. تشخیص رویداد Hauptmann، AG Complex با شناسایی نماهای قابل اعتماد از ویدیوهای پاک نشده. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، ونیز، ایتالیا، 22 تا 29 اکتبر 2017؛ صص 736-744. [ Google Scholar ]
  5. وو، ای. دیائو، ی. Rizvi, S. پردازش رویداد پیچیده با عملکرد بالا در جریان‌ها. در مجموعه مقالات کنفرانس بین المللی ACM SIGMOD 2006 در مدیریت داده ها، شیکاگو، IL، ایالات متحده، 27-29 ژوئن 2006. ص 407-418. [ Google Scholar ]
  6. کوگولا، جی. مارگارا، الف. پردازش جریان های اطلاعات: از جریان داده تا پردازش رویداد پیچیده. کامپیوتر ACM. Surv. (CSUR) 2012 ، 44 ، 1-62. [ Google Scholar ] [ CrossRef ]
  7. بوتاکووا، MA; Chernov، AV; شوچوک، PS; Vereskun، VD Complex پردازش رویداد برای تشخیص ناهنجاری شبکه در خدمات ارتباطی دیجیتال راه آهن. در مجموعه مقالات بیست و پنجمین انجمن مخابرات 2017 (TELFOR)، بلگراد، صربستان، 21 تا 22 نوامبر 2017؛ صص 1-4. [ Google Scholar ]
  8. Terroso-Saenz، F. والدس ولا، م. سوتومایر-مارتینز، سی. تولدو مورئو، آر. Gomez-Skarmeta، AF رویکرد مشارکتی برای تشخیص تراکم ترافیک با پردازش رویداد پیچیده و VANET. IEEE Trans. هوشمند ترانسپ سیستم 2012 ، 13 ، 914-929. [ Google Scholar ] [ CrossRef ]
  9. Mazon-Olivo، B. هرناندز روخاس، دی. مازا-سالیناس، ج. Pan، A. موتور قواعد و پردازشگر رویداد پیچیده در زمینه اینترنت اشیا برای کشاورزی دقیق. محاسبه کنید. الکترون. کشاورزی 2018 ، 154 ، 347-360. [ Google Scholar ] [ CrossRef ]
  10. لیو، ایکس. کائو، جی. تانگ، اس. Guo، P. تشخیص رویداد پیچیده متحمل به خطا در WSNs: مطالعه موردی در نظارت بر سلامت ساختاری. IEEE Trans. اوباش محاسبه کنید. 2015 ، 14 ، 2502-2515. [ Google Scholar ] [ CrossRef ]
  11. Terroso-Saenz، F. والدس ولا، م. Skarmeta-Gomez، AF یک رویکرد پردازش رویداد پیچیده برای تشخیص رفتارهای غیرعادی در محیط دریایی. Inf. سیستم جلو. 2016 ، 18 ، 765-780. [ Google Scholar ] [ CrossRef ]
  12. جین، ایکس. یوان، پی. لی، ایکس. آهنگ، سی. جنرال الکتریک، اس. ژائو، جی. Chen, Y. حفظ حریم خصوصی کارآمد تشخیص شی نوع Viola-Jones از طریق نمایش تصویر پایه تصادفی. در مجموعه مقالات کنفرانس بین المللی IEEE 2017 در چند رسانه و نمایشگاه (ICME)، هنگ کنگ، چین، 10 تا 14 ژوئیه 2017؛ صص 673-678. [ Google Scholar ]
  13. چن، جی. Ran, X. یادگیری عمیق با محاسبات لبه: یک بررسی. Proc. IEEE 2019 ، 107 ، 1655-1674. [ Google Scholar ] [ CrossRef ]
  14. لی، جی. اوزسو، ام تی؛ سافرون، دی. Oria, V. MOQL: یک زبان پرس و جو شی چندرسانه ای. در مجموعه مقالات سومین کارگاه بین المللی سیستم های اطلاعات چندرسانه ای، سئول، کره، 22 تا 26 اکتبر 2018؛ ص 19-28. [ Google Scholar ]
  15. Kuo، TC; Chen، AL پردازش پرس و جو مبتنی بر محتوا برای پایگاه داده های ویدیویی. IEEE Trans. چند رسانه ای 2000 ، 2 ، 1-13. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  16. عارف، و. حماد، م. Catlin، AC; الیاس، آی. غانم، ت. الماگرمید، ع. Marzouk, M. پردازش پرس و جو ویدیویی در بستر آزمایشی VDBMS برای تحقیقات پایگاه داده ویدیویی. در مجموعه مقالات اولین کارگاه بین المللی ACM در پایگاه داده های چند رسانه ای، نیواورلئان، لس آنجلس، ایالات متحده آمریکا، 7 نوامبر 2003. صص 25-32. [ Google Scholar ]
  17. لو، سی. لیو، ام. Wu, Z. Svql: یک زبان جستجوی توسعه یافته sql برای پایگاه داده های ویدئویی. بین المللی J. نظریه پایگاه داده. Appl. 2015 ، 8 ، 235-248. [ Google Scholar ] [ CrossRef ]
  18. کانگ، دی. بیلیس، پ. Zaharia, M. BlazeIt: بهینه‌سازی تجمع اعلانی و جستارهای محدود برای تجزیه و تحلیل ویدئویی مبتنی بر شبکه عصبی. arXiv 2018 , arXiv:1805.01046. [ Google Scholar ] [ CrossRef ]
  19. جین، پی. شوکلا، وی. سرینیواسان، ا. د کاسترو آلوز، آ. Hsiao، E. پشتیبانی از یک پرس و جو/نمای پارامتری در پردازش رویداد پیچیده. ثبت اختراع ایالات متحده شماره 8،713،049، 29 آوریل 2014. [ Google Scholar ]
  20. یداو، پ. Curry، E. VidCEP: چارچوب پردازش رویداد پیچیده برای تشخیص الگوهای فضایی-زمانی در جریان‌های ویدیویی. در مجموعه مقالات کنفرانس بین المللی IEEE 2019 در مورد داده های بزرگ (داده های بزرگ)، لس آنجلس، کالیفرنیا، ایالات متحده آمریکا، 10 تا 12 دسامبر 2019؛ صص 2513-2522. [ Google Scholar ]
  21. مدیونی، جی. کوهن، آی. برموند، اف. هونگنگ، اس. نواتیا، R. تشخیص و تجزیه و تحلیل رویداد از جریان های ویدئویی. IEEE Trans. الگوی مقعدی ماخ هوشمند 2001 ، 23 ، 873-889. [ Google Scholar ] [ CrossRef ]
  22. لی، ز. Ge, T. History آینه ای به آینده است: بهترین تلاش برای تطبیق رویداد پیچیده تقریبی با منابع ناکافی. Proc. VLDB Enddow. 2016 ، 10 ، 397-408. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  23. فریروس، جی. پاردو، جی.ام. هورتادو، L.-F. سگرا، ای. اورتگا، آ. لیدا، ای. تورس، MI; Justo, R. ASLP-MULAN: پردازش گفتار و زبان صوتی برای تجزیه و تحلیل چند رسانه ای. فرآیندها طول. نات. 2016 ، 57 ، 147-150. [ Google Scholar ]
  24. یانگ، آ. ژانگ، سی. چن، ی. ژوانسون، ی. لیو، اچ. امنیت و حریم خصوصی سیستم‌های خانه هوشمند مبتنی بر اینترنت اشیا و الگوریتم‌های تطبیق استریو. IEEE Int. Things J. 2019 , 7 , 2521–2530. [ Google Scholar ] [ CrossRef ]
  25. کارتیک، آر. پرابهاران، AM; Selvaprasanth، P. استراتژی نظارت بر مرزهای امنیت بالا مبتنی بر اینترنت اشیا. آسیایی J. Appl. علمی تکنولوژی (AJAST) جلد. 2019 ، 3 ، 94-100. [ Google Scholar ]
  26. الساکران، HO سیستم اطلاعات ترافیک هوشمند مبتنی بر ادغام فناوری اینترنت اشیا و عامل. بین المللی J. Adv. محاسبه کنید. علمی Appl. 2015 ، 6 ، 37-43. [ Google Scholar ]
  27. ژانگ، اس. Yu, H. شناسایی مجدد شخص توسط شبکه های چند دوربینی برای اینترنت اشیا در شهرهای هوشمند. دسترسی IEEE 2018 ، 6 ، 76111–76117. [ Google Scholar ] [ CrossRef ]
  28. سارا سعیدی، جی.ال. لیانگ، اس. هاوکینز، بی. چن، سی. کوریاس، آی. استارکوف، آی. مک دونالد، جی. آلزونا، م. بوتس، ام. محمدی جهرمی، م. و همکاران گزارش مهندسی خلبان OGC SCIRA ; کنسرسیوم فضایی باز: Wayland، MA، ایالات متحده آمریکا، 2020. [ Google Scholar ]
  29. گارسیا، سی جی؛ Meana-Llorián، D.; G-Bustelo، BCP; لاول، JMC; گارسیا-فرناندز، ن. میدگار: تشخیص افراد از طریق بینایی کامپیوتری در سناریوهای اینترنت اشیا برای بهبود امنیت در شهرهای هوشمند، شهرک‌های هوشمند و خانه‌های هوشمند. ژنرال آینده. محاسبه کنید. سیستم 2017 ، 76 ، 301-313. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  30. چودری، آر. راویچاندران، ا. هاگر، جی. ویدال، آر. هیستوگرام های جریان نوری جهت دار و هسته های بینه کوشی در سیستم های دینامیکی غیرخطی برای تشخیص اعمال انسان. در مجموعه مقالات کنفرانس IEEE 2009 در مورد بینایی کامپیوتری و تشخیص الگو، میامی، FL، ایالات متحده آمریکا، 20-25 ژوئن 2009. صفحات 1932-1939. [ Google Scholar ]
  31. فن، اچ. لو، سی. زنگ، سی. فریانک، م. Que، Z. لیو، اس. نیو، ایکس. Luk, W. F-E3D: شتاب مبتنی بر FPGA یک شبکه عصبی کانولوشنال سه بعدی کارآمد برای تشخیص عمل انسان. در مجموعه مقالات سی امین کنفرانس بین المللی IEEE 2019 در مورد سیستم ها، معماری ها و پردازنده های خاص برنامه (ASAP)، نیویورک، نیویورک، ایالات متحده آمریکا، 15 تا 17 ژوئیه 2019؛ صص 1-8. [ Google Scholar ]
  32. سیمونیان، ک. Zisserman, A. شبکه های پیچیده بسیار عمیق برای تشخیص تصویر در مقیاس بزرگ. arXiv 2014 ، arXiv:1409.1556. [ Google Scholar ]
  33. هان، ی. ژانگ، پی. ژو، تی. هوانگ، دبلیو. Zhang، Y. با ConvNets دو جریانی برای تشخیص عملکرد در نظارت تصویری عمیق‌تر می‌شویم. تشخیص الگو Lett. 2018 ، 107 ، 83-90. [ Google Scholar ] [ CrossRef ]
  34. Girshick, R. Fast r-cnn. در مجموعه مقالات کنفرانس بین المللی IEEE در سال 2015 در بینایی کامپیوتر، سانتیاگو، شیلی، 7 تا 13 دسامبر 2015؛ ص 1440-1448. [ Google Scholar ]
  35. Ko، K.-E. سیم، ک.-بی. چارچوب پیچیده عمیق برای تشخیص رفتار غیرعادی در یک سیستم نظارت هوشمند مهندس Appl. آرتیف. هوشمند 2018 ، 67 ، 226-234. [ Google Scholar ] [ CrossRef ]
  36. گان، سی. وانگ، ن. یانگ، ی. یونگ، دی.-ای. Hauptmann, AG Devnet: یک شبکه رویداد عمیق برای شناسایی رویدادهای چندرسانه ای و بازگویی شواهد. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، سان خوان، روابط عمومی، ایالات متحده آمریکا، 17 تا 19 ژوئن 1997. صص 2568-2577. [ Google Scholar ]
  37. Xiong، Y. زو، ک. لین، دی. تانگ، ایکس. رویدادهای پیچیده را از تصاویر استاتیک با ترکیب کانال‌های عمیق تشخیص دهید. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، سان خوان، روابط عمومی، ایالات متحده آمریکا، 17 تا 19 ژوئن 1997. صفحات 1600-1609. [ Google Scholar ]
  38. Jhuo، I.-H.; Lee, D. تشخیص رویداد ویدیویی از طریق یادگیری عمیق چند وجهی. در مجموعه مقالات بیست و دومین کنفرانس بین المللی شناسایی الگوی 2014، استکهلم، سوئد، 24 تا 28 اوت 2014. صص 666-671. [ Google Scholar ]
  39. وو، زی. جیانگ، ی.-جی. وانگ، ایکس. بله، اچ. Xue, X. ادغام چند کلاسه چند جریانی از شبکه های عمیق برای طبقه بندی ویدئو. در مجموعه مقالات بیست و چهارمین کنفرانس بین المللی ACM در چند رسانه ای، آمستردام، هلند، 5 تا 19 اکتبر 2016؛ صص 791-800. [ Google Scholar ]
  40. حبیبیان، ع. منسینک، تی. Snoek، CG Composite کشف مفهومی برای تشخیص رویداد ویدیویی صفر شات. در مجموعه مقالات کنفرانس بین المللی بازیابی چند رسانه ای، گلاسکو، انگلستان، 1-4 آوریل 2014. صص 17-24. [ Google Scholar ]
  41. مظلوم، م. گاووس، ای. ون دو ساند، ک. اسنوک، سی. جستجوی بانک‌های مفهومی آموزنده برای تشخیص رویداد ویدیویی. در مجموعه مقالات سومین کنفرانس ACM در کنفرانس بین المللی بازیابی چند رسانه ای، دالاس، تگزاس، ایالات متحده آمریکا، 16-19 آوریل 2013. صص 255-262. [ Google Scholar ]
  42. رستگاری، م. دیبا، ع. پریخ، د. فرهادی، الف. پرسش‌های چند ویژگی: ادغام یا عدم ادغام؟ در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، سان خوان، روابط عمومی، ایالات متحده آمریکا، 17 تا 19 ژوئن 1997. صص 3310–3317. [ Google Scholar ]
  43. دوبا، کاس؛ Cohn، AG; هاگ، دی سی؛ بهات، ام. Dylla, F. یادگیری مدل های رویداد رابطه ای از ویدئو. جی آرتیف. هوشمند Res. 2015 ، 53 ، 41-90. [ Google Scholar ] [ CrossRef ]
  44. کانگ، دی. ایمونز، جی. ابوزید، ف. بیلیس، پ. Zaharia, M. Noscope: بهینه سازی پرس و جوهای شبکه عصبی از طریق ویدئو در مقیاس. arXiv 2017 , arXiv:1703.02529. [ Google Scholar ] [ CrossRef ]
  45. حسیه، ک. Ananthanarayanan، G. بودیک، پ. ونکاتارامان، اس. باهل، ص. فیلیپس، م. Gibbons، PB; Mutlu، O. Focus: پرس و جو از مجموعه داده های ویدیویی بزرگ با تأخیر کم و هزینه کم. در مجموعه مقالات سیزدهمین سمپوزیوم USENIX در مورد طراحی و پیاده سازی سیستم های عامل (OSDI 18)، کارلزبد، کالیفرنیا، ایالات متحده آمریکا، 8 تا 10 اکتبر 2018؛ صص 269-286. [ Google Scholar ]
  46. چوچوتکائو، اس. یاماگوچی، اچ. هیگاشینو، تی. شیبویا، م. Hasegawa، T. EdgeCEP: پردازش رویداد پیچیده کاملاً توزیع شده در لبه های اینترنت اشیا. در مجموعه مقالات سیزدهمین کنفرانس بین المللی 2017 در مورد محاسبات توزیع شده در سیستم های حسگر (DCOSS)، اتاوا، ON، کانادا، 5 ژوئن 2017؛ صص 121-129. [ Google Scholar ]
  47. ردمون، جی. دیووالا، س. گیرشیک، آر. فرهادی، الف. شما فقط یک بار نگاه می کنید: یکپارچه، تشخیص شی در زمان واقعی. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، سان خوان، روابط عمومی، ایالات متحده آمریکا، 17 تا 19 ژوئن 1997. صص 779-788. [ Google Scholar ]
  48. ژائو، Z.-Q. ژنگ، پی. Xu، S.-t.; Wu, X. تشخیص شی با یادگیری عمیق: یک بررسی. IEEE Trans. شبکه عصبی فرا گرفتن. سیستم 2019 ، 30 ، 3212–3232. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  49. گیرشیک، آر. دوناهو، جی. دارل، تی. Malik, J. Rich دارای سلسله مراتب برای تشخیص دقیق شی و تقسیم بندی معنایی هستند. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، سان خوان، روابط عمومی، ایالات متحده آمریکا، 17 تا 19 ژوئن 1997. صص 580-587. [ Google Scholar ]
  50. چن، اچ. وانگ، ی. وانگ، جی. Qiao, Y. Lstd: یک آشکارساز انتقال شات پایین برای تشخیص اشیا. در مجموعه مقالات سی و دومین کنفرانس AAAI در مورد هوش مصنوعی، نیواورلئان، لس آنجلس، ایالات متحده آمریکا، 5 فوریه 2018. [ Google Scholar ]
  51. هو، ایکس. وانگ، ی. چاو، ال.-پی. ردیابی خودرو با استفاده از مرتب سازی عمیق با فیلتر کردن مسیر با اطمینان کم. در مجموعه مقالات شانزدهمین کنفرانس بین المللی IEEE در سال 2019 در زمینه نظارت بر ویدئو و سیگنال پیشرفته (AVSS)، تایپه، تایوان، 18 سپتامبر 2019؛ صص 1-6. [ Google Scholar ]
  52. Punn، NS; Sonbhadra، SK; آگاروال، اس. نظارت بر فاصله‌گذاری اجتماعی COVID-19 با شناسایی و ردیابی افراد از طریق تکنیک‌های تنظیم‌شده YOLO v3 و Deepsort. arXiv 2020 ، arXiv:2005.01385. [ Google Scholar ]
  53. تیاگارجان، ر. پالا، اف. ژانگ، ایکس. بانو، بی. فوتبال: چه کسی توپ را در اختیار دارد؟ تولید تجزیه و تحلیل بصری و آمار بازیکن. در مجموعه مقالات کنفرانس IEEE در کارگاه های آموزشی بینایی کامپیوتری و تشخیص الگو، سالت لیک سیتی، UT، ایالات متحده آمریکا، 18 تا 22 ژوئن 2018؛ صفحات 1749-1757. [ Google Scholar ]
  54. کورنیاوان، ا. رمضلان، ع. Yuniarno، E. نظارت بر سرعت برای چندین وسیله نقلیه با استفاده از دوربین مدار بسته تلویزیون (CCTV). در مجموعه مقالات کنفرانس بین المللی 2018 مهندسی کامپیوتر، شبکه و چند رسانه ای هوشمند (CENIM)، سورابایا، اندونزی، 26 نوامبر 2018؛ صص 88-93. [ Google Scholar ]
  55. چمیلوسکا، ا. ماریانا، پ. مارسینیاک، تی. دابروفسکی، ا. Walkowiak, P. کاربرد هندسه تصویری در نگاشت چگالی بر اساس نظارت دوربین مدار بسته. در مجموعه مقالات پردازش سیگنال 2015: الگوریتم ها، معماری ها، ترتیبات و برنامه ها (SPA)، پوزنان، لهستان، 3 مه 2015. صص 179-184. [ Google Scholar ]
  56. گونزالس-سوسا، ای. ورا رودریگز، آر. فیرز، جی. تومه، پی. اورتگا-گارسیا، جی. جبران تغییرپذیری با استفاده از تبدیل تصویری برای تشخیص چهره پزشکی قانونی. در مجموعه مقالات کنفرانس بین المللی 2015 گروه علاقه ویژه بیومتریک (BIOSIG)، دارمشتات، آلمان، 9 سپتامبر 2015; صص 1-5. [ Google Scholar ]
  57. میلر، ای. بانرجی، ن. Zhu, T. خانه‌های هوشمندی که عطسه، سرفه و لمس صورت را تشخیص می‌دهند. Smart Health 2020 , 19 , 100170. [ Google Scholar ] [ CrossRef ]
  58. لیانگ، SH. سعیدی، س. اوجاغ، س. هنرپرور، س. کیایی، س. جهرمی، م.م. Squires, J. یک معماری تعاملی برای اینترنت چیزهای COVID-19 (IoCT) با استفاده از استانداردهای فضایی باز – مطالعه موردی: بازگشایی محل کار. Sensors 2021 , 21 , 50. [ Google Scholar ] [ CrossRef ]
  59. Maeda، K. ارزیابی عملکرد کتابخانه های سریال سازی شی در قالب های XML، JSON و باینری. در مجموعه مقالات دومین کنفرانس بین المللی 2012 در زمینه فناوری اطلاعات و ارتباطات دیجیتال و کاربردهای آن (DICTAP)، بانکوک، تایلند، 16 مه 2018؛ صص 177-182. [ Google Scholar ]
  60. یغم زاده، ن. وانگ، ایکس. Dillig، I. انتقال خودکار داده های سلسله مراتبی به جداول رابطه ای با استفاده از برنامه نویسی به صورت مثال. Proc. VLDB Enddow. 2018 ، 11 ، 580-593. [ Google Scholar ] [ CrossRef ]
  61. شاسور، سی. لی، ی. Patel، JM ذخیره‌سازی اسناد JSON در سیستم‌های رابطه‌ای را فعال می‌کند. در مجموعه مقالات WebDB، نیویورک، نیویورک، ایالات متحده آمریکا، 23 ژوئن 2013; ص 14-15. [ Google Scholar ]
  62. کوتسف، ا. شلید، ک. لیانگ، اس. ون در شاف، اچ. خلفبیگی، ت. گرلت، اس. لوتز، ام. جیرکا، س. Beaufils, M. گسترش INSPIRE به اینترنت اشیا از طریق SensorThings API. Geosciences 2018 ، 8 ، 221. [ Google Scholar ] [ CrossRef ][ Green Version ]
  63. لیانگ، اس. هوانگ، سی.-ای. Khalafbeigi, T. OGC SensorThings API Part 1: Sensing ; نسخه 1.0؛ کنسرسیوم فضایی باز: Wayland، MA، ایالات متحده آمریکا، 2016. [ Google Scholar ]
  64. باتلر، اچ. دالی، م. دویل، ا. گیلیز، اس. هاگن، اس. شاوب، تی . فرمت جئوجسون ; کارگروه مهندسی اینترنت (IETF): ویلمینگتون، NC، ایالات متحده آمریکا، 2016. [ Google Scholar ]
  65. هوربینسکی، تی. Cybulski, P. شباهت های عملکرد خدمات نقشه برداری وب جهانی در زمینه طراحی وب پاسخگو. Geod. کارتوگر. 2018 ، 67 ، 159-177. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  66. هوربینسکی، تی. Lorek, D. استفاده از فایل های Leaflet و GeoJSON برای ایجاد نقشه وب تعاملی از وضعیت محیط طبیعی قبل از صنعتی شدن. جی. اسپات. علمی 2020 . [ Google Scholar ] [ CrossRef ]
  67. لین، تی.-ای. مایر، م. بلنگی، اس. هیز، جی. پرونا، پی. رامانان، دی. دلار، پی. Zitnick، CL مایکروسافت کوکو: اشیاء مشترک در زمینه. در مجموعه مقالات کنفرانس اروپایی بینایی کامپیوتر، گلاسکو، بریتانیا، 23 تا 28 اوت 2020؛ صص 740-755. [ Google Scholar ]
  68. میتال، آ. زیسرمن، آ. Torr، PH تشخیص دست با استفاده از چند پیشنهاد. در مجموعه مقالات BMVC، کلاورتون، بریتانیا، 8 سپتامبر 2020؛ پ. 5. [ Google Scholar ]
  69. بشیری، ف.س. لارز، ای. پیسیگ، پی. تفتی، AP MCIndoor20000: مجموعه داده تصویری کاملاً برچسب‌گذاری شده برای پیشبرد تشخیص اشیاء داخلی. داده مختصر 2018 ، 17 ، 71-75. [ Google Scholar ] [ CrossRef ] [ PubMed ]
  70. کوزنتسوا، آ. رام، اچ. آلدرین، ن. Uijlings، J. کراسین، آی. پونت توست، جی. کمالی، س. پوپوف، اس. مالوچی، م. Kolesnikov، A. مجموعه داده تصاویر باز v4: طبقه بندی تصویر یکپارچه، تشخیص اشیا، و تشخیص ارتباط بصری در مقیاس. arXiv 2018 , arXiv:1811.00982. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  71. عبدالله، دبلیو ماسک R-CNN برای تشخیص اشیاء و تقسیم‌بندی نمونه در Keras و Tensorflow. 2017. در دسترس آنلاین: https://github.com/matterport/Mask_RCNN (در 18 دسامبر 2020 قابل دسترسی است).
  72. کوریا، آی. فورنیه، اف. اسکاربوفسکی، I. مورد نامشخص کشف کلاهبرداری کارت اعتباری. در مجموعه مقالات نهمین کنفرانس بین المللی ACM در مورد سیستم های مبتنی بر رویداد توزیع شده، بارسلون، اسپانیا، 3 تا 7 ژوئیه 1995; ص 181-192. [ Google Scholar ]
  73. آدی، ع. بوتزر، دی. نچوشتی، گ. شارون، جی. پردازش رویداد پیچیده برای خدمات مالی. در مجموعه مقالات کارگاههای محاسباتی خدمات IEEE 2006، شیکاگو، IL، ایالات متحده آمریکا، 18 تا 22 سپتامبر 2006. صص 7-12. [ Google Scholar ]
  74. کابانیلاس ماسیاس، سی. کوریک، ا. دی سیچیو، سی. گوجهر، م. مندلینگ، جی. پرشر، جی. Simecka، J. ترکیب پردازش رویداد و ماشین‌های بردار پشتیبانی برای پیش‌بینی‌های انحراف خودکار پرواز. در مجموعه مقالات اولین کارگاه بین‌المللی مدل‌سازی فرآیندهای بین سازمانی و اولین کارگاه بین‌المللی مدل‌سازی رویداد و پردازش در مدیریت فرآیندهای کسب‌وکار که با شرکت Modellierung، وین، اتریش، 19 مارس 2014 برگزار شد. ص 45-47. [ Google Scholar ]
  75. چن، سی. فو، جی اچ. سانگ، تی. وانگ، P.-F. جو، ای. فنگ، M.-W. پردازش رویداد پیچیده برای اینترنت اشیا و کاربردهای آن. در مجموعه مقالات کنفرانس بین المللی IEEE 2014 در علوم و مهندسی اتوماسیون (CASE)، تایپه، تایوان، 19 اوت 2014. صص 1144-1149. [ Google Scholar ]
  76. نیلسن، اس. چمبرز، سی. Farr, J. سیستم‌ها و روش‌ها برای پردازش رویداد پیچیده اطلاعات خودرو و اطلاعات تصویر مربوط به یک خودرو. ثبت اختراع ایالات متحده شماره 8،560،164، 15 اکتبر 2013. [ Google Scholar ]
  77. بونینو، دی. De Russis، L. پردازش رویداد پیچیده برای افسران شهر: رویکرد بصری فیلتر و لوله. IEEE Int. Things J. 2017 , 5 , 775–783. [ Google Scholar ] [ CrossRef ]
  78. پنگ، اس. او، J. پردازش رویداد پیچیده تودرتو با زمینه آگاه کارآمد از طریق جریانهای RFID. در مجموعه مقالات کنفرانس بین المللی مدیریت اطلاعات عصر وب، نانچانگ، چین، 3 ژوئن 2016; صص 125-136. [ Google Scholar ]
  79. جدوبوم، AC; آری، ع. آدامو، ا. Gueroui، AM; محمدو، ع. Aliouat، Z. جمع آوری داده های بزرگ در شبکه های حسگر بی سیم در مقیاس بزرگ. Sensors 2018 , 18 , 4474. [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
  80. برونز، آر. دانکل، جی. ماسبروخ، اچ. Stipkovic، S. Intelligent M2M: پردازش رویداد پیچیده برای ارتباط ماشین به ماشین. سیستم خبره Appl. 2015 ، 42 ، 1235-1246. [ Google Scholar ] [ CrossRef ]
  81. بله، جی. لی، ی. خو، اچ. لیو، دی. چانگ، اس.-ف. Eventnet: یک کتابخانه مفهومی ساختار یافته در مقیاس بزرگ برای تشخیص رویدادهای پیچیده در ویدیو. در مجموعه مقالات بیست و سومین کنفرانس بین المللی ACM در چند رسانه ای، بریزبن، استرالیا، 26 تا 30 اکتبر 2015. صص 471-480. [ Google Scholar ]
  82. یداو، پ. Curry، E. VEKG: نمودار دانش رویداد ویدیویی برای نمایش جریان‌های ویدیویی برای تطبیق الگوی رویداد پیچیده. در مجموعه مقالات اولین کنفرانس بین المللی 2019 در محاسبات نمودار (GC)، لاگونا هیلز، CA، ایالات متحده آمریکا، 25-27 سپتامبر 2019؛ ص 13-20. [ Google Scholar ]
  83. طوسیف، ک. حسین، جی. راجا، ج. جسمین، م. عارف، ای. مروری بر سیستم‌های پردازش رویداد پیچیده برای داده‌های بزرگ. در مجموعه مقالات چهارمین کنفرانس بین المللی 2018 در بازیابی اطلاعات و مدیریت دانش (CAMP)، کوتا کینابالو، اندونزی، 26 مارس 2018؛ صص 1-6. [ Google Scholar ]
  84. سعیدی، س. موسی، ع. El-Sheimy، N. مسیریابی شخصی آگاه از زمینه با استفاده از ترکیب حسگر تعبیه شده در گوشی های هوشمند. Sensors 2014 , 14 , 5742-5767. [ Google Scholar ] [ CrossRef ] [ PubMed ]
  85. اوجاغ، س. سعیدی، س. Liang، SHL یک سیستم ردیابی تماس فرد به فرد و فرد به مکان COVID-19 بر اساس OGC IndoorGML. ISPRS Int. J. Geo-Inf. 2021 ، 10 ، 2. [ Google Scholar ]
شکل 1. معماری یکپارچه طراحی شده برای تشخیص رویدادهای پیچیده (DB: DataBase).
شکل 2. مراحل تطبیق رویداد در ابر.
شکل 3. نمودار پیاده‌سازی معماری توسعه‌یافته (IoT: اینترنت اشیا، STA: SensorThing API، MQTT: انتقال تله متری صف پیام، AWS: خدمات وب آمازون).
شکل 4. مدل داده پیشنهادی بر اساس SensorThings API.
شکل 5. مدل منطقی برای پایگاه داده ابر.
شکل 6. نمودار روابط مکانی، زمانی و شی برای رفتارهای مخاطره آمیز.
شکل 7. نتایج تشخیص شیء معماری YOu Look at Once (YOLO).
شکل 8. نتایج تشخیص شیء معماری شبکه عصبی کانولوشنال منطقه ای ماسک شده ( Mask-RCNN).
شکل 9. مقادیر رویداد پیچیده: ( الف ) Recall; ( ب ) دقت
شکل 10. نتایج تطبیق رویداد با امتیاز F برای معماری یکپارچه با چند دوربین، دوربین1 و دوربین2 برای سه رویداد.
شکل 11. مقایسه مقادیر تاخیر نسبی آفلاین، لبه و معماری یکپارچه.

بدون دیدگاه

دیدگاهتان را بنویسید