1. مقدمه
در شهرهای سراسر جهان، ترافیک به طور مداوم در حال افزایش است. به خصوص در محیط های شهری، این امر مدیریت ترافیک را پیچیده تر می کند. در شبکه های جاده ای در مقیاس بزرگ، سیستم های مدیریت ترافیک مناسب برای کنترل جریان ترافیک در شرایط مختلف مورد نیاز است. روشهای توسعهیافته برای مقابله با سیستم مدیریت ترافیک، بهعنوان مثال، SCATS [ 1 ، 2 ، 3 ]، کنترل فشار حداکثر [ 4 ، 5 ، 6 ، 7 ، 8 ، 9 ] و سایر روشهای بررسی شده در ادبیات زیر [ 10 ، 11 ، 12]. برای کار با حداکثر کارایی، روش ها به داده های جریان ترافیک کامل و قابل اعتماد نیاز دارند.
علیرغم پیشرفتهای فناوری برای جمعآوری دادههای ترافیک، دادههای جریان ترافیک حاصله کامل نیستند و مشکلات مهمی مانند دادههای از دست رفته اجتنابناپذیر هستند [ 13 ، 14 ]. به عنوان مثال، نسبت داده های گمشده آشکارسازهای حلقه جمع آوری شده توسط سیستم اندازه گیری عملکرد (PeMS) در کالیفرنیا بالاتر از 10٪ است [ 15 ]. داده های از دست رفته می تواند به دلیل عملکرد نادرست حسگر، خطاهای ارتباطی، مشکلات برق، انسداد و غیره رخ دهد. گاهی اوقات، آشکارسازها ممکن است برای مدت زمان طولانی تری از کار بیفتند و شکاف هایی در سیگنال زمانی ایجاد کنند. این مسائل برای سیستم های مدیریت ترافیک که اغلب بر داده های کامل و قابل اعتماد متکی هستند، چالشی ایجاد می کند. در نتیجه، نیاز آشکاری به روشهایی وجود دارد که بتوانند دادههای از دست رفته را بهدقت نسبت دهند.
مشکل داده های از دست رفته در ادبیات توجه زیادی را به خود جلب کرده است و در زمینه هایی مانند مهندسی، پزشکی و اقتصاد مورد مطالعه قرار گرفته است [ 16 ، 17 ، 18 ]. مقالهها دستههای مختلف روشهای انتساب دادهها، مانند روشهای مبتنی بر پیشبینی، مبتنی بر درونیابی، و مبتنی بر یادگیری آماری را بررسی میکنند. روشهای مبتنی بر پیشبینی، مانند ARIMA، نقاط داده از دست رفته را بهعنوان مقداری برای پیشبینی بر اساس رابطهای که از دادههای تاریخی به دست میآید، مشاهده میکنند [ 19 ] ] مشاهده میکنند. روشهای مبتنی بر درونیابی، مانند درونیابی خطی، اسپلاین و نزدیکترین همسایه، دادههای گمشده را از میانگین وزنی نقاط دادههای شناخته شده گذشته که الگوی مشابهی با نقطه داده فعلی دارند و وجود فصلی در دادهها را فرض میکنند، نسبت میدهند.20 ]. روشهای مبتنی بر یادگیری آماری فرض میکنند که دادهها از توزیع احتمال پیروی میکنند و ویژگیهای آماری دادهها را برای انتساب دادهها یاد میگیرند. نمونههایی از روشهای مبتنی بر یادگیری آماری عبارتند از انتساب میانگین، عرشه داغ و انتساب چندگانه [ 21 ].
تکنیک های مختلفی به طور خاص برای رسیدگی به داده های از دست رفته در داده های جریان ترافیک پیشنهاد شده است. اکثر آنها بر روی همبستگی های زمانی به صورت روزانه تمرکز می کنند. ژونگ و همکاران [ 22 ] روش های انتساب داده های مورد استفاده در چندین آژانس حمل و نقل در آمریکای شمالی و اروپا را مورد مطالعه قرار داد. اکثر آژانس ها عمدتاً از روش های تحلیل عاملی و سری زمانی ساده بر اساس داده های تاریخی استفاده می کردند. این رویکردها شباهت شدید جریان ترافیک روزانه را در فواصل زمانی فرض می کنند. نتایج تجربی نشان میدهد که این روشها میتوانند خطاهای زیادی تا ۸۰ درصد درصد مطلق خطا در ساعات اوج صبح داشته باشند. نی و لئونارد [ 23] یک روش انتساب داده را با استفاده از یک شبکه بیزی برای یادگیری از داده های تاریخی و یک تکنیک زنجیره مارکوف مونت کارلو برای نمونه برداری از توزیع های احتمال از شبکه بیزی آموزش دیده پیشنهاد کرد. روشهای مبتنی بر یادگیری آماری مانند اینها سعی میکنند یک مدل آماری از جریان ترافیک استخراج کنند. آنها معمولاً در مقایسه با روش های معمولی عملکرد بهتری دارند. روش آماری دیگری به نام روش انتساب داده های تحلیل مولفه های اصلی احتمالی (PPCA) نامیده می شود که اولین بار توسط کو و همکاران ارائه شد. [ 24 ]. PPCA داده های گم شده را بر اساس تجزیه و تحلیل مشابه PCA از داده های تاریخی نسبت می دهد و نشان داده است که عملکرد را تا 25٪ در مقایسه با روش های کلاسیک بهبود می بخشد. تان و همکاران [ 25] روش RPCA را توسعه داد که از محدودیت های شناخته شده حجم ترافیک و شباهت حالت روز استفاده می کند. شباهت ترافیک روزانه برای القای داده های گمشده توسط فرضیه رتبه پایین ماتریس جریان ترافیک ساخته شده استفاده می شود. محدودیت های فیزیکی ظرفیت جاده و غیرمنفی بودن در فرآیند بهینه سازی به عنوان محدودیت استفاده می شود.
اگرچه تمامی روشهای انتساب دادههای ذکر شده در بالا در مقایسه با روشهای مرسوم عملکرد خوبی دارند، اما ضعف این روشها این است که تنها از اطلاعات زمانی از شباهت جریان روزانه استفاده میکنند و از این رو، تغییر الگوی زمانی ناشی از خرابی یا ترکیدگی ترافیک [ 26 ]] ممکن است عملکرد را کاهش دهد. همچنین فرض میکند که دادههای جریان ترافیک توسط موارد پرت که اغلب در تنظیمات دنیای واقعی رخ میدهند، خراب نمیشوند. داده های ترافیکی جمع آوری شده توسط آشکارسازهای وسایل نقلیه حاوی اطلاعات مکانی و زمانی است، زیرا وسایل نقلیه از چندین آشکارساز خودرو در طول مسیر خود عبور می کنند. به طور شهودی، دادههای جریان ترافیک جمعآوریشده از آشکارسازهای وسیله نقلیه واقع در نزدیکی یکدیگر از نظر فضایی بسیار همبستگی خواهند داشت. از این رو، افزودن اطلاعات مکانی در روش محاسبه داده های ترافیکی مفید است و می تواند عملکرد آن را بهبود بخشد. در سالهای اخیر، تحقیقات بیشتر در مورد دادههای ترافیکی شامل همبستگی فضایی است و نتایج امیدوارکنندهای را نشان میدهد.
اسمیت و همکاران [ 27 ] هم رویکردهای اکتشافی و هم رویکردهای آماری مانند میانگین تاریخی و افزایش داده ها را مورد مطالعه قرار دادند. این تحقیق نشان داد که میتوان دادههای یک آشکارساز را از دیگر آشکارسازهای اطراف آن در یک بافت آزادراه نسبت داد. چن و همکاران [ 28 ] یک روش انتساب داده را پیشنهاد کرد که رابطه بین حلقه های همسایه را به عنوان یک مدل خطی مدل می کند و رگرسیون خطی برای تخمین داده های گمشده با استفاده از داده های تاریخی استفاده می شود. نتایج ارائه شده عملکرد بهتری را در مقایسه با روش های درون یابی مرسوم در آزادراه های واقع در کالیفرنیا نشان داد. لی و همکاران [ 29] تحقیق کرد که اطلاعات مکانی استخراج شده از اطلاعات حسگرهای متعدد به کاهش خطای انتساب برای روشهای PPCA و KPPCA کمک میکند. ران و همکاران [ 30 ] انتساب داده های ترافیک گمشده مبتنی بر تانسور را پیشنهاد کرد که از تانسورهای چهار طرفه، متشکل از اطلاعات روز، هفته، زمان و مکان استفاده می کند. نتایج نشان دادهاند که افزودن اطلاعات مکانی میتواند به کاهش خطاهای انتساب، حتی در موارد شدید دادههای گمشده کمک کند. لانا و همکاران [ 31 ] روش انتساب دادههای حسگر زمینه فضایی را توسعه داد که از تمام آشکارسازهای خودرو در منطقه مرکزی مادرید با آشکارسازهای خودرو به خوبی توزیع شده استفاده میکند. روش محاسبه بر اساس پیشبینیهای یک مدل ماشین یادگیری افراطی (ELM) ساخته شده است. لی و همکاران [ 32] نشان داد که روش مبتنی بر PPCA با استفاده از یک آشکارساز وسیله نقلیه از چندین روش انتساب داده مانند ARIMA، شبکه بیزی، k-NN، حداقل مربعات محلی (LLS) و زنجیره مارکوف مونت کارلو (MCMC) بهتر عمل می کند.
تحقیقات فوق نشان میدهد که استفاده از اطلاعات مکانی میتواند برانگیختن دادهها را بهبود بخشد. با این حال، مطالعات عمدتاً بر تنظیمات آزادراه تمرکز دارند یا فرض میکنند آشکارسازها رفتار مشابهی دارند [ 29 ، 30 ، 31 ، 32]. ترافیک شهری در مقایسه با آزادراه ها ویژگی های بسیار متفاوتی دارد. در آزادراهها، همبستگی فضایی بین آشکارسازهای خودرو ساده است، زیرا آشکارسازهای موجود در همان پیوند و فاصله نزدیک معمولاً مستقیماً به هم مرتبط هستند، بنابراین ویژگیهای جریان ترافیک بین یک آشکارساز وسیله نقلیه و همتایان بالادست و پاییندست آن مشابه است و تنها تحت تأثیر تأخیر زمانی قرار میگیرد. . در بافت شهری، آشکارسازها معمولاً برای شمارش وسایل نقلیه ای که یک تقاطع را ترک می کنند، قرار می گیرند. این بدان معنی است که هر آشکارساز در یک پیوند متفاوت قرار دارد که توسط چراغ های راهنمایی از هم جدا شده است. در نتیجه، اگرچه آشکارسازها می توانند به هم نزدیک باشند، اما می توانند رفتارهای جریان بسیار متفاوتی را اندازه گیری کنند، که باعث می شود همبستگی فضایی بین آشکارسازها در شبکه های شهری ساده نباشد.
این مقاله عملکرد انتساب داده ها را در یک محیط شهری تحت سناریوهای مختلف برای اطلاعات مکانی، بررسی تعاریف شبکه تک آشکارساز، زیرشبکه و شبکه سراسر شهر بررسی می کند. دادهها با استفاده از روش مبتنی بر PPCA فضایی-زمانی، با استفاده از همبستگی مکانی-زمانی در یک شبکه شهری با اصلاح ماتریس دادههای مشاهدهشده انجام میشود. استحکام روش با آزمایش روش از شرایط خطای کوچک تا شدید بررسی میشود. این مقایسه تأثیر تعاریف مختلف شبکه فضایی مربوط به آشکارسازهای خودرو را بر عملکرد انتساب دادهها بررسی میکند.
بقیه این مقاله به شرح زیر سازماندهی شده است. بخش 2 تئوری روشهای انتساب دادههای مبتنی بر PPCA، توضیح روش مبتنی بر PPCA تک آشکارساز و روش مبتنی بر شبکه PPCA، طبقهبندی دادههای گمشده مورد استفاده در این کار تحقیقاتی، مطالعه موردی مورد استفاده برای آزمایش، و عملکرد انتساب دادهها را توضیح میدهد. معیارهای مورد استفاده نتایج آزمایش در بخش 3 نشان داده شده و در بخش 4 مورد بحث قرار گرفته است. بخش 5 این کار تحقیقاتی را به پایان می رساند و کارهای آینده را مورد بحث قرار می دهد.
2. مواد و روشها
در این مقاله، دادههای جریان ترافیک بهدستآمده از سیستم کنترل ترافیک منطقه (ATCS) واقع در شبکه شهری شهر سورابایا، اندونزی، برای آزمایشها استفاده میشوند. مجموعه دادههای مصنوعی با دادههای گمشده با حذف دادهها از مجموعه داده اصلی ایجاد شدند و روشهای انتساب بر روی این مجموعه دادهها ارزیابی میشوند. بخش زیر روش انتساب داده های مبتنی بر PPCA و گسترش به سمت PPCA مکانی-زمانی را شرح می دهد. این بخش سناریوهای داده های گمشده مورد استفاده در مقاله، توضیح مطالعه موردی و معیارهای عملکرد مورد استفاده برای ارزیابی را ارائه می کند.
2.1. روشهای انتساب داده مبتنی بر PPCA
روشهای انتساب دادههای مبتنی بر PPCA برای دادههای ترافیک در چندین مقاله مورد بحث قرار گرفتهاند [ 24 ، 29 ، 33 ]. PPCA یک فرمول مجدد از PCA شناخته شده به عنوان یک تخمین حداکثر احتمال بر اساس مدل چگالی احتمال داده ها است [ 34 ]. روش PPCA چندین مزیت را در مقایسه با PCA نشان داده است، مانند توانایی مدیریت داده های از دست رفته و مقیاس پذیری بهتر. ایده پشت روش انتساب مبتنی بر PPCA این است که داده های از دست رفته به عنوان یک متغیر تصادفی در نظر گرفته می شود که مشاهده نمی شود. مدل سعی می کند تابع احتمال را از داده های مشاهده شده پیش بینی کند تا بتوان داده های گمشده را از تابع احتمال پیش بینی کرد.
با فرض اینکه داده های مشاهده شده از مدل PPCA تولید می شوند، رابطه بین داده های مشاهده شده با اجزای اصلی آن را می توان به عنوان یک نقشه تحلیل عاملی استاندارد [ 35 ] به شرح زیر توصیف کرد:
جایی که هست یک -بردار بعدی داده های مشاهده شده و هست یک -بردار بعدی متغیرهای پنهان. بطور کلی، به گونه ای که متغیرهای نهفته ابعاد مدل را کاهش داده و مدلی مقرون به صرفه ارائه می دهند. این ماتریس یک ماتریس طرح ریزی است که یک نقشه خطی بین داده های مشاهده شده را نشان می دهد و متغیرهای پنهان . ماتریس میانگین به مدل اجازه می دهد تا مقادیر میانگین غیر صفر داشته باشد و ماتریسی است که نویز همسانگرد را نشان می دهد که مستقل فرض می شود و به طور یکسان نرمال با میانگین صفر توزیع شده است. واریانس
تعداد اجزای اصلی یک پارامتر طراحی PPCA است. تعداد بیشتری از منجر به حفظ واریانس بهتر از داده های مشاهده شده و داده های بازسازی شده با دقت بیشتری می شود، اما ممکن است باعث شود مدل بیش از حد برازش کند. برای ایجاد تعادل بین کلیت و دقت، معمولاً با استفاده از اعتبارسنجی متقاطع کالیبره می شود. مدل حاصل به صورت زیر تعریف می شود:
برای و هیچ فرمول تحلیلی بسته ای وجود ندارد، و از این رو تخمین های آنها با بیشینه سازی تکراری از احتمال ورود به سیستم مربوطه با استفاده از یک الگوریتم انتظار-بیشینه سازی (EM) تعیین می شود. یک الگوریتم EM کارآمد برای تخمین این پارامترها در منابع [ 34 ، 36 ، 37 ] فرموله شد.
این مقاله دو رویکرد را برای روشهای انتساب داده مبتنی بر PPCA مقایسه میکند. اولین مورد، پیشنهاد شده توسط کو و همکاران. [ 24 ]، روش تک آشکارساز مبتنی بر PPCA، تنها به همبستگی زمانی که از دادههای تاریخی یک آشکارساز وسیله نقلیه جمعآوری شده است، وابسته است. روش دوم، ارائه شده در این مقاله، یک روش مبتنی بر PPCA مکانی-زمانی است که از همبستگی زمانی و همبستگی مکانی بین آشکارسازهای خودرو با اصلاح ماتریس دادههای مشاهدهشده استفادهشده و استفاده از دادههای شمارش ترافیک از آشکارسازهای خودروی متعدد در یک شبکه شهری استفاده میکند.
2.1.1. روش انتساب داده مبتنی بر آشکارساز PPCA
فرض کنید دادههای جریان ترافیک در یک آشکارساز وسیله نقلیه برای یک روز جمعآوری شده و سپس به صورت سری دادهها جمعآوری میشوند ، جایی که تعداد نقاط داده در روز را نشان می دهد. به عنوان مثال، اگر فاصله نمونه برداری آشکارساز خودرو 15 دقیقه باشد، برابر 96. اگر داده های جریان ترافیک برای روزهای متوالی، این بازده -بردارهای ردیف بعدی این بردارهای ردیف در کنار هم قرار می گیرند تا یک ماتریس داده به دست آید
که در آن هر ستون داده های جریان ترافیک جمع آوری شده در یک روز را نشان می دهد. ماتریس داده به دست آمده است برای هر آشکارساز وسیله نقلیه
این روش فرض میکند که مقادیر جریان ترافیک در زمان نمونهگیری یکسان اما در روزهای مختلف به طور ضمنی از طریق مدل PPCA همبستگی دارند. فرض بر این است که همه عناصر در یک ردیف خاص از یک توزیع مشترک پیروی می کنند. این روش همچنین به طور همزمان از نوسانات جریان روز جاری و اطلاعات جریان ترافیک روز مجاور آن استفاده می کند و از این رو نیازی به شباهت شدید بین تمام روزهای مختلف ندارد.
همانطور که توسط Qu و همکاران مورد بحث قرار گرفت. [ 24 ]، این روش دو الزام دارد. اولاً، اگر آشکارساز وسیله نقلیه برای مدت طولانی کار نمیکند، نتایج انتساب دادهها ممکن است مغرضانه باشد. ثانیا، داده های بازسازی شده از مدل باید جنبه های مهم داده ها مانند توزیع را حفظ کنند. این به این معنی است که حتی اگر شباهت روزانه جریان به شدت مورد نیاز نباشد، اگر مدل حاصل نتواند توزیع دادههای مشاهدهشده را حفظ کند، نتایج انتساب ممکن است نادرست باشد. در ادامه این مقاله، این روش به اختصار Single PPCA است.
2.1.2. روش انتساب داده مبتنی بر PPCA فضایی-زمانی
فرض کنید دادههای جریان ترافیک در تمام آشکارسازهای خودروهای مختلف در یک شبکه جمعآوری شدهاند، و یک سری داده به عنوان ، ، اکتسابی است، که در آن تعداد نقاط داده در روز است و تعداد آشکارسازهای خودرو در یک شبکه است. فرض کنید دادههای جریان ترافیک برای روزهای متوالی جمعآوری میشوند و تمام نقاط داده در یک آشکارساز منفرد در کنار هم قرار میگیرند. ، ، . اگر تمام نقاط داده یک آشکارساز وسیله نقلیه منفرد به صورت یک بردار انباشته شوند، داده های جریان ترافیک را می توان با هم به شکل ماتریس داده زیر مرتب کرد. که تعریف میشود
که در آن هر ستون نشان دهنده نقاط داده از یک آشکارساز است. ماتریس حاصل از داده های مشاهده شده دارای ابعاد است ، جایی که تعداد روزهای متوالی داده های جریان ترافیک را نشان می دهد آشکارسازهای خودرو در شبکه شکل 1 ساخت ماتریس را در رابطه (4) نشان می دهد.
ساختار ماتریس داده پیشنهادی فرض میکند که مقادیر جریان ترافیک در شکافهای زمانی مشابه روی آشکارسازهای مختلف به طور ضمنی مرتبط هستند و از توزیع خاصی پیروی میکنند. این روش تلاش میکند تا رابطه بین گروهی از آشکارسازهای خودرو را در مکانهای مختلف بازیابی کند، با استفاده از اطلاعات مکانی-زمانی به دست آمده از نوسانات جریان ترافیک یک آشکارساز وسیله نقلیه خاص و اطلاعات جریان ترافیک از دیگر آشکارسازهای خودرو در شبکه. از آنجایی که این روش از جریان ترافیک روزهای همسایه استفاده نمی کند، اگر توزیع به دست آمده از آشکارسازهای خودروهای مختلف در مدل حفظ شود، نیازی به شباهت جریان روزانه وجود ندارد. این می تواند به استحکام بهتر از نظر خرابی یا ترکیدگی ترافیک منجر شود. با این حال، برخی از هشدارها وجود دارد. همبستگی فضایی بین آشکارسازهای مختلف معمولاً در طول مسافت کاهش مییابد. علاوه بر این، در یک شبکه شهری، آشکارسازهای وسیله نقلیه نه تنها بر اساس مسافت از هم جدا می شوند، بلکه با چراغ های راهنمایی که بین آشکارسازها قرار دارند نیز از هم جدا می شوند. آشکارسازهای خودرو می توانند جهات مختلف را کنترل کنند، حتی اگر فاصله آنها نزدیک باشد. بنابراین انتخاب شبکه و اینکه کدام آشکارسازها را در یک شبکه قرار دهیم باید به دقت مورد توجه قرار گیرد. این یکی از محورهای مهم این مطالعه است. مقایسه ای از جریان فرآیند برای آشکارساز منفرد و روش انتساب داده مبتنی بر PPCA فضایی-زمانی در نشان داده شده است. حتی اگر فاصله آنها نزدیک باشد. بنابراین انتخاب شبکه و اینکه کدام آشکارسازها را در یک شبکه قرار دهیم باید به دقت مورد توجه قرار گیرد. این یکی از محورهای مهم این مطالعه است. مقایسه ای از جریان فرآیند برای آشکارساز منفرد و روش انتساب داده مبتنی بر PPCA فضایی-زمانی در نشان داده شده است. حتی اگر فاصله آنها نزدیک باشد. بنابراین انتخاب شبکه و اینکه کدام آشکارسازها را در یک شبکه قرار دهیم باید به دقت مورد توجه قرار گیرد. این یکی از محورهای مهم این مطالعه است. مقایسه ای از جریان فرآیند برای آشکارساز منفرد و روش انتساب داده مبتنی بر PPCA فضایی-زمانی در نشان داده شده است.شکل 2 . رویه های جدید توسعه یافته با رنگ آبی نشان داده شده اند.
به طور کلی، یک شبکه معمولاً به یک منطقه اداری بزرگ مانند یک شبکه در سطح شهر اشاره دارد. متأسفانه، در این تعریف از شبکه، آشکارسازهای خودرو به دلیل فاصله و ویژگیهای متفاوت مربوط به موقعیت آنها در شبکه، لزوماً همبستگی نزدیکی ندارند. عاقلانه تر است که زیرمجموعه ای از شبکه (“زیر شبکه”) را انتخاب کنید که تمرکز بیشتری داشته باشد، جایی که گره ها دارای ویژگی های مشابهی هستند (مثلاً همانطور که طبق طبقه جاده و کاربری زمین تعریف می شود). برای نشان دادن تاثیر انتخاب شبکه، دو نوع از این روش پیشنهادی در نظر گرفته میشود: (1) یک روش مبتنی بر PPCA مکانی-زمانی آموزشدیده با استفاده از دادههای یک شبکه کل شهر به نام Network PPCA و (2) یک روش آموزش داده شده با استفاده از دادههای یک شبکه فرعی دستچین شده به نام Sub-Network PPCA. تفاوت همبستگی فضایی بین آشکارسازها در دو رویکرد است. شبکه PPCA با استفاده از دادههای جریان ترافیکی که ممکن است همبستگی فضایی ضعیفی داشته باشند به دلیل مساحت وسیعشان آموزش داده میشود، در حالی که PPCA زیرشبکه با استفاده از دادههای جریان ترافیک که همبستگی مکانی قوی دارند آموزش داده میشود.
2.2. داده های از دست رفته
به طور کلی، سه دسته از داده های از دست رفته وجود دارد: به طور تصادفی از دست رفته (MCAR)، از دست رفته به طور تصادفی (MAR)، و از دست رفته به طور تصادفی (NMAR) [ 38 ]. هر دو MCAR و MAR هیچ مکانیسم اساسی برای داده های از دست رفته ندارند، در حالی که NMAR وابستگی توزیع داده های از دست رفته به مجموعه داده کامل را فرض می کند. این طبقه بندی داده های گمشده در تحقیقات مختلف مورد استفاده قرار گرفته است [ 24 ، 39 ، 40 ].
در واقعیت، داده های گمشده در میان مشاهدات جریان ترافیک ممکن است ترکیبی از MCAR، MAR و NMAR باشد. از آنجایی که تشخیص MAR و MCAR از NMAR بر اساس داده ها دشوار است، Chiou et al. [ 41 ] طبقه بندی داده های از دست رفته را به صورت نقطه ای و فاصله ای پیشنهاد کرد. داده های از دست رفته نقطه ای کاملاً مستقل از مقدار مشاهده شده و مشاهده نشده هستند و همچنین نقاط گمشده به طور تصادفی پراکنده می شوند. دادههای از دست رفته ممکن است به دلیل نقص کوتاهمدت باشد. داده های از دست رفته از نظر فاصله زمانی، نقاط داده از دست رفته ای هستند که به عنوان یک بازه یا یک گروه بزرگ گروه بندی می شوند. دادههای از دست رفته از نظر فاصله زمانی میتواند ناشی از نقص درازمدت در آشکارسازهای خودرو باشد، مانند نقص سختافزاری، فیبر نوری قطع شده و غیره.شکل 3 ، و هر دو نوع خطا در آزمایشها در نظر گرفته شدهاند.
2.3. مطالعه موردی: شبکه شهری سورابایا، اندونزی
در این مقاله، دادههای جریان ترافیک از 438 آشکارساز خودرو در شبکه شهری سورابایا، اندونزی در آزمایشها استفاده میشود. دادههای شمارش ترافیک با استفاده از آشکارسازهای خودرو مبتنی بر ویدیو جمعآوری میشوند و توسط سیستم کنترل ترافیک منطقه سورابایا ارائه میشوند که از دادههای حاصل برای اهداف کنترل ترافیک استفاده میکند. داده های شمارش ترافیک هر 15 دقیقه برای به دست آوردن اطلاعات جریان ترافیک جمع می شوند. در این مقاله، دادهها از 1 ژانویه 2020 تا 29 فوریه 2020 جمعآوری شده است. در این مدت، مشخص شد که از 438 ردیاب خودرو تنها 285 مورد در شرایط کار قرار دارند، در حالی که بقیه آشکارسازها یا دارای دادههای گمشده زیادی هستند. یا اصلا کار نمیکنن
این 285 آشکارساز در 115 تقاطع در اطراف شبکه شهری سورابایا، اندونزی واقع شدهاند که مساحتی در حدود 200 کیلومتر مربع را پوشش میدهند که در شکل 4 الف نشان داده شده است. از آنجایی که هدف این آشکارسازها کنترل ترافیک است، ردیاب وسایل نقلیه ای را که از یک تقاطع خارج می شوند، شمارش می کند. تصویری از قرارگیری آشکارسازها در یک تقاطع در شکل 4 ب نشان داده شده است. برای 285 آشکارساز، نسبت داده های از دست رفته به طور متوسط 18.3٪ است. دادههای از دست رفته بیشتر از نظر فاصله زمانی نسبت به دادههای از دست رفته نقطهای وجود دارد، زیرا شایعترین علت از دست رفتن دادهها، مشکلات ارتباطی ناشی از مشکلات سختافزاری یا قطع اینترنت است.
در روش مبتنی بر PPCA، فرض بر این است که الگوی زمانی مجموعه دادهها به صورت روزانه مشابه است. این فرض تنها با استفاده از داده های جمع آوری شده در روز دوشنبه از هشت هفته مختلف برآورده می شود. هر روز دارای 96 نقطه داده است، بنابراین تعداد کل نقاط داده موجود 768 نقطه داده برای هر یک از 285 آشکارساز خودرو است که در مجموع به 218880 نقطه داده جریان ترافیک برای کل شبکه منجر می شود.
محله دیپونگورو
همانطور که در بخش 2.1.2 توضیح داده شد ، این بخش تأثیر انتخاب زیرمجموعه (“شبکه فرعی”) را بر عملکرد در مقایسه با یک شبکه در سطح شهر بررسی می کند. در این مورد، مقاله یک شبکه فرعی از آشکارسازهای خودرو را ارزیابی میکند که نزدیک به هم هستند و کلاس جادهای مشابهی دارند. این بدان معنا نیست که آنها جریان مشابهی را که در یک آزادراه وجود دارد اندازه گیری می کنند، زیرا وسایل نقلیه می توانند بین آشکارسازها وارد یا خارج شوند و اندازه گیری ها در جهات مختلف انجام می شود. با این حال، مجاورت و کلاس جاده مشابه منجر به یک همبستگی فضایی بالقوه بالاتر در مقایسه با یک شبکه در سطح شهر می شود و این ممکن است بر عملکرد انتساب تأثیر بگذارد. شبکه و زیرشبکه در سطح شهر در شکل 4 ج نشان داده شده است.
محله Diponegoro یک راهرو است که حدود 2.7 کیلومتر را در بر می گیرد و جاده هایی که آشکارسازها روی آنها قرار دارند به عنوان جاده های شریانی اولیه طبقه بندی می شوند [ 42 ]. اگر این آشکارسازها در یک شبکه فرعی گروه بندی شوند، چهار تقاطع با عنوان شناسه سایت 2، شناسه سایت 3، شناسه سایت 4 و شناسه سایت 5 مانند شکل 5 وجود دارد. آشکارسازهای خودرو واقع در سایت ID 34 و سایت ID 112 در این مطالعه موردی در نظر گرفته نمی شوند، زیرا آشکارسازهای خودرو در هر دو تقاطع به ترتیب در پیوند با کلاس جاده متفاوت، کلاس جاده شریانی ثانویه و کلاس جاده جمع کننده ثانویه قرار دارند.
برای این مطالعه موردی، توجه به ردیابهای خودرویی است که دارای کلاس جاده (کلاس جاده شریانی اولیه) در تقاطعهای Site ID 2، Site ID 3، Site ID 4 و Site ID 5 هستند. هر تقاطع متشکل از 4 آشکارساز وسیله نقلیه است که وسایل نقلیه را برای هر لینک شمارش می کند که در نتیجه 16 آشکارساز خودرو در تمام تقاطع های ذکر شده ایجاد می شود. از هر 16 آشکارساز 8 مورد در پیوندهای طبقه بندی شده به عنوان جاده شریانی اولیه وجود دارد، در حالی که بقیه آشکارسازهای خودرو در کلاس های جاده های مختلف قرار دارند. یکی از هشت آشکارساز در زمان جمعآوری دادهها دچار مشکل شده است، بنابراین هفت آشکارساز خودروی کار برای مطالعه موردی در نظر گرفته شدهاند. هر هفت ردیاب خودرو در پیوندهای مختلف قرار دارند و با چراغ راهنمایی از هم جدا شده اند و همه ردیاب های خودرو جهت مشابهی ندارند. طول هر پیوند در سورابایا کوتاه در نظر گرفته میشود، و جادههای کوچک زیادی وجود ندارد که ممکن است به غرق شدن و صداهای منبع کمک کند. این مقاله از این انتخاب زیرمجموعه آشکارسازها استفاده میکند و بررسی میکند که آیا این ساختار در مقایسه با یک آشکارساز منفرد و یک روش شبکه در سطح شهر ارزش اضافه میکند یا خیر.
2.4. معیارهای عملکرد تلقین داده ها
به طور کلی، عملکرد روش های انتساب بر اساس تفاوت بین داده های منتسب و داده های گمشده ارزیابی می شود. معیارهای عملکرد رایج برای برانگیختن داده ها عبارتند از ریشه میانگین مربعات خطا (RMSE) و میانگین درصد مطلق خطا (MAPE) [ 43 ، 44 ، 45 ]]. RMSE معمولاً به عنوان معیارهای عملکرد انتساب برای روشهای آشکارساز تک استفاده میشود، زیرا وابسته به مقیاس است. در این مقاله، روشهای انتساب دادهها، دادههای از دست رفته را برای چند آشکارساز خودرو بهطور همزمان نسبت میدهند، بنابراین معیارهای عملکرد متغیر مقیاس مورد نیاز است. از سوی دیگر، MAPE درصد خطای داده های منتسب شده را در رابطه با داده های مشاهده شده واقعی اندازه گیری می کند، بنابراین مقیاس ثابت است، و مقایسه عملکرد انتساب داده ها برای آشکارسازهای خودروهای مختلف که مقادیر میانگین متفاوتی دارند، امکان پذیر است. متأسفانه، دادههای جریان ترافیک ممکن است حاوی دادههایی با مقادیر صفر باشد، مخصوصاً در نیمهشب یا سحر. از این رو، محاسبه MAPE نسبت داده های جریان ترافیک ممکن است مشکلات بی نهایت خطا داشته باشد.
برای حل این مسائل، میانگین وزنی درصد خطای مطلق (WMAPE) [ 46 ، 47 ، 48 ] برای توصیف عملکرد انتساب هر روش در نظر گرفته شده است. WMAPE با فرمول زیر تعریف می شود
جایی که هستند -امین بردار داده های منتسب، هستند بردارهای -امین داده های مشاهده شده شناخته شده، و تعداد داده های از دست رفته است. خطای کل بین دادههای منتسب و دادههای مشاهدهشده شناخته شده بر مجموع مقادیر دادههای مشاهدهشده شناخته شده تقسیم میشود، که مسئله تقسیم بر صفر برای دادههای جریان ترافیکی که مقادیر منفی ندارند را حذف میکند. نقاط داده محاسبه شده در این معیار عملکرد فقط در نقاطی هستند که داده ها عمدا حذف شده اند.
3. نتایج
در آزمایشات سه روش به شرح زیر اجرا و مقایسه شد:
-
Single PPCA : آموزش داده شده با استفاده از داده های جریان ترافیک یک آشکارساز منفرد جمع آوری شده در طول دوشنبه به مدت 8 هفته، منجر به ماتریس ابعادی داده های مشاهده شده در این رویکرد، داده های گمشده در هر آشکارساز خودرو در محله Diponegoro به طور جداگانه نسبت داده می شود.
-
شبکه فرعی PPCA : آموزش داده شده با استفاده از داده های جریان ترافیک 7 آشکارساز خودرو واقع در محله Diponegoro و جمع آوری شده در طول دوشنبه به مدت 8 هفته، منجر به یک ماتریس ابعادی داده های مشاهده شده داده های از دست رفته به طور همزمان برای همه آشکارسازهای خودرو منتسب می شوند.
-
شبکه PPCA : آموزش داده شده با استفاده از دادههای جریان ترافیک 285 آشکارساز خودرو واقع در شبکه شهری سورابایا، اندونزی و جمعآوری شده در طول دوشنبه به مدت 8 هفته، منجر به ماتریس ابعادی داده های مشاهده شده دادههای گمشده به طور همزمان برای همه آشکارسازهای خودرو منتسب میشوند، اما تنها آشکارسازهای خودرو واقع در محله Diponegoro در نظر گرفته میشوند.
تمامی روشهای ذکر شده برای انواع و مقادیر مختلف دادههای از دست رفته مورد ارزیابی قرار گرفتند. داده های گمشده با حذف عمدی داده ها از داده های مشاهده شده تولید می شوند. نسبت تعریف شده برای داده های از دست رفته نقطه ای با نشان داده می شود ٪، و بازه تعریف شده برای داده های از دست رفته از نظر فاصله است فواصل در روز برای داده های از دست رفته نقطه ای، درصد دادههای جریان ترافیک بهصورت تصادفی در تمام دادههای مشاهدهشده حذف میشوند، در حالی که برای دادههای از دست رفته فاصله زمانی، – فاصله داده های جریان ترافیک به طور تصادفی در هر داده یک روزه حذف می شود.
سه سناریو مختلف نیز در این مقاله در نظر گرفته شد تا عملکرد و استحکام هر روش را برای سناریوهای مختلف دادههای از دست رفته نشان دهد. در زیر توضیح هر سناریو آورده شده است.
-
سناریو A : نقاط داده از دست رفته به طور یکنواخت در تمام آشکارسازهای خودرو و روزها توزیع می شوند.
-
سناریوی B : نقاط داده از دست رفته فقط در تعدادی از آشکارسازهای خودرو ظاهر می شود. هدف از این سناریو بررسی مواردی است که ترکیبی از آشکارسازهای فعال و ناکارآمد وجود دارد.
-
سناریو C : سناریویی که چندین لینک برای یک روز یا بیشتر دچار کمبود داده می شوند. هدف از این سناریو بررسی مواردی است که چندین آشکارساز خودرو دچار نقص عملکرد طولانی مدت می شوند.
- یک _
-
سناریوی الف
سناریوی A عملکردی را بررسی می کند که در آن داده های از دست رفته به طور یکنواخت در تمام پیوندها و در تمام روزها توزیع می شوند. پس از آن، WMAPE برای همه آشکارسازها در محله Diponegoro و میانگین خطا در همه آشکارسازها محاسبه می شود. نتایج در شکل 6 برای داده های از دست رفته نقطه ای و شکل 7 برای داده های از دست رفته از نظر فاصله زمانی نشان داده شده است. این روش نمیتواند دادههای از دست رفته را در موارد شدید، به عنوان مثال، نسبت 75 درصد از دادههای از دست رفته نقطهای و 64 داده از دست رفته در فاصله زمانی در شکل 8 ، نسبت دهد. این شکست زمانی اتفاق میافتد که یک ردیف کامل از دادههای آموزشی وجود نداشته باشد، که در سطوح بالای دادههای از دست رفته اتفاق میافتد.
- ب .
-
سناریوی B
سناریوی A کاملاً واقع بینانه نیست، زیرا بعید است که همه آشکارسازهای خودرو همزمان داده های گم شده داشته باشند. معمولاً فقط تعدادی از آشکارسازها از داده های از دست رفته در یک شبکه در یک زمان معین رنج می برند. در سناریوی B، عملکرد بین PPCA منفرد و PPCA زیرشبکه برای مواردی که فقط برخی از پیوندها در شبکه از مشکلات داده های از دست رفته رنج می برند، مقایسه می شود. شبکه PPCA برای این سناریو گنجانده نشده است، زیرا هر دو PPCA زیرشبکه و PPCA شبکه انواعی از روش مبتنی بر PPCA مکانی-زمانی هستند، و از سناریوی A مشخص است که PPCA شبکهبدترین عملکرد را دارد مقایسه عملکرد با انواع مختلف داده های از دست رفته و تعداد ردیاب های خودرو که عملکرد نادرست دارند، انجام می شود.
- ج .
-
سناریوی ج
در دادههای جریان ترافیک شبکه سورابایا، مواردی وجود دارد که برخی از آشکارسازهای خودرو از دادههای گمشده از نظر فاصله زمانی رنج میبرند که میتواند بیش از یک روز دوام بیاورد. این ممکن است به دلیل مشکلات اتصال به اینترنت، قطع شدن فیبر نوری یا مشکلات سخت افزاری اتفاق بیفتد و ممکن است چند روز طول بکشد تا تعمیر شود. در سناریوی C، داده های از دست رفته برای چنین مواردی که 24 ساعت داده در هفته هشتم برای تعدادی آشکارساز از دست رفته است، منتسب می شود.
- د .
-
استحکام در برابر آشکارسازهای خودروهای دورتر
تجزیه و تحلیل استحکام با تجزیه و تحلیل تاثیر آشکارسازهای خودروی دورتر با مقایسه یک PPCA زیرشبکه آموزش دیده با استفاده از شش آشکارساز وسیله نقلیه در محله Diponegoro به اضافه یک آشکارساز بیرونی، و یک زیرشبکه PPCA 2، با استفاده از همان شش آشکارساز خودرو، انجام میشود. به استثنای موارد پرت نتایج تحلیل استحکام در بخش بحث توضیح داده شده است.
4. بحث
در سناریوی A، برای دادههای از دست رفته نقطهای و بازهای، شبکه PPCA بدترین عملکرد را دارد، با عملکردی مشابه با روشهای دیگر برای خطاهای نقطهای با نسبتهای تا 25 درصد، اما عملکرد بدتری در نسبتها و بازههای بالاتر دارد. خطاهای نوع به طور کلی اگرچه برای عملکرد WMAPE بدترین عملکرد را دارد، اما شبکه PPCA در موارد دادههای مفقود شدید قویتر است، زیرا میتواند تمام دادههای از دست رفته را نسبت دهد، حتی اگر نسبت دادههای از دست رفته 75٪ باشد. این استحکام از مقدار دادههای مورد استفاده برای آموزش ناشی میشود، زیرا PPCA معمولاً زمانی که یک ردیف کامل از دادههای آموزشی به دلیل اشتباهات ترکیبی از بین میرود، از کار میافتد. این برای شبکه های بزرگتر کمتر اتفاق می افتد. کاهش دقت برای شبکه PPCA را می توان با ویژگی های ناهمگن آشکارسازها در شبکه های بزرگ توضیح داد که تمرکز توزیع های تعمیم یافته را کاهش می دهد. نتایج نشان میدهد که انتخاب یک شبکه با تعریف بهتر میتواند تأثیر قابلتوجهی بر عملکرد روش مبتنی بر PPCA مکانی-زمانی داشته باشد.
مقایسه عملکرد PPCA Sub-Network و Single PPCA نشان می دهد که هر دو روش نزدیک هستند، با میانگین اختلاف حدود 1٪ WMAPE. PPCA منفرد در موارد دادههای از دست رفته نقطهای بهتر عمل میکند، در حالی که PPCA زیرشبکه در موارد دادههای از دست رفته از نظر فاصله عملکرد بهتری دارد. عواملی که باعث کاهش عملکرد Single PPCA در موارد داده های از دست رفته از نظر فاصله زمانی می شود، ممکن است محدودیت Single PPCA باشد، زیرا اگر آشکارساز وسیله نقلیه برای مدت طولانی کار نکرد، همانطور که در بخش 2.1.1 توضیح داده شد، این روش ممکن است مغرضانه باشد . همانطور که در بخش 2.3 توضیح داده شددادههای از دست رفته در آشکارسازهای خودرو در شبکههای شهری اغلب به صورت بازهای هستند، که روش پیشنهادی، Sub-Network PPCA را در این شرایط کارآمدتر میکند. نتایج نشان میدهد که PPCA زیرشبکه قادر است دادههای گمشده را بر روی یک محله، جایی که آشکارسازها لزوماً به طور کامل از نظر فضایی همبستگی ندارند، با عملکردی مشابه یا بهتر در مقایسه با Single PPCA منتسب کند.
برای سناریوی B، شکل 9 عملکرد هر دو روش آزمایش شده در برابر داده های از دست رفته نقطه ای را برای تعداد مختلف آشکارسازهای ناکارآمد نشان می دهد. به طور کلی، عملکرد بین هر دو روش نزدیک است، که نتیجه مشابهی است که در سناریو A زیرشبکه PPCA نشاندهنده تأثیر کمتر نسبت دادههای گمشده، در مقایسه با Single PPCA از شیب نمودار است. یک نکته مهم دیگر این است که Sub-Network PPCA با موفقیت تمام داده های از دست رفته را وارد می کند، حتی زمانی که نسبت داده های از دست رفته 75٪ است همانطور که در شکل 10 نشان داده شده است.. PPCA زیرشبکه قادر به دستیابی به این است زیرا این روش میتواند دادههای از دست رفته دیگر آشکارسازهای سالم را منتسب کند، در حالی که در Single PPCA، هر آشکارساز تنها میتواند به دادههای تاریخی خود تکیه کند، که در نتیجه حدود 80-88 نقطه انتساب داده ناموفق برای هر نقص کار میکند. آشکارساز
شکل 11 عملکرد هر دو روش آزمایش شده در برابر داده های از دست رفته نقطه ای را برای تعداد مختلف آشکارسازهای خراب نشان می دهد. برای دادههای از دست رفته از نظر بازه، عملکرد PPCA زیرشبکه برای همه فواصل دادههای از دست رفته و تعداد آشکارسازهای خراب بهتر از Single PPCA است. این نتایج همچنین کم و بیش با نتایج در سناریوی الف قابل مقایسه هستند. این یافته به این معنی است که PPCA زیرشبکه در یک شبکه شهری که اکثریت داده های از دست رفته آن بر حسب فاصله زمانی است، بهتر عمل می کند. شکل 12نتیجه مشابهی را با نتایج قبلی آزمایششده روی دادههای از دست رفته نقطهای نشان میدهد، که در آن، حتی در موارد شدید دادههای از دست رفته، PPCA زیرشبکه همچنان میتواند با موفقیت همه دادههای از دست رفته را با دقت نسبت دهد، در حالی که Single PPCA در دادههای از دست رفته بازهای بیشتر شکست میخورد. ، نمی تواند حدود 304-360 نقطه داده را نسبت دهد. این آزمایشها نشان میدهند که عملکرد و استحکام انباشت PPCA زیرشبکه در سناریوی B بهتر است و اطلاعات جریان ترافیک دریافتی از آشکارسازهای خودروی سالم همسایه به PPCA زیرشبکه مزیت میدهد.
در سناریوی C، Single PPCA نمیتواند دادههای از دست رفته را در صورتی که دادههای شمارش ترافیک برای یک روز کامل از دست رفته باشد، به این دلیل که یک ستون کامل از مجموعه داده گم شده است، منتسب کند. برای رفع این مورد منحصر به فرد، چهار نقطه داده (1 ساعت از دادههای جریان ترافیک) بر اساس میانگین تاریخی برای فعال کردن Single PPCA نسبت داده میشوند. تعداد آشکارسازهای خراب از یک تا چهار ردیاب از هر هفت ردیاب خودرو مورد آزمایش قرار گرفتند تا تأثیر تعداد ردیابهای خودروی خراب کار کنند. در این مورد، PPCA زیرشبکه در مقایسه با PPCA منفرد همانطور که در جدول 1 نشان داده شده است به طور قابل توجهی بهتر عمل می کند.زیرا Sub-Network PPCA قادر است داده ها را بر اساس همبستگی فضایی مشتق شده از دیگر آشکارسازهای وسیله نقلیه در زیرشبکه نسبت دهد. Single PPCA نمیتواند دادهها را بهدقت نسبت دهد، زیرا دادههای حاصل از میانگین تاریخی به اندازه کافی دقیق نیستند، در نتیجه منجر به انتساب دادههای نادرست میشود. نتایج همچنین نشان میدهد که خطای انتساب زیرشبکه PPCA با تعداد آشکارسازهای خودروی خراب همانطور که انتظار میرود افزایش مییابد، اما همچنان به عملکرد بهتر از Single PPCA ادامه میدهد. این نشان دهنده استحکام زیرشبکه PPCA در برابر داده های مفقود شدید است، زیرا می تواند داده های از دست رفته را برای آشکارسازهای خودرویی که برای مدت طولانی تر کار نمی کنند، و استحکام در برابر تعداد آشکارسازهایی که همزمان از کار می افتند، نسبت دهد.
برای تجزیه و تحلیل استحکام در برابر حالت پرت، در جدول 2 ، مشخص شده است که یکی از آشکارسازهای خودرو در سایت Diponegoro، یعنی آشکارساز 4-1، دارای خطای انتساب بزرگی در مقایسه با سایر آشکارسازها در همه روشها است. دلیل آن این است که الگوی زمانی آشکارساز 4-1 در طول هفته ها نوسان می کند، که منجر به خطاهای انتساب بزرگی می شود که در شکل 13 نشان داده شده است. همه روشها این خطا را نشان میدهند و تأیید میکنند که این آشکارساز وسیله نقلیه خاص یک امر دورافتاده است. شکل 14نشان میدهد که نتایج عملکرد بین Sub-Network PPCA و Sub-Network PPCA 2 کاملاً مشابه است و نشان میدهد که روش PPCA شبکه قادر است دادهها را با دقت، حتی در حضور پرت، نسبت دهد. این یک حاشیه خطا در هنگام ساخت زیر مجموعه های خوب آشکارسازها برای گنجاندن در یک زیرشبکه ایجاد می کند.
5. نتیجه گیری ها
در این مقاله، روش انتساب داده مبتنی بر PPCA مکانی-زمانی با استفاده از اطلاعات زمانی و مکانی از آشکارسازهای خودروی متعدد مورد تجزیه و تحلیل قرار گرفت. دو انتخاب مختلف از شبکه های فضایی در نظر گرفته شد، یعنی یک شبکه در سطح شهر یا شبکه PPCA، و یک شبکه محله محور یا PPCA زیرشبکه. هر دو شبکه با Single PPCA مقایسه شدند و تنها بر اطلاعات زمانی تکیه کردند. روشها در برابر دادههای از دست رفته نقطهای و بازهای آزمایش شدند. نتایج نشان داد که Network PPCA کمترین دقت را در بین سه روش دارد اما در موارد شدید دادههای از دست رفته، استحکام بهتری را ایجاد میکند. هر دو PPCA تک و زیرشبکه PPCAهنگامی که داده های گمشده به طور یکنواخت در تمام روزها و همه آشکارسازهای خودرو توزیع شده بودند، به طور مشابه انجام می شود. PPCA زیرشبکه برای داده های از دست رفته از نظر بازه ای بهتر به دست آورد، در حالی که PPCA Single برای داده های از دست رفته نقطه ای بهتر بود.
در مورد واقعبینانهتر که فقط برخی از آشکارسازهای خودرو از مشکلات دادههای گمشده رنج میبرند، PPCA زیرشبکه عملکرد بهتری را برای همه انواع دادههای از دست رفته در مقایسه با Single PPCA ، با بهرهبرداری از اطلاعات به دست آمده از آشکارسازهای خودروی همسایه سالم انجام میدهد. آشکارسازهای وسایل نقلیه سالم همسایه در زیرشبکه PPCA نیز کمک میکنند تا در موارد شدید دادههای از دست رفته، تا 75 درصد دادههای از دست رفته نقطهای و 64 بازه زمانی دادههای از دست رفته، همه دادههای از دست رفته را بدون خرابی نسبت دهند.
هنگامی که چندین آشکارساز خودرو برای یک روز کامل کار نمیکردند، Sub-Network PPCA همچنان میتوانست با تکیه بر اطلاعات دیگر آشکارسازهای خودرو، دادهها را بهطور دقیق وارد کند. Single PPCA قادر نبود دادههای گمشده را بدون استفاده از روشهای دیگر مانند میانگین تاریخی برای تلقین نقاط دادههای روز جاری منتسب کند و توسط Sub-Network PPCA عملکرد بهتری داشت. در آزمایشها مشخص شد که یکی از آشکارسازهای خودرو یک الگوی زمانی نوسانی را نشان میدهد که منجر به یک خطای انتساب محلی بزرگ میشود. اثر این خروجی مورد بررسی قرار گرفت و مشخص شد که PPCA تحت شبکه استدر برابر حضور آن قوی است. نتیجه نشان داد که هنگام ساخت زیرمجموعه های خوب آشکارسازها برای گنجاندن در یک زیرشبکه حاشیه خطا وجود دارد.
به طور کلی، آزمایشها نتایج خوبی را تأیید کردند و نشان دادند که اطلاعات مکانی یک زیرشبکه میتواند منجر به عملکرد دقیق و قویتر شود. انتخاب آشکارسازهای وسیله نقلیه برای گنجاندن در یک شبکه فرعی هنوز یک مشکل باز است، اما نتایج نشان میدهد که انتخاب خوب منجر به بهبود عملکرد میشود. در حال حاضر، انتخاب به صورت دستی بر اساس کلاس جاده و مجاورت انجام شده است. کار آینده بر ساخت خودکار زیر مجموعههای آشکارسازها متمرکز خواهد بود. علاوه بر این، نتایج را می توان برای نشان دادن تأیید و اعتبار سنجی مشکلات انتخاب حسگر در مدیریت ترافیک استفاده کرد.
بدون دیدگاه