پیش بینی مسیر عابر پیاده با شبکه ترانسفورماتور

تجزیه و تحلیل حرکت عابران پیاده برای کاربردهای دنیای واقعی در صحنه های عمومی مهم است. با توجه به عوامل پیچیده زمانی و مکانی، پیش بینی مسیر یک کار چالش برانگیز است. با توسعه مکانیسم توجه اخیراً، شبکه ترانسفورماتور با موفقیت در پردازش زبان طبیعی، بینایی کامپیوتر و پردازش صدا استفاده شده است. ما یک شبکه ترانسفورماتور سرتاسر تعبیه شده با جستارهای انحراف تصادفی برای پیش‌بینی مسیر عابر پیاده پیشنهاد می‌کنیم. طرح خود اصلاحی می تواند استحکام شبکه را افزایش دهد. علاوه بر این، ما یک استراتژی هم‌آموزشی برای بهبود اثر تمرین ارائه می‌کنیم. کل طرح به طور مشترک توسط ضرر اصلی و طبقه بندی آموزش داده می شود. بنابراین، ما نیز به نتایج پیش‌بینی دقیق‌تری دست پیدا می‌کنیم. نتایج تجربی روی چندین مجموعه داده نشان‌دهنده اعتبار و استحکام شبکه است. ما به بهترین عملکرد در پیش بینی فردی و نتایج قابل مقایسه در پیش بینی اجتماعی دست پیدا می کنیم. به طور دلگرم کننده، رویکرد ما در مقایسه با رویکردهای مبتنی بر اجتماعی و فردی، به وضعیت جدیدی از هنر در مجموعه داده های هتل و Zara2 دست می یابد.

کلید واژه ها:

پیش بینی مسیر ; ترانسفورماتور ; پرس و جو انحراف تصادفی

1. مقدمه

تجزیه و تحلیل حرکت عابران پیاده یکی از مشکلات اصلی بسیاری از سیستم‌های خودمختار در صحنه‌های عمومی مانند نظارت، شبیه‌سازی جمعیت، ناوبری ربات متحرک و رانندگی خودکار است. همچنین برای ایمنی شهری و برنامه ریزی شهری ضروری است. پیش‌بینی مسیر بر حرکت انسان مشاهده شده در گذشته برای پیش‌بینی مکان‌های آینده عابران پیاده متکی است. درک رفتار جمعیت و درک رفتار آتی عوامل از توانایی‌های حیاتی است. پیش بینی مسیر یک کار چالش برانگیز است. مسیر عابر پیاده می‌تواند تحت تأثیر عوامل متعددی از جمله سبک حرکت فردی، مقصد زیربنایی، حرکت عوامل دیگر، ساختار توپولوژی محیط و غیره باشد. یک فرد.

بیشتر روش های فعلی پیش بینی عمل عابر پیاده، پیش بینی توالی است. از آنجایی که شبکه های حافظه بلند مدت (LSTM) توانایی یادگیری و بازتولید توالی های طولانی را به طور موثر نشان می دهند، برخی از رویکردهای مبتنی بر LSTM [ 1 ] برای یادگیری رفتارهای اجتماعی پیشنهاد شده است. سپس، برخی از محققین اطلاعات غنی را در استاندارد LSTM ادغام می کنند، مانند قصد فعلی همسایگان [ 2 ]، الگوهای حرکتی منسجم گروهی [ 3 ]، اطلاعات صحنه [ 4 ، 5 ]، رفتار عامل جاده ای سطح بالا [ 6 ]، پویا و حرکت آگاه از زمینه استاتیک [ 7]. با افزودن این اطلاعات به مسیر حرکت انسان در فرآیند پیش بینی، می توان عملکرد را به طور قابل توجهی بهبود بخشید. علاوه بر این، برخی از محققان سعی می کنند از الگوریتم های کلاسیک در روش های مبتنی بر هوش مصنوعی استفاده کنند. به عنوان مثال، ترکیب الگوریتم فیلتر کالمن و الگوریتم ماشین بردار پشتیبانی برای پیش‌بینی مسیر پینگ پنگ پرواز سریع در تحقیق ربات پینگ‌پنگ [ 8 ]، و استفاده از شبکه فیلتر عمیق کالمن (DKFN) برای پیش‌بینی ترافیک [ 9 ] ]. نتایج نشان می‌دهد که دقت پیش‌بینی در مقایسه با الگوریتم منفرد به وضوح بهبود یافته است.

این مشکل پیش‌بینی مسیر را می‌توان به عنوان یک وظیفه تولید توالی مشاهده کرد، جایی که محققان علاقه‌مند به پیش‌بینی مسیر آینده افراد بر اساس موقعیت‌های گذشته‌شان هستند. برخی تلاش‌ها [ 10 ، 11 ، 12 ، 13 ، 14 ] برای مقابله با تعاملات اجتماعی و ایجاد مسیرهای قابل قبول اجتماعی از طریق شبکه‌های متخاصم مولد (GAN) انجام شده است. آنها ضرر خصمانه را همراه با تولید توالی معرفی می کنند. توجه داشته باشید که بی ثباتی بدنام آموزش یک چالش است، بنابراین یکپارچه سازی باید با دقت انجام شود. این استراتژی می تواند عملکرد پیش بینی مسیر سنتی را به وضوح بهبود بخشد.

بکارگیری توجه در تکالیف یادگیری توالی اثربخشی خود را در عملکرد کلی الگوریتم [ 11 ، 15 ، 16 ، 17 ] و در روش های پیش بینی مسیر عابر پیاده [ 18 ، 19 ، 20 ، 21 ] ثابت کرده است. ترسیم مسیرهای معقول تر مفید است. برخی از محققان [ 11 ، 15 ، 16 ] از ماژول های توجه نرم برای ارزیابی تعاملات اجتماعی استفاده می کنند. فرناندو و همکاران [ 17] توجه سختی را برای تعیین وزن‌ها بر اساس فاصله عابر پیاده اعمال کردند، آنها همچنین توجه نرم اضافی را برای ارزیابی برجستگی تعامل در یک منطقه صحنه معرفی کردند. بنابراین، پیش‌بینی مسیر آن‌ها نتیجه‌گیری کرد که در کدام منطقه احتمال بیشتری وجود دارد که یک عابر پیاده در آن حرکت کند. در کار پیشنهادی، ما از شبکه ترانسفورماتور با استفاده از مکانیزم توجه با مدل Query-Key-Value (QKV) برای پیش‌بینی مکان آینده عابر پیاده استفاده می‌کنیم.

با الهام از موفقیت بزرگ ترانسفورماتور در پردازش زبان طبیعی [ 18 ، 19 ]، بینایی کامپیوتری [ 20 ، 22 ، 23 ]، و پردازش صوتی [ 21 ، 24 ، 25 ]، هدف ما پیاده سازی پیش بینی مسیر با پایان به مدل ترانسفورماتور انتهایی به دلیل توانایی بهتر آنها برای یادگیری الگوهای غیر خطی، ما استدلال می کنیم که شبکه های ترانسفورماتور برای مدل سازی توالی و پیش بینی مسیرها مناسب هستند. جولیاری و همکاران [ 26] از یک مدل ترانسفورماتور ساده برای دستیابی به عملکرد خوب در کار پیش بینی مسیر تک استفاده کنید. آنها دنباله موقعیت های فعلی و قبلی را به شبکه ترانسفورماتور رمزگذار-رمزگشا (TF) تغذیه می کنند و موقعیت های مسیر آینده را پیش بینی می کنند. با این حال، رمزگشا با حقیقت زمینی آموزش داده می شود، اما با موقعیت های پیش بینی شده آزمایش می شود. نقاط پیش‌بینی‌شده اغلب مغرضانه هستند و بر پیش‌بینی زیر تأثیر می‌گذارند و منجر به آبشارهای خطای اجتناب‌ناپذیر می‌شوند. برای غلبه بر این مشکل، ما یک مدل ترانسفورماتور را پیشنهاد می‌کنیم که کوئری انحراف تصادفی را تعبیه می‌کند. در طول آموزش، خطای اختلال در پرس و جو تعبیه شده است و رمزگشا همچنان برای پیش بینی مسیر دقیق مورد نیاز است. به این ترتیب، شبکه دارای قابلیت خود تصحیح، کاهش انحراف پیش بینی ناشی از آبشار خطا و بهبود استحکام است.

در این کار سهم اصلی ما دو مورد است:

اول، ما یک چارچوب آموزش‌پذیر موثر و سرتاسری را پیشنهاد می‌کنیم که بر اساس چارچوب ترانسفورماتور ساخته شده است که با یک جستجوی انحراف تصادفی برای پیش‌بینی مسیر تعبیه شده است. با بهره گیری از توانایی خود تصحیح معرفی شده توسط پرس و جو انحراف تصادفی، استحکام شبکه ترانسفورماتور موجود افزایش می یابد. برای جزئیات، ما یک ماسک توجه برای حل مشکلات تخصیص بین پرس‌و‌جوهای ورودی موازی و پیش‌بینی متوالی طراحی می‌کنیم.
دوم، ما یک استراتژی هم‌آموزشی مبتنی بر شاخه طبقه‌بندی برای بهبود اثر آموزشی ارائه می‌کنیم. کل طرح به طور مشترک توسط ضرر اصلی و فقدان طبقه بندی آموزش داده می شود که می تواند دقت نتایج را بهبود بخشد. نتایج تجربی در مقایسه با روش‌های پیشرفته نشان می‌دهد که روش پیشنهادی می‌تواند مسیر قابل قبولی را با دقت بالاتر پیش‌بینی کند.

ادامه این مقاله به شرح زیر سازماندهی شده است. در بخش 2 ، کار مرتبط را به اختصار مرور می کنیم. سپس مواد و روش ها در بخش 3 پیشنهاد شده است. نتایج تجربی روی مجموعه داده ها در بخش 4 ارائه شده است. در نهایت، نتیجه گیری و چشم انداز در بخش 5 ارائه شده است.

2. کارهای مرتبط

تجزیه و تحلیل حرکت عابران پیاده سال ها مورد مطالعه قرار گرفته است. برخی از محققان کارهای خود را به مدل‌سازی دینامیک عابر پیاده [ 27 ، 28 ]، توسعه نرم‌افزار برای استخراج مسیرهای عابر پیاده [ 29 ] و برآورد سطح ایمنی عابر پیاده [ 30 ] اختصاص داده‌اند. ما بررسی مختصری از ادبیات پیش‌بینی مسیر عابر پیاده، به‌ویژه رویکردهایی که با روش پیشنهادی مقایسه می‌شوند، ارائه می‌کنیم. برای هدف این مقاله، ما دو گرایش اصلی را برای کار مرتبط متمایز می‌کنیم: پیش‌بینی مسیر مبتنی بر اجتماعی و مبتنی بر توجه.

پیش‌بینی مسیر مبتنی بر اجتماعی: بسیاری از روش‌های موجود از اطلاعات اجتماعی در پیش‌بینی مسیر استفاده می‌کنند. کارهای اولیه شامل روش های مبتنی بر LSTM [ 1 ، 2 ، 4 ، 5 ، 7 ] است که از شبکه LSTM برای یادگیری اطلاعات زمینه استفاده می کند. سپس، انواع اطلاعات اجتماعی در نظر گرفته می‌شود، مانند قصد فعلی همسایگان [ 2 ، 31 ]، الگوهای حرکتی منسجم گروهی [ 3 ]، زمینه صحنه [ 4 ، 5 ، 32 ، 33 ]، عامل جاده‌ای سطح بالا. رفتار [ 6 ]، حرکت آگاه از زمینه پویا و ایستا [ 7]، و مدل سازی تعاملات اجتماعی [ 34 ]. سپس، به دنبال موفقیت شبکه متخاصم مولد (GANs)، تلاش هایی [ 10 ، 11 ، 12 ، 13 ، 14 ] برای مقابله با تعاملات اجتماعی انجام شده است. مدل GAN اجتماعی (که به اختصار SGAN نامیده می‌شود) تلاش می‌کند تا پیش‌بینی‌های چندگانه مسیر را برای هر مسیر مشاهده‌شده ایجاد کند. شبکه آنها شامل یک ماژول ادغام برای گسترش محله در اطراف هر فرد مورد علاقه (POI) است تا کل صحنه را پوشش دهد تا بتوان همه عابران پیاده را در فرآیندهای آموزش و پیش بینی در نظر گرفت. این به طور موثر زمینه محله محلی را به سطح جهانی گسترش می دهد. به همین ترتیب، سوفی [ 11] از GAN برای ایجاد چندین مسیر آینده برای هر مسیر استفاده می کند.

پیش‌بینی مسیر مبتنی بر توجه: مدل‌های مبتنی بر توجه به طور گسترده در بسیاری از وظایف، مانند پردازش زبان طبیعی [ 18 ، 19 ]، بینایی کامپیوتری [ 20 ، 22 ، 23 ] و پردازش صوتی [ 21 ، 24 ، 25 ] استفاده شده‌اند. در حوزه پیش‌بینی مسیر، مکانیسم‌های توجه برای ترسیم مسیرهای معقول‌تر مورد استفاده قرار گرفته‌اند [ 11 ، 15 ، 16 ، 17 ، 35 ، 36 ]. صادقیان و همکاران [ 11] تمرکز بر مشکل دامنه وسیع تر: مشکلی که هم عابران پیاده و هم وسایل نقلیه را درگیر می کند. جولیاری و همکاران [ 26 ] از یک مدل ترانسفورماتور ساده برای دستیابی به عملکرد خوب در یک کار پیش‌بینی مسیر تک استفاده کنید. آنها دنباله موقعیت های فعلی و قبلی را به شبکه ترانسفورماتور رمزگذار-رمزگشا (TF) تغذیه می کنند و موقعیت های مسیر آینده را پیش بینی می کنند. روش SoPhie [ 11 ] از دو مدول توجه برای مقابله با زمینه صحنه و تعاملات اجتماعی استفاده می کند.

متفاوت از روش‌های بررسی‌شده در بالا، یک چارچوب مبتنی بر ترانسفورماتور قابل آموزش موثر و سرتاسر برای پیش‌بینی مسیر عابر پیاده استفاده می‌شود. اطلاعات زمانی و مکانی مسیرها در پرس و جوها تعبیه شده است. علاوه بر این، جاسازی پرس و جو انحراف تصادفی برای استحکام و تعمیم‌پذیری مفید است.

3. مواد و روشها

در این کار، ما به مشکل پیش‌بینی موقعیت‌های آینده با پردازش موقعیت‌های فعلی و قبلی آنها می‌پردازیم. ترانسفورماتور رمزگذار-رمزگشا، جاسازی های مسیر عابر پیاده را یاد می گیرد. پرس و جو انحراف تصادفی و استراتژی آموزش مشترک برای افزایش عملکرد شبکه مفید هستند. در ادامه جزئیات روش پیشنهادی را ارائه خواهیم کرد. رویکرد پیشنهادی در شکل 1 نشان داده شده است. نمادها و نمایش آنها در این بخش در جدول 1 نشان داده شده است.

3.1. فرمول مسأله

فرض کنید تعداد عابر پیاده در یک صحنه در مجموع N حضور دارند و t مهر زمان فعلی (فریم) است. مسیر حرکت یک عابر پیاده از مهر زمان به به عنوان مشخص می شود . موقعیت مکانی در زمان t عابر پیاده به عنوان مشخص می شود . اگر 0 را مهر زمان فعلی بگذاریم، موقعیت فعلی و قبلی مشاهده شده در مختصات دکارتی به صورت نشان داده می شود. ، و موقعیت های پیش بینی شده هستند . هدف شبکه پیشنهادی تولید مسیرهای پیش بینی شده است که با مسیرهای آینده حقیقت زمین مطابقت دارد .

ما به صورت متوالی نقاط هر فریم آینده را پیش بینی می کنیم. از آنجایی که برخی از کارها [ 37 ، 38 ] نشان داده اند که پیش بینی جابجایی در تخمین متوالی آسان تر است، بنابراین ما جابجایی مکان مربوط به یک قاب فعلی را برای هر عابر پیاده پیش بینی می کنیم. یک بردار جابجایی 2M بعدی برای توصیف عابر پیاده استفاده می شود مسیر پیاده روی در گذشته M تمبرهای زمانی با توجه به . هنگام تغذیه به ترانسفورماتور، بردار ورودی به وسیله یک طرح خطی با ماتریسی از وزن ها در فضایی با ابعاد D بالاتر تعبیه می شود. . به طور مشابه، خروجی ترانسفورماتور به مختصات دکارتی بازتاب داده می شود.

رمزگذاری موقعیتی: شبکه ترانسفورماتور ماهیت متوالی داده های سری زمانی مورد استفاده در مدل مبتنی بر LSTM را کنار می گذارد، اما وابستگی های زمانی را با مکانیزم توجه به خود مدل می کند. بنابراین، ورودی داده های تعبیه شده است شامل تعبیه مسیر فضایی است و جاسازی موقعیت زمانی . با پیروی از تنظیمات مشابه در [ 18 ]، جاسازی موقعیت با توابع سینوس و کسینوس تعریف می شود. هر بعد از رمزگذاری موقعیتی بر اساس یک سینوسی با فرکانس های مختلف از نظر زمانی متفاوت است تا 10000 · ، که یک مهر زمانی منحصر به فرد را برای خطا تضمین می کند.

(1)

جاسازی موقعیت در مدل ما مفید است، زیرا به شبکه این حس را می دهد که در حال حاضر با کدام موقعیت دنباله سروکار دارد. هیچ اطلاعات موقعیتی در توجه به خود وجود ندارد. از طریق جاسازی موقعیت، هر موقعیت یک بردار موقعیت منحصر به فرد دارد. به عبارت دیگر، هر کدام یک بردار یک داغ اضافه می کند .

3.2. ترانسفورماتور رمزگذار-رمزگشا

شکل 1 چارچوب کلی رویکرد پیشنهادی برای پیش بینی مسیر عابر پیاده را نشان می دهد. به طور کلی، چارچوب یک شبکه مبتنی بر ترانسفورماتور است که با پرس و جوهای انحراف تصادفی و یک شاخه طبقه بندی برای افزایش عملکرد کمک می کند. موقعیت های عابر پیاده مشاهده شده به شبکه تغذیه می شود و شبکه مسیر آینده را پیش بینی می کند. اطلاعات جزییات رمزگذار و رمزگشا در ترانسفورماتور نیز نشان داده شده است.

در مرحله اول، یک ترانسفورماتور انتها به انتها به عنوان شبکه پایه برای یادگیری عملکرد از توالی مسیر قبلی به دنباله آینده استفاده می شود. در این کار، شبکه رمزگذار-رمزگشا از شش بلوک رمزگذار و شش بلوک رمزگشا تشکیل شده است. بلوک رمزگذار شامل یک توجه چند هد و یک شبکه پیشخور (FFN) و بلوک رمزگشا شامل دو توجه چند سر (که یکی از آنها از ماسک استفاده می کند) و یک FFN است. پس از هر کدام یک اضافه باقیمانده برای جلوگیری از تخریب و عادی سازی لایه برای تسریع همگرایی دنبال می شود.

ترانسفورماتور مکانیزمی است که در آن یک مدل یاد می گیرد با تمرکز انتخابی بر روی داده های داده شده، پیش بینی کند. در حالی که توجه به خود مکانیزم توجهی است که در آن مدل از بخش مشاهده شده نمونه استفاده می کند و بقیه را پیش بینی می کند. ورودی های یک ماژول توجه شامل Q (ورودی های جاسازی پرس و جو)، K (ورودی های جاسازی کلید) و V (ورودی های جاسازی ارزش) است. بنابراین، خروجی مجموع وزنی بردارهای مقدار است، که در آن وزن تخصیص داده شده به هر V توسط حاصلضرب نقطه مقیاس شده Q و K مربوطه تعیین می شود.

(2)

توجه چند سر جزء اصلی ترانسفورماتور است. برخلاف توجه ساده، مکانیسم چند سر ورودی را به بخش‌های کوچک زیادی تقسیم می‌کند، حاصل ضرب نقطه‌ای مقیاس‌شده هر زیرفضا را به صورت موازی محاسبه می‌کند و در نهایت تمام خروجی توجه را به هم متصل می‌کند.

(3)

جایی که ماتریس های وزن در پرس و جوها، کلیدها، مقادیر و خروجی هستند. همه این وزنه ها قابل تمرین هستند.

در هر زیر لایه، توجه چند سر دارای یک شبکه پیشخور (FFN) است. ترتیب در FFN یک تبدیل خطی [ 18 ]، فعال سازی Relu [ 39 ] و یک تبدیل خطی دیگر است. ترک تحصیل برای کاهش بیش از حد تناسب، سرعت بخشیدن به تمرین و افزایش عملکرد استفاده می شود.

(4)

در طول مراحل آموزشی، رمزگذار با جاسازی موقعیت های فعلی و قبلی تغذیه می شود. سپس خروجی های رمزگذار به عنوان حافظه به رمزگشا ارسال می شود تا عملیات توجه انجام شود. علاوه بر این، رمزگشا به پرس و جوهای شی که به عنوان جاسازی موقعیت بردارهای موقعیت پیش بینی شده اشاره می شود، تغذیه می شود و پرس و جوهای شی نقاط حقیقت پایه در آموزش هستند. رمزگشا هنگام آزمایش موقعیت های مهرهای زمانی آینده را ایجاد می کند.

علاوه بر این، ما یک ماسک توجه برای جلوگیری از حضور پوزیشن ها به موقعیت های بعدی طراحی می کنیم. این پوشش تضمین می کند که پیش بینی موقعیت i می تواند فقط به خروجی های شناخته شده در موقعیت های قبل از i بستگی داشته باشد . ماتریس ماسک به لایه softmax توجه به خود در رمزگشا اضافه می شود، به عنوان مثال، .

(5)

جایی که تعیین می کند که آیا پرس و جو قبل از پرس و جو است . پرس و جوهای بعد از مهر زمان فعلی ماسک می شوند تا پیش بینی فقط بر اساس داده های فعلی و قبلی باشد.

3.3. پرس و جو انحراف تصادفی

ترانسفورماتور رمزگذار-رمزگشا، جاسازی های مسیر عابر پیاده را یاد می گیرد. با این حال، مشاهده می کنیم که خروجی بلوک رمزگشا در آزمایش موازی نیست، بلکه به صورت متوالی پیش بینی می شود. به خصوص، ورودی رمزگشا در آموزش درستی زمین است، اما پرس و جوها را با سوگیری در تست پیش بینی کنید. این انحراف آبشاری می شود و منجر به بدتر شدن موقعیت پیش بینی شده همراه با مهر زمانی می شود. ارائه انحراف مناسب در آموزش ممکن است استحکام و عملکرد شبکه را بهبود بخشد. با این انگیزه، پرس و جوهای انحراف تصادفی به عنوان ورودی رمزگشا برای آموزش شبیه سازی ورودی بایاس اضافه می شود. پرس و جو انحراف تصادفی به عنوان “پرس و جو انحراف + پرس و جو حقیقت پایه” تعریف می شود. حتی اگر یک نقطه پیش بینی شده از حقیقت زمین منحرف شود، فریم های بعدی هنوز می توانند موقعیت دقیق را پیش بینی کنند.

برای بهبود اثر آموزشی، ما همچنین یک استراتژی تمرین مشترک را معرفی می کنیم که بر اساس وظیفه طبقه بندی است. در فرآیند آموزش، پرس و جو انحراف تصادفی حاوی اطلاعات موقعیت های واقعی می تواند به آموزش رمزگشا کمک کند. در حین آزمایش، ورودی رمزگشا حاوی اطلاعات موقعیت پیش بینی شده است که اغلب اوقات منحرف می شود. با توجه به اینکه رمزگشا ارزش پیش‌بینی‌شده را به جای حقیقت زمینی در آزمایش دریافت می‌کند، یک شاخه طبقه‌بندی برای قضاوت در مورد دقیق بودن یا نبودن دنباله پیش‌بینی‌شده اضافه می‌شود. همانطور که شکل 1 نشان می دهد، یک لایه کاملا متصل به عنوان یک طبقه بندی تنظیم شده است.

برچسب‌های پرس و جوی انحراف بر اساس مقدار انحراف تصادفی تعریف می‌شوند. در شاخه طبقه بندی، فاصله تشخیص دقت (ADD) برای اندازه گیری درجه انحراف تعریف می شود. ، جایی که و پرس و جوهای انحراف تصادفی هستند، و پرس و جوهای حقیقت پایه هستند اگر ADD بزرگتر از مقدار آستانه (که به صورت 0.3 تنظیم شده است) باشد، برچسب مربوطه 0 است. به طور مشابه، زمانی که ADD کمتر از آستانه باشد، برچسب 1 است. دلیل آن این است که فرض می کنیم شبکه می تواند یک مسیر دقیق آینده را پیش بینی کند. از نظر تئوری، اگر موقعیت فعلی بسیار از نقطه واقعی منحرف شود، موقعیت بعدی که بر اساس آن پیش‌بینی می‌شود دقیق نخواهد بود و بالعکس.

3.4. هدف نهایی

برای محاسبه ضرر، تلفات مسیر اصلی فاصله بین جابجایی موقعیت پیش بینی شده است و جابجایی موقعیت حقیقت زمین در مهر زمان ، یعنی . کل فریم های پیش بینی را نشان می دهد. از دست دادن طبقه بندی، آنتروپی متقاطع خروجی طبقه بندی کننده است و برچسب های مربوطه ، یعنی

ضرر نهایی برای شبکه به صورت زیر تعریف می شود:

(6)

جایی که تعادل بین دو هدف را حفظ می کند. برای آموزش 50 تنظیم شده است.

4. نتایج

ما مدل ترانسفورماتور انتها به انتها را در چندین مجموعه داده پیش‌بینی مسیر ارزیابی می‌کنیم و به عملکرد قابل مقایسه در مقایسه با روش‌های موجود در ادبیات دست می‌یابیم. پیاده سازی مدل پیشنهادی و آموزش آن بر اساس چارچوب یادگیری عمیق PyTorch، با استفاده از NVIDIA Geforce RTX 3090 GPU است.

4.1. تنظیم آزمایش

اطلاعات جزئی مجموعه داده ها و معیارها به شرح زیر است:

مجموعه داده ها؛ به دنبال تحقیقات قبلی مرتبط، روش پیشنهادی را روی دو مجموعه داده عمومی ارزیابی می‌کنیم: ETH [ 40 ] و UCY [ 41 ]. این مجموعه داده ها شامل 5 دنباله ویدیویی (Hotel، ETH، UCY، ZARA1 و ZARA2) است که در مجموع از 1536 عابر پیاده با الگوهای حرکتی و تعاملات اجتماعی مختلف تشکیل شده است. مردم به صورت موازی راه می روند، به صورت گروهی حرکت می کنند، در گوشه ای می چرخند، هنگام راه رفتن رودررو از برخورد اجتناب می کنند. اینها سناریوهای رایجی هستند که شامل رفتارهای اجتماعی می شوند. این سکانس ها در 25 فریم در ثانیه (fps) ضبط می شوند و شامل 4 پس زمینه صحنه مختلف می باشند.
معیارهای؛ میانگین خطای جابجایی (ADE)، میانگین مربعات خطای کلی نقاط برآورد شده در مسیر پیش بینی شده و مسیر حقیقت زمین. خطای جابجایی نهایی (FDE)، فاصله بین مقصد نهایی پیش‌بینی‌شده و مقصد نهایی حقیقت زمین. آنها را می توان از نظر ریاضی به صورت زیر تعریف کرد:

(7)

4.2. آزمایش بر روی ETH و UCY Dataset

ابتدا روش‌های پیشنهادی را با روش‌های هنر در مجموعه داده‌های ETH و UCY به دنبال پروتکل قطعی مسیر تک مقایسه می‌کنیم. جدول 2 این نتایج را خلاصه می کند و نشان می دهد که مدل پیشنهادی به عملکرد قابل مقایسه ای دست می یابد. نتایج به دو دسته تقسیم می‌شوند: نسخه اجتماعی و نسخه فردی که به ترتیب در قسمت‌های بالا و پایین جدول فهرست شده‌اند (با یک خط از هم جدا شده‌اند). ما بهترین عملکرد را در نسخه فردی (داده آبی) به دست می آوریم. برای نسخه اجتماعی، نتایج قابل مقایسه به دست آمده است. نتیجه خطای متوسط همچنین نشان می دهد که افزودن اطلاعات نقشه برداری بیشتر می تواند عملکرد را به طور قابل توجهی بهبود بخشد. مقایسه با برخی از رویکردها با پروتکل بهترین از 20 [ 14 ] در جدول 3 نشان داده شده است.. چندین مدل آموزش داده می شود که 20 نمونه در حین آموزش و تست ترسیم می شود و بهترین مدل انتخاب می شود. تا کنون، بهترین پروتکل از 20 نوعی کران بالا است. روش پیشنهادی بهترین عملکرد را در مقایسه با سایر روش‌های فردی در مجموعه داده‌های ETH و UCY (داده‌های آبی) دارد. علاوه بر این، ما بهترین عملکرد را در ADE و FDE در مجموعه داده هتل و FDE در Zara2 (داده‌های پررنگ سیاه)، در مقایسه با رویکردهای مبتنی بر اجتماعی و فردی به دست می‌آوریم. شکل 2 مقایسه کیفی نتایج پیش بینی را بین روش پیشنهادی با TF نشان می دهد [ 26]، یک روش ترانسفورماتور کلاسیک. برخی از نمونه ها با موفقیت مسیرها را با خطاهای کوچک پیش بینی می کنند در دو ردیف اول نشان داده شده اند. ردیف آخر چند مورد زیر بهینه را نشان می دهد. به عنوان مثال، عابر پیاده یک مسیر خطی را طی کرد در حالی که مسیر واقعی منحنی است. با این حال، روش پیشنهادی یک مسیر قابل قبول را پیش‌بینی می‌کند.

ما مشاهده می‌کنیم که اکثر روش‌های مبتنی بر فردی بدتر از روش‌های مبتنی بر اجتماعی عمل می‌کنند. دلیل آن این است که اطلاعات اجتماعی در نظر گرفته می شود، به عنوان مثال، نفوذ عوامل دیگر. به عنوان مثال، هنگامی که یک عابر پیاده در جهت مخالف می آید یا در مسیر برنامه ریزی توقف می کند، برای جلوگیری از برخورد باید نقشه اولیه را تغییر داد. علاوه بر این، هنگام سفر با یک شریک، نماینده باید سرعت و مسافت را ثابت نگه دارد. یکی دیگر از عوامل موثر بر عملکرد، مسیر غیرعادی است. به عنوان مثال، یک عابر پیاده در حال چرخش ناگهانی. اطلاعات مشاهده شده نمی تواند منعکس کننده قصد عابر پیاده برای گردش باشد، بلکه پدیده چرخش در مهر زمان پیش بینی است. عملکرد پیش بینی مدل در این مورد بی فایده است و مسیر پیش بینی همچنان مستقیم است. دلایل به شرح زیر است: اولاً مقصد عابر پیاده ناشناخته است، پیچ های آینده را نمی توان با توجه به اطلاعات مسیر قبلی پیش بینی کرد. ثانیاً، عادات رفتاری تاریخچه عابران پیاده ناشناخته است. در صورت ترکیب مسیر تاریخی عوامل و مسیرهای مشاهده شده، پیش‌بینی‌های دقیق ممکن است حتی زمانی که پیچ‌ها یا تغییرات سرعت وجود داشته باشد.

4.3. مطالعه ابلیشن

تعدادی از مطالعات ابلیشن برای نشان دادن جزئیات روش پیشنهادی انجام شده است. نتایج و بحث ها در ادامه نشان داده شده است.

4.3.1. تأثیر بر تعداد مختلف بلوک رمزگذار-رمزگشا

جدول 4نتایج ADE و FDE را با تغییر تعداد بلوک‌های رمزگذار و رمزگشا نشان می‌دهد. برای رمزگذار، هر بلوک شامل یک ماژول توجه چند سر، یک FFN و دو اتصال باقیمانده زیر است. برای رمزگشا، هر بلوک شامل دو توجه چند سر (که یکی از آنها از ماسک استفاده می کند)، یک FFN و دو اتصال باقیمانده زیر نیز دارد. از آنجایی که معماری رمزگذار و رمزگشا نقش مهم یکسانی را ایفا می کنند، ما تعداد بلوک های یکسانی را در هر دوی آنها تنظیم می کنیم. می بینیم که با افزایش بلوک ها، ADE و FDE به تدریج کاهش یافتند. ADE و FDE زمانی که تعداد بلوک ها به 6 افزایش می یابد، تمایل به پایداری دارند. بنابراین، با در نظر گرفتن تعادل بین عملکرد و محاسبات، تعداد لایه های بلوک در ترانسفورماتور مدولار روی 6 تنظیم می شود. نتایج تجسم مقایسه میانگین ADE و FDE را می توان در آن مشاهده کردشکل 3 .

4.3.2. تأثیر بر پارامترهای کلیدی مختلف

یک آزمایش مقایسه ای روی مجموعه داده های ETH و UCY برای یافتن مقدار بهینه پارامتر فوق انجام می شود ، که برای حفظ تعادل ضرر استفاده می شود. با افزایش از ، عملکرد به طور پیوسته بهتر می شود تا زمانی که تا 50 شروع به بدتر شدن می کند. به خصوص هنگام اضافه کردن ADE و FDE برای ایجاد برهم نهی خطا، اثر واضح تر است (داده های پررنگ سیاه). از آنجایی که ADE و FDE بسیار کوچک هستند، اضافه کردن آنها به یکدیگر می تواند تفاوت ها را بهتر آشکار کند. این بدان معنی است که یک تابع از دست دادن تعادل مناسب می تواند شبکه را تشویق کند تا یک مسیر دقیق تر را پیش بینی کند. اگرچه نتایج مشابهی را می توان با مقادیر دیگر به دست آورد، جدول 5 نشان می دهد که پارامتر 50 اغلب برای دستیابی به نتایج بسیار خوب در پیش بینی عابر پیاده کافی است. در نهایت، پارامتر بر روی 50 تنظیم شده است. این نتیجه نشان می دهد که لازم است یک پارامتر کلیدی مناسب انتخاب شود و می تواند توابع مختلف ضرر را در فرآیند آموزش متعادل کند. نتایج تجسم مقایسه میانگین ADE و FDE را می توان در شکل 4 مشاهده کرد.

4.3.3. تأثیر بر فاصله تفکیک دقت مختلف

فاصله تشخیص دقت (ADD) برای اندازه گیری درجه انحراف تعریف می شود. برای افزایش استحکام شبکه مفید است. اگر ADD بیش از حد بزرگ باشد، شبکه نسبت به انحرافات حساس نخواهد بود، که منجر به پیش‌بینی تا حد زیادی مغرضانه می‌شود. برعکس، ADD بسیار کوچک، شاخه طبقه‌بندی کننده را باطل می‌کند و منجر به شکست تصحیح انحراف می‌شود. نتایج مقایسه بر روی مجموعه داده های ETH و UCY با ADD های مختلف در جدول 6 نشان داده شده است و نتایج تجسم میانگین ADE و FDE را می توان در شکل 5 مشاهده کرد. برای متعادل کردن این دو جنبه، آستانه ADD 0.3 تعیین می شود تا بهترین عملکرد را در میانگین ADE و FDE دنبال کنید.

5. نتیجه گیری ها

ما یک شبکه ترانسفورماتور سرتاسر موثر برای پیش‌بینی مسیر ارائه می‌کنیم. پرس و جو انحراف تصادفی در شبکه ترانسفورماتور کلاسیک تعبیه شده است و عملکرد را به وضوح افزایش می دهد. یک استراتژی هم‌آموزشی مبتنی بر شاخه طبقه‌بندی برای بهبود اثر آموزشی استفاده می‌شود. ما به بهترین عملکرد در پیش بینی فردی و نتایج قابل مقایسه در پیش بینی اجتماعی دست پیدا می کنیم. به‌طور دلگرم‌کننده، رویکرد پیشنهادی در مقایسه با رویکردهای مبتنی بر اجتماعی و فردی، به وضعیت جدیدی از هنر در مجموعه داده‌های هتل و Zara2 دست می‌یابد.

در کار آینده، مایلیم از اطلاعات اجتماعی و اطلاعات نقشه برای بهبود عملکرد استفاده کنیم. علاوه بر این، این چارچوب به پیش بینی مسیر محدود نمی شود. همچنین می‌تواند برای کارهای متوالی‌تر مرتبط با پیش‌بینی اعمال شود.

منابع

الهی، ع. گوئل، ک. راماناتان، وی. Robicquet، A. لی، اف. Savarese، S. Social LSTM: پیش بینی مسیر انسان در فضاهای شلوغ. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، لاس وگاس، NV، ایالات متحده، 26 ژوئن تا 1 ژوئیه 2016. [ Google Scholar ]
ژانگ، پی. اویانگ، دبلیو. ژانگ، پی. ژو، جی. ژنگ، N. SR-LSTM: اصلاح وضعیت برای LSTM به سمت پیش‌بینی مسیر عابر پیاده. در مجموعه مقالات کنفرانس IEEE/CVF 2019 در مورد دید رایانه و تشخیص الگو (CVPR)، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 16 تا 20 ژوئن 2019. [ Google Scholar ]
بیسانو، ن. ژانگ، بی. Conci، N. گروه LSTM: پیش‌بینی مسیر گروهی در سناریوهای شلوغ . Springer: Cham، سوئیس، 2018. [ Google Scholar ]
هوین، م. علاقبند، جی. پیش بینی مسیر با جفت کردن صحنه-LSTM با حرکت انسانی LSTM. در مجموعه مقالات سمپوزیوم بین المللی در محاسبات بصری، دریاچه تاهو، NV، ایالات متحده، 7 تا 9 اکتبر 2019. [ Google Scholar ]
منه، اچ. علاقبند، جی. صحنه-LSTM: مدلی برای پیش بینی مسیر انسان. arXiv 2018 , arXiv:1808.04018. [ Google Scholar ]
چاندرا، آر. گوان، تی. پانوگانتی، اس. میتال، تی. باتاچاریا، U. برا، ا. Manocha، D. پیش بینی مسیر و رفتار عوامل جاده با استفاده از خوشه بندی طیفی در نمودار-LSTMs. arXiv 2019 ، arXiv:1912.01118. [ Google Scholar ] [ CrossRef ]
تائو، سی. جیانگ، کیو. دوان، ال. Luo، P. LSTM آگاه از زمینه پویا و استاتیک برای پیش‌بینی حرکت چند عاملی. در مجموعه مقالات کنفرانس اروپا در زمینه بینایی رایانه، گلاسکو، انگلستان، 23 تا 28 اوت 2020. [ Google Scholar ]
چنگ، کیو. وانگ، سی. روشی برای پیش‌بینی مسیر بر اساس الگوریتم فیلتر کالمن و الگوریتم ماشین بردار پشتیبانی. در مجموعه مقالات کنفرانس سیستم های هوشمند چینی 2017 (CISC)، مودانجیانگ، چین، 14 تا 15 اکتبر 2017؛ صص 495-504. [ Google Scholar ]
چن، اف. چن، ز. بیسواس، س. لی، اس. راماکریشنان، ن. Lu, C. گراف شبکه های کانولوشن با فیلتر کالمن برای پیش بینی ترافیک. در مجموعه مقالات بیست و هشتمین کنفرانس بین المللی پیشرفت در سیستم های اطلاعات جغرافیایی (SIGSPATIAL)، سیاتل، WA، ایالات متحده آمریکا، 3 تا 6 نوامبر 2020. [ Google Scholar ]
دندوفر، پی. اوشپ، ا. Leal-Taixé, L. Goal-GAN: پیش بینی مسیر چندوجهی بر اساس برآورد موقعیت هدف. در مجموعه مقالات کنفرانس آسیایی بینایی رایانه، کیوتو، ژاپن، 30 نوامبر تا 4 دسامبر 2020. [ Google Scholar ]
صادقیان، ع. کوساراجو، وی. صادقیان، ع. هیروس، ن. Savarese، S. SoPhie: GAN توجه برای پیش بینی مسیرهای منطبق با محدودیت های اجتماعی و فیزیکی. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 15 تا 20 ژوئن 2019. [ Google Scholar ]
فرناندو، تی. دنمن، اس. سریدهران، اس. Fookes، C. GD-GAN: شبکه‌های متخاصم مولد برای پیش‌بینی مسیر و تشخیص گروهی در جمعیت. در مجموعه مقالات کنفرانس آسیایی در مورد چشم انداز رایانه، پرت، استرالیا، 2 تا 6 دسامبر 2018. [ Google Scholar ]
جواد، ع. ژان برنارد، اچ. جولین، پی. راه‌های اجتماعی: یادگیری توزیع‌های چندوجهی مسیرهای عابر پیاده با GAN. در مجموعه مقالات کنفرانس IEEE در کارگاه های آموزشی بینایی رایانه و تشخیص الگو (CVPRW)، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 16 تا 20 ژوئن 2019. [ Google Scholar ]
گوپتا، ا. جانسون، جی. فی فی، ال. ساوارس، اس. الهی، ع. گان اجتماعی: مسیرهای قابل قبول اجتماعی با شبکه های متخاصم مولد. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، سالت لیک سیتی، UT، ایالات متحده آمریکا، 18 تا 22 ژوئن 2018. [ Google Scholar ]
حداد، س. وو، ام. وی، اچ. لام، پیش بینی مسیر عابر پیاده آگاه از موقعیت SK با مدل توجه مکانی-زمانی. در مجموعه مقالات بیست و چهارمین کارگاه زمستانی بینایی رایانه (CVWW)، Stift Vorau، اتریش، 6 تا 8 فوریه 2019. [ Google Scholar ]
یو، جی. ژو، ام. وانگ، ایکس. پو، جی. چنگ، سی. چن، بی. یک شبکه توجه آگاه از زمینه پویا و استاتیک برای پیش‌بینی مسیر. ISPRS Int. J. Geo-Inf. 2020 ، 10 ، 336. [ Google Scholar ] [ CrossRef ]
فرناندو، تی. دنمن، اس. سریدهران، اس. Fookes, C. Soft+ hardwired توجه: یک چارچوب lstm برای پیش‌بینی مسیر انسان و تشخیص رویداد غیرعادی. شبکه عصبی 2018 ، 108 ، 466-478. [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
واسوانی، ع. Shazeer, N. پارمار، ن. Uszkoreit، J. جونز، ال. گومز، آ. قیصر، ال. Polosukhin، I. توجه تمام چیزی است که شما نیاز دارید. در مجموعه مقالات سی و یکمین کنفرانس بین المللی سیستم های پردازش اطلاعات عصبی، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 4 تا 9 دسامبر 2017؛ صفحات 6000–6010. [ Google Scholar ]
فن، ز. گونگ، ی. لیو، دی. وی، ز. وانگ، اس. جیائو، جی. دوان، ن. ژانگ، آر. Huang, X. Mask Attention Networks: Rethinking and Strengthen Transformer. در مجموعه مقالات کنفرانس بخش آمریکای شمالی انجمن زبانشناسی محاسباتی (NAACL)، آنلاین. 6–11 ژوئن 2021؛ صفحات 1692-1701. [ Google Scholar ]
کاریون، ن. ماسا، اف. سینایو، جی. یوسونیر، ن. کریلوف، آ. Zagoruyko، S. تشخیص اجسام انتها به انتها با ترانسفورماتورها. در مجموعه مقالات کنفرانس اروپایی بینایی کامپیوتر (ECCV)، گلاسکو، بریتانیا، 23 تا 28 اوت 2020؛ صص 213-229. [ Google Scholar ]
چن، ایکس. وو، ی. وانگ، ز. لیو، اس. لی، جی. توسعه مبدل ترانسفورماتور جریانی بلادرنگ برای تشخیص گفتار در مجموعه داده در مقیاس بزرگ. arXiv 2020 ، arXiv:2010.11395. [ Google Scholar ]
دوسوویتسکی، آ. بیر، ال. کولسنیکوف، آ. وایسنبورن، دی. ژای، ایکس. Unterthiner، T. دهقانی، م. مایندرر، م. هیگلد، جی. گلی، اس. و همکاران یک تصویر ارزش 16 × 16 کلمه دارد: ترانسفورماتورها برای تشخیص تصویر در مقیاس. arXiv 2020 ، arXiv:2010.11929. [ Google Scholar ]
پارمار، ن. واسوانی، ع. Uszkoreit، J. قیصر، ال. Shazeer, N. کو، ا. تران، دی. ترانسفورماتور تصویر. در مجموعه مقالات کنفرانس بین المللی یادگیری ماشین (ICML)، استکهلم، سوئد، 10 تا 15 ژوئیه 2018؛ صفحات 4052-4061. [ Google Scholar ]
دونگ، ال. خو، اس. Xu, B. تبدیل کننده گفتار: مدل توالی به دنباله بدون تکرار برای تشخیص گفتار. در مجموعه مقالات کنفرانس بین المللی آکوستیک، گفتار و پردازش سیگنال (ICASSP)، کلگری، AB، کانادا، 15 تا 20 آوریل 2018؛ صص 5884–5888. [ Google Scholar ] [ CrossRef ]
گلاتی، ع. کین، جی. چیو، سی. پارمار، ن. ژانگ، ی. یو، جی. هان، دبلیو. وانگ، اس. ژانگ، ز. وو، ی. و همکاران Conformer: ترانسفورماتور کانولوشن تقویت شده برای تشخیص گفتار. Proc. Interspeech 2020 ، 2020 ، 5036–5040. [ Google Scholar ] [ CrossRef ]
جولیاری، ف. حسن، من. کریستانی، م. گالاسو، F. شبکه های ترانسفورماتور برای پیش بینی مسیر. در مجموعه مقالات بیست و پنجمین کنفرانس بین المللی تشخیص الگو (ICPR)، میلان، ایتالیا، 10 تا 15 ژانویه 2021. [ Google Scholar ]
سیتز، ام جی; دیتریش، اف. Köster, G. اثر گام برداشتن بر مسیرهای عابر پیاده. فیزیک یک آمار مکانیک. برنامه آن است. 2015 ، 421 ، 594-604. [ Google Scholar ] [ CrossRef ]
کاراموتا، سی. کلودل، جی. جیاکومینی، سی. گرودن، سی. لونگو، جی. پیکولوتو، پی. بررسی تکنیک‌های تشخیص، مدل‌های ریاضی و نرم‌افزار شبیه‌سازی در دینامیک عابر پیاده. ترانسپ Res. Procedia 2017 ، 25 ، 551-567. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
بولتس، ام. Seyfried, A. جمع آوری مسیرهای پیاده. محاسبات عصبی 2013 ، 100 ، 127-133. [ Google Scholar ] [ CrossRef ]
گرودن، سی. کامپیسی، تی. کانال، ا. Tesoriere، G. Sraml، M. یک مطالعه متقابل در مورد جمع آوری داده های ویدئویی و تکنیک های ریزشبیه سازی برای تخمین سطح ایمنی عابر پیاده در یک فضای محدود. IOP Conf. سر. ماتر علمی مهندس 2019 , 603 , 042008. [ Google Scholar ] [ CrossRef ]
ما، WC; هوانگ، DA; لی، ن. کیتانی، KM پیش بینی پویایی تعاملی عابران پیاده با بازی ساختگی. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، هونولولو، HI، ایالات متحده آمریکا، 21 تا 26 ژوئیه 2017. [ Google Scholar ]
کوساراجو، وی. صادقیان، ع. مارتین، آر. رید، آی. رضاتوفیقی، ح. Savarese, S. Social-bigat: پیش بینی مسیر چندوجهی با استفاده از شبکه های توجه دوچرخه و گراف. arXiv 2019 , arXiv:1907.03395. [ Google Scholar ]
سالزمن، تی. ایوانوویچ، بی. چاکروارتی، پ. Pavone, M. Trajectron++: پیش‌بینی مسیر مولد چند عاملی با داده‌های ناهمگن برای کنترل. در مجموعه مقالات بینایی کامپیوتری و تشخیص الگو (CVPR)، سیاتل، WA، ایالات متحده آمریکا، 16-18 ژوئن 2020. [ Google Scholar ]
پارت، ک. کریس، اس. الهی، الف. پیش بینی مسیر انسان در جمعیت: دیدگاه یادگیری عمیق. IEEE Trans. هوشمند ترانسپ سیستم 2021 . [ Google Scholar ] [ CrossRef ]
ژو، اچ. Huynh، DQ; رینولدز، ام. مدل LSTM توجه مکان-سرعت-زمانی برای پیش بینی مسیر عابر پیاده. دسترسی IEEE 2020 ، 8 ، 44576–44589. [ Google Scholar ] [ CrossRef ]
یو، سی. ما، ایکس. رن، جی. ژائو، اچ. یی، S. شبکه های ترانسفورماتور نمودار فضایی-زمانی برای پیش بینی مسیر عابر پیاده. در مجموعه مقالات کنفرانس اروپایی بینایی کامپیوتر، مجازی. 23–28 اوت 2020. [ Google Scholar ]
خو، ی. پیائو، ز. گائو، اس. رمزگذاری تعامل جمعیت با شبکه عصبی عمیق برای پیش‌بینی مسیر عابر پیاده. در مجموعه مقالات کنفرانس IEEE 2018 در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، سالت لیک سیتی، UT، ایالات متحده آمریکا، 18 تا 22 ژوئن 2018. [ Google Scholar ]
یی، اس. لی، اچ. وانگ، ایکس. درک رفتارهای عابر پیاده از گروه‌های جمعیت ساکن. در مجموعه مقالات کنفرانس IEEE 2015 در مورد دید رایانه و تشخیص الگو (CVPR)، بوستون، MA، ایالات متحده آمریکا، 7 تا 12 ژوئن 2015. [ Google Scholar ]
گلوروت، ایکس. بوردس، آ. Bengio، Y. شبکه های عصبی یکسو کننده پراکنده عمیق. در مجموعه مقالات کنفرانس بین المللی هوش مصنوعی و آمار (AISTATS)، Ft. Lauderdale، FL، USA، 11-13 آوریل 2011. [ Google Scholar ]
پلگرینی، اس. اس، ا. شیندلر، ک. ون گول، ال. شما هرگز به تنهایی راه نخواهید رفت: مدل سازی رفتار اجتماعی برای ردیابی چند هدف. در مجموعه مقالات دوازدهمین کنفرانس بین المللی IEEE 2009، کیوتو، ژاپن، 27 سپتامبر تا 4 اکتبر 2009. ص 261-268. [ Google Scholar ]
لرنر، آ. کریسانتو، ی. Lischinski، D. ازدحام به عنوان مثال. در انجمن گرافیک کامپیوتری ; وایلی: هوبوکن، نیوجرسی، ایالات متحده آمریکا، 2007; جلد 26، ص 655–664. [ Google Scholar ]

شکل 1. ( الف ) معماری چارچوب کلی رویکرد پیشنهادی برای پیش‌بینی مسیر عابر پیاده. این چارچوب یک شبکه مبتنی بر ترانسفورماتور است که با پرس و جوهای انحراف تصادفی و یک شاخه طبقه بندی برای افزایش عملکرد کمک می کند. موقعیت های عابر پیاده مشاهده شده به شبکه تغذیه می شود و شبکه مسیر آینده را پیش بینی می کند. ( ب ) اطلاعات جزئیات رمزگذار و رمزگشا در ترانسفورماتور.

شکل 2. مقایسه کیفی بین روش پیشنهادی با مسیرهای پیش بینی TF. نتایج در مجموعه داده Zara1 نشان داده شده است. 3 ردیف اول نمونه هایی را نشان می دهد که روش پیشنهادی با موفقیت مسیرها را با خطاهای کوچک پیش بینی می کند. سطر آخر برخی از موارد زیر بهینه را نشان می دهد، به عنوان مثال، فردی مسیر خطی را طی کرده است. با این حال، روش پیشنهادی یک مسیر قابل قبول را پیش‌بینی می‌کند.

شکل 3. مقایسه نتایج میانگین ADE ( سمت چپ ) و FDE ( راست ) در تعداد لایه های مختلف . با افزایش بلوک ها، ADE و FDE به تدریج کاهش یافت. ADE و FDE تمایل دارند زمانی پایدار باشند به 6 افزایش می یابد. بنابراین، با در نظر گرفتن تعادل بین عملکرد و محاسبات، تعداد لایه های بلوک در ترانسفورماتور مدولار روی 6 تنظیم می شود.

شکل 4. مقایسه نتایج میانگین ADE ( سمت چپ ) و FDE ( راست ) بر روی مقادیر مختلف پارامتر کلیدی . با افزایش از ، عملکرد به طور پیوسته بهتر می شود تا زمانی که تا 50 شروع به بدتر شدن می کند. 50 تنظیم شده است که اغلب برای دستیابی به نتایج بسیار خوب در پیش بینی عابر پیاده کافی است.

شکل 5. مقایسه نتایج میانگین ADE ( سمت چپ ) و FDE ( راست ) در فاصله تفکیک دقت مختلف . چه زمانی 0.3 است، شبکه می تواند به عملکرد بهتری دست یابد، بنابراین روی 0.3 تنظیم شده است.

مقالات داخلی و بین المللی

بدون دیدگاه

دیدگاهتان را بنویسید لغو پاسخ

برای نوشتن دیدگاه باید وارد بشوید.

مشاورین هوش پیروزی

پیش بینی مسیر عابر پیاده با شبکه ترانسفورماتور

کلید واژه ها:

1. مقدمه

2. کارهای مرتبط