1. مقدمه
پیش بینی مسیر یکی از مشکلات اصلی است که باید در رانندگی خودران حل شود. رانندگان انسانی اغلب با مشاهده شرایط رانندگی وسایل نقلیه اطراف و محیط های جاده بر اساس تجربه خود، مسیر وسایل نقلیه اطراف را پیش بینی می کنند. با این حال، وسایل نقلیه خودران، که قادر به حرکت بدون راننده هستند، نمی توانند از این قانون پیروی کنند. وسایل نقلیه در حال حرکت با شرایط جاده های مختلف و شرکت کنندگان در ترافیک پویا مواجه می شوند که ممکن است خطرات بالقوه ای برای رانندگی ایمن ایجاد کند. در سناریوهای رانندگی خودمختار، درک وضعیت اطراف و پیشبینی روند آن، تواناییهای حیاتی برای اطمینان از ایمنی وسایل نقلیه است. بر اساس دادههای جمعآوریشده، روشهای پیشبینی مسیر میتوانند به سیستم کمک کنند تا تصمیمات قویتر و پایدارتری بگیرد.
برای دستیابی به رانندگی مستقل در ترافیک پیچیده، لازم است وسایل نقلیه حرکت آینده وسایل نقلیه اطراف را استنباط کنند. در مقایسه با مسائل دینامیکی عمومی، پیشبینی مسیر وسیله نقلیه معمولاً در یک محیط تصادفی باز اتفاق میافتد که دشواری و پیچیدگی مدلسازی را افزایش میدهد. از یک طرف، وسیله نقلیه در معرض محدودیت های زیادی مانند شرایط جاده و اهداف متحرک اطراف است. از سوی دیگر، تحت تأثیر قصد و سبک رانندگی راننده [ 1 ]، مسیر در طول زمان به شدت غیرخطی است. این چالش ها باعث تخریب مدل های پویا سنتی و مدل های یادگیری ماشین شده است
بنابراین، روشهای پیشبینی مسیر مبتنی بر یادگیری عمیق به یک کانون تحقیقاتی کنونی تبدیل شدهاند. شبکه عصبی بازگشتی (RNN)، بهویژه مدل حافظه کوتاهمدت بلند مدت (LSTM)، به دلیل عملکرد عالی آن در تجزیه و تحلیل دادههای سری زمانی، به طور گسترده مورد علاقه است. برخی از مطالعات [ 2 ، 3 ] نشان می دهد که شبکه Sequence to Sequence (Encoder-Decoder) که معمولاً در ترجمه ماشینی استفاده می شود، عملکرد خوبی در سناریوهای پیش بینی مسیر چند مرحله ای دارد. تحقیقات فزاینده بر مدل سازی آگاهانه از تعامل، مانند LSTM اجتماعی کانولوشن (CS-LSTM) [ 4 ] تأکید دارد.]، با استفاده از شبکه عصبی کانولوشن (CNN) برای مدلسازی وضعیت حرکت وسایل نقلیه اطراف برای معرفی عوامل تعامل چند وسیله نقلیه برای بهینهسازی پیشبینی مسیر پیشنهاد شد. به دلیل دقت و امکان سنجی بالا، CS-LSTM به طور گسترده مورد توجه محققان قرار گرفته است. با این حال، CS-LSTM فاقد در نظر گرفتن تغییرات تعامل و محدودیت های محیطی است. در این مقاله، ما یک شبکه توجه آگاه از زمینه پویا و ایستا (DSCAN) برای پیشبینی مسیر خودرو پیشنهاد میکنیم. مدل ما از مکانیسم توجه برای مدلسازی اطلاعات تعامل بین خودرو به صورت پویا استفاده میکند و از یادگیری تعبیهکننده ویژگی برای تقویت اثر محدودیت یک محیط استاتیک استفاده میکند. به طور خاص، مدل ما را می توان با موارد زیر مشخص کرد:
(1) رمزگشای توجه: ما از یک LSTM مبتنی بر توجه برای تولید بردارهای میانی در مراحل زمانی مختلف پیشبینی استفاده میکنیم تا مشکلی را حل کنیم که ادغام اجتماعی [ 5 ] منجر به وزن یکسان وسایل نقلیه اطراف میشود. رمزگشای ما میتواند وزنهای معقولی را به وسایل نقلیه اطراف اختصاص دهد و به طور تطبیقی قابل توجهترین وسایل نقلیه را در هر مرحله زمانی انتخاب کند.
(2) شبکه محدودیت: ما یک شبکه عصبی کم عمق، یک شبکه محدودیت، برای استخراج و مدلسازی محدودیتهای محیطی اطراف پیشنهاد میکنیم. از مزایای محاسبات راحت و مقیاس پذیری بالا برخوردار است. همراه با نمایش مسیرهای وسایل نقلیه، نتایج پیشبینی مسیر را به واقعیت نزدیکتر میکند.
2. بررسی ادبیات
با توجه به حرکت وسایل نقلیه، روشهای پیشبینی مسیر را به طور کلی میتوان به چهار نوع روشهای مبتنی بر فیزیکی، مبتنی بر مانور، متقابل آگاه و محیطزیست تقسیم کرد.
مدل حرکتی مبتنی بر فیزیک: این مدلها فقط دادههای کنترل وسیله نقلیه (به عنوان مثال، فرمان و شتاب) و ویژگیها (مثلاً وزن) را دریافت میکنند [ 6 ]. ساده ترین مدل ها، مدل های سرعت ثابت (CV) و شتاب ثابت (CA) هستند [ 7 ، 8 ]. مراجع [ 9 ، 10 ] از توزیع نرمال برای رسیدگی به عدم قطعیت در وضعیت خودرو استفاده کردند. علاوه بر این، مرجع [ 11] از شبیه سازی مونت کارلو برای حذف مسیرهای تولید شده که بیش از محدودیت های فیزیکی هستند استفاده کرد. این مدلهای اصلی به نمایش دینامیک و سینماتیک یک وسیله نقلیه بستگی دارد که در آن نتایج به قوانین فیزیک بستگی دارد. بنابراین، آنها را فقط می توان برای پیش بینی کوتاه مدت (کمتر از 1 ثانیه) مسیر خودرو اعمال کرد.
مدل حرکت مبتنی بر مانور: آنها با تشخیص از قبل مانورهایی که رانندگان قصد انجام آنها را دارند، مسیر را پیش بینی می کنند. این روش ها فرض می کنند که حرکت وسیله نقلیه با مانور قبلی آن مطابقت دارد. آتیو و همکاران [ 12 ] فاصله هاسدورف بین دو مسیر را برای اندازه گیری شباهت آنها محاسبه کرد. بر اساس ماشین بردار پشتیبان (SVM) و فیلتر بیزی، کومار و همکاران. [ 13 ] پیشبینی قصد تغییر خط آنلاین را اجرا کرد. کیائو و همکاران [ 14 ] مسیر را به عنوان یک سری از حرکات گسسته انتزاع کرد و از مدل مارکوف پنهان (HMM) برای پیش بینی مسیر حرکت اجسام متحرک استفاده کرد. علاوه بر این، طبقهبندیکنندههای مبتنی بر اکتشاف [ 15 ]، طبقهبندیکنندههای تصادفی جنگل [ 16 ]] و RNN ها برای تشخیص مانور پذیرفته شده اند. این روشها پیشرفتهتر و قابل اطمینانتر هستند، اما همچنان وسایل نقلیه را به عنوان موجودیتهای مستقل در نظر میگیرند و تاثیر وسایل نقلیه را نادیده میگیرند.
مدل حرکت آگاه از تعامل: شی تحقیق و وسایل نقلیه اطراف آن موجودیت های حرکتی تعاملی هستند. در مقایسه با دو روش قبلی، این روش ها بیشتر با سناریوهای ترافیک واقعی مطابقت دارند و پیچیده تر هستند. الهی و همکاران [ 5 ] ترکیب اجتماعی را برای پیشبینی مسیر عابر پیاده در فضاهای عمومی شلوغ پیشنهاد کرد. آنها فضا را مشبک کردند و اطلاعات مکانی را از طریق ادغام شبکه ای حفظ کردند. به عنوان ادامه، دیو و همکاران. [ 4 ] CS-LSTM را پیشنهاد کرد. نویسندگان از ادغام اجتماعی [ 5 ] برای پیش بینی مسیر وسیله نقلیه استفاده کردند و تأثیر وسایل نقلیه اطراف را در نظر گرفتند. تحقیقات اخیر [ 17] نشان داد که علاوه بر پیشبینی رفتار، موضوع مهم در نظر گرفتن تعامل بین خودرویی است. با این حال، روشهای ادغام اجتماعی منجر به وزن تأثیر یکسانی برای هر موجود در اطراف موضوع تحقیق شد. بنابراین، خو و همکاران. [ 18 ] یک معادله حذف را برای محاسبه تأثیر عابران پیاده در فواصل مختلف بر روی شی تحقیقاتی پیشنهاد کرد و بر این اساس نتایج رمزگذاری مسیر تاریخی را وزن کرد. شبکه های متخاصم مولد (GAN) نیز در پیش بینی مسیر استفاده می شوند. مرجع [ 19] Social-GAN را با یک ژنراتور متشکل از یک رمزگذار مبتنی بر LSTM، ماژول ادغام متن و یک رمزگشا مبتنی بر LSTM پیشنهاد کرد. متمایز کننده آن نیز از LSTM استفاده می کرد. با این حال، GAN ها یک نقص دارند. آنها برای رسیدن به تعادل نش چالش برانگیز هستند و زمان زیادی را صرف می کنند.
با توجه به تعامل بین وسایل نقلیه، مدلهای حرکت آگاه از تعامل به سناریوی رانندگی واقعی نزدیکتر هستند و نتایج پیشبینی آنها قابل اعتمادتر است. حرکت یک وسیله نقلیه تحت تأثیر وسایل نقلیه اطراف در جاده قرار می گیرد و ضربه دائماً تغییر می کند. برخی از مدلهای موجود بر روی تاریخچه مسیر خودروها تمرکز میکنند تا اطلاعات دینامیکی اطراف را بیاموزند، اما تأثیر محدودیتهای محیط ساکن در جاده را نادیده میگیرند. با توجه به این موضوع، برخی از مطالعات در مورد محدودیت های جاده ای شروع شد.
مدل آگاه از محیط: این روش ها اطلاعات محیطی را به مدل های ذکر شده در بالا اضافه می کنند و توانایی تعمیم را قوی تر می کنند. آزمایش در [ 20 ]، که خطوط و علائم را در نظر گرفت، از حالت متشکل از وضعیت خودرو و اطلاعات محیط استفاده کرد. برای هر مسیر خبره، آنها یک مسیر را بر اساس محیط مرتبط سنتز کردند. مرجع [ 21 ] یک MRN محدود (شبکه تشخیص مانور) را متوجه شد که در آن خروجی رمزگذار GRU با بردار محدودیتهای ساختاری جاده الحاق شده بود. با این حال، این کارها فقط ساختار محیطی خاص یا انواع داده های محدود را در نظر می گیرند که گسترش آنها دشوار است.
هر دو عامل زمینه پویا و استاتیک بر دقت پیشبینی نهایی تأثیر میگذارند و باید در رانندگی در نظر گرفته شوند.
3. روش شناسی
یک مسیر رانندگی قابل اعتماد باید توسط عوامل متعددی مانند وسایل نقلیه اطراف و محدودیت های محیطی ایجاد شود. بنابراین، یک مدل پیشبینی مسیر خودروی قوی باید این عوامل را در نظر بگیرد. شکل 1 معماری مدل پیشنهادی ما، DSCAN را نشان می دهد. عمدتاً از یک رمزگذار LSTM، یک شبکه محدودیت و یک رمزگشای توجه تشکیل شده است. DSCAN مسیرهای تاریخی وسایل نقلیه و محدودیت های محیطی را به عنوان ورودی می گیرد. رمزگذار LSTM و شبکه محدودیت به ترتیب آنها را مدل می کنند. رمزگشای توجه پیشنهادی ما سپس نمایشهای مرحله قبل را به هم میپیوندد تا نتیجه پیشبینی مسیر نهایی را به دست آورد.
3.1. رمزگذار
LSTM یک شبکه عصبی است که وابستگی بین مشاهدات را در یک سری زمانی محاسبه می کند. توسط سه دروازه کنترل می شود که دروازه فراموشی مهمترین آنهاست. دروازه فراموشی از نرخ فروپاشی استفاده می کند [ خطای پردازش ریاضی ]�تیبرای ساخت LSTM با حافظه بلند مدت [ 22 ، 23 ] و بستگی به خروجی قبلی دارد [ خطای پردازش ریاضی ]ساعتتی–1و ورودی فعلی [ خطای پردازش ریاضی ]ایکستی. این مرحله را می توان با معادله ( 1 ) بیان کرد.
به این ترتیب، آنها معمولا برای اهداف پیش بینی استفاده می شوند. ما LSTM را به عنوان رمزگذار خود برای عملکرد برتر آن در مسائل سری زمانی پذیرفته ایم. از آنجایی که همه مسیرهای تاریخی از توزیع داده های یکسانی تبعیت می کنند، ما مسیرهای وسایل نقلیه را برای تسریع بهینه سازی شبکه رمزگذاری می کنیم.
جایی که [ خطای پردازش ریاضی ]همن∈آرده�جنشان دهنده نمایش رمزگذاری از [ خطای پردازش ریاضی ]�هساعتمنجلهمنمسیر تاریخی [ خطای پردازش ریاضی ]تی�آ�من. همانطور که در شکل 1 نشان داده شده است ، رمزگذار LSTM مسیر تاریخی خودروی مورد نظر را مدل می کند
و مسیر تاریخی وسیله نقلیه اطراف [ خطای پردازش ریاضی ]تی�آ�1،تی�آ�2،…،تی�آ�متربرای یادگیری دینامیک حرکت وسیله نقلیه
همانطور که در [ 4 ] انجام شد، ما همچنین یک شبکه اشغال را بر اساس خطوط برای تنظیم تانسور اجتماعی خود تعریف می کنیم. با استفاده از این تانسور اجتماعی و وضعیت LSTM وسیله نقلیه، دقت پیشبینی بهبود یافته است [ 5 ، 24 ]. مرجع [ 4 ] اشاره کرد که لایه کانولوشن می تواند میدان گیرنده شبکه را گسترش دهد و می تواند ترکیب اطلاعات شبکه را افزایش دهد. ما نمایندگی هر وسیله نقلیه اطراف را ضمیمه می کنیم [ خطای پردازش ریاضی ](همن،من∈1،2،…،متر)درون یک [ خطای پردازش ریاضی ]3×13شبکه برای حفظ همبستگی های فضایی و اضافه کردن یک لایه کانولوشن با هسته [ خطای پردازش ریاضی ]3×3. از آنجایی که شبکه عصبی کانولوشن نگاشت هویت را حفظ می کند، توانایی مدل را برای یادگیری و بیان نیز تقویت می کند. در نهایت، رمزگذار نمایش وسیله نقلیه مورد نظر را می گیرد [ خطای پردازش ریاضی ]ه0∈آرده�جو نمایشهای وسایل نقلیه اطراف آن با پردازش پیچشی [ خطای پردازش ریاضی ]سی∈آر3×13×دج���به عنوان خروجی برای رمزگشایی بیشتر
3.2. شبکه محدودیت
حتی اگر حرکت وسایل نقلیه اطراف و قصد رانندگی مشابه باشد، مسیر آینده وسیله نقلیه ممکن است همچنان تحت تأثیر عوامل محیطی (مانند خطوط، آب و هوا، و سیاست های ترافیکی) باشد. به عنوان مثال، وسایل نقلیه رانندگی در باران تمایل دارند به آرامی حرکت کنند و از سبقت اجتناب کنند [ 25 ، 26 ]. علاوه بر این، همانطور که فناوری V2I (خودرو به زیرساخت) تکامل مییابد [ 27 ، 28 ]، زیرساخت میتواند اطلاعات محیطی بیشتری را برای خودرو فراهم کند که برای پردازش به شبکه نیاز دارد. با اشاره به Wide&Deep [ 29 ] و DeepFM [ 30 ]، ما یک شبکه عصبی کم عمق (Constraint Net) را برای مدلسازی محدودیتهای محیطی پیشنهاد میکنیم. همانطور که در شکل 2 نشان داده شده است، ابتدا اطلاعات محیطی خام را در گروهی از ویژگی های دسته جمع آوری و گسسته می کنیم (به عنوان مثال، “آفتابی” به عنوان 0 و “بارانی” به عنوان 1)، سپس شبکه محدودیت پیشنهادی این ویژگی های محیطی استخراج شده را به عنوان ورودی می گیرد و یک نمایش متمرکز را به عنوان خروجی محاسبه می کند. .
با توجه به گروهی از ویژگی های محیطی [ خطای پردازش ریاضی ]�1،�2،…،�من، جایی که I تعداد فیلدهای ویژگی است، لایه جاسازی هر یک از آنها را به یک نمایش برداری پیوسته متراکم تبدیل می کند. [ خطای پردازش ریاضی ]�من˜با بعد [ خطای پردازش ریاضی ]دج���. برای دستیابی به کاهش ابعاد، شبکه محدودیت یک شبکه عصبی تک لایه را بر روی غلظت بردارها و خروجی های جاسازی شده با اطلاعات محیطی متمرکز اعمال می کند. این فرآیند را می توان به صورت زیر بیان کرد:
جایی که [ خطای پردازش ریاضی ]س،بس∈آردتبدیل،دبلیوس∈آردج���×(من·دج���).
همانطور که در بالا توضیح داده شد، شبکه محدودیت قادر است تعداد متغیری از ویژگی ها را تبدیل کند [ خطای پردازش ریاضی ]�1،�2،…،�مندر یک بردار طول ثابت s ، که به این معنی است که ارائه ویژگی جدید محیطی بدون تغییر سایر اجزای شبکه مدل کامل راحت است. علاوه بر این، پیچیدگی محاسباتی شبکه محدودیت است [ خطای پردازش ریاضی ]�(مندج���2). در مقایسه با اجزای دیگر مانند رمزگذار LSTM، پیچیدگی محاسباتی شبکه محدودیت ناچیز است و به صورت خطی با تعداد فیلدهای ویژگی رشد می کند.
با این حال، محدود به مجموعه ویژگیهای مجموعه داده عمومی، ما عمدتاً ویژگیهای محیطی مربوط به خط را در آزمایش خود استخراج میکنیم، از جمله سه جنبه زیر: خط وسیله نقلیه هدف، چه در حال رانندگی در خط چپ یا راست باشد. ما کاوش سایر ویژگی های محیطی را به عنوان کار آینده خود واگذار می کنیم. ما همچنین اثربخشی شبکه محدودیت را در بخش 4 نشان میدهیم .
3.3. رسیور توجه
ما یک رمزگشای توجه را پیشنهاد میکنیم که اطلاعات مرحله قبل را برای تولید توزیع پیشبینی برای مسیر آینده مدیریت میکند. مشابه رمزگذار، ما از یک شبکه LSTM به عنوان رمزگشای اولیه برای دستیابی به پیش بینی مسیر چند مرحله ای استفاده می کنیم. مکانیسم توجه به طور گسترده در پیشبینی سری برای عملکرد خوب آن استفاده میشود، مانند ترجمه ماشینی [ 31 ]، حاشیهنویسی تصویر [ 32 ]، تشخیص گفتار [ 33 ]، خلاصهسازی متن [ 34 ]، و پیشبینی مسیر [ 35 ]]. برای حل کارآمد نمایش رمزگذاری با ابعاد بالا C و توجه پویا به حرکت وسایل نقلیه اطراف، ما همچنین مکانیسم توجه را به رمزگشا اعمال می کنیم تا رمزگشا ما بتواند به طور تطبیقی قابل توجه ترین وسایل نقلیه اطراف را در هر مرحله انتخاب کند.
دقیقاً طبق حالت پنهان قبلی [ خطای پردازش ریاضی ]ساعتتی–1، رمزگشا وزن توجه هر شبکه را محاسبه می کند [ خطای پردازش ریاضی ]سیمن،�∈آردج���در C در مرحله زمانی t و سپس آنها را وزن کنید (همانطور که در معادلات ( 5 )–(7) نشان داده شده است):
جایی که [ خطای پردازش ریاضی ]من∈1،2،3،�∈1،2،…،13مختصات شبکه هستند و [ خطای پردازش ریاضی ]سیتی˜∈آردج���نمایش توجه وزنی است. [ خطای پردازش ریاضی ]سج��همن،�تیو [ خطای پردازش ریاضی ]�من،�تیمتغیر میانی و وزن توجه برای [ خطای پردازش ریاضی ]سیمن،�به ترتیب در مرحله زمانی t .
پس از محاسبه توزیع توجه و الحاق آن با نمایش های وسیله نقلیه هدف و محدودیت ها [ خطای پردازش ریاضی ]ه0،سیتی˜،سرمزگشا آنها را به عنوان ورودی می گیرد و این تانسور با ابعاد بالا را در این مرحله زمانی استنتاج می کند. در نهایت، دنباله پیش بینی مسیر آینده را به عنوان خروجی تولید می کند.
4. ارزیابی تجربی
4.1. مجموعه داده
آزمایش ما از داده های I-80 و US-101 شبیه سازی نسل بعدی (NGSIM) استفاده کرد (داده ها از وب سایت رسمی اداره بزرگراه فدرال، وزارت حمل و نقل ایالات متحده ( https://ops.fhwa.dot.gov/trafficanalysistools ) به دست آمده است. /ngsim.htm ، قابل دسترسی در 5 فوریه 2019)). مسیرها به بخش های 8 ثانیه ای تقسیم شدند، جایی که ما از 3 ثانیه تاریخچه مسیر و یک افق پیش بینی 5 ثانیه استفاده کردیم. علاوه بر این، مراحل حذف نقاط پرت و خطاهای مشاهده مجموعه داده خام NGSIM به شرح زیر است:
- (من)
-
نقاط دورافتاده حذف شده که شتاب آنها از خواص فیزیکی خودرو یا حد استقامت انسانی بیشتر است. [ خطای پردازش ریاضی ][–8متر/س2،5متر/س2][ 36 ].
- (II)
-
از یک چند جملهای لاگرانژ پنججملهای (معادلات ( 8 ) و (9)) برای درونیابی مختصات پرت استفاده کرد.
جایی که [ خطای پردازش ریاضی ]ایکس�،ایکسکمفاصل درون یابی هستند، [ خطای پردازش ریاضی ]�(ایکس)تابع درون یابی است، [ خطای پردازش ریاضی ]لک(ایکس)چند جمله ای درجه n و است [ خطای پردازش ریاضی ]��(ایکس)نتیجه درونیابی چند جمله ای لاگرانژ است.
- (iii)
-
از فیلتر کالمن برای حذف خطاهای ناشی از مشاهده و درونیابی استفاده می شود. شکل 3 تغییرات داده های پردازش شده را نشان می دهد. پس از پیش پردازش، این داده ها پایدارتر و کاربردی تر هستند.
4.2. تنظیمات پارامتر
- (1)
-
معیارهای ارزیابی
ما نتایج را بر حسب ریشه میانگین مربعات خطا (RMSE) مسیرهای پیشبینیشده با توجه به مسیرهای واقعی آینده در یک افق پیشبینی 5 ثانیه ارزیابی میکنیم. یک مقدار RMSE کوچکتر نشان دهنده دقت پیش بینی بالاتر مدل است. به طور خاص، خطای پیشبینی در مرحله زمانی t آینده به شرح زیر است:
که در آن m تعداد نمونه های آزمایشی و [ خطای پردازش ریاضی ]ایکسپتی^–�پتی^و [ خطای پردازش ریاضی ]ایکسپتی–�پتیمختصات پیشبینیشده و واقعی خودرو p را به ترتیب در مرحله زمانی t نشان میدهد.
- (2)
-
پارامترهای اصلی
مدلهای درگیر در آزمایش ما همگی با فراپارامترهای یکسان برای اطمینان از قابلیت اطمینان تنظیم شدهاند. رمزگذار و رمزگشا هر دو حالت 128 بعدی دارند، در حالی که اندازه لایه کانولوشن و نمایش محدودیت هر دو 32 است. [ خطای پردازش ریاضی ]�هآک�̲آره��فعال سازی با [ خطای پردازش ریاضی ]�=0.1برای همه لایه ها در آموزش، همه مدل ها از بهینه ساز Adam با استفاده می کنند [ خطای پردازش ریاضی ]�=0.001،�1=0.9،و [ خطای پردازش ریاضی ]�2=0.999. را [ خطای پردازش ریاضی ]هپ�جساعتو [ خطای پردازش ریاضی ]بآتیجساعت̲سمن�هبه ترتیب 128 و 8 تنظیم می شوند.
4.3. مدل های مقایسه شده
ما مدل ها و تنظیمات سیستم زیر را با هم مقایسه می کنیم:
-
Vanilla LSTM (V-LSTM): V-LSTM بر روی ساختار seq2seq با یک رمزگذار LSTM و یک رمزگشا LSTM ساخته شده است. به عنوان یک مدل پایه، فقط مسیر تاریخی وسیله نقلیه هدف را بدون در نظر گرفتن سایر عوامل ورودی می گیرد.
-
LSTM با ادغام اجتماعی کاملاً متصل (S-LSTM): ما این خط پایه را مطابق [ 5 ] پیاده سازی می کنیم. متفاوت از V-LSTM، S-LSTM همچنین دارای مسیرهای تاریخی وسایل نقلیه اطراف است. نمایش رمزگذاری شده خودروی هدف و وسایل نقلیه اطراف قبل از ارسال به رمزگشا با یک لایه کاملاً متصل ترکیب می شود.
-
LSTM با ادغام اجتماعی کانولوشن (CS-LSTM): مشابه S-LSTM، CS-LSTM همچنین دارای مسیرهای تاریخی وسیله نقلیه هدف و وسایل نقلیه اطراف است. با این حال، CS-LSTM از شبکه عصبی کانولوشن برای یادگیری تعامل بین وسیله نقلیه هدف و وسایل نقلیه اطراف استفاده می کند. جزئیات بیشتر در مورد CS-LSTM را می توان در [ 4 ] یافت.
-
شبکه توجه آگاه از زمینه پویا (DCAN): DCAN با یک رمزگذار LSTM و یک رمزگشای توجهی که در بخش 3 توضیح داده شده است، پیاده سازی می شود که همان DSCAN پیشنهادی ما است. مکانیزم توجه را برای اختصاص وزن های مختلف به وسایل نقلیه اطراف اضافه می کند. ما این مدل پایه را برای نشان دادن اثربخشی شبکه محدودیت تنظیم کردیم.
-
DSCAN: این مدل کامل توصیف شده در این مقاله است که از رمزگذار LSTM، شبکه محدودیت و رمزگشای توجه تشکیل شده است. متفاوت از DCAN، DSCAN نه تنها مسیرهای تاریخی وسیله نقلیه هدف و وسایل نقلیه اطراف، بلکه اطلاعات محیطی را نیز در نظر می گیرد.
4.4. نتایج
جدول 1 مقادیر RMSE را برای مدل های مقایسه شده نشان می دهد. در افق پیشبینی 5 ثانیه، DSCAN از سایر مدلها از نظر مقادیر RMSE بهتر عمل میکند و کارایی مدل پیشنهادی ما را نشان میدهد.
ما توجه می کنیم که مدل V-LSTM مقادیر RMSE بالاتری نسبت به مدل های دیگر در هر مرحله زمانی تولید می کند. این مدل به سادگی از تاریخچه مسیر خودروی ego استفاده می کند، در حالی که S-LSTM و CS-LSTM از اطلاعات حرکت وسایل نقلیه اطراف استفاده می کنند. این نشان می دهد که فعل و انفعالات بین وسیله نقلیه تاثیر قابل توجهی بر پیش بینی مسیر دارند.
همچنین توجه می کنیم که مقدار RMSE مدل DCAN در مقایسه با S-LSTM و CS-LSTM در هر مرحله زمانی به طور قابل توجهی کاهش می یابد. در پیشبینی طولانی مدت (5 ثانیه)، DCAN دقت پیشبینی را تا 7 درصد در مقایسه با CS-LSTM بهبود میبخشد. این نشان می دهد که توجه به تغییر تعامل در طول زمان مفید است. مکانیسم توجه، بردارهای میانی مختلفی را در طول دوره پیشبینی به جای بردارهای مشابه در CS-LSTM ارائه میکند، که از دست دادن اطلاعات را کاهش میدهد و منجر به بهبود دقت پیشبینی مسیر میشود.
در نهایت، DSCAN که از اطلاعات زمینه پویا و استاتیک استفاده می کند، مقدار RMSE را بیشتر کاهش می دهد. به طور خاص، دقت پیشبینی DSCAN 1٪ بالاتر از DCAN در 5 ثانیه بهبود مییابد. این نشان می دهد که اطلاعات زمینه ایستا معرفی شده از طریق شبکه محدودیت نیز یک نشانه ارزشمند برای پیش بینی مسیر است. وسایل نقلیه در بزرگراه می توانند خط را در همان جهت تغییر دهند اما نمی توانند از مرز جاده عبور کنند. بنابراین، مسیر پیشبینیشده باید توسط مرزهای خطوط محدود شود، بهویژه زمانی که وسیله نقلیه در هر دو طرف خطوط حرکت میکند. شبکه محدودیت باعث میشود که پیشبینی به جای عبور از مرز به سمت داخل جاده گرایش پیدا کند تا به نتیجه DSCAN کمک کند به مسیر واقعی خودرو نزدیکتر شود.
5. بحث
یکی از مزایای مکانیسم توجه این است که وزن های تولید شده قابل تفسیر هستند. در این بخش، ما نتایج پیشبینیهای انجام شده توسط مدل خود را برای درک بیشتر رفتار آن تجزیه و تحلیل میکنیم.
5.1. تجزیه و تحلیل توزیع توجه
وزن های محاسبه شده در هر مرحله زمانی را می توان به عنوان عادی سازی همبستگی تعامل بین خودرو در نظر گرفت. در هر افق پیشبینیشده t (t ≤ 5 ثانیه)، هر چه وزن شبکه بیشتر باشد، تأثیر وسیله نقلیه بر حرکت شی تحقیقاتی مهمتر است. ما وزن توجه را در فرآیند استدلال برای تجزیه و تحلیل بیشتر مکانیسم مدل خود تجسم می کنیم ( شکل 4 ). یافته ها به شرح زیر است:
(1) ارزش وزن با فاصله کاهش می یابد: به طور کلی، وزن وسایل نقلیه اطراف با افزایش فاصله تا وسیله نقلیه تحقیقاتی کاهش می یابد ( شکل 4 a). این ویژگی در قسمت عقب خودرو بیشتر به چشم می خورد، اما توزیع وزن موضعی در جلو با آن مطابقت ندارد. ممکن است توضیح داده شود که هنگام رانندگی به جلو، فاصله ایمن از جلو در نظر گرفته شده است، و برخی از وسایل نقلیه دورتر در محدوده جلو تأثیر بیشتری بر هدف تحقیق دارند. فراتر از این محدوده، توزیع وزن دوباره با قانون مطابقت دارد. همچنین توجه میکنیم که وزنهای همسایگی موضوع تحقیق ناچیز است. این توزیع احتمال کم نیز ناشی از مسافت ایمن رانندگی است.
(2) توزیع وزن جهت دار است: برجسته ترین یافته ای که از تجزیه و تحلیل به دست می آید این است که وزن شبکه های جلو بیشتر از وزن شبکه های عقب است. این با سناریوهای واقعی سازگار است. رانندگان معمولاً روی جلو تمرکز می کنند تا خود را با توجه به حرکت وسایل نقلیه جلو تنظیم کنند.
(3) مقدار وزن همان خط بیشتر است: یافته دیگر این است که وزن شبکه همان خط همیشه بیشتر از وزن خطوط مجاور در همان فاصله است. یک توضیح احتمالی برای این ممکن است این باشد که یک وسیله نقلیه معمولاً به جای تغییر خط مکرر، مستقیم می راند. از آنجایی که مقادیر را در اینجا میانگین می کنیم، برخی از نمونه های با وزن زیاد خطوط مجاور نمایش داده نمی شوند.
(4) با افزایش زمان، مقدار وزن اطراف به سمت میانگین گرایش پیدا میکند: در افق پیشبینیشده، مهمترین یافته این است که مقادیر وزن شبکههای با وزن زیاد با زمان کاهش مییابد در حالی که شبکههای با وزن کوچک برعکس هستند ( شکل 4 ب). . این نتیجه ممکن است با این واقعیت توضیح داده شود که حرکت وسایل نقلیه اطراف در آینده نامشخص است و این عدم قطعیت در طول زمان انباشته می شود. برای کاهش تأثیر تجمعی این عدم قطعیت در پیشبینی طولانیمدت، رمزگشای توجه به دید بزرگتری توجه میکند. این امر منجر به کاهش وزن نسبتاً در محدوده کوچک و افزایش نسبتاً وزن در محدوده بزرگ می شود.
5.2. تحلیل سناریو
شکل 5توزیع وزن توجه را با زمان پیش بینی شده در سناریوهای مختلف، از جمله تغییر خطوط چپ و راست و رانندگی مستقیم نشان می دهد. واضح است که وزن توجه عمدتاً در شبکه های وسایل نقلیه توزیع می شود. در فرآیند پیشبینی، DSCAN توزیع را با توجه به حرکت خودرو تنظیم میکند. توجه داریم که مکانیسم توجه دائماً تنظیم می شود تا با تغییر موقعیت جانبی، وزن بیشتری به خط هدف اختصاص دهد. به ویژه، هنگام تغییر به لاین سمت راست (سناریوی 2)، وزن وسیله نقلیه در جلو سمت راست بیشتر می شود. این ناهماهنگی به دلیل رمزگشای توجه است که معتقد است خودروی دورتر باید پس از چند ثانیه مورد توجه قرار گیرد. مدل ما با توجه به تعامل آگاه است و می تواند بردارهای میانی مختلف مربوطه را ایجاد کند.
6. نتیجه گیری
با در نظر گرفتن اطلاعات پویا و استاتیکی که توسط وسایل نقلیه در حال حرکت مواجه میشوند، این مقاله یک شبکه توجه آگاه از زمینه پویا و ایستا (DSCAN) را برای پیشبینی مسیر پیشنهاد میکند. ما مکانیسم توجه را برای تنظیم توزیع وزن تعامل بین خودرو در طول دوره پیشبینی معرفی میکنیم. علاوه بر این، ما یک شبکه محدودیت توسعهپذیر برای استخراج ساختارهای جادهای متعدد پیشنهاد میکنیم. DSCAN یک شبکه ترکیبی چند اطلاعاتی است که در آن نتایج پیشبینیشده نزدیک به سناریوهای رانندگی واقعی است. از طریق آزمایشها روی مجموعه دادههای دنیای واقعی، نشان میدهیم که DSCAN از برخی روشهای پیشبینی مسیر مبتنی بر LSTM بهتر عمل میکند. مدل پیشنهادی ما بینشهایی را برای پیشبینی مسیر وسیله نقلیه ارائه میکند و ممکن است در سیستم رانندگی خودمختار اعمال شود.
تعمیم پذیری نتایج ما منوط به محدودیت های خاصی است. به عنوان مثال، مجموعه داده فقط از بخش های بزرگراه تشکیل شده است در حالی که ساختار و مشارکت کنندگان ترافیک جاده های مشترک پیچیده تر از ما هستند. کار بیشتر باید انجام شود تا این نشانه ها در مدل گنجانده شود. ما معتقدیم که مدل DSCAN با اطلاعات بیشتر عملکرد بهتری خواهد داشت.
بدون دیدگاه