HDRLM3D: یک مدل مبتنی بر یادگیری تقویتی عمیق با پرسپترون انسان مانند و سیاست برای تخلیه جمعیت در محیط های سه بعدی

در حال حاضر، یک اشکال رایج مدل‌های شبیه‌سازی جمعیت این است که آنها عمدتاً در محیط‌های دو بعدی (انتزاعی) شبیه‌سازی می‌شوند، که شبیه‌سازی رفتارهای جمعیت مشاهده شده در محیط‌های سه بعدی واقعی را محدود می‌کند. بنابراین، ما یک مدل مبتنی بر یادگیری تقویتی عمیق با پرسپترون و خط مشی انسان مانند برای تخلیه جمعیت در محیط‌های سه بعدی (HDRLM3D) پیشنهاد می‌کنیم. در HDRLM3D، ما یک پرسپترون پرتوی بینایی (VLRP) پیشنهاد می‌کنیم و آن را با یک پرسپترون جهانی (یا محلی) بازطراحی شده (GOLP) ترکیب می‌کنیم تا یک مدل ادراک انسان‌مانند را تشکیل دهیم. ما یک شبکه استخراج و تصمیم گیری ویژگی دو شاخه ای (DBFED-Net) را به عنوان خط مشی پیشنهاد می کنیم که می تواند ویژگی ها را استخراج کند و تصمیمات رفتاری بگیرد. علاوه بر این، ما توانایی روش خود را برای بازتولید پدیده‌ها و رفتارهای معمولی از طریق آزمایش در دو سناریو مختلف تأیید می‌کنیم. در سناریوی I، ما اثر گلوگاه جمعیت را بازتولید می‌کنیم و اثربخشی و مزایای HDRLM3D را با مقایسه آن با آزمایش‌های جمعیت واقعی و روش‌های کلاسیک از نظر نقشه‌های چگالی، نمودارهای اساسی و زمان‌های تخلیه بررسی می‌کنیم. در سناریوی II، ما رفتارهای ناوبری و اجتناب از مانع عوامل را بازتولید می‌کنیم و مزایای HDRLM3D را برای شبیه‌سازی جمعیت در محیط‌های سه بعدی ناشناخته با مقایسه آن با سایر مدل‌های مبتنی بر یادگیری تقویتی عمیق از نظر مسیرها و تعداد برخوردها نشان می‌دهیم.

کلید واژه ها:

شبیه سازی جمعیت ; مدل مبتنی بر عامل ; یادگیری تقویتی عمیق ; پرسپترون _ خط مشی

1. مقدمه

به عنوان یک مشکل میان رشته‌ای معمولی، تخلیه جمعیت که شامل الگوهای رفتاری خاصی است، تحت تأثیر عوامل زیادی مانند جمعیت، سازه‌های ساختمانی و شرایط اضطراری قرار می‌گیرد. همچنین به یک جهت تحقیقاتی مهم برای سیستم های اطلاعات جغرافیایی (GIS) تبدیل شده است. امروزه، بسیاری از رویکردها، مانند تحقیقات تصادف (که از طریق پرسشنامه [ 1 ، 2 ]، مصاحبه [ 2 ] و فیلم [ 3 ، 4 ] انجام می شود)، آزمایش های حیوانی [ 5 ، 6 ، 7 ]، آزمایش های جمعیت واقعی [ 8 ، 9 ]، آزمایش‌های جمعیت مجازی [ 10 ، 11]، و شبیه سازی جمعیت به طور گسترده در مدل سازی تخلیه جمعیت استفاده شده است. با این حال، به دلیل فقدان داده های واقعی و دشواری سازماندهی آزمایشی، بسیاری از پدیده ها و قوانینی که در طول تعامل بین جمعیت و محیط آنها به وجود می آیند، تنها با روش شبیه سازی جمعیت قابل مطالعه هستند [ 12 ]. بنابراین، شبیه‌سازی‌های جمعیت، به‌ویژه مدل‌های شبیه‌سازی جمعیت، به کانون و مرز تحقیقات فعلی تخلیه جمعیت تبدیل شده‌اند.

در چند دهه گذشته، مدل‌های مختلف شبیه‌سازی جمعیت ایجاد شده‌اند. از نظر مقیاس مدل سازی، این مدل ها را می توان به طور تقریبی به دو نوع مدل های ماکروسکوپی و میکروسکوپی تقسیم کرد. مدل های ماکروسکوپی عمدتاً رفتار کلی جمعیت را مدل می کنند و رابطه بین ویژگی های ماکروسکوپی مانند چگالی، سرعت و جریان را در نظر می گیرند، اما حرکت و رفتار فردی را در نظر نمی گیرند. بنابراین، برای مدل‌سازی رفتار جمعیت‌های بزرگ مناسب‌تر هستند. مدل‌های ماکروسکوپی معمولی شامل مدل‌های دینامیک سیال [ 13 ]، مدل‌های رگرسیون [ 14 ]، مدل‌های انتخاب مسیر [ 15 ] و مدل‌های صف [ 16 ] هستند.]. مدل‌های میکروسکوپی، فرد را به عنوان واحد اصلی مدل‌سازی در نظر می‌گیرند و با شبیه‌سازی حرکت افراد و تعامل بین افراد، رفتار جمعیت را بیان می‌کنند. در مقایسه با مدل های ماکروسکوپی، آنها توجه بیشتری به بیان ویژگی های میکروسکوپی مانند موقعیت و سرعت فردی دارند. مدل‌های میکروسکوپی معمولی شامل مدل‌های اتوماتای سلولی [ 17 ]، مدل‌های گاز شبکه [ 18 ]، مدل‌های نیروی اجتماعی [ 19 ] و مدل‌های مبتنی بر عامل [ 20 ] است.

به لطف توسعه سریع هوش مصنوعی، مدل‌های مبتنی بر عامل، به‌ویژه مدل‌های مبتنی بر یادگیری تقویت‌کننده عمیق (DRLM) به دلیل مزایای منحصر به فردشان بیشتر مورد توجه قرار گرفته‌اند. توری یک روش شبیه‌سازی جمعی را مبتنی بر یادگیری تقویتی چند عاملی برای شبیه‌سازی رفتار دانش‌آموزان بین کلاس‌ها پیشنهاد کرد و به این نتیجه رسید که عوامل RL می‌توانند رفتار غیرقابل پیش‌بینی و متنوع‌تری نسبت به عوامل مبتنی بر قانون ایجاد کنند [ 21 ]. مارتینز-گیل چارچوب شبیه‌سازی عابر پیاده مبتنی بر یادگیری تقویتی چندعاملی (MARL-Ped) را پیشنهاد کرد و اثربخشی چارچوب را از طریق آزمایشات تأیید کرد [ 22]. علاوه بر این، از طریق آزمایش‌های اضافی، قابلیت چارچوب برای ایجاد رفتارهای جمعی نوظهور و استحکام آن هنگام مقیاس‌بندی تعداد عامل‌ها مورد بررسی قرار گرفت [ 23 ]. لی یک رویکرد یادگیری تقویتی عمیق مبتنی بر عامل را پیشنهاد کرد، که عوامل را قادر می‌سازد تا در سناریوهای پیچیده مختلف تنها با یک تابع پاداش ساده حرکت کنند [ 24 ]. Sun رویکردی را پیشنهاد کرد که از الگوریتم‌هایی مانند بهینه‌سازی سیاست پروگزیمال (PPO)، حافظه کوتاه‌مدت (LSTM) و موانع سرعت (VO) برای حل مشکل ناوبری جمعیت در یک محیط ناشناخته و پویا استفاده می‌کند [ 25 ].]؛ بیکر ثابت کرد که قوانین بازی ساده، رقابت چند عاملی و الگوریتم‌های یادگیری تقویتی استاندارد در مقیاس می‌توانند عوامل را به یادگیری استراتژی‌ها و مهارت‌های پیچیده ترغیب کنند [ 26 ].

در حال حاضر، DRLM ها پیشرفت قابل توجهی داشته اند، اما هنوز کاستی های زیادی دارند. مشابه مدل های میکروسکوپی سنتی، محدودیت رایج DRLM ها در حال حاضر این است که آنها فقط می توانند رفتارهای جمعیت را در محیط های دو بعدی شبیه سازی کنند [ 21 ، 22 ، 23 ، 24 ]. اگرچه برخی از DRLM ها از شبیه سازی جمعیت در محیط های سه بعدی پشتیبانی می کنند، فرآیند محاسبات آنها هنوز در فضای دو بعدی رخ می دهد [ 25 ، 27 ]. ناکافی بودن پرسپترون و خط مشی دلیل اصلی این اشکال است. در حال حاضر، برخی از مدل‌های شبیه‌سازی جمعیت متعلق به مدل‌های ریاضی (یا فیزیکی) حوزه دید افراد را در نظر می‌گیرند [ 28 ،29 ، 30 ، 31 ، 32 ]. با این حال، به دلیل محدودیت قدرت محاسباتی، پرسپترون سراسری (یا محلی) و پرسپترون پرتو همچنان رایج‌ترین پرسپترون‌های مورد استفاده در DRLM‌ها در مقایسه با پرسپترون تصویری هستند که بیشترین شباهت را به بینایی انسان دارد و هنوز هم دارای معایبی هستند. به عنوان یک محدوده (نوع) نامناسب از اشیاء درک شده. برای مثال، عامل ها می توانند تمام اطلاعات را تنها با یک پرسپترون جهانی (یا محلی) در برخی از DRLM ها به دست آورند [ 21 ، 22 ، 23 ]. پرتوهای ادراکی عوامل فقط در یک سطح و فراتر از محدوده افقی دید انسان در برخی از DRLM ها هستند [ 24,25,26 ,27 ]. به دلیل ناکافی بودن پرسپترون، سیاست DRLM ها ابعاد را کاهش می دهد یا کدگذاری یکپارچه را برای پردازش انواع مختلف اطلاعات محیطی اتخاذ می کند که باعث از بین رفتن اطلاعات مکانی مربوطه می شود. علاوه بر این، به دلیل محدودیت قدرت محاسباتی، شبیه‌سازی جمعیت‌های مقیاس بزرگ تنها با یادگیری تقویتی عمیق هنوز دشوار است. بنابراین، DRLM ها به طور کلی با مدل های میکروسکوپی سنتی یا داده های مشاهده ای در حال حاضر ترکیب می شوند [ 25 ، 33 ، 34 ].

برای غلبه بر معایب فوق، ما یک مدل مبتنی بر یادگیری تقویتی عمیق با پرسپترون و خط مشی انسان مانند برای تخلیه جمعیت در محیط های سه بعدی (HDRLM3D) پیشنهاد می کنیم. در HDRLM3D، ما یک پرسپترون پرتوی بینایی (VLRP) پیشنهاد می‌کنیم و آن را با یک پرسپترون جهانی (یا محلی) بازطراحی شده (GOLP) ترکیب می‌کنیم تا یک مدل ادراک انسان‌مانند را تشکیل دهیم. ما یک شبکه استخراج و تصمیم گیری ویژگی دو شاخه ای (DBFED-Net) را به عنوان خط مشی پیشنهاد می کنیم که می تواند ویژگی ها را استخراج کند و تصمیمات رفتاری بگیرد. علاوه بر این، آزمایش‌ها را در دو سناریو مختلف انجام می‌دهیم و از طریق تجزیه و تحلیل و مقایسه نتایج تجربی، اثربخشی و مزایای HDRLM3D را در شبیه‌سازی پدیده‌ها و رفتارهای معمولی تأیید می‌کنیم. ادامه این مقاله به شرح زیر تنظیم شده است: بخش 2روش ما را به تفصیل معرفی می کند. بخش 3 آزمایش ها را شرح می دهد و نتایج تجربی را مورد بحث قرار می دهد. بخش 4 نتیجه گیری این مطالعه را ارائه می کند.

2. روش ها

2.1. چارچوب

شکل 1 چارچوب اصلی HDRLM3D را نشان می دهد که شامل سه بخش اصلی است: عامل، محیط و تعاملات. در این چارچوب به فراگیران یا تصمیم گیرندگان مجموعاً عامل می گویند. به جز خود عامل، تمام اشیایی که می توانند با عامل تعامل داشته باشند، مجموعاً محیط نامیده می شوند. علاوه بر این، سه نوع تعامل بین عامل و محیط وجود دارد: حالت، پاداش و عمل. در هر مرحله از HDRLM3D، عامل می تواند حالت را بدست آورد محیط زیست و اقدام خاصی انجام دهند . محیط بر این اساس تغییر خواهد کرد به طوری که نماینده نه تنها می تواند یک پاداش خاص دریافت کند بلکه یک ایالت جدید نیز بدست آورید . علاوه بر این، هدف یادگیری عامل به حداکثر رساندن انتظارات ریاضی تجمعی از پاداش است.

2.2. عامل

2.2.1. آواتار

در حال حاضر راه های زیادی برای مدل سازی آواتارهای عامل ها وجود دارد. به عنوان مثال، در فضای دو بعدی، آواتار یک عامل معمولاً به صورت دایره یا مربع نشان داده می شود. در فضای سه بعدی، معمولاً به صورت یک کپسول، یک استوانه یا یک مکعب نشان داده می شود. همچنین مواردی وجود دارد که در آن آواتار توسط یک مدل انسانی نشان داده می شود [ 35 ]. همانطور که در شکل 2 a,b نشان داده شده است، در فضای سه بعدی، آواتار را به عنوان یک کپسول در نظر می گیریم که به طور انتزاعی می تواند به صورت انتزاعی بیان شود. . ، ، ، و به ترتیب موقعیت، شعاع، جهت و ارتفاع آواتار را نشان می دهد. با توجه به اندازه رایج بدن انسان، مجموعه می کنیم و به [ 33 ، 36 ] و ، چشم ماموران را در ارتفاع قرار دهید ( و جهت آواتار را با جهت چشم تنظیم کنید. علاوه بر این، ما یک برخورد دهنده کپسولی را راه اندازی کردیم که به اندازه آواتار است، تا عوامل بتوانند از طریق آن با محیط تعامل داشته باشند.

2.2.2. پرسپترون

در این بخش، ما یک پرسپترون پرتوی بینایی را پیشنهاد می کنیم و آن را با یک پرسپترون جهانی (یا محلی) بازطراحی شده ترکیب می کنیم تا یک مدل ادراک انسان مانند را تشکیل دهیم.

(1): پرسپترون جهانی (یا محلی).

GOLP یک پرسپترون بسیار ساده و مهم است و عوامل می توانند تمام اطلاعات محیطی را تنها از طریق آن در بسیاری از مدل های مبتنی بر عامل درک کنند. با این حال، هنوز هم دارای معایبی است، مانند محدوده (نوع) نامناسب اشیاء درک شده. برای حل این مشکلات، ما GOLP را دوباره طراحی می کنیم، که فقط می تواند دو نوع اطلاعات را به دست آورد: اطلاعات شخصی و اطلاعات شناخته شده محیطی. اطلاعات شخصی عمدتاً شامل موقعیت، جهت و سرعت خود نماینده است. اطلاعات محیطی شناخته شده عمدتاً اطلاعات محیطی مربوطه است که از قبل به عامل داده می شود، مانند موقعیت و جهت هدف. همانطور که در معادله (1) نشان داده شده است، ما تمام اطلاعات را به عنوان یک بردار رمزگذاری می کنیم. اینجا، ، ، و به ترتیب موقعیت، جهت و سرعت عامل را در لحظه جاری نشان می دهد. نشان دهنده موقعیت هدف است. علاوه بر این، مقادیر بالا باید بر این اساس نرمال شوند تا آنها را در محدوده .

(1)

(2): پرسپترون پرتوی بینایی

پرسپترون پرتو نیز رایج‌ترین پرسپترون مورد استفاده در مدل‌های مبتنی بر عامل است، اما همچنان دارای معایبی مانند محدوده درک نامناسب و کمبود اطلاعات مکانی است. برای غلبه بر این مشکلات، ما یک VLRP را پیشنهاد می کنیم. همانطور که در شکل 2 c,d نشان داده شده است، با اشاره به میدان دید انسان، میدان دید عوامل را در هر دو جهت عمودی و افقی روی [30 درجه، 150 درجه] و [60 درجه، 120 درجه] تنظیم کردیم. به عنوان میدان حساس دید عوامل. با شروع از چشم ماموران، پرتوهای ادراکی زیادی را در میدان دید ماموران تنظیم می کنیم و در حوزه حساس، پرتوهای ادراکی بیشتری را تنظیم می کنیم. با توجه به پیچیدگی محیط، می توانیم تعداد پرتوهای ادراکی را به صورت عمودی و افقی برای بهبود عملکرد محاسباتی تنظیم کنیم.

همانطور که در شکل 2 e نشان داده شده است، بر اساس تنظیمات فوق، ما تمام اطلاعات محیطی به دست آمده توسط پرتوهای ادراکی را در ماتریسی که از سه بعد تشکیل شده است، رمزگذاری می کنیم: عمودی، افقی و کانال. بعد عمودی و افقی نشان دهنده موقعیت پرتوهای ادراکی در جهت عمودی و افقی و بعد کانال نشان دهنده نوع اطلاعات محیطی است که توسط پرتوهای ادراکی به دست می آید. در این مقاله، پرتوهای ادراکی تنها دو نوع اطلاعات محیطی را به دست می‌آورند: کلاس‌های اجسام و فواصل بین عامل و اجسام، و همچنین برای حفظ آنها در محدوده .

2.3. فعل و انفعالات

2.3.1. دولت

در HDRLM3D، همانطور که در رابطه (2) نشان داده شده است، وضعیت توسط نمایندگان در زمان به دست آمده است عمدتاً شامل حالت داخلی می شود و حالت خارجی . وضعیت داخلی به دست آمده از طریق GOLP عمدتاً از موقعیت، سرعت و جهت خود عامل ها و اطلاعات محیطی شناخته شده مرتبط تشکیل شده است و به عنوان یک بردار (معادله (1)) برای نمایش وضعیت خود عامل ها در زمان t کدگذاری می شود . حالت خارجی به دست آمده از طریق VLRP عمدتاً از طبقات اشیاء و فواصل بین عامل و اشیاء تشکیل شده است و به عنوان یک ماتریس ( شکل 2 e) برای نمایش وضعیت محیط خارجی در زمان t کدگذاری می شود . در این مقاله، محیط خارجی عمدتاً از پنج نوع شیء تشکیل شده است: عامل، مانع، دیوار، زمین و هدف.

(2)

2.3.2. عمل

در یک DRLM، اعمال عامل ها می تواند پیوسته یا گسسته باشد. با این حال، فضای عمل پیوسته بیش از حد بزرگ است، و استفاده از آن ممکن است باعث شود DRLM به زمان آموزش بیشتری نیاز داشته باشد یا در همگرایی مشکل داشته باشد. این پدیده به ویژه در شبیه سازی جمعیت در مقیاس بزرگ جدی است. بنابراین، ما از اقدامات گسسته در HDRLM3D برای کاهش زمان آموزش استفاده می کنیم. همانطور که در رابطه (3)، عمل نشان داده شده است توسط یک عامل در زمان t از دو بخش اصلی تشکیل شده است: زاویه چرخش و سرعت رو به جلو . همانطور که در معادلات (4) و (5) نشان داده شده است، عوامل می توانند بچرخند و در طول عمل حرکت کنند به طوری که جهت و موقعیت از عوامل در آن زمان قابل محاسبه است. نشان دهنده فاصله زمانی بین زمان است و زمان .

(3)

(4)

(5)

2.3.3. جایزه

در HDRLM3D، همانطور که در معادله (6) نشان داده شده است، پاداش دریافت شده توسط عوامل در هر مرحله از سه بخش اصلی تشکیل شده است: پاداش زمانی ، پاداش هدف و پاداش برخورد .

(6)

همانطور که در معادله (7)، پاداش زمانی نشان داده شده است یک ارزش است در هر مرحله توسط عوامل دریافت می شود تا با انتخاب اقدامات، آنها را به کاوش در محیط ترغیب کند. می تواند ثابت یا متغیر باشد و .

(7)

همانطور که در رابطه (8)، پاداش هدف نشان داده شده است یک ارزش است در هر مرحله توسط عوامل دریافت می شود تا آنها را ترغیب کند تا اقدامات را مطابق با اهداف از پیش تعیین شده انتخاب کنند. هنگامی که عوامل اهداف از پیش تعیین شده را در حداکثر تعداد مراحل تکمیل می کنند، مقدار را دریافت می کنند ; در غیر این صورت، آنها نمی کنند. می تواند ثابت یا متغیر باشد و .

(8)

همانطور که در معادله (9) نشان داده شده است، پاداش برخورد یک ارزش است در هر مرحله توسط عوامل دریافت می شود تا آنها را ترغیب کند تا از موانع اجتناب کنند. هنگامی که عوامل با سایر اشیاء در محیط برخورد می کنند، مقداری از آن را دریافت می کنند ; در غیر این صورت، آنها نمی کنند. می تواند ثابت یا متغیر باشد و . علاوه بر این، کلاس شیئی که با عامل برخورد می کند نیز می تواند به مقادیر متفاوتی از آن منجر شود .

(9)

2.4. یادگیری تقویتی عمیق

یادگیری تقویتی عمیق (DRL) هسته اصلی DRLMها است. در مقایسه با سایر الگوریتم‌های DRL، PPO برای پیاده‌سازی و تنظیم آسان‌تر است و پیچیدگی نمونه بهتری دارد [ 37 ]. PPO متعلق به الگوریتم بازیگر منتقد در DRL است که با به‌روزرسانی مکرر خط‌مشی، پاداش تجمعی را به حداکثر می‌رساند. و تابع مقدار . PPO دو شبکه عصبی را حفظ می کند، یکی برای و دیگری برای . ورودی آنها دولت است به دست آمده توسط عوامل، و خروجی از اقدام ماموران است . به عنوان بخش مهمی از PPO، متوجه نقشه برداری از به . در روش ما، PPO اساس HDRLM3D است و مستقیماً کل فرآیند یادگیری یا تصمیم گیری عوامل را تعیین می کند. این فرآیند با چارچوب اصلی HDRLM3D ( بخش 2.1 ) سازگار است. در HDRLM3D، عامل ها حالت را به دست می آورند از طریق پرسپترون شبیه انسان، و را می گیرد به عنوان ورودی بنابراین، ما بر بهبود آن تمرکز می کنیم PPO برای انطباق آن با توسط پرسپترون شبیه انسان به دست می آید.

2.4.1. خط مشی

همانطور که در شکل 3 نشان داده شده است ، ما یک DBFED-Net را به عنوان طراحی می کنیم از PPO. می تواند تمام ویژگی ها را از انواع مختلف اطلاعات به دست آمده توسط پرسپترون های مختلف استخراج و ادغام کند و در نهایت آنها را در تصمیم گیری اعمال کند. اگرچه همه عامل ها حالت ها را به دست می آورند و اقدامات را به طور مستقل انتخاب می کنند، اما از همان استفاده می کنند (پارامترها به اشتراک گذاشته شده اند) در HDRLM3D. DBFED-Net از دو بخش اصلی تشکیل شده است: یک ماژول استخراج ویژگی و یک ماژول تصمیم.

هدف ماژول استخراج ویژگی استخراج ویژگی های کلیدی از ورودی است (معادله (2)) برای کمک به عوامل در تصمیم گیری، و از دو شاخه اصلی تشکیل شده است. در یک شعبه، از لایه کانولوشن، مکانیسم توجه و لایه کاملاً متصل عبور می کند تا ویژگی های کلیدی محیط خارجی را استخراج کند. در شاخه دیگر، از دو لایه کاملاً متصل عبور می کند تا ویژگی های کلیدی خود عوامل را استخراج کند. سپس، این ویژگی ها برای ایجاد یک بردار ویژگی حاوی تمام ویژگی های کلیدی یکپارچه می شوند. این ماژول عمدتا از عملکرد فعال سازی استفاده می کند .

ماژول تصمیم می‌تواند بردار ویژگی را از ماژول استخراج ویژگی برای خروجی عمل مربوطه پردازش کند (معادله (3)) و همچنین از دو شاخه اصلی تشکیل شده است. در این ماژول، بردار ویژگی ابتدا از یک لایه کاملا متصل عبور می کند تا وزن خود را تنظیم کند. سپس از دو شاخه که هر کدام فقط شامل یک لایه کاملا متصل است می گذرد تا در نهایت به خروجی مربوطه بپردازد. و . این ماژول از توابع فعال سازی غیرخطی دیگر استفاده نمی کند.

2.4.2. مکانیسم توجه

توجه نقش بسیار مهمی در درک انسان از اطلاعات محیطی خارجی از طریق بینایی دارد. مشابه توجه انسان، مکانیسم توجه در یادگیری عمیق با هدف تقویت ویژگی‌های مهم و سرکوب ویژگی‌های بی‌اهمیت برای بهبود توانایی بازنمایی شبکه عصبی کانولوشنال (CNN) است. همانطور که در شکل 4 نشان داده شده است ، ما از یک مکانیسم توجه (AM) [ 38 ]، که از یک مکانیسم توجه کانال (CAM) و یک مکانیسم توجه فضایی (SAM) تشکیل شده است، در DBFED-Net برای بهبود توانایی عوامل برای استخراج خارجی استفاده می کنیم. ویژگی های محیطی در AM، نقشه ویژگی از CAM و SAM عبور می کند تا نقشه ویژگی وزنی را بدست آورد . فرآیند محاسبه کلی در معادلات (10) و (11) نشان داده شده است، که در آن * نشان دهنده ضرب عنصری است، و نقشه های توجه کانال و فضا هستند و و خروجی های میانی (CAM) و نهایی (SAM) هستند.

(10)

(11)

CAM می تواند رابطه بین کانال های مختلف نقشه ویژگی را بیان کند. به طور خودکار وزن های مختلفی را از طریق یادگیری شبکه به هر کانال اختصاص می دهد تا کانال های مهم را تقویت کند و کانال های بی اهمیت را سرکوب کند. در CAM ابتدا از max-pooling ( ) و جمع آوری متوسط ( ) به طور جداگانه اطلاعات مکانی را جمع آوری کنید ، و ما دو بردار ویژگی با سرنخ های مهم مختلف تولید می کنیم: و . سپس وزن آنها را از طریق دو لایه کاملا متصل تنظیم می کنیم ( و ، جایی که وزنه ها ( و ) بین همان لایه های کاملاً متصل به اشتراک گذاشته می شوند. در نهایت، نقشه توجه کانال را ایجاد می کنیم با جمع عنصری و عادی سازی دو بردار ویژگی تنظیم شده با وزن. فرآیند محاسبه در معادله (12) نشان داده شده است عملکرد فعال سازی را نشان می دهد ، که نقش عادی سازی را ایفا می کند.

(12)

برخلاف CAM، SAM می تواند رابطه بین فضاهای مختلف نقشه ویژگی را بیان کند. همچنین برای تقویت فضاهای مهم و سرکوب فضاهای بی اهمیت، به طور خودکار وزن های مختلفی را از طریق یادگیری شبکه ای به هر فضا اختصاص می دهد. در SAM ابتدا از max-pooling ( ) و جمع آوری متوسط ( ) برای جمع آوری جداگانه اطلاعات کانال ، و ما دو نقشه ویژگی ( و ) با سرنخ های مهم مختلف. سپس، آنها را در امتداد بعد کانال به هم متصل می کنیم تا یک نقشه ویژگی ایجاد کنیم . در نهایت، ما نقشه توجه فضایی را ایجاد می کنیم از طریق یک لایه کانولوشن ( ) و عملکرد فعال سازی . فرآیند محاسبه در معادله (13) نشان داده شده است نشان دهنده عملیات الحاق و عملیات پیچیدگی را نشان می دهد.

(13)

3. آزمایش ها و نتایج

3.1. آزمایش

در شبیه‌سازی جمعیت، توانایی بازتولید پدیده‌ها یا رفتارهای معمولی یک شاخص مهم برای ارزیابی یک مدل است. بنابراین، ما دو آزمایش را بر اساس پلتفرم Unity 3D برای شبیه‌سازی موقعیت‌های رایج شامل عابران پیاده واقعی طراحی می‌کنیم. در این بخش، سناریوهای آزمایشی و پیکربندی پارامترها را به طور مفصل معرفی خواهیم کرد.

3.1.1. سناریوها

(1): سناریوی I

یک پدیده معمولی خودسازماندهی عابران پیاده شلوغ، اثر گلوگاه، بیشتر در خروجی ها (یا ورودی ها) باریک رخ می دهد. علاوه بر این، سناریوی یک خروجی (یا ورودی)، به عنوان یک موقعیت رایج برای عابران پیاده واقعی، در بسیاری از مکان‌های عمومی مانند مدارس، بازارها و ایستگاه‌ها یافت می‌شود. بنابراین، همانطور که در شکل 5 الف نشان داده شده است، ما سناریوی I را با اشاره به یک آزمایش جمعیت واقعی [ 39 ] برای شبیه سازی اثر تنگنای عابران پیاده در یک خروجی می سازیم. سناریوی I از دو بخش اصلی تشکیل شده است: منطقه آزمایشی و منطقه هدف. منطقه آزمایشی یک منطقه مستطیل شکل با اندازه است ، و دارای خروجی با عرض است . در سناریوی I هفتاد و پنج عامل در آزمایش ها (یا آموزش ها) وجود دارد. قبل از هر آزمایش (یا آموزش)، همه عوامل به طور تصادفی و به طور یکنواخت در مستطیل قرمز قرار می گیرند ( شکل 5 الف)، و جهت گیری اولیه عوامل عبارت است از همچنین تصادفی هر آزمایش (یا آموزش) تنها زمانی به پایان می رسد که همه عوامل به منطقه مورد نظر برسند، و سپس همه عوامل می توانند برای آزمایش (یا آموزش) بعدی مجدداً شروع شوند.

(2): سناریوی دوم

در شبیه‌سازی جمعیت، ناوبری و اجتناب از موانع، مهارت‌ها (یا رفتارهای) مهمی هستند که عوامل باید از آن برخوردار باشند. یعنی باید بدون برخورد با موانع دیگر به هدف رسید که بیشتر در سناریوهای دارای موانع رخ می دهد. علاوه بر این، به عنوان یک وضعیت رایج برای عابران پیاده واقعی، این سناریو نیز به طور گسترده در مکان های عمومی مانند بازارها و مدارس یافت می شود. بنابراین، همانطور که در شکل 5 ب نشان داده شده است، ما سناریوی II را برای مطالعه مسیریابی عوامل و اجتناب از مانع ایجاد می کنیم. سناریو II یک ناحیه مستطیل شکل با اندازه است ، جایی که ده مانع و یک هدف وجود دارد. موانع را می توان بر حسب ارتفاع به سه دسته A (بالاتر از عوامل)، B (کمی کمتر از عوامل) و C (کمتر از عوامل) تقسیم کرد که این ارتفاعات عبارتند از: ، ، و ، به ترتیب. ارتفاع هدف است ، و طول و عرض هدف و همه موانع هستند . بیست عامل در آزمایش (یا آموزش) در سناریوی II وجود دارد. قبل از هر آزمایش (یا آموزش)، همه عوامل به طور تصادفی و یکنواخت در مستطیل قرمز قرار می گیرند ( شکل 5 ب)، و جهت گیری اولیه عوامل نیز تصادفی است. هر آزمایش (یا آموزش) تنها زمانی به پایان می رسد که همه عوامل به هدف برسند، و سپس همه عوامل می توانند برای آزمایش (یا آموزش) بعدی مجدداً شروع شوند.

3.1.2. یادگیری

به دلیل بسیاری از عوامل، مانند محیط، وظایف، و تعداد عوامل، برای DRLM دشوار است که یک پیکربندی پارامتر یکپارچه داشته باشد. از آنجایی که سناریوهای مختلف چالش‌های متفاوتی دارند، ما به تجزیه و تحلیل عینی مسائل خاص برای پیکربندی پارامترهای بهینه مربوطه برای DRLM نیاز داریم [ 22 ]. همانطور که در جدول 1 و جدول 2 نشان داده شده است ، برای سناریوهای فوق، ما پارامترهای HDRLM3D را در رابطه با عامل، تعاملات و پارامترهای یادگیری پیکربندی می کنیم تا بهترین نتایج تجربی (یا آموزشی) را به دست آوریم.

3.2. نتایج و بحث

در این بخش، نتایج تجربی دو سناریو را تحلیل می‌کنیم و HDRLM3D را با سایر روش‌های شبیه‌سازی جمعیت مقایسه می‌کنیم تا اثربخشی و مزایای روش خود را نشان دهیم.

3.2.1. سناریوی I

در شکل 6 ، یک توالی زمانی از یک نتیجه تجربی در سناریوی I نشان داده شده است. در طول آزمایش، همه عوامل به سمت خروجی حرکت می کنند ( شکل 6 a). هنگامی که عوامل به خروجی می رسند، به دلیل باریک بودن خروجی، همه عوامل نمی توانند با هم از خروجی عبور کنند که باعث ازدحام برخی از عوامل در خروجی می شود ( شکل 6 ب). این پدیده به طور شهودی در عوامل مسدود شده که همیشه در خروجی جمع می شوند آشکار می شود. همه عوامل در مجموع تا زمانی که از خروجی عبور کنند شکل “طاق” به خود می گیرند ( شکل 6 c,d). این نتیجه تجربی با ویژگی های اثر گلوگاه سازگار است.

(1): نقشه تراکم

به عنوان یکی از کمیت های اساسی که برای توصیف ویژگی های جریان عابر پیاده استفاده می شود، تراکم می تواند به طور شهودی اشغال فضای فیزیکی توسط عابران پیاده را منعکس کند و می تواند الگوهای حرکتی عابران پیاده (مانند مناطق ازدحام و مسیرها) را بیشتر آشکار کند. بنابراین، برای تأیید اعتبار نتایج تجربی فوق، از نقشه چگالی برای تجزیه و تحلیل قوانین حرکت عوامل استفاده می‌کنیم. علاوه بر این، مدل نیروی اجتماعی (SFM) و اجتناب از برخورد متقابل بهینه (ORCA) [ 40 ]، به عنوان روش‌های کلاسیک شبیه‌سازی جمعیت، به طور گسترده در زمینه شبیه‌سازی جمعیت شناخته شده و به کار گرفته شده‌اند. در سناریوی اول، ما HDRLM3D را با SFM و ORCA مقایسه می کنیم تا مزایای روش خود را نشان دهیم.

شکل 7 a-d نقشه های چگالی ایجاد شده توسط آزمایش جمعیت واقعی، HDRLM3D، SFM، و ORCA را به ترتیب در سناریوی I نشان می دهد. گرفتن نقطه به عنوان مرکز (خروج)، چگالی ها به تدریج از مرکز به دو انتها در محور x کاهش می یابد و به طور مداوم در جهت مثبت محور y کاهش می یابد . این نقشه‌های چگالی می‌توانند به‌طور شهودی ازدحام عوامل (عابران پیاده) را در خروجی منعکس کنند، که به صورت یک قوس نمایش داده می‌شود. شایان ذکر است که قوس های تولید شده توسط SFM ( شکل 7 c) و ORCA ( شکل 7 د) در مقایسه با قوس تولید شده توسط آزمایش جمعیت واقعی ( شکل 7 a) نسبتاً مسطح هستند، در حالی که قوس تولید شده توسط HDRLM3D ( شکل 7) ب) مشابه آن است.

برای تأیید بیشتر نتیجه‌گیری‌های بالا، میانگین و انحراف استاندارد چگالی‌ها را در امتداد محور x محاسبه می‌کنیم . همانطور که در جدول 3 نشان داده شده است ، مقادیر میانگین آزمایش جمعیت واقعی، HDRLM3D، SFM و ORCA هستند. ، ، و ، که ثابت می کند عوامل (عابر پیاده) همگی در اطراف خروجی شلوغ هستند. انحراف معیار آنها هستند ، ، ، و ، که نشان دهنده صاف بودن قوس هاست. ترتیب نتایج به شرح زیر است: آزمایش جمعیت واقعی < HDRLM3D < SFM < ORCA. HDRLM3D همچنین از صاف شدن قوس رنج می برد، اما نتایج آن بیشتر شبیه نتایج آزمایش جمعیت واقعی است تا نتایج SFM و ORCA.

(2): نمودار اساسی و زمان تخلیه

نمودار اساسی یک آزمون مهم برای اینکه آیا یک مدل شبیه‌سازی جمعیت برای توصیف جریان‌های عابر پیاده مناسب است [ 41 ] است که نشان‌دهنده رابطه بین چگالی و سرعت است. بنابراین، ما یک منطقه مربع با طول ضلع ایجاد می کنیم جلوی در خروجی برای محاسبه تراکم و سرعت عوامل (عابر پیاده). نمودارهای اساسی تولید شده توسط آزمایش جمعیت واقعی و HDRLM3D در سناریوی I به ترتیب در شکل 8 a,b نشان داده شده است. چگالی و سرعت آنها به طور کلی همبستگی منفی دارند. یعنی هر چه چگالی بیشتر باشد سرعت کمتر می شود و با افزایش چگالی روند کاهشی سرعت به تدریج کندتر می شود. این نتیجه گیری با ویژگی های اساسی تخلیه جمعیت [ 42 ] سازگار است.

علاوه بر این، روش ما تفاوت هایی را با آزمایش جمعیت واقعی نشان می دهد. از یک طرف، با توجه به ایمنی پرسنل و فضای تخلیه، شبیه سازی تخلیه جمعیت در شرایط اضطراری برای آزمایش های واقعی جمعیت دشوار است و انگیزه تخلیه عابران پیاده به طور کلی پایین است. با این حال، با توجه به پاداش زمانی، انگیزه تخلیه عوامل در HDRLM3D قوی تر است، بنابراین سرعت عوامل کمی بیشتر از سرعت عابران پیاده در همان چگالی است. از سوی دیگر، عوامل نمی توانند در موقعیت های بسیار شلوغ به دلیل برخورد کننده های خود به یکدیگر فشار بیاورند، بنابراین حداکثر تراکم آنها کمتر از حداکثر تراکم عابران پیاده در آزمایش جمعیت واقعی است.

زمان تخلیه یکی از شاخص‌های ارزیابی نتایج تخلیه جمعیت است و همچنین روش مهمی برای آزمایش عملکرد مدل‌های شبیه‌سازی جمعیت است. در جدول 4 ، زمان تخلیه مورد نیاز توسط آزمایش جمعیت واقعی، HDRLM3D، SFM، و ORCA نمایش داده شده است. زمان تخلیه مورد نیاز HDRLM3D ( ) نزدیکترین چیزی است که توسط آزمایش جمعیت واقعی مورد نیاز است ( ) و کمی کوتاهتر از آزمایش جمعیت واقعی است. این نتیجه با تجزیه و تحلیل نمودارهای اساسی مطابقت دارد. از آنجایی که سرعت عوامل در HDRLM3D کمی بیشتر از عابران پیاده در آزمایش جمعیت واقعی است، زمان تخلیه مورد نیاز HDRLM3D نسبتا کم است. به دلیل محیط بسیار شلوغ و خروجی بسیار باریک، عوامل تمایل به داشتن نیروهای متعادل یا رفتار نامنظم در SFM و ORCA دارند، بنابراین زمان تخلیه ( و ) آنها بسیار طولانی تر از آزمایش جمعیت واقعی هستند.

3.2.2. سناریوی دوم

(1): نتایج تجربی در سناریوی دوم

در مورد یک محیط ناشناخته، یعنی زمانی که عوامل نمی توانند اطلاعات محیطی را از طریق GOLP به دست آورند و تابع پاداش حاوی هیچ گونه اطلاعات محیطی نیست، از روش [ 27 ] و HDRLM3D برای آموزش عوامل در سناریوی II برای به دست آوردن مدل آموزشی مربوطه و سپس انجام آزمایش های مقایسه ای.

روش [ 27 ] می تواند عوامل را قادر سازد تا از موانع اجتناب کنند و در سناریوهای سه بعدی ناشناخته حرکت کنند، اما ارتفاع محیط را در ساخت پرسپترون و خط مشی در نظر نمی گیرد، بنابراین می توان این محیط ها را به طور انتزاعی به عنوان دو تلقی کرد. سناریوهای بعدی در شکل 9 ، یک توالی زمانی از یک نتیجه تجربی تولید شده با روش [ 27 ] در سناریوی II نشان داده شده است. در طول آزمایش، عوامل بدون برخورد با موانع به سمت هدف حرکت می کنند ( شکل 9 الف)، به تدریج جمع می شوند ( شکل 9 ب) تا چهار گروه را تشکیل دهند ( شکل 9).c,d که در آن هر مستطیل قرمز نشان دهنده یک گروه است) و در نهایت به هدف برسید. همانطور که از مسیرها مشاهده می شود (منحنی های صورتی در شکل 9 )، عوامل در طول آزمایش چهار مسیر ثابت و یکپارچه را تشکیل می دهند و دو مسیر از هر دو طرف بسیار نزدیک به دیوارها هستند.

در شکل 10 ، یک توالی زمانی از یک نتیجه تجربی تولید شده توسط HDRLM3D در سناریوی II نشان داده شده است. در طول آزمایش، عوامل نیز می توانند بدون برخورد با موانع به سمت هدف حرکت کنند ( شکل 10 الف)، اما گروه های آشکاری تشکیل نمی دهند ( شکل 10 b,c) و در نهایت به هدف می رسند ( شکل 10 د). همانطور که از مسیرها مشاهده می شود (منحنی های صورتی در شکل 10 )، عوامل نیز مسیرهای ثابت و یکپارچه ای را تشکیل نمی دهند. در مقایسه با نتیجه آزمایشی در شکل 9 ، مسیرهای آنها تصادفی‌تر و پراکنده‌تر بوده و از دو طرف از دیوارها دور هستند. این نتیجه تجربی به طور شهودی بیشتر شبیه به داده‌های مشاهده جمعیت واقعی است [36 ، 43 ].

ما بیشتر عملکرد این دو روش ([ 27 ] و HDRLM3D) را در سناریوی II مقایسه می‌کنیم. ما از این دو روش برای انجام 100 آزمایش در سناریوی II استفاده می کنیم، تعداد کل برخوردها بین همه عوامل و موانع را شمارش می کنیم و میانگین تعداد برخوردها را برای هر عامل در هر آزمایش به دست می آوریم. همانطور که در جدول 5 نشان داده شده است ، میانگین تعداد برخوردها برای هر دو روش کم است ( و ) که نشان می دهد هر دوی آنها در سناریوی II توانایی اجتناب از مانع قوی دارند. علاوه بر این، در مقایسه با روش [ 27 ]، میانگین تعداد برخوردها در HDRLM3D کمتر است ( ) که نشان می دهد HDRLM3D توانایی اجتناب از مانع قوی تری در سناریوی II دارد.

(2): نتایج تجربی در یک سناریوی تعدیل شده II

برای نشان دادن بیشتر مزایای HDRLM3D در سناریوهای سه بعدی ناشناخته، ما به طور تصادفی ارتفاع و موقعیت موانع را در سناریوی II تنظیم می کنیم و از مدل های آموزش دیده در سناریوی II بدون آموزش اضافی برای انجام آزمایش های مقایسه ای استفاده می کنیم.

در شکل 11 ، یک دنباله زمانی از یک نتیجه تجربی ایجاد شده با روش [ 27 ] در سناریوی تنظیم شده II نشان داده شده است. مشابه نتیجه آزمایشی در شکل 9 ، عوامل همچنان به تدریج جمع می شوند تا مسیرهای نسبتاً ثابت و یکپارچه را تشکیل دهند (منحنی های صورتی در شکل 11 )، و مسیرهای بیشتری به دیوارها در هر دو طرف نزدیک هستند. علاوه بر این، همانطور که در شکل 12 نشان داده شده است ، به دلیل اینکه این روش ارتفاع محیط را در نظر نمی گیرد، عوامل نمی توانند به خوبی با تغییرات ارتفاع و موقعیت موانع کنار بیایند، که منجر به برخورد مکرر بین عوامل و موانع در سناریوی تنظیم شده می شود. II (داخل مستطیل های قرمز در شکل 12).

در شکل 13 ، یک توالی زمانی از یک نتیجه تجربی تولید شده توسط HDRLM3D در سناریوی تنظیم شده II نشان داده شده است. در این سناریو، عوامل همچنان می توانند بدون برخورد با موانع به هدف برسند و مسیرهای آنها (منحنی های صورتی در شکل 13 ) تصادفی و پراکنده بوده و از دو طرف از دیوارها دور هستند. این نتیجه آزمایشی به طور شهودی شبیه به نتیجه آزمایشی در شکل 10 است. همانطور که در شکل 14 نشان داده شده است ، از آنجا که HDRLM3D ارتفاع محیط را در نظر می گیرد، عوامل (با مستطیل هایی با رنگ های مختلف در شکل 14 مشخص شده اند.) می تواند به خوبی با تغییرات ارتفاع و موقعیت موانع کنار بیاید که از برخورد مکرر عوامل و موانع جلوگیری می کند.

ما عملکرد این دو روش را در سناریوی تعدیل شده II مقایسه می کنیم. ما همچنین صد آزمایش را در این سناریو با استفاده از این روش‌ها برای شمارش و محاسبه تعداد کل برخوردها و میانگین تعداد برخوردها انجام می‌دهیم. همانطور که در جدول 6 نشان داده شده است ، در سناریوی تنظیم شده II، میانگین تعداد برخورد HDRLM3D ( ) بسیار کوچکتر از روش [ 27 ] است ( ) که نشان می دهد HDRLM3D توانایی اجتناب از موانع بهتری در سناریوی تنظیم شده II دارد. علاوه بر این، در مقایسه با سناریوی II، روش [ 27 ] میانگین تعداد برخوردها را تقریباً افزایش می‌دهد. در سناریوی تنظیم شده II، در حالی که HDRLM3D فقط آن را تقریباً افزایش می دهد ، که نشان می دهد که استحکام HDRLM3D قوی تر است.

3.2.3. مقایسه ها

در جدول 7، ما به طور کیفی HDRLM3D را با سایر روش های شبیه سازی جمعیت مقایسه می کنیم. به طور خاص، برخلاف روش‌های کلاسیک، که مسیرها را با توجه به محیط‌های شناخته‌شده، مانند SFM و ORCA برنامه‌ریزی می‌کنند، HDRLM3D عوامل را قادر می‌سازد تا در محیط‌های ناشناخته به هدف برسند. یعنی یک محیط شناخته شده (جهانی یا محلی) پیش فرض روش های کلاسیک است، در حالی که در HDRLM3D، عوامل می توانند به طور فعال محیط های ناشناخته را از طریق VLRP درک کنند و می توانند یاد بگیرند که چگونه از طریق DBFED-Net به هدف برسند. هنگامی که جنبه ای از محیط تغییر می کند، مانند موقعیت موانع، HDRLM3D عوامل را قادر می سازد تا از برخورد اجتناب کنند و بدون آموزش اضافی به هدف برسند، در حالی که روش های کلاسیک نیاز به بازسازی محیط شناخته شده از قبل دارند. برخلاف سایر DRLM ها، ما ارتفاع محیط را هنگام ساختن پرسپترون و خط مشی در نظر می گیریم. بنابراین HDRLM3D برای شبیه سازی جمعیت در محیط های سه بعدی مناسب تر است. اگرچه هوش مصنوعی پیشرفت قابل توجهی داشته است، اما هنوز در مواجهه با سناریوهای ناشناخته یا شلوغ دارای اشکالات زیادی است.44 ]. بنابراین، یک راه حل عملی ترکیب DRLM با روش های کلاسیک یا داده های مشاهده ای است. با این حال، HDRLM3D شبیه‌سازی جمعیت را در محیط‌های سه بعدی بدون سایر روش‌های کلاسیک یا داده‌های مشاهده‌ای امکان‌پذیر می‌کند. ما روش خود را روی رایانه‌ای با پیکربندی سخت‌افزار زیر آزمایش می‌کنیم: CPU Inter (R) Core (TM) i9-10920X @ 3.5 گیگاهرتز و NVIDIA GeForce RTX 2080Ti. HDRLM3D همچنان می‌تواند با بیست و پنج فریم در ثانیه یا بیشتر زمانی که تعداد عامل‌ها به پانصد نفر برسد، کار کند که نشان‌دهنده عملکرد محاسباتی رضایت‌بخش آن است.

4. نتیجه گیری

رابطه انسان و محیط همیشه کانون تحقیقات جغرافیایی است. به لطف توسعه فناوری، مطالعه روابط انسان و محیط در محیط‌های جغرافیایی مجازی (سناریوها) به تدریج به موضوع و روش تحقیقاتی مهم GIS تبدیل شده است. بر اساس این روش، دستاوردهای زیادی در مدیریت اضطراری بلایای طبیعی مانند سیل [ 45 ] و جریان های آوار [ 46 ] حاصل شده است.]، اما تحقیق در مورد تخلیه جمعیت داخلی کمی ناکافی است. تخلیه جمعیت داخلی یک جلوه مهم از رابطه خرد انسان و محیط است. بنابراین، مطالعه ما در مورد استفاده از هوش مصنوعی و محیط‌های مجازی برای مدل‌سازی و شبیه‌سازی تخلیه جمعیت نه تنها یک کاوش بیشتر در رابطه میکرو انسان و محیط زیست در GIS است، بلکه ادغام GIS در سایر رشته‌ها را نیز ارتقا می‌دهد.

در این مقاله، برای غلبه بر معایب شبیه‌سازی‌های جمعیت که به فضاهای دو بعدی (انتزاعی) متکی هستند، یک مدل مبتنی بر یادگیری تقویتی عمیق با پرسپترون و خط‌مشی شبیه انسان برای تخلیه جمعیت در محیط‌های سه بعدی (HDRLM3D) پیشنهاد می‌کنیم. روش ما دو کمک اصلی دارد: (1) برای فعال کردن کسب اطلاعات محیطی سه بعدی توسط عوامل، ما یک پرسپترون پرتوی بینایی (VLRP) پیشنهاد می کنیم و آن را با یک پرسپترون جهانی (یا محلی) بازطراحی شده (GOLP) ترکیب می کنیم تا تشکیل شود. یک مدل ادراک انسان مانند؛ (2) برای انجام استخراج ویژگی بر روی اطلاعات محیطی سه بعدی، ما یک شبکه استخراج و تصمیم گیری ویژگی دو شاخه (DBFED-Net) را به عنوان خط مشی پیشنهاد می کنیم که می تواند ویژگی ها را از انواع مختلف اطلاعات محیطی استخراج و ادغام کند و تصمیمات رفتاری بگیرد.

علاوه بر این، ما آزمایش‌هایی را در دو سناریو مختلف انجام می‌دهیم تا توانایی روش خود را برای بازتولید پدیده‌ها و رفتارهای معمولی تأیید کنیم. در سناریوی I، روش ما اثر گلوگاه را بازتولید می‌کند، که یک پدیده معمولی خودسازماندهی جمعیت است، و ما اثربخشی و مزایای روش خود را با مقایسه آن با آزمایش‌های جمعیت واقعی و روش‌های کلاسیک از نظر نقشه‌های چگالی، نمودارهای اساسی نشان می‌دهیم. ، و زمان تخلیه در سناریوی دوم، روش ما می‌تواند عوامل را قادر سازد تا از موانع، که مهارت‌ها (یا رفتارهای) مهمی هستند که عاملان باید داشته باشند، حرکت کرده و از آنها اجتناب کنند، و ما مزایای روش خود را برای شبیه‌سازی جمعیت در محیط‌های سه‌بعدی ناشناخته با مقایسه آن با سایر DRLM‌ها نشان می‌دهیم. شرایط مسیر و تعداد برخوردها.

شایان ذکر است که این مطالعه تنها در ابتدا شبیه سازی جمعیت را در محیط های سه بعدی انجام می دهد و هنوز هم مناطقی از این شبیه سازی ها وجود دارد که می توان آنها را بهبود بخشید و به کمال رساند. از نظر محیطی، سناریوهای تجربی در این مطالعه نسبتاً ساده هستند که در حال حاضر شبیه‌سازی‌های ازدحام نیز با آن مواجه هستند. بنابراین، هدف اصلی کار آینده ما انجام آزمایش‌هایی در سناریوهای سه بعدی واقعی‌تر و پیچیده‌تر برای آشکار کردن قوانین رفتاری جمعیت است. در مورد ازدحام، این مطالعه ناهمگنی را در نظر نمی‌گیرد، بنابراین شبیه‌سازی رفتارهای جمعیت ناهمگن در کارهای آینده نیز برای ما مهم است.

منابع

ژائو، سی ام؛ Lo, SM; ژانگ، اس پی؛ لیو، ام. یک بررسی پس از آتش سوزی در مورد رفتار انسان قبل از تخلیه. فناوری آتش نشانی 2008 ، 45 ، 71-95. [ Google Scholar ] [ CrossRef ]
سکیزاوا، ا. اب ایهارا، م. نوتاکه، اچ. کوبوتا، ک. Kaneko، H. رفتار ساکنان در واکنش به آتش سوزی آپارتمان های بلند در شهر هیروشیما. آتش نشانی. 2015 ، 23 ، 297-303. [ Google Scholar ] [ CrossRef ]
هلبینگ، دی. جوهانسون، آ. العابدین، HZ دینامیک بلایای جمعیت: یک مطالعه تجربی. فیزیک Rev. E 2007 , 75 , 046109. [ Google Scholar ] [ CrossRef ] [ PubMed ] [ نسخه سبز ]
برشیچ، دی. کاندا، تی. ایکدا، تی. میاشیتا، تی. ردیابی افراد در فضاهای عمومی بزرگ با استفاده از حسگرهای برد سه بعدی. IEEE Trans. هوم.-ماخ. سیستم 2013 ، 43 ، 522-534. [ Google Scholar ] [ CrossRef ]
سالوما، سی. پرز، جی. تاپانگ، جی. لیم، م. پالمز-سالوما، سی. صف خود سازماندهی شده و رفتار بدون مقیاس در وحشت فرار واقعی. Proc. Natl. آکادمی علمی ایالات متحده آمریکا 2003 ، 100 ، 11947-11952. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
گارسیمارتین، آ. کشیش، JM; فرر، LM؛ راموس، جی جی؛ زوریگل، I. جریان و گرفتگی گله گوسفندی که از تنگنا عبور می کند. فیزیک Rev. E 2015 , 91 , 022808. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
زوریگل، آی. اولیوارس، جی. کشیش، JM; مارتین گومز، سی. فرر، LM؛ راموس، جی جی؛ Garcimartín، A. اثر موقعیت مانع در جریان گوسفند از طریق یک در باریک. فیزیک Rev. E 2016 , 94 , 032302. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
فون کروختن، سی. Schadschneider، A. مطالعه تجربی بر روی گروه های اجتماعی در پویایی تخلیه عابر پیاده. فیزیک یک آمار مکانیک. برنامه آن است. 2017 ، 475 ، 129-141. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
کائو، اس. سیفرید، ع. ژانگ، جی. هال، اس. Song, W. نمودارهای اساسی برای جریان های چند جهته عابر پیاده. J. Stat. مکانیک. تئوری Exp. 2017 ، 2017 ، 033404. [ Google Scholar ] [ CrossRef ]
کیندر، م. کوموناله، بی. وارن، WH انتخاب خروج در یک سناریوی تخلیه اضطراری تحت تأثیر آشنایی با خروج و رفتار همسایه است. ساف علمی 2018 ، 106 ، 170-175. [ Google Scholar ] [ CrossRef ]
هوانگ، ال. گونگ، جی. لی، دبلیو. یک مدل ادراک برای بهینه سازی و ارزیابی سیستم های هدایت تخلیه. ISPRS Int. J. Geo-Inf. 2021 ، 10 ، 54. [ Google Scholar ] [ CrossRef ]
ژنگ، ایکس. ژونگ، تی. لیو، ام. مدلسازی تخلیه جمعیت از یک ساختمان بر اساس هفت رویکرد روش شناختی. ساختن. محیط زیست 2009 ، 44 ، 437-445. [ Google Scholar ] [ CrossRef ]
هندرسون، LF آمار سیالات جمعی. طبیعت 1971 ، 229 ، 381-383. [ Google Scholar ] [ CrossRef ]
Milazzo، JS; روفیل، NM; هامر، JE; اثر آلن، DP عابران پیاده بر ظرفیت تقاطع های دارای علامت. ترانسپ Res. ضبط 1998 ، 1646 ، 37-46. [ Google Scholar ] [ CrossRef ]
هوگندورن، SP; بووی، پی. مدلسازی رفتار سفر عابر پیاده. شبکه تف کردن اقتصاد 2005 ، 5 ، 193-216. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
Løvås، GG مدل سازی و شبیه سازی جریان ترافیک عابر پیاده. ترانسپ Res. روش قسمت B. 1994 ، 28 ، 429-443. [ Google Scholar ] [ CrossRef ]
واراس، ا. Cornejo، MD; مینمر، دی. تولدو، بی. روگان، جی. Mu?Oz، V.; Valdivia، مدل اتومات سلولار JA برای فرآیند تخلیه با موانع. فیزیک یک آمار مکانیک. برنامه آن است. 2007 ، 382 ، 631-642. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
تاجیما، ی. ناگاتانی، تی. رفتار مقیاس‌پذیری جریان جمعیت در خارج از سالن. فیزیک یک آمار مکانیک. برنامه آن است. 2001 ، 292 ، 545-554. [ Google Scholar ] [ CrossRef ]
هلبینگ، دی. مولنار، P. مدل نیروی اجتماعی برای پویایی عابر پیاده. فیزیک Rev. E 1995 , 51 , 4282. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
گلدستون، RL; یانسن، MA مدل های محاسباتی رفتار جمعی. روندهای شناختی. علمی 2005 ، 9 ، 424-430. [ Google Scholar ] [ CrossRef ]
Torrey, L. شبیه سازی جمعیت از طریق یادگیری تقویتی چند عاملی. در مجموعه مقالات ششمین کنفرانس AAAI در مورد هوش مصنوعی و سرگرمی های دیجیتال تعاملی، استنفورد، کالیفرنیا، ایالات متحده آمریکا، 11 تا 13 اکتبر 2010. [ Google Scholar ]
مارتینز-گیل، اف. لوزانو، م. Fernández, F. MARL-Ped: یک چارچوب مبتنی بر یادگیری تقویتی چند عاملی برای شبیه سازی گروه های عابر پیاده. شبیه سازی مدل. تمرین کنید. نظریه 2014 ، 47 ، 259-275. [ Google Scholar ] [ CrossRef ]
مارتینز-گیل، اف. لوزانو، م. فرناندز، F. رفتارهای اضطراری و مقیاس پذیری برای مدل های عابر پیاده مبتنی بر یادگیری تقویتی چند عاملی. شبیه سازی مدل. تمرین کنید. نظریه 2017 ، 74 ، 117-133. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
لی، جی. Won, J. Crowd شبیه سازی با یادگیری تقویتی عمیق. در مجموعه مقالات MIG ’18: حرکت، تعامل و بازی، لیماسول، قبرس، 8 تا 10 نوامبر 2018. [ Google Scholar ]
سان، ال. ژای، جی. Qin, W. Crowd Navigation در یک محیط ناشناخته و پویا بر اساس یادگیری تقویتی عمیق. IEEE Access 2019 ، 7 ، 109544. [ Google Scholar ] [ CrossRef ]
بیکر، بی. کانیتشایدر، آی. مارکوف، تی. وو، ی. پاول، جی. مک گرو، بی. Mordatch، I. استفاده از ابزار اضطراری از برنامه های آموزشی چند عاملی. arXiv 2019 ، arXiv:1909.07528. [ Google Scholar ]
جولیانی، ع. برگز، وی.-پی. تنگ، ای. کوهن، ا. هارپر، جی. الیون، سی. گوی، سی. گائو، ی. هنری، اچ. متار، م. و همکاران Unity: یک پلت فرم کلی برای عوامل هوشمند. arXiv 2018 , arXiv:1809.02627. [ Google Scholar ]
دگوند، پی. آپرت رولان، سی. پتره، جی. مدل های عابر پیاده ماکروسکوپی مبتنی بر چشم انداز Theraulaz. کینت. مرتبط. Models 2013 , 6 , 809-839. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
کیم، دی. Quaini، A. یک رویکرد نظریه جنبشی برای مدل‌سازی دینامیک عابر پیاده در حوزه‌های محدود با موانع. کینت. مرتبط. مدل‌های 2019 ، 12 ، 1273–1296. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
کیم، دی. Quaini، A. رویکردهای نظریه جنبشی جفت برای پویایی عابر پیاده و سرایت بیماری در یک محیط محدود. ریاضی. Models Methods Appl. علمی 2020 ، 30 ، 1893-1915. [ Google Scholar ] [ CrossRef ]
ایلاج، ب. بلومو، ن. جیبلی، ال. Reali, A. چشم انداز چند مقیاسی یکپارچه از جمعیت های رفتاری. ریاضی. Models Methods Appl. علمی 2020 ، 30 ، 1-22. [ Google Scholar ] [ CrossRef ]
بلومو، ن. جیبلی، ال. کواینی، ا. رئالی، ع. به سوی یک نظریه ریاضی رفتاری ازدحام انسان. ریاضی. Models Methods Appl. علمی 2022 ، 32 ، 321-358. [ Google Scholar ] [ CrossRef ]
لی، ایکس. لیو، اچ. لی، جی. لی، ی. الگوریتم گرادیان خط مشی قطعی عمیق برای برنامه ریزی مسیر تخلیه جمعیت. محاسبه کنید. مهندسی صنعتی 2021 , 161 , 107621. [ Google Scholar ] [ CrossRef ]
یائو، ز. ژانگ، جی. لو، دی. لیو، اچ. تخلیه جمعیت مبتنی بر داده: یک روش یادگیری تقویتی. محاسبات عصبی 2019 ، 366 ، 314-327 . [ Google Scholar ] [ CrossRef ]
هوانگ، ال. گونگ، جی. لی، دبلیو. خو، تی. شن، اس. لیانگ، جی. فنگ، Q. ژانگ، دی. Sun, J. شبیه‌سازی رفتار گروهی مبتنی بر مدل نیروی اجتماعی در محیط‌های جغرافیایی مجازی. ISPRS Int. J. Geo-Inf. 2018 ، 7 ، 79. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
وانگ، کیو. لیو، اچ. گائو، ک. Zhang, L. بهبود یادگیری تقویتی چند عاملی برای شبیه سازی جمعیت مبتنی بر برنامه ریزی مسیر. دسترسی IEEE 2019 ، 7 ، 73841–73855. [ Google Scholar ] [ CrossRef ]
شولمن، جی. ولسکی، اف. ذریوال، ص. رادفورد، ای. کلیموف، او. الگوریتم های بهینه سازی سیاست پروگزیمال. arXiv 2017 , arXiv:1707.06347. [ Google Scholar ]
وو، اس. پارک، جی. لی، جی.-ای. Kweon، IS Cbam: ماژول توجه بلوک کانولوشن. در مجموعه مقالات کنفرانس اروپایی بینایی کامپیوتر (ECCV)، مونیخ، آلمان، 8 تا 14 سپتامبر 2018؛ صص 3-19. [ Google Scholar ]
آدریان، جی. بولتس، ام. هال، اس. Sieben، A.; سیفرید، الف. ازدحام و صف در سناریوهای ورودی: تأثیر عرض راهرو در مقابل تنگناها. در مجموعه مقالات نهمین کنفرانس بین المللی دینامیک عابر پیاده و تخلیه (PED2018)، لوند، سوئد، 21 تا 24 اوت 2018. [ Google Scholar ]
برگ، جواد; گای، اس جی. لین، ام. Manocha، D. اجتناب از برخورد متقابل بدن N. در تحقیقات رباتیک ؛ Springer: برلین/هایدلبرگ، آلمان، 2011; صص 3-19. [ Google Scholar ]
سیفرید، ع. استفن، بی. کلینگش، دبلیو. بولتس، ام. نمودار اساسی حرکت عابر پیاده بازبینی شد. J. Stat. مکانیک. تئوری Exp. 2005 ، 2005 ، P10002. [ Google Scholar ] [ CrossRef ]
سیفرید، ع. بولتس، ام. کهلر، جی. کلینگش، دبلیو. پورتز، آ. روپرشت، تی. Schadschneider، A. استفن، بی. Winkens، A. داده های تجربی پیشرفته برای نمودار اساسی و جریان از طریق تنگناها. پیاده تخلیه دین. 2008 2010 ، 145-156. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
لیو، بی. لیو، اچ. ژانگ، اچ. Qin, X. یک مدل تخلیه نیروی اجتماعی که توسط داده های ویدئویی هدایت می شود. شبیه سازی مدل. تمرین کنید. نظریه 2018 ، 84 ، 190-203. [ Google Scholar ] [ CrossRef ]
گودوی، جی. گای، اس جی. جینی، م. Karamouzas, I. C-Nav: هماهنگی توزیع شده در ناوبری چند عامله شلوغ. ربات. Auton. سیستم 2020 , 133 , 103631. [ Google Scholar ] [ CrossRef ]
لی، دبلیو. ژو، جی. فو، ال. زو، س. گوا، ی. Gong, Y. یک سیستم بازتولید سه بعدی سریع سیلاب های شکستن سد که توسط اطلاعات پس از فاجعه محدود شده است. محیط زیست مدل. نرم افزار 2021 ، 139 ، 104994. [ Google Scholar ] [ CrossRef ]
لی، دبلیو. ژو، جی. فو، ال. زو، س. زی، ی. Hu, Y. یک روش نمایش افزوده صحنه های جریان زباله برای بهبود درک عمومی. بین المللی جی. جئوگر. Inf. علمی 2021 ، 35 ، 1521-1544. [ Google Scholar ] [ CrossRef ]

شکل 1. چارچوب اصلی HDRLM3D.

شکل 2. مدل های آواتار و پرسپترون. ( الف ) نمای سمت چپ آواتار؛ ( ب ) نمای بالای آواتار؛ ( ج ) میدان عمودی نمای نمایندگان. ( د ) میدان افقی نمای نمایندگان. ( ه ) ماتریس تمام اطلاعات محیطی به دست آمده توسط پرتوهای ادراکی.

شکل 3. سیاست HDRLM3D.

شکل 4. مکانیسم توجه.

شکل 5. سناریوهای تجربی. ( الف ) سناریوی I. ( ب ) سناریوی II.

شکل 6. یک توالی زمانی از یک نتیجه آزمایشی در سناریوی I. ( الف – د ) عکس های نتیجه آزمایشی. توالی زمانی این عکس ها بر اساس حروف الفبا مرتب شده اند.

شکل 7. نقشه های چگالی. ( الف ) نقشه چگالی ایجاد شده توسط آزمایش جمعیت واقعی. ( ب ) نقشه چگالی تولید شده توسط HDRLM3D. ( ج ) نقشه چگالی تولید شده توسط SFM. ( د ) نقشه چگالی ایجاد شده توسط ORCA.

شکل 8. نمودارهای بنیادی. ( الف ) نمودار بنیادی تولید شده توسط آزمایش جمعیت واقعی. ( ب ) نمودار بنیادی تولید شده توسط HDRLM3D.

شکل 9. یک دنباله زمانی از یک نتیجه تجربی ایجاد شده با روش [ 27 ] در سناریوی II. ( الف – د ) نتایج آزمایشی. توالی زمانی این عکس ها بر اساس حروف الفبا مرتب شده اند.

شکل 10. یک دنباله زمانی از یک نتیجه تجربی تولید شده توسط HDRLM3D در سناریوی II. ( الف – د ) نتایج آزمایشی. توالی زمانی این عکس ها بر اساس حروف الفبا مرتب شده اند.

شکل 11. یک دنباله زمانی از یک نتیجه آزمایشی که با روش [ 27 ] در سناریوی تنظیم شده II ایجاد شده است. ( الف – د ) نتایج آزمایشی. توالی زمانی این عکس ها بر اساس حروف الفبا مرتب شده اند.

شکل 12. برخوردها بر اساس روش [ 27 ]. ( الف – ج ) برخورد بین عوامل و موانع.

شکل 13. یک دنباله زمانی از یک نتیجه تجربی تولید شده توسط HDRLM3D در سناریوی تنظیم شده II. ( الف – د ) نتایج آزمایشی. توالی زمانی این عکس ها بر اساس حروف الفبا مرتب شده اند.