1. مقدمه
حمل و نقل ریلی شهری به دلیل سرعت سریع، ظرفیت زیاد، سطح بالایی از راحتی، کارایی و قابلیت اطمینان شناخته شده است. بهره برداری موثر از ترانزیت ریلی شهری می تواند هزینه های سفر را کاهش دهد، مسافران بیشتری را جابجا کند و ازدحام ترافیک جاده ها را کاهش دهد. سیستم حمل و نقل ریلی شهری شهرهای مختلف چین به سرعت در حال توسعه است و به مسافران بیشتری خدمات رسانی می کند. برای مثال، متروی پکن در سال 2010 به 1846.3 میلیون مسافر خدمات رسانی کرد که با افزایش 114.6 درصدی به 3962.3 میلیون مسافر در سال 2019 رسید [ 1 ]. ایجاد سیاست های مدیریتی برای بهبود کارایی و قابلیت اطمینان سیستم [ 2] نیاز به درک دقیقی از ویژگی های مسافران در هر ایستگاه و هر دوره زمانی دارد. اقدامات مدیریتی بهتر می تواند سطح خدمات را بهبود بخشد و ترانزیت ریلی را به عنوان ستون فقرات سیستم حمل و نقل عمومی شهری در شهرهایی مانند پکن بهتر ایفا کند [ 3 ].
تحقیقات در مورد ویژگی های مسافر را می توان به مدل های فردی و دسته جمعی تقسیم کرد. تمرکز تحقیقات فردی از دیدگاه مسافران فردی است و تحقیقات جمعی تجزیه و تحلیل شده در سطح ایستگاه ها، مسیرها و شبکه ها با داده های جمع آوری شده است [ 4 ]. با افزایش محبوبیت داده های کارت هوشمند، تحقیقات در مورد ویژگی های مسافران ترانزیتی بر اساس داده های مسیر در مقیاس بزرگ همچنان به ظهور می رسد [ 5 ، 6 ]. تلاشها به الگوهای رفتوآمد مسافران اختصاص داده شده است [ 7 ، 8 ]، استنتاج هدف سفر [ 9 ]، الگوهای مکانی [ 10 ]، الگوهای زمانی [ 11 ،12 ]، و الگوهای مفصل مکانی-زمانی [ 13 ، 14 ]. یکی از متداولترین روشها، خوشهبندی الگوهای سفر مسافران برای تفسیر بهتر ویژگیهای آنها است [ 15 ، 16 ]. تجزیه و تحلیل الگوهای مسافری جمعی بر اساس داده های جمع آوری شده بر درک فراوانی استفاده از ایستگاه ها [ 12 ]، شناسایی مکان های تجمع مسافران [ 17 ] و شناسایی توزیع فضایی مناطق عملکردی شهری [ 18 ] تمرکز دارد.
این مقاله بر توزیع مسافر در سطح ایستگاه متمرکز است. برای سیستم حمل و نقل ریلی، از منظر ایستگاه ها، تعداد ایستگاه ها محدود است. در چین، از 31 دسامبر 2020 [ 19]، متروی پکن با 428 ایستگاه بیشترین ایستگاه را دارد و پس از آن متروی شانگهای با 354 ایستگاه قرار دارد. بنابراین، مدیران و اپراتورهای ایستگاه حملونقل ریلی نیازی به مدیریت مجموعه دادههای مقیاس بزرگ مانند سایر متخصصان یادگیری ماشین ندارند. در عین حال، درک دقیقتر میتواند به مدیریت بهتر جریان سفر و اقدامات کنترلی منجر شود. به جای تمرکز بر کارایی، باید تلاش بیشتری برای استفاده کامل از رفتارهای همه مسافران مرتبط با ایستگاه هنگام بررسی یک ایستگاه خاص انجام شود. مسافران را می توان به عنوان یک متغیر تصادفی نشان داد که اغلب با مقادیر معرف آماری مانند کل ورودی/خروجی توصیف می شود [ 20 ]] یا میانگین برای متغیرهای کمی [ 21 ]. این روش ها ساده هستند و از نظر کاربردی بودن و مقیاس پذیری دارای مزیت هستند. با این حال، توزیع مسافر حاوی اطلاعات بسیار بیشتری نسبت به یک مقدار معرف واحد است. این مقاله با اندازهگیری شباهت توزیعها به جای استفاده از یک مقدار معرف ساده مانند میانه یا میانگین، شکاف را پر میکند. هدف ما این است که به جای جایگزینی کامل روشهای دیگر در هر صورت، از مزایای توزیع برای ایستگاهها در مقیاس کوچک استفاده کنیم.
ایده این مقاله شبیه به تجزیه تانسورها یا تانسورهای با ابعاد بالا با سری های زمانی با افزودن یک عبارت هموارسازی زمانی [ 22 ]، یا عبارت منظم سازی فضایی با توجه به توپولوژی و مجاورت فضایی [ 23 ] و در نظر گرفتن فضای زمانی است. همبستگی بین نقاط داده شرایط هموارسازی زمانی، زمان مجاور یا دورهای را به نزدیک بودن محدود میکنند [ 24 ]، و شرایط منظمسازی فضایی شکاف را برای نقاطی با ویژگیهای جغرافیایی مشابه به حداقل میرساند. این مقاله متفاوت از در نظر گرفتن نقاط داده مختلف از یک ویژگی در تحقیق فوق، همبستگی بین مقادیر مختلف یک ویژگی را در یک نقطه داده یکسان فرض میکند.
ما از روش پیشنهادی برای خوشهبندی ایستگاهها بر اساس توزیع بازدید مسافران استفاده میکنیم. درک توزیع بازدید مسافران در برنامه ریزی امکانات ایستگاه مانند نقشه [ 25 ] یا تنظیم علائم راهنمای مسیر [ 26 ]، مدیریت جریان در شرایط عادی [ 27 ] و شرایط اضطراری [ 28 ] و طراحی تبلیغات تجاری تجاری [ 29 ] نقش دارد. ].
اولین اهمیت توزیع بازدید مسافران در تنظیمات علائم راهنمای مسیر نهفته است [ 26 ، 30]. به عنوان مثال، برای ایستگاه هایی مانند ترمینال فرودگاه T2، تقریباً همه مسافران فقط یک یا دو بار از آن بازدید می کنند. این مسافران با ساختار داخلی و مسیر مناسب در ایستگاه آشنا نیستند، بنابراین باید به طور فشرده تابلوهای راهنمای منتهی به سکو و خروجی های مختلف را بدون تداخل دیگر برای مسافران ورودی و خروجی ایستگاه نمایش دهند. برعکس، اگر همه مسافران به طور مکرر از یک ایستگاه خاص بازدید کنند، با ایستگاه آشنا هستند. اطلاعات لحظه ای قطار و جریان مسافر را می توان برای مسافران ورودی نمایش داد و اطلاعات غنی تر در مورد خروج و حتی تبلیغات تجاری بیشتری را برای مسافران خروجی نمایش داد. به طور خلاصه، استراتژی نمایش علائم باید با توجه به آشنایی مسافران با ایستگاه ها تنظیم شود.
دومین کاربرد بالقوه در کنترل جریان مسافر در داخل ایستگاه نهفته است. رفتار انتخاب مسیر نیز به آشنایی مسافران با ایستگاه ها، ساده سازی ایستگاه ها برای مدیریت جریان مسافر بستگی دارد [ 31 ]. برای ایستگاههایی با توزیعهای آشنایی مسافران مختلف، روشهای کنترلی متفاوتی باید مورد استفاده قرار گیرد تا اطمینان حاصل شود که مسافران از قوانین پیروی میکنند، زیرا مسافران آشنا هنگام انتخاب مسیرها ترجیحات متفاوتی از خود نشان میدهند [ 32 ]. مسافرانی که با ایستگاه ها آشنایی ندارند ممکن است کوتاه ترین مسیر را در شرایط تخلیه اضطراری پیدا نکنند. بنابراین، هنگام ارزیابی کارایی تخلیه اضطراری، توزیع بازدید مسافر باید در نظر گرفته شود.
سومین فرصتی که توزیع بازدید از مسافران فراهم می کند، بهبود تبلیغات تجاری تجاری [ 29 ] نمایش داده شده در ایستگاه های مترو است. ایستگاه های مسافران آشنا با الگوهای بازدید مکرر برای آن دسته از تبلیغاتی که هدفشان نمایش مکرر به همان مسافران است، اولویت دارند. ایستگاههای راهآهن و پایانههای فرودگاه که مسافران مختلف ناآشنا را جذب میکنند، برای آگهیهای بازرگانی مناسب هستند که میخواهند تا حد امکان بیشترین مسافران را پوشش دهند.
هدف این تحقیق ابتدا ساخت توزیع تعداد بازدید، سپس اندازهگیری شباهت تمام ایستگاهها با استفاده از فاصله Wasserstein و خوشهبندی ایستگاهها بر اساس ماتریس شباهت توزیع بازدید برای پیامدهای خطمشی است. سهم اصلی این مقاله سه جانبه است. ابتدا از فاصله Wasserstein برای اندازه گیری شباهت با در نظر گرفتن تعداد بازدید مشابه استفاده می کنیم. با سفارشی کردن تابع هزینه، همبستگی بین تعداد بازدیدهای خاص ایستگاه و تعداد کل بازدید را می توان در نظر گرفت. این همچنین برای توزیع مشترک چند بعدی با ویژگی های متعدد یا سری های زمانی ویژگی های چند بعدی قابل استفاده است. دوم، ماتریس فاصله بهدستآمده برای خوشهبندی ایستگاهها بر اساس توزیع بازدید مسافران از ایستگاهها استفاده میشود. عملی بودن و اثربخشی آن را نشان می دهد. در نهایت، مطالعه موردی خوشهبندی آشنایی مسافران برای ایستگاههای متروی پکن، ایستگاههای متروی پکن را بیشتر مشخص میکند و بینشهایی را برای مدیریت جریان تصفیهشده مسافران حملونقل ریلی شهری ارائه میدهد.
ادامه مقاله به شرح زیر تدوین شده است. منطقه مورد مطالعه، دادههای جمعآوری خودکار کرایه (AFC)، معیارهای شباهت، و روش خوشهبندی در بخش 2 ارائه شدهاند . بخش 3 نحوه ساخت توزیع بازدید، اندازه گیری شباهت و خوشه بندی ایستگاه ها، همراه با تجزیه و تحلیل نتایج خوشه بندی را نشان می دهد. بخش 4 مقاله را به پایان می رساند و پیامدهای نتایج را مورد بحث قرار می دهد.
2. مواد و روشها
2.1. منطقه مطالعه و داده های AFC
پکن پایتخت چین با جمعیت ثابت بیش از 21 میلیون نفر از سال 2014 تاکنون است. شکل 1 نقشه مرزهای اداری تمامی ولسوالی ها و سیستم های مترو را نشان می دهد. منطقه شهری ساخته شده پرجمعیت در محدوده جاده کمربندی پنجم قرار دارد. از درونی به بیرونی جاده های کمربندی 2-6 قرار دارند. مرزها و جاده، و همچنین شبکه های حمل و نقل ریلی شهری، با استفاده از داده های مکان واکشی شده از OpenStreetMap [ 33 ] ساخته شده اند.
ما از 127 میلیون رکورد شبکه مترو توسط 12.7 میلیون کاربر کارت مترو از 1 تا 31 مارس 2014 استفاده می کنیم. رکوردهای AFC شامل پنج ویژگی، شناسه کارت، ایستگاه ورودی، ایستگاه خروج، زمان ورود و زمان خروج است. شناسه کارت یک شناسه منحصر به فرد برای هر مسافر است. بنابراین می توانیم با انتخاب تمام سوابق شناسه کارت یکسان، الگوی بازدید هر مسافر را ردیابی کنیم. جدول 1 نمونه هایی از رکوردهای AFC را نشان می دهد. شناسه کارت برای حفظ حریم خصوصی مسافران هش شده است. ما توزیع الگوی بازدید از ایستگاه ها را بر اساس همه مسافران مرتبط با ایستگاه با حداقل یک بازدید ایجاد می کنیم.
2.2. اندازه گیری شباهت توزیع ها
معیارهای تشابه عمومی شامل فاصله منهتن، فاصله اقلیدسی، شباهت کسینوس و همبستگی پیرسون است. معیارهای تشابه فوق برای اندازه گیری شباهت توزیع ها تعیین نشده اند. آنها ویژگیها یا ویژگیها را برای محاسبه فاصله زوجی تراز میکنند و مقادیر نسبی ویژگیهای مختلف را نادیده میگیرند. ابتدا دو شاخص برای اندازه گیری شباهت توزیع ها معرفی می کنیم و اشکالات آنها را نشان می دهیم. سپس مزیت فاصله Wasserstein را نشان می دهیم.
2.2.1. واگرایی KL و شاخص شباهت سورنسن
اندازه گیری فاصله بین دو توزیع را می توان به عنوان اندازه گیری شباهت توزیع ها نیز در نظر گرفت. شاخص های زیادی برای اندازه گیری فاصله توزیع ها وجود دارد، مانند واگرایی KL (Kullback–Leibler). برای متغیرهای تصادفی گسسته و ، فرمول محاسبه واگرایی KL است . برای متغیرهای تصادفی پیوسته و و فرمول محاسبه واگرایی KL با توابع چگالی احتمال شناخته شده است .
همانطور که از تعریف واگرایی KL مشاهده می شود، اگر عناصر تشکیل دهنده دو گروه توزیع توزیع شده گسسته با آرایش متفاوت یکسان باشند، مقادیر واگرایی KL یکسان خواهد بود. این شاخص تفاوت بین مقادیر متغیر کمی را نادیده می گیرد. علاوه بر این، واگرایی KL نامتقارن است، یعنی . ضمیمه A بیشتر این ضرر را با استفاده از توزیع اسباب بازی نشان می دهد.
از آنجایی که توزیع دو بعدی درگیر یک توزیع گسسته است، توزیع آن را می توان به صورت ماتریس بیان کرد و می توان از تمام شاخص ها برای اندازه گیری شباهت ماتریس استفاده کرد. برای توزیع پیوسته، می توان از یک استراتژی binning برای گسسته کردن آن استفاده کرد. یک شاخص رایج برای اندازه گیری شباهت ماتریس، شاخص شباهت سورنسن است. اساساً، شاخص شباهت سورنسن میانگین نسبت همپوشانی همه مقادیر است، بنابراین میتوان آن را برای بردارها، ماتریسها یا تانسورهای ابعاد بالاتر اعمال کرد.
بنابراین، واگرایی KL و شاخص شباهت سورنسن نمی توانند تفاوت های ارزشی در توزیع را منعکس کنند. در ادامه به معرفی فاصله Wasserstein می پردازیم.
2.2.2. فاصله واسرشتاین
فاصله Wasserstein به عنوان حداقل هزینه مورد نیاز برای تغییر یک توزیع تعریف می شود به دیگری ،
جایی که نشان دهنده یک توزیع مشترک با توزیع های حاشیه ای است و . وقتی توزیع تک بعدی است،
جایی که ضریب یک هنجار مناسب است، و تابع توزیع تجمعی (CDF) هستند و ، به ترتیب.
فاصله Wasserstein از دو توزیع گسسته را می توان به عنوان یک مسئله حمل و نقل مدل کرد، که هزینه کل فاصله برای تغییر یک توزیع به توزیع دیگر را به حداقل می رساند. برای دو متغیر گسسته و با توجه به توزیع آنها و ماتریس فاصله بین مقادیر متغیرهای تصادفی، یک ماتریس تعیین کنید. برای تغییر از هر نقطه از توزیع اول به توزیع دوم، تا مجموع هزینه حمل و نقل کوچکترین باشد. بنابراین، دو توزیع معادل حجم عرضه و حجم تقاضا در مسئله حمل و نقل هستند و ماتریس فاصله را می توان برای در نظر گرفتن همبستگی بین مقادیر متغیر تعریف کرد و مسئله حمل و نقل را می توان به عنوان یک مسئله برنامه ریزی خطی مدل کرد:
متغیر تصمیم گیری حجمی است که از آن منتقل می شود به ، و هزینه حمل و نقل یک واحد را نشان می دهد به . ارزش یک ورودی در ماتریس هزینه است ، که توسط یک تابع هزینه تعریف شده و در بخش 2.2.3 با جزئیات بیشتر مورد بحث قرار گرفته است. تابع هدف هزینه های حمل و نقل را به حداقل می رساند. محدودیتهای اول اطمینان میدهند که مقدار ارسال شده از توزیع اول برابر با مقدار احتمال هر نقطه است (محدودیتهای عرضه)، مجموعه دوم محدودیتها به این معنی است که کل مقدار ارسال شده به توزیع دوم برابر با مقدار احتمال هر نقطه است. (محدودیت تقاضا)، محدودیت سوم نشان می دهد که حجم حمل و نقل غیرمنفی است.
فاصله Wasserstein سه مزیت نسبت به واگرایی KL و شاخص شباهت سورنسن دارد. اول، در مقایسه با واگرایی KL، تابع هزینه می تواند متقارن باشد و فاصله متقارن برای بسیاری از موارد، مانند تغذیه به خوشه بندی، معقول تر است. دوم، توانایی سفارشیسازی تابع هزینه باعث میشود که بتواند شباهت بین مقادیر کمی یک ویژگی را منعکس کند، سوم، میتواند همبستگی بین ابعاد مختلف را برای دادههای با ابعاد بالا منعکس کند.
فاصله Wasserstein می تواند همبستگی مقادیر توزیع را منعکس کند، در حالی که واگرایی KL و شاخص شباهت سورنسن نمی توانند تفاوت میانگین های مختلف را در برخی موارد تشخیص دهند. به طور مشابه، زمانی که لازم است همبستگی توزیعهای با ابعاد بالا را در نظر بگیریم، میتوان آن را با یک ماتریس هزینه مناسب تجسم کرد.
2.2.3. تعریف تابع هزینه
هنگامی که فقط اشیاء یک بعدی را در نظر می گیریم، تابع هزینه به سادگی به عنوان فاصله بین نقاط، یعنی قدر مطلق تفاوت تعریف می شود. برای یک مسئله دو بعدی، تابع هزینه به عنوان هنجار برداری L1، L2 محاسبه شده با استفاده از OpenCV [ 34 ] تعریف می شود.
2.3. خوشه بندی بر اساس شباهت توزیع پیشنهادی
2.3.1. خلاصه ای از روش های خوشه بندی
الگوریتمهای خوشهبندی رایج شامل خوشهبندی k-means، خوشهبندی سلسله مراتبی و خوشهبندی مبتنی بر چگالی است. خوانندگان ممکن است برای بررسی جامع به [ 35 ، 36 ، 37 ] مراجعه کنند. این مقاله از فاصله Wasserstein برای اندازه گیری شباهت توزیع استفاده می کند. ما عمدتاً بر روی نشان دادن اثر اندازهگیریهای فاصله توزیع تمرکز میکنیم، بنابراین از خوشهبندی سلسله مراتبی برای منعکس کردن فرآیند خوشهبندی استفاده میشود.
روش های خوشه بندی سلسله مراتبی تمام نقاط داده را به صورت سلسله مراتبی خوشه بندی می کند که می تواند به صورت دندروگرام نمایش داده شود. خوشه بندی سلسله مراتبی می تواند تجمعی یا تقسیمی باشد. خوشهبندی تجمعی از پایین به بالا است که از یک خوشه برای هر نقطه شروع میشود و خوشههای مشابه را در هر تکرار ادغام میکند. خوشه بندی تقسیمی از بالا به پایین است که فقط از یک خوشه شروع می شود و در هر تکرار یک خوشه را به چند خوشه تقسیم می کند. ما در مطالعه موردی از خوشه بندی تجمعی استفاده می کنیم. برای هر تکرار، ادغام کدام خوشه ها به شباهت یا فاصله ماتریس خوشه ها بستگی دارد. راه های مختلفی برای تعیین فاصله بین خوشه ها با چندین شی وجود دارد.
پیوند منفرد: فاصله بین دو خوشه حداقل فاصله یک شی در یک خوشه تا یک شی در خوشه دیگر است.
پیوند کامل: فاصله بین دو خوشه حداکثر فاصله یک شی در یک خوشه تا یک شی در خوشه دیگر است.
پیوند متوسط: فاصله بین دو خوشه میانگین فاصله یک شی در یک خوشه تا یک شی در خوشه دیگر است.
مزیت خوشه بندی سلسله مراتبی این است که می تواند فرآیند خوشه بندی را منعکس کند. عیب این است که پس از ادغام نزدیکترین خوشه ها، نمی توان آنها را بعداً از هم جدا کرد، حتی اگر نقاط داخل خوشه به سایر خوشه ها نزدیکتر باشند، نمی توان آنها را دوباره خوشه بندی کرد.
2.3.2. شاخص ارزیابی خوشه بندی
خوشهبندی انجامشده بدون برچسبهای حقیقت زمینی را نمیتوان با استفاده از اعتبارسنجی متقاطع و شاخصهای خطای مختلف ارزیابی کرد، اما اثر خوشهبندی همچنان قابل ارزیابی است. نتایج خوشهبندی خوب باید دو شرط را برآورده کند: فاصله بین عناصر یک خوشه کوچک باشد، فاصله بین خوشههای مختلف زیاد باشد. برای خوشه بندی سلسله مراتبی، تعداد خوشه ها باید تعیین شود. روش متداول برای انتخاب تعداد خوشه ها روش زانویی است و سایر شاخص های ارزیابی خوشه بندی شامل ضریب Silhouette، شاخص Calinski-Harabasz، و Davies-Bouldin index [ 38 ، 39 ] است.
SSE که به عنوان مجموع مربعات خطاهای یک کلاس تعریف می شود، اغلب در روش elbow مورد سوء استفاده قرار می گیرد. در این مقاله، یک شاخص مشابه نسبت فاصله درون خوشه ای (SDSC/SD) تعریف می کنیم: نسبت مجموع فواصل درون خوشه به مجموع فاصله های کل. روش آرنجی به این صورت است که تعداد کمتری از خوشه ها را انتخاب می کنیم که می توانند فاصله را در همان خوشه شامل شود. هنگامی که تعداد خوشه ها افزایش می یابد، بدیهی است که فاصله کل در همان خوشه نسبت بیشتری را به خود اختصاص می دهد. بنابراین، SDSC/SD در ابتدا به سرعت کاهش می یابد و سپس تمایل به صاف شدن دارد. بنابراین، ما رابطه بین SDSC/SD و تعداد خوشهها را نشان میدهیم و از تعداد خوشهها زمانی که SDSC/SD تمایل به صاف بودن دارد به عنوان تعداد مناسب خوشهها استفاده میکنیم.
شاخص Silhouette می تواند کیفیت هر نقطه را ارزیابی کند. با دو مقدار تعریف می شود: فاصله متوسط از همان خوشه و فاصله متوسط پس از نزدیکترین خوشه . از تعریف آن می توان دریافت که محدوده شاخص Silhouette بین 1- و 1 است. شاخص Silhouette نزدیک به 1 به این معنی است که نقاط دور به طور منطقی از هم جدا شده اند. ما از شاخص Silhouette برای انتخاب بهترین متریک پیوند استفاده می کنیم.
3. نتایج
3.1. ساخت توزیع تعداد بازدید مسافر
3.1.1. تعداد بازدید مسافر از یک ایستگاه خاص
ابتدا بازدید را حساب می کنیم از مسافر با ایستگاه استفاده از رکوردهای AFC در یک ماه این مجموع تعداد سفر با است به عنوان مبدأ و سفر شمارش با به عنوان مقصد تمام سفرهای مسافر . و با استفاده از مثال مسافر در جدول 1 نتیجه تعداد بازدید نشان داده شده در جدول 2 را بدست می آوریم . آشنایی مسافر با ایستگاه را می توان توسط . برای یک ایستگاه خاص ، می توانیم توزیع تعداد بازدید را بسازیم با استفاده از تمام مسافران با .
ما نسبت مسافران را برای تعداد بازدیدهای مختلف از چهار ایستگاه معمولی در متروی پکن در مارس 2014 در شکل 2 الف نشان می دهیم. مشاهده می شود که اکثر مسافران تنها یک یا دو بار از ایستگاه T2 فرودگاه و تیان آنمن غربی بازدید می کنند، اما برای Tiantongyuan و Guomao، تنها حدود نیمی از مسافران یک یا دو بار از آن بازدید می کنند. شکل 2 a وضعیت کلی مسافران را نشان می دهد. در شکل 2 ب، الگوی بازدید را به عنوان یک عکس فوری متوسط از ایستگاه بررسی می کنیم. معادل استفاده از تعداد بازدید به عنوان وزن توزیع مسافر است.
برای بررسی تأثیر ورودی و خروجی ترکیبی، تعداد بازدیدها را نیز به ترتیب به عنوان مبدا و مقصد بررسی می کنیم که در شکل 3 نشان داده شده است. مشاهده می شود که توزیع تعداد بازدید مسافران ورودی و خروجی از همان ایستگاه تقریباً یکسان است که نشان دهنده تقارن توزیع جریان مسافر است.
3.1.2. تعداد بازدیدهای ویژه ایستگاه مسافر و تعداد کل بازدیدها
در بخش 3.1.1 ، آشنایی مسافر با یک ایستگاه را به عنوان تعداد بازدید تعریف می کنیم. برای منعکس کردن ویژگیهای خود مسافران، تعداد بازدیدهای خاص ایستگاه را اضافه کرده و تعریف میکنیم به عنوان تعداد کل بازدید از سیستم مترو. ابتدا توزیع تعداد بازدید همه مسافران از ایستگاه های مختلفی را که بازدید کرده اند و توزیع مشترک دو بعدی دو متغیر تصادفی را مطالعه می کنیم: تعداد بازدید. و تعداد کل بازدید همانطور که در شکل 4 نشان داده شده است.
خط به این معنی که همه سفرها در یک ایستگاه شروع و به پایان می رسند. این به این دلیل است که متروی پکن اجازه ورود و خروج در همان ایستگاه را می دهد. در برخی مطالعات، این نوع داده ها به عنوان داده های غیرعادی پاک می شوند. به این معنی که یک ایستگاه مشخص یا مبدا یا مقصد همه سفرهای یک مسافر خاص است. زمانی که یک مسافر همیشه از خانه سفری را شروع می کند و سپس به خانه بازمی گردد، 100% سفرهای خانگی معمول است. مسافران این خط نشان از آشنایی بالا با یک ایستگاه دارند. برعکس، مسافران با نزدیک به یک نشان می دهد که مسافران با ایستگاه آشنا نیستند. به طور خلاصه، دو متغیر به طور مشترک آشنایی مسافران با ایستگاه و سیستم مترو را مشخص کنید. مسافران زیادی در طول مسیر هستند محور، که خیلی کم از ایستگاه های خاصی بازدید می کنند. علاوه بر این، تعدادی مسافر در نزدیکی خط هستند ، که همیشه از یک ایستگاه خاص بازدید می کنند. برای مسافرانی که تعداد کل بازدیدکنندگان زیادی دارند، تعداد زیادی در این دو منطقه توزیع شدهاند و تعداد کمی از ایستگاههای مسافربری در این بین وجود دارد.
برای یک ایستگاه ، متغیر تصادفی توزیع تعداد بازدید از ایستگاه را نشان می دهد. برای انعکاس دقیقتر ویژگیهای مسافرانی که از مکان بازدید میکنند، اضافه میکنیم برای نشان دادن تعداد کل بازدید. در اینجا توزیع مشترک دو بعدی تعداد بازدید خاص ایستگاه و تعداد کل بازدید از چهار ایستگاه معمولی را در شکل 5 نشان می دهیم . ما در بخش 2.1 نشان داده ایمکه تفاوت جزئی بین ورودی و خروجی وجود دارد، بنابراین در اینجا از تعداد بازدید ترکیبی برای تعریف آشنایی استفاده می کنیم. به طور عمده دو نوع مسافر برای Tiantongyuan، یک ایستگاه مسکونی معمولی وجود دارد. یکی مسافرانی هستند که در آن نزدیکی زندگی می کنند و تقریباً هر سفر او در ایستگاه Tiantongyuan شروع یا به پایان می رسد، و دیگری فقط یک یا دو بار از آن بازدید می کند که مربوط به مسافرانی است که از اقوام و دوستان خود بازدید می کنند. ایستگاه Guomao در منطقه تجاری مرکزی واقع شده است و مسافران آن شبیه به مسافران Tiantongyuan هستند و مسافران کمتری در نزدیکی خط دارند. . جریان مسافرتی تیان آنمن غرب به قدری تحت تسلط گردشگران است که مسافران در نزدیکی منطقه توزیع می شوند. محور. فرودگاه T2 یک مرکز حمل و نقل بین شهری است، بنابراین تقریباً همه مسافران آن در نزدیکی محور، با بیشترین بازدید یک یا دو.
3.2. نشان دادن مزیت فاصله Wasserstein
ما بیشتر در مورد مزیت فاصله Wasserstein نسبت به تفاوت میانگین ساده در این بخش بحث می کنیم. همانطور که در شکل 6 نشان داده شده است ، نزدیکترین ایستگاه به معبد YongHeGong Lama که با مقدار میانگین اندازه گیری شده است Beitucheng و Lingjing Hutong است و توزیع نزدیکترین به Houshayu است. اگرچه میانگین مقادیر معبد لاما، بیتوچنگ و لینجینگ هوتونگ نزدیک است، اما همانطور که در شکل 6 نشان داده شده است، توزیع کاملاً متفاوت است .
3.3. ایستگاه های خوشه بندی بر اساس فاصله توزیع
با استفاده از فاصله Wasserstein، ماتریس فاصله بین تمام جفت ایستگاه ها در سیستم متروی پکن و ایستگاه های خوشه ای بر این اساس در این بخش به دست می آوریم.
3.3.1. انتخاب متریک پیوند و تعداد خوشه ها
خوشه بندی و ارزیابی با استفاده از Scikit-learn [ 21 ] اجرا می شود. ما از تعداد خوشه ها از 2 تا 20 استفاده می کنیم، سپس شاخص Silhouette و SDSC/SD را که در شکل 7 و شکل 8 نشان داده شده است، مقایسه می کنیم . ما با استفاده از فاصله Wasserstein یک بعدی توزیع بازدید خاص ایستگاه و هنجار L1 و L2 برای توزیع مشترک دو بعدی با در نظر گرفتن تعداد بازدید کلی خوشهبندی میکنیم. ما از پیوند کامل با در نظر گرفتن شاخص Silhouette و SDSC/SD استفاده می کنیم. طبق قانون زانو، به ترتیب 4/6/7 را به عنوان تعداد خوشه ها انتخاب می کنیم.
3.3.2. تجزیه و تحلیل خوشه بندی توزیع بازدید از ایستگاه
نتایج خوشهبندی تک بعدی تنها با استفاده از تعداد بازدید در شکل 9 a,b نشاندهنده توزیع فضایی ایستگاهها برای هر خوشه است. ایستگاههای Cluster1 کمترین آشنایی را دارند و ایستگاههای مربوطه، مراکز حملونقل بینشهری و نقاط دیدنی مانند پایانههای فرودگاه، ایستگاههای راهآهن، تیانآنمن یا باغوحش پکن هستند. خوشه 2 دارای بیشترین تعداد ایستگاه، مربوط به مناطق کاری و مناطق عملکردی مختلط است. ایستگاه های خوشه 3 و خوشه 4 حاوی آشناترین مسافران هستند که مربوط به مناطق مسکونی است.
ما این را بیشتر با مقایسه الگوی عملکردی اطراف در هر خوشه در شکل 10 نشان می دهیم . می توان نتیجه گرفت که خوشه با آشناترین مسافران را مکان های مسکونی و خوشه با کمترین آشناترین مسافران را مکان های تفریحی تشکیل می دهد.
ترکیب زمان بازدید خاص ایستگاه و کل زمان بازدید، یک توزیع دوبعدی ایجاد میکند و نتایج خوشهبندی ایستگاهها با استفاده از معیار L1 در شکل 11 نشان داده شده است.، شش خوشه مسافری مختلف را نشان می دهد. نتایج خوشه بندی با استفاده از هنجار L2 بسیار شبیه به این است، بنابراین حذف شده است. ایستگاه های مربوط به خوشه 1 و خوشه 2 مربوط به کمترین نسبت مسافران آشنا هستند. خوشه 3 عمدتاً از دو نوع افرادی تشکیل شده است که به طور خاص با سایت آشنا هستند و افرادی که کاملاً ناآشنا هستند. خوشه 4 و خوشه 5 گسترده ترین پوشش مسافران را دارند، از جمله مسافران آشنا، ناآشنا و بین مسافران. تنها تفاوت بین خوشه 4 و خوشه 5 این است که خوشه 4 مسافران آشناتری دارد. خوشه 6 عمدتاً متشکل از مسافرانی است که آشنایی خاصی با ایستگاه دارند. توزیع فضایی با استفاده از هنجار L1 در شکل 12 نشان داده شده است .
4. بحث
ما ابتدا از دادههای AFC برای ایجاد توزیع تعداد بازدید ایستگاههای مترو برای نشان دادن ویژگیهای آشنایی مسافران استفاده میکنیم. سپس با استفاده از شاخص تشابه توزیع، شباهت ایستگاه ها را اندازه گیری می کنیم. این مقاله همچنین یک روش کلی را پیشنهاد میکند که میتواند توزیعها را خوشهبندی کند. در مقایسه با نمایش مستقیم توزیع یک ویژگی به عنوان یک مقدار، میتواند این ویژگی را منعکس کند که توزیعهای با مقادیر نزدیک شبیهتر هستند. مطالعه موردی شبکه متروی پکن اثربخشی روش پیشنهادی را نشان میدهد. ما نتایج خوشهبندی را با الگوی ناحیه عملکردی اطراف ایستگاهها مقایسه میکنیم،
سه اشکال در این مقاله وجود دارد. اول، راه حل کارآمد برای مشکلات حمل و نقل مورد بحث قرار نمی گیرد. برای هر نقطه، زمانی که مقیاس مسئله حمل و نقل بزرگ است، تعداد متغیرها در برنامه ریزی خطی، مجذور تعداد فواصل کل توزیع دو بعدی است. حتی اگر الگوریتم های چند جمله ای مانند روش نقطه داخلی انتخاب شوند، پیچیدگی محاسباتی همچنان بالاست. ما به سادگی از روش OpenCV بدون بحث در مورد الگوریتم ها بهره برداری می کنیم. استفاده از روش های اکتشافی برای حل مسئله، راه حل های دقیقی را دنبال نمی کند، اما می تواند پیچیدگی محاسبات را تا حد زیادی کاهش دهد. با این حال، از آنجایی که فراتر از محدوده این مقاله است، ما فقط از متریک در روش خوشه بندی خود بهره برداری می کنیم، الگوریتم اکتشافی برای مشکلات حمل و نقل بیشتر مورد بحث قرار نمی گیرد. دومین، هیچ تحلیل حساسیتی روی تابع هزینه استفاده شده انجام نشده است. ویژگی های آشنایی مسافران با استفاده از هنجارهای ساده L1 و L2 مشخص می شود و ما فقط یک معیار کلی برای انتخاب تعداد خوشه ها برای هر هنجار ارائه می دهیم. با این حال، تحلیل حساسیت تابع هزینه در مطالعه موردی انجام نشده است. ثالثاً، هیچ الگوریتم خوشهبندی جدیدی طراحی نشده است، و همچنین مزایا و معایب هر یک از الگوریتمهای خوشهبندی به صورت نظری تحلیل نشده است. از سوی دیگر، این مقاله به سادگی مقادیر شاخص ارزیابی الگوریتم های خوشه بندی سلسله مراتبی را مقایسه می کند. تحلیل حساسیت تابع هزینه در مطالعه موردی انجام نشده است. ثالثاً، هیچ الگوریتم خوشهبندی جدیدی طراحی نشده است، و همچنین مزایا و معایب هر یک از الگوریتمهای خوشهبندی به صورت نظری تحلیل نشده است. از سوی دیگر، این مقاله به سادگی مقادیر شاخص ارزیابی الگوریتم های خوشه بندی سلسله مراتبی را مقایسه می کند. تحلیل حساسیت تابع هزینه در مطالعه موردی انجام نشده است. ثالثاً، هیچ الگوریتم خوشهبندی جدیدی طراحی نشده است، و همچنین مزایا و معایب هر یک از الگوریتمهای خوشهبندی به صورت نظری تحلیل نشده است. از سوی دیگر، این مقاله به سادگی مقادیر شاخص ارزیابی الگوریتم های خوشه بندی سلسله مراتبی را مقایسه می کند.
برای کاهش پیچیدگی مسئله، برخی از اقداماتی که می توان اتخاذ کرد عبارتند از: استفاده از توزیع کوتاه، ادغام گروه های مجاور در توزیع گسسته، بزرگ کردن فاصله گروهی گروه ها در توزیع پیوسته، و انجام تجزیه ماتریس بر روی داده ها و سایر روش های مختلف کاهش ابعاد. استفاده از الگوریتم مشکل حمل و نقل موثرتر، روند را تسریع کرده و روش را مقیاس پذیرتر می کند. علاوه بر این، کاربرد و عملکرد الگوریتمهای مختلف خوشهبندی را میتوان به صورت نظری تحلیل کرد.
بدون دیدگاه