توزیع مسافران نشان دهنده ویژگی های ایستگاه های راه آهن شهری است. سیستم جمع‌آوری خودکار کرایه حمل و نقل ریلی، مقدار زیادی از داده‌های مسیر مسافر را برای ردیابی پیوسته ورود و خروج جمع‌آوری می‌کند، که مبنایی را برای توزیع دقیق مسافران فراهم می‌کند. ما ابتدا از داده های مجموعه خودکار کرایه (AFC) برای ایجاد توزیع الگوی بازدید مسافران برای ایستگاه ها بهره برداری می کنیم. سپس شباهت تمام ایستگاه ها را با استفاده از فاصله Wasserstein اندازه گیری می کنیم. متفاوت از سایر معیارهای شباهت، فاصله Wasserstein شباهت بین مقادیر متغیرهای کمی در توزیع تک بعدی را در نظر می گیرد و می تواند همبستگی بین ابعاد مختلف داده های با ابعاد بالا را منعکس کند. حتی اگر پیچیدگی محاسباتی افزایش یابد، از آنجایی که مقیاس ایستگاه های حمل و نقل ریلی شهری به ده ها تا صدها محدود است و مدل سازی دقیق ایستگاه ها را می توان به صورت آفلاین انجام داد، در ایستگاه های مترو قابل اجرا است. بنابراین، این مقاله یک روش یکپارچه را پیشنهاد می‌کند که می‌تواند توزیع مشترک چند بعدی را با در نظر گرفتن شباهت و همبستگی خوشه‌بندی کند. سپس این روش برای خوشه‌بندی ایستگاه‌های حمل‌ونقل ریلی توسط توزیع بازدید مسافران اعمال می‌شود، که بینش ارزشمندی را در مورد مدیریت جریان و برنامه‌ریزی مجدد ایستگاه حمل و نقل ریلی شهری در آینده ارائه می‌دهد. این مقاله یک روش یکپارچه را پیشنهاد می‌کند که می‌تواند توزیع مشترک چند بعدی را با در نظر گرفتن شباهت و همبستگی خوشه‌بندی کند. سپس این روش برای خوشه‌بندی ایستگاه‌های حمل‌ونقل ریلی توسط توزیع بازدید مسافران اعمال می‌شود، که بینش ارزشمندی را در مورد مدیریت جریان و برنامه‌ریزی مجدد ایستگاه حمل و نقل ریلی شهری در آینده ارائه می‌دهد. این مقاله یک روش یکپارچه را پیشنهاد می‌کند که می‌تواند توزیع مشترک چند بعدی را با در نظر گرفتن شباهت و همبستگی خوشه‌بندی کند. سپس این روش برای خوشه‌بندی ایستگاه‌های حمل‌ونقل ریلی توسط توزیع بازدید مسافران اعمال می‌شود، که بینش ارزشمندی را در مورد مدیریت جریان و برنامه‌ریزی مجدد ایستگاه حمل و نقل ریلی شهری در آینده ارائه می‌دهد.

کلید واژه ها:

ایستگاه حمل و نقل ریلی ; توزیع مسافر ; الگوریتم خوشه بندی ; فاصله واسرشتاین

1. مقدمه

حمل و نقل ریلی شهری به دلیل سرعت سریع، ظرفیت زیاد، سطح بالایی از راحتی، کارایی و قابلیت اطمینان شناخته شده است. بهره برداری موثر از ترانزیت ریلی شهری می تواند هزینه های سفر را کاهش دهد، مسافران بیشتری را جابجا کند و ازدحام ترافیک جاده ها را کاهش دهد. سیستم حمل و نقل ریلی شهری شهرهای مختلف چین به سرعت در حال توسعه است و به مسافران بیشتری خدمات رسانی می کند. برای مثال، متروی پکن در سال 2010 به 1846.3 میلیون مسافر خدمات رسانی کرد که با افزایش 114.6 درصدی به 3962.3 میلیون مسافر در سال 2019 رسید [ 1 ]. ایجاد سیاست های مدیریتی برای بهبود کارایی و قابلیت اطمینان سیستم [ 2] نیاز به درک دقیقی از ویژگی های مسافران در هر ایستگاه و هر دوره زمانی دارد. اقدامات مدیریتی بهتر می تواند سطح خدمات را بهبود بخشد و ترانزیت ریلی را به عنوان ستون فقرات سیستم حمل و نقل عمومی شهری در شهرهایی مانند پکن بهتر ایفا کند [ 3 ].
تحقیقات در مورد ویژگی های مسافر را می توان به مدل های فردی و دسته جمعی تقسیم کرد. تمرکز تحقیقات فردی از دیدگاه مسافران فردی است و تحقیقات جمعی تجزیه و تحلیل شده در سطح ایستگاه ها، مسیرها و شبکه ها با داده های جمع آوری شده است [ 4 ]. با افزایش محبوبیت داده های کارت هوشمند، تحقیقات در مورد ویژگی های مسافران ترانزیتی بر اساس داده های مسیر در مقیاس بزرگ همچنان به ظهور می رسد [ 5 ، 6 ]. تلاش‌ها به الگوهای رفت‌وآمد مسافران اختصاص داده شده است [ 7 ، 8 ]، استنتاج هدف سفر [ 9 ]، الگوهای مکانی [ 10 ]، الگوهای زمانی [ 11 ،12 ]، و الگوهای مفصل مکانی-زمانی [ 13 ، 14 ]. یکی از متداول‌ترین روش‌ها، خوشه‌بندی الگوهای سفر مسافران برای تفسیر بهتر ویژگی‌های آن‌ها است [ 15 ، 16 ]. تجزیه و تحلیل الگوهای مسافری جمعی بر اساس داده های جمع آوری شده بر درک فراوانی استفاده از ایستگاه ها [ 12 ]، شناسایی مکان های تجمع مسافران [ 17 ] و شناسایی توزیع فضایی مناطق عملکردی شهری [ 18 ] تمرکز دارد.
این مقاله بر توزیع مسافر در سطح ایستگاه متمرکز است. برای سیستم حمل و نقل ریلی، از منظر ایستگاه ها، تعداد ایستگاه ها محدود است. در چین، از 31 دسامبر 2020 [ 19]، متروی پکن با 428 ایستگاه بیشترین ایستگاه را دارد و پس از آن متروی شانگهای با 354 ایستگاه قرار دارد. بنابراین، مدیران و اپراتورهای ایستگاه حمل‌ونقل ریلی نیازی به مدیریت مجموعه داده‌های مقیاس بزرگ مانند سایر متخصصان یادگیری ماشین ندارند. در عین حال، درک دقیق‌تر می‌تواند به مدیریت بهتر جریان سفر و اقدامات کنترلی منجر شود. به جای تمرکز بر کارایی، باید تلاش بیشتری برای استفاده کامل از رفتارهای همه مسافران مرتبط با ایستگاه هنگام بررسی یک ایستگاه خاص انجام شود. مسافران را می توان به عنوان یک متغیر تصادفی نشان داد که اغلب با مقادیر معرف آماری مانند کل ورودی/خروجی توصیف می شود [ 20 ]] یا میانگین برای متغیرهای کمی [ 21 ]. این روش ها ساده هستند و از نظر کاربردی بودن و مقیاس پذیری دارای مزیت هستند. با این حال، توزیع مسافر حاوی اطلاعات بسیار بیشتری نسبت به یک مقدار معرف واحد است. این مقاله با اندازه‌گیری شباهت توزیع‌ها به جای استفاده از یک مقدار معرف ساده مانند میانه یا میانگین، شکاف را پر می‌کند. هدف ما این است که به جای جایگزینی کامل روش‌های دیگر در هر صورت، از مزایای توزیع برای ایستگاه‌ها در مقیاس کوچک استفاده کنیم.
ایده این مقاله شبیه به تجزیه تانسورها یا تانسورهای با ابعاد بالا با سری های زمانی با افزودن یک عبارت هموارسازی زمانی [ 22 ]، یا عبارت منظم سازی فضایی با توجه به توپولوژی و مجاورت فضایی [ 23 ] و در نظر گرفتن فضای زمانی است. همبستگی بین نقاط داده شرایط هموارسازی زمانی، زمان مجاور یا دوره‌ای را به نزدیک بودن محدود می‌کنند [ 24 ]، و شرایط منظم‌سازی فضایی شکاف را برای نقاطی با ویژگی‌های جغرافیایی مشابه به حداقل می‌رساند. این مقاله متفاوت از در نظر گرفتن نقاط داده مختلف از یک ویژگی در تحقیق فوق، همبستگی بین مقادیر مختلف یک ویژگی را در یک نقطه داده یکسان فرض می‌کند.
ما از روش پیشنهادی برای خوشه‌بندی ایستگاه‌ها بر اساس توزیع بازدید مسافران استفاده می‌کنیم. درک توزیع بازدید مسافران در برنامه ریزی امکانات ایستگاه مانند نقشه [ 25 ] یا تنظیم علائم راهنمای مسیر [ 26 ]، مدیریت جریان در شرایط عادی [ 27 ] و شرایط اضطراری [ 28 ] و طراحی تبلیغات تجاری تجاری [ 29 ] نقش دارد. ].
اولین اهمیت توزیع بازدید مسافران در تنظیمات علائم راهنمای مسیر نهفته است [ 26 ، 30]. به عنوان مثال، برای ایستگاه هایی مانند ترمینال فرودگاه T2، تقریباً همه مسافران فقط یک یا دو بار از آن بازدید می کنند. این مسافران با ساختار داخلی و مسیر مناسب در ایستگاه آشنا نیستند، بنابراین باید به طور فشرده تابلوهای راهنمای منتهی به سکو و خروجی های مختلف را بدون تداخل دیگر برای مسافران ورودی و خروجی ایستگاه نمایش دهند. برعکس، اگر همه مسافران به طور مکرر از یک ایستگاه خاص بازدید کنند، با ایستگاه آشنا هستند. اطلاعات لحظه ای قطار و جریان مسافر را می توان برای مسافران ورودی نمایش داد و اطلاعات غنی تر در مورد خروج و حتی تبلیغات تجاری بیشتری را برای مسافران خروجی نمایش داد. به طور خلاصه، استراتژی نمایش علائم باید با توجه به آشنایی مسافران با ایستگاه ها تنظیم شود.
دومین کاربرد بالقوه در کنترل جریان مسافر در داخل ایستگاه نهفته است. رفتار انتخاب مسیر نیز به آشنایی مسافران با ایستگاه ها، ساده سازی ایستگاه ها برای مدیریت جریان مسافر بستگی دارد [ 31 ]. برای ایستگاه‌هایی با توزیع‌های آشنایی مسافران مختلف، روش‌های کنترلی متفاوتی باید مورد استفاده قرار گیرد تا اطمینان حاصل شود که مسافران از قوانین پیروی می‌کنند، زیرا مسافران آشنا هنگام انتخاب مسیرها ترجیحات متفاوتی از خود نشان می‌دهند [ 32 ]. مسافرانی که با ایستگاه ها آشنایی ندارند ممکن است کوتاه ترین مسیر را در شرایط تخلیه اضطراری پیدا نکنند. بنابراین، هنگام ارزیابی کارایی تخلیه اضطراری، توزیع بازدید مسافر باید در نظر گرفته شود.
سومین فرصتی که توزیع بازدید از مسافران فراهم می کند، بهبود تبلیغات تجاری تجاری [ 29 ] نمایش داده شده در ایستگاه های مترو است. ایستگاه های مسافران آشنا با الگوهای بازدید مکرر برای آن دسته از تبلیغاتی که هدفشان نمایش مکرر به همان مسافران است، اولویت دارند. ایستگاه‌های راه‌آهن و پایانه‌های فرودگاه که مسافران مختلف ناآشنا را جذب می‌کنند، برای آگهی‌های بازرگانی مناسب هستند که می‌خواهند تا حد امکان بیشترین مسافران را پوشش دهند.
هدف این تحقیق ابتدا ساخت توزیع تعداد بازدید، سپس اندازه‌گیری شباهت تمام ایستگاه‌ها با استفاده از فاصله Wasserstein و خوشه‌بندی ایستگاه‌ها بر اساس ماتریس شباهت توزیع بازدید برای پیامدهای خط‌مشی است. سهم اصلی این مقاله سه جانبه است. ابتدا از فاصله Wasserstein برای اندازه گیری شباهت با در نظر گرفتن تعداد بازدید مشابه استفاده می کنیم. با سفارشی کردن تابع هزینه، همبستگی بین تعداد بازدیدهای خاص ایستگاه و تعداد کل بازدید را می توان در نظر گرفت. این همچنین برای توزیع مشترک چند بعدی با ویژگی های متعدد یا سری های زمانی ویژگی های چند بعدی قابل استفاده است. دوم، ماتریس فاصله به‌دست‌آمده برای خوشه‌بندی ایستگاه‌ها بر اساس توزیع بازدید مسافران از ایستگاه‌ها استفاده می‌شود. عملی بودن و اثربخشی آن را نشان می دهد. در نهایت، مطالعه موردی خوشه‌بندی آشنایی مسافران برای ایستگاه‌های متروی پکن، ایستگاه‌های متروی پکن را بیشتر مشخص می‌کند و بینش‌هایی را برای مدیریت جریان تصفیه‌شده مسافران حمل‌ونقل ریلی شهری ارائه می‌دهد.
ادامه مقاله به شرح زیر تدوین شده است. منطقه مورد مطالعه، داده‌های جمع‌آوری خودکار کرایه (AFC)، معیارهای شباهت، و روش خوشه‌بندی در بخش 2 ارائه شده‌اند . بخش 3 نحوه ساخت توزیع بازدید، اندازه گیری شباهت و خوشه بندی ایستگاه ها، همراه با تجزیه و تحلیل نتایج خوشه بندی را نشان می دهد. بخش 4 مقاله را به پایان می رساند و پیامدهای نتایج را مورد بحث قرار می دهد.

2. مواد و روشها

2.1. منطقه مطالعه و داده های AFC

پکن پایتخت چین با جمعیت ثابت بیش از 21 میلیون نفر از سال 2014 تاکنون است. شکل 1 نقشه مرزهای اداری تمامی ولسوالی ها و سیستم های مترو را نشان می دهد. منطقه شهری ساخته شده پرجمعیت در محدوده جاده کمربندی پنجم قرار دارد. از درونی به بیرونی جاده های کمربندی 2-6 قرار دارند. مرزها و جاده، و همچنین شبکه های حمل و نقل ریلی شهری، با استفاده از داده های مکان واکشی شده از OpenStreetMap [ 33 ] ساخته شده اند.
ما از 127 میلیون رکورد شبکه مترو توسط 12.7 میلیون کاربر کارت مترو از 1 تا 31 مارس 2014 استفاده می کنیم. رکوردهای AFC شامل پنج ویژگی، شناسه کارت، ایستگاه ورودی، ایستگاه خروج، زمان ورود و زمان خروج است. شناسه کارت یک شناسه منحصر به فرد برای هر مسافر است. بنابراین می توانیم با انتخاب تمام سوابق شناسه کارت یکسان، الگوی بازدید هر مسافر را ردیابی کنیم. جدول 1 نمونه هایی از رکوردهای AFC را نشان می دهد. شناسه کارت برای حفظ حریم خصوصی مسافران هش شده است. ما توزیع الگوی بازدید از ایستگاه ها را بر اساس همه مسافران مرتبط با ایستگاه با حداقل یک بازدید ایجاد می کنیم.

2.2. اندازه گیری شباهت توزیع ها

معیارهای تشابه عمومی شامل فاصله منهتن، فاصله اقلیدسی، شباهت کسینوس و همبستگی پیرسون است. معیارهای تشابه فوق برای اندازه گیری شباهت توزیع ها تعیین نشده اند. آن‌ها ویژگی‌ها یا ویژگی‌ها را برای محاسبه فاصله زوجی تراز می‌کنند و مقادیر نسبی ویژگی‌های مختلف را نادیده می‌گیرند. ابتدا دو شاخص برای اندازه گیری شباهت توزیع ها معرفی می کنیم و اشکالات آنها را نشان می دهیم. سپس مزیت فاصله Wasserstein را نشان می دهیم.

2.2.1. واگرایی KL و شاخص شباهت سورنسن

اندازه گیری فاصله بین دو توزیع را می توان به عنوان اندازه گیری شباهت توزیع ها نیز در نظر گرفت. شاخص های زیادی برای اندازه گیری فاصله توزیع ها وجود دارد، مانند واگرایی KL (Kullback–Leibler). برای متغیرهای تصادفی گسسته و ، فرمول محاسبه واگرایی KL است . برای متغیرهای تصادفی پیوسته و و فرمول محاسبه واگرایی KL با توابع چگالی احتمال شناخته شده است .
همانطور که از تعریف واگرایی KL مشاهده می شود، اگر عناصر تشکیل دهنده دو گروه توزیع توزیع شده گسسته با آرایش متفاوت یکسان باشند، مقادیر واگرایی KL یکسان خواهد بود. این شاخص تفاوت بین مقادیر متغیر کمی را نادیده می گیرد. علاوه بر این، واگرایی KL نامتقارن است، یعنی . ضمیمه A بیشتر این ضرر را با استفاده از توزیع اسباب بازی نشان می دهد.
از آنجایی که توزیع دو بعدی درگیر یک توزیع گسسته است، توزیع آن را می توان به صورت ماتریس بیان کرد و می توان از تمام شاخص ها برای اندازه گیری شباهت ماتریس استفاده کرد. برای توزیع پیوسته، می توان از یک استراتژی binning برای گسسته کردن آن استفاده کرد. یک شاخص رایج برای اندازه گیری شباهت ماتریس، شاخص شباهت سورنسن است. اساساً، شاخص شباهت سورنسن میانگین نسبت همپوشانی همه مقادیر است، بنابراین می‌توان آن را برای بردارها، ماتریس‌ها یا تانسورهای ابعاد بالاتر اعمال کرد.
بنابراین، واگرایی KL و شاخص شباهت سورنسن نمی توانند تفاوت های ارزشی در توزیع را منعکس کنند. در ادامه به معرفی فاصله Wasserstein می پردازیم.
2.2.2. فاصله واسرشتاین

فاصله Wasserstein به عنوان حداقل هزینه مورد نیاز برای تغییر یک توزیع تعریف می شود به دیگری ،

جایی که نشان دهنده یک توزیع مشترک با توزیع های حاشیه ای است و . وقتی توزیع تک بعدی است،

جایی که ضریب یک هنجار مناسب است، و تابع توزیع تجمعی (CDF) هستند و ، به ترتیب.

فاصله Wasserstein از دو توزیع گسسته را می توان به عنوان یک مسئله حمل و نقل مدل کرد، که هزینه کل فاصله برای تغییر یک توزیع به توزیع دیگر را به حداقل می رساند. برای دو متغیر گسسته و با توجه به توزیع آنها و ماتریس فاصله بین مقادیر متغیرهای تصادفی، یک ماتریس تعیین کنید. برای تغییر از هر نقطه از توزیع اول به توزیع دوم، تا مجموع هزینه حمل و نقل کوچکترین باشد. بنابراین، دو توزیع معادل حجم عرضه و حجم تقاضا در مسئله حمل و نقل هستند و ماتریس فاصله را می توان برای در نظر گرفتن همبستگی بین مقادیر متغیر تعریف کرد و مسئله حمل و نقل را می توان به عنوان یک مسئله برنامه ریزی خطی مدل کرد:

متغیر تصمیم گیری حجمی است که از آن منتقل می شود به ، و هزینه حمل و نقل یک واحد را نشان می دهد به . ارزش یک ورودی در ماتریس هزینه است ، که توسط یک تابع هزینه تعریف شده و در بخش 2.2.3 با جزئیات بیشتر مورد بحث قرار گرفته است. تابع هدف هزینه های حمل و نقل را به حداقل می رساند. محدودیت‌های اول اطمینان می‌دهند که مقدار ارسال شده از توزیع اول برابر با مقدار احتمال هر نقطه است (محدودیت‌های عرضه)، مجموعه دوم محدودیت‌ها به این معنی است که کل مقدار ارسال شده به توزیع دوم برابر با مقدار احتمال هر نقطه است. (محدودیت تقاضا)، محدودیت سوم نشان می دهد که حجم حمل و نقل غیرمنفی است.
فاصله Wasserstein سه مزیت نسبت به واگرایی KL و شاخص شباهت سورنسن دارد. اول، در مقایسه با واگرایی KL، تابع هزینه می تواند متقارن باشد و فاصله متقارن برای بسیاری از موارد، مانند تغذیه به خوشه بندی، معقول تر است. دوم، توانایی سفارشی‌سازی تابع هزینه باعث می‌شود که بتواند شباهت بین مقادیر کمی یک ویژگی را منعکس کند، سوم، می‌تواند همبستگی بین ابعاد مختلف را برای داده‌های با ابعاد بالا منعکس کند.
فاصله Wasserstein می تواند همبستگی مقادیر توزیع را منعکس کند، در حالی که واگرایی KL و شاخص شباهت سورنسن نمی توانند تفاوت میانگین های مختلف را در برخی موارد تشخیص دهند. به طور مشابه، زمانی که لازم است همبستگی توزیع‌های با ابعاد بالا را در نظر بگیریم، می‌توان آن را با یک ماتریس هزینه مناسب تجسم کرد.
2.2.3. تعریف تابع هزینه
هنگامی که فقط اشیاء یک بعدی را در نظر می گیریم، تابع هزینه به سادگی به عنوان فاصله بین نقاط، یعنی قدر مطلق تفاوت تعریف می شود. برای یک مسئله دو بعدی، تابع هزینه به عنوان هنجار برداری L1، L2 محاسبه شده با استفاده از OpenCV [ 34 ] تعریف می شود.

2.3. خوشه بندی بر اساس شباهت توزیع پیشنهادی

2.3.1. خلاصه ای از روش های خوشه بندی

الگوریتم‌های خوشه‌بندی رایج شامل خوشه‌بندی k-means، خوشه‌بندی سلسله مراتبی و خوشه‌بندی مبتنی بر چگالی است. خوانندگان ممکن است برای بررسی جامع به [ 35 ، 36 ، 37 ] مراجعه کنند. این مقاله از فاصله Wasserstein برای اندازه گیری شباهت توزیع استفاده می کند. ما عمدتاً بر روی نشان دادن اثر اندازه‌گیری‌های فاصله توزیع تمرکز می‌کنیم، بنابراین از خوشه‌بندی سلسله مراتبی برای منعکس کردن فرآیند خوشه‌بندی استفاده می‌شود.
روش های خوشه بندی سلسله مراتبی تمام نقاط داده را به صورت سلسله مراتبی خوشه بندی می کند که می تواند به صورت دندروگرام نمایش داده شود. خوشه بندی سلسله مراتبی می تواند تجمعی یا تقسیمی باشد. خوشه‌بندی تجمعی از پایین به بالا است که از یک خوشه برای هر نقطه شروع می‌شود و خوشه‌های مشابه را در هر تکرار ادغام می‌کند. خوشه بندی تقسیمی از بالا به پایین است که فقط از یک خوشه شروع می شود و در هر تکرار یک خوشه را به چند خوشه تقسیم می کند. ما در مطالعه موردی از خوشه بندی تجمعی استفاده می کنیم. برای هر تکرار، ادغام کدام خوشه ها به شباهت یا فاصله ماتریس خوشه ها بستگی دارد. راه های مختلفی برای تعیین فاصله بین خوشه ها با چندین شی وجود دارد.
پیوند منفرد: فاصله بین دو خوشه حداقل فاصله یک شی در یک خوشه تا یک شی در خوشه دیگر است.
پیوند کامل: فاصله بین دو خوشه حداکثر فاصله یک شی در یک خوشه تا یک شی در خوشه دیگر است.
پیوند متوسط: فاصله بین دو خوشه میانگین فاصله یک شی در یک خوشه تا یک شی در خوشه دیگر است.
مزیت خوشه بندی سلسله مراتبی این است که می تواند فرآیند خوشه بندی را منعکس کند. عیب این است که پس از ادغام نزدیکترین خوشه ها، نمی توان آنها را بعداً از هم جدا کرد، حتی اگر نقاط داخل خوشه به سایر خوشه ها نزدیکتر باشند، نمی توان آنها را دوباره خوشه بندی کرد.
2.3.2. شاخص ارزیابی خوشه بندی
خوشه‌بندی انجام‌شده بدون برچسب‌های حقیقت زمینی را نمی‌توان با استفاده از اعتبارسنجی متقاطع و شاخص‌های خطای مختلف ارزیابی کرد، اما اثر خوشه‌بندی همچنان قابل ارزیابی است. نتایج خوشه‌بندی خوب باید دو شرط را برآورده کند: فاصله بین عناصر یک خوشه کوچک باشد، فاصله بین خوشه‌های مختلف زیاد باشد. برای خوشه بندی سلسله مراتبی، تعداد خوشه ها باید تعیین شود. روش متداول برای انتخاب تعداد خوشه ها روش زانویی است و سایر شاخص های ارزیابی خوشه بندی شامل ضریب Silhouette، شاخص Calinski-Harabasz، و Davies-Bouldin index [ 38 ، 39 ] است.
SSE که به عنوان مجموع مربعات خطاهای یک کلاس تعریف می شود، اغلب در روش elbow مورد سوء استفاده قرار می گیرد. در این مقاله، یک شاخص مشابه نسبت فاصله درون خوشه ای (SDSC/SD) تعریف می کنیم: نسبت مجموع فواصل درون خوشه به مجموع فاصله های کل. روش آرنجی به این صورت است که تعداد کمتری از خوشه ها را انتخاب می کنیم که می توانند فاصله را در همان خوشه شامل شود. هنگامی که تعداد خوشه ها افزایش می یابد، بدیهی است که فاصله کل در همان خوشه نسبت بیشتری را به خود اختصاص می دهد. بنابراین، SDSC/SD در ابتدا به سرعت کاهش می یابد و سپس تمایل به صاف شدن دارد. بنابراین، ما رابطه بین SDSC/SD و تعداد خوشه‌ها را نشان می‌دهیم و از تعداد خوشه‌ها زمانی که SDSC/SD تمایل به صاف بودن دارد به عنوان تعداد مناسب خوشه‌ها استفاده می‌کنیم.
شاخص Silhouette می تواند کیفیت هر نقطه را ارزیابی کند. با دو مقدار تعریف می شود: فاصله متوسط از همان خوشه و فاصله متوسط پس از نزدیکترین خوشه . از تعریف آن می توان دریافت که محدوده شاخص Silhouette بین 1- و 1 است. شاخص Silhouette نزدیک به 1 به این معنی است که نقاط دور به طور منطقی از هم جدا شده اند. ما از شاخص Silhouette برای انتخاب بهترین متریک پیوند استفاده می کنیم.

3. نتایج

3.1. ساخت توزیع تعداد بازدید مسافر

3.1.1. تعداد بازدید مسافر از یک ایستگاه خاص

ابتدا بازدید را حساب می کنیم از مسافر با ایستگاه استفاده از رکوردهای AFC در یک ماه این مجموع تعداد سفر با است به عنوان مبدأ و سفر شمارش با به عنوان مقصد تمام سفرهای مسافر . و با استفاده از مثال مسافر در جدول 1 نتیجه تعداد بازدید نشان داده شده در جدول 2 را بدست می آوریم . آشنایی مسافر با ایستگاه را می توان توسط . برای یک ایستگاه خاص ، می توانیم توزیع تعداد بازدید را بسازیم با استفاده از تمام مسافران با .
ما نسبت مسافران را برای تعداد بازدیدهای مختلف از چهار ایستگاه معمولی در متروی پکن در مارس 2014 در شکل 2 الف نشان می دهیم. مشاهده می شود که اکثر مسافران تنها یک یا دو بار از ایستگاه T2 فرودگاه و تیان آنمن غربی بازدید می کنند، اما برای Tiantongyuan و Guomao، تنها حدود نیمی از مسافران یک یا دو بار از آن بازدید می کنند. شکل 2 a وضعیت کلی مسافران را نشان می دهد. در شکل 2 ب، الگوی بازدید را به عنوان یک عکس فوری متوسط ​​از ایستگاه بررسی می کنیم. معادل استفاده از تعداد بازدید به عنوان وزن توزیع مسافر است.
برای بررسی تأثیر ورودی و خروجی ترکیبی، تعداد بازدیدها را نیز به ترتیب به عنوان مبدا و مقصد بررسی می کنیم که در شکل 3 نشان داده شده است. مشاهده می شود که توزیع تعداد بازدید مسافران ورودی و خروجی از همان ایستگاه تقریباً یکسان است که نشان دهنده تقارن توزیع جریان مسافر است.
3.1.2. تعداد بازدیدهای ویژه ایستگاه مسافر و تعداد کل بازدیدها
در بخش 3.1.1 ، آشنایی مسافر با یک ایستگاه را به عنوان تعداد بازدید تعریف می کنیم. برای منعکس کردن ویژگی‌های خود مسافران، تعداد بازدیدهای خاص ایستگاه را اضافه کرده و تعریف می‌کنیم به عنوان تعداد کل بازدید از سیستم مترو. ابتدا توزیع تعداد بازدید همه مسافران از ایستگاه های مختلفی را که بازدید کرده اند و توزیع مشترک دو بعدی دو متغیر تصادفی را مطالعه می کنیم: تعداد بازدید. و تعداد کل بازدید همانطور که در شکل 4 نشان داده شده است.
خط به این معنی که همه سفرها در یک ایستگاه شروع و به پایان می رسند. این به این دلیل است که متروی پکن اجازه ورود و خروج در همان ایستگاه را می دهد. در برخی مطالعات، این نوع داده ها به عنوان داده های غیرعادی پاک می شوند. به این معنی که یک ایستگاه مشخص یا مبدا یا مقصد همه سفرهای یک مسافر خاص است. زمانی که یک مسافر همیشه از خانه سفری را شروع می کند و سپس به خانه بازمی گردد، 100% سفرهای خانگی معمول است. مسافران این خط نشان از آشنایی بالا با یک ایستگاه دارند. برعکس، مسافران با نزدیک به یک نشان می دهد که مسافران با ایستگاه آشنا نیستند. به طور خلاصه، دو متغیر به طور مشترک آشنایی مسافران با ایستگاه و سیستم مترو را مشخص کنید. مسافران زیادی در طول مسیر هستند محور، که خیلی کم از ایستگاه های خاصی بازدید می کنند. علاوه بر این، تعدادی مسافر در نزدیکی خط هستند ، که همیشه از یک ایستگاه خاص بازدید می کنند. برای مسافرانی که تعداد کل بازدیدکنندگان زیادی دارند، تعداد زیادی در این دو منطقه توزیع شده‌اند و تعداد کمی از ایستگاه‌های مسافربری در این بین وجود دارد.
برای یک ایستگاه ، متغیر تصادفی توزیع تعداد بازدید از ایستگاه را نشان می دهد. برای انعکاس دقیق‌تر ویژگی‌های مسافرانی که از مکان بازدید می‌کنند، اضافه می‌کنیم برای نشان دادن تعداد کل بازدید. در اینجا توزیع مشترک دو بعدی تعداد بازدید خاص ایستگاه و تعداد کل بازدید از چهار ایستگاه معمولی را در شکل 5 نشان می دهیم . ما در بخش 2.1 نشان داده ایمکه تفاوت جزئی بین ورودی و خروجی وجود دارد، بنابراین در اینجا از تعداد بازدید ترکیبی برای تعریف آشنایی استفاده می کنیم. به طور عمده دو نوع مسافر برای Tiantongyuan، یک ایستگاه مسکونی معمولی وجود دارد. یکی مسافرانی هستند که در آن نزدیکی زندگی می کنند و تقریباً هر سفر او در ایستگاه Tiantongyuan شروع یا به پایان می رسد، و دیگری فقط یک یا دو بار از آن بازدید می کند که مربوط به مسافرانی است که از اقوام و دوستان خود بازدید می کنند. ایستگاه Guomao در منطقه تجاری مرکزی واقع شده است و مسافران آن شبیه به مسافران Tiantongyuan هستند و مسافران کمتری در نزدیکی خط دارند. . جریان مسافرتی تیان آنمن غرب به قدری تحت تسلط گردشگران است که مسافران در نزدیکی منطقه توزیع می شوند. محور. فرودگاه T2 یک مرکز حمل و نقل بین شهری است، بنابراین تقریباً همه مسافران آن در نزدیکی محور، با بیشترین بازدید یک یا دو.

3.2. نشان دادن مزیت فاصله Wasserstein

ما بیشتر در مورد مزیت فاصله Wasserstein نسبت به تفاوت میانگین ساده در این بخش بحث می کنیم. همانطور که در شکل 6 نشان داده شده است ، نزدیکترین ایستگاه به معبد YongHeGong Lama که با مقدار میانگین اندازه گیری شده است Beitucheng و Lingjing Hutong است و توزیع نزدیکترین به Houshayu است. اگرچه میانگین مقادیر معبد لاما، بیتوچنگ و لینجینگ هوتونگ نزدیک است، اما همانطور که در شکل 6 نشان داده شده است، توزیع کاملاً متفاوت است .

3.3. ایستگاه های خوشه بندی بر اساس فاصله توزیع

با استفاده از فاصله Wasserstein، ماتریس فاصله بین تمام جفت ایستگاه ها در سیستم متروی پکن و ایستگاه های خوشه ای بر این اساس در این بخش به دست می آوریم.

3.3.1. انتخاب متریک پیوند و تعداد خوشه ها

خوشه بندی و ارزیابی با استفاده از Scikit-learn [ 21 ] اجرا می شود. ما از تعداد خوشه ها از 2 تا 20 استفاده می کنیم، سپس شاخص Silhouette و SDSC/SD را که در شکل 7 و شکل 8 نشان داده شده است، مقایسه می کنیم . ما با استفاده از فاصله Wasserstein یک بعدی توزیع بازدید خاص ایستگاه و هنجار L1 و L2 برای توزیع مشترک دو بعدی با در نظر گرفتن تعداد بازدید کلی خوشه‌بندی می‌کنیم. ما از پیوند کامل با در نظر گرفتن شاخص Silhouette و SDSC/SD استفاده می کنیم. طبق قانون زانو، به ترتیب 4/6/7 را به عنوان تعداد خوشه ها انتخاب می کنیم.
3.3.2. تجزیه و تحلیل خوشه بندی توزیع بازدید از ایستگاه
نتایج خوشه‌بندی تک بعدی تنها با استفاده از تعداد بازدید در شکل 9 a,b نشان‌دهنده توزیع فضایی ایستگاه‌ها برای هر خوشه است. ایستگاه‌های Cluster1 کمترین آشنایی را دارند و ایستگاه‌های مربوطه، مراکز حمل‌ونقل بین‌شهری و نقاط دیدنی مانند پایانه‌های فرودگاه، ایستگاه‌های راه‌آهن، تیان‌آنمن یا باغ‌وحش پکن هستند. خوشه 2 دارای بیشترین تعداد ایستگاه، مربوط به مناطق کاری و مناطق عملکردی مختلط است. ایستگاه های خوشه 3 و خوشه 4 حاوی آشناترین مسافران هستند که مربوط به مناطق مسکونی است.
ما این را بیشتر با مقایسه الگوی عملکردی اطراف در هر خوشه در شکل 10 نشان می دهیم . می توان نتیجه گرفت که خوشه با آشناترین مسافران را مکان های مسکونی و خوشه با کمترین آشناترین مسافران را مکان های تفریحی تشکیل می دهد.
ترکیب زمان بازدید خاص ایستگاه و کل زمان بازدید، یک توزیع دوبعدی ایجاد می‌کند و نتایج خوشه‌بندی ایستگاه‌ها با استفاده از معیار L1 در شکل 11 نشان داده شده است.، شش خوشه مسافری مختلف را نشان می دهد. نتایج خوشه بندی با استفاده از هنجار L2 بسیار شبیه به این است، بنابراین حذف شده است. ایستگاه های مربوط به خوشه 1 و خوشه 2 مربوط به کمترین نسبت مسافران آشنا هستند. خوشه 3 عمدتاً از دو نوع افرادی تشکیل شده است که به طور خاص با سایت آشنا هستند و افرادی که کاملاً ناآشنا هستند. خوشه 4 و خوشه 5 گسترده ترین پوشش مسافران را دارند، از جمله مسافران آشنا، ناآشنا و بین مسافران. تنها تفاوت بین خوشه 4 و خوشه 5 این است که خوشه 4 مسافران آشناتری دارد. خوشه 6 عمدتاً متشکل از مسافرانی است که آشنایی خاصی با ایستگاه دارند. توزیع فضایی با استفاده از هنجار L1 در شکل 12 نشان داده شده است .

4. بحث

ما ابتدا از داده‌های AFC برای ایجاد توزیع تعداد بازدید ایستگاه‌های مترو برای نشان دادن ویژگی‌های آشنایی مسافران استفاده می‌کنیم. سپس با استفاده از شاخص تشابه توزیع، شباهت ایستگاه ها را اندازه گیری می کنیم. این مقاله همچنین یک روش کلی را پیشنهاد می‌کند که می‌تواند توزیع‌ها را خوشه‌بندی کند. در مقایسه با نمایش مستقیم توزیع یک ویژگی به عنوان یک مقدار، می‌تواند این ویژگی را منعکس کند که توزیع‌های با مقادیر نزدیک شبیه‌تر هستند. مطالعه موردی شبکه متروی پکن اثربخشی روش پیشنهادی را نشان می‌دهد. ما نتایج خوشه‌بندی را با الگوی ناحیه عملکردی اطراف ایستگاه‌ها مقایسه می‌کنیم،
سه اشکال در این مقاله وجود دارد. اول، راه حل کارآمد برای مشکلات حمل و نقل مورد بحث قرار نمی گیرد. برای هر نقطه، زمانی که مقیاس مسئله حمل و نقل بزرگ است، تعداد متغیرها در برنامه ریزی خطی، مجذور تعداد فواصل کل توزیع دو بعدی است. حتی اگر الگوریتم های چند جمله ای مانند روش نقطه داخلی انتخاب شوند، پیچیدگی محاسباتی همچنان بالاست. ما به سادگی از روش OpenCV بدون بحث در مورد الگوریتم ها بهره برداری می کنیم. استفاده از روش های اکتشافی برای حل مسئله، راه حل های دقیقی را دنبال نمی کند، اما می تواند پیچیدگی محاسبات را تا حد زیادی کاهش دهد. با این حال، از آنجایی که فراتر از محدوده این مقاله است، ما فقط از متریک در روش خوشه بندی خود بهره برداری می کنیم، الگوریتم اکتشافی برای مشکلات حمل و نقل بیشتر مورد بحث قرار نمی گیرد. دومین، هیچ تحلیل حساسیتی روی تابع هزینه استفاده شده انجام نشده است. ویژگی های آشنایی مسافران با استفاده از هنجارهای ساده L1 و L2 مشخص می شود و ما فقط یک معیار کلی برای انتخاب تعداد خوشه ها برای هر هنجار ارائه می دهیم. با این حال، تحلیل حساسیت تابع هزینه در مطالعه موردی انجام نشده است. ثالثاً، هیچ الگوریتم خوشه‌بندی جدیدی طراحی نشده است، و همچنین مزایا و معایب هر یک از الگوریتم‌های خوشه‌بندی به صورت نظری تحلیل نشده است. از سوی دیگر، این مقاله به سادگی مقادیر شاخص ارزیابی الگوریتم های خوشه بندی سلسله مراتبی را مقایسه می کند. تحلیل حساسیت تابع هزینه در مطالعه موردی انجام نشده است. ثالثاً، هیچ الگوریتم خوشه‌بندی جدیدی طراحی نشده است، و همچنین مزایا و معایب هر یک از الگوریتم‌های خوشه‌بندی به صورت نظری تحلیل نشده است. از سوی دیگر، این مقاله به سادگی مقادیر شاخص ارزیابی الگوریتم های خوشه بندی سلسله مراتبی را مقایسه می کند. تحلیل حساسیت تابع هزینه در مطالعه موردی انجام نشده است. ثالثاً، هیچ الگوریتم خوشه‌بندی جدیدی طراحی نشده است، و همچنین مزایا و معایب هر یک از الگوریتم‌های خوشه‌بندی به صورت نظری تحلیل نشده است. از سوی دیگر، این مقاله به سادگی مقادیر شاخص ارزیابی الگوریتم های خوشه بندی سلسله مراتبی را مقایسه می کند.
برای کاهش پیچیدگی مسئله، برخی از اقداماتی که می توان اتخاذ کرد عبارتند از: استفاده از توزیع کوتاه، ادغام گروه های مجاور در توزیع گسسته، بزرگ کردن فاصله گروهی گروه ها در توزیع پیوسته، و انجام تجزیه ماتریس بر روی داده ها و سایر روش های مختلف کاهش ابعاد. استفاده از الگوریتم مشکل حمل و نقل موثرتر، روند را تسریع کرده و روش را مقیاس پذیرتر می کند. علاوه بر این، کاربرد و عملکرد الگوریتم‌های مختلف خوشه‌بندی را می‌توان به صورت نظری تحلیل کرد.

پیوست اول

در این بخش، ابتدا معایب واگرایی KL و شاخص شباهت سورنسن را با استفاده از چهار توزیع اسباب بازی نشان می‌دهیم، که نشان می‌دهد واگرایی KL و شباهت سورنسن برای شباهت‌های مختلف یکسان هستند. سپس اعتبار و مزیت فاصله Wasserstein را اثبات می کنیم.

ضمیمه A.1. همان KL Divergence و Sorensen Similarity برای Different Similarity

ما از دو توزیع استفاده می کنیم ، و عناصر دو توزیع را یکسان نگه دارید و آنها را دوباره مرتب کنید تا دو توزیع جدید ایجاد کنید و . دو گروه توزیع قبل و بعد از سوئیچینگ در شکل A1 نشان داده شده است. میانگین آنها و خطاهای نسبی میانگین ها در جدول A1 نشان داده شده است.
شکل A1. توزیع دو گروه توزیع: ( الف ) توزیع P و Q. ب ) توزیع P’ و Q’ .

ضمیمه A.3. اثبات اعتبار فاصله واسرشتاین به عنوان معیار تشابه

طبق تعریف، فاصله Wasserstein متقارن است تا زمانی که تابع هزینه متقارن باشد. فاصله Wasserstein بین توزیع مشابه . علاوه بر این، از تعریف فاصله واسرشتاین می‌توان نتیجه گرفت که نابرابری مثلث را برآورده می‌کند. ). با تناقض قابل اثبات است. اگر ، ابتدا می توانیم توزیع را تغییر دهیم به توزیع و سپس توزیع را تغییر دهید به توزیع ، سپس ، که با فرضیه در تضاد است. ارضای نابرابری مثلث آن را به اندازه گیری فاصله معتبر تبدیل می کند.

منابع

  1. سالنامه آماری پکن. در دسترس آنلاین: https://Nj.Tjj.Beijing.Gov.Cn/Nj/Main/2020-Tjnj/Zk/Indexch.Htm (دسترسی در 15 نوامبر 2021).
  2. وو، جی. لی، دی. سی، اس. گائو، زی. شماره ویژه: مدیریت قابلیت اطمینان سیستم پیچیده. جلو. مهندس مدیریت 2021 ، 8 ، 477-479. [ Google Scholar ] [ CrossRef ]
  3. کانگ، ال. Meng, Q. روش تجزیه دو فازی برای انتخاب زمان حرکت آخرین قطار در شبکه‌های مترو. ترانسپ Res. قسمت B-روش. 2017 ، 104 ، 568-582. [ Google Scholar ] [ CrossRef ]
  4. لیو، ال. هو، ا. بیدرمن، ا. راتی، سی. چن، جی. درک الگوهای تحرک فردی و جمعی از سوابق کارت هوشمند: مطالعه موردی در شنژن. در مجموعه مقالات دوازدهمین کنفرانس بین المللی IEEE در سال 2009 در مورد سیستم های حمل و نقل هوشمند، سنت لوئیس، MO، ایالات متحده، 4-7 اکتبر 2009. IEEE: منهتن، نیویورک، ایالات متحده آمریکا، 2009؛ صص 1-6. [ Google Scholar ]
  5. پلتیه، M.-P. ترپانیر، ام. مورنسی، سی. استفاده از داده های کارت هوشمند در حمل و نقل عمومی: بررسی ادبیات. ترانسپ Res. قسمت C-Emerg. تکنولوژی 2011 ، 19 ، 557-568. [ Google Scholar ] [ CrossRef ]
  6. ما، ایکس. وو، ی.-جی. وانگ، ی. چن، اف. لیو، جی. داده‌های کارت هوشمند استخراج برای الگوهای سفر سواران حمل‌ونقل. ترانسپ Res. قسمت C-Emerg. تکنولوژی 2013 ، 36 ، 1-12. [ Google Scholar ] [ CrossRef ]
  7. لانگ، ی. تیل، جی. ترکیب داده‌های کارت هوشمند و بررسی سفر خانوار برای تجزیه و تحلیل روابط شغل و مسکن در پکن. محاسبه کنید. محیط زیست سیستم شهری 2015 ، 53 ، 19-35. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  8. ما، ایکس. لیو، سی. ون، اچ. وانگ، ی. وو، ی.-جی. درک الگوهای رفت و آمد با استفاده از داده های کارت هوشمند حمل و نقل J. Transp. Geogr. 2017 ، 58 ، 135-145. [ Google Scholar ] [ CrossRef ]
  9. لیو، جی. شی، دبلیو. چن، پی. بررسی الگوهای سفر در طول فصل تعطیلات – مطالعه موردی سیستم متروی شنژن در طول جشنواره بهار چین. ISPRS Int. J. Geo-Inf. 2020 ، 9 ، 651. [ Google Scholar ] [ CrossRef ]
  10. حسن، س. اشنایدر، سی ام. اوکوسوری، اس وی؛ گونزالس، MC الگوهای فضایی-زمانی تحرک انسان شهری. J. Stat. فیزیک 2013 ، 151 ، 304-318. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  11. لی، دی. چن، ایکس. چنگ، ال. ژانگ، ال. اوکوسوری، اس. Witlox، F. استنباط موتیف های زمانی برای تحلیل الگوی سفر با استفاده از داده های کارت هوشمند در مقیاس بزرگ. ترانسپ Res. قسمت C-Emerg. تکنولوژی 2020 , 120 , 102810. [ Google Scholar ] [ CrossRef ]
  12. المهرسی، م.ک. بیا، ای. اوخلو، ال. Verleysen، M. خوشه بندی داده های کارت هوشمند برای تحلیل تحرک شهری. IEEE Trans. هوشمند ترانسپ سیستم 2017 ، 18 ، 712-728. [ Google Scholar ] [ CrossRef ]
  13. دنگ، ی. وانگ، جی. گائو، سی. لی، ایکس. وانگ، ز. لی، ایکس. ارزیابی ویژگی‌های زمانی-مکانی رفتارهای سفر شهری از داده‌های کارت هوشمند چند روزه. فیزیک A-Stat. مکانیک. برنامه آن است. 2021 ، 576 ، 126058. [ Google Scholar ] [ CrossRef ]
  14. ژائو، جی. Qu، Q. ژانگ، اف. خو، سی. لیو، اس. تجزیه و تحلیل فضایی-زمانی الگوهای سفر مسافر در داده های عظیم کارت هوشمند. IEEE Trans. هوشمند ترانسپ سیستم 2017 ، 18 ، 3135-3146. [ Google Scholar ] [ CrossRef ]
  15. او، ال. آگارد، بی. Trepanier، M. طبقه‌بندی کاربران حمل‌ونقل عمومی با داده‌های کارت هوشمند بر اساس معیارهای فاصله سری زمانی و روش خوشه‌بندی سلسله مراتبی. ترانسپ A-Transp. علمی 2020 ، 16 ، 56-75. [ Google Scholar ] [ CrossRef ]
  16. یانگ، ی. هپنستال، ا. ترنر، آ. Comber، A. چه کسی، کجا، چرا و چه زمانی؟ استفاده از کارت هوشمند و داده های رسانه های اجتماعی برای درک تحرک شهری. ISPRS Int. J. Geo-Inf. 2019 ، 8 ، 271. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  17. دو، بی. یانگ، ی. Lv, W. درک رفتارهای سفر گروهی در یک منطقه شهری با استفاده از الگوی کاوی تحرک. در مجموعه مقالات دهمین کنفرانس بین المللی IEEE در مورد هوش و محاسبات همه جا حاضر، UIC 2013 و IEEE دهمین کنفرانس بین المللی محاسبات خودکار و مورد اعتماد، ATC 2013، Vietri sul Mare، ایتالیا، 18-21 دسامبر 2013. IEEE: منهتن، نیویورک، ایالات متحده آمریکا، 2013؛ صص 127-133. [ Google Scholar ] [ CrossRef ]
  18. سان، ال. Axhausen، KW درک الگوهای تحرک شهری با چارچوب فاکتورسازی تانسور احتمالی. ترانسپ Res. روش قسمت B. 2016 ، 91 ، 511-524. [ Google Scholar ] [ CrossRef ]
  19. دفتر آمار اداره شهرداری پکن سالنامه آماری پکن. در دسترس آنلاین: https://Nj.Tjj.Beijing.Gov.Cn/Nj/Main/2021-Tjnj/Zk/Indexch.Htm (در 22 دسامبر 2021 قابل دسترسی است).
  20. دونگ، اچ. وو، ام. دینگ، ایکس. چو، ال. جیا، ال. Qin، Y. ژو، X. بخش منطقه ترافیک بر اساس داده های بزرگ از ایستگاه های پایه تلفن همراه. ترانسپ Res. قسمت C Emerg. تکنولوژی 2015 ، 58 ، 278-291. [ Google Scholar ] [ CrossRef ]
  21. شن، پی. اویانگ، ال. وانگ، سی. شی، ی. Su، Y. تجزیه و تحلیل خوشه ای و مشخصه ایستگاه های مترو شانگهای بر اساس کارت مترو و داده های کاربری زمین. ژئو اسپات. Inf. علمی 2020 ، 23 ، 352-361. [ Google Scholar ] [ CrossRef ]
  22. شیونگ، ال. چن، ایکس. هوانگ، TK; اشنایدر، جی. Carbonell, JG Temporal Collaborative Filtering با فاکتورسازی تانسور احتمالی بیزی. در مجموعه مقالات دهمین کنفرانس بین المللی سیام در مورد داده کاوی، SDM 2010، کلمبوس، OH، ایالات متحده، 29 آوریل تا 1 می 2010. SIAM: Philadelphia, PA, USA, 2010; ص 211-222. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  23. دونگ، ایکس. تانو، دی. فروسارد، پ. Vandergheynst، P. یادگیری ماتریس لاپلاسی در نمایش سیگنال های نمودار صاف. IEEE Trans. فرآیند سیگنال 2016 ، 64 ، 6160-6173. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  24. یو، اچ.-ف. رائو، ن. دیلون، فاکتورسازی ماتریس منظم‌شده زمانی برای پیش‌بینی سری‌های زمانی با ابعاد بالا. در مجموعه مقالات پیشرفت‌ها در سیستم‌های پردازش اطلاعات عصبی 29 (NIPS 2016)، بارسلون، اسپانیا، 5 تا 10 دسامبر 2016. Lee, DD, Sugiyama, M., Luxburg, UV, Guyon, I., Garnett, R., Eds. Curran Associates: نیویورک، نیویورک، ایالات متحده آمریکا، 2016؛ جلد 29. [ Google Scholar ]
  25. Xu, J. حساسیت نقشه در مقابل وابستگی به نقشه: مطالعه موردی تأثیر نقشه های مترو بر انتخاب مسیرهای مسافری در واشنگتن دی سی. رفتار علمی 2017 ، 7 ، 72. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  26. لی، بی. خو، جی. لی، ام. لی، اچ. لی، جی. کائو، ز. هائو، ی. ژانگ، ی. نقش تقویت کننده تابلوهای راهنما در ایستگاه های مترو با ادغام رفتار میکروسکوپی عابران پیاده. پایداری 2019 ، 11 ، 6109. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  27. شیواکوتی، ن. تای، آر. استاسینوپولوس، پ. Woolley، آگاهی و درک مسافران PJ از ابزارهای راه یابی در ایستگاه قطار. Saf. علمی 2016 ، 87 ، 179-185. [ Google Scholar ] [ CrossRef ]
  28. هونگ، ال. گائو، جی. زو، دبلیو. شبیه سازی تخلیه اضطراری در ایستگاه های مترو: رویکردی مبتنی بر تحلیل روانشناختی کامل. ترانسپ Lett.-Int. J. Transp. Res. 2016 ، 8 ، 113-120. [ Google Scholar ] [ CrossRef ]
  29. فاروقی، ح. مصباح، م. کیم، جی. تبلیغات رفتاری در شبکه حمل و نقل عمومی. Res. ترانسپ اتوبوس. مدیریت 2019 ، 32 ، 100421. [ Google Scholar ] [ CrossRef ]
  30. راوو، اس. گوا، ز. مونوز، جی سی. ویلسون، NHM مقایسه رفتاری انتخاب مسیر در شبکه‌های مترو: زمان، نقل و انتقالات، ازدحام، توپولوژی و جمعیت‌شناسی اجتماعی. ترانسپ Res. بخش الف- عمل سیاست. 2014 ، 66 ، 185-195. [ Google Scholar ] [ CrossRef ]
  31. زو، ی. هو، سی. خو، دی. Tang, J. تحقیق در مورد بهینه سازی برای مسافران ساده از هاب. Procedia-Soc. رفتار علمی 2014 ، 138 ، 776-782. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  32. لوتان، تی. اثرات آشنایی بر رفتار انتخاب مسیر در حضور اطلاعات. ترانسپ Res. قسمت C-Emerg. تکنولوژی 1997 ، 5 ، 225-243. [ Google Scholar ] [ CrossRef ]
  33. نقشه خیابان باز در دسترس آنلاین: https://www.openstreetmap.org/ (در 22 دسامبر 2021 قابل دسترسی است).
  34. برادسکی، جی. کتابخانه Opencv. Dobb’s J. Softw. ابزار 2000 ، 25 ، 120-123. [ Google Scholar ]
  35. فهد، ع. الشتری، ن. تاری، ز. علمری، ع. خلیل، من. Zomaya، AY; فوفو، اس. بوراس، الف. بررسی الگوریتم‌های خوشه‌بندی برای داده‌های بزرگ: طبقه‌بندی و تحلیل تجربی. IEEE Trans. ظهور. بالا. محاسبه کنید. 2014 ، 2 ، 267-279. [ Google Scholar ] [ CrossRef ]
  36. مرتق، ف. Contreras, P. Algorithms for Hierarchical Clustering: An Overview, II. وایلی اینتردیسیپ. Rev.-Data Min. بدانید. کشف کنید. 2017 ، 7 ، E1219. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  37. ساکسنا، ا. پراساد، م. گوپتا، ا. بهاریل، ن. پاتل، OP; تیواری، ع. ار، ام جی; دینگ، دبلیو. لین، سی.-تی. مروری بر تکنیک ها و تحولات خوشه بندی. محاسبات عصبی 2017 ، 267 ، 664-681 . [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  38. پدرگوسا، اف. واروکو، جی. گرامفورت، آ. میشل، وی. تیریون، بی. گریزل، او. بلوندل، م. پرتنهوفر، پی. ویس، آر. دوبورگ، وی. و همکاران Scikit-Learn: یادگیری ماشینی در پایتون. جی. ماخ. فرا گرفتن. Res. 2011 ، 12 ، 2825-2830. [ Google Scholar ]
  39. Rousseeuw, PJ Silhouettes: A Graphical Aid to The Interpretition and Validation of Cluster Analysis. جی. کامپیوتر. Appl. ریاضی. 1984 ، 20 ، 53-65. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
شکل 1. شبکه مترو در پکن. چند ضلعی های خاکستری مرزهای اداری همه ولسوالی ها را نشان می دهد. منطقه داخل کمربندی پنجم منطقه مرکزی شهری است و اکثر ایستگاه های مترو در داخل حلقه ششم قرار دارند.
شکل 2. توزیع تعداد بازدیدهای مسافران در چهار ایستگاه معمولی: ( الف ) نسبت مسافرانی که از تیانتونگیوان، گومائو (مرکز تجارت جهانی چین)، تیان آنمن غرب و ترمینال فرودگاه 2 در تعداد بازدید معین بازدید می کنند. محور V در مقیاس log نشان داده شده است. ( ب ) توزیع بازدیدهای مسافران، وزن‌دهی به تعداد بازدیدها، یک عکس فوری از توزیع تعداد بازدید مسافران را نشان می‌دهد.
شکل 3. توزیع تعداد بازدیدهای ورودی و خروجی توسط مسافران در چهار ایستگاه معمولی: ( الف ) توزیع بازدیدهای ورودی مسافران. ب ) توزیع بازدیدهای خروجی مسافران.
شکل 4. توزیع مشترک تعداد کل بازدیدها و تعداد بازدیدهای خاص ایستگاه. پانل در بالا و سمت راست به ترتیب توزیع احتمال حاشیه ای تعداد کل بازدید و تعداد بازدیدهای خاص ایستگاه را نشان می دهد.
شکل 5. توزیع مشترک تعداد کل بازدید و تعداد بازدیدهای خاص ایستگاه برای چهار ایستگاه معمولی: ( الف ) Tiantongyuan. ( ب ) گومائو؛ ( ج ) تیان آنمن غربی; ( د ) ترمینال فرودگاه 2.
شکل 6. توزیع تعداد بازدید مسافران در چهار ایستگاه: Yonghegong، Beitucheng، Lingjinghutong و Houshayu مربوط به Yonghegong.
شکل 7. شاخص Silhouette برای تعداد مختلف خوشه با استفاده از معیارهای پیوندی مختلف: شاخص Silhouette با استفاده از ( الف ) توزیع یک بعدی تعداد بازدید، ( ب ) توزیع مشترک دو بعدی تعداد بازدیدهای خاص ایستگاه و تعداد کل بازدید به دست می‌آید. با استفاده از هنجار L1، ( ج ) هنجار L2.
شکل 8. نسبت فاصله درون خوشه ای (SDSC/SD) برای تعداد مختلف خوشه با استفاده از معیارهای پیوندی مختلف: ( الف ) توزیع یک بعدی تعداد بازدید، ( ب ) توزیع مشترک دو بعدی ایستگاه خاص و کل تعداد بازدید با استفاده از هنجار L1، ( ج ) هنجار L2.
شکل 9. توزیع هر خوشه: ( الف ) خوشه بندی نتایج با استفاده از توزیع تک بعدی تعداد بازدید، از خوشه 1 تا 4، آشنایی افزایش می یابد. ( ب ) توزیع فضایی خوشه ها.
شکل 10. نسبت ناحیه عملکردی برای خوشه های مختلف توزیع بازدید.
شکل 11. توزیع آشنایی هر خوشه. از ( a – f )، آشنایی افزایش می یابد.
شکل 12. توزیع فضایی هر خوشه در شبکه مترو.

بدون دیدگاه

دیدگاهتان را بنویسید