خلاصه

استخراج الگوی جریان مبدا-مقصد (OD) یک روش تحقیقاتی مهم در پویایی شهری است که در آن تجزیه و تحلیل خوشه‌بندی جریان OD الگوهای فعالیت ساکنان شهری را کشف می‌کند و رابطه جفت شدن زیرفضای شهری و علل پویا را استخراج می‌کند. روش‌های خوشه‌بندی جریان موجود توسط محدودیت‌های فضایی نقاط OD محدود می‌شوند، بر شباهت مکانی نقاط جغرافیایی تکیه می‌کنند و فاقد تجزیه و تحلیل عمیق ویژگی‌های جریان با ابعاد بالا هستند، و بنابراین یافتن خوشه‌های جریان نامنظم دشوار است. در این مقاله، ما یک روش خوشه‌بندی جریان OD را بر اساس محدودیت‌های برداری (ODFCVC) پیشنهاد می‌کنیم، که نقطه رویداد جریان OD و بردار جریان OD را برای بیان رابطه مکان مکانی و ویژگی‌های رفتار جریان هندسی جریان OD تعریف می‌کند. اولین، سیستم مختصات بردار جریان OD توسط خوشه بندی مکانی نقطه رویداد جریان OD مبتنی بر فاصله اقلیدسی نرمال می شود و سپس خوشه های جریان OD با الگوهای جریان مشابه با استفاده از خوشه بندی ویژگی بردار جریان OD مبتنی بر تشابه کسینوس تنظیم شده استخراج می شوند. تبدیل داده‌های OD از فضای مجموعه نقطه‌ای به فضای برداری با محدود کردن سیستم مختصات برداری و شباهت برداری از طریق خوشه‌بندی دو مرحله‌ای تحقق می‌یابد، که محاسبه شباهت با ابعاد بالا جریان OD را ساده می‌کند و به استخراج خوشه‌های جریان OD در جریان کمک می‌کند. فضا. با توجه به ویژگی خوشه جریان OD، الگوریتم k-means به عنوان منطق خوشه بندی پایه در روش خوشه بندی دو مرحله ای انتخاب می شود. و مجموع خطای مربعی الگوریتم نقاط مهم ادراکی با در نظر گرفتن ضرایب silhouette (SSEPIP) برای استخراج خودکار تعداد خوشه بهینه بدون تعریف هیچ پارامتری اتخاذ می‌شود. آزمایش‌شده توسط داده‌های جریان مبدا-مقصد در پکن، چین، جوامع جدید جریان ترافیک مبتنی بر هاب‌های ترافیکی با استفاده از روش ODFCVC به‌دست می‌آیند و خوشه‌های جریان ترافیک نامنظم (شامل حالت خوشه‌ای، حالت واگرایی و حالت همگرایی) با روندهای سفر نماینده هستند. یافت.

کلید واژه ها:

خوشه بندی جریان مبدا-مقصد (OD) ; محدودیت های برداری ; نقطه رویداد جریان OD ; بردار جریان OD

1. معرفی

جریان مبدا-مقصد (OD) شناسایی معنایی و استخراج ویژگی داده های مسیر پیچیده است. این به وضوح اطلاعات جغرافیایی مبدا و نقاط مقصد مسیر واقعی، جهت جریان مسیر ضمنی و فاصله، و همچنین ویژگی‌های موضوعی خاص (مانند مهاجرت جمعیت، تدارکات و جریان بار، جریان ترافیک و غیره) را بیان می‌کند [ 1 ] . با این حال، با رایج شدن موقعیت یابی GPS و افزایش سنسورهای اینترنت اشیا، داده های عظیم مسیر موبایل نیز ظاهر شده است. نحوه یافتن الگوی جریان و بررسی تعامل انسان و زمین در داده های متراکم مسیر OD یک موضوع مهم در داده کاوی مسیر سیار است [ 2 ، 3 ].
برخی از محققان از روش های تجزیه و تحلیل بصری مانند دسته بندی لبه ها، خوشه بندی نقطه OD برای حل پدیده همپوشانی و نمایش آشفتگی لبه ها استفاده می کنند [ 1 ، 4 ، 5 ، 6 ]، بنابراین جریان بزرگتر خوشه های OD را برجسته می کنند. برخی از محققان همچنین از خوشه بندی فضایی برای تشخیص الگو توسط خوشه بندی نقطه O، خوشه بندی نقطه D، خوشه بندی نقطه OD، و خوشه بندی جریان OD (لبه) برای سناریوهای کاربردی مختلف استفاده می کنند [ 7 ، 8 ، 9 ، 10 ، 11 .]. از نظر ایده های پژوهشی و روش های خوشه بندی جریان OD، اکثر محققان داده های جریان OD را مجموعه ای از نقاط O و D می دانند. با توجه به ویژگی های فضایی نقاط OD، الگوریتم خوشه بندی نقطه ای برای تحقق خوشه بندی جریان OD از طریق تکرار مضاعف استفاده می شود [ 12 ، 13 ، 14 ، 15 ]. این الگوریتم های خوشه بندی جریان OD به راحتی توسط توزیع فضایی نقاط OD و تنظیم شعاع جستجو یا پارامترهای اتصال داخلی محدود می شوند. آنها توانایی کشف خوشه های جریان نامنظم را به طور فعال ندارند.
روش‌های خوشه‌بندی موجود جریان OD جغرافیایی بر ویژگی‌های واحدهای جغرافیایی و مناطق عملکردی تکیه می‌کنند و داده‌های کاربری ذاتی زمین مبدا و مقصد را با رفتار جریان جغرافیایی پویا پیوند بسیار نزدیکی می‌دهند. در روش خوشه‌بندی جریان مبتنی بر مدل، الگوهای جریان کشف‌شده کلاسیک‌تر هستند و از عوامل مکان سنتی و عوامل دینامیکی استنباط می‌شوند و ارزش ذاتی داده‌های مسیر OD را به‌طور کامل استخراج نمی‌کنند. نحوه استفاده کامل از «هر داده با ارزش و واقعی» با ایده روش‌های مبتنی بر داده، و نحوه استفاده از نمایش داده‌های جریان OD برای استخراج الگوی جریان جغرافیایی برای تأیید، به‌روزرسانی، تکمیل و اصلاح واحد جغرافیایی ، نوع کاربری زمین و تقسیم بندی عملکردی،
با مواجهه با مشکلات تاخیر زمانی و غیر دینامیک ناشی از وابستگی واحدهای جغرافیایی ذاتی در کاوی الگوی جریان جغرافیایی، این مقاله یک روش خوشه‌بندی جریان OD را بر اساس محدودیت‌های برداری پیشنهاد می‌کند. ما قصد داریم حالت تعامل پویا فضای جریان را از طریق ویژگی های داده جریان جغرافیایی استخراج کنیم و ابزار جدیدی برای استخراج الگوهای جریان پیچیده و نامنظم ارائه کنیم.
در این مطالعه، ویژگی‌های مکانی و هندسی (رفتار) جریان OD با تعریف نقطه رویداد جریان OD و بردار جریان OD بیان می‌شود، سپس مختصات بردار جریان OD با خوشه‌بندی فضایی نقطه رویداد عادی می‌شود. بر این اساس، خوشه‌های جریان OD با الگوهای جریان مشابه توسط خوشه‌بندی بردار جریان OD یافت می‌شوند. در نهایت، با در نظر گرفتن داده‌های OD تاکسی پکن به عنوان مثال، این مطالعه از روشی برای یافتن جوامع جریان ترافیک تاکسی و خوشه‌های شکل نامنظم با الگوی جریان یکسان استفاده می‌کند.

2. تحقیقات مرتبط

2.1. تجسم جریان OD

روش های تجسم داده های جریان OD عمدتاً شامل نقشه جریان [ 16 ، 17 ، 18 ، 19 ، 20 ، 21 ]، ماتریس OD و نقشه OD [ 22 ، 23 ، 24 ، 25 ] است. در میان آنها، نقشه جریان ویژگی های فضایی داده های OD را بهتر منعکس می کند. اما برخی مشکلات نیز در آن روش وجود دارد، مانند مشکل بهم ریختگی بصری، مشکل واحد منطقه قابل تغییر، مشکل عادی سازی، سوگیری برجسته و غیره [ 1 ، 8 ، 11 ]. به منظور حل این مشکلات، محققان تغییر مسیر یال را پیشنهاد کرده اند [26 ]، دسته بندی لبه [ 27 ، 28 ]، ماتریس های نقشه های متعدد [ 24 ، 29 ] و سایر ابزارها برای کاهش بهم ریختگی، اما منجر به از دست رفتن اطلاعات مکانی نقاط OD می شود و رابطه بین جریان های OD دشوار است. درک شود. مکان نقاط OD با استفاده از خوشه‌بندی فضایی و تقسیم‌بندی نمودار [ 17 ، 30 ] جمع‌آوری می‌شود، اما خوشه‌بندی دلخواه منجر به از دست دادن وضوح فضایی و بی‌معنای الگوهای خوشه‌بندی می‌شود. با استفاده از واحدهای جغرافیایی پیش‌فرض یا خوشه‌بندی چند مقیاسی [ 31]، تفاوت مقیاس و انحراف قابل توجه را می توان حل کرد. با این حال، جریان‌های OD بین مقیاس‌های مختلف را نمی‌توان از نظر کمی با یکدیگر مقایسه کرد، زمانی که مقیاس، دامنه، و دقت نمونه‌گیری مجموعه‌های داده به طور قابل‌توجهی متفاوت است، و الگوهای موجود در نمودارهای جریان معمولاً توسط جریان‌هایی با فواصل جغرافیایی طولانی‌تر کنترل می‌شوند. به منظور حل همه جانبه این مشکلات، برخی از محققان روش جدیدی را برای تعمیم نقشه جریان [ 1 ] پیشنهاد کرده اند که می تواند برای مقابله با مجموعه داده های جریان در مقیاس مختلف مورد استفاده قرار گیرد. ایده این روش حل مشکل تجسم جریان OD از طریق توزیع چگالی مجموعه نقطه نقاط OD است.

2.2. خوشه بندی جریان OD

خوشه بندی ابزار مهمی برای کشف الگو است. پس از توسعه طولانی مدت، انواع الگوریتم های خوشه بندی ایجاد و بهینه شده است، مانند خوشه بندی سلسله مراتبی، خوشه بندی مبتنی بر چگالی، خوشه بندی مبتنی بر مدل، خوشه بندی مبتنی بر پارتیشن، و خوشه بندی مبتنی بر شبکه [ 32 ] (ص 2- 19). الگوریتم‌های خوشه‌بندی جدید شامل خوشه‌بندی نیمه نظارت شده [ 32 ] (ص 136-155)، خوشه‌بندی طیفی، و خوشه‌بندی بر اساس عامل‌بندی ماتریس غیرمنفی [ 32 ] (صص 157-213)، و همچنین خوشه‌بندی داده‌های با ابعاد بالا است. [ 33 ]، خوشه‌بندی نمودار [ 34 ، 35 ]، خوشه‌بندی داده‌های نامشخص، و خوشه‌بندی داده‌های مرتبط با چند منبع برای مسائل پیچیده [ 36 ]، 37 ]. با این حال، مهم نیست که چگونه الگوریتم خوشه بندی تحت داده محور یا الگوریتم محور توسعه می یابد، شباهت مسئله اصلی الگوریتم خوشه بندی است. از طریق بررسی ادبیات، ایده‌های طراحی الگوریتم خوشه‌بندی جریان OD به دو دسته طبقه‌بندی می‌شوند، خوشه‌بندی جریان OD مبتنی بر نقطه و خوشه‌بندی جریان OD مبتنی بر خط.
خوشه بندی جریان OD مبتنی بر نقطه، شاخص شباهت را به عنوان اندازه گیری شباهت بر اساس نقاط OD تعریف می کند. معیارهای تشابه زیادی مانند فاصله اقلیدسی، فاصله منهتن، فاصله چبیشف و غیره وجود دارد. در فرآیند خوشه‌بندی جریان OD، معمولاً از طریق الگوریتم خوشه‌بندی نقطه تو در تو OD انجام می‌شود. برخی از محققان یک الگوریتم خوشه‌بندی خط ساده را برای یافتن نزدیک‌ترین رابطه فضایی با جستجوی خطوط مجاور سفر OD در یک شعاع معین پیشنهاد کرده‌اند [ 15 ]. با این حال، در الگوریتم خاص، شعاع جستجو بر اساس نقاط OD اتخاذ شده است که به شباهت نقاط به تکرار بستگی دارد. برخی از محققان یک روش آماری اسکن فضایی را بر اساس بهینه‌سازی کلنی مورچه‌ها برای تشخیص خوشه‌های OD با شکل دلخواه پیشنهاد کردند [ 38]. تعریف خوشه های OD به اتصال داخلی نقاط OD نیز بستگی دارد. بنابراین، در این مقاله، این نوع الگوریتم به عنوان خوشه بندی جریان OD بر اساس ایده نقطه در نظر گرفته شده است.
خوشه بندی جریان OD مبتنی بر خط یک الگوریتم خوشه بندی است که بر اساس شباهت خط (مسیر) است. در سنتز نقشه، خوشه بندی سری های زمانی و خوشه بندی مسیر، پارامترهای اندازه گیری زیادی برای تشابه خطوط اندازه گیری وجود دارد. برای مسیرهای پیچیده (خطوط چند بخش)، فاصله DTW، حداقل فاصله مستطیل برون سپاری، طولانی ترین فاصله متوالی مشترک، فاصله ویرایش، فاصله Frechet و غیره وجود دارد [ 39 ]. برای سنتز گروه خط، از نظر ماکروسکوپی به عنوان ویژگی های هندسی مشابه، روابط فضایی مشابه، و ویژگی های مشابه (معناشناسی) تعریف می شود [ 40]، به طور خاص، از جمله شباهت توپولوژیکی، میانگین جهت، واریانس دایره‌ای، طول متوسط، ضریب پیچ‌خوردگی، چگالی گروه خط و غیره. هنگام تحقیق در مورد شباهت نوع خط ساده (جریان OD اولیه) و زیرمسیر، شاخص تشابه محدودیت‌های هندسی [ 41 و 42 ] در نظر گرفته شده است. برای مثال، فاصله تشابه مسیر فرعی در الگوریتم خوشه‌بندی مسیر TR-OPTICS به صورت فاصله افقی، فاصله عمودی و فاصله زاویه اندازه‌گیری می‌شود [ 43 ].
جریان OD یک شکل خطی ساده در هندسه است که از نقاط O و D تشکیل شده است. بنابراین، هنگام مطالعه خوشه‌بندی جریان OD، می‌توانیم از نقاط OD برای تکرار خوشه‌بندی استفاده کنیم و از شباهت نقطه‌ای با ابعاد پایین برای محدود کردن شباهت جریان OD استفاده کنیم. اگرچه داده های با ابعاد بالا را می توان توسط الگوریتم های کاهش ابعاد خاص پردازش کرد، ویژگی های ذاتی آن ضعیف شده یا نادیده گرفته می شود [ 32 ] (ص 216-220). جهت جریان، فاصله جریان، و فضای جریان جریان OD، که محققان بیشتر نگران آن هستند، به طور شهودی منعکس نمی شوند. دشواری الگوریتم خوشه‌بندی جریان مبتنی بر خط، تعریف تابع شباهت مناسب برای خوشه‌بندی جریان OD با توجه به ویژگی‌های مکانی و ویژگی‌های جریان OD است.

3. روش خوشه بندی جریان OD بر اساس محدودیت های برداری

این بخش روش خوشه بندی جریان OD را بر اساس محدودیت های برداری معرفی می کند. این روش در سه جنبه زیر شرح داده شده است: تعریف مفاهیم مرتبط، پارامترهای مدل (تعداد خوشه‌بندی و تابع فاصله)، و جزئیات فرآیند خوشه‌بندی. اجزای روش در شکل 1 نشان داده شده است.

3.1. تعریف

3.1.1. نقطه رویداد جریان OD

پoد={ایکسپoد،Yپoد}، ایکسپoد=(ایکسO+ایکسD)/2، Yپoد=(YO+YD)/2

جایی که ایکسOو YOمختصات جغرافیایی نقطه مبدا (O-point)، و ایکسDو YDمختصات جغرافیایی نقطه مقصد (نقطه D) هستند. طبق رابطه (1) پoدنقطه میانی خط هندسی جریان OD است. با در نظر گرفتن داده‌های مسیر OD تاکسی به عنوان مثال، جریان OD داده‌های مسیر تاکسی است که حاوی اطلاعات معنایی موقعیت‌های سوار و پیاده شدن مسافران است. تولید یک جریان OD رفتار مسافرتی مسافر با تاکسی را نشان می دهد. برخی از محققان یک مدل فرآیند نقطه مکانی-زمانی پیشنهاد کرده اند که نقطه شروع و پایان تاکسی را به عنوان دو فرآیند نقطه متفاوت در نظر می گیرد [ 44 ، 45 ].]. اگر بر اساس اطلاعات معنایی گره های جریان OD قضاوت کنیم، جریان OD یک فرآیند نقطه ای با دو ویژگی متفاوت است. اگر از منبع جمع‌آوری داده‌ها، یعنی داده‌های GPS تاکسی با رویدادهای مسافرتی (ویژگی‌ها) قضاوت کنیم، جریان OD یک رویداد با معناشناسی مسافر در فرآیند عملیات تاکسی است که به عنوان یک فرآیند نقطه‌ای در نظر گرفته می‌شود. در این تحقیق می توان خط را به عنوان یک نقطه بر اساس تعمیم نقشه در مقیاس کوچک و متوسط ​​انتزاع کرد و بیشتر از منظر فرآیند نقطه ای مکانی و زمانی تفسیر کرد. جریان OD به عنوان یک رویداد از فعالیت جمعیت شهری در نظر گرفته می شود و به عنوان یک فرآیند نقطه ای انتزاع می شود. ویژگی های فضایی آن با نقطه میانی خط هندسی جریان OD نشان داده می شود. بنابراین تعریف می کنیم پoدبه عنوان نقطه رویداد جریان OD که دارای ویژگی فضایی جریان OD است. لازم به تاکید است که هدف اصلی استفاده از مختصات نقطه ای برای نشان دادن مکان فضایی جریان OD این است که جریان OD را به عنوان یک کل و به عنوان یک شی خط در نظر بگیریم و سپس از نقاط رویداد جریان OD برای نشان دادن ویژگی های مکان مکانی کلی استفاده کنیم. جریان OD.

3.1.2. بردار جریان OD
OD→=(Δایکس،ΔY)=(ایکسD-ایکسO،YD-YO)
معادله (2) نشان می دهد که OD→بردار هندسی جریان OD است. با در نظر گرفتن داده‌های مسیر OD تاکسی به عنوان مثال، O-point موقعیت GPS تاکسی در هنگام وقوع حادثه سوار شدن مسافر است و D-point موقعیت GPS تاکسی در هنگام وقوع حادثه سقوط مسافر است. جریان OD یک قطعه خط جهت دار است. به عنوان یک استخراج معنایی داده های مسیر پیچیده، جریان OD در فضای جغرافیایی معنایی ندارد، اما جریان مسافر را در فضای جغرافیایی در فضای معنایی نشان می دهد. اگرچه هیچ مسیر واقعی بر اساس شبکه جاده ای در جریان OD وجود ندارد، اما جهت روشنی از فعالیت جمعیت و فواصل مکانی و زمانی بین OD وجود دارد. در این مطالعه، جریان های OD به عنوان بردارهای هندسی در نظر گرفته می شوند. اندازه و جهت جریان های OD با مدول و جهت جریان های OD بیان می شود.
3.1.3. معناشناسی جریان OD
معناشناسی جریان OD را می توان به عنوان رویدادهای فعالیت های جمعیت شهری در نظر گرفت که معمولاً از معنایی نقاط OD [ 46 ] استنباط می شود.] (صص 130-158). به عنوان مثال، از منطقه مسکونی به اداری به عنوان رفت و آمد در نظر گرفته می شود، از محل مسکونی به محل تجاری به عنوان خرید در نظر گرفته می شود. بر این اساس، اطلاعات معنایی جریان های OD به شدت به دقت و دانه بندی داده های نقطه مورد علاقه (POI) بستگی دارد. در این مطالعه، اطلاعات معنایی نقاط OD بر اساس مناطق عملکردی شهری و قوانین سفر شهری از قبل استخراج و تجمیع نشده است. هیچ روند خوشه‌بندی برای داده‌های با ابعاد بالا در کل فضا وجود ندارد. فضای معنایی و فضای جغرافیایی لزوماً شباهت خوبی در خوشه‌بندی جریان‌های OD ندارند. بنابراین، در این مقاله به خوشه‌بندی مشابه ویژگی‌های معنایی خاص جریان‌های OD توجهی نمی‌شود. امید است که بتوان از خوشه بندی فضایی جریان های OD برای استخراج قوانین جریان و الگوهای بالقوه جریان های OD استفاده کرد.
3.1.4. مجموعه مشخصه جریان OD
سیOD={اسپآتیمنآل آرهلآتیمنonآل اسهتی|(OD افلow Evهnتی پoمنnتی اسپآتیمنآل آرهلآتیمنonس)،جیهoمترهتیrمنج افهآتیتوrه اسهتی|(Vهجتیor اسمنzه آرهلآتیمنon،Vهجتیor Dمنrهجتیمنon آرهلآتیمنon)}

بدون در نظر گرفتن شباهت معنایی، برخی از محققان پیشنهاد کرده اند که ویژگی های هدف گروه خط فضایی را می توان به عنوان مجموعه ای از روابط فضایی (روابط توپولوژیکی فضایی، روابط جهت فضایی و روابط فاصله فضایی) و مجموعه ای از ویژگی های هندسی (طول خط) خلاصه کرد. و طول متوسط، ضریب پیچ در پیچ و چگالی گروه خط) [ 40 ]. با توجه به خاص بودن ساختار خط OD، توجه به رابطه توپولوژیکی و ضریب پرپیچ و خم OD ضروری نیست [ 40 ، 43 ]]. جهت جریان OD با زاویه جهت محاسبه نمی شود بلکه با ویژگی بردار هندسی بیان می شود. توزیع فضایی و فاصله جریان OD با چگالی توزیع و فاصله نقاط رویداد جریان OD جایگزین می شود. بنابراین، ما ساختار داده جریان OD را به صورت زیر تعریف می کنیم:

سیOD={پoد،OD→}

3.2. پارامتر

3.2.1. انتخاب الگوریتم خوشه بندی پایه

در تحقیق تشخیص الگوی فضایی خوشه‌بندی جریان OD، سه روش اصلی برای شناسایی توزیع فضایی وجود دارد [ 38 ]]. در میان آنها، دو نوع اصلی از الگوریتم خوشه بندی کلاسیک بهبود یافته وجود دارد، الگوریتم خوشه بندی سلسله مراتبی برای جریان OD و الگوریتم خوشه بندی چگالی بر اساس نقاط مبدا و مقصد. مزیت الگوریتم خوشه‌بندی سلسله مراتبی این است که ساختار نتایج خوشه‌بندی درختی است و می‌توان آن را با خوشه‌بندی چند مقیاسی بیان کرد. مزیت الگوریتم خوشه‌بندی مبتنی بر چگالی این است که پتانسیل استخراج خوشه‌های فضایی از نقاط OD با اشکال دلخواه را با اتصال موجودیت‌های فضایی با چگالی بالا با فضاهای پیوسته به خوشه‌ها دارد. روش سوم بر گسترش روش آماری فضایی سنتی برای شناسایی ناهنجاری‌های خوشه‌بندی جریان OD با تعریف شباهت جریان OD جدید تمرکز دارد. محدودیت‌های الگوریتم‌های خوشه‌بندی سلسله مراتبی و خوشه‌بندی چگالی به شرح زیر است: اول، تعریف فاصله و اندازه مقدار نامشخص است و ثانیاً، محدودیت کشف خوشه‌هایی با شکل دلخواه به دلیل شکافتن نقاط OD در جریان‌های OD. محدودیت اصلاح بر اساس الگوریتم آماری فضایی در از دست دادن اطلاعات جریان OD ناشی از کاهش ابعاد تعریف شباهت جریان OD نهفته است.
این تحقیق از الگوریتم خوشه‌بندی K-means استفاده می‌کند که دلیل اصلی آن تعریف و انتخاب خوشه‌ها است [ 47 ، 48 ]. الگوریتم‌های خوشه‌بندی مختلف به دلیل منطق متفاوت، تعاریف و توانایی‌های استخراج متفاوتی برای خوشه‌ها دارند. نتیجه خوشه‌بندی مورد انتظار از این الگوریتم، جریان OD با رابطه فضایی نزدیک و شکل هندسی مشابه درون خوشه‌ها است، بنابراین برای روش خوشه‌بندی مبتنی بر پارتیشن که مبتنی بر تعریف خوشه مرکزی است، مناسب‌تر است.
3.2.2. اندازه و انتخاب K
انتخاب نقاط بذر مرحله مهمی در خوشه بندی K-means است. اندازه K تعداد خوشه ها را تعیین می کند. انتخاب K بر کارایی تکرار تأثیر می گذارد. در مطالعات قبلی، روش آرنج و ضریب silhouette شاخص‌های کلاسیک برای ارزیابی اثر خوشه‌بندی هستند [ 49 ، 50 ]. با پیمایش K، مجموع مربعات خطا (SSE) و ضرایب شبح تحت مقادیر مختلف K محاسبه می‌شود و گره‌های زانویی منحنی SSE و ضرایب شبح بزرگ‌تر مربوطه پیدا می‌شوند. در مطالعات قبلی اغلب از قضاوت چشم غیر مسلح استفاده می شد. در طراحی الگوریتم این مطالعه، نقاط مهم ادراکی (PIP) برای شناسایی خودکار نقاط آرنج SSE [ 51 ] اتخاذ شده است.] و برای بررسی از ضریب silhouette استفاده می شود.

با محاسبه SSE، از روش زانویی برای یافتن رابطه بین مقدار K و عدد خوشه‌بندی واقعی استفاده می‌شود.

اساسE=∑من=1ک∑پ∈سیمن|پ-مترمن|2

جایی که سیمنهست منخوشه ام، پنقطه نمونه در است سیمن، و مترمنمیانگین تمام نمونه ها در است سیمن. وقتی K کمتر از عدد خوشه‌بندی واقعی باشد، افزایش K منجر به کاهش قابل توجهی در آن می‌شود SSEو هنگامی که K به عدد خوشه بندی واقعی می رسد، بهره اثر خوشه بندی به سرعت با افزایش K کاهش می یابد. بنابراین، مقدار K مربوط به نقطه عطف زانویی منحنی SSE، تعداد واقعی خوشه بندی داده ها است.

ضریب سیلوئت یک روش ارزیابی خوشه‌بندی است که انسجام و جدایی را ترکیب می‌کند. برای هر بردار من، ضریب شبح آن است:

اس(من)=ب(من)-آ(من)مترآایکس{آ(من)،ب(من)}

جایی که آ(من)میانگین فاصله از بردار است منبه تمام نقاط دیگر در خوشه ای که به آن تعلق دارد، و ب(من)حداقل فاصله از بردار است منبه تمام نقاط خوشه که به آن تعلق ندارد. میانگین تمام ضرایب شبح، مجموع ضرایب شبح نتایج خوشه بندی است. هر چه ضریب silhouette به 1 نزدیکتر شود، انسجام و جدایی بهتر است. اما ضریب silhouette یک شاخص ارزیابی نسبی است. ضریب silhouette با تغییر K در نوسان است. این منحنی غیر محدب است. راه حل های بهینه محلی زیادی وجود دارد. معمولاً برای کمک به روش زانویی نیاز است و مقدار K مربوط به حداکثر محلی ضریب شبح به عنوان عدد خوشه‌بندی بهینه انتخاب می‌شود.

هنگام تعیین اندازه K، روش آرنج تحت تأثیر عوامل ذهنی قرار می گیرد و مقادیر حداکثر محلی متعددی با استفاده از ضریب silhouette وجود دارد. بنابراین، الگوریتم نقاط مهم ادراکی SSE با در نظر گرفتن ضرایب silhouette (SSEPIP) برای استخراج خودکار عدد خوشه‌بندی بهینه اتخاذ می‌شود. فرآیند SSEPIP به شرح زیر است.

منحنی SSE به عنوان دنباله P تعریف می شود، که در آن دو PIP اول اولین و آخرین نقطه P هستند و PIP بعدی نقطه P با حداکثر فاصله تا دو PIP اول است. فاصله به عنوان فاصله عمودی بین نقطه آزمایش P 3 و خط مستقیمی که دو PIP مجاور را به هم متصل می کند، تعریف می شود ( شکل 2 ):

VD(پ3،پج)=|yج-y3|=|(y1+(y2-y1)·ایکسج-ایکس1ایکس2-ایکس1)-y3|

جایی که ایکسج=ایکس3. الگوریتم PIP اغلب برای فشرده سازی داده ها استفاده می شود، بنابراین تعداد PIP با الزامات تجربی تغییر می کند. در این آزمایش، دنباله P (SSE) یک منحنی یکنواخت است و نقاط عطفی در اطراف PIP سوم وجود دارد و بنابراین فقط یک بار تشخیص PIP مورد نیاز است، همانطور که در شکل 3 نشان داده شده است.

الگوریتم PIP به طور کلی برای فشرده سازی داده های ایستا استفاده می شود و نمی تواند توالی با طول متغیر را به طور پایدار حل کند. با تغییر نقطه دم، PIP سوم اندکی در اطراف نقطه عطف نوسان می کند، بنابراین، حداکثر نقطه محلی ضریب شبح به عنوان شرط محدودیت برای کمک به انتخاب بهترین مقدار K استفاده می شود. به منظور بهتر نشان دادن فرآیند تشخیص، دنباله SSE و دنباله ضریب شبح استاندارد شده اند. شکل 4 نتایج گام به گام استفاده از ضریب silhouette را برای کمک به شناسایی نقاط عطف SSE نشان می دهد. خط سیاه نشان دهنده دنباله SSE و خط آبی نشان دهنده دنباله ضریب شبح است.
در فرآیند پیمایش مقدار K، هر موقعیت جدید باید انتخاب شود. به منظور بهینه‌سازی کارایی الگوریتم خوشه‌بندی در هر چرخه، میانگین ضرایب شبح هر خوشه فضایی را ارزیابی کرده و نقاط بذر جدیدی در محدوده خوشه فضایی با کوچک‌ترین ضرایب شبح برای دور بعدی محاسبه ایجاد می‌کنیم. فرآیند خاص در شکل 5 نشان داده شده است .
3.2.3. تعریف فاصله

در تحقیق روش های آمار فضایی جریان OD، برخی از محققان فاصله جریان OD را با جمع وزنی فاصله نقطه O و فاصله نقطه D به دست آوردند [ 52 ]. برخی از محققان فاصله جریان OD را با جمع وزنی مختصات برداری و متغیرهای ویژگی جریان OD به دست آوردند [ 53]. در این مطالعه، جریان OD را به عنوان یک شی کل در نظر می گیریم و سعی می کنیم تابع فاصله مربوطه را از طریق ویژگی های مکانی و هندسی جریان OD بسازیم. با این حال، در تجزیه و تحلیل داده های با ابعاد بالا، داده ها از ابعاد مختلف را نمی توان به طور مستقیم مقایسه و محاسبه کرد. هنگام ساخت تابع فاصله، تخصیص وزن دارای ذهنیت قوی است. در این مطالعه، خوشه‌بندی دو مرحله‌ای بر اساس شباهت ابعاد فضایی و تشابه ویژگی هندسی انجام شده است، در حالی که فاصله اقلیدسی و شباهت کسینوس تعدیل‌شده به‌عنوان تابع فاصله فضایی و تابع فاصله ویژگی هندسی استفاده می‌شود.

Dسپآتیمنآل(من،j)=DEUسی(پمن،پj)=(ایکسپمن-ایکسپj)2+(Yپمن-Yپj)2

فاصله مشخصه فضایی جریان OD به عنوان فاصله اقلیدسی جغرافیایی نقاط رویداد جریان OD تعریف می شود.

Dvهجتیor(من،j)=1-اسمنمترآدjسیoس(ODمن،ODj)=1-(Δایکسمن-آرایکس)·(Δایکسj-آرایکس)+(ΔYمن-آرy)·(ΔYj-آرy)(Δایکسمن-آرایکس)2+(ΔYمن-آرy)2·(Δایکسj-آرایکس)2+(ΔYj-آرy)2
فاصله مشخصه هندسی جریان OD به عنوان عدم تشابه کسینوس تنظیم شده تعریف می شود. R میانگین درون خوشه ای در یک بعد معین است. تشابه کسینوس تعدیل شده ابعاد مختلف را با توجه به تفاوت زوایای بردار نرمال می کند، به طور غیرمستقیم عوامل تأثیر مدول بردار را در نظر می گیرد و به صورت مصنوعی شباهت اندازه و جهت بردار را اندازه می گیرد [ 54 ]. از آنجایی که دامنه شباهت [-1،1] است، تابع فاصله، عدم تشابه محاسبه شده توسط تفاوت است.

3.3. فرآیند خوشه بندی

در مقایسه با خوشه‌بندی سنتی، دشواری خوشه‌بندی خطوط و حتی خوشه‌بندی با ابعاد بالا نحوه برخورد با اطلاعات با ابعاد بالا است. از نقطه نظر دیفرانسیل، یک خط مستقیم از نقاط بی شماری ساخته می شود، بنابراین مدل نقطه فرآیند برای توصیف داده های فضای جریان مناسب است. وکتور بهترین ویژگی های توصیفی شکل خط است. اندازه و جهت بردارها طول و زاویه خط را توصیف می کند، بنابراین فاصله و جهت جریان را بیان می کند. اما ویژگی های برداری نمی توانند اطلاعات ابعاد فضایی را توصیف کنند. بنابراین از نقاط رویداد برای بیان اطلاعات مکانی جریان استفاده می کنیم. هر جسم با ابعاد بالا را می توان به یک جسم نقطه ای در فضای دو بعدی نگاشت. در این مطالعه، ویژگی های فضایی نقاط رویداد جریان OD برای منعکس کردن ویژگی های فضایی جریان استفاده می شود. به این ترتیب هر جسم جریانی را از طریق نقاط رویداد و بردارهای جریان بیان می کنیم و از بعد مکانی و بعد هندسی در دو مرحله خوشه می کنیم.
منطق خوشه بندی در شکل 6 نشان داده شده است .
شکل 6فرآیند تبدیل داده‌های جریان OD از فضای نقطه‌ای به فضای جریان و سپس به فضای برداری در منطق الگوریتم خوشه‌بندی را نشان می‌دهد. نقطه‌های سفید نشان‌دهنده داده‌های اصلی GPS تاکسی، نقاط آبی نشان‌دهنده موقعیت سوار شدن مسافر، نقطه‌های زرد نشان‌دهنده موقعیت خروج مسافر و نقاط قرمز نشان‌دهنده نقطه رویداد جریان OD هستند. الگوریتم پیشنهادی را می توان به دو مرحله زیر تقسیم کرد: مرحله اول محدود کردن سیستم مختصات برداری با خوشه بندی فضایی نقاط رویداد جریان OD است و مرحله دوم محدود کردن ویژگی های بردار جریان OD با خوشه بندی شباهت بردارهای هندسی است. . داده های OD اصلی در فضای نقطه مسیر GPS گسسته وجود دارد. در مطالعات قبلی، داده های مجموعه نقطه OD زوجی با استخراج معنایی به دست آمد. در این صفحه، ما مجموعه داده جریان OD را با محاسبه نقاط رویداد جریان OD و بردار جریان OD جفت نقطه OD می سازیم و فضای مجموعه نقطه OD را به فضای جریان OD تبدیل می کنیم. در فضای جریان OD، بیان داده‌های جریان OD را به عنوان دو بعد توصیف می‌کنیم، یعنی بعد فضایی و بعد ویژگی هندسی، و تعریف می‌کنیم که عناصر در خوشه جریان OD باید هم شباهت بعد فضایی و هم شباهت بعد ویژگی هندسی را برآورده کنند. به این ترتیب فرآیند خوشه بندی جریان OD با روش خوشه بندی دو مرحله ای محقق می شود. اولین مورد فرآیند “تقسیم فضا” است. در تجزیه و تحلیل مقیاس کوچک یا چند مقیاسی، ویژگی‌های موقعیت مکانی جریان OD توسط نقاط رویداد جریان OD بیان می‌شود. بنابراین، جریان OD با استفاده از خوشه‌بندی نقطه رویداد جریان OD به چند خوشه فضایی در فضای جریان تقسیم می‌شود. اندازه و جهت جریان OD در هر خوشه فضایی متفاوت است، در حالی که رابطه مکان فضایی بین جریان های OD نسبتا نزدیک است. سپس، این فرآیند “خوشه بندی برداری” است. در این فرآیند، تنها با در نظر گرفتن ویژگی‌های هندسی جریان‌های OD در هر خوشه فضایی، شباهت کسینوس تعدیل‌شده توسط بردارهای جریان OD محاسبه و خوشه‌بندی می‌شود. فرض ضمنی این است که جریان‌های OD در هر خوشه فضایی قبل از خوشه‌بندی ویژگی‌های هندسی ترجمه می‌شوند، و تفاوت‌های مکان فضایی خوشه‌های OD در همان خوشه فضایی را نادیده می‌گیرند، و سپس سیستم مختصات بردار جریان OD یکپارچه می‌شود. بنابراین، پس از “پارتیشن بندی فضا”، هر خوشه فضایی در فضای جریان OD به یک فضای برداری مستقل تبدیل می شود و همه فرآیندهای خوشه بندی برداری به صورت موازی اجرا می شوند. در حالی که رابطه مکان فضایی بین جریان های OD نسبتا نزدیک است. سپس، این فرآیند “خوشه بندی برداری” است. در این فرآیند، تنها با در نظر گرفتن ویژگی‌های هندسی جریان‌های OD در هر خوشه فضایی، شباهت کسینوس تعدیل‌شده توسط بردارهای جریان OD محاسبه و خوشه‌بندی می‌شود. فرض ضمنی این است که جریان‌های OD در هر خوشه فضایی قبل از خوشه‌بندی ویژگی‌های هندسی ترجمه می‌شوند، و تفاوت‌های مکان فضایی خوشه‌های OD در همان خوشه فضایی را نادیده می‌گیرند، و سپس سیستم مختصات بردار جریان OD یکپارچه می‌شود. بنابراین، پس از “پارتیشن بندی فضا”، هر خوشه فضایی در فضای جریان OD به یک فضای برداری مستقل تبدیل می شود و همه فرآیندهای خوشه بندی برداری به صورت موازی اجرا می شوند. در حالی که رابطه مکان فضایی بین جریان های OD نسبتا نزدیک است. سپس، این فرآیند “خوشه بندی برداری” است. در این فرآیند، تنها با در نظر گرفتن ویژگی‌های هندسی جریان‌های OD در هر خوشه فضایی، شباهت کسینوس تعدیل‌شده توسط بردارهای جریان OD محاسبه و خوشه‌بندی می‌شود. فرض ضمنی این است که جریان‌های OD در هر خوشه فضایی قبل از خوشه‌بندی ویژگی‌های هندسی ترجمه می‌شوند، و تفاوت‌های مکان فضایی خوشه‌های OD در همان خوشه فضایی را نادیده می‌گیرند، و سپس سیستم مختصات بردار جریان OD یکپارچه می‌شود. بنابراین، پس از “پارتیشن بندی فضا”، هر خوشه فضایی در فضای جریان OD به یک فضای برداری مستقل تبدیل می شود و همه فرآیندهای خوشه بندی برداری به صورت موازی اجرا می شوند. تنها با در نظر گرفتن ویژگی‌های هندسی جریان‌های OD در هر خوشه فضایی، شباهت کسینوس تنظیم‌شده توسط بردارهای جریان OD محاسبه و خوشه‌بندی می‌شود. فرض ضمنی این است که جریان‌های OD در هر خوشه فضایی قبل از خوشه‌بندی ویژگی‌های هندسی ترجمه می‌شوند، و تفاوت‌های مکان فضایی خوشه‌های OD در همان خوشه فضایی را نادیده می‌گیرند، و سپس سیستم مختصات بردار جریان OD یکپارچه می‌شود. بنابراین، پس از “پارتیشن بندی فضا”، هر خوشه فضایی در فضای جریان OD به یک فضای برداری مستقل تبدیل می شود و همه فرآیندهای خوشه بندی برداری به صورت موازی اجرا می شوند. تنها با در نظر گرفتن ویژگی‌های هندسی جریان‌های OD در هر خوشه فضایی، شباهت کسینوس تنظیم‌شده توسط بردارهای جریان OD محاسبه و خوشه‌بندی می‌شود. فرض ضمنی این است که جریان‌های OD در هر خوشه فضایی قبل از خوشه‌بندی ویژگی‌های هندسی ترجمه می‌شوند، و تفاوت‌های مکان فضایی خوشه‌های OD در همان خوشه فضایی را نادیده می‌گیرند، و سپس سیستم مختصات بردار جریان OD یکپارچه می‌شود. بنابراین، پس از “پارتیشن بندی فضا”، هر خوشه فضایی در فضای جریان OD به یک فضای برداری مستقل تبدیل می شود و همه فرآیندهای خوشه بندی برداری به صورت موازی اجرا می شوند. فرض ضمنی این است که جریان‌های OD در هر خوشه فضایی قبل از خوشه‌بندی ویژگی‌های هندسی ترجمه می‌شوند، و تفاوت‌های مکان فضایی خوشه‌های OD در همان خوشه فضایی را نادیده می‌گیرند، و سپس سیستم مختصات بردار جریان OD یکپارچه می‌شود. بنابراین، پس از “پارتیشن بندی فضا”، هر خوشه فضایی در فضای جریان OD به یک فضای برداری مستقل تبدیل می شود و همه فرآیندهای خوشه بندی برداری به صورت موازی اجرا می شوند. فرض ضمنی این است که جریان‌های OD در هر خوشه فضایی قبل از خوشه‌بندی ویژگی‌های هندسی ترجمه می‌شوند، و تفاوت‌های مکان فضایی خوشه‌های OD در همان خوشه فضایی را نادیده می‌گیرند، و سپس سیستم مختصات بردار جریان OD یکپارچه می‌شود. بنابراین، پس از “پارتیشن بندی فضا”، هر خوشه فضایی در فضای جریان OD به یک فضای برداری مستقل تبدیل می شود و همه فرآیندهای خوشه بندی برداری به صورت موازی اجرا می شوند.
در این مطالعه، فاصله فضایی و فاصله مورفولوژیکی در یک تابع فاصله جریان مرکب ادغام نشده‌اند. دلیل آن این است که آمیختگی فاصله مکانی و فاصله مورفولوژیکی بسیار پیچیده است و این دو ویژگی به یکدیگر وابسته هستند و بر یکدیگر تأثیر می گذارند. برخی از مطالعات سعی کردند از تابع فاصله وزنی برای بیان فاصله جریان استفاده کنند، اما مشکل بیان چند مقیاسی و عادی سازی جهانی را نمی توان به خوبی حل کرد [ 52 ، 53]. از دیدگاه جهانی، تفاوت‌های مقیاس ناشی از طول‌ها، زاویه‌ها و مکان‌های مکانی متفاوت را نمی‌توان به خوبی حل کرد. از نقطه نظر محلی، توزیع چگالی ابعاد مختلف تاثیر بسزایی بر نتایج خوشه بندی دارد، بنابراین راه حل بهینه جهانی را نمی توان به دست آورد. بنابراین، این مطالعه سعی می‌کند توزیع جهانی را از طریق تقسیم‌بندی ابعادی، ابتدا از طریق خوشه‌بندی فضایی، حل کند تا مجموعه‌ای خوشه‌ای با روابط فضایی نزدیک در درون خوشه به‌دست آید و فرض کنیم که هر خوشه فضایی در یک سیستم مختصات فضای برداری جداگانه و یکپارچه وجود دارد. سپس، خوشه‌بندی با فاصله ویژگی هندسی در خوشه فضایی انجام می‌شود تا مشکل تراکم ویژگی محلی ناهموار حل شود. و خوشه های برداری نماینده به ترتیب در خوشه های فضایی مختلف به دست می آیند. مراحل مشخص به شرح زیر است:
مرحله 1 در حال حاضر، بیشتر فرم های ذخیره سازی داده جریان OD مختصات نقطه O (X O , Y O )، مختصات نقطه D (X D , Y D ) و ویژگی های موضوعی هستند. بنابراین، استخراج نقاط رویداد جریان OD و محاسبه بردارهای جریان برای به دست آوردن مجموعه ویژگی های جریان OD ضروری است.
مرحله 2 K-به معنای خوشه بندی بر اساس فاصله مکانی نقاط رویداد است. مقدار KS از 2 به تعداد بهینه خوشه های فضایی حل شده توسط SSEPIP افزایش می یابد .
مرحله 3 برای هر خوشه فضایی (تعداد N)، خوشه بندی K-means بر اساس فاصله ویژگی هندسی بردارهای جریان OD انجام می شود. مقدار K VN از 2 به تعداد بهینه خوشه های برداری که توسط SSEPIP حل شده اند افزایش می یابد.
مرحله 4 با محاسبه میانگین نقاط رویداد جریان OD و بردارهای جریان OD در خوشه ها، می توانیم جریان های نماینده خوشه ها را به دست آوریم و آنها را تجسم کنیم ( جهت جریان های OD را با نقاط متحرک بیان کنیم).
روش محدودیت های بردار خوشه بندی جریان مبدا-مقصد (ODFCVC) برای محیط محاسباتی توزیع شده مناسب است، به ویژه برای مرحله سوم الگوریتم، هر خوشه فضایی عملیات خوشه بندی ویژگی هندسی را به طور مستقل انجام می دهد.
نمودار جریان روش خوشه بندی در شکل 7 نشان داده شده است .
سیاسنN-امین خوشه فضایی بر اساس نقاط رویداد جریان OD است، ن=1،2،……،کاس. کاسراه حل بهینه ارزش K خوشه فضایی جهانی است.سیاسنVمخوشه برداری M ام موجود در خوشه فضایی N است، م=1،2،……،کVن. کVنراه حل بهینه مقدار K خوشه برداری بر اساس شباهت کسینوس تنظیم شده در خوشه فضایی N-ام است.

با فرض اینکه ماتریس فاصله یک ماتریس متقارن است. آ 2∗n∗nماتریسی با قطر 0 با خوشه بندی نقاط O و D برای n جریان OD در روش های خوشه بندی جریان قبلی ساخته می شود. با این حال، در روش ODFCVC، اندازه ماتریس فاصله:

سی=n2+∑من=1کسnمن2 (∑من=1کسnمن=n)
هنگام ساخت فاصله جریان مرکب، ماتریس ویژگی بعد کامل، افزونگی غیر ضروری ایجاد می کند، زیرا زمانی که اختلاف بین یک بعد خیلی زیاد باشد، نیازی به در نظر گرفتن شباهت ابعاد دیگر نیست. بنابراین، از طریق خوشه‌بندی تدریجی ابعاد مختلف، ابتدا بر روی بعد ویژگی فضایی، گروه‌بندی جریان‌های OD بر اساس خوشه‌های فضایی و یکسان سازی سیستم‌های مختصات برداری، خوشه‌بندی می‌کنیم. سپس، ما بر روی بعد ویژگی هندسی خوشه‌بندی می‌کنیم و ویژگی‌های بردار نماینده را از طریق تشابه کسینوس تنظیم‌شده در هر خوشه فضایی استخراج می‌کنیم. این روش همچنین خطای عادی سازی و از دست دادن ویژگی محلی ناشی از انجماد ویژگی های برداری را در چهار یا هشت جهت در مطالعات قبلی بهبود می بخشد [ 55 , 56 ]].

4. آزمایش ها و تجزیه و تحلیل

بخش 4 نمونه ای از استخراج الگوی جریان ترافیک با استفاده از روش ODFCVC را معرفی می کند. این بخش شامل سه آزمایش است. اولین آزمایش، تجزیه و تحلیل داده های OD تاکسی ها در پکن با استفاده از روش ODFCVC است. آزمایش دوم و سوم برای تجزیه و تحلیل خوشه فضایی و خوشه برداری تولید شده توسط خوشه بندی است.

4.1. خوشه بندی جریان OD تاکسی بر اساس ODFCVC

جریان OD تاکسی نوعی مسیر با اطلاعات موقعیت مکانی مسافران تاکسی است که سوار و پیاده می شوند با استخراج معنایی از داده های مسیر تاکسی تولید شده توسط موقعیت یابی GPS. در مقایسه با مسیر واقعی پیچیده، جریان OD به طور کامل به داده های شبکه جاده واقعی بستگی ندارد و می تواند به طور مستقیم ویژگی های سفر ساکنان شهری را منعکس کند. این یک منبع داده مهم برای استخراج فعالیت های مکانی و زمانی جمعیت شهری است [ 46] (ص 60-61). داده هایی که ما در آزمایش استفاده کردیم، برخی از داده های مسیر GPS تاکسی (بیش از 12150 قطعه) از ساعت 6 صبح تا 9 صبح در 11 ژانویه 2008 در پکن است. فرمت داده ساختار داده خط سیر GPS تاکسی خام است، از جمله شماره رمزگذاری تاکسی، زمان بازخورد GPS، طول و عرض جغرافیایی بلادرنگ، وضعیت سواری، رویدادهای سواری، سرعت، زاویه جهت، و سایر زمینه ها [ 46 ] (ص 76). -79). به منظور تسهیل تجسم نتایج خوشه‌بندی، از فناوری توسعه وب جلویی JavaScript + HTML + CSS برای انجام تمام آزمایش‌ها و استفاده از زبان جاوا اسکریپت برای نوشتن روش‌های خوشه‌بندی و تجسم استفاده می‌کنیم. تجسم جریان OD تاکسی بدون تجزیه و تحلیل خوشه بندی در شکل 8 نشان داده شده است .
از طریق تعیین و آزمایش خودکار مقدار K بهینه، مقدار K خوشه فضایی بر اساس نقاط رویداد جریان OD 4 است و مقدار K خوشه برداری موجود در هر خوشه فضایی 4، 4، 5 و 4 است. ، به ترتیب.
به منظور تأیید اهمیت تعداد k نتایج خوشه‌بندی حل شده توسط SSEPIP، از ثبات خوشه‌بندی به عنوان معیار ارزیابی استفاده می‌کنیم [ 57 ]. روش ترسیم یک نمونه فرعی تصادفی از مجموعه داده های اصلی بدون جایگزینی برای تولید نسخه های آشفته (p1، p2، ​​p3) از مجموعه داده استفاده می شود و نرخ نمونه برداری 0.8 است. تابع فاصله از حداقل فاصله تطبیق استفاده می کند. نتایج تجربی پایداری خوشه‌بندی در فرآیند «تقسیم فضا» و «خوشه‌بندی برداری» در جدول 1 نشان داده شده است. شاخص پایداری اثربخشی SSEPIP برای حل خودکار تعداد خوشه‌بندی بهینه را نشان می‌دهد.
خوشه فضایی جریان OD تولید شده در فرآیند خوشه بندی در شکل 9 نشان داده شده است و نتیجه خوشه بندی نهایی در شکل 10 نشان داده شده است . به منظور مشاهده روند کلی جریان 17 خوشه، میانگین نقطه رویداد جریان OD و میانگین بردار جریان OD انواع خوشه ها را به عنوان شاخص های توصیفی تجسم نماینده محاسبه می کنیم. نتایج تجسم در نمای تودرتو در شکل 10 نشان داده شده است.

4.2. تجزیه و تحلیل خوشه فضایی خوشه بندی جریان OD تاکسی

شکل 9 نتیجه تجسم خوشه بندی فضایی نقطه رویداد جریان OD بر اساس استخراج شاخص پارتیشن فضایی پس از روش ODFCVC است. با مقایسه با شکل 10، می بینیم که محصول خوشه ای مرحله اول خوشه بندی “پارتیشن فضایی” محدودیت سیستم مختصات بردار جریان OD است و خوشه جریان OD آشکارا به چهار خوشه فضایی تقسیم می شود که هر کدام خوشه های برداری متفاوتی را محدود می کنند. این مدل جریان ترکیبی عمدتاً تحت تأثیر محاسبه نقاط رویداد جریان OD است. جریان OD یک مسیر واقعی نیست و هیچ نقطه میانی از مسیر وجود ندارد. با تعریف نقطه رویداد جریان OD، نقطه میانی جریان OD به عنوان انتزاع فضایی جریان OD در نظر گرفته می شود. بنابراین، نقطه میانی جریان OD اهمیت فیزیکی خاصی در تجزیه و تحلیل خوشه‌بندی و تشخیص الگو دارد.
هدف اصلی خوشه‌بندی فضایی بر اساس نقاط رویداد جریان OD، از یک سو، برآوردن شرایط شباهت در خوشه‌های جریان OD در بعد فضایی، و از سوی دیگر، ساده‌سازی مقدار داده‌ها هنگام محاسبه شباهت هندسی و افزایش است. بیان تفاوت ویژگی های محلی با این حال، اینکه آیا خوشه فضایی جریان OD اهمیت فیزیکی دارد یا خیر ارزش بررسی عمیق ما را دارد. بنابراین، ما از الگوریتم کشف جامعه در تحلیل شبکه برای تحقق جوامع جریان OD بر اساس واحدهای جغرافیایی مختلف استفاده می‌کنیم و سعی می‌کنیم اهمیت فیزیکی خوشه فضایی جریان OD تاکسی را از طریق تحلیل مقایسه‌ای درک کنیم.
ما جوامعی را در نمودار می‌یابیم که توسط جریان OD با استفاده از حداکثرسازی مدولاریته حریصانه Clauset-Newman-Moore (CNM) ساخته شده‌اند [ 58 ، 59 ]. فرآیند مربوطه در شکل 11 نشان داده شده است . تابع تجزیه و تحلیل شبکه توسط بسته نرم افزاری NetworkX و تجسم جامعه توسط ArcMap تحقق می یابد. شبکه جریان OD تاکسی با در نظر گرفتن منطقه ترافیکی پکن و واحد خیابان پکن به عنوان گره ساخته شده است [ 60]. از طریق تحلیل همپوشانی واحدهای جغرافیایی مختلف و جریان OD، نمودار تعاملی OD سفر تاکسی بر اساس واحدهای جغرافیایی به دست می‌آید. سپس، ما از کلاسیک‌ترین الگوریتم کشف جامعه مبتنی بر ماژول CNM برای دریافت جامعه جریان OD بدون محدودیت فضای جغرافیایی و نمایش بصری روی نقشه استفاده می‌کنیم. شکل 12 توزیع جامعه شبکه جریان OD تاکسی را به ترتیب با منطقه ترافیک و بلوک (واحد خیابان) به عنوان گره نشان می دهد. ما شش انجمن اصلی را حاشیه نویسی می کنیم (تعداد گره ها در جامعه بیش از 10٪ از کل گره ها است)، که با ①–⑥ نشان داده می شود.
با مقایسه شکل 9 و شکل 12 ، ما رابطه و تفاوت بین خوشه فضایی جریان OD استخراج شده با روش ODFCVC و جامعه شبکه جریان OD به دست آمده توسط الگوریتم جامعه شبکه کلاسیک را تجزیه و تحلیل می کنیم. اول از همه، با مقایسه جوامع شبکه استخراج شده توسط الگوریتم CNM بر روی دانه بندی های مختلف واحدهای جغرافیایی، شباهت ها و تفاوت هایی بین آنها وجود دارد.
از نظر شباهت ها، سه اجتماع اصلی جریان ترافیک وجود دارد که منطقه مرکزی پکن را پوشش می دهد. این جوامع در شمال، جنوب غربی و جنوب شرقی ناحیه مرکزی شهری پکن واقع شده اند. هر جامعه دارای درجه مشخصی از اتصال مکانی جغرافیایی است. از نظر تفاوت، به دلیل تقسیم بندی دقیق تر مناطق ترافیکی، جامعه تشکیل شده نیز پراکنده تر است و شکاف های جغرافیایی در داخل جامعه وجود دارد. تضادهای مرزی جامعه در غرب، شمال شرق و جنوب منطقه مرکزی پکن وجود دارد.
سپس با شکل 9 و شکل 12 مقایسه شد، می توان دریافت که نتایج پارتیشن فضایی بر اساس خوشه بندی مرحله اول روش ODFCVC شباهت زیادی با کاوی جامعه شبکه دارد و پدیده های جالبی یافت می شود. تعداد خوشه‌های فضایی به‌دست‌آمده از خوشه‌بندی 4 است. از آنجایی که نتایج خوشه‌بندی بر اساس الگوریتم K-means است، خوشه‌های فضایی ویژگی‌های جهانی دارند و ناهنجاری‌های محلی را نادیده می‌گیرند، بنابراین، خوشه‌های فضایی با خوشه‌بندی فاصله اقلیدسی نقاط رویداد جریان OD به‌دست می‌آیند. تداوم درونی دارند. خوشه فضایی (a) مربوط به شمال جامعه شبکه ②، خوشه فضایی (ب) مربوط به شرق جامعه شبکه ⑤ و جنوب جامعه ② و ③، خوشه فضایی (c) مربوط به تقاطع جامعه شبکه ⑥ و جامعه ③ و جامعه ④، و خوشه فضایی (d) مربوط به جامعه شبکه ① است. مشاهده می‌شود که خوشه فضایی جریان OD به‌دست‌آمده از خوشه‌بندی اهمیت عملی خاصی دارد. در جنوب پکن، جایی که جامعه شبکه بحث برانگیز است، خوشه فضایی جدید (b) به دست آمده با روش ODFCVC برای توضیح و متحد کردن جامعه شبکه به دست آمده توسط واحدهای جغرافیایی مختلف مفید است.
استفاده از نقطه میانی جریان OD به عنوان نقطه رویداد برای یافتن حالت خوشه‌بندی جریان آسان‌تر است. اهمیت فیزیکی خوشه جریان OD تاکسی به دلیل جذابیت مناطق عملکردی شهری و تعامل اجتماعی محورهای حمل و نقل است که منجر به ایجاد خوشه جریان ترافیک با تقسیم فضایی آشکار می شود. از آنجا که شکل‌گیری جامعه جریان ترافیک به مرکز ترافیک شهری وابسته است، ما نتیجه خوشه‌ای را با توزیع فضایی مرکز ترافیک پکن مقایسه می‌کنیم [ 61 ]] و دریافت که این دو همبستگی فضایی آشکاری دارند (مرکز حمل و نقل (الف) شامل ایستگاه راه آهن غرب پکن و مرکز حمل و نقل مسافر لیولیچیائو است. مرکز حمل و نقل (ب) شامل ایستگاه راه آهن جنوبی پکن، مرکز حمل و نقل Songjiazhuang و فرودگاه نانیوان است. مرکز حمل و نقل (ج) ) شامل ایستگاه راه آهن پکن، مرکز حمل و نقل عمومی سیهوی، و فرودگاه بین المللی پایتخت پکن است. مرکز حمل و نقل (د) شامل مرکز حمل و نقل Xiyuan است. از طریق رفتار خودانگیخته فعالیت‌های سفر مردم شهری، مراکز ترافیک شهری را می‌توان بدون تأثیر مناطق عملکردی نقاط مبدا-مقصد شناسایی کرد. همچنین می توان دریافت که هاب حمل و نقل نه تنها به عنوان مرکز توزیع جریان مسافر عمل می کند، بلکه تعامل ترافیک اطراف خود را نیز جذب می کند. از این رو،

4.3. تجزیه و تحلیل خوشه ای بردار خوشه بندی جریان OD تاکسی

بر اساس تشخیص خوشه فضایی نقطه رویداد جریان OD، این روش خوشه‌بندی می‌تواند خوشه‌های ویژگی هندسی نماینده با شکل دلخواه را پیدا کند. در مطالعات قبلی، شباهت نقاط OD اغلب با تعریف فضای جستجوی منظم، یا پارتیشن واحد جغرافیایی اضافی، یا فضای چگالی پیوسته یکنواخت، محدود می‌شود تا خوشه‌های قانون با هندسه مشابه، یا خوشه‌های نامنظم با ویژگی‌های معنایی مشابه یا چگالی یکنواخت به دست آیند. از نقاط OD ساختار مورفولوژیکی این خوشه ها به تعاریف پارامترهای الگوریتم های خوشه بندی سلسله مراتبی و مبتنی بر چگالی بستگی دارد. با این حال، به دلیل انجماد شعاع جستجو، اتصال درون خوشه‌ای و سایر پارامترها، الگوریتم‌های تجمع موجود نمی‌توانند به خوبی با چگالی جهانی مجموعه‌های خطوط غیریکنواخت مقابله کنند.
روش‌های سنتی بیشتر به «جذب جغرافیایی» به «رفتار جریان» توجه می‌کنند [ 46] (ص 111-114)، اما روش ODFCVC برعکس است. برای تجزیه و تحلیل مسیر OD تاکسی، موقعیت مکانی و ویژگی‌های موضوعی نقاط OD مسائل ژئومسائل ایستا هستند، و مسیر مکانی-زمانی تولید شده توسط فعالیت‌های تاکسی مشکلی از پویایی شهری است. در گذشته، مدل‌سازی و تحلیل مکانی-زمانی پویای افراد بیشتر بر استنتاج علّی دقیق متمرکز بود. از آنجایی که ویژگی های ناحیه عملکردی نقطه OD با قانون فعالیت شهری مطابقت دارد، رفتار سفر مربوطه را ایجاد می کند. بنابراین، زمانی که رفتار سفر دارای نقاط OD مشابه باشد، این نوع رفتار سفر همان حالت است. این نوع روش تحلیل که ابتدا دارای «جاذبه جغرافیایی» و سپس «رفتار جریان» است، وابستگی زیادی به دقت داده‌های OD دارد و توسط عوامل مناطق عملکردی شهری و به‌روزرسانی داده‌های POI محدود می‌شود. پیش فرض ابتکار کشف الگوهای جدید را ندارد. در روش مبتنی بر داده، روش پیشنهادی سعی می‌کند شباهت جغرافیایی جذب چنین رفتاری را با تجزیه و تحلیل رفتار جریان پیدا کند و تعامل زیرفضای شهری را تحت پارادایم جدید علوم شهری کاوش کند.
کل فرآیند الگوریتم نیازی به پارامترهای از پیش تعیین شده ندارد. فقط باید مقدار K بهینه خوشه فضایی و خوشه هندسی را به ترتیب با ضریب شبح، مجموع مربعات خطاها و سایر شاخص ها محاسبه کند. اولین مرحله خوشه‌بندی فضایی و تشابه کسینوس تنظیم‌شده تا آنجا که ممکن است، از دست دادن ویژگی ناشی از عادی‌سازی داده‌های جهانی را حل می‌کند. علاوه بر این، به دلیل محدودیت‌های هندسی، روش از محدودیت‌های دو نقطه‌ای معمولی استفاده نمی‌کند و تنها تحت‌تاثیر مقدار K خوشه هندسی بر اساس بهینه‌سازی خوشه فضایی و تشابه کسینوس تنظیم‌شده قرار می‌گیرد، بنابراین، جریان‌های OD خوشه‌هایی با توزیع نامنظم پیدا می‌کنند. بنابراین، روش ODFCVC نه تنها خوشه هایی از الگوهای مشابه با اشکال منظم را تشخیص می دهد، بلکه خوشه هایی با الگوهای همگرایی و واگرایی. همانطور که در نشان داده شده استشکل 10 ج، نقاط مبدأ الگوی همگرایی و نقاط مقصد الگوی تخلیه تحت تأثیر مرکز ترافیک، ویژگی‌های شباهت نقطه‌ای را در روش خوشه‌بندی سنتی ندارند، یعنی چگالی اتصال یکنواخت یا فاصله فضایی مشابهی ندارند. با این حال، با استفاده از روش ODFCVC، ما واگرایی و همگرایی جریان ترافیک اصلی را بر اساس تأثیر فرودگاه بین‌المللی پایتخت پیدا می‌کنیم.
از آنجایی که روش ODFCVC می تواند حالت همگرایی و واگرایی خوشه های جریان را بیابد، ما همچنین سعی می کنیم آن را با توزیع چگالی مجموعه نقطه ای در فضای برداری توضیح دهیم. شکل 13 و شکل 14 توزیع چگالی هسته داده های نقطه OD را در فضای جغرافیایی و فضای برداری نشان می دهد. تجزیه و تحلیل تراکم هسته و تجسم نتیجه توسط ArcMap انجام می شود.
ثبات چگالی یک معیار مهم برای ارزیابی نتایج خوشه بندی است. در خوشه‌بندی مبتنی بر چگالی، جریان‌های OD با نقاط OD در فضای چگالی یکسان به عنوان یک الگو در نظر گرفته می‌شوند. در فضای جغرافیایی، نقطه O از حالت واگرایی جریان ترافیک و نقطه D از حالت همگرایی جریان ترافیک در فضای با چگالی بالا هستند، در حالی که نقطه D از حالت واگرایی جریان ترافیک و نقطه O از حالت همگرایی جریان ترافیک. در فضای کم تراکم قرار دارند. شکل 13 ب ناهمگنی توزیع چگالی نقاط OD را در فضای جغرافیایی نشان می دهد. بنابراین، یافتن این الگوها به طور خودکار با استفاده از روش‌های سنتی خوشه‌بندی چگالی و شاخص اتصال ساده دشوار است.
در جریان الگوریتم پیشنهادی در این مقاله، جریان OD به فضای برداری نگاشت می‌شود و موقعیت جغرافیایی نسبی نقاط OD با تجمع نقاط رویداد جریان OD تغییر می‌کند. از آنجایی که در سیستم مختصات برداری فقط جهت و اندازه بردار در نظر گرفته می شود، می توانیم نقطه رویداد جریان OD را به عنوان نقطه تقاطع تنظیم کنیم و موقعیت نسبی بردار جریان OD را جابجا کنیم. می توان دریافت که توزیع چگالی نقاط OD نسبتاً همگن است. شکل 14 ب همگنی توزیع چگالی نقاط OD را در فضای برداری نشان می دهد.

5. نتیجه گیری و بحث

در این مقاله، یک روش خوشه‌بندی دو مرحله‌ای برای داده‌های OD پیشنهاد شده است. ویژگی های الگوی جریان OD توسط نقاط رویداد جریان OD و بردار جریان OD نشان داده می شود و داده های OD از فضای مجموعه نقطه عظیم به فضای ویژگی بردار مستقل نگاشت می شوند. این روش پیچیدگی محاسبه شباهت جریان OD را ساده می کند و به توزیع فضایی کلی و روند حرکت جریان OD توجه بیشتری می کند. در مقایسه با مطالعات قبلی، روش پیشنهادی از ایده خوشه‌بندی خطی مبتنی بر خوشه‌بندی دو نقطه‌ای جدا می‌شود، به شباهت کلی (بعدی بالا) جریان‌های OD توجه بیشتری می‌کند، بعد ماتریس ویژگی را در فرآیند خوشه‌بندی بهینه می‌کند. و محاسبه اعداد خوشه بندی بهینه خودکار را بدون هیچ پارامتری به دست می آورد.
روش ODFCVC را می توان با تحقیقات موجود ترکیب کرد [ 15 ، 38 ]. از یک سو می توان آن را با نتایج الگوریتم های قبلی برای ارزیابی ویژگی های ناحیه عملکردی پویا واحدهای جغرافیایی مقایسه کرد. از سوی دیگر، می‌توان آن را با الگوریتم مبتنی بر چگالی و الگوریتم مبتنی بر پارتیشن ترکیب کرد تا توانایی تشخیص شدت دامنه چگالی را تقویت کند و نتایج خوشه‌بندی چند مقیاسی را با حفظ ویژگی‌های جریان ایجاد کند.
از طریق آزمایش داده‌های پکن تاکسی OD، این روش مراکز مهم ترافیکی و جوامع جریان ترافیک تحت‌تاثیر قطب‌های ترافیکی در پکن را بدون تکیه بر واحدهای جغرافیایی استخراج می‌کند، که با استفاده از ظرفیت حمل‌ونقل، کمبود مهندسی ترافیک سنتی و برنامه‌ریزی شهری را جبران می‌کند. ، جریان مسافر، مقیاس ساخت و ساز، دسترسی فضایی و سایر شاخص ها برای ارزیابی اهمیت محورهای ترافیکی. علاوه بر این، این روش از محدودیت‌های حالت تجربه «خط موازی» در الگوکاوی قبلی عبور می‌کند و حالت خوشه‌ای (نقاط OD به ترتیب مشابه)، حالت واگرایی (نقاط O مشابه هستند) و حالت همگرایی (D) را پیدا می‌کند. نقاط مشابه) جریان ترافیک در همان زمان، که برای جریان ترافیک واقعی مناسب تر است.
از طریق تجزیه و تحلیل چگالی هسته نقاط OD در فضای جغرافیایی و فضای برداری، دریافتیم که روش ODFCVC می‌تواند با استفاده از روش محدودیت‌های هندسی، جریان OD الگوی شکل نامنظم را به فضای برداری با چگالی نقطه همگن OD ترسیم کند. شرایط خوشه بندی چگالی جریان OD سنتی بنابراین، روش مبتنی بر خوشه بندی چگالی را می توان برای الگوبرداری از جریان OD در فضای برداری نیز به کار برد.
هدف اصلی الگوی جریان ترافیک و استخراج الگوی جریان OD صرفاً از داده به الگو نیست، توابع اندازه‌گیری مختلف و شاخص‌های مختلف می‌توانند الگوهای جریان مختلفی را تولید کنند. با این حال، چگونگی استفاده معقول از الگوهای یافت شده توسط الگوریتم خوشه بندی و اعمال آنها در برنامه ریزی ترافیک، برنامه ریزی شهری و سایر زمینه ها، ارزش تحقیق است. الگوریتم‌های خوشه‌بندی قبلی به شدت بر این ایده متکی هستند که «نقاط OD مشابه هستند، بنابراین جریان‌های OD مشابه هستند» و به طور عمیق شاخص‌های اندازه‌گیری مختلف مانند شباهت فضایی، شباهت موضوعی و شباهت نوع کاربری زمین نقاط OD را مطالعه می‌کنند [ 8 ، 39 ]]. روش ODFCVC به شاخص شباهت نقاط OD متکی نیست و می تواند الگوهای جریان نماینده را حفاری کند. این ارتباط درونی بین نقاط OD با شباهت فضایی غیرجغرافیایی را در همان الگو بررسی می‌کند و از “مشاهده جریان فعالیت‌های انسانی” به “مشاهده نقاط انواع کاربری زمین” به روز و تکرار می‌شود. همچنین ابزار جدیدی برای تحقیق در مورد نوسازی کاربری زمین شهری، استخراج ناحیه تابع پویای شهری، تعامل فضای داخلی شهری، برنامه ریزی منطقه ترافیکی چند مقیاسی و غیره فراهم می کند.
استخراج اطلاعات یک مانع مهم برای خدمات و برنامه های کاربردی اطلاعات ترافیک است. تقسیم مناطق ترافیکی (جوامع) جزء مهمی از بررسی های ترافیکی، پیش بینی تقاضای سفر، تولید سفر و توزیع سفر است [ 62 ]. روش سنتی تقسیم منطقه ترافیک نمی تواند جدیدترین یا واقعی ترین الگوهای ترافیکی و ویژگی های ثابت در یک منطقه ترافیکی را منعکس کند و تحرک و ویژگی های جامعه رفتار ترافیکی را نادیده می گیرد [ 62 ، 63 ].]. تحقیق ما از روش ODFCVC برای جریان OD ترافیکی استفاده می‌کند، که می‌تواند جوامع جریان ترافیک را با تعاملات داخلی مکرر و رفتارهای تعامل منطقه‌ای با الگوهای سفر معمولی شناسایی کند. ابزار جدیدی برای تقسیم مناطق ترافیکی و آشکار ساختن ویژگی‌های ساختار فضایی فراهم می‌کند.
این روش همچنین دارای قابلیت انبساط قوی است. اول، تابع تشابه، یعنی توابع فاصله های مختلف را می توان با توجه به الزامات تحقیق در هنگام اندازه گیری شباهت روابط فضایی و ویژگی های هندسی جریان ها جایگزین کرد. ثانیاً، الگوریتم خوشه‌بندی اولیه، یعنی تا زمانی که منطق خوشه‌بندی چند مرحله‌ای مبتنی بر ساختارشکنی ابعاد مطرح است، هر مرحله می‌تواند با یک الگوریتم خوشه‌بندی جایگزین شود که به مراکز مختلف خوشه‌بندی برای رفع نیازهای محققین متکی است. ثالثاً، بعد موضوع تحقیق و تجزیه و تحلیل، یعنی برای داده‌های جریان OD، این مقاله فقط بعد فضایی و بعد ویژگی پویا را تجزیه و تحلیل می‌کند اما تأثیر بعد زمانی را در نظر نمی‌گیرد. می تواند تجزیه و تحلیل داده های چند بعدی را با خوشه بندی مرحله ای گسترش دهد. برای هر فرم هندسی با ابعاد بالا مانند داده های مساحت و داده های حجمی، می توان از مرکز هندسی و بردارهای هندسی با ابعاد بالا برای بیان ویژگی های فضایی و مورفولوژیکی استفاده کرد. در نهایت، محیط محاسباتی، یعنی به دلیل اینکه کل فرآیند عملیات روش یک الگوی انتشار درخت مانند را ارائه می‌دهد، تجزیه و تحلیل خوشه‌بندی هر بعد را می‌توان بر اساس نتایج مرحله خوشه‌بندی قبلی محاسبه کرد.
با این حال، این روش هنوز دارای کاستی هایی در بیان ساختار چندسطحی و قضاوت شباهت است. روش ODFCVC پیچیدگی خوشه‌بندی جریان OD را از منظر موقعیت مکانی و بردارهای هندسی در نظر می‌گیرد، اما هیچ پارتیشن و الگوکاوی چند مقیاسی برای هر فضای تک بعدی وجود ندارد، که عمدتاً به دلیل محدودیت‌های الگوریتم K-means است. در جنبه آستانه تشابه، ما ضریب شبح سنتی و SSE را برای به دست آوردن خودکار مقدار K بهینه اتخاذ می کنیم. با این حال، این پارامترها راه‌حل بهینه خوشه‌بندی فضایی برای کل نمونه و راه‌حل بهینه خوشه‌بندی ویژگی هندسی فضای برداری برای خوشه فضایی هستند که فاقد محدودیت قبلی برای شباهت هستند.

منابع

  1. گوو، دی. Zhu، X. هموارسازی و نگاشت جریان مبدا-مقصد. IEEE Trans. Vis. محاسبه کنید. نمودار. 2014 ، 20 ، 2043-2052. [ Google Scholar ] [ CrossRef ] [ PubMed ]
  2. لیو، ی. وانگ، اف. شیائو، ی. گائو، جنوب. استفاده از زمین شهری و ترافیک “مناطق منبع-غرق”: شواهد از داده های تاکسی مجهز به GPS در شانگهای. Landsc. طرح شهری. 2012 ، 106 ، 73-87. [ Google Scholar ] [ CrossRef ]
  3. لیو، ایکس. گونگ، ال. گونگ، ی. لیو، ی. نشان دادن الگوهای سفر و ساختار شهر با داده‌های سفر تاکسی. J. Transp. Geogr. 2015 ، 43 ، 78-90. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  4. استفان، دی.م. جنی، ب. طرح‌بندی خودکار نقشه‌های جریان مبدا-مقصد: مهاجرت شهرستان به شهرستان ایالات متحده 2009-2013. J. Maps 2017 ، 13 ، 46-55. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  5. جنی، بی. استفان، دی.م. موهلنهاوس، آی. مارستون، BE; شارما، آر. ژانگ، ای. جنی، اچ. طرح‌بندی نقشه‌های جریان مبدا-مقصد با نیروی هدایت شده. بین المللی جی. جئوگر. Inf. علمی 2017 ، 31 ، 1521-1540. [ Google Scholar ] [ CrossRef ]
  6. گریزر، ا. اشمیت، جی. راث، اف. Brändle، N. گره‌گشایی جریان‌های مبدا-مقصد در سیستم‌های اطلاعات جغرافیایی. Inf. Vis. 2017 . [ Google Scholar ] [ CrossRef ]
  7. آندرینکو، جی. آندرینکو، ن. چارچوب کلی برای استفاده از تجمیع در اکتشاف بصری داده های حرکت. کارتوگر. J. 2010 ، 47 ، 22-40. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  8. وانگ، ز. یوان، X. تجزیه و تحلیل بصری داده های مسیر. J. Comput.-Aided Des. محاسبه کنید. نمودار. 2015 ، 27 ، 9-25. [ Google Scholar ]
  9. شین، آر. آی، تی. یانگ، دبلیو. Feng, T. نمودار Voronoi شبکه جدید با توجه به چگالی نقطه OD تاکسی و تجزیه و تحلیل بصری جریان OD. J. Geo-Inf. علمی 2015 ، 17 ، 1187-1195. [ Google Scholar ] [ CrossRef ]
  10. چن، ی. هوانگ، ز. پی، تی. Liu, Y. HiSpatialCluster: یک ابزار نرم افزاری جدید با کارایی بالا برای خوشه بندی نقاط فضایی عظیم. ترانس. GIS 2018 ، 22 ، 1275-1298. [ Google Scholar ] [ CrossRef ]
  11. وانگ، اس. دو، ی. جیا، سی. بیان، م. فی، تی. ادغام روش چندشبکه ای جبری در تجمع فضایی داده های مسیر عظیم. بین المللی جی. جئوگر. Inf. علمی 2018 ، 32 ، 1-20. [ Google Scholar ] [ CrossRef ]
  12. گوو، دی. زو، ایکس. جین، اچ. گائو، پی. آندریس، سی. کشف الگوهای فضایی در داده‌های تحرک مبدا-مقصد. ترانس. GIS 2012 ، 16 ، 411-429. [ Google Scholar ] [ CrossRef ]
  13. زو، ایکس. Guo, D. نقشه برداری داده های جریان فضایی بزرگ با خوشه بندی سلسله مراتبی. ترانس. GIS 2014 ، 18 ، 421-435. [ Google Scholar ] [ CrossRef ]
  14. پی، تی. وانگ، دبلیو. ژانگ، اچ. ما، تی. دو، ی. ژو، سی. خوشه بندی مبتنی بر چگالی برای داده های حاوی دو نوع نقطه. بین المللی جی. جئوگر. Inf. علمی 2015 ، 29 ، 175-193. [ Google Scholar ] [ CrossRef ]
  15. او، بی. ژانگ، ی. چن، ی. Gu, Z. روش خوشه‌بندی خطی ساده برای تحلیل فضایی با داده‌های مبدا-مقصد و کاربرد آن در داده‌های حرکت اشتراک‌گذاری دوچرخه. ISPRS Int. J. Geo-Inf. 2018 ، 7 ، 203. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  16. Tobler, W. آزمایش‌هایی در نقشه‌برداری مهاجرت توسط کامپیوتر. کارتوگر. Geogr. Inf. علمی 1987 ، 14 ، 155-163. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  17. Guo, D. نقشه‌برداری جریان و تجسم چند متغیره داده‌های تعامل فضایی بزرگ. IEEE Trans. Vis. محاسبه کنید. نمودار. 2009 ، 15 ، 1041-1048. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  18. سلاسی، دی. هلر، بی. Heer, J. دسته بندی لبه های تقسیم شده برای داده های شبکه جهت دار. IEEE Trans. Vis. محاسبه کنید. نمودار. 2011 ، 17 ، 2354-2363. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  19. وربیک، ک. بوچین، ک. Speckmann, B. طرح‌بندی نقشه جریان از طریق درختان مارپیچی. IEEE Trans. Vis. محاسبه کنید. نمودار. 2011 ، 17 ، 2536-2544. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  20. ناگل، تی. میتان، م. دووال، ای. مور، AV; کلرککس، جی. کلوکل، ک. Ratti, C. لمس حمل و نقل یک مطالعه موردی در تجسم حمل و نقل عمومی شهری بر روی میزهای تعاملی. در مجموعه مقالات کنفرانس کاری بین المللی در مورد رابط های بصری پیشرفته ; ACM Press: نیویورک، نیویورک، ایالات متحده آمریکا، 2014. ص 281-288. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  21. بویندین، آی. برتینی، ای. باک، پ. Lalanne, D. Flowstrates: رویکردی برای کاوش بصری داده‌های مبدا-مقصد زمانی. محاسبه کنید. نمودار. انجمن 2011 ، 30 ، 971-980. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  22. آندرینکو، جی. Andrienko، N. تجمع فضایی-زمانی برای تجزیه و تحلیل بصری حرکات. در مجموعه مقالات سمپوزیوم IEEE در علم و فناوری تجزیه و تحلیل بصری، کلمبوس، OH، ایالات متحده آمریکا، 19 تا 24 اکتبر 2008. ص 51-58. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  23. هنری، ن. Fekete, J. Matrixexplorer: یک سیستم بازنمایی دوگانه برای کشف شبکه های اجتماعی. IEEE Trans. Vis. محاسبه کنید. نمودار. 2006 ، 12 ، 677-684. [ Google Scholar ] [ CrossRef ] [ PubMed ]
  24. وود، جی. دایکز، جی. Slingsby، A. تجسم مبدا، مقصد و جریان ها با نقشه های OD. کارتوگر. J. 2010 , 47 , 117-129. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  25. وود، جی. Slingsby، A.; دایکز، جی. تجسم پویایی طرح اجاره دوچرخه لندن. کارتوگر. بین المللی جی. جئوگر. Inf. جئوویس. 2011 ، 46 ، 239-251. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  26. فان، دی. شیائو، ال. بله، آر. Hanrahan, P. طرح نقشه جریان. علامت IEEE Inf. Vis. 2005 ، 219-224. [ Google Scholar ] [ CrossRef ]
  27. Holten, D. Hierarchical Edge Bundles: Visualization of Adjacency Relations in Hierarchical Data. IEEE Trans. Vis. محاسبه کنید. نمودار. 2006 ، 12 ، 741-748. [ Google Scholar ] [ CrossRef ]
  28. Tao, F. تجزیه و تحلیل بصری حالت سفر ساکن بر اساس داده های تاکسی OD. پایان نامه کارشناسی ارشد، دانشگاه ووهان، ووهان، چین، 2017. [ Google Scholar ]
  29. Slingsby، A.; کلی، م. دایکز، جی. نقشه های Wood, J. OD برای مطالعه مهاجرت داخلی تاریخی در ایرلند. در مجموعه مقالات کنفرانس IEEE در مورد تجسم اطلاعات (InfoVis)، سیاتل، دی سی، ایالات متحده آمریکا، 14 تا 19 اکتبر 2012. [ Google Scholar ]
  30. آدرینکو، ن. آدرینکو، جی. تعمیم فضایی و تجمیع داده های حرکت عظیم. IEEE Trans. Vis. محاسبه کنید. نمودار. 2011 ، 17 ، 205-219. [ Google Scholar ] [ CrossRef ]
  31. وو، جی. زو، ی. کو، تی. Wang, L. الگوریتم تشخیص مسیرهای داغ بر اساس خوشه بندی شبکه. J. Jilin Univ. 2015 ، 45 ، 274-282. [ Google Scholar ] [ CrossRef ]
  32. ژانگ، X. خوشه بندی داده ها ، ویرایش اول. انتشارات علمی: پکن، چین، 2018. [ Google Scholar ]
  33. کریگل، اچ.-پی. کروگر، پی. Zimek، A. خوشه بندی داده های با ابعاد بالا. ACM Trans. بدانید. کشف کنید. داده 2009 ، 3 ، 1-58. [ Google Scholar ] [ CrossRef ]
  34. Kernighan، BW; Lin, S. یک رویه ابتکاری کارآمد برای پارتیشن بندی نمودارها. بل سیست. فنی J. 1970 , 49 , 291-307. [ Google Scholar ] [ CrossRef ]
  35. بارنز، ای. الگوریتمی برای پارتیشن بندی گره های یک گراف. در مجموعه مقالات بیستمین کنفرانس IEEE در سال 1981 در مورد تصمیم گیری و کنترل از جمله سمپوزیوم در مورد فرآیندهای تطبیقی، سن دیگو، کالیفرنیا، ایالات متحده آمریکا، 16-18 دسامبر 1981. صص 303-304. [ Google Scholar ] [ CrossRef ]
  36. آگاروال، سی سی; Yu, PS بررسی الگوریتم ها و کاربردهای داده های نامشخص. IEEE Trans. بدانید. مهندسی داده 2009 ، 21 ، 609-623. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  37. ژانگ، ایکس. ژانگ، ایکس. لیو، اچ. لیو، ایکس. خوشه بندی چند کاره چند نما. IEEE Trans. بدانید. مهندسی داده 2016 ، 28 ، 3324-3338. [ Google Scholar ] [ CrossRef ]
  38. آهنگ، سی. پی، تی. ما، تی. دو، ی. شو، اچ. گوا، اس. Fan، Z. تشخیص خوشه‌هایی با شکل دلخواه در جریان‌های مبدا-مقصد با استفاده از بهینه‌سازی کلونی مورچه‌ها. بین المللی جی. جئوگر. Inf. علمی 2018 ، 33 ، 1-21. [ Google Scholar ] [ CrossRef ]
  39. گونگ، ایکس. پی، تی. سان، ج. لو، ام. مروری بر پیشرفت های پژوهشی در روش های خوشه بندی مسیر. Prog. Geogr. 2011 ، 30 ، 522-534. [ Google Scholar ] [ CrossRef ]
  40. لیو، تی. دو، س. مائو، اچ. مدل ارزیابی تشابه فضایی و کاربرد آن در گروه های خطی. Geomat. Inf. علمی دانشگاه ووهان 2012 ، 37 ، 992-995. [ Google Scholar ] [ CrossRef ]
  41. ژو، ایکس. میائو، اف. ما، اچ. ژانگ، اچ. Gong, H. A Trajectory Regression Clustering Technique ترکیب یک الگوریتم جدید فازی C-Means خوشه بندی با روش حداقل مربعات. ISPRS Int. J. Geo-Inf. 2018 ، 7 ، 164. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  42. لی، جی.-جی. هان، جی. لی، ایکس. گونزالس، اچ. تراکلاس: طبقه‌بندی مسیر با استفاده از خوشه‌بندی مبتنی بر منطقه سلسله مراتبی و مبتنی بر مسیر. Proc. VLDB Enddow. 2008 ، 1 ، 1081-1094. [ Google Scholar ] [ CrossRef ]
  43. یانگ، اس. بی، س. آتاناز، ن. هوانگ، تی. Wan, L. روش خوشه‌بندی فضایی برای مسیر مسافر تاکسی. محاسبه کنید. مهندس Appl. 2018 ، 54 ، 249-255. [ Google Scholar ] [ CrossRef ]
  44. پی، تی. لی، تی. ژو، سی. فرآیند نقطه‌ای مکانی-زمانی: مدل داده‌های جدید، روش‌شناسی تحلیل و دیدگاهی برای مسئله زمین‌شناسی. J. Geo-Inf. علمی 2013 ، 15 ، 793-800. [ Google Scholar ] [ CrossRef ]
  45. پی، تی. گونگ، ایکس. شاو، اس.-ال. ما، تی. ژو، سی. خوشه بندی فرآیندهای رویداد زمانی. بین المللی جی. جئوگر. Inf. علمی 2013 ، 27 ، 484-510. [ Google Scholar ] [ CrossRef ]
  46. شیائو، اس. نیش، ز. چن، بی. یین، ال. چن، جی. یانگ، X. تجزیه و تحلیل GIS فضا-زمان فعالیت‌های جمعیت شهری ، چاپ اول. انتشارات علمی: پکن، چین، 2018. [ Google Scholar ]
  47. لی، ز. لیو، کیو. تانگ، جی. به سوی یک نظریه مقیاس محور برای خوشه بندی فضایی. Acta Geod. کارتوگر. گناه 2017 ، 46 ، 1534-1548. [ Google Scholar ] [ CrossRef ]
  48. تانگ، پی. اشتاین باخ، ام. کومار، وی. مقدمه ای بر داده کاوی . انتشارات ادیسون وسلی: بوستون، MA، ایالات متحده آمریکا، 2006. [ Google Scholar ]
  49. وو، جی. ژانگ، جی. یوان، دی. به دست آوردن خودکار مقدار K بر اساس روش زانویی K-means. محاسبه کنید. مهندس نرم افزار 2019 ، 40 ، 167-170. [ Google Scholar ] [ CrossRef ]
  50. ژانگ، ز. گوا، ایکس. Zhang، K. انتخاب مرکز خوشه‌بندی در الگوریتم خوشه‌بندی K-means. J. Jilin Univ. 2019 ، 37 ، 437-441. [ Google Scholar ] [ CrossRef ]
  51. فو، تی. چانگ، اف. لوک، آر. Ng، V. کشف الگو از سری های زمانی سهام با استفاده از نقشه های خودسازماندهی. در یادداشت های کارگاهی KDD2001 کارگاه داده کاوی زمانی ; Springer: New York, NY, USA, 2001; ص 26-29. [ Google Scholar ]
  52. تائو، آر. تیل، جی.-سی. تشخیص خوشه فضایی در داده های جریان فضایی. Geogr. مقعدی 2016 ، 48 ، 355-372. [ Google Scholar ] [ CrossRef ]
  53. لیو، ی. تانگ، دی. لیو، ایکس. اندازه گیری خودهمبستگی فضایی بردارها. Geogr. مقعدی 2014 ، 47 ، 300-319. [ Google Scholar ] [ CrossRef ]
  54. یانگ، جی. لی، ی. چنگ، دبلیو. لیو، ی. لیو، سی. بازسازی اثر انگشت مبتنی بر EKF-GPR برای محلی‌سازی فضای داخلی مبتنی بر زیرمجموعه با تشابه کسینوس تنظیم‌شده. Sensors 2018 , 18 , 318. [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
  55. ری، اس جی. موری، AT; Anselin, L. تجسم پویایی توزیع درآمد منطقه ای. Lett. تف کردن منبع. علمی 2011 ، 4 ، 81-90. [ Google Scholar ] [ CrossRef ]
  56. آندرینکو، جی. آندرینکو، ن. فوکس، جی. وود، جی. آشکارسازی الگوها و روندهای تحرک انبوه از طریق انتزاع مکانی و زمانی داده‌های حرکت مبدا-مقصد. IEEE Trans. Vis. محاسبه کنید. نمودار. 2017 ، 23 ، 2120-2136. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  57. Ulrike، VL Clustering Stability: An Overview. پیدا شد. روندهای ماخ. فرا گرفتن. 2010 ، 2 ، 235-274. [ Google Scholar ]
  58. Mark, N. Networks: An Introduction ; انتشارات دانشگاه آکسفورد: آکسفورد، انگلستان، 2011; پ. 224. [ Google Scholar ]
  59. کلاوزت، ا. نیومن، MEJ; مور، سی. یافتن ساختار جامعه در شبکه های بسیار بزرگ. فیزیک Rev. E 2004 , 70 . [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  60. لی، ایکس. یانگ، ایکس. چن، اچ. مطالعه بر تقسیم منطقه ترافیک بر اساس تجزیه و تحلیل خوشه بندی فضایی. محاسبه کنید. مهندس Appl. 2009 ، 45 ، 19-22. [ Google Scholar ] [ CrossRef ]
  61. یانگ، جی. آهنگ، سی. پی، تی. ژو، سی. شو، اچ. ژانگ، جی. ویژگی های توزیع زمانی-مکانی OD مسافران در هاب های ترافیک خارجی در پکن. J. Geoinf. علمی 2016 ، 18 ، 1374–1383. [ Google Scholar ] [ CrossRef ]
  62. دونگ، اچ. وو، ام. دینگ، ایکس. چو، ال. جیا، ال. Qin، Y.; ژو، X. تقسیم منطقه ترافیک بر اساس داده های بزرگ از ایستگاه های پایه تلفن همراه. ترانسپ Res. قسمت C Emerg. تکنولوژی 2015 ، 58 ، 278-291. [ Google Scholar ] [ CrossRef ]
  63. ییلدیری اوغلو، م. Kim, J. شناسایی جوامع در شبکه های تحرک شهری با استفاده از نمودارهای چند لایه ترافیک شبکه. ترانسپ Res. قسمت C Emerg. تکنولوژی 2018 ، 89 ، 254-267. [ Google Scholar ] [ CrossRef ]
شکل 1. نمودار اجزای مفاهیم مرتبط با روش.
شکل 2. گرفتن نوسانات توالی با اندازه گیری فاصله عمودی.
شکل 3. فرآیند تشخیص نقطه عطف مجموع خطای مربع (SSE).
شکل 4. تشخیص نقطه عطف SSE با در نظر گرفتن ضریب silhouette.
شکل 5. فرآیند انتخاب نقطه بذر جدید.
شکل 6. نمودار منطقی الگوریتم های خوشه بندی.
شکل 7. نمودار جریان روش محدودیت های بردار خوشه بندی جریان مبدا-مقصد (ODFCVC).
شکل 8. نقشه جریان مبدا-مقصد (OD) داده تاکسی پردازش نشده.
شکل 9. چهار خوشه فضایی جریان OD تاکسی و جوامع بر اساس فرآیند خوشه بندی نقطه رویداد جریان OD. خوشه های فضایی ( a ، b ، d ) به ترتیب شامل چهار خوشه برداری، و خوشه فضایی ( c ) شامل پنج خوشه برداری است.
شکل 10. نتایج خوشه بندی ODFCVC.
شکل 11. جوامع را با استفاده از الگوریتم Clauset-Newman-Moore (CNM) کشف کنید و به صورت جغرافیایی تجسم کنید.
شکل 12. جوامع شبکه جریان OD تاکسی بر اساس ( الف ) واحد خیابان و ( ب ) منطقه ترافیکی.
شکل 13. ( الف ) جریان های OD و ( ب ) توزیع چگالی هسته نقاط OD در فضای جغرافیایی.
شکل 14. ( الف ) جریان های OD و ( ب ) توزیع چگالی هسته نقاط OD در فضای برداری.

بدون دیدگاه

دیدگاهتان را بنویسید