1. معرفی
مدلسازی تحرک انسان در یک شهر ارتباط تنگاتنگی با الگوهای جغرافیایی و توزیعهای فضایی دارد. درک حرکات فردی بینش های مفیدی را برای کاربردهای مختلف به ارمغان می آورد، مانند برنامه ریزی شهری [ 1 ]، امنیت [ 2 ]، مطالعات مهاجرت [ 3 ]، شیوع بیماری [ 4 ]، پیش بینی ترافیک (برنامه ریزی حمل و نقل) [ 5 ]، گردشگری [ 6 ] ] و سیستم های توصیه گر [ 7 ]. محققان سعی کرده اند از نظرسنجی استفاده کنند [ 8] از مراکز مسافرتی یا توریستی به روش سنتی برای مطالعه الگوهای تحرک. با این حال، به لطف فناوری های جدید، یافتن مجموعه داده ای برای تجزیه و تحلیل تحرک افراد دیگر نگرانی بزرگی نیست. اخیراً، تلاش قابل توجهی با انواع مختلف مجموعه دادهها، از جمله سوابق تماس تلفنی (CDR) [ 9 ]، WiFi یا RFID [ 10 ، 11 ]، سیستم موقعیتیابی جهانی (GPS) [ 12 ] و شبکه اجتماعی مبتنی بر مکان انجام شده است. LBSN) [ 13] داده ها، به منظور به دست آوردن اطلاعات مفید از جنبش های جغرافیایی. در این زمینه، محققان سعی کرده اند به سؤالات مختلفی بپردازند: آیا تحرک انسان از هر مدل یا الگویی پیروی می کند؟ آیا می توان الگوهای قابل توجهی برای تعریف مدل های تحرک استخراج کرد؟ آیا می توان مسیر را از طریق رفت و آمد از خانه به محل کار تخمین زد؟ آیا این الگوهای مسیر به موقعیت جغرافیایی اولیه افراد بستگی دارد؟
سوابق نظرسنجی سنتی مبتنی بر پرسش و پاسخ هایی است که برای به دست آوردن و تجزیه و تحلیل آماری آنها به نیروی انسانی و زمان زیادی نیاز است. از سوی دیگر، داده های GPS یا CDR دارای محدودیت های حریم خصوصی هستند و حجم زیادی از داده ها را ندارند. اخیراً، استفاده انفجاری از رسانههای اجتماعی با مکانهای جغرافیایی به اشتراک گذاشته شده توسط کاربران، زمینههای تحقیقاتی جدیدی را با استفاده از شبکههای اجتماعی مبتنی بر مکان (LBSNs) مانند توییتر، فیسبوک، Foursquare یا میکروبلاگ چینی Sina Weibo راهاندازی کرد و فرصتهای منحصر به فردی را برای ردیابی رفتارهای تحرک نشان داد. . این داده های تولید شده توسط کاربر دانش گسترده ای را در سه بعد، یعنی فضا، زمان و محتوای متنی ارائه می دهند. سپس، بسته به هدف تجزیه و تحلیل، تحقیقات تحرک انسانی را می توان با استفاده از یک دیدگاه متفاوت و مکمل انجام داد.
با پیشرفت سریع فناوری و استفاده گسترده از تلفن های هوشمند در مقایسه با سایر منابع داده، افراد بیشتری از برنامه ها برای به اشتراک گذاشتن لحظات خود با دیگران استفاده می کنند. این حجم عظیم از داده های ورود را می توان به عنوان داده های بزرگ در نظر گرفت. این نه تنها دادههای برچسبگذاریشده جغرافیایی، بلکه نمایههای اجتماعی افراد را نیز شامل میشود، و محققان را قادر میسازد تا یک مطالعه جامع در مورد موقعیتهای جغرافیایی، رفتار تحرک، ارتباطات اجتماعی یا تقاضاهای سفر انجام دهند. علاوه بر این، داده های ورود از سایت های شبکه های اجتماعی در اندازه های بزرگ به صورت عمومی در دسترس هستند. به عنوان مثال، میکروبلاگ چینی Sina Weibo به کاربران این امکان را می دهد که متن، عکس و ویدیو را همزمان با اشتراک گذاری آنلاین مکان خود ارسال کنند. با توجه به مرکز تحقیق و توسعه صنعت Weibo [ 14]، در نیمه اول سال 2018، تعداد کاربران میکروبلاگ موبایل در چین حدود 316 میلیون نفر بود که در مقایسه با پایان سال 2017، 29.23 میلیون نفر افزایش نشان می دهد. از سوی دیگر، یافته های اخیر در [ 15 ]] ثابت کرده اند که چین یکی از کشورهایی است که به سرعت در حال توسعه است، بنابراین برنامه ریزان شهری بیشتر بر اجرای طرح های برنامه ریزی شهری برای توسعه الگوی شهری فضایی تمرکز کرده اند. ایجاد پل بین طرح و برنامه ریزی زیرساخت شهری یک هدف مهم است. بنابراین، مطالعه طرحهای فضایی شهری با هدف طراحی مناطق تجاری تجاری تأثیرگذار (CBD) در شهرهای هوشمند و پایدار توجه زیادی را به خود جلب کرده است. سیاست انسجام منطقهای اروپا ظرفیت، کیفیت، جدول زمانی قابلیت و تاریخ و چشمانداز را به عنوان چهار بعد از هدف دستیابی به تمام جنبههای زندگی شهری از طریق برنامهریزی کارشناسانه در مناطق شهری هوشمند تعیین میکند. با تمرکز بر ساختارهای فضایی کلان شهرها، برنامه ریزان شهری نقش مهمی در نظارت و مدیریت یک جابجایی بهتر و ایمن تر، توپوگرافی، توسعه اقتصادی، ترجیحات مصرف کننده، رشد جمعیت و حمل و نقل پایدار، به گونه ای که همه این عوامل در کنار هم بهبود کیفیت زندگی ساکنان را هدف قرار می دهند. استفاده از فناوریها بهعنوان ابزاری نوظهور برای تحلیل جنبههای مکانی-زمانی تحرک انسان در شهرهای تازهتوسعهیافته مانند شانگهای به دولت کمک میکند تا نیازهای شهروندان و ضربان قلب حرکت را بهتر درک کند تا جریان ترافیک کارآمد بین حرکتها به دلیل عرضه و تقاضا فراهم شود. . برای دستیابی به این هدف، شناسایی مناطق پر ازدحام در مناطق CBD و دلایل شلوغی این مناطق مهم است. درک خواسته های شهروندان به مدیران کمک می کند تا تصمیمات بهتری برای گسترش و تعادل انواع خدمات در همه مناطق اتخاذ کنند تا جریان حرکت، بهینه سازی منابع و کاهش ازدحام را به حداکثر برسانند. محققان توصیف های مختلفی از مناطق تجاری مرکزی ارائه کرده اند. مک کول و همکاران [16 ] منطقه ای را با تمرکز اصلی استفاده از زمین تجاری به عنوان CBD، با دیدگاهی مشابه به Drozdz و همکاران توصیف کرد. [ 17 ]، که اشاره کرد که یک منطقه CBD قابل توجه شامل فعالیت های مالی عظیم است. به دنبال [ 18 ]، ما توافق کردیم که یک منطقه CBD حاوی توزیع متراکم منابع تجاری است و دارای شبکه های جاده ای با تراکم بالا است. هر نقطه مورد علاقه منبع داده باز (POI) که یک موجودیت را در فضای جغرافیایی نشان می دهد، بازتابی از CBD است.
انگیزه اصلی ما در اینجا آزمایش اعتبار داده های Weibo در موقعیت جغرافیایی به عنوان ابزاری برای روشن کردن الگوهای تحرک و فعالیت انسان است. علاوه بر این، هدف ما شناسایی مکانهای مهم در زندگی مردم با پشتیبانی خدمات مبتنی بر مکان به منظور بهبود درک الگوهای حرکتی عمومی انسان و حمایت از ایجاد مدلهای واقعی و عملی از تحرک انسانی است. ما همچنین سعی کردیم یک مجموعه داده Weibo با برچسب جغرافیایی را به منظور تجزیه و تحلیل ویژگی های رفتاری کاربران از دو منظر، یعنی زمان فعالیت و انواع نقطه علاقه مندی آنها، اتخاذ کنیم.
علیرغم مقادیر متفاوت داده های ورود به شبکه های اجتماعی، برخی مسائل وجود دارد که بر کیفیت تحقیق در این زمینه تأثیر می گذارد. هنگام استفاده از شبکههای اجتماعی، یک اتصال اینترنتی لازم است تا به کاربران اجازه دهد پستهای خود را به اشتراک بگذارند و دادههای مکانی-زمانی تولید کنند، با استفاده از موقعیت جغرافیایی که کاربر از آنجا پیام را ارسال میکند و لحظهای که این کار را انجام داده است. با این حال، اگر کاربر در زمان ارسال پست خاص اتصال اینترنت نداشته باشد، چه؟ این پست دارای برچسب موقعیت جغرافیایی و مهر زمانی نخواهد بود و برای تجزیه و تحلیل داده ها مفید نخواهد بود. علاوه بر این، اعلام جعلی زمانی اتفاق میافتد که کاربر مکانی را به اشتراک بگذارد که بالاتر از آستانه مکان واقعی است. به دلایل مختلف، یک کاربر ممکن است پستی را به اشتراک بگذارد که ادعا کند “از غذا در رستوران لذت می برد”، اما در واقع، آن پست را در خانه مانده است. بدین ترتیب،
در این مقاله، هدف ما تجزیه و تحلیل تحرک انسان در شهر شانگهای از داده های بزرگ مکانی-زمانی استخراج شده از میکروبلاگ چینی Sina Weibo است. به عنوان یکی از شهرهای بزرگ چین، شانگهای به عنوان مطالعه موردی این تحقیق با استفاده از چندین الگوریتم تجزیه و تحلیل داده برای اعتبارسنجی استفاده از یک دوره یک ساله داده های Weibo به عنوان ابزاری برای کشف الگوهای تحرک انسانی انتخاب شد. دادههای موجود از مجموعه دادههای Sina Weibo با مجموعه دادههای POI غنی شد تا تفسیر معنادارتری از موقعیت جغرافیایی هر پست Weibo را به هم مرتبط کند. چندین سؤال مطرح شد، مانند: چگونه می توان مکان های مهمی را در زندگی مردم به عنوان جنبه مهمی از مشخص کردن تحرک انسان کشف کرد؟ آیا به دلیل تفاوت های جنسیتی تأثیری وجود دارد؟ چگونه می توان مسیرهای تحرک را کشف و توصیف کرد؟
ادامه این مقاله به شرح زیر سازماندهی شده است. در بخش 2 ، کار تحقیقاتی مرتبط با تجزیه و تحلیل داده های رسانه های اجتماعی ارائه شده است. بخش 3 معرفی مختصری از مطالعه موردی ما و مجموعه داده های مورد استفاده در تجزیه و تحلیل ما را ارائه می دهد. در مطالعات تحرک مبتنی بر فعالیت، تولید ماتریس مبدا-مقصد (OD) برای تجزیه و تحلیل رفتار حرکت ضروری است. جنبش مردمی از دیدگاه درون شهری برای تولید ماتریس های سفر OD برای شناسایی سفرها از خانه به محل کار بررسی می شود. در بخش 4 ، ما جزئیات داده های تمیز کردن را توضیح می دهیم تا ماتریس های OD دقیق را شناسایی کنیم.بخش 5روش اعمال شده را ارائه میکند و شرح مفصلی از الگوریتمهای پیادهسازی شده برای شناسایی الگوهای سفر، کشف محبوبترین مکانهای بازدید شده، کشف بعد زمانی، و تخمین مسیرها از طریق محاسبه ماتریسهای سفر مبدا-مقصد ارائه میدهد. به طور خاص، گروه های مختلف مردم (مرد و زن) در تجزیه و تحلیل 11 منطقه مختلف شانگهای در نظر گرفته شدند. نتایج بهدستآمده با استفاده از تکنیکهای کافی برای حمایت از تصمیمگیری تجسم میشوند.
2. کارهای مرتبط
تحرک انسانی به حرکت یک فرد یا گروهی از افراد از موقعیت جغرافیایی مبدأ به مقصد اشاره دارد. اخیراً تحرک افراد نه تنها به موضوعی داغ برای جامعه دانشگاهی برای اهداف تحقیقاتی بنیادی تبدیل شده است، بلکه به عنوان یک زمینه تحقیقاتی مهم برای سیاست گذاران در شهرهای هوشمند به منظور ارائه خدمات بهتر برای شهروندان (مانند برنامه ریزی شهری، بهداشت عمومی) تبدیل شده است. ، حمل و نقل). تحرک انسان به موضوعی جالب برای زمینه های تحقیقاتی مختلف تبدیل شده است، از علوم کامپیوتر گرفته تا علوم اجتماعی [ 19 ] و علوم جغرافیایی [19]. 20 ].]. این مفهوم را می توان در زمینه های مطالعاتی مانند برنامه ریزی شهری، تصمیم گیری، مهاجرت، کنترل بیماری همه گیر و خدمات حمل و نقل به کار برد. درک حرکت انسان به یک سوال تحقیقاتی حیاتی تبدیل می شود و هدف پشت آن یکپارچه سازی منابع داده های مختلف موجود برای موضوعات مختلف است. از دو منظر تحلیل مکانی-زمانی می توان موضوعات مختلفی را به دست آورد و تحلیل کرد.
لیو و همکاران [ 20 ] روی داده های مسیر تاکسی کار کرد و تعدادی بردار جفت نقطه را معرفی کرد. آنها توزیع جمعیت را با فرض اینکه هر سفر دارای دو نقطه است تجزیه و تحلیل کردند: یک نقطه تحویل که به عنوان مبدأ در نظر گرفته شد و یک نقطه خروج به عنوان مقصد. آنها روش مونت کارلو را بر روی داده های شانگهای به کار بردند تا مدل خود را تایید کنند. در مطالعه دیگری، لیانگ و همکاران. [ 5] نشان داد که میانگین جمعیتی که از یک منطقه در یک شهر بازدید می کنند منبع داده خوبی برای مدل سازی تحرک انسان و جمعیت ساکن است. بنابراین، آنها جمعیت روزانه بازدیدکننده از یک منطقه را با استفاده از یک مدل تشعشع برای پیشبینی جریان جمعیت محاسبه کردند. این دو کار تحقیقاتی بر توزیع فضایی جریانها متمرکز بودند، با این حال، برای برجسته کردن تفاوت با پژوهش دیگری، وو و همکاران. [ 21 ] تحرک انسان درون شهری را با ترکیب رویکردهای مبتنی بر فعالیت و حرکت محور محاسبه کرد و بیشتر بر تغییرات زمانی متمرکز شد. در مقایسه با مطالعات قبلی، وو و همکاران. [ 21] از ویژگیهای زمانی برای یافتن اینکه آیا فعالیتهای افراد در یک منطقه ثابت بوده یا نه استفاده کرد و دو نوع فعالیت متفاوت به نامهای فعالیتهای اجباری مکان (LMA) و فعالیتهای تصادفی مکان (LSA) را معرفی کرد. از آنجایی که تکنیکهای مدلسازی مبتنی بر عامل (ABM) برای ثبت اقدامات در یک سری زمانی خوب هستند، Bonabeau و همکاران، [ 18 ]] کاربردهای مختلفی را با استفاده از ABM مرتبط با الگوهای رفتاری انسان پویا در دنیای واقعی معرفی کرد. مهم ترین زمینه ها برای کاربرد مطالعات جریان شامل ترافیک، مدیریت تحرک انسانی و تخلیه است. اهمیت این رشته زمانی آشکار می شود که تعداد فجایع جمعیت (فاجعه ناشی از ازدحام) افزایش یابد. یک سیستم مناسب برای پشتیبانی از برنامه ریزی سیستم حمل و نقل بر اساس تحلیل حرکت افراد، شبکه حمل و نقل را ارائه می کند و فعالیت، مبدا، مقصد سفرها و زمان بندی افراد را به درستی شبیه سازی می کند. گام بعدی در این سیستم، پیشبینی این است که چگونه تغییرات در رفتار و فعالیت افراد میتواند بر سفرها و حرکت در شهرها تأثیر بگذارد. یکی دیگر از کاربردهای جالب تحلیل تحرک انسانی برای مدیریت شهری است. Carpooling به منظور رفع برخی از مشکلات حمل و نقل در شهرهای بزرگ با هدف تقسیم بخشی از سفر یا هزینه ها با سایر کاربران معرفی شده است. تجزیه و تحلیل تحرک انسانی از اجرای سیاست های مدیریت تحرک برای کنترل تعداد وسایل نقلیه در جاده پشتیبانی می کند. علاوه بر این، ترافیک و انتشار CO2 و در نتیجه آلودگی هوا را کاهش می دهد. مطالعه جالب دیگری توسط سزار منتشر شد [22 ، که بر روی دادههای GPS برای یافتن سفرهای معمول در پیزا [ 23 ] کار کرد و روش خوشهبندی مبتنی بر چگالی را برای دادههای رسانههای اجتماعی برای یافتن تعداد کاربران در رویدادهای مختلف، مانند کنفرانسها یا جشنوارههای فرهنگی و مذهبی، و تشخیص دهید که کدام یک تعداد زیادی از مردم را جذب می کنند.
یکی دیگر از منابع داده مفید برای تجزیه و تحلیل حرکت افراد، داده های ثبت جزئیات فراخوانی (CDR) است. ارائه دهندگان شبکه تلفن همراه سوابق تماس و پیام های متنی هر فرد را برای ارائه خدمات بهتر جمع آوری می کنند. هر داده CDR شامل مدت زمان و مکان هر تماس و همچنین پیام های متنی مرتبط در صورت موجود بودن است. از این داده ها می توان برای به دست آوردن موقعیت مکانی صاحب یک تلفن همراه استفاده کرد و طبق چندین نظرسنجی، داده های CDR منبع داده بهتری در نظر گرفته می شود. به عنوان مثال، ایزاکمن و همکاران. [ 24 ] از دادههای CDR برای تأیید حرکات افراد استفاده کرد که میتوان آنها را با تجزیه و تحلیل ردپایی که کاربر در مکانهایی که از آنجا تماس میگرفت، شناسایی کرد. آنها الگوریتم رهبر هارتیگان را انتخاب کردند [ 25] برای خوشهبندی برجهای سلولی که ابتدا به ترتیب نزولی مرتب شدند. دلیلی که آنها این الگوریتم را انتخاب کردند این است که نیازی به تعریف تعداد خوشه در تجزیه و تحلیل ندارد. از آنجایی که فاصله بین برج های سلولی در مناطق حومه شهر حدود 1 تا 3 مایل است، در حالی که در مناطق شهری تقریباً 200 متر است، آنها دریافتند که یک مایل برابری مناسب این دو نوع منطقه است. علاوه بر این، رگرسیون لجستیک برای تعیین احتمال اهمیت یک خوشه استفاده شد.
امروزه به دلیل استفاده آسان از سرویسهای شبکههای اجتماعی مانند Foursquare، Twitter، Facebook و Sina Weibo، بهویژه در گوشیها، بسیار محبوب شدهاند و توجه محققان را به خود جلب کردهاند. میلیاردها نفر از رسانههای اجتماعی برای به اشتراک گذاشتن دانش، ایدهها، روال زندگی روزمره و عکسهای خود در حین اشتراکگذاری موقعیت مکانی خود استفاده میکنند. این خدمات مبتنی بر مکان (LBS) نه تنها توجه افراد را به اشتراک تجربیات خود جلب می کند، بلکه به محققان اجازه می دهد تا از این منبع مهم داده برای تجزیه و تحلیل رفتار افراد استفاده کنند. چنگ و همکاران [ 26] سوابق ورود از 220000 کاربر را از منابع مختلف خدمات اشتراکگذاری مکان (LSS) برای تجزیه و تحلیل جنبههای الگوهای تحرک مکانی-زمانی و متنی جمعآوری کرد. آنها ایده های مختلفی را بر اساس تراکم مجموعه داده ها در شهر نیویورک، لس آنجلس و آمستردام ارائه کردند. آنها دریافتند که تحرک انسان تحت تأثیر محدودیت های اقتصادی و جغرافیایی است و تجزیه و تحلیل احساسات پیام های متنی درک تحقیقات آنها را غنی می کند. الله و همکاران [ 27 ] همچنین داده های مکانی-زمانی از LBSN ها را برای نشان دادن تأثیر افراد در فضاهای سبز تجزیه و تحلیل کرد. یان و همکاران [ 28] سه مجموعه داده مختلف، از جمله دادههای Sina Weibo را برای تجزیه و تحلیل تصمیمگیری افراد در مورد مکانهایی که تمایل دارند به آنها بروند و تأثیر جنبههای اقتصادی جمعیت در مقاصد داغ مورد بررسی قرار داد. آنها ثابت کردند که مدل گرانش برای پیش بینی اثرات تحرک در مقاصد مناسب است. آنها معتقدند که نتایج برای سیاست های تصمیم گیری قابل اجرا هستند. در پژوهشی دیگر، لیو و همکاران. [ 29 ] بر بررسی تفاوت های تحرک بین چهار جامعه مختلف شهر ووهان، بر اساس داده های Sina Weibo متمرکز شد. آنها جوامع را بر اساس فعالیتهای ورودشان در مناطق خاص طبقهبندی کردند و رفتار مکانی-زمانی آنها را در شش گروه از دستهها بررسی کردند. وانگ و همکاران [ 30] رابطه بین مسیر انسان و مکان های دسترسی Weibo را تجزیه و تحلیل کرد، علاوه بر این، سوابق تلفن همراه را ترکیب کرد. آنها ابتدا مکان های بازدید شده توسط کاربران را بر اساس سوابق تلفن طبقه بندی کردند و سپس با داده های توزیع Weibo مکان های پربازدید را پیدا کردند. آنها به این نتیجه رسیدند که الگوهای زمان و سرعت برای طبقه بندی مسیرها مفید هستند. در کار مشابهی، چائو و همکاران. [ 31] داده های Sina Weibo را برای تجزیه و تحلیل فعالیت های دانشجویان در محوطه دانشگاه مورد مطالعه قرار داد. با استفاده از جامعه دانشگاه علوم زمین چین ووهان (CUG Wuhan)، به عنوان یک مطالعه موردی، آنها به تأثیر فاصله بر الگوهای تحرک مکانی-زمانی دانشجویان پی بردند. با توجه به جنسیت کاربران، آنها نتایج را با هم مقایسه کردند. آنها متوجه شدند که جامعه در تحقیقات خود تمایل به ایجاد پست های Weibo بیشتری در رابطه با فعالیت های سرگرمی دارد. در اثر دیگری حسن و همکاران. [ 32 ] یک مجموعه داده توییتر را برای دسته بندی بعد مکانی-زمانی الگوهای تحرک تحلیل کرد. در این تحقیق به دستهبندی فعالیتهای افراد پرداخته شد و تعداد بازدید از مکانهای محبوب را نشان داد. تخمین چگالی هسته (KDE) [ 33] برای یافتن توزیع فعالیت ها در سه شهر بزرگ ایالات متحده با تقسیم جنبه زمانی به فواصل 3 ساعته استفاده شد. آنها متوجه شدند که مردم مقصد خود را بر اساس محبوبیت مکان های بازدید شده انتخاب می کنند، نه به صورت تصادفی. علاوه بر این، بر اساس تأثیر سایر کاربرانی که قبلاً همان مکان را انتخاب کرده اند و تجربیات خود را از طریق رسانه های اجتماعی به اشتراک گذاشته اند، احتمال بیشتری برای ایجاد یک مقصد وجود دارد. یک سال بعد، حسن و همکاران. [ 34 ] بیشتر روی داده های ورود به شبکه های اجتماعی از توییتر برای طبقه بندی الگوهای فعالیت فردی کار کرد. آنها الگوریتم تخصیص دیریکله نهفته (LDA) [ 35 ] را برای یافتن توزیع کلمات خاص در توییت ها، که نشان دهنده خانه و محل کار هستند، به کار بردند.
یلان و همکاران [ 36 ] روش شناسی سه مرحله ای را پیشنهاد کرد. ابتدا، به منظور یافتن مکانهای منحصر به فرد، آنها یک الگوریتم خوشهبندی مبتنی بر فاصله را در «روزها» سوابق ورود بهجای تعداد کل ورود کاربر اعمال کردند. آنها از یک الگوریتم خوشهبندی مبتنی بر فاصله برای کشف مکانهای منحصربهفرد استفاده کردند، سپس خوشههای مهم را بر اساس مکانهای مکرر بازدید شده در کل روز فیلتر کردند و در نهایت مکانهای «کار» و «خانه» را که بر اساس سوابق ورود برچسبگذاری شدهاند، پیدا کردند. و داده های POI یک مدل گرانشی تخمینی از حجم جریان، به عنوان مثال، کالاها، خدمات، یا افراد بین دو یا چند مکان را ارائه می دهد. این می تواند جابجایی مردم بین شهرها یا حجم تجارت بین کشورها باشد. گائو و همکاران [ 37] ثابت کرد که علیرغم برخی از کارهای تحقیقاتی دیگر [ 29 ] که در آن نویسندگان معتقدند مدل گرانشی [ 30 ] برای روشن کردن فعل و انفعالات فضایی مناسب نیست، ثابت کرد که دادههای ورود یک مدل مناسب و کارآمد برای پیشبینی تحرک انسان با استفاده از مدل گرانشی آنها است. به منظور حل چالش چگالی کم نمودار، آنها از روش بهینه سازی ازدحام ذرات (PSO) برای به دست آوردن بهترین تناسب استفاده کردند. آنها فاصله اساسی تقاضای سفرهای بین شهری را بر اساس داده های ورود به شبکه های اجتماعی و داده های مسافران پرواز فاش کردند.
اخیراً تلاشهای زیادی برای تحلیل تحرک انسان از مجموعه دادههای بسیار متمایز صورت گرفته است. تلاش زیادی برای بررسی آثار اخیر در [ 38 ] انجام شده است. برای درک حرکت انسان از روش ها و مدل های مختلفی استفاده شده است. مدل جاذبه یکی از پرکاربردترین مدل ها برای تحلیل در این زمینه است. از آنجایی که مدل گرانش ثابت است، پارامترها باید با داده های تحرک واقعی از منابع داده های اضافی تنظیم شوند. بیرو و همکاران [ 39 ] با آموزش یک مجموعه داده واقعی از فلیکر برای یافتن ردپای افراد در ایالات متحده، یک مدل ترکیبی با یک مدل گرانشی کلاسیک طراحی کرد.
به عنوان خلاصه، انواع داده ها و روش های مختلف مورد استفاده برای تجزیه و تحلیل تحرک انسان در جدول 1 ارائه شده است.
علاوه بر رویکردهای قبلی، کارهای تحقیقاتی نیز در زمینه تحرک انسان برای مطالعات جغرافیایی و برنامه ریزی شهری وجود دارد که هدف آنها یافتن مکان های مهم جابجایی افراد و به طور خاص تجزیه و تحلیل تحرک آنها بین خانه و محل کار با هدف ردیابی مکان است. این نوع تجزیه و تحلیل امکان ایجاد ماتریس مبدا-مقصد (OD) را فراهم می کند. سه دسته برای ماتریس های OD وجود دارد که می توانند در کاربردهای حمل و نقل مفید باشند. جمعآوری دادهها برای نظرسنجیهای خانگی OD به روش سنتی زمانبر است، دادههای مستمر ارائه نمیدهد و اساساً برای یک منطقه مورد مطالعه خاص است. روش دیگر OD مبتنی بر شمارش از آشکارسازهای ترافیک است. اگرچه این روش زمان برآورد و هزینه ها را کاهش می دهد، اما از نظر نصب زیرساخت در جاده ها هزینه بالایی دارد و همچنین مشکلات پوششی را ارائه می دهد. با ظهور فناوری جدید، منابع جدیدی از داده ها برای جمع آوری داده های جریان ترافیک مانند داده های GPS و بلوتوث معرفی شده اند که برای مثال به دلیل حفظ حریم خصوصی، هر دو محدودیت های خاص خود را دارند. هنگام جمعآوری دادههای مسیر کاربر توسط GPS، موافقت کاربر مورد نیاز است، و از آنجایی که کاربران تمایل دارند بلوتوث دستگاههای خود را برای صرفهجویی در مصرف باتری خاموش کنند، این روی نرخ نمونهگیری تأثیر میگذارد. خدمات LBSN بر تمام این محدودیت ها در عصر فناوری های جدید به عنوان یک راه حل پویای تحرک غلبه می کند. یانگ و همکاران [ و از آنجایی که کاربران تمایل دارند برای صرفه جویی در باتری، بلوتوث را در دستگاه های خود خاموش کنند، این روی نرخ نمونه گیری تأثیر می گذارد. خدمات LBSN بر تمام این محدودیت ها در عصر فناوری های جدید به عنوان یک راه حل پویای تحرک غلبه می کند. یانگ و همکاران [ و از آنجایی که کاربران تمایل دارند برای صرفه جویی در باتری، بلوتوث را در دستگاه های خود خاموش کنند، این روی نرخ نمونه گیری تأثیر می گذارد. خدمات LBSN بر تمام این محدودیت ها در عصر فناوری های جدید به عنوان یک راه حل پویای تحرک غلبه می کند. یانگ و همکاران [40 ] یک ماتریس OD را با استفاده از یک مدل ترکیبی ترکیبی جدید رگرسیون و گرانش با استفاده از دادههای بررسی چهار ضلعی به دست آورد. آنها هشت دسته مکان را با استفاده از روش خوشهبندی سلسله مراتبی انبوهی طبقهبندی کردند. استفاده از داده های آژانس شهری شیکاگو برای برنامه ریزی (CMAP) به مقایسه و ارزیابی مدل آنها در برآورد ماتریس سفر OD برای سفرهای غیر جامعه کمک کرد. در مطالعه دیگری، وانگ و همکاران. [ 41 ] با داده های GPS تاکسی کار کرد تا الگوهای سفر را از جریان های OD بدست آورد. آنها یک نمودار نمودار وتر را برای نشان دادن الگوهای مکانی-زمانی ساکنان در مسیرهای هفت روزه تاکسی در پکن پیشنهاد کردند.
در اثر دیگری، کورککو و همکاران. [ 42 ] یک الگوریتم خوشهبندی مبتنی بر چگالی را پیشنهاد کرد، که متداولترین ویژگیهای تحرک انسان در سفر خانه به محل کار را روشن میکند، دادههای توییتر را بهعنوان یک منبع داده همهجا و مناسب برای روشن کردن نیازهای سفر تأیید میکند. آنها با شناسایی مکانهای خانه، مکانهای پربازدید کاربر را بر اساس تعداد توییتها دستهبندی کردند و بیشترین بازدید را به عنوان خانه یا مبدا در نظر گرفتند. آنها علاوه بر فیلتر زمان، برخی فیلترهای کلیدواژه را روی توییتها اعمال کردند تا مبدا سفر کاربر را تأیید کنند. بر اساس آن شرایط، آنها قوی ترین تراکم را به عنوان خانه برای یک کاربر خاص انتخاب کردند. تحقیقات آنها نشان می دهد که داده های توییتر منبع مناسب بالقوه داده برای تجزیه و تحلیل الگوهای فعالیت هستند. از سوی دیگر، ژوان و همکاران. [ 43] رفتار گروه های مختلف را با استفاده از داده های کارت هوشمند (SCD) شنژن همراه با داده های رسانه های اجتماعی تجزیه و تحلیل کرد. آنها با تمرکز بر دانشجویان و مسافران، بینش های مفیدی را در مورد جریان سفر در هر دو جنبه از ویژگی های مکانی و زمانی آشکار کردند. آنها از الگوریتم K-means برای تقسیم مسافران به گروه های مختلف و بررسی فعالیت های زمانی خاص آنها در روزهای مختلف هفته استفاده کردند. نتایج یک هاب اصلی در سیستم مترو را بر اساس تعداد دفعات ورود و خروج در مجموعه داده نشان می دهد.
همه این کارها ارتباط و پتانسیل استفاده از داده های جغرافیایی از منابع مختلف را برای تجزیه و تحلیل تحرک انسان نشان داده اند. به ویژه، این علاقه به بهره برداری از داده های رسانه های اجتماعی در این زمینه را تایید می کند. در این مقاله، تعدادی الگوریتم منتخب با الهام از کارهای قبلی برای کشف الگوهای انسانی، از تحلیل آماری سنتی و پیشرفت به تحلیل دادههای پویا در رسانههای اجتماعی، پیادهسازی شدهاند.
3. مواد
شرح داده های مورد استفاده در این مطالعه و ویژگی های اصلی آنها در این بخش ارائه شده است و منشاء و ویژگی های آنها توضیح داده می شود. به طور خاص، توصیفی از مجموعه داده Sina Weibo، و همچنین مجموعه داده POI شانگهای ارائه شده است.
3.1. مطالعه موردی
شانگهای یکی از چهار شهرداری تحت مدیریت مستقیم دولت مرکزی جمهوری خلق چین است. این شهر بر روی رودخانه یانگ تسه، در ساحل شرقی چین واقع شده است که در شکل 1 نشان داده شده است. محدوده شهرداری شامل خود شهر، حومه های اطراف و مناطق داخلی کشاورزی است. بر اساس سالنامه آماری شانگهای در سال 2017، شانگهای پرجمعیت ترین شهر چین است که مساحتی معادل 6340.5 کیلومتر مربع دارد و در پایان سال 2016، 24.1970 میلیون نفر در 16 منطقه زندگی می کنند.
در سال 2017، 16 ناحیه (باوشان، چانگنینگ، فنگ شیان، هونگکو، هوانگپو، جیادینگ، جینگان، جینشان، مینهنگ، منطقه جدید پودونگ، پوتوئو، چینگپو، سونگ جیانگ، ژوهوی، یانگپو و چونگمینگ) شهر شانگهای فیگورایی را تشکیل میدادند . ). چونگمینگ بزرگترین جزیره است و مساحت آن 489 مایل مربع است. منطقه پودونگ در ابتدا در سال 1958 تاسیس شد. این منطقه با رودخانه هوانگپو مرز دارد و آن را از منطقه تجاری مرکزی پوکسی جدا می کند. پودونگ یکی از اولین مناطق صنعتی است. منطقه هونگکو یکی دیگر از مناطق مهم صنعتی است که در شمال شرقی رودخانه سوژو قرار دارد.
3.2. مجموعه داده
با پیروی از رویکردی که دادههای رسانههای اجتماعی موقعیت جغرافیایی را بررسی میکند، این مقاله منابع مختلف داده را برای تجزیه و تحلیل تحرک انسان ترکیب میکند. این منابع دادهها شامل دادههای Sina Weibo برای شناسایی مکانهای جغرافیایی مربوط به مکانهای خانه و محل کار و غنیسازی تحلیل است. POI ها همچنین برای نشان دادن مقاصدی که افراد رفت و آمد می کنند استفاده می شود. ابتدا، مجموعه داده اصلی را ارائه میکنیم، سپس توضیح میدهیم که چگونه دادهها به مرزهای انتخابی محدود شدند و چگونه با پایگاه داده POI ترکیب شدند.
3.2.1. داده های سینا ویبو
داده های اولیه از شبکه میکروبلاگ Sina Weibo با استفاده از Baidu API جمع آوری شد. Sina Weibo یک پلت فرم رسانه اجتماعی میکروبلاگینگ است که به عنوان نسخه چینی توییتر در نظر گرفته می شود، زیرا پلتفرم های رسانه های اجتماعی غربی مانند فیس بوک، توییتر و یوتیوب در چین مسدود شده اند. به عنوان دومین سایت محبوب در چین، به روز رسانی رسانه ها و اخبار را ارائه می دهد و کاربران می توانند افراد مشهور مورد علاقه خود را دنبال کنند. نظرسنجی مک کینزی گزارش داد که 95 درصد از مردم چین از سینا ویبو در زندگی روزمره خود استفاده می کنند، در مقایسه با 70 درصد در کره جنوبی و 67 درصد در ایالات متحده [ 44 ].]. (گزارش کامل، “رونق رسانه های اجتماعی چین” را می توانید در وب سایت مک کینزی چین بزرگ، mckinseychina.com بخوانید). در سه ماهه اول 2018، گزارش شد که افزایش 20.7 درصدی نسبت به سال گذشته در استفاده از Weibo وجود داشته است که به 411 میلیون کاربر فعال ماهانه (MAU) رسیده است و یک منبع داده بالقوه برای تجزیه و تحلیل الگوهای حرکتی باز می کند. دادهها در دوره 2014 و 2015 جمعآوری شدند، در مجموع 325713 پست Weibo در کل مجموعه دادهها که بخشی از چین را پوشش میدادند. با توجه به اهمیت شانگهای به عنوان یک شهر جهانی و مرکز مالی چین، در اینجا بر روی داده های متعلق به این شهر تمرکز می کنیم. تعداد پست های Weibo متعلق به شهر شانگهای 248339 است. جدول 2شرح کوتاهی از مجموعه داده ما را نشان می دهد. هر رکورد از داده ها حاوی انواع مختلفی از اطلاعات کاربران است، مانند شناسه کاربری، جنسیت، موقعیت مکانی (طول و عرض جغرافیایی)، زمان، پیام و غیره. پس از ذخیره و فیلتر کردن داده ها، ما از OGIS برای تجسم استفاده کردیم. جدول 2 آمار داده های اولیه را نشان می دهد.
همانطور که جدول 2 نشان می دهد، مجموعه داده اصلی شامل 325713 ورود است و پس از پیش پردازش داده ها به 248339 بررسی کاهش یافت. مراحل تمیز کردن و پیش پردازش اعمال شده بر روی داده های منبع با جزئیات بیشتر در بخش 4 توضیح داده شده است .
3.2.2. داده های مرزی
به منظور درک جنبه فضایی بررسیها، ما از فایلهای شکلی که محدودههای اداری شانگهای را نشان میدهند برای تعیین ناحیهای که پستهای Weibo از آنجا منتشر شدهاند، استفاده کردیم. منابع از یک منبع داده های جغرافیایی باز به نام مناطق اداری جهانی (GADM) گرفته شده است. GADM یک پایگاه داده با وضوح بالا از مناطق اداری (مرزها) برای همه کشورهای جهان، در تمام سطوح زیربخش است. مناطق اداری در این پایگاه شامل کشورها، استانها، بخشها، شهرستانها و غیره است. برای هر منطقه، ویژگیهایی مانند نام، نامهای مختلف و «ویژگیهای فضایی» در مورد موقعیت مناطق ارائه میشود. دادههای GADM به صورت عمومی در دسترس هستند تا براساس کشور یا کل جهان در قالبهای مختلف دانلود شوند، مانند shapefile، RData، فرمت kmz Google Earth و پایگاه جغرافیایی ESRI.شکل 3 تعداد پست های Weibo منتشر شده را در 16 منطقه در شانگهای نشان می دهد.
3.2.3. نقاط مورد علاقه
علاوه بر مجموعه داده Sina Weibo، ما از مجموعه داده POI استفاده کردیم. تعریف نقطه مورد علاقه یک مکان فیزیکی خاص است که ممکن است برای کسی جالب باشد، مانند رستوران، فروشگاه خرده فروشی، بیمارستان، بانک و غیره. برخی از محققان تقاضای سفر برای جابجایی انسان درون شهری را بر اساس داده های POI طبقه بندی کرده اند [ 45 ] . در رویکردی مشابه، این کار ابتدا از Baidu API برای ترجمه متن چینی به انگلیسی و اعتبارسنجی آن با یک زبان مادری چینی استفاده کرد. شکل 4 نمونهای از دادههای POI منبع را نشان میدهد که با ترجمه انگلیسی برای دسته و نام مکان تکمیل شده است، و فقط بر ناحیه جیادینگ تمرکز دارد.
سپس، با دانستن فعالیت POI، دادههای POI را در هشت دسته مختلف طبقهبندی کردیم که عبارتند از: «غذاخوری» (رستورانها، کافهها، فودکورتها و چایخانهها)، «مرکز آموزشی» (مدارس، دانشگاهها، مهدکودکها، کتابخانهها، مؤسسات)، «سرگرمی» (KTV، پارکها، سینماها، موزهها، معابد، سالنهای کنسرت و گالریهای هنری)، «مراقبتهای بهداشتی» (بیمارستانها، کلینیکها، مراکز ورزشی)، «مسکونی» (ساختمانها و مناطق مسکونی مستقل در خانه)، «خدمات» ( سالنهای زیبایی، هتلها، دفاتر پست، فروشگاهها و مراکز خرید)، «حملونقل» (ایستگاههای اتوبوس، ایستگاههای قطار، فرودگاهها و ایستگاههای مترو) و «محل کار» (شرکتها، ادارات، مناطق صنعتی و بانکها). جدول 3 نتایج آماری را نشان می دهد که بینشی را در مورد دسته های مختلف ارائه می دهد.
نتایج آماری در جدول 3 نشان میدهد که دسته «سرگرمی» بیشترین تعداد کاربران را به خود جذب کرده است و پس از آن دسته «حمل و نقل» قرار دارد. بالاترین میانگین ثبت نام متعلق به دسته «محل کار» است. شکل 5 توزیع POI های سازماندهی شده بر اساس دسته بندی را با توجه به موقعیت جغرافیایی آنها در مناطق مختلف شانگهای نشان می دهد. بیشتر POI ها به دسته «خدمات» تعلق دارند و پس از آن «مراکز آموزشی» و «مناطق مسکونی» قرار دارند. کمترین مقدار POI مربوط به دسته های «حمل و نقل» و «مراقبت های بهداشتی» است. رنگ های مختلف غلظت هر دسته از POI را در هر منطقه از شهر شانگهای نشان می دهد.
4. آماده سازی داده ها / پیش پردازش
به منظور به دست آوردن یک مجموعه داده قابل اعتماد و سازگار قبل از اینکه داده ها با استفاده از تکنیک های تجزیه و تحلیل داده ها کاوش شوند، داده های خام به فرمت مناسب تبدیل شدند تا اطمینان حاصل شود که آنها به فضا و دوره مورد علاقه تعلق دارند تا از گنجاندن نتایج مغرضانه جلوگیری شود. . مجموعهای از اسکریپتها در زبان برنامهنویسی پایتون توسعه داده شد که آماده اعمال بر روی مجموعه دادهها هستند. تمام مراحل و تبدیل های اعمال شده در زیر بخش های زیر توضیح داده شده است.
4.1. پاکسازی داده ها
در این بخش از فرآیند، دادههای نادرست شناسایی، فیلتر و تصحیح شدند تا از نتیجهگیری نادرست جلوگیری شود. پیش پردازش شامل فیلتر کردن ستونهای نامربوط، حذف ردیفهای تکراری، رفع ناسازگاریها و انجام هماهنگی دادهها است که امکان تفسیر بهتر دادهها را در فرآیند تحلیل فراهم میکند. پس از حذف 9 ستون از دادهها که حاوی محتوای مرتبط نبودند، 48594 کاربر منحصربهفرد و اندازه مجموعه دادهای 248339 پست Weibo باقی ماندیم.
4.1.1. فیلتر کردن سوابق ورود
علیرغم برخی مکانیسمها برای جلوگیری از آنها در خدمات رسانههای اجتماعی، بررسیهای جعلی وجود دارد. ممکن است زمانی اتفاق بیفتند که کاربر یک برچسب جغرافیایی را برای یک پست انتخاب کند در حالی که در واقع وجود نداشته باشد یا وجود نداشته باشد. مکان یا مکانی که از آنجا توییتها یا پیامها ارسال میشوند، در اینجا «خانه» در نظر گرفته میشود. در تجزیه و تحلیل خود، ما فرض کردیم که مکان یا مکانی که کاربر از آن یک Weibo پست کرده است، یا مکانی که اکثر پیامها در زمانهای غیر کاری از آنجا ارسال میشوند، «خانه» است. به منظور شناسایی مبدا و مقصد و از بین بردن چکهای جعلی، دادهها را فیلتر کردیم. از آنجایی که داده ها دارای دو جنبه مکان و زمان هستند، یک فیلتر اصلی برای هر جنبه اعمال شد:
برای ویژگی زمان، ما فرض کردیم آن دسته از کاربرانی که فقط در یک دوره 10 روزه منتشر کردند احتمالاً گردشگران (بالقوه) هستند. علاوه بر این، ما رابطه مهرهای زمانی مختلف ورود را برای محاسبه مدت زمان ورود با در نظر گرفتن زمان شروع و پایان استخراج کردیم. ما همچنین برای هر Weibo منتشر شده یک مهر زمانی ایجاد کردیم و روز هفته را برای تجزیه و تحلیل بهتر ویژگی زمانی اضافه کردیم.
نقاط پرت در اینجا به عنوان مقادیر شدید غیر مرتبط با منطقه مورد مطالعه فعلی تعریف می شوند. با توجه به موقعیت مکانی، پستهای Weibo را که در محدوده مطالعه موردی ما منتشر شده بودند، با در نظر گرفتن مرزهای سرزمینی، همانطور که در شکل 6 نشان داده شده بود، انتخاب کردیم . از سوی دیگر، برای یافتن کاربرانی که معمولاً از یک مکان مشابه پیام ارسال میکنند، کاربران با فاصله متوسط کمتر از 50 متر را با محاسبه فواصل انحراف پراکندگی هر کاربر فیلتر کردیم. فقط حدود 100 پست Weibo حذف شدند و برخی از آنها از ساحل شانگهای آمده بودند.
4.1.2. فیلتر اضافی
هدف از افزودن فیلترهای بیشتر به تجزیه و تحلیل ما افزایش کیفیت داده ها و کار با داده های مرتبط تر بود. فیلترهای اضافی به منظور تولید نتایج دقیق از این تجزیه و تحلیل اعمال شد:
-
حساب های مختلف شناسایی شده توسط همان شناسه کاربری حذف شدند. ما هر شناسه کاربری با بیش از 100 پست Weibo در روز در همان مکان را حذف کردیم، با در نظر گرفتن اینکه یک حساب ربات است.
-
برای یافتن کاربرانی که فعالیت بسیار کمی در میان کاربران در مطالعه موردی دارند، ما کسانی را حذف کردیم که تنها پنج پست Weibo منتشر کردهاند و کاربران با فعالیت کم را شناسایی کردیم.
-
کاربرانی که 4 روز یا کمتر از حضورهای متوالی داشتند نیز پاک شدند.
با توجه به معیارهای فوق، رکوردهای نهایی چک در مجموع 233467 نتیجه Weibo بود. ما از این داده ها در مرحله بعدی برای استخراج بینش معنادار در تحقیق خود استفاده کردیم.
4.2. تبدیل داده ها
به منظور استفاده از دادههای جمعآوریشده، فیلدهای جدیدی با استفاده از مجموعه دادههای POI و مرزی تولید شدند که در نتیجه یک مجموعه داده غنیشده کامل را ارائه کردند. فیلدهایی که اضافه شد عبارت بودند از:
-
روز هفته: با نقشه برداری بین مهر زمانی و تقویم چینی تعیین می شود.
-
نام منطقه: از ستون موقعیت مکانی GPS و مجموعه داده مرزها تعیین می شود.
-
ناحیه انتشار: از ستون موقعیت مکانی GPS و مجموعه داده مرزها تعیین می شود.
-
دسته فعالیت: با استفاده از نزدیکترین نقطه نقطه تعیین می شود.
5. روش شناسی و نتایج
این تحقیق چرخه عمر یک پروژه تحلیل داده/کاوش متوسط را دنبال می کند. با فرمولبندی سوالات شروع میشود، سپس به جمعآوری دادهها، پیش پردازش دادهها، کاوش در دادهها و ارتباط یافتههای دادهها ادامه میدهد. شکل 7 مراحل روش شناسی اعمال شده را نشان می دهد.
5.1. تجزیه و تحلیل اکتشافی و تجسم
در آزمایشهای خود، تجزیه و تحلیل را به بخشهای مختلف تقسیم کردیم. در این بخش، ما تجزیه و تحلیل آماری مربوط به دادههای Sine Weibo را بین سالهای 2014 و 2015 از 11 منطقه شانگهای، از جمله منطقه CBD، بررسی و مقایسه میکنیم. پس از پاکسازی دادهها، ما 233467 نتیجه ثبتنام و برچسبگذاری جغرافیایی را بهدست آوردیم و آنها را از دیدگاههای مختلف تجزیه و تحلیل کردیم، همانطور که در زیر توضیح داده شده است:
با توجه به تحلیل جوامع مختلف، داده ها را بر اساس جنسیت تحلیل کردیم. نتایج در شکل 8 فعالیت های زنانه و مردانه را در دو دوره زمانی از سال 2014 و 2015 نشان می دهد. ما دریافتیم که در هر دو سال، زنان فعال تر از مردان بودند. با تجزیه و تحلیل مجموع اعداد اعلام حضور بر اساس جنسیت، متوجه شدیم که Sina Weibo، به عنوان یک پلتفرم رسانه اجتماعی، در میان زنان محبوبتر است و 22 درصد کاربران زن بیشتر از مردان است.
به منظور یافتن ساعت اوج فعالیت ها و الگوهای تحرک انسان، داده ها را بر اساس زمان تجزیه و تحلیل کردیم. ما داده های دو دوره مختلف سال را به طور جداگانه تجزیه و تحلیل کردیم و دریافتیم که روند فعالیت تقریباً یکسان است. بنابراین، داده های دوره دو ساله را ادغام کردیم و نتایج را در شکل 9 نشان دادیم.. علیرغم مطالعات دیگری که تحرک را بر اساس بازههای زمانی (هر شش یا چهار ساعت یکبار) تجزیه و تحلیل کردهاند، ما حرکت ساعتی را برای کشف جزئیات بیشتر به دلیل حرکت سریع افراد و به این دلیل که معتقدیم افراد در یک مکان نمیمانند انتخاب کردیم. چندین ساعت و چندین بار چک این. محور افقی نشاندهنده زمان روز است که از نیمهشب (0) شروع میشود و تا ساعت 11 شب حرکت میکند، و محور عمودی تعداد ورودها را در آن زمان یا ساعت مشخص نشان میدهد. توزیع ورود برای زنان (رنگ قرمز) و مردان (رنگ آبی) با دو رنگ متفاوت مشخص می شود. ابتدا، سریهای زمانی را به ترتیب نزولی بر اساس هر مُهر ساعت مرتب کردیم، سپس اعلام حضور کاربر در آن سریها را بر اساس جنسیت بررسی کردیم.
جایی که پتود،تیمجموعه ای از زمان t در روز d برای گروه کاربران u بر اساس جنسیت را نشان می دهد.
نتایج نشان می دهد که زنان و مردان در پایان روزهای کاری در بازه زمانی 18:00 تا 21:00 فعالیت بیشتری دارند، در حالی که فعالیت های کمتری بین ساعت 11:00 تا 14:00 انجام شده است که به عنوان زمان ناهار و استراحت در نظر گرفته می شود. در طول روزهای کاری با این حال، همچنین مشاهده شد که دفعات مراجعه زنان تقریباً ثابت بود، با افزایش جزئی در طول روز، در حالی که برای مردان در همان دوره زمانی برعکس بود.
بر اساس تجزیه و تحلیل، مشخص است که فعالیت های انسانی در طول زمان متفاوت است، اما تحلیل تحرک انسان در مناطق مختلف از اهمیت بالایی برخوردار است. به همین دلیل، ما فعالیت های کاربران را در مناطق مختلف برای نشان دادن وابستگی های فضایی تجزیه و تحلیل کردیم. هدف در اینجا کمک به مقامات شهری است که امیدوارند الگوهای تحرک انسانی در مناطق مختلف شهر را درک کنند. شکل 10 فعالیت های انسانی را بر اساس 11 منطقه شانگهای در سال های 2014 و 2015 نشان می دهد. از شکل 10 ، مشخص است که یانگپو معروف ترین منطقه در بین کاربران است زیرا اکنون محل تالار شهر، The Bund و معروف ترین منطقه است. مراکز خرید و مکان های توریستی
جدول 4 مناطق پربازدید شانگهای را نشان می دهد. در میان این شش منطقه برتر، پنج منطقه در منطقه CBD شانگهای قرار دارند.
علاوه بر این، برای تجزیه و تحلیل بیشتر و عمیق، داده های جغرافیایی بزرگ و تکنیک های کاوی را برای کشف دانش مربوط به روابط مکانی-زمانی، همانطور که در شکل 11 نشان داده شده است، بررسی کردیم . ما فعالیتهای ورود را در ساعات مختلف روز تجزیه و تحلیل کردیم و دادههای دو ساله هفت منطقه شانگهای را که به عنوان یک CBD در نظر گرفته میشوند، مقایسه کردیم. محور افقی نشاندهنده زمان روز است که از نیمهشب (0) شروع میشود و تا ساعت 11 شب حرکت میکند، و محور عمودی تعداد ورودها را در آن زمان یا ساعت مشخص نشان میدهد. توزیع چک در یازده منطقه شانگهای، از جمله منطقه CBD و چهار منطقه مجاور آن، که با رنگ های متفاوت نشان داده شده اند، نشان داده شده است.
تجزیه و تحلیل نشان می دهد که مردم تمایل دارند پست های Weibo بیشتری را در بازه زمانی 1100 تا 1400 ساعت منتشر کنند که به عنوان زمان ناهار و استراحت در نظر گرفته می شود. هر رنگ ناحیه متفاوتی را نشان می دهد و اندازه گرافیک تعداد پست های Weibo پست شده در آن ناحیه را نشان می دهد. می بینیم که روندها در طول دو سال تقریباً یکسان است. افزایش واضحی در تعداد پستهای Weibo پست شده در طول دوره استراحت ناهار و زمانی که مردم معمولاً در شب به خانه بازمیگردند، افزایش یافته است.
5.2. تخمین چگالی هسته (KDE)
همانطور که در بالا مورد بحث قرار گرفت، اطلاعات زمانی حرکت در فضای جغرافیایی برای تشخیص روندهای مکانی-زمانی تحرک زیربنایی انسان مهم است. با این حال، با افزایش تعداد مسیرهای انباشته شده انسان/خودرو در فضای شهری، تفسیر مدل نمایش مسیر فضا-زمان به دلیل همپوشانی و مسائل به هم ریخته دشوار خواهد بود. برای حل این مشکل، ما از تخمین چگالی هسته (KDE) [ 46 ] استفاده کردیم]، که به طور گسترده در تجزیه و تحلیل فضایی برای توصیف یک سطح چگالی صاف که خوشه بندی جغرافیایی ویژگی های نقطه یا خط را در فضای دو بعدی نشان می دهد، استفاده شده است. KDE یک الگوریتم ناپارامتریک است که برای محاسبه چگالی ویژگی ها در یک مجموعه داده معین استفاده می شود. استفاده از KDE به ما کمک می کند تا یک منحنی صاف در یک مجموعه داده معین ایجاد کنیم و قوی ترین چگالی را پیدا کنیم، که نشان دهنده مهم ترین مکان ها در زندگی افراد است. KDE به صورت زیر فرموله شده است
که در آن h پهنای باند و n تعداد نقاط است. پهنای باند بر روانی توزیع حاصل تأثیر می گذارد. با تابع هسته k ، این الگوریتم نقاط هر مکان را وزن می کند تا فاصله را محاسبه کند. پهنای باند تأثیر مستقیمی بر شکل منحنی دارد، به این معنی که هر چه مقدار پارامتر پهنای باند بزرگتر باشد، منحنی صاف تر است که حاوی نقاط بیشتری است (پهنای باند زیاد منجر به توزیع چگالی بسیار صاف و پهنای باند کوچک منجر به توزیع نامنظم). از آنجایی که ما KDE را اعمال کردیم، میتوانیم یک خط منحنی نشان دهیم که توزیع زیربنایی را نشان میدهد، که به صورت بیان میشود
همانطور که در رابطه (3) نشان داده شده است، k تخمین تابع هسته از چگالی در یک نقطه y در یک گروه از نقاط است، x i ، و i = 1 … N و h پهنای باند است. ما از KDE برای یافتن نزدیکترین همسایه در اینجا استفاده کردیم.
این فرآیند شامل یافتن نزدیکترین همسایه POI به هر وضعیت کاربر با استفاده از یک الگوریتم جستجوی فضایی کارآمد به نام KD-Tree است که درخت جستجوی دودویی (شاخص) را برای مطابقت با جستجوها ایجاد می کند که به سرعت انجام می شود و زمان جستجو را کاهش می دهد. O (d log n) جایی که dتعداد ابعاد (در این مورد، دو عرض و طول جغرافیایی) است. اگر یک POI در یک umbral از پیش تعریف شده باشد، دسته فعالیت را به وضعیت کاربر مرتبط می کنیم. الگوریتم KD-Tree شامل تقسیم فضا در امتداد یک بعد در یک زمان (به عنوان مثال عرض جغرافیایی)، یافتن میانه داده هایی که با بعد انتخاب شده مطابقت دارند، تقسیم داده ها بر اساس میانه و تغییر محور در یک چرخه است. در هر مرحله پارتیشن بندی مد کنید تا زمانی که در هر پارتیشن بیشترین تعداد M نقطه را در هر پارتیشن داشته باشیم (اندازه برگ 10).
همانطور که در شکل 12 نشان داده شده است ، اکثر فعالیت های کاربران در مرکز شانگهای، یا به طور خاص، در هفت منطقه، از جمله Jingan، Hongkou، Huangpu، Xuhui، و Putuo قرار دارند که به عنوان مناطق تجاری مرکزی (CBD) در نظر گرفته می شوند. با تمرکز بر این حوزه های خاص، تحرک افراد را در جنبه های مختلف تحلیل کردیم. ابتدا، به منظور حذف نویز و دستیابی به داده های روان تر، از الگوریتم خوشه بندی فضایی مبتنی بر چگالی برنامه ها با نویز (DBSCAN) استفاده کردیم.
5.3. خوشه بندی فضایی مبتنی بر چگالی برنامه های کاربردی با نویز (DBSCAN)
تجزیه و تحلیل خوشه بندی فضایی یک تکنیک داده کاوی شناخته شده است. این اشیاء را بر اساس شباهتهایشان در هر دو جنبه مکان و ویژگی به خوشهها گروهبندی میکند. در این مطالعه از DBSCAN [ 47 ] استفاده شد. ما از الگوریتم DBSCAN برای یافتن خوشههایی از مکانهای مهم در تحرک کاربر استفاده کردیم، که به طور متراکم در منطقه دادهشده در مجموعه داده به هم متصل هستند. به عنوان یک روش خوشه بندی، DBSCAN می تواند نویز را در مجموعه ای از نقاط حذف کند و بررسی کند که آیا بر اساس فاصله اقلیدسی، گروهی از نقاط به یکدیگر نزدیک هستند یا خیر. دو پارامتر اصلی توسط DBSCAN مورد نیاز است:
-
اپسیلون ( eps ): برای یافتن نقاط همسایگی نزدیک، eps به عنوان حداکثر فاصله مورد نیاز بین نقاط برای تعریف یک خوشه تعیین می شود.
-
MinPts ( MinPts ): این پارامتر حداقل تعداد نقاط را برای شکل دادن به یک خوشه نشان می دهد.
به عنوان مثال، اگر eps برابر با 0.5 متر و MinPts برابر با 7 باشد، DBSCAN با یک نقطه تصادفی شروع می کند و هفت نقطه را در اطراف منطقه خود تا 0.5 متر کشف می کند و اولین خوشه را تشکیل می دهد و اگر نتوانست خوشه را پیدا کند. حداقل تعداد نقاط برای تعریف منطقه متراکم، این نقطه تصادفی را به عنوان نویز در نظر می گیرد. ما 5 درصد از پستهای Weibo منتشر شده کاربر در مجموعه داده را به عنوان MinPts با مقدار esp 200 متری انتخاب کردیم . انتخاب یک مقدار مناسب برای eps بسیار مهم است، زیرا اگر مقدار خیلی زیاد باشد، اکثر نقاط در یک خوشه ادغام می شوند، در حالی که، از طرف دیگر، اگر مقدار کمی برای eps انتخاب شود.، نقاط کافی برای خوشه وجود نخواهد داشت یا حداقل تعداد نقاط را نمی بیند و در نتیجه به عنوان نویز در نظر گرفته می شود. برای یافتن مقدار eps مناسب می توان از نمودار فاصله k استفاده کرد . در اجرای الگوریتم DBSCAN داده ها فیلتر شدند و کاربرانی که کمتر یا مساوی 20 پست Weibo داشتند انتخاب شدند. ما پارامترهای DBSCAN را برای یافتن پنج نمونه در فاصله 500 متری برای ایجاد یک خوشه تنظیم کردیم. شکل 13 نمونه ای از خوشه بندی با DBSCAN را نشان می دهد.
یکی از چالش های اصلی در تجزیه و تحلیل داده های LBSN، سوگیری در تحرک انسان است، زیرا کاربران می توانند مکان خود را در هر زمان و مکان در خانه یا محل کار به روز کنند. با استفاده از DBSCAN، مهمترین مکانها در تحرک کاربر را پیدا کردیم و قویترین مکان یک کاربر، یعنی متراکمترین منطقه با بیشترین امتیاز را «خانه» در نظر گرفتیم، زیرا افراد وقت آزاد بیشتری در خانه دارند و ما معتقدیم. که بین زمان آزاد و ارسال پست در Weibo رابطه وجود دارد. نتایج با جنبههای مکانی-زمانی پستهای منتشر شده Weibo تأیید شد. برای جنبه فضایی، ما طول و عرض جغرافیایی هر منطقه، علاوه بر داده های مرزی را بررسی کردیم. برای جنبه زمانی در هر منطقه، ما فرض کردیم که دوره زمانی بین 6 تا 11 بعد از ظهر، در طول دوشنبه تا شنبه نماینده فعالیت های “خانه” است. با این حال،شکل 13 . نتایج به طور تصادفی با بررسی نمایه کاربر تأیید شد، جایی که آنها منطقه مسکونی خود را هنگام ایجاد حساب کاربری خود انتخاب کردند.
شکل 14نمای کلی از حرکت کلی بین ولسوالی ها را نشان می دهد. به طور کلی، تحرک در مقطع تحصیلی با درصد مجموع پستهای Weibo از مناطق غیر CBD به تعداد کل پستهای Weibo محاسبه شد و تحرک خارج از مدرک، درصد تعداد پستهای Weibo از همه مناطق CBD است. تقسیم بر تعداد کل پستهای Weibo و به منظور ارائه جزئیات بهتر از ایده تحرک، ما نتایج آماری و همچنین نقشه جغرافیایی را به طور جداگانه برای هر منطقه برای کاربرانی که “خانه” در همان منطقه بود و دارای آن بودند، تجسم کردیم. در طول روز از ساعت 8 صبح تا 6 بعدازظهر در منطقه CBD چک میکنید. برای انجام این کار، ما باید معیارهای جابجایی را محاسبه کنیم. ما جابهجایی بین اعلام حضورهای تکراری کاربران را بررسی کردیم، که نشاندهنده فاصله تحرک بین مکانهای احتمالی خانه کاربر است.
اگرچه مدل جاذبه متداولترین روش مورد استفاده برای تخمین فاصله ورودهای متوالی است، برخی محدودیتها وجود دارد که باید متعادل شوند، همانطور که در [ 30 ] ذکر شد. بنابراین، به دنبال مطالعات قبلی [ 48 ]، ما فرمول هاورسین را برای محاسبه فاصله دایره بزرگ بین یک جفت نقطه با تغذیه طول و عرض جغرافیایی دو پست منتشر شده Weibo در یک فاصله سه ساعته در معادله زیر پیشنهاد کردیم.
جایی که r شعاع زمین است، φ طول جغرافیایی و λعرض جغرافیایی است. در هر بازه سه ساعته، جابجایی با تقسیم مجموع جابجایی ها بر تعداد کل کاربران منحصر به فرد محاسبه می شود.
سپس،
جایی که Dدمن، تیپمیانگین جابجایی ها را از دو دوره زمانی نشان می دهد، تیپ ، و تیپ+Δتیبرای هر روز d i . عبارت اسد،تینشان دهنده جابجایی ها برای Uد،تیمشارکت کاربران در هر روز و در فواصل زمانی مشخص. در این مطالعه، الف Δتیمقدار = از 3 ساعت برای محاسبه تحرک بین مناطق استفاده شد. همانطور که در معادله نشان داده شده است، میانگین جابجایی با تقسیم مجموع همه جابجایی ها بر تعداد کل کاربران محاسبه می شود و نتایج آن در شکل 15 نشان داده شده است. بسته Python ‘geopy’ برای اجرای کد و محاسبه فاصله بین پستهای Weibo استفاده شد.
ما چهار گروه (خوشه) برای چهار منطقه همسایه Baoshan، Pudong، Minhang و Jiading ایجاد کردیم که شامل کاربرانی است که “خانه” آنها در طول جغرافیایی و عرض جغرافیایی هر منطقه قرار دارد. ما تحرک کاربران را در روزهای هفته به منطقه تجاری مرکزی بررسی کردیم، همانطور که در شکل 15 نشان داده شده است (در اینجا، فایل های تکمیلی را بررسی کنید تا تحرک پویا افراد را ببینید).
5.4. بیضی انحراف استاندارد (SDE)
بیضی انحراف استاندارد (SDE) توسط Baojun برای تجزیه و تحلیل ویژگی های توزیع داده های نقطه گسسته، با در نظر گرفتن یک بیضی چرخشی با یک محور طولانی که توزیع جهت گیری اصلی را نشان می دهد، پیشنهاد شد [ 49 ]. برخی از توابع SDE در نرم افزار موجود است، به عنوان مثال، ArcGIS، که برای تجزیه و تحلیل داده های مکانی-زمانی استفاده می شود، که به تجسم بیضی توزیع جهت نقاط گسسته داده کمک می کند. به عنوان یک ابزار موثر، مدلی واقع بینانه برای حرکت انسان با حساسیت کمتر نسبت به موارد دور از ذهن تجسم می کند. از آن برای زمینه های تحقیقاتی، مانند میدان تحلیل جغرافیایی [ 50 ] استفاده شده بود. در یک سطح دقیق، ما همچنین از این روش مفید برای بررسی تحرک انسان با برچسب تقاضای سفر استفاده کردیم. همانطور که در شکل 16 نشان داده شده است، حرکت عمده مردم در امتداد منطقه CBD در جهت غرب به شرق است. خروج از مرکز بیضی در بازه زمانی 4 تا 8 بعد از ظهر بزرگتر است و به تدریج در شب از بازه زمانی بین 10 شب تا نیمه شب کاهش می یابد. این منطقه به شدت به توزیع جغرافیایی زیرساخت های شهر متصل است، زیرا منطقه CBD، که Puxi نیز نامیده می شود، توسط رودخانه Huangpu در قسمت غربی به دو نیم شده و توسط منطقه جدید پودونگ به بخش شرقی رودخانه متصل می شود، جایی که یکی از مهمترین جاذبه های گردشگری واقع شده است.
برای پاسخ به یکی از اهداف این مطالعه، یعنی روشن کردن علایق یا دلایل نقل مکان به مناطق دیگر، تحلیل خود را بر حرکت کل هر یک از چهار ناحیه همسایه یعنی بائوشان، جیادینگ، مینهنگ و پودونگ، به منطقه CBD و به سمت نقاط مورد علاقه در هر منطقه. نتایج در شکل 17 نشان داده شده است.
از شکلها، میتوانیم حقایق زیر را درک کنیم که اعتبار دادههای رسانههای اجتماعی با برچسب جغرافیایی را اثبات میکنند:
-
فعالیتهای مربوط به حملونقل در پوتوئو (زیرا ایستگاه راهآهن غربی در این منطقه است) از ناحیه همسایه و کمتر از پودونگ است، و این منطقی است زیرا یک فرودگاه اصلی در پودونگ وجود دارد.
-
می توان مشاهده کرد که با وجود پودونگ، افراد کمتری از Baoshan به CBD نقل مکان می کنند. دلیل این امر این است که جمعیت و مساحت بائوشان کمتر است و افراد بیشتری از پودونگ کوچ می کنند.
-
فعالیت های آموزشی بیشتر در یانگپو انجام می شود (در آنجا چند دانشگاه معروف وجود دارد).
-
نتیجه جالب دیگر این است که از هر ولسوالی همسایه، تحرک در ولسوالی مرزی نسبت به ولسوالی های دورتر افزایش یافته است. به عنوان مثال، تحرک کمتری از Baoshan به Xuhui یا Changning دیده می شود.
علاوه بر این، یکی دیگر از نتایج جالب به دست آمده توسط این تجزیه و تحلیل، تایید الگوهای فضایی مختلف افرادی است که به سمت نقاط دیدنی در منطقه CBD شانگهای حرکت می کنند. داده های ما گرایش سفر را در هشت دسته از هفت منطقه نشان می دهد. همانطور که در شکل 18 نشان داده شده است، برای هر مسیر یک ماتریس وجود دارد که به صورت Tx , y نشان داده شده است ، که در آن x ∈{1،2،3، …، 7} دسته از نقاط مورد علاقه و y ∈ {1،2،3، …، 8} ناحیه. Tx ,y در هر منطقه نشان دهنده مسافت سفر در آن مرز خاص منطقه در یک بازه زمانی است که ما انتخاب کردیم، یعنی دو ساعت، که ما آن را نماینده یک فعالیت در یک روز در نظر گرفتیم و به منظور جلوگیری از افزونگی داده ها. .
این آزمایش موفقیت آمیز بود، زیرا توانست یافته های زیر را شناسایی کند:
-
در میان تمام مسیرهای سفر، ماتریس به این نکته اشاره میکند که حرکت بزرگتری در یانگپو ( T 7، y ) و پوتوئو ( T 5، y ) اتفاق افتاده است، اما نه در هونگکو ( T2 ، y )، که نشاندهنده حرکت کوچکتر است. دلیل این امر ممکن است این باشد که مساحت زمین در Yangpu و Putuo بزرگتر از بقیه مناطق است. ( T 1،7 ) مثال خوبی برای استفاده از حمل و نقل در منطقه Changning است، همانطور که در ایستگاه های قطار یا فرودگاه بین المللی در این منطقه مشهود است و به ترتیب Putuo ( T 5،7 ) و Jingan ( T 4، 7 )؛
-
یکی دیگر از یافته های جالب، تقاضای سفر برای فعالیت های سرگرمی است که نشان می دهد Huangpu ( T 3,3 ) در مقایسه با Changning و Hongkou که دامنه کوچکتری دارند، یک انتخاب ارجح است. T 2،8 این نکته را به وضوح نشان می دهد، جایی که بررسی های مربوط به محل کار در منطقه هونگکو به تلاش کمتری برای سفر نیاز دارد. با این حال، این مورد برای مناطق Xuhui و Yangpu، با Tx،y بزرگتر در مورد دسته “غذاخوری” برعکس است.
-
اثربخشی تکنیک SDE در شکل 18 نشان داده شده است که جهت آشکار حرکت را نشان می دهد. برای مثال، جهت حرکت مردم در Xuhui تقریباً شمال غربی و حرکت در Huangpu تقریباً به سمت جنوب شرقی است. علیرغم این واقعیت که داده های LBSN برای تخمین مبدا-مقصد شهروندان به اندازه کافی دقیق نیستند، از نتایج ارائه شده توسط این تجزیه و تحلیل تضمین می شود که آنها برای برنامه ریزی شهری و علاوه بر این، طراحی زیرساخت های شهر بسیار مفید هستند.
6. بحث
تجزیه و تحلیل آماری مجموعه ای قوی از تکنیک ها و ابزارها را برای درک داده ها مستقل از موضوع و حوزه ارائه می دهد. در مورد الگوهای تحرک مرتبط با کاربران در رسانههای اجتماعی، این نوع ابزار بینشهایی را برای درک توزیع کاربران (تحلیل جنسیت)، نحوه و زمان تعامل آنها با یکدیگر (تحلیل زمانی) و مکان حرکت آنها در یک مکان خاص ارائه میکند. منطقه (تحلیل مکانی – زمانی). اگرچه این تکنیکها به درک نحوه حرکت و تعامل افراد کمک میکنند، استفاده از الگوریتمهای یادگیری نیمهنظارتشده (مانند خوشهبندی) درک عمیقتری از الگوهای تحرک و نحوه توزیع کاربران خود در بین نقاط مختلف مورد علاقه را فراهم میکند و در نهایت منجر به تخمین گرایش میشود. مکان ها و مسیرهای مسیر
ترکیبی از ابزارهای آماری پایه و الگوریتمهای گروهبندی به محققان و برنامهریزان اجازه میدهد تا در مورد نحوه تعامل کاربران مفروضاتی ایجاد کنند که پس از استفاده از ابزارهای تجسم کافی، میتواند به افزایش کیفیت تصمیمگیری در شهرهای هوشمند کمک کند. علاوه بر این، مدت زمان کافی دادههای رسانههای اجتماعی مبتنی بر مکان، اطلاعات دنیای واقعی را فراهم میکند که از تصمیمگیری در محیطی با رشد سریع پشتیبانی میکند. اکثر برنامه های کاربردی امروزه محتوای متنی اطلاعات را برای درک اینکه مردم چه فکر می کنند و چگونه این اطلاعات را به دیگران تحویل می دهند تجزیه و تحلیل می کنند، اما تجزیه و تحلیل داده های مکانی-زمانی با در نظر گرفتن مزایای مرتبط با استخراج الگوهای تحرک و تحرک در حال افزایش است. چگونه می توان از آنها برای افزایش تجربه کاربر در یک منطقه خاص استفاده کرد. این سؤالات زیر را مطرح می کند: چه کسی فعال تر است؟ مردم تمایل دارند به کجا بروند؟ چگونه بین یکدیگر گروه می شوند؟ اینها سوالاتی هستند که می توان با آزمایش های اکتشافی ارائه شده در این مقاله پاسخ داد، که ارتباط آن را برجسته می کند. مطالعه شانگهای، به عنوان یکی از پیشرفته ترین شهرها، حقایق مهمی را آشکار می کند که نه تنها به برنامه ریزان شهری کمک می کند تا تصمیمات بهتری بگیرند، بلکه به توسعه دهندگان تجاری نیز کمک می کند. آشکارسازی همبستگی توزیع مکانی-زمانی به مدیران کمک می کند تا خدمات بهتری را در مناطق مختلف به منظور کاهش ازدحام در یک منطقه خاص و بهبود کیفیت زندگی ارائه دهند. برای مثال، وقتی نتایج نشان میدهد درصد خاصی از مردم برای مراقبتهای بهداشتی یا خدمات پزشکی از ناحیه A به منطقه B نقل مکان میکنند، این نشان میدهد که مردم تمایل دارند خدمات بهتری در منطقه B دریافت کنند یا با کمبود خدمات خاص در مبدا مواجه هستند. تجزیه و تحلیل هشت فعالیت مختلف در هفت منطقه اصلی شانگهای در این تحقیق برای برنامه ریزان شهری برای تصمیم گیری دقیق در طراحی ساختاری بهتر برای یک شهر مفید است. از سوی دیگر، شناسایی نقاط داغ در شهر جنبه جدیدی را برای فرصت های تجاری باز می کند. تصور کنید یک شرکت می خواهد سرمایه خود را برای افتتاح شعبه جدیدی در شهر سرمایه گذاری کند. این تحقیق به آنها کمک می کند تا خطر از دست دادن خود را کاهش دهند. در مقایسه با کار اخیر رضوان و همکاران. [ این تحقیق به آنها کمک می کند تا خطر از دست دادن خود را کاهش دهند. در مقایسه با کار اخیر رضوان و همکاران. [ این تحقیق به آنها کمک می کند تا خطر از دست دادن خود را کاهش دهند. در مقایسه با کار اخیر رضوان و همکاران. [51]، در این کار تحقیقاتی ما رفتار حرکتی انسان را تحلیل کردیم. روشها و الگوریتمهای مختلفی بر روی دادههای POI و دادههای رسانههای اجتماعی Sina Weibo برای یافتن منطقه CBD شانگهای استفاده شده بود. این تجزیه و تحلیل نشان داد که منبع مفیدی از دادهها و دادههای رسانههای اجتماعی مبتنی بر مکان برچسبگذاری شده جغرافیایی به عنوان ابزار تحقیقی مناسب برای محققان است. با خوشهبندی رفتار تحرک کاربر مشابه، انواع رفتار شهروندان را بر اساس جنسیت و فاصله آنها از منطقه CBD دریافتیم. علاوه بر این، ما دلایل تمایل مردم برای رفتن به منطقه CBD شانگهای را بررسی کردیم. با ایجاد هشت گروه از فعالیتها، مانند غذاخوری، سرگرمی و مکانهای کاری، اهداف پنهان تحرک را آشکار کردیم. این بینش های جدید نه تنها برای توسعه دهندگان کسب و کار، بلکه برای دولت نیز برای بهبود کیفیت زندگی در شهرهای توسعه یافته مفید است. تجزیه و تحلیل داده های Weibo در هر دو جنبه از تحرک مکانی-زمانی انسان به منطقه CBD شانگهای در کار قبلی روی آن متمرکز نشده بود. علاوه بر این، بررسیهای تکراری کاربران از «خانه» به منطقه CBD برای اندازهگیری ماتریسهای جابجایی با فرمول هاورسین محاسبه شد. در مقابل [51 ]، که تنها بر تجزیه و تحلیل فراوانی استفاده از LBSN بر اساس تفاوتهای جنسیتی در ده ناحیه شانگهای متمرکز بود، ما چهار گروه از مناطق همسایه را ایجاد کردیم و رفتار تحرک کاربر و اهداف آنها را در منطقه CBD، به علاوه مسیرهای متحرک در شانگهای تجزیه و تحلیل کردیم.
مزایای زیادی در ارتباط با این مطالعه وجود دارد (مانند مواردی که در فصلهای قبلی ارائه شد)، اما برخی محدودیتهای طبیعی نیز وجود دارد، مانند در دسترس بودن دادههای زمانی، که در بسیاری از کانالهای رسانههای اجتماعی، محدود شده است (مثلاً توییتر). نتایج همچنین به شدت وابسته به تعامل کاربر با نقاط مورد علاقه مختلف است، جایی که تعامل کم به معنای درک ضعیف الگوهای تحرک است، در حالی که تعامل بالاتر به معنای درک بهتر است که میتواند از تصمیمهای برنامهریزی شهری هوشمند پشتیبانی کند.
محدودیتهای اضافی در این مطالعه شامل ترجیحات کاربر، مربوط به دفعات بهروزرسانی رویدادهای طول عمر است (فعالیتهای پراکنده منجر به نتایج مغرضانه میشوند). کاربران همچنین تمایل دارند در مورد موقعیت و ترجیحات خود دروغ بگویند، زیرا رسانه های اجتماعی یک مرکز خصوصی نیستند، بنابراین اطلاعات می توانند برای اهداف مخرب مورد استفاده قرار گیرند.
برای غلبه بر محدودیتهای قبلی، الگوریتمهای زمانی-مکانی مختلف و تکنیکهای پیشپردازش مختلف برای دادهها را بررسی میکنیم تا نتیجهگیریها را اصلاح کنیم، با در نظر گرفتن اینکه نه تنها فراوانی اقدامات، بلکه عامل گروهبندی دادهها در مورد تحرک کاربران نیز مهم است. . ایده این است که به جای استنباط در مورد روابط متغیر بین داده ها (به عنوان مثال، تجزیه و تحلیل آماری کلاسیک) به پیش بینی های دقیق تری بر اساس پردازش خودکار الگو برسیم.
7. نتیجه گیری
تکنیک های آماری مختلف به منظور استخراج الگوهای تحرک ارزشمند از اینترنت استفاده شد. نتایج بهدستآمده، قابلیت دوام روش پیشنهادی را به عنوان راهی برای استخراج دانش مکانی-زمانی از کاربران در یک سایت رسانه اجتماعی پرطرفدار برجسته میکند. با توجه به مفاهیم نظری رویکرد ارائه شده، نتایج زیر حاصل شده است.
Sina Weibo بهعنوان یک کانال رسانههای اجتماعی، حجم زیادی از اطلاعات را ارائه میکند که از نظر کشف الگوی تحرک ارزشمند است. به طور خاص، تعاملات دقیق موقعیت جغرافیایی، کیفیت اطلاعات کشف شده را افزایش می دهد. تجزیه و تحلیل جنسیتی بیش از حجم زیادی از تعاملات رسانه های اجتماعی می تواند به عنوان نقطه شروعی برای کشف روندهای دقیق استفاده شود که در غیر این صورت ممکن است به دلیل همگن بودن داده ها از بین بروند. این می تواند پاسخ به سوالاتی مانند: چه کسی در طول هفته ساعات بیشتری کار می کند؟ چه کسی در یک مکان خاص در شبکه های اجتماعی فعال تر است؟ اینها سوالاتی است که با این نوع تحلیل می توان به آنها پاسخ داد. تجزیه و تحلیل زمانی آمارهای مختلفی را در ارتباط با فعالیت های کاربر در طول زمان تولید می کند و به کشف ساعات اوج مد روز در یک منطقه کمک می کند. الگوهای بهدستآمده همچنین به درک بهتر فعالیتهای کاربر در طول زمان کمک میکنند و این که چگونه بر تعاملات آنها در یک کانال رسانه اجتماعی تأثیر میگذارد. نقاط مورد علاقه منبع مناسبی از اطلاعات زمانی را برای یافتن الگوهایی مانند تعاملات بین مکانهای مختلف و برای پیگیری تعاملات و مکانهای کاربری مکانی-زمانی مرتبط فراهم میکنند.50 ].
نتایج تجربی با DBSCAN در اینجا، خوشههای دقیقی را ارائه میکند که مکانهای مهم در تحرک کاربر را نشان میدهد، نقاط پر سر و صدایی را فیلتر میکند که ظاهرا مهم هستند، اما بر اساس اندازهگیریهای فاصله به خوبی به هم متصل نیستند. این در نهایت منجر به الگوهایی می شود که می توان از آنها برای کشف تحرک روزانه در یک منطقه خاص استفاده کرد. در اینجا، الگوریتم KDE تجزیه و تحلیل روشنگرانه ای از خوشه های DBSCAN تولید می کند که بر اساس تراکم نقاط، به تشخیص گروه های ریز دانه کمک می کند. خوشه های به دست آمده پس از اعمال هر دو الگوریتم، کشف الگوهای تحرک را با شناسایی نقاط داغ بازدید شده توسط کاربران غنی می کنند. تحقیقات در مورد استفاده از آمار برای درک الگوهای تحرک انسانی همچنان به نفع بهبود نتایج به دست آمده، با در نظر گرفتن پیچیدگی / اندازه داده های رسانه های اجتماعی است. کار در حال انجام و آینده شامل اقدامات زیر است: به کارگیری روش پیشنهادی در کانال های مختلف رسانه های اجتماعی، در نظر گرفتن فرصت ها و محدودیت های مرتبط، و همچنین در دسترس بودن داده های باز. با استفاده از سایر تکنیک های آماری شناخته شده، تطبیق یک دیدگاه معنایی برای کشف الگوهای تحرک مرتبط با جنبه های مکانی-زمانی کاربران در رسانه های اجتماعی؛ و ایجاد چارچوبی از ابزارها/تکنیک هایی که می تواند به طور کلی در کانال های مختلف رسانه های اجتماعی برای تولید اطلاعات ارزشمند مستقل از موضوع و دامنه داده ها و همچنین پیچیدگی اطلاعات اعمال شود. و همچنین در دسترس بودن داده های باز؛ با استفاده از سایر تکنیک های آماری شناخته شده، تطبیق یک دیدگاه معنایی برای کشف الگوهای تحرک مرتبط با جنبه های مکانی-زمانی کاربران در رسانه های اجتماعی؛ و ایجاد چارچوبی از ابزارها/تکنیک هایی که می تواند به طور کلی در کانال های مختلف رسانه های اجتماعی برای تولید اطلاعات ارزشمند مستقل از موضوع و دامنه داده ها و همچنین پیچیدگی اطلاعات اعمال شود. و همچنین در دسترس بودن داده های باز؛ با استفاده از سایر تکنیک های آماری شناخته شده، تطبیق یک دیدگاه معنایی برای کشف الگوهای تحرک مرتبط با جنبه های مکانی-زمانی کاربران در رسانه های اجتماعی؛ و ایجاد چارچوبی از ابزارها/تکنیک هایی که می تواند به طور کلی در کانال های مختلف رسانه های اجتماعی برای تولید اطلاعات ارزشمند مستقل از موضوع و دامنه داده ها و همچنین پیچیدگی اطلاعات اعمال شود.
بدون دیدگاه