خلاصه

داده های مسیر امکان مطالعه رفتار اجسام متحرک، از انسان تا حیوانات را فراهم می کند. ارتباطات بی‌سیم، دستگاه‌های تلفن همراه و فناوری‌هایی مانند سیستم موقعیت‌یابی جهانی (GPS) به رشد زمینه تحقیقات مسیر کمک کرده‌اند. با رشد قابل توجهی در حجم داده های مسیر، ذخیره چنین داده هایی در سیستم های مدیریت پایگاه داده مکانی (SDBMS) چالش برانگیز شده است. از این رو، داده های بزرگ مکانی به عنوان یک فناوری مدیریت داده برای نمایه سازی، ذخیره سازی و بازیابی حجم زیادی از داده های مکانی-زمانی پدیدار می شود. انبار داده (DW) یکی از برترین زیرساخت های تجزیه و تحلیل کلان داده و پردازش پرس و جو پیچیده است. انبارهای داده مسیر (TDW) به عنوان یک DW که به تجزیه و تحلیل داده های مسیر اختصاص داده شده است ظاهر می شود. فهرست و بحث در مورد مشکلاتی که از TDW و جهت‌های رو به جلو برای کارهای در این زمینه استفاده می‌کنند، اهداف اولیه این نظرسنجی است. این مقاله پیشرفته‌ترین روش‌های تحلیل مسیر داده‌های بزرگ را جمع‌آوری می‌کند. درک اینکه چگونه تحقیق در داده های مسیر انجام می شود، چه تکنیک های اصلی استفاده شده است، و چگونه می توان آنها را در معماری پردازش تحلیلی آنلاین (OLAP) جاسازی کرد، می تواند کارایی و توسعه سیستم های تصمیم گیری را که با داده های مسیر سر و کار دارند، افزایش دهد.

کلید واژه ها:

انبار داده ; داده های تحرک سیر معنایی ; کلان داده ؛ تجزیه و تحلیل

1. معرفی

توسعه سریع ارتباطات بی‌سیم و فن‌آوری‌های جمع‌آوری داده، همراه با تکامل فناوری‌هایی که ذخیره و پردازش حجم‌های بزرگ داده را امکان‌پذیر می‌سازد، به رشد قابل‌توجه برنامه‌هایی که با داده‌های مسیر سر و کار دارند، کمک کرده است. داده های مسیر، موقعیت جسم را در فضا در یک لحظه خاص ثبت می کنند. به گفته ژنگ، چهار دسته از داده های مسیر وجود دارد: تحرک افراد، تحرک وسایل نقلیه حمل و نقل، تحرک حیوانات، و تحرک پدیده های طبیعی [ 1 ].
اجسامی که توسط مسیرها توصیف می شوند معمولاً اجسام متحرک نامیده می شوند زیرا مکان مکانی آنها در طول زمان تغییر می کند و اغلب این تغییرات در زمان پیوسته هستند. با این حال، برای ذخیره در یک سیستم پایگاه داده، آنها به عنوان مکان های مجزا نشان داده می شوند [ 2 ].
به طور کلی، کارهای تحقیقاتی موجود، مسیرها را به عنوان دنباله ای از نقاط جغرافیایی که در رابطه با زمان مرتب شده اند نشان می دهند [ 3 ]. داده های مسیر را می توان در هر دو سیستم پایگاه داده مکانی یا غیر مکانی ذخیره کرد. مزیت مدیریت داده های مسیر در یک پایگاه داده فضایی (به عنوان مثال، Oracle Spatial و PostgreSQL + Postgis) یکپارچگی ایجاد شده بین اجزای فضایی و الفبایی است. علاوه بر این، سیستم‌های مدیریت پایگاه داده مکانی (SDBMS) دارای مجموعه‌ای از انواع داده‌ها و عملکردهایی هستند که به ذخیره و نمایه‌سازی اشیاء جغرافیایی کمک می‌کنند، به طوری که جستجوی این داده‌ها سریع‌تر از معماری دوگانه با استفاده از یک سیستم پایگاه داده غیرمکانی است. 4 ].]. سایر سیستم های مدیریت پایگاه داده (DBMS) فراتر رفته و همچنین دارای ساختارها و انواع داده هایی هستند که داده های زمانی را دستکاری می کنند. این مورد پسوند زمانی SECONDO [ 5 ] و PostgreSQL ( https://wiki.postgresql.org/wiki/Temporal_Extensions ) است که داده‌های مسیر را از طریق انواع داده‌های مکانی-زمانی مدیریت می‌کند.
در برخی از برنامه‌ها، حجم داده‌های مسیر آنقدر زیاد است که ذخیره‌سازی فضایی یا غیرمکانی DBMS با چنین نیازهایی مقابله نمی‌کند. برنامه‌هایی که حجم عظیمی از داده‌های مسیر را مدیریت می‌کنند باید با مسائل مهمی مانند افزایش اندازه، تنوع و نرخ به‌روزرسانی مجموعه‌های داده سروکار داشته باشند. فراتر از تمام اطلاعات تولید شده توسط صنعت علمی، تحقیقاتی و دولت ها، افزایش سریع داده های مسیر به موضوع مورد علاقه در داده های بزرگ تبدیل شد [ 6 ].
جین و همکاران Big Data را به عنوان یک اصطلاح جامع برای هر مجموعه داده به قدری بزرگ و پیچیده معرفی می کند که پردازش آن با استفاده از برنامه های کاربردی پردازش داده سنتی دشوار است [ 6 ]. علاوه بر حجم زیاد داده، داده های بزرگ را می توان با سرعت بالا (سرعت)، تنوع بالا، صحت کم و ارزش بالا مشخص کرد [ 7 ]]. این ویژگی های Big Data به عنوان 5V شناخته می شوند. به طور کلی، DBMS های سنتی با داده های ساخت یافته سر و کار دارند و فناوری های Big Data با داده های ساختاریافته، بدون ساختار و نیمه ساختار یافته، مانند ایمیل، اخبار، تراکنش های بانکی، جریان های سمعی و بصری (صدا، تصویر، و ویدئو) از جمله موارد دیگر سروکار دارند. اگرچه مسیرهای خام ممکن است به عنوان داده های ساخت یافته نشان داده شوند، مسیرهای معنایی به ساختارهای داده پیچیده تری نیاز دارند. بنابراین، نسل جدیدی از فناوری های پایگاه داده برای رفع چالش های جدید مورد نیاز است.
تجزیه و تحلیل مسیر به عنوان یک شاخه ضروری از این موضوع مطرح شده است، زیرا حجم داده های مسیر به دلیل در دسترس بودن زیاد دستگاه های تلفن همراه و برنامه های کاربردی با استفاده از GPS به طور مداوم در حال افزایش است. پرداختن به داده های فضایی در مقیاس بزرگ یک موضوع تحقیقاتی است به نام داده های بزرگ فضایی [ 8] که در آن مسائل مربوط به برنامه های کاربردی داده های بزرگ برای ایجاد امکان توسعه سیستم های اطلاعات جغرافیایی رسیدگی می شود. از آنجایی که حجم داده های مسیر معمولاً بسیار زیاد است، لازم است زیرساختی مستقر شود که بتواند این داده های عظیم را به درستی تجزیه و تحلیل کند، پرس و جوهای پیچیده را حل کند، بینش های مرتبط را استخراج کند و از فرآیند تصمیم گیری پشتیبانی کند. معمولاً، این مشکل با استفاده از یک انبار داده حل می شود، که زیرساختی است که داده های موجود در سطح عملیاتی DBMS را برای تولید تجزیه و تحلیل و گزارش هایی که به فرآیند پشتیبانی تصمیم گیری در سازمان ها کمک می کند، خلاصه می کند. انبارهای داده ای که برای مدیریت داده های مسیر ساخته شده اند، انبار داده های مسیری نامیده می شوند. فرآیند تبدیل از سطح داده های عملیاتی به انبار داده ETL (Extraction, Transformation, and Loading) نامیده می شود.9 ].
در سال های اخیر، برخی از نظرسنجی ها برای بحث در مورد استفاده از داده های مسیر توسعه یافته اند. این نظرسنجی ها بر جنبه های مختلف داده های مسیر تمرکز دارند. به عنوان مثال، نظرسنجی والدین و همکاران. [ 10 ] تجزیه و تحلیلی از مدیریت داده‌های تحرک، فهرست‌بندی و بحث درباره تکنیک‌های اصلی برای ساخت، غنی‌سازی، استخراج و استخراج دانش از داده‌های مسیر ارائه می‌کند. نظرسنجی کنگ و همکاران [ 11 ] کاربردهای مسیر و داده‌های مربوط به رفتار سفر، الگوهای سفر، شرح خدمات داده مسیر را از نظر مدیریت حمل‌ونقل و سایر جنبه‌ها ارائه می‌کند. از سوی دیگر، نظرسنجی بیان و همکاران [ 12] مجموعه ای از تکنیک های خوشه بندی مسیر را ارائه می دهد و آنها را به سه دسته طبقه بندی می کند: نظارت نشده، نظارت شده و نیمه نظارت. نظرسنجی فنگ و ژو [ 13 ] برخی از کاربردهای استخراج مسیر، مانند مسیریابی، پیش‌بینی مکان، تحلیل رفتار شی موبایل و غیره را ارائه می‌کند. با بهترین دانش ما، تنها یک نظرسنجی [ 14 ] پیدا شد که تحقیقات متمرکز بر معماری سنتی سیستم‌های OLAP اعمال شده در تحلیل مسیر را خلاصه می‌کند، اما هنوز در مورد جنبه‌های مختلف مربوط به انواع TDW، مسیرهای معنایی، و اطلاعات بزرگ.
علاوه بر این، سایر مشارکت‌های ارائه شده توسط این تحقیق داده‌های مسیر، روشن کردن چگونگی انجام تحقیقات داده‌های مسیر، تکنیک‌های اصلی مورد استفاده، و نحوه تعبیه آن‌ها در معماری OLAP است. این مطالعه همچنین می تواند به بهبود کارایی و توسعه تصمیم گیری های مربوط به مسیرها مانند سیستم های برنامه ریزی شهری، کنترل ترافیک، نظارت بر شناورها، پیش بینی حرکت، نظارت و مطالعه حرکت برخی از گونه های جانوری کمک کند.
بقیه این نظرسنجی به شرح زیر سازماندهی شده است. بخش 2 مفاهیم اساسی مسیر را توضیح می دهد. بخش 3 بر فرآیند یکپارچه سازی داده های مسیر متمرکز است. بخش 4 طراحی انبار داده مسیر را مورد بحث قرار می دهد. بخش 5 به نحوه انجام عملیات تجزیه و تحلیل داده ها می پردازد. بخش 6 مسائل باز در تجزیه و تحلیل مسیر را برجسته می کند. در نهایت، بخش 7 نظرسنجی را به پایان می‌رساند.

2. مفاهیم اساسی

یک مسیر را می توان به عنوان دنباله ای از موقعیت ها که به صورت زمانی مرتب شده اند توصیف کرد. به گفته بوگرنی و همکاران. [ 3 ]، یک مسیر T را می توان به طور رسمی به صورت T = < تعریف کردپ1،پ2،پ3،…،پn> ، جایی که هر موقعیت پمننشان دهنده یک نقطه از T. علاوه بر این، هر پمنرا می توان به صورت p=< سه گانه تعریف کردایکسمن،yمن،تیمن> ، جایی که:
  • ایکسمنو yمننشان دهنده مختصات جغرافیایی
  • تیمنلحظه زمان مکان شی را نشان می دهد. و
  • تی1< تی2< تی3… تیn.
داده های مسیر اصلی، که فقط از اطلاعات مکانی-زمانی یک جسم متحرک تشکیل شده است، به عنوان مسیرهای خام شناخته می شوند [ 10 ، 15 ، 16 ]. گاهی اوقات، این تعریف بسط می‌یابد و هر موقعیت p شامل یک شناسه نیز می‌شود. در این موارد، هر نقطه به عنوان یک < چهارگانه تعریف می شودمند،ایکسمن،yمن،تیمن> _ این تعریف توسعه‌یافته برای پیاده‌سازی برنامه‌هایی که نیاز به نظارت بر چندین شی تلفن همراه دارند، مفید است مندویژگی برنامه‌ها را قادر می‌سازد تا هر یک از این اشیاء را به طور منحصربه‌فرد شناسایی کنند.
به طور کلی، در داده های مسیر، واحدی که باید پردازش شود، قسمت (همچنین به عنوان بخش یا مسیر فرعی شناخته می شود) است نه کل حرکت. معیارهای مورد استفاده برای تقسیم مسیر به اپیزود، فاصله زمانی، شکل فضایی یا معانی معنایی [ 1 ] است. به عنوان مثال، در یک مطالعه در مورد مسیر حیوانات، یک بخش می تواند با یک مسیر روزانه مطابقت داشته باشد. برای کارمندان شرکت، این بخش می تواند ساعات کاری باشد، از ساعت 8 صبح تا 6 بعد از ظهر. این بخش می تواند دوره توقف یا حرکت یک فرد در منطقه ای از شهر باشد که بر اساس فعالیت منطقه ای مانند اقامت، گردشگری، تجاری، تفریحی یا وسایل حمل و نقل طبقه بندی می شود [ 13 ، 17 ]]. فرآیند تقسیم‌بندی ممکن است با استراتژی‌های مبتنی بر درون‌یابی [18 ]، یا فقط بر روی همگنی در داده های مسیر، مانند GRASP-UTS [ 19 ] و GRASP-SemTS [ 20 ].

تعریف  1.

به طور رسمی، اپیزود با چهارگانه نمایش داده می شود (traj_id، ep_id، type، subseq: LISTOF position < پمن،…،پj>)، جایی که:
1 .
traj_id شناسه مسیر است.
2 .
ep_id شناسه قسمت است.
3 .
نوع، نوع اپیزود است، یعنی معیار فرآیند تقسیم بندی (به عنوان مثال، نوع وسیله حمل و نقل، نوع فعالیت، توقف، حرکت).
4 .
subseq یک زیر دنباله حداکثر از نقاط مکانی-زمانی < است پمن،…،پj> از مسیر خام که نوع معیار قسمت را برآورده می کند (مثلاً وسیله حمل و نقل) و 1 ≤ i ≤ j ≤ n، که در آن n تعداد نقاط مسیر است.
داده های مسیر را می توان از منابع مختلف جمع آوری کرد [ 11 ]:
  • به روشی صریح ، یعنی استفاده از حسگرهایی مانند GPS که مختصات جغرافیایی را با سرعت فاصله زمانی و مکانی تقریبا استاندارد شده به گیرنده منتقل می کند.
  • به طور ضمنی ، زمانی که مسیر از طریق اطلاعات به‌دست‌آمده از دستگاه‌هایی استنباط می‌شود که استانداردسازی زمانی و مکانی را تضمین نمی‌کنند، به عنوان مثال، دانه‌بندی زمانی نسبتاً زیاد است و توزیع نقاط زمانی ثبت‌شده نسبتاً تصادفی است [ 11 ]، مانند سنسورهای دوربین هوشیاری، کارت های مغناطیسی، RFID (شناسایی فرکانس رادیویی) و GSM (سیستم جهانی برای ارتباطات سیار). راه دیگر برای به دست آوردن داده های مسیر به طور ضمنی از طریق VGI (اطلاعات جغرافیایی داوطلبانه) است [ 21 ، 22 ]، که شامل اطلاعات جغرافیایی ارائه شده توسط شهروندان با استفاده از ابزارهای رسانه های جغرافیایی اجتماعی است.
مسیرهای خام فقط دارای موقعیت های مکانی-زمانی هستند و گاهی اوقات برای ساخت برنامه های مسیر معنی دار کافی نیستند [ 23 ]. پس از چندین سال تحقیق در داده های مسیر، تأیید شد که اطلاعات زمینه ای برای چندین کاربرد ارزشمند است. اگرچه دانستن مکان یک شی در یک لحظه معین، بخشی از اطلاعات مرتبط است، اما بسیاری از برنامه ها نیاز به ادامه کار دارند. به عنوان مثال، در برخی موارد، دانستن اینکه جسم متحرک چیست و هدف آن چیست، ضروری است.

2.1. سیر معنایی

برخی از برنامه ها بیشتر به جنبه رفتاری علاقه مند هستند تا صرفاً به داده های موقعیتی، به عنوان مثال، تفسیر مسیرهای کاربران در داخل یک شهر با توجه به دانش قبلی در مورد شهر. سیستمی که با داده‌های مسیر سر و کار دارد، می‌تواند با داده‌های معنایی غنی شود که نه تنها خود مسیر، بلکه جنبه‌هایی را که فراتر از مکان هستند، مانند نقاط مورد نظر، هدف جسم متحرک، و نوع انتقال، تجزیه و تحلیل می‌کند. به عنوان مثال، بسیاری از برنامه های کاربردی [ 24 ، 25]، به جای تجزیه و تحلیل داده های خام GPS، ترجیح می دهید مسیر را به عنوان دنباله ای از حاشیه نویسی های معنایی ارزیابی کنید، مانند: (خانه، -9:00 ساعت، -) → (جاده، 9-10 ساعت، اتوبوس) → (دفتر ، ساعت 10 تا 17، کار) → (جاده، ساعت 17 تا 15:30، مترو) → (سوپرمارکت، ساعت 17:30 تا 18، مرکز خرید) → (جاده، ساعت 18 تا 18:20، پیاده روی) → (در خانه ، 18:20-، -). در این مثال، هر سه گانه نشان دهنده مکان، فاصله زمانی و حاشیه نویسی معنایی است که نوع فعالیت یا نحوه حمل و نقل در آن مسیر را توصیف می کند [ 26 ].
Spaccapietra ایده شناسایی معناشناسی در داده های مسیر را در سال 2008 معرفی کرد [ 27 ]. از آن زمان، بسیاری از نویسندگان آثاری را توسعه داده‌اند که تلاش می‌کنند مسیرهای معنایی غنی‌شده را تولید کنند. غنی‌سازی معنایی می‌تواند در نقطه مسیر، در قسمت یا در کل مسیر رخ دهد و شامل پیوستن به داده‌های خط سیر خام و اطلاعات زمینه برای تولید مسیرهای غنی‌شده معنایی است [ 10 ]. Spaccapietra و Parent [ 28 ] مسیر معنایی را به عنوان یک مسیر خام که از نظر معنایی با حاشیه نویسی و/یا یک یا چند تفسیر غنی شده است تعریف می کنند. اپیزودها را می توان با همان تفسیر گروه بندی کرد، به عنوان مثال، قسمت های فعالیت، قسمت های توقف یا حرکت و غیره.

تعریف  2.

به طور رسمی، مسیر معنایی به صورت یک تاپل [ 28 ] تعریف می‌شود: (TrajectoryID، ObjectID، TrajectoryAnnotations، مسیر: موقعیت LISTOF (ti، p، posAnnotations)، تفاسیر: تفسیر SETOF (interpretationID، SemanticGaps: شکاف LISTOF ( تیمتر، تیn), قسمت ها: قسمت LISTOF)) که در آن:
1 .
trajectoryID شناسه مسیر است.
2 .
objectID شناسه شی موبایل است.
3 .
trajectoryAnnotations مجموعه ای از حاشیه نویسی های مرتبط با مسیر به عنوان یک کل است، به عنوان مثال: مدت زمان، اندازه، هدف.
4 .
آهنگ فهرستی از موقعیت های مکانی-زمانی جسم متحرک است. لیست به طور موقت مرتب شده است.
5 .
معمولاً لحظه‌هایی از زمان هستند. همه تی ناهمگون هستند.
6 .
p یک عنصر فضایی را مشخص می کند. به طور کلی با یک نقطه (x، y) برای مختصات دو بعدی و (x، y، z) برای مختصات سه بعدی نشان داده می شود.
7 .
posAnnotations یک مجموعه حاشیه نویسی مرتبط با موقعیت p است.
8 .
semanticGaps فهرستی از شکاف های معنایی در مسیری است که با یک دوره زمانی مشخص شده است. تیمترو تیn، جایی که تیمتر≤ تیn;
9 .
تفاسیر مجموعه تفاسیری است که به مجموعه‌ای از قسمت‌های مسیر اشاره دارد، به عنوان مثال، قسمت‌های فعالیت، قسمت‌های توقف/حرکت، و غیره.
10 .
interpretationID شناسه تفسیر است.
11 .
قسمت ها لیست اپیزودهای مربوط به یک تفسیر خاص است.
برخی از برنامه ها از اطلاعاتی مانند وسایل حمل و نقل و فعالیت های جسم متحرک برای برچسب گذاری داده های خط سیر خام استفاده می کنند. SeMiTri [ 26 ] علاوه بر تقسیم‌بندی مسیرها با استفاده از ویژگی‌های هندسی (مثلاً سرعت، شتاب)، از الگوریتم تطبیق نقشه در نقشه راه جغرافیایی برای استنباط نوع حمل و نقل کاربر استفاده می‌کند. استنباط سایر اطلاعات، مانند هدف جابجایی، دشوارتر است. در این موارد، معمولاً لازم است تکنیک‌های یادگیری ماشینی بر مبنای تاریخی برای به دست آوردن چنین اطلاعاتی اعمال شوند [ 3 ]. با این حال، این اطلاعات چندان دقیق نیست.
از طریق طرح های مفهومی سطح بالا، انسان ها داده ها را تفسیر، درک و استفاده می کنند. بین داده های مشاهده شده سطح پایین و سطح مفهومی، شکاف معنایی وجود دارد [ 29 ]. این شکاف معنایی را می توان با فرو بردن تفسیر داده ها در زمینه حرکت مسیر کاهش داد. اغلب، داده های زمینه از رسانه های اجتماعی مانند توییتر و فیس بوک به دست می آیند. در این نوع رسانه، کاربران معمولاً اطلاعات تکمیلی (مانند هشتگ ها و نظرات) را در مورد جابجایی خود می گذارند. چنین اطلاعاتی می تواند در فرآیند غنی سازی معنایی داده های خط سیر خام [ 30 ] پشتیبانی کند. مکمل رسانه های اجتماعی، LinkedGeoData یک پایگاه داده فضایی بزرگ از داده های وب است که در فرآیند مسیرهای معنایی نیز استفاده می شود [ 15 ]].
مدل دیگری که برای نشان دادن مسیرهای معنایی استفاده می شود 5W1H [ 31 ] است. این مدل مخفف شش سؤال روایی است که هدف آنها درک زمینه یک شرایط است و در حال حاضر، تحقیقات متعددی از 5W1H برای مدل‌سازی بافت جسم متحرک استفاده می‌کند [ 16 ، 32 ]. 5W1H توسط روزنامه نگاران به عنوان راهنمای توصیف یک واقعیت استفاده شده است و از سؤالات زیر تشکیل شده است:
  • چه کسی: شناسایی شی متحرک.
  • کجا: جایی که نقطه مسیر در آن قرار دارد.
  • زمان : زمان مربوط به نقاط مسیر.
  • چه چیزی: شیء متحرک چه کاری انجام می‌داد، یا داشت انجام می‌داد.
  • چرا: نشان دهنده انگیزه سفر است.
  • How: نشان دهنده نحوه حرکت جسم، مانند وسیله حمل و نقل است.
پروژه MASTER [ 33 ] یک رویکرد جدید برای غنی سازی معنایی مسیرها با جنبه های مختلف ارائه می دهد که فراتر از مدل 5W1H است. جنبه یک واقعیت از دنیای واقعی مربوط به تجزیه و تحلیل داده های مسیر است. از فناوری‌هایی مانند ساعت هوشمند، تجزیه و تحلیل صدای صدا، حسگرهای نور، از جمله، می‌تواند انواع اطلاعات جدید را جمع‌آوری کند و مسیر را با جنبه‌های معنایی مختلف غنی کند. به این ترتیب، می توان بخش های مسیر را با اطلاعاتی مانند فشار خون کاربر، وضعیت احساسی، ضربان قلب، سطح درخشندگی محیط، دما و سطح سر و صدا مرتبط کرد. هر چه ما جنبه های بیشتری داشته باشیم، حرکت واقعی یک جسم کامل تر است و اطلاعات بیشتری در مورد اشیا و مکان ها می توانیم استنباط کنیم.
شکل 1 سطوح غنی سازی معنایی را نشان می دهد که ممکن است در داده های مسیر وجود داشته باشد. پایین ترین سطح، مسیر خام با اطلاعات اولیه (مکان و زمان) است. سطح 5W1H مسیرهایی است که طبق مدل 5W1H به سوالات پاسخ می دهد. سطح جنبه های چندگانه زمانی است که مسیر با هر گونه اطلاعات زمینه ای فراتر از آنچه در مدل 5W1H مشخص شده است غنی می شود.
بر اساس چشم انداز فرآیند تجزیه و تحلیل داده ها، که از جمع آوری داده ها تا ساخت و اکتشاف DW و مکعب چند بعدی می رود، این مقاله بررسی برنامه هایی را ارائه می دهد که شامل تجزیه و تحلیل مسیرها از ذخیره سازی، پردازش، خلاصه سازی و تجزیه و تحلیل است. دیدگاه ها بر اساس معماری انبار داده معمولی [ 34 ]، این بررسی سیستم های مسیر را در سه مرحله متمایز، همانطور که در شکل 2 مشخص شده است، تجزیه و تحلیل می کند :
  • یکپارچه سازی: شامل جمع آوری و ادغام داده های خط سیر خام، مانند مختصات جغرافیایی و زمان، و ذخیره سازی متعاقب آن در یک پایگاه داده است. این مرحله شامل منبع داده و لایه های پشتیبان معماری انبار داده است که توسط Vaisman و Zimányi [ 2 ] توضیح داده شده است. در طول این فرآیند، داده های جمع آوری شده را می توان با سایر داده های به دست آمده از منابع خارجی مورد علاقه برنامه، مانند Geonames ( https://www.geonames.org/ )، OpenStreetMaps و Twitter غنی کرد. برای غنی سازی معنایی داده های خام جمع آوری شده، می توان اطلاعات بیشتری را به دست آورد. فرآیند غنی‌سازی معنایی می‌تواند هم در مراحل ادغام و هم در مراحل طراحی رخ دهد.
  • طراحی: این مرحله مربوط به مرحله ای است که داده های مسیر را می توان در یک انبار داده از طریق فرآیند ETL خلاصه کرد.
  • تجزیه و تحلیل: این مرحله اکتشافی معماری است که از انبار داده و سایر منابع داده در صورت لزوم برای تولید گزارش ها و سایر اطلاعات تصمیم گیری پرس و جو می کند. در صورت لزوم، ابزار تجزیه و تحلیل می تواند مستقیماً منبع داده را از طریق فرآیندی به نام ETQ (Extract, Transform, Query) جستجو کند [ 35 ]. فرآیند ETQ تبدیل داده ها را تا آخرین لحظه به تاخیر می اندازد و در صورت درخواست به کاربر ارائه می شود [ 35 ]. جزئیات بیشتر در مورد ETQ در بخش Analytics توضیح داده شده است.
ما چندین کار تحقیقاتی را بر اساس این طبقه بندی تحلیل کردیم. جدول 1 خلاصه ای از این آثار را ارائه می دهد که در این بررسی به تفصیل آمده است. در بخش‌های بعدی، مراحل فوق‌الذکر را با تمرکز بر داده‌های مسیر به تفصیل و بیشتر مورد بحث قرار می‌دهیم.

3. یکپارچه سازی داده های مسیر

حجم زیادی از داده های تحرک از طریق دستگاه های دارای سیستم موقعیت یابی جهانی (GPS) تولید و در مخازن داده ها ذخیره می شود. انواع مختلفی از موجودات متحرک را می توان ردیابی کرد، مانند عابران پیاده، اتومبیل ها، کشتی ها، هواپیماها و حیوانات. این مجموعه داده ها منبع غنی از اطلاعات را برای تحلیل و استنتاج الگوهای تحرک فراهم می کنند. در چند سال اخیر، این نوع اطلاعات توجه محققان صنعت و آکادمی را به خود جلب کرده است که می توانند از داده های تحرک برای استخراج اطلاعات و دانشی که برای کاربردهایشان ضروری است استفاده کنند. به عنوان مثال، چه چیزی، چگونه و چه مدت یک واحد در حال انجام یک فعالیت خاص است. این روزها،51 ]. بخش‌های فرعی زیر نحوه جمع‌آوری، مرتب‌سازی و ذخیره داده‌های مسیر را توضیح می‌دهند.

3.1. گردآوری و ذخیره سازی داده های مسیر

مرحله جمع‌آوری داده‌ها می‌تواند شامل چندین کار پردازشی برای بهبود کیفیت داده‌های مسیر قبل از شروع فعالیت‌های استخراج و تحلیل باشد. به عنوان مثال، سیستم می تواند یک فرآیند تمیز کردن را برای حذف نقاط پرت انجام دهد. نظرسنجی ژن [ 1] راه حل های مشکل پرت را به سه دسته تقسیم می کند: فیلتر میانگین (یا میانه). فیلتر کالمن و ذرات؛ و تشخیص بیرونی مبتنی بر اکتشاف. فیلتر میانگین (یا میانه) میانگین (میانگین) را در یک پنجره کشویی برای تخمین مقدار واقعی یک نقطه تعیین شده در مسیر محاسبه می کند. این فیلتر زمانی بهتر نشان داده می شود که نرخ نمونه برداری مسیر بالا باشد. فیلترهای کالمن و ذرات الگوریتم‌هایی هستند که برای تخمین اندازه‌گیری‌های واقعی از داده‌های آلوده به نویز استفاده می‌شوند. کالمن و ذرات مدل‌هایی را پیشنهاد می‌کنند که به اندازه‌گیری‌های اولیه بستگی دارند، به عنوان مثال، اگر اولین نقاط مسیر نویز باشد، اثربخشی مدل به طور قابل‌توجهی کاهش می‌یابد. روش تشخیص دورافتاده مبتنی بر اکتشاف، نقاط نویز را از مسیر حذف می‌کند و فقط نقاطی را در محدوده‌های محاسبه‌شده نگه می‌دارد، یعنی: این روش سرعت و فاصله بین هر نقطه و جانشین آن را محاسبه می کند. اگر این پارامترها از حدود اعلام شده فراتر رود، نقطه در مسیر قرار نمی گیرد.
حجم وسیعی از داده ها بر ذخیره، انتقال، پردازش و نمایش داده ها تأثیر می گذارد. هدف از فشرده سازی داده های مسیر، کاهش اندازه مجموعه داده ها بدون تحریف روند مسیر است [ 23 ]. دو دسته از الگوریتم های فشرده سازی داده های مسیر [ 52 ] وجود دارد:
  • فشرده سازی آفلاین: این دسته بعد از ایجاد کامل مسیر، اندازه مسیر را کاهش می دهد. الگوریتم کلاسیک داگلاس-پیکر (DP) است که بر اساس اکتشافی است که به صورت بازگشتی دنباله موقعیت ها را تقسیم می کند و تنها موقعیت نماینده هر زیر دنباله را ذخیره می کند. امروزه، اصلاحات و بهبودهایی در DP مانند نسبت زمانی بالا به پایین (TD-TR) [ 53 ] وجود دارد.
  • فشرده سازی آنلاین: فشرده سازی مسیر به دنبال حرکت جسم در طول مسیر رخ می دهد. ایده آل برای محیط های بلادرنگ، مانند نظارت بر ترافیک. الگوریتم های اصلی عبارتند از Sliding Window، Open Window [ 53 ] و STTrace [ 54]. Sliding Window و Open Window الگوریتم های مشابهی هستند که در انتخاب مکان نقطه پنجره کشویی متفاوت هستند. الگوریتم باعث می شود که یک پنجره کشویی همراه با نقاط مسیر رشد کند. در مقابل، خطای قطعات خط تنظیم (خط که از اولین و آخرین نقطه پنجره می رود) و مسیر اصلی از حد خطای مشخص شده بیشتر نیست. الگوریتم STTrace از مختصات، سرعت و جهت گیری نقطه مسیر فعلی برای محاسبه یک منطقه امن که موقعیت بعدی را می توان در آن قرار داد استفاده می کند. اگر نقطه بعدی در این منطقه باشد، می توان آن را نادیده گرفت.
پس از جمع‌آوری، سازمان‌دهی، تمیز کردن و فشرده‌سازی، داده‌های مسیر می‌توانند قبل از ذخیره‌سازی در پایگاه داده به یک نمایش جغرافیایی تبدیل شوند. دو فرمت متداول از انواع داده های مکانی وجود دارد: شطرنجی و برداری. قالب گراف زیر مجموعه ای از مدل برداری [ 55 ] است. در میان تحقیقات تجزیه و تحلیل شده مشاهده شد که فرمت شطرنجی بیشتر در انبارهای داده استفاده می شود که با اطلاعات خلاصه در سطح سلول کار می کنند. در قالب شطرنجی، نقشه به چندین سلول از یک شکل (مربع، مثلث یا چند ضلعی) تقسیم می شود و هر سلول می تواند حاوی اطلاعاتی در مورد یک متغیر خاص باشد، به عنوان مثال، بارندگی، دما، رطوبت، نوع خاک و غیره [ 56 ].]. از سوی دیگر، در قالب برداری، نقشه با استفاده از نقاط، خطوط و چندضلعی ها ساخته می شود و اغلب برای نشان دادن حرکت مسیرها به صورت جغرافیایی استفاده می شود. در زمینه مسیر، واحد منطقی پایه در یک مدل برداری، خط است که برای رمزگذاری مکان شی مورد استفاده قرار می گیرد و به صورت رشته ای از مختصات نقاط در امتداد خط نشان داده می شود [ 57 ].]. در نهایت، نمودار جغرافیایی نشان دهنده ویژگی های جغرافیایی داده ها در یک نقشه است. این نمایش عموماً برای توصیف شبکه شهری استفاده می شود که در آن جاده ها به عنوان لبه ها و نقاط مرجع (یا تقاطع خیابان ها) به عنوان رئوس نشان داده می شوند. این نوع نمایشی است که می تواند برای اجرای فرآیند تطبیق نقشه استفاده شود، که در آن نمایش جغرافیایی نقاط مسیر به گونه ای تبدیل می شود که مختصات با نمایش مش شهری مطابقت داشته باشد. از طریق نمودار، می توان یک نمایش مسیر دیگر را بدست آورد: مسیرها. در اینجا، مسیر با دنباله ای از قطعات نشان داده می شود، و هر بخش از دو راس نمودار تشکیل شده است به طوری که دو بخش متوالی دارای یک راس مشترک هستند [ 13 ].
داده های مسیر در قالب های مختلف با توجه به نوع دستگاه، اشیاء نظارت شده و هدف برنامه ذخیره می شوند. علاوه بر داده های خط سیر خام، سایر خصوصیات مرتبط مانند سرعت، جهت و شتاب را می توان به دست آورد و ذخیره کرد [ 12 ]. به طور معمول، داده های مسیر در زمان واقعی ضبط می شوند و یک جریان داده را تشکیل می دهند که یک نوع پایگاه داده مکانی-زمانی به نام MOD (پایگاه داده شی متحرک) را تغذیه می کند [ 39 ]. یک ساختار بزرگ برای ذخیره سازی برای صرفه جویی در جریان داده های عظیم و در حال افزایش نیاز است [ 58]. سیستم‌های فعلی می‌توانند از فناوری‌های فضای داده و پلت‌فرم‌های Big Data مانند Apache Spark و Hadoop استفاده کنند. هدف از پشتیبانی فضای داده، ارائه عملکردهای اساسی بر روی چندین منبع داده است، صرف نظر از اینکه چقدر یکپارچه هستند [ 59 ]. سیستم‌های فضای داده خدماتی را بر روی داده‌ها بدون نیاز به یکپارچه‌سازی معنایی اولیه و خدماتی مانند pay-as-you-go ارائه می‌کنند، یعنی قبل از استفاده از سرویس، هزینه آن را پرداخت کنید و از چیزی که برای آن پرداخت کرده‌اید فراتر نروید [ 60 ]. با این حال، اگر عملیات پیچیده‌تری مورد نیاز باشد، مانند عملیات به سبک DB رابطه‌ای یا داده‌کاوی، تلاش‌های بیشتری می‌تواند برای ادغام منابع داده ناهمگن موجود در بستر پشتیبانی از فضای داده (DSSP) [ 61 ] به کار گرفته شود.
ما متوجه دو نوع دستکاری داده‌های مسیر شده‌ایم: داده‌های مسیر را می‌توان در زمان واقعی، مانند سیستم‌های ناوبری، به عنوان مثال، Waze ( https://www.waze.com )، یا از طریق یک مبنای تاریخی تجزیه و تحلیل کرد. برنامه مسیر بیدرنگ مکان فعلی اشیاء را حفظ می کند، یعنی پرس و جوهای آنها در مکان فعلی و موقعیت های آینده مورد انتظار شی مطرح می شود. سیستم بحران [ 48] نمونه‌ای از برنامه‌ای است که با جریان‌های داده مسیر سر و کار دارد و از Apache Jena برای نگه‌داشتن یک نمودار RDF (چارچوب توصیف منابع) حاوی نمایش معنایی داده‌های دریافت‌شده از حسگرهای مختلف در حافظه استفاده می‌کند. در آن سیستم، داده‌های چندین حسگر ناهمگن در ساختاری ادغام می‌شوند که از وب معنایی برای جاسازی داده‌ها در یک زمینه (در این مورد، ناوبری دریایی) استفاده می‌کند، که قابلیت همکاری و کشف دانش جدید در مورد محیط مورد نظارت را تسهیل می‌کند. 48 ]. جریان داده توسط حسگرهای AIS (سیستم شناسایی خودکار) و ایستگاه های نظارت بر آب و هوا و یخچال های طبیعی تولید می شود. داده های جریان پردازش شده و به عنوان یک نمودار RDF نشان داده می شود که می تواند به صورت محلی یا در ابر LOD (داده های باز پیوند داده شده) ذخیره شود. سیستم موبی دیک [ 43] یک چارچوب اولیه برای مدیریت و نظارت بر اشیاء موبایل ارائه می دهد. این تحقیق هیچ اطلاعاتی را در پایگاه داده ذخیره نمی کند. فقط با اطلاعات موجود در حافظه اصلی کار می کند. MobyDick یک مدل داده را بر اساس مشخصات ISO زمانی و مکانی پیاده‌سازی می‌کند: ISO 19108:2002 [ 62 ] و ISO 19107: 2003 [ 63 ]. MobyDick به عنوان یک لایه در بالای پلت فرم Apache Flink [ 64 ] عمل می کند که پردازش موازی توزیع شده داده ها را پیاده سازی می کند.
برخلاف برنامه‌هایی که از جریان‌های داده استفاده می‌کنند، پایگاه داده مسیر تاریخچه حرکت را حفظ می‌کند. تمایل جدید برای حفظ پایگاه داده مسیر تاریخی که به طور مداوم توسط جریان داده های شی متحرک تغذیه می شود، به ساختاری قوی با ظرفیت ذخیره سازی بزرگ نیاز دارد. خوشه های محاسباتی با پردازش موازی و مقیاس پذیری افقی زیرساخت هایی هستند که از ذخیره سازی و تجزیه و تحلیل داده های بزرگ پشتیبانی می کنند [ 65 ]. بائو و همکاران تحقیق [ 42 ] سیستمی را ارائه می دهد که بر مسیرهای شهری تمرکز دارد. سیستم آنها از Microsoft Azure برای ذخیره حجم زیادی از داده ها استفاده می کند. این سیستم از سه ماژول تشکیل شده است: ذخیره مسیر، نمایه سازی فضا-زمان و تطبیق نقشه. جدیدترین داده ها در پایگاه داده Redis و Azure برای داده های تاریخی ذخیره می شوند. ST-Hadoop [47 ] اولین چارچوب MapReduce منبع باز با پشتیبانی از داده های مکانی-زمانی بومی بود. با ذخیره سازی داده ها در سطح روز، ماه و سال، فضای ذخیره سازی را فدای عملکرد بهتر می کند. داده ها در فایل ها در HDFS (سیستم فایل توزیع شده Hadoop) با نمایه سازی مکانی-زمانی که فرآیند پرس و جو را سرعت می بخشد ذخیره می شود.
سیستم‌های مدیریت مسیر سنتی، مانند PostgreSQL، Oracle، HDFS و Azure، دیسک‌گرا هستند که می‌تواند مشکلات مقیاس‌پذیری و پردازش کند پرس و جو را ایجاد کند. از این رو، استفاده از پلتفرم های Big Data مانند Apache Spark به طور فزاینده ای در مدیریت داده های مسیر رایج شده است. پلتفرم Spark یک سیستم توزیع‌شده است که انتزاعی به نام RDD (مجموعه داده‌های توزیع‌شده انعطاف‌پذیر) ارائه می‌دهد ( https://spark.apache.org/docs/latest/rdd-programming-guide.html,ApacheSpark-RDDProgrammingGuide ). این RDD ها مجموعه ای از اشیا را در حافظه نگه می دارند که می تواند به راحتی توسط Spark مدیریت شود. سیستم TrajSpark [ 46] Apache Spark را با ساختن یک ساختار نمایه سازی جهانی و محلی برای سرعت بخشیدن به فرآیند جستجو گسترش می دهد. علاوه بر این، TrajSpark به یک مانیتور متعادل کننده بار متکی است که استفاده از پارتیشن های داده را بهبود می بخشد. در برخی از برنامه ها، تعادل با افزودن داده های جدید در پایگاه داده ساعتی یا روزانه انجام می شود و توزیع داده ها در طول زمان تغییر می کند. اگر هنگام بارگیری داده های جدید، کل مجموعه داده مجدداً پارتیشن بندی شود، این می تواند هزینه های سربار ایجاد کند. برای پارتیشن بندی مجدد، داده های قدیمی ارزشش را ندارند زیرا داده های جدید ارزشمندتر هستند. بنابراین، TrajSpark فقط سعی می کند گروه های داده جدید را بدون دست زدن به داده های موجود پارتیشن بندی کند.
سیستم دیگری که از معماری Spark استفاده می کند DiStRDF (سیستم فضایی-زمانی RDF توزیع شده) است [ 49 ]. DiStRDF یک سیستم توزیع شده است که از RDF برای پردازش پرس و جوهای مکانی-زمانی در شبکه ای از پایگاه های داده ناهمگن استفاده می کند. در آزمایش‌های نیکیتوپولوس و همکاران، داده‌ها در یک سیستم HDFS که توسط یک محیط آپاچی اسپارک مدیریت می‌شد، ذخیره می‌شد. داده های RDF به عنوان یک فرهنگ لغت بزرگ شامل خلاصه مکان تقریبی شی و زمان رویداد عمل می کند. این فرهنگ لغت در پایگاه داده Redis ذخیره می شود تا پردازش پرس و جو را سرعت بخشد.
بر اساس سیستم ذخیره سازی و نمایش هندسی، برخی از سیستم ها مطابق جدول 2 تجزیه و تحلیل و مرتب شدند . این جدول پلت فرم های مورد استفاده برای مدیریت داده های مسیر مورد استفاده در برخی از آثار و نوع نمایش هندسی استفاده شده را ارائه می دهد. ستون نمایش هندسی نوع نمایش هندسی مورد استفاده در تحقیق مورد تجزیه و تحلیل را نشان می دهد در مرحله یکپارچه سازی، مشاهده می شود که هیچ یک از معماری های پیشنهادی با داده ها در قالب شطرنجی سروکار ندارند. تمام تحقیقات تحلیل شده داده های مسیر را در قالب برداری ذخیره می کنند و یکی از آنها نیز اطلاعات را به صورت نمودار نشان می دهد. هر مدیر داده برای مطابقت با مدل داده مسیر مورد استفاده در هر کار تحقیقاتی انتخاب شد.
جدول 2 برخی از سیستم هایی را نشان می دهد که از پایگاه داده های فضایی مانند PostgreSQL، همراه با گسترش فضایی Postgis و Oracle استفاده می کنند. کارهای جدیدتر فناوری‌های Big Data را پذیرفته‌اند، زیرا این روند جدید به دلیل حجم زیادی از داده‌های مسیری است که توسط حسگرها و رسانه‌های اجتماعی تولید می‌شود. تخمین زده می‌شود که حجم داده‌های دیجیتال هر دو سال دو برابر می‌شود و داده‌های مکانی سهم عمده‌ای در سناریوی Big Data دارند [ 66 ]. فن‌آوری‌های ذخیره‌سازی سنتی، مانند آن‌هایی که در [ 26 ، 40 ] استفاده می‌شوند، نمی‌توانند این حجم بزرگ از داده‌ها را سازماندهی و پرس و جو کنند. خوشه های محاسباتی با پردازش موازی و مقیاس پذیری افقی زیرساخت هایی هستند که از ذخیره سازی و تجزیه و تحلیل داده های بزرگ پشتیبانی می کنند [ 65 ]]. فناوری‌های کلان داده مانند Hadoop، MongoDB، Flink و Spark به طور فزاینده‌ای در سیستم‌های مدیریت پایگاه داده بزرگ رایج می‌شوند [ 65 ، 67 ]. می‌توان نتیجه گرفت که سیستم‌های مسیری جدیدتر تمایل دارند از فناوری‌های Big Data (Azure، Spark، ST-Hadoop، MongoDB) برای مقابله با داده‌های مسیر استفاده کنند. علاوه بر این، پلتفرم‌های رایانش ابری، مانند آنهایی که از Azure، HDFS و Spark استفاده می‌کنند، برای مقابله با داده‌های مکانی-زمانی بهینه‌سازی نشده‌اند.
سیستم های مسیر نشان داده شده در جدول 2 را نیز می توان بر اساس ساختار داده اتخاذ شده گروه بندی کرد: داده های ساختاریافته یا داده های نیمه ساختار یافته. سیستم T-Warehouse [ 39 ] معماری کامل یک سیستم مسیر را با ماژول های MOD و TDW ارائه می دهد. ماژول MOD از چارچوب هرمس [ 68 ] برای ارائه یک DBMS شی – رابطه ای (ORDBMS) برای داده های مسیر استفاده می کند. Oracle DBMS برای ساخت TDW استفاده می شود. مشاهده می شود که آثار قدیمی تر، مانند SeMiTri [ 26]، از یک پایگاه داده رابطه ای ساده با پسوند فضایی، مانند مورد PostgreSQL + postgis استفاده کنید. کارهای دیگر از یک مدل داده نیمه ساختاریافته استفاده می کنند، به ویژه زمانی که باید اطلاعات معنایی مسیر را نشان دهد. مدل‌سازی داده‌های مسیر با استفاده از نمودارها یا هستی‌شناسی‌های RDF با ظهور کارهای جدید در مورد غنی‌سازی مسیرهای معنایی، قدرت بیشتری به دست آورده است [ 33 ، 49 ]. نمایش داده‌های مسیر معنایی با استفاده از RDF نه تنها استنباط دانش جدید را امکان‌پذیر می‌کند، بلکه انتشار داده‌ها را به‌عنوان داده‌های باز پیوندی (LOD) نیز امکان‌پذیر می‌کند و آن را در وب معنایی قابل دسترسی می‌سازد. برای مثال، پروژه MASTER [ 33 ] از پایگاه داده ای به نام Rendezvous [ 69 ] استفاده می کند] که نمودارها را در قالب RDF ذخیره می کند و قصد دارد داده های خود را در وب معنایی در دسترس قرار دهد. Rendezvous یک فروشگاه سه گانه [ 70 ] است که بر اساس یک پایگاه داده توزیع شده NoSQL است که داده ها را در قالب RDF ذخیره می کند. طبق [ 29 ]، فناوری‌های ذخیره‌سازی داده‌های مسیر به خوبی ارائه می‌شوند، و چالش جدید در حال حاضر غنی‌سازی معنایی داده‌های مسیر است، که موضوعی است که در بخش فرعی بعدی به آن پرداخته می‌شود.

3.2. مسیرهای معنایی

این بخش MOD های غنی شده از نظر معنایی ( جدول 2 ) را با نوع اطلاعات معنایی مربوطه توصیف می کند.
سیستم SeMiTri [ 26 ] یک مثال کاربردی است که داده های هندسی و داده های زمینه را برای تولید مسیرهای معنایی غنی شده پردازش می کند. این سیستم سه نوع حاشیه نویسی معنایی را انجام می دهد: بر اساس منطقه، خط و نقطه. حاشیه نویسی بر اساس منطقه از طریق نقشه های آنلاین مانند OpenStreetMap محاسبه می شود و می تواند مناطقی مانند مسکونی، صنعتی و تجاری را شناسایی کند. برای حاشیه نویسی خط، سیستم عملیات تطبیق نقشه را انجام می دهد و سپس، بر اساس زمینه، سیستم نوع حمل و نقل کاربر (اتوبوس، مترو، پیاده روی و غیره) را استنباط می کند. حاشیه نویسی نوع نقطه با آن بخش های مسیری مرتبط است که جسم متحرک در آن ساکن است. در این نوع بخش، سیستم با استفاده از الگوریتم زنجیره مارکوف [ 71 ] PoI را شناسایی می کند.] که برای این نوع سگمنت (خانه، محل کار، بازار و …) مناسب تر است.
سیستمی به نام VISTA [ 50 ] ابزاری با قابلیت های تحلیل بصری ارائه می دهد که از کاربران پشتیبانی می کند: (i) در کاوش و پردازش داده های مسیر. و (ii) در ایجاد ویژگی ها و اطلاعات معنایی، برای راهنمایی کاربر برای درک نحوه برچسب گذاری صحیح مسیرها. سیستم دیگری که حاشیه نویسی مسیر را نیز اختصاص می دهد ANALYTiC [ 45 ] است]، که از الگوریتم های یادگیری ماشینی برای استنباط حاشیه نویسی های معنایی در مورد داده های مسیر استفاده می کند. در آن مقاله، یک حاشیه نویسی معنایی یا برچسب، هر گونه اطلاعات متنی مربوط به مسیر است، به عنوان مثال: اطلاعات فعالیت مانند راه رفتن، مطالعه، رانندگی یا ماهیگیری. ANALYTiC از استراتژی یادگیری فعال برای حفظ عملکرد خوب طبقه بندی کننده ها در حالی که از تعداد کمتری نمونه آموزشی استفاده می کند، استفاده می کند.
مدل CONSTAnT [ 3 ] تنها یک مدل داده مفهومی است که جنبه های مهم برای پیاده سازی یک سیستم مسیر معنایی را تعریف می کند. این مدل اساساً به دو بخش تقسیم می شود. بخش اول به ساده‌ترین موجودیت‌ها اشاره دارد که حاوی اطلاعاتی درباره شی، مسیر، ردیابی‌های فرعی، نقاط معنایی، محیط، مکان و رویدادها است. بخش دوم به اشیاء پیچیده تری اشاره دارد که در آنها تکنیک های داده کاوی برای نمونه سازی اشیاء مورد نیاز است، مانند هدف، وسایل حمل و نقل و رفتار.
سیستم MASTER نه تنها مدل مفهومی بلکه مدل منطقی و نمونه ای از ذخیره سازی داده ها و پرس و جوی اطلاعات را نیز ارائه می دهد. تمرکز پروژه MASTER نحوه به دست آوردن اطلاعات معنایی نیست، بلکه نحوه نمایش اطلاعات معنایی توسط مدل های مفهومی و منطقی است. مدل منطقی با یک گراف RDF نشان داده می شود زیرا به اندازه کافی عمومی است تا مسیرها و جنبه های استخراج شده از منابع داده ناهمگن را مدل کند [ 33 ]. سیستم MASTER از پایگاه داده Rendezvous [ 69 ] به منظور مدیریت حجم زیاد داده استفاده می کند.
جدول 3 پروژه هایی را نشان می دهد که از برخی نمادهای معنایی برای مسیرها استفاده کرده اند. جدول همچنین نوع اطلاعات معنایی را، با توجه به مدل 5W1H، در هر سیستمی که دارای برخی اطلاعات معنایی مرتبط با مسیر است، نشان می‌دهد. در میان برنامه‌های مورد بحث در این بخش، پروژه MASTER [ 33 ] می‌تواند با مدل 5W1H مطابقت داشته باشد، علاوه بر اینکه اجازه می‌دهد اطلاعات زمینه‌ای دیگر را وارد کند.
برخی از سیستم ها فقط یک برچسب برای مسیر [ 45 ] اتخاذ می کنند و برخی دیگر اجازه حاشیه نویسی را برای هر بخش از مسیر می دهند: نقطه، بخش و کل مسیر. ستون Semantic Annotation از جدول 3 ، حاشیه نویسی معنایی مجاز برای هر بخش از مسیر را برجسته می کند. SeMiTri [ 26 ] و MASTER [ 33 ] اجازه می دهند اطلاعات معنایی مرتبط با نقطه، قطعه، و/یا کل مسیر را به هم مرتبط کنند. سیستم ANALYTiC [ 45 ] اطلاعات معنایی را به کل مسیر و سیستم های VISTA [ 50 ] اطلاعات معنایی را به بخش مسیر مرتبط می کند.

4. طراحی انبار داده مسیر

فناوری‌های جدید توسعه‌یافته برای دستگاه‌های تلفن همراه و حسگرهای کم‌هزینه منجر به رشد حجم داده‌های مسیر شده‌اند. این حجم داده را می توان در یک مدل چند بعدی، که توسط یک انبار داده مسیر (TDW) تعریف شده است، ذخیره کرد و تجزیه و تحلیل دقیق تری را ممکن می سازد. هدف این انبارهای داده ذخیره، مدیریت و تجزیه و تحلیل داده های مسیرها به روشی چند بعدی است [ 36 ].
انگیزه پشت Trajectory Data Warehouses (TDWs) تبدیل مسیرهای خام به اطلاعات ارزشمندی است که می تواند به تصمیم گیری در برنامه های کاربردی همه جا حاضر مانند خدمات مبتنی بر مکان، کنترل ترافیک و مهاجرت گونه ها کمک کند [ 72 ، 73 ]. سوالاتی مانند اینکه کدام خیابان در شعاع 1 کیلومتری هر بیمارستان بیشترین ترافیک را دارد؟ یا “چند کاربر در یک محدوده زمانی در یک منطقه حرکت می کنند؟” می توان با استفاده از سیستم های قدیمی پاسخ داد. با این حال، هزینه محاسباتی و زمان پاسخ برای خدمات بلادرنگ ناکافی به نظر می رسد [ 72 ].
بخش‌های فرعی زیر انبار داده‌های مسیر فعلی موجود را توصیف می‌کنند که TDW‌های مبتنی بر سلول و TDW‌های مبتنی بر بخش هستند. در نهایت، کارهای مربوط به TDW معنایی شرح داده شده است.

4.1. انبار داده مسیر

انبار داده یکی از اجزای اصلی در هوش تجاری (BI) است. در محیط BI، چرخه حیات یک رکورد داده با وقوع یک رویداد آغاز می شود. سپس، فرآیند ETL رکورد رویداد را به یک مخزن مشترک به نام Data Warehouse تحویل می دهد. در نهایت، پردازش تحلیلی داده‌ها را به اطلاعاتی برای فرآیند تصمیم‌گیری تبدیل می‌کند و یک تصمیم تجاری منجر به اقدام مربوطه می‌شود. هوش تجاری مجموعه‌ای از روش‌ها، فرآیندها، معماری‌ها و فناوری‌هایی است که داده‌های خام را به اطلاعات مفید و معنادار برای تصمیم‌گیری تبدیل می‌کند [ 2 ].]. این سیستم ها حجم زیادی از داده ها را جمع آوری و خلاصه می کنند تا بتوان از آنها در تحلیل رفتار سازمانی استفاده کرد. این تبدیل داده شامل مجموعه‌ای از وظایف است که داده‌ها را از منابع داده جمع‌آوری می‌کند و پس از فرآیندهای استخراج، تبدیل، یکپارچه‌سازی و تمیز کردن، داده‌های پردازش شده را در یک انبار داده ذخیره می‌کند [ 74 ].
مشاهده شده است که دو رویکرد برای برخورد با داده های مسیر در انبارهای داده وجود دارد. در مورد اول، منطقه مورد نظر به چندین سلول تقسیم می شود و هر سلول حاوی خلاصه ای از اطلاعات در مورد محل عبور مسیرها است. از طرف دیگر، مسیرها در چندین بخش گروه بندی می شوند که به آنها اپیزود نیز می گویند.
در رویکرد طراحی انبار داده مبتنی بر سلول، فضا و زمان به سلول‌های مکانی-زمانی (یا شبکه‌ها) تقسیم می‌شوند و هر سلول حاوی معیارهای تجمعی است که از پیش محاسبه شده از مسیرهایی که از سلول عبور می‌کنند [ 39 ، 75 ]. مزیت یک DW مبتنی بر سلول این است که می توان آن را در یک انبار داده سنتی با استفاده از یک DBMS رابطه ای مانند SQL Server پیاده سازی کرد [ 75 ]]. فضای جغرافیایی به مناطق تقسیم می شود و داده های مسیر برای هر پارتیشن نقشه از پیش محاسبه می شوند. هندسه مسیر در TDW ذخیره نمی شود، فقط اطلاعات جمع آوری شده مانند سرعت متوسط ​​و کل مسافت طی شده در سلول و تعداد دفعاتی که لبه سلول طی شده است. اطلاعات انبوه ذخیره شده در هر سلول مدل DW می تواند برای آشکار کردن دانش در مورد یک منطقه جغرافیایی خاص استفاده شود [ 36 ].
شکل 3 یک طرح برف ریزه [ 34 ] از یک TDW مبتنی بر سلول را نشان می دهد. این مثال حاوی اطلاعات اولیه یک TDW، یک جدول واقعی با برخی اندازه‌گیری‌ها و ابعاد است که به مشخصات جسم متحرک، و ابعاد مکانی و زمانی مسیر اشاره دارد. در مثال شکل 3 ، اشیاء متحرک با موجودیت OBJECT_PROFILE_DIM نشان داده می شوند.که حاوی ویژگی برای نوع شیء است و ممکن است شامل ویژگی های دیگری باشد، به عنوان مثال، مارک و مدل خودرو، نوع کشتی، حرفه کاربر، و غیره. بعد سلول شامل یک ستون فضایی برای نشان دادن سلول از نظر جغرافیایی و همچنین شهر، ایالت و کشور است. جدول حقایق شامل اندازه گیری هایی است که در طی فرآیند ETL محاسبه می شوند. استفاده از عملگرهای فضایی مانند INSIDE، CONTAINS، COVERS و OVERLAPS [ 76]، می‌توانیم بفهمیم که مسیر کدام سلول‌ها را طی می‌کند. نمونه‌هایی از اندازه‌گیری‌هایی که می‌توانند در جدول واقعی محاسبه و ذخیره شوند عبارتند از: تعداد مشخص مسیرها (مقدار)، سرعت متوسط ​​اجسام (سرعت)، میانگین مسافت طی شده (فاصله) و اندازه‌گیری‌های کمکی (به عنوان مثال cross_x، cross_y، cross_t) . اندازه‌گیری‌های کمکی تعداد اجسامی را گزارش می‌کنند که از لبه‌های فضایی سلول (به عنوان مثال cross_x و cross_y) و زمانی (cross_t) عبور کرده‌اند.
در Data Warehouse و OLAP مکعب، امکان جمع‌آوری معیارها در امتداد سلسله مراتب ابعادی (با استفاده از یک تابع تجمعی) برای به دست آوردن اندازه‌ها در دانه‌بندی درشت‌تر وجود دارد. این عملیات جمع آوری [ 77 ] نامیده می شود. رویکرد TDW سلولی دارای دو مسئله شناخته شده مربوط به عملیات جمع‌آوری است. یکی مشکل double_counting است زیرا سلول ممکن است در بیش از یک شهر وجود داشته باشد. این به این دلیل است که بعد سلول یک سلسله مراتب غیرمستقیم [ 34 ] را با موجودیت city_dim تشکیل می دهد . یک راه حل برای این مشکل استفاده از یک ویژگی توزیع در رابطه است که نشان دهنده درصد مقدار تجمیع شده است که به عضو اصلی تخصیص داده می شود (در مثال شکل 3 ، شهر_dim است.موجودیت) [ 2 ]. مشکل دیگر، مسئله شمارش متمایز [ 78 ] نامیده می شود که در مجموع مقداری اندازه گیری در جدول واقعیت در حین عملیات جمع آوری رخ می دهد. اگر با یک Data Warehouse سنتی سر و کار داشتیم، برای بدست آوردن تعداد اجسام متحرک در داخل یک شهر در یک بازه زمانی معین، کافی است تعداد اشیاء درون هر سلول را اضافه کنیم، اما این عملیات در سلولی بی معنی است. TDW، از آنجایی که یک شی ممکن است در طول بازه زمانی از چند سلول عبور کرده باشد. مارکتوس و همکاران [ 38 ] راه حلی برای این مشکل با استفاده از معیارهای کمکی (cross_x، cross_y و cross_t) برای محاسبه تعداد شیء از لبه سلول و در نتیجه تصحیح خطای محاسبه در تجمع اندازه گیری پیشنهاد کرد.مقدار دارایی
Vaisman and Zimányi [ 2 ] و Renso et al. [ 23 ] یک طرح مفهومی از یک TDW مبتنی بر بخش ارائه می‌کند، که در آن جدول واقعیت شامل بخش‌های مسیر و ویژگی‌های آن‌ها از جمله: هندسه مسیر قطعه، مسافت طی شده، سرعت و مدت زمان است. شکل 4 نمونه ای از TDW مبتنی بر بخش را نشان می دهد. ابعاد عبارتند از: زمان شروع قطعه، زمان پایان بخش، جسم متحرک و مسیر. در این نوع TDW، Data Warehouse باید از داده های مکانی پشتیبانی کند. علاوه بر این، جدول واقعیت حاوی یک ویژگی فضایی است که به یک بخش (مسیر) اشاره دارد، و موجودیت Trajectory نقطه عزیمت و رسیدن مسیر جغرافیایی را دارد.
یک مسیر را می توان در قسمت هایی با فرمت های مختلف [ 23 ] ساختار داد. به عنوان مثال، برای یک گردشگر، مسیر را می توان به قسمت هایی بر اساس موارد زیر تقسیم کرد:
  • توقف و حرکت؛
  • دوره زمانی مربوط به لحظه موقعیت مکانی-زمانی. مثال: صبح، ظهر، بعد از ظهر، عصر; و
  • دسته بندی منطقه شهر مربوط به موقعیت مکانی-زمانی. مثال: اقامت، گردشگری، تجاری، تفریحی.
جدول 4 TDW تجزیه و تحلیل شده و نحوه گروه بندی آنها را بر اساس نوع طراحی آنها نشان می دهد. لئوناردی و همکاران [ 40 ] تنها موردی است که از دو نوع طراحی استفاده می کند. فراتر از شبکه فضایی منظم، آنها می توانند مسیر را با استفاده از تقسیم سیاسی به عنوان مناطق شهری خلاصه کنند. در [ 40 ]، مسیر را می توان با بخش خیابان نیز خلاصه کرد. قبل از خلاصه کردن مسیر به بخش، یک کار نقشه برداری [ 79 ] ضروری است. بنابراین، می توان اطلاعاتی مانند میانگین سرعت، زمان سفر و بازدید از بخش خیابان را دانست.

4.2. انبار داده مسیر معنایی

به گفته واگنر و همکاران. [ 31 ]، محدودیت اصلی یک سیستم خط سیر استاندارد این واقعیت است که آنها با مسیرهای معنایی سروکار ندارند، بلکه صرفاً با توالی نقاط مکانی-زمانی سروکار دارند. برخی تحقیقات مربوط به مدل STrDW (Semantic Trajectory Data Warehouse) قبلاً پیشنهاد شده است. به عنوان مثال، Manaa و Akaichi [ 44 ] مدلی را توصیف می کنند که به مراحل مهم در فرآیند طراحی DW نزدیک می شود: یکپارچه سازی، طراحی و تجزیه و تحلیل، اما با تأکید بیشتر بر طراحی. چارچوب پیشنهادی در [ 44] داده ها را از منابع ناهمگن در یک هستی شناسی جهانی که قبلا توسط یک متخصص ایجاد شده بود، گروه بندی می کند. هستی شناسی جهانی برای ایجاد یک هستی شناسی چند بعدی با ابعاد، حقایق و معیارها استفاده می شود. این مدل فرعی هستی شناسی، هستی شناسی انبار داده مسیر معنایی نامیده می شود.
سروکار داشتن با داده ها در هستی شناسی ها یا نمودارهای RDF، هنوز دارای برخی مشکلات عملکردی است که زمان قابل توجهی برای اجرا صرف می کند یا باعث وقفه می شود. برای اطمینان از قابلیت استفاده از LOD ها در سیستم های BI، یک فرآیند بهینه سازی برای پشتیبانی از چنین پرسش هایی لازم است. ابراگیموف و همکاران ارائه یک مدل مفهومی از یک مکعب داده مجازی با استفاده از واژگان QB4OLAP [ 80 ]. QB4OLAP یک واژگان RDF است که انتشار داده های چند بعدی را در وب معنایی امکان پذیر می کند [ 81 ]. مکعب داده مجازی در نظر گرفته می شود زیرا داده ها در سیستم محلی ذخیره نمی شوند. هنگام بیان پرس و جو چند بعدی در MDX، سیستم پرس و جوهای SPARQL را مانند یک سیستم فدرال تبدیل و به منابع داده از راه دور ارسال می کند [ 75 ].]. کوئری ها بهینه شده اند تا درخواست های کمتری به نقاط پایانی ارسال شود و عملکرد سیستم را بهبود بخشد. در نهایت، سیستم اطلاعات را در یک ساختار QB4OLAP در حافظه اصلی جمع آوری می کند و مقادیر محاسبه شده و به کاربر بازگردانده می شود.
برخی از STrDW از مدل 5W1H برای نشان دادن مسیرهای معنایی پیروی می کنند ( شکل 5 را ببینید )، که در آن ابعاد سعی می کنند به سؤالات اصلی تحقیق یک واقعیت پاسخ دهند. جدول حقایق شامل اندازه‌گیری‌های مکانی-زمانی برای نمونه ( نمونه ) است. به عنوان مثال، Duration زمان صرف شده بین نمونه فعلی و نقطه قبلی است. فاصله اندازه گیری فاصله بین نمونه فعلی و نمونه قبلی است. نمونه، نقطه فضا-زمان یک جسم (id، x، y، t) را نشان می دهد. یک نمونه متعلق به قسمتی است که می تواند توقف یا حرکت باشدانواع اپیزودهای توقف مانند عناصر مسیری را نشان می‌دهند که جسم در آن متوقف شده است، در حالی که قسمت‌های نوع حرکت نشان‌دهنده عناصری هستند که جسم در آن در حرکت بوده است. در این سلسله مراتب است که ابعاد Who و Why مدل 5W1H پیدا می شود.
در مثال در شکل 5 ، بعد الگو از داده کاوی برای مرتبط کردن برخی از معنایی مرتبط با مسیر استفاده می کند. علاوه بر این، بعد الگو به نوع و معنایی تقسیم می شود . معناشناسی که با بعد “SemPattern” نشان داده می شود، تفسیر الگوی مسیر را بیان می کند. به عنوان مثال، مجموعه ای از مسیرها را می توان به عنوان یک گروه مسافران در حال حرکت از شمال به شرق تفسیر کرد. بعد Pattern_type الگوی تحرک گروهی از مسیرها را نشان می‌دهد، یعنی الگوی حرکتی اجسام چگونه است، به عنوان مثال: گله، جریان و خوشه [ 21 ]]. الگو و وسایل حمل و نقل اطلاعاتی را در مورد چگونگی پیمودن مسیر بیان می کند. ابعاد Activity، Time و Space به ترتیب نشان می دهد که اندازه گیری در جدول واقعیت به چه چیزی، چه زمانی و کجا اشاره دارد.
تا به امروز، هیچ برنامه کاربردی قادر به تجزیه و تحلیل عمیق از ویژگی های معنایی مسیرها یافت نشده است. از سوی دیگر، ایده های زیادی در مورد نحوه مدل سازی چنین برنامه هایی وجود دارد. مدلی که تلاش می کند 5W1H را در بر بگیرد چارچوب Baquara [ 32 ] است. این یک چارچوب مفهومی برای تجزیه و تحلیل و غنی‌سازی داده‌های حرکتی است که شامل یک فرآیند سفارشی‌سازی برای غنی‌سازی داده‌های حرکت معنایی و یک هستی‌شناسی است که یک مدل مفهومی برای تطبیق داده‌های معنایی ارائه می‌دهد.
مدل دیگری بر اساس مفهوم 5W1H SWOT (Semantic Data Warehouse of Trajectories) است [ 41 ]. SWOT شامل دو لایه است: توافقی و تفسیری. لایه توافقی نشان دهنده جدول واقعیت و سه بعد اصلی است: مکان، زمان و مسیر. لایه تفسیری از اطلاعات توصیفی تشکیل شده است که بخش معنایی مدل را که در بیرونی ترین قسمت مدل مفهومی قرار دارد، یکپارچه می کند. این رویکرد امکان استفاده مجدد از داده های توافقی بین چندین برنامه کاربردی در حوزه های مختلف را فراهم می کند. تغییرات ایجاد شده در داده های تفسیری بر واقعیت ها تأثیر نمی گذارد.
Mob-Warehouse [ 31 ] یک مدل TDW بر اساس چارچوب 5W1H است، که در آن هر بعد از DW مربوط به تلاشی برای پاسخ به یک سوال معنایی است که در شکل 5 توضیح داده شده است. کار واگنر [ 31 ] یک مدل STrDW را با استفاده از هستی شناسی ها توصیف می کند و چارچوبی را ارائه می دهد که داده های ناهمگن از چندین منبع داده را در هستی شناسی به نام هستی شناسی مسیر معنایی عمومی ادغام می کند. این هستی‌شناسی تلاش می‌کند شی متحرک، محیط جغرافیایی درگیر، فعالیت‌های انجام‌شده، حرکت شی، و معنایی زیرمجموعه‌ها را توصیف کند.
در جدول 5 مشاهده می شود که بسیاری از آثار فقط مدل های مفهومی ( ستون نوع ) به ویژه تحقیقات STrDW هستند. جدول 5 همچنین سیستم های هر دو سطح عملیات و STrDW و نوع اطلاعات معنایی را که هر کدام مطابق مدل 5W1H نشان می دهد، ارائه می دهد. شاید عجیب به نظر برسد که سیستم هایی که با مسیرهای معنایی سروکار دارند، پارامتر When مدل 5W1H را برآورده نمی کنند . با این حال، این پارامتر بسیار بیشتر از یک تاریخ ساده در تقویم را نشان می دهد. این پارامتر به اطلاعات معنایی مرتبط با تاریخ در تقویم، مانند تعطیلات آخر هفته، تاریخ های سالگرد، تعطیلات و تاریخ های یادبود اشاره دارد.

5. تحلیل داده های مسیر

به طور فزاینده ای، برنامه هایی که حجم زیادی از داده ها را مدیریت می کنند، برخی تحلیل ها را انجام می دهند. تجزیه و تحلیل علم یا روشی است که برای بررسی چیزهای پیچیده استفاده می شود. هنگامی که تجزیه و تحلیل برای داده ها اعمال می شود، فرآیند استخراج دانش و بینش از آنها است [ 82 ]. مرحله تجزیه و تحلیل شامل بهره برداری از داده های خلاصه شده DW است. از آنجایی که هدف مطالعه، داده های مسیر، یعنی اطلاعات مکانی است، طبیعی است که از سیستم های اطلاعات جغرافیایی برای تحلیل و مشاهده داده ها استفاده شود.
ابزارهای تجزیه و تحلیل همچنین می توانند مستقیماً منابع داده دیگر را در فرآیندی به نام ETQ جستجو کنند. در این فرآیند، داده ها بر حسب تقاضا و به صورت مجازی در لحظه پرس و جو تبدیل می شوند. برخی از تحقیقات پیشنهادی از ETQ برای پرس و جوی معنایی داده های باز پیوندی [ 80 ] و برای گسترش ابعاد مکعب OLAP [ 83 ] استفاده می کنند. تجزیه و تحلیل داده های مرسوم و ادغام وب معنایی در یک سیستم BI منجر به یک دسته ابزار تجزیه و تحلیل جدید به نام OLAP اکتشافی [ 35 ] می شود. علاوه بر این، اغلب لازم است از یک ابزار OLAP با قابلیت‌های فضایی، معروف به SOLAP (Spatial OLAP) استفاده شود [ 84 ]] زیرا داده های مسیر دارای اطلاعات جغرافیایی هستند. اگر ابزار تحلیلی داده های معنایی، داده های مکانی، داده های نیمه ساختار یافته و ساختار یافته را یکپارچه کند، ExpSOLAP [ 85 ] نامیده می شود.
با توجه به [ 82 ]، سیستم های تحلیلی را می توان به پنج نوع طبقه بندی کرد:
  • توصیفی: قادر به پاسخگویی به سوالاتی مانند “چه اتفاقی افتاده است؟” این سیستم ها فقط می توانند داده های خام جمع آوری شده را توصیف، خلاصه یا ارائه دهند. داده ها رمزگشایی می شوند، در یک زمینه تفسیر می شوند و سپس در قالب نمودارها، گزارش ها، آمار و غیره ارائه می شوند.
  • تشخیصی: سعی کنید بفهمید چرا چیزی در حال رخ دادن است.
  • کشف: سعی کنید به این سوال پاسخ دهید که چه اتفاقی افتاده است که هنوز مشخص نیست. برای این، استنباط اطلاعات غیر پیش پا افتاده، استدلال یا تکنیک های تشخیص به داده های خام اعمال می شود.
  • پیش بینی کننده: سعی کنید به این سوال پاسخ دهید که “احتمال دارد چه اتفاقی بیفتد؟”. برای انجام این کار، آنها از داده ها و دانش گذشته برای پیش بینی نتایج آینده و ارائه روش هایی برای ارزیابی کیفیت این پیش بینی ها استفاده می کنند.
  • تجویزی: سعی کنید این سوال را تجزیه و تحلیل کنید که در مورد آنچه اتفاق افتاده یا احتمال دارد چه کاری باید انجام شود.
با استفاده از VATookit می‌توانیم تکامل زمانی سلول‌های تقسیم‌کننده نقشه را ببینیم. برای هر سلول، یک مثلث اندازه گیری اختصاص داده می شود که تعداد اجسام و سرعت متوسط ​​اشیاء درون یک سلول را نشان می دهد. بنابراین، می توان بر اساس ارتفاع و عرض مثلث ها، مناطق بالقوه تراکم را در نقشه پی برد. شکل 6 یک مثال گویا را نشان می دهد که نشان می دهد چگونه نگاشت مسیرها را می توان به سلول ها تقسیم کرد. انواع دیگری از تجزیه و تحلیل را می توان استفاده کرد، مانند نمودار دایره ای یا نمودار میله ای.
از سوی دیگر، رنسو و همکاران. [ 23 ] نوعی تجسم به نام نمودار زمانی را نشان می دهد که تکامل ترافیک را در طول هفته که از یکشنبه شروع می شود و در روز شنبه پایان می یابد، نشان می دهد. هر منحنی در نمودار مربوط به تعداد اشیاء در یک سلول در شبکه است. رنسو و همکاران [ 23 ] با نمودار زمان نشان می دهد که ترافیک شهر میلان (ایتالیا) در روز افزایش می یابد و در شب کاهش می یابد. در آخر هفته ترافیک کمتر از روزهای دیگر است.
برای TDW های مبتنی بر بخش، بسته به نحوه طراحی DW، هر مسیر را می توان به صورت جداگانه تجزیه و تحلیل کرد. در آندرینکو و آندرینکو، شکلی تحلیلی از جنبش به نام “دیدگاه چشم پرنده در مورد حرکت در زمینه” توصیف شده است [ 17 ].]. در آن نوع تحلیل، از تعمیم و تجمیع برای کشف الگوهای مکانی-زمانی استفاده می شود. دو نوع تحلیل در این دسته وجود دارد: بررسی تغییرات حضور اجسام متحرک در مکان‌های مختلف مکان و زمان، و بررسی جریان اجسام بین مکان‌های فضایی. برای تجزیه و تحلیل حضور شی متحرک، از نقشه چگالی استفاده می شود که در آن مناطق پربازدید با رنگ های تیره تر و مناطق کمتر بازدید شده با رنگ های روشن تر رنگ آمیزی شده اند. حضور جسم متحرک در یک مکان در طول یک بازه زمانی را می توان بر حسب تعداد اشیاء مختلفی که از آن مکان بازدید کرده اند و کل زمان سپری شده در آن مکان مشخص کرد [ 17 ].]. تجزیه و تحلیل حرکت را می توان با استفاده از یک نقشه جریان انجام داد که در آن مسیرهای مشابه را می توان جمع کرد. گاهی اوقات، در نظر گرفتن یک مسیر مشابه برای نقشه جریان به این معنی نیست که مسیرها یکسان هستند، بلکه مبدأ و مقصد یکسانی دارند.
تمام سیستم های ارائه شده در این مقاله تنها یک تحلیل توصیفی از مسیرها را انجام می دهند. یعنی آنها فقط تاریخچه داده ها را از طریق گزارش ها، نمودارها، جداول و غیره نشان می دهند. انجام انواع دیگر تجزیه و تحلیل هنوز یک چالش بزرگ است. STrDW یک حوزه جدید در علوم کامپیوتر است و نیاز به کار بیشتری دارد که عمدتاً شامل پنج نوع سیستم تحلیلی است.

6. Challenges in Big Data را برای Trajectory Analytics باز کنید

تحقیقات در مورد داده های خط سیر خام بسیار پیشرفته است. چندین مقاله وجود دارد که فرآیندهای فشرده سازی، نمایه سازی، اندازه گیری شباهت و ذخیره سازی مسیر را توصیف می کند [ 86 ]. ما در سال‌های اخیر نیاز به ذخیره‌سازی و جستجوی بزرگ داده‌های مسیر حرکت بزرگ را درک کردیم.
کارهای ذخیره‌سازی مسیرهای مختلف از پایگاه‌های داده مکانی استفاده می‌کنند و این پایگاه‌های داده را با داده‌های مکانی-زمانی تطبیق می‌دهند [ 42 ، 46 ، 47 ]. در میان مقالات تجزیه و تحلیل شده، فقط داده های جغرافیایی درمان زمانی دریافت می کنند، اما سایر ویژگی های جسم متحرک ممکن است در طول زمان علاوه بر موقعیت جغرافیایی تغییر کند. DMBS به عنوان SECONDO و Temporal PostgreSQL + PostGIS [ 81 ] اجازه می دهد تا انواع زمانی را با هر دو نوع جغرافیایی و اولیه مرتبط کند. گسترش این قابلیت به فناوری‌های داده‌های بزرگ فضایی می‌تواند به افزایش قدرت بیان مسیر و ساده‌سازی پرس‌وجوهای زمانی مانند لحظه زمانی، دوره و سرعت کمک کند.
اکثر اجسام متحرک با استفاده از نمادهای نقطه نمایش داده می شوند زیرا اندازه اکثر اشیاء نظارت شده در مقایسه با مقیاس نقشه منطقه ای، قاره ای یا حتی جهانی ناچیز است. شاید رویکردی که تغییرات شکل برخی از اجسام متحرک را برای مدت طولانی، نه تنها مسیر حرکت، رصد می‌کند، بتواند به درک رفتار و پیش‌بینی رویدادهای آینده، مانند طوفان، لکه‌های نفتی دریا، گله‌ها، سؤالات رودخانه‌ای و فرسایش کمک کند.
روند جدید در سیستم های خط سیر، تعبیه داده های معنایی در اطلاعات جمع آوری شده است [ 29 ]. با این حال، فرآیند ساخت مسیرهای معنایی انبار داده هنوز فاقد تحقیقات عمیق تر است. در زمینه مدلسازی مفهومی باقی می ماند زیرا گرفتن اطلاعات از بافت کاربر به روشی شفاف، بدون اینکه کاربر برای اطلاع رسانی سیستم در مورد زمینه فعلی آن مورد آزار و اذیت قرار گیرد، یک کار غیر ضروری است. از طریق تجزیه و تحلیل بافت جغرافیایی حرکت و استفاده از تکنیک های داده کاوی [ 72 ]، می توان رفتار اشیاء را برای پاسخ به سؤالات اساسی مدل 5W1H کشف یا استنباط کرد. همه این اطلاعات خلاصه شده ممکن است انبار داده مسیر معنایی را تشکیل دهند.
ساخت STrDW برای داده های بزرگ نه تنها به دلیل حجم اطلاعات، بلکه به دلیل تنوع گسترده داده ها، هنوز یک چالش است. به طور مشابه، یک سرور SOLAP که از داده های بزرگ پشتیبانی می کند هنوز در دست مطالعه است. ابزار Apache Kylin ( https://kylin.apache.org/ ) یک سرور OLAP برای Big Data است، اما همچنان فاقد گسترش فضایی است. Keskin و Yazici [ 87 ] یک معماری برای یک سرور OLAP مکانی-زمانی برای داده های بزرگ پیشنهاد می کنند. با این حال، مطالعات فعلی بیشتر بر روی داده‌های هواشناسی تمرکز می‌کنند و نیاز به تطبیق معماری با داده‌های مسیر دارند.
مرحله تجزیه و تحلیل توصیف شده در این نظرسنجی شامل اکتشاف داده های خلاصه شده DW است. با توجه به نوع ابزار تحلیلی، اکثر TDW ها فقط نوع تحلیل توصیفی را ارائه می دهند. برخی از برنامه‌ها می‌توانند مقصد کاربر یا هدف سفر او را بر اساس تاریخچه یا اطلاعات به جا مانده در رسانه‌های اجتماعی پیش‌بینی کنند، اما یک سیستم Analytics که دلیل رفتار مجموعه‌ای از مسیرها، تأثیر آن رفتار و آنچه باید باشد را استنباط می‌کند. انجام شده هنوز مسائل باز در زمینه تحقیقات TDW هستند.
موضوع بسیار مهم دیگری که باید در تحقیق مسیرها مورد توجه قرار گیرد، مربوط به حریم خصوصی کاربر است [ 11 ، 13 ]. برخی از کارهای خط سیر می توانند به ایمنی جامعه کمک کنند، مانند تشخیص ناهنجاری ها، آدم ربایی ها، توقف های غیرمنتظره [ 11 ، 88 ]، اما مردم تا چه حد حاضرند حریم خصوصی خود را به دلایل امنیتی قربانی کنند؟ یک سازمان، دولتی یا خصوصی، ممکن است از یک سیستم نظارت فردی به نفع یا علیه خود شهروند استفاده کند. برای مثال، آثار [ 89 ] و [ 90 ] از تکنیک‌های حفظ حریم خصوصی برای برخورد با داده‌های مسیر استفاده می‌کنند.

7. ملاحظات نهایی

هدف این بررسی گردآوری چندین تحقیق در انبار داده های مسیر داده بزرگ از دیدگاه سیستم های OLAP است. در نتیجه، کارهای پژوهشی مورد بحث در مراحل زیر دسته بندی و ارزیابی شدند: ادغام، طراحی و تحلیل. مرحله یکپارچه سازی مربوط به مرحله جمع آوری و ذخیره داده های خط سیر خام است. مرحله طراحی شامل فرآیند ETL و ساخت TDW است. مرحله تجزیه و تحلیل مربوط به بررسی پیچیدگی داده ها با استفاده از منابع مختلف مانند جداول، نقشه ها، نمودارها و گزارش ها است.
مرحله جدید در تکامل سیستم های مسیری، جفت کردن اطلاعات متنی با داده ها، و در نتیجه، غنی سازی معنایی مسیر است. آثار اولیه سعی داشتند با چسباندن یک برچسب اطلاعاتی به مسیر، مسیر را غنی کنند. با پیشرفت تحقیقات در این زمینه، آثار بیشتری بر اساس مدل 5W1H پدید آمده است. این مدل همان است که گزارش ژورنالیستی را در توصیف واقعیت راهنمایی می‌کند و اکنون می‌تواند به غنی‌سازی مسیر شیء متحرک کمک کند. در حال حاضر، چالش جدید تنها استفاده از مدل 5W1H نیست، بلکه هرگونه اطلاعات شی متحرک و اطلاعات زمینه برای غنی‌سازی معنایی مسیر است. چنین اطلاعاتی را می توان با حسگرهایی مانند ضربان قلب، دما، نویز، روشنایی و غیره به دست آورد.

اختصارات

در این نسخه از اختصارات زیر استفاده شده است:

AIS سیستم شناسایی خودکار
BI هوش تجاری
DBMS سیستم های مدیریت پایگاه داده
DP داگلاس-پوکر
DSSP بستر پشتیبانی از فضای داده
DW پایگاه داده تحلیلی
ETL استخراج، تبدیل و بارگذاری
ETQ استخراج، تبدیل، پرس و جو
ExpSOLAP SOLAP اکتشافی
جی پی اس سیستم موقعیت یاب جهانی
GRASP-SemTS GRASP برای تقسیم‌بندی مسیر نیمه‌نظارت‌شده
GRASP-UTS روش جستجوی تطبیقی ​​تصادفی حریصانه برای مسیر بدون نظارت
تقسیم بندی
کلوب جی اس ام سیستم جهانی ارتباطات سیار
HDFS سیستم فایل توزیع شده Hadoop
ISO سازمان بین المللی استاندارد سازی
LOD داده های باز پیوند داده شده
MDX بیان داده های چند بعدی
وزارت دفاع در حال حرکت پایگاه داده شی
NoSQL نه تنها SQL
OLAP پردازش تحلیلی آنلاین
ORDBMS DBMS شی – رابطه ای
RDD ResilientDistributed Dataset
RDF چارچوب شرح منابع
RFID شناسایی فرکانس رادیویی
SDBMS سیستم های مدیریت پایگاه داده های مکانی
SOLAP فضایی OLAP
SPARQL پروتکل SPARQL و زبان پرس و جو RDF
SQL مخفف Structured Query Language است
STrDW انبار داده مسیر معنایی
TD-TR نسبت زمانی بالا به پایین
TDW انبارهای داده مسیر
VGI اطلاعات جغرافیایی داوطلبانه

منابع

  1. ژنگ، ی. داده کاوی مسیر: مروری. ACM Trans. هوشمند سیستم تکنولوژی 2015 ، 6 ، 29. [ Google Scholar ] [ CrossRef ]
  2. وایسمن، ا. Zimányi, E. طراحی انبار داده مفهومی. در سیستم های انبار داده ; Springer: برلین، آلمان، 2014; صص 89-119. [ Google Scholar ]
  3. بوگورنی، وی. رنسو، سی. د آکینو، آر. د لوکا سیکیرا، اف. Alvares، LO Constant-یک مدل داده مفهومی برای مسیرهای معنایی اجسام متحرک. ترانس. GIS 2014 ، 18 ، 66-88. [ Google Scholar ] [ CrossRef ]
  4. Kolovson، CP; نعمت، کارشناسی ارشد; Potamianos، S. قابلیت همکاری مدیران داده های فضایی و ویژگی: مطالعه موردی . Springer: برلین، آلمان، 1993; جلد 692، ص 239–263. [ Google Scholar ]
  5. خو، جی. Güting، RH یک مدل داده عمومی برای اجسام متحرک. GeoInformatica 2013 ، 17 ، 125-172. [ Google Scholar ] [ CrossRef ]
  6. جین، ایکس. Wah، BW; چنگ، ایکس. وانگ، ی. اهمیت و چالش های تحقیقات کلان داده. کلان داده Res. 2015 ، 2 ، 59-64. [ Google Scholar ] [ CrossRef ]
  7. جی، م. بانگی، اچ. بوهنووا، بی. داده های بزرگ برای اینترنت اشیا: یک نظرسنجی. ژنرال آینده. محاسبه کنید. سیستم 2018 ، 87 ، 601-614. [ Google Scholar ] [ CrossRef ]
  8. شکر، س. گونتوری، وی. ایوانز، ام آر. یانگ، ک. چالش های فضایی بیگ داده متقاطع تحرک و محاسبات ابری. در مجموعه مقالات یازدهمین کارگاه بین المللی ACM در مورد مهندسی داده برای دسترسی بی سیم و موبایل، اسکاتسدیل، AZ، ​​ایالات متحده آمریکا، 20 مه 2012. صص 1-6. [ Google Scholar ]
  9. Bédard، Y.; ریست، اس. Proulx، MJ Spatial Online Analytical Processing (SOLAP): مفاهیم، ​​معماری ها و راه حل ها از دیدگاه مهندسی ژئوماتیک. در انبارهای داده و OLAP: مفاهیم، ​​معماری و راهکارها . IGI Global: Pittsburgh, PA, USA, 2007; صص 298-319. [ Google Scholar ]
  10. پدر و مادر، سی. اسپاکاپیترا، اس. رنسو، سی. آندرینکو، جی. آندرینکو، ن. بوگورنی، وی. دامیانی، ام.ال. گکولالاس-دیوانیس، ع. مکدو، جی. پلکیس، ن. و همکاران مدلسازی و تحلیل مسیرهای معنایی. کامپیوتر ACM. Surv. 2013 ، 45 ، 42. [ Google Scholar ] [ CrossRef ]
  11. کنگ، ایکس. لی، ام. ما، ک. تیان، ک. وانگ، ام. نینگ، ز. Xia، F. داده های مسیر بزرگ: بررسی برنامه ها و خدمات. دسترسی IEEE 2018 ، 6 ، 58295–58306. [ Google Scholar ] [ CrossRef ]
  12. بیان، جی. تیان، دی. تانگ، ی. تائو، دی. بررسی بر روی تحلیل خوشه‌بندی مسیر. arXiv 2018 , arXiv:1802.06971. [ Google Scholar ]
  13. فنگ، ز. زو، ی. نظرسنجی در مسیر داده کاوی: تکنیک ها و کاربردها. IEEE Access 2016 ، 4 ، 2056-2067. [ Google Scholar ] [ CrossRef ]
  14. الصحفی، ت. المطیری، م. الماسری، ر. نظرسنجی در مسیر انبار داده. تف کردن Inf. Res. 2019 ، 28 ، 1-14. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  15. فیلتو، ر. رافائتا، ا. رونکاتو، ا. ساسنتی، ج.ا. می، سی. کلاین، دی. مدل معنایی برای انبارهای داده حرکت. در مجموعه مقالات هفدهمین کارگاه بین المللی ذخیره سازی داده و OLAP، شانگهای، چین، نوامبر 2014. ص 47-56. [ Google Scholar ]
  16. ناردینی، اف.ام. اورلاندو، اس. پرگو، آر. رافائتا، ا. رنسو، سی. سیلوستری، سی. تحلیل مسیرهای کاربران موبایل: از انبارهای داده تا سیستم‌های توصیه‌کننده. در یک راهنمای جامع از طریق تحقیقات بانک اطلاعاتی ایتالیا در 25 سال گذشته ؛ Springer: برلین، آلمان، 2018; ص 407-421. [ Google Scholar ]
  17. آندرینکو، NV; Andrienko, GL Visual Analytics of Movement: A Rich Palette of Techniques to Enable Understanding 2013. در دسترس آنلاین: https://www.cambridge.org/core/books/mobility-data/visual-analytics-of-movement-a-rich -palette-of-techniques-to-enable-denderstanding/D8CF79BD836291437ED501B4965498B8 (دسترسی در 31 ژانویه 2020).
  18. اعتماد، م. جونیور، ع. حسینی، ع. رز، جی. متوین، اس. الگوریتم تقسیم‌بندی مسیر بر اساس استراتژی‌های تشخیص تغییر مبتنی بر درونیابی. کارگاه های آموزشی EDBT/ICDT. 2019. در دسترس آنلاین: https://ceur-ws.org/Vol-2322/BMDA_4.pdf (در 31 ژانویه 2020 قابل دسترسی است).
  19. سوآرس جونیور، آ. مورنو، BN; تایمز، وی سی. ماتوین، اس. Cabral، LdAF GRASP-UTS: الگوریتمی برای تقسیم‌بندی مسیر بدون نظارت. بین المللی جی. جئوگر. Inf. علمی 2015 ، 29 ، 46-68. [ Google Scholar ] [ CrossRef ]
  20. جونیور، ع. تایمز، وی سی. رنسو، سی. ماتوین، اس. کابرال، لس آنجلس یک رویکرد نیمه نظارت شده برای تقسیم بندی معنایی مسیرها. در مجموعه مقالات نوزدهمین کنفرانس بین المللی IEEE در مدیریت داده های تلفن همراه (MDM) 2018، آلبورگ، دانمارک، 28 ژوئن 2018؛ صص 145-154. [ Google Scholar ]
  21. Goodchild، MF Citizens as Sensors: The World of Volunteered Geography. ژئوژورنال 2007 ، 69 ، 211-221. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  22. گرانل، سی. Shade، S. Hobona، G. داده‌های مرتبط: زیرساخت‌های داده‌های مکانی و اطلاعات جغرافیایی داوطلبانه را به هم متصل می‌کند. در خدمات وب جغرافیایی: پیشرفت در قابلیت همکاری اطلاعات ; IGI Global: Pittsburgh, PA, USA, 2011; ص 189-226. [ Google Scholar ]
  23. رنسو، سی. اسپاکاپیترا، اس. Zimányi, E. Mobility Data ; انتشارات دانشگاه کمبریج: کمبریج، MA، ایالات متحده آمریکا، 2013. [ Google Scholar ]
  24. ژنگ، ی. Xie, X. همبستگی مکان یادگیری از مسیرهای GPS. در مجموعه مقالات یازدهمین کنفرانس بین المللی 2010 در مدیریت داده های تلفن همراه، کانزاس سیتی، MO، ایالات متحده آمریکا، 21 ژوئن 2010. [ Google Scholar ]
  25. کروم، جی. Horvitz, E. Predestination: Inferring Destinations from Partial Trajectories ; Springer: برلین، آلمان، 2006; ص 243-260. [ Google Scholar ]
  26. یان، ز. چاکرابورتی، دی. پدر و مادر، سی. اسپاکاپیترا، اس. Aberer, K. SeMiTri: چارچوبی برای حاشیه نویسی معنایی مسیرهای ناهمگن. در مجموعه مقالات چهاردهمین کنفرانس بین المللی گسترش فناوری پایگاه داده، اوپسالا، سوئد، 21 مارس 2011; صص 259-270. [ Google Scholar ]
  27. اسپاکاپیترا، اس. پدر و مادر، سی. دامیانی، ام.ال. de Macedo، JA; پورتو، اف. وانگنوت، سی. دیدگاه مفهومی در مسیرها. دانستن داده ها مهندس 2008 ، 65 ، 126-146. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  28. اسپاکاپیترا، اس. پدر و مادر، سی. افزودن معنی به قدم های شما . Springer: برلین، آلمان، 2011; صص 13-31. [ Google Scholar ]
  29. Laube, P. The Low Hanging Fruit Gone: Achievements and Challenges of Computational Movement Analysis. مشخصات SIGSPATIAL 2015 ، 7 ، 3-10. [ Google Scholar ] [ CrossRef ]
  30. نابو، آر جی. فیلتو، ر. نانی، م. Renso, C. حاشیه نویسی مسیرها با ترکیب آنها با پست های کاربران رسانه های اجتماعی. در مجموعه مقالات پانزدهمین سمپوزیوم برزیل در زمینه ژئوانفورماتیک (GeoInfo)، Campos do Jordão، برزیل، 29 نوامبر 2014; صص 25-36. [ Google Scholar ]
  31. واگنر، آر. de Macedo، JAF; رافائتا، ا. رنسو، سی. رونکاتو، ا. Trasarti, R. Mob-Warehouse: A Semantic Approach for Mobility Analysis with a Trajectory Data Warehouse ; Springer: برلین، آلمان، 2013; صص 127-136. [ Google Scholar ]
  32. فیلتو، ر. می، سی. رنسو، سی. پلکیس، ن. کلاین، دی. Theodoridis, Y. چارچوب مبتنی بر دانش Baquara2 برای غنی سازی معنایی و تجزیه و تحلیل داده های حرکت. دانستن داده ها مهندس 2015 ، 98 ، 104-122. [ Google Scholar ] [ CrossRef ]
  33. Mello، RdS; بوگورنی، وی. آلوارس، لو. سانتانا، LHZ؛ فررو، کالیفرنیا؛ فروزا، AA; شراینر، GA; Renso, C. MASTER: Aspect Aspect View در مسیرها. ترانس. GIS 2019 ، 23 ، 805-822. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  34. مالینوفسکی، ای. Zimanyi, E. طراحی انبار داده پیشرفته-از کاربردهای معمولی تا مکانی و زمانی . سیستم ها و برنامه های داده محور؛ Springer: برلین، آلمان، 2008. [ Google Scholar ] [ CrossRef ]
  35. آبلو، ا. رومرو، او. پدرسن، سل؛ برلانگا، آر. Nebot، V. آرامبورو، ام جی; Simitsis، A. استفاده از فناوری های وب معنایی برای OLAP اکتشافی: یک بررسی. IEEE Trans. بدانید. مهندسی داده 2014 ، 27 ، 571-588. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  36. براز، اف جی. Orlando, S. Trajectory Data Warehouses: Proposal of Design and Application to Exploit Data. GeoInfo 2007 ، 9 ، 61-72. [ Google Scholar ]
  37. اورلاندو، اس. اورسینی، ر. رافائتا، ا. رونکاتو، ا. Silvestri, C. Trajectory Data Warehouses: Design and Implementation Issues. جی. کامپیوتر. علمی مهندس 2007 ، 1 ، 211-232. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  38. مارکتوس، جی. فرنتزوس، ای. نتوتسی، آی. پلکیس، ن. رافائتا، ا. تئودوریدیس، ی. ساخت انبارهای مسیری در دنیای واقعی. در مجموعه مقالات هفتمین کارگاه بین المللی ACM در مورد مهندسی داده برای دسترسی بی سیم و موبایل، ونکوور، BC، کانادا، 13 ژوئن 2008. صص 8-15. [ Google Scholar ]
  39. لئوناردی، ال. مارکتوس، جی. فرنتزوس، ای. جیاتراکوس، ن. اورلاندو، اس. پلکیس، ن. رافائتا، ا. رونکاتو، ا. سیلوستری، سی. تئودوریدیس، Y. T-warehouse: تحلیل اولاپ بصری بر روی داده های مسیر. در مجموعه مقالات بیست و ششمین کنفرانس بین المللی مهندسی داده IEEE در سال 2010 (ICDE 2010)، لانگ بیچ، کالیفرنیا، ایالات متحده؛ 2010; صص 1141-1144. [ Google Scholar ]
  40. لئوناردی، ال. اورلاندو، اس. رافائتا، ا. رونکاتو، ا. سیلوستری، سی. آندرینکو، جی. آندرینکو، ن. چارچوبی کلی برای ذخیره‌سازی داده‌های مسیری و OLAP بصری. GeoInformatica 2014 ، 18 ، 273-312. [ Google Scholar ] [ CrossRef ]
  41. سیلوا، MCT; تایمز، وی سی. de Macêdo، JA; Renso، C. SWOT: مدل مفهومی انبار داده برای مسیرهای معنایی. در مجموعه مقالات هجدهمین کارگاه بین المللی ACM در مورد ذخیره سازی داده و OLAP، ملبورن، VIC، استرالیا، 19 اکتبر 2015. صص 11-14. [ Google Scholar ]
  42. بائو، جی. لی، آر. یی، ایکس. ژنگ، ی. مدیریت مسیرهای عظیم در ابر. در مجموعه مقالات بیست و چهارمین کنفرانس بین المللی ACM SIGSPATIAL در مورد پیشرفت در سیستم های اطلاعات جغرافیایی، برلینگیم، کالیفرنیا، ایالات متحده آمریکا، اکتبر 2016؛ پ. 41. [ Google Scholar ]
  43. گالیچ، ز. جریان‌های داده‌های مکانی-زمانی و پارادایم داده‌های بزرگ. در جریان‌های داده‌های مکانی-زمانی ؛ Springer: Barlin، آلمان، 2016; صص 47-69. [ Google Scholar ]
  44. منا، م. Akaichi، J. مدل مفهومی انبار داده مسیری مبتنی بر هستی شناسی ; Springer: برلین، آلمان، 2016; صص 329-342. [ Google Scholar ]
  45. سوآرس جونیور، آ. رنسو، سی. Matwin, S. ANALYTiC: یک سیستم یادگیری فعال برای طبقه بندی مسیر. محاسبات IEEE. نمودار. Appl. 2017 ، 37 ، 28-39. [ Google Scholar ] [ CrossRef ]
  46. ژانگ، ز. جین، سی. مائو، جی. یانگ، ایکس. Zhou، A. Trajspark: یک سیستم مدیریت حافظه مقیاس پذیر و کارآمد برای داده های مسیر بزرگ ؛ Springer: برلین، آلمان، 2017; صص 11-26. [ Google Scholar ]
  47. اعرابی، ل. موکبل، MF; Musleh, M. St-hadoop: A Framework Mapreduce for Spatio-Temporal Data. GeoInformatica 2018 ، 22 ، 785-813. [ Google Scholar ] [ CrossRef ]
  48. دیویدینو، آر. سوآرس، آ. ماتوین، اس. ایزنور، AW؛ وب، اس. Brousseau، M. ادغام معنایی جریان‌های داده ناهمگن زمان واقعی برای تصمیم‌گیری مرتبط با اقیانوس. مصنوع داده های بزرگ. هوشمند Mil. تصمیم می گیرد. ماک STO 2018 . [ Google Scholar ] [ CrossRef ]
  49. نیکیتوپولوس، پی. ولاچو، ع. دولکریدیس، سی. Vouros، GA DiStRDF: پرس و جوهای RDF فضایی-زمانی توزیع شده در Spark. در مجموعه مقالات کارگاه های آموزشی EDBT/ICDT، وین، اتریش، 26 مارس 2018؛ صص 125-132. [ Google Scholar ]
  50. سوآرس، آ. رز، جی. اعتماد، م. رنسو، سی. ماتوین، اس. ویستا: بستر تجزیه و تحلیل بصری برای حاشیه نویسی معنایی مسیرها. در مجموعه مقالات بیست و دومین کنفرانس بین المللی گسترش فناوری پایگاه داده (EDBT)، لیسبون، پرتغال، 26 مارس 2019؛ صص 570-573. [ Google Scholar ]
  51. جورجیو، اچ. کاراگیورگو، اس. کنتولیس، ی. پلکیس، ن. پترو، پ. اسکارلاتی، دی. تئودوریدیس، ی. تجزیه و تحلیل اشیاء متحرک: بررسی روش‌های پیش‌بینی مکان و مسیر آینده. arXiv 2018 , arXiv:1807.04639. [ Google Scholar ]
  52. ژنگ، ی. ژو، X. محاسبات با مسیرهای فضایی . Springer Science & Business Media: برلین، آلمان، 2011. [ Google Scholar ]
  53. مراتنیا، ن. Rolf, A. تکنیک های فشرده سازی فضایی و زمانی برای اجسام نقطه متحرک . Springer: برلین، آلمان، 2004; صص 765-782. [ Google Scholar ]
  54. پوتامیاس، م. پاترومپاس، ک. سلیس، تی. نمونه‌برداری از جریان‌های مسیر با معیارهای مکانی-زمانی. در مجموعه مقالات هجدهمین کنفرانس بین المللی مدیریت پایگاه داده های علمی و آماری (SSDBM’06)، وین، اتریش، 3 تا 5 ژوئیه 2006. صص 275-284. [ Google Scholar ]
  55. لی، جی جی; کانگ، ام. داده های بزرگ جغرافیایی: چالش ها و فرصت ها. بیگ دیتا Res. 2015 ، 2 ، 74-81. [ Google Scholar ] [ CrossRef ]
  56. بارو، PA; مک دانل، آر. مک دانل، RA; Lloyd, CD Principles of Geographical Information Systems ; انتشارات دانشگاه آکسفورد: آکسفورد، بریتانیا، 2015. [ Google Scholar ]
  57. اسمیت، تی آر. منون، اس. ستاره، JL; Estes، JE الزامات و اصول برای پیاده سازی و ساخت سیستم های اطلاعات جغرافیایی در مقیاس بزرگ. بین المللی جی. جئوگر. Inf. سیستم 1987 ، 1 ، 13-31. [ Google Scholar ] [ CrossRef ]
  58. گالیچ، ز. مشکوویچ، ای. Osmanović، D. پردازش توزیع شده داده های تحرک بزرگ به عنوان جریان داده های مکانی-زمانی. Geoinformatica 2017 ، 21 ، 263-291. [ Google Scholar ] [ CrossRef ]
  59. فرانکلین، ام. هالیوی، ا. Maier, D. از پایگاه داده تا فضاهای داده: چکیده ای جدید برای مدیریت اطلاعات. ACM Sigmod Rec. 2005 ، 34 ، 27-33. [ Google Scholar ] [ CrossRef ]
  60. فرانکلین، ام. هالیوی، ا. Maier, D. A First, Tutorial on Dataspaces. Proc. VLDB Enddow. 2008 ، 1 ، 1516-1517. [ Google Scholar ] [ CrossRef ]
  61. هالیوی، ا. فرانکلین، ام. Maier, D. اصول سیستم های فضای داده. در مجموعه مقالات بیست و پنجمین سمپوزیوم ACM SIGMOD-SIGACT-SIGART در اصول سیستم های پایگاه داده، شیکاگو، IL، ایالات متحده آمریکا، 27 ژوئن 2006. صفحات 1-9. [ Google Scholar ]
  62. سازمان بین المللی استاندارد سازی. ISO 19108 اطلاعات جغرافیایی — طرح واره زمانی ; ISO/TC 211, I; سازمان بین المللی استانداردسازی: ژنو، سوئیس، 2002. [ Google Scholar ]
  63. سازمان بین المللی استاندارد سازی. ISO 19107 اطلاعات جغرافیایی — طرح واره فضایی ; ISO/TC 211, I; سازمان بین المللی استانداردسازی: ژنو، سوئیس، 2003. [ Google Scholar ]
  64. کربن، پ. کاتسیفودیموس، ا. ایون، اس. مارکل، وی. حریدی، س. Tzoumas، K. Apache flink: Stream and Batch Processing in a Single Engine. گاو نر محاسبات IEEE. Soc. فنی Comm. مهندسی داده 2015 ، 36 ، 28-38. [ Google Scholar ]
  65. مرز، ن. وارن، جی. داده‌های بزرگ: اصول و بهترین روش‌های مقیاس‌پذیر سیستم‌های داده بلادرنگ ؛ منینگ انتشارات شرکت: نیویورک، نیویورک، ایالات متحده آمریکا، 2015; پ. 328. [ Google Scholar ]
  66. لنکا، RK; باریک، RK; گوپتا، ن. علی، س.م. راث، ا. Dubey، H. تجزیه و تحلیل مقایسه ای SpatialHadoop و GeoSpark برای تجزیه و تحلیل داده های بزرگ جغرافیایی. در مجموعه مقالات دومین کنفرانس بین المللی 2016 در محاسبات و انفورماتیک معاصر (IC3I)، نویدا بزرگ، هند، 14 تا 17 دسامبر 2016؛ ص 484-488. [ Google Scholar ]
  67. مارکو، OC; کوستان، ا. آنتونیو، جی. پرز-هرناندز، MS Spark در مقابل Flink: درک عملکرد در چارچوب های تجزیه و تحلیل داده های بزرگ. در مجموعه مقالات کنفرانس بین المللی IEEE 2016 در محاسبات خوشه ای (CLUSTER)، پکن، چین، 24-28 سپتامبر 2012. صص 433-442. [ Google Scholar ]
  68. پلکیس، ن. تئودوریدیس، ی. ووسیناکیس، اس. پانایوتوپولوس، تی. هرمس – چارچوبی برای مدیریت داده مبتنی بر مکان . Springer: برلین، آلمان، 2006; صص 1130–1134. [ Google Scholar ]
  69. سانتانا، LHZ؛ dos Santos Mello, R. Workload-Aware RDF Partitioning و SPARQL Query Caching برای نمودارهای عظیم RDF ذخیره شده در پایگاه های داده NoSQL. SBBD 2017 ، 32 ، 184-195. [ Google Scholar ]
  70. سورس، اس. مالیزیا، ا. جیانگ، پی. آترتون، ام. هریسون، دی. یک رابط بصری جدید برای تقویت نوآوری در مهندسی مکانیک و محافظت از نقض حق ثبت اختراع. J. Phys. 2018 , 1004 , 012024. [ Google Scholar ] [ CrossRef ]
  71. نیوزون، پی. Krumm, J. Hidden Markov Map Matching from Noise and Sparseness. در مجموعه مقالات هفدهمین کنفرانس بین المللی ACM SIGSPATIAL در مورد پیشرفت در سیستم های اطلاعات جغرافیایی، سیاتل، WA، ایالات متحده آمریکا، نوامبر 2009. صص 336-343. [ Google Scholar ]
  72. جیانوتی، اف. پدرشی، دی. تحرک، داده کاوی و حریم خصوصی: کشف دانش جغرافیایی . Springer Science & Business Media: برلین، آلمان، 2008. [ Google Scholar ]
  73. جیانوتی، اف. نانی، م. پدرشی، دی. Renso, C. GeoPKDD Geographic Privacy-aware Knowledge Discovery 2009. موجود به صورت آنلاین: https://pdfs.semanticscholar.org/f6c8/d0b66289c78b62e7877cbf60f1f09f1ba72e.pdf (دسترسی در ژانویه20).
  74. لوجان-مورا، اس. Trujillo, J. A Comprehensive Method for Data Warehouse Design. در مجموعه مقالات پنجمین کارگاه بین المللی طراحی و مدیریت انبارهای داده، DMDW’03، برلین، آلمان، 8 سپتامبر 2003. [ Google Scholar ]
  75. Sheth، AP; لارسون، JA سیستم های پایگاه داده فدرال برای مدیریت پایگاه های داده توزیع شده، ناهمگن و خودمختار. کامپیوتر ACM. Surv. (CSUR) 1990 ، 22 ، 183-236. [ Google Scholar ] [ CrossRef ]
  76. ریگو، پی. شول، ام. Voisard، A. پایگاه های داده فضایی: با کاربرد در GIS ; الزویر: آمستردام، هلند، 2001. [ Google Scholar ]
  77. Ponniah, P. Data Warehouse Fundamentals for IT Professionals ; جان وایلی و پسران: هوبوکن، نیوجرسی، ایالات متحده آمریکا، 2010. [ Google Scholar ]
  78. گومز، ال. کویجپرز، بی. مولانز، بی. Vaisman، A. پیشرفته ترین در انبار داده های مکانی-زمانی، OLAP و استخراج. در داده کاوی: مفاهیم، ​​روش ها، ابزارها و کاربردها . IGI Global: Pittsburgh, PA, USA, 2013; صفحات 2021–2056. [ Google Scholar ]
  79. برکاتسولاس، اس. Pfoser، D.; سالاس، آر. Wenk, C. بر روی داده های ردیابی خودرو مطابق با نقشه. در مجموعه مقالات سی و یکمین کنفرانس بین المللی پایگاه های داده بسیار بزرگ، بنیاد VLDB، تروندهایم نروژ، آگوست 2005; صص 853-864. [ Google Scholar ]
  80. ابراگیموف، دی. شیلنگ، K. پدرسن، سل؛ Zimányi, E. Towards Exploratory OLAP over Linked Open Data—A Case Study. در فعال کردن هوش تجاری در زمان واقعی ؛ Springer: برلین، آلمان، 2014; صص 114-132. [ Google Scholar ]
  81. اچوری، ال. Vaisman، AA QB4OLAP: واژگانی جدید برای مکعب های OLAP در وب معنایی. در مجموعه مقالات سومین کنفرانس بین المللی مصرف داده های پیوندی، بوستون، MA، ایالات متحده آمریکا، 12 نوامبر 2012; جلد 905، ص 27–38. [ Google Scholar ]
  82. سیو، ای. تیروپانیس، تی. هال، W. تجزیه و تحلیل برای اینترنت اشیا: یک نظرسنجی. کامپیوتر ACM. Surv. 2018 ، 51 ، 74. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  83. لیت، DFB؛ د سوزا باپتیستا، سی. د اولیویرا، ام جی; Acioli Filho، JAM; دا سیلوا، TE ExpOLAP: به سوی OLAP اکتشافی. در مجموعه مقالات سیزدهمین کنفرانس بین المللی سیستم ها و برنامه های کامپیوتری IEEE/ACS 2016 (AICCSA)، آگادیر، مراکش، 2 دسامبر 2016؛ صص 1-8. [ Google Scholar ]
  84. ریست، اس. Bédard، Y.; Proulx، MJ; Nadeau, M. SOLAP: نوع جدیدی از رابط کاربری برای پشتیبانی از کاوش و تحلیل داده های چند بعدی فضایی-زمانی. در مجموعه مقالات کارگاه مشترک ISPRS در مورد مدلسازی و تحلیل داده های فضایی، زمانی و چند بعدی، کبک، QC، کانادا، اکتبر 2003. ص 2-3. [ Google Scholar ]
  85. لیت، DFB؛ Baptista، CDS; Amorim، BDSP یک ابزار SOLAP اکتشافی برای داده‌های باز مرتبط. بین المللی اتوبوس جی. Inf. سیستم 2019 ، 31 ، 391-413. [ Google Scholar ] [ CrossRef ]
  86. فورتادو، ع. پیلا، LL; Bogorny، V. یک استراتژی شاخه و محدود برای اندازه گیری تشابه مسیر سریع. دانستن داده ها مهندس 2018 ، 115 ، 16-31. [ Google Scholar ] [ CrossRef ]
  87. کسکین، اس. Yazici, A. مدل سازی و طراحی داده های بزرگ مکانی و زمانی برای تجزیه و تحلیل ; Springer: برلین، آلمان، 2018; صص 104-112. [ Google Scholar ]
  88. کنگ، ایکس. آهنگ، X. شیا، اف. گوا، اچ. وانگ، جی. Tolba، A. LoTAD: تشخیص ناهنجاری ترافیک درازمدت بر اساس داده‌های مسیر اتوبوس جمع‌سپاری شده. شبکه جهانی وب 2018 ، 21 ، 825–847. [ Google Scholar ] [ CrossRef ]
  89. آندرینکو، ن. آندرینکو، جی. فوکس، جی. Jankowski، P. روش تجزیه و تحلیل بصری برای کشف مقیاس پذیر و حریم خصوصی-احترام معناشناسی مکان از داده های تحرک اپیزودیک . Springer: برلین، آلمان، 2015; صص 254-258. [ Google Scholar ]
  90. کنگ، ال. او، ال. لیو، XY; گو، ی. وو، من؛ لیو، ایکس. حسگر فشرده با حفظ حریم خصوصی برای بازیابی مسیر مبتنی بر حسگر جمعی. در مجموعه مقالات سی و پنجمین کنفرانس بین المللی IEEE در سال 2015 در مورد سیستم های محاسباتی توزیع شده، کلمبوس، OH، ایالات متحده آمریکا، 29 ژوئن 2015. صص 31-40. [ Google Scholar ]
شکل 1. سطح غنی سازی معنایی.
شکل 2. عناصر و جریان داده در یک مسیر DW.
شکل 3. نمونه ای از طرح برف ریزه TDW مبتنی بر سلول.
شکل 4. نمونه ای از طرح TDW مبتنی بر بخش.
شکل 5. یک مدل طرح معنایی چند بعدی (اقتباس از [ 31 ]).
شکل 6. نقشه سلولی ترافیک کشتی.

بدون دیدگاه

دیدگاهتان را بنویسید