تجسم کلان داده Big Data(داده های بزرگ) در GIS : تغییر جهان با روش های شگفت انگیز
از آنجایی که فناوریهای اطلاعاتی و ارتباطی جدید بسیاری از جنبههای زندگی روزمره ما را در دهههای گذشته تغییر دادهاند، به طور همزمان باعث تغییر در انواع دادههایی شدهاند که جمعآوری، تولید و تحلیل میکنیم. با هم، این چشم انداز در حال تغییر داده اغلب به عنوان “داده بزرگ” نامیده می شود. داده های بزرگ نه تنها به دلیل حجم بالای آن، بلکه به دلیل سرعت، تنوع، جامعیت، وضوح، رابطه و انعطاف پذیری مجموعه داده ها از «داده های کوچک» متمایز می شوند. این مدخل تجسم مجموعه داده های فضایی بزرگ را مورد بحث قرار می دهد. از آنجایی که بسیاری از این مجموعه دادهها حاوی ویژگیهای جغرافیایی هستند یا در فضای جغرافیایی قرار گرفته و تولید میشوند، نقشهبرداری نقشی محوری در تجسم دادههای بزرگ دارد. تجسم داده های بزرگ اغلب و به طور موثر برای برقراری ارتباط و ارائه اطلاعات استفاده می شود. اما در درک کلان داده ها – ایجاد بینش و دانش جدید – است که تجسم به یک ابزار ضروری تبدیل می شود و نقشه برداری را برای درک داده های بزرگ جغرافیایی حیاتی می کند. اگرچه تجسم دادههای بزرگ چالشهای متعددی را به همراه دارد، متخصصان انسانی میتوانند از تجسم به طور کلی، و نقشهبرداری به طور خاص، با کمک رابطها و نرمافزارهای طراحیشده برای این منظور، برای کاوش و تحلیل مؤثر دادههای بزرگ استفاده کنند.
توضیحات موضوع:
تعاریف
مقدمه ای بر داده های بزرگ
تجسم داده های بزرگ: ارتباطات بصری و تفکر بصری
چالشهای بصری دادههای بزرگ
رویکردها و راه حل هایی برای تجسم داده های بزرگ
1. تعاریف
داده های بزرگ : مجموعه داده هایی که نه تنها با حجم زیاد، بلکه با سرعت، تنوع، جامعیت، وضوح، رابطه و انعطاف پذیری مشخص می شوند.
حجم : مقدار داده ای که برای در نظر گرفتن داده های “بزرگ” لازم است. به طور معمول، حجم داده های بزرگ برحسب ترابایت و پتابایت یا متشکل از میلیون ها تا میلیاردها مشاهده اندازه گیری می شود.
سرعت : فرکانس به روز رسانی یک مجموعه داده. به طور معمول، داده های بزرگ در زمان واقعی یا با جزئیات زمانی خوب تولید یا به روز می شوند.
تنوع : تنوع نقاط داده موجود در داخل و بین مجموعه داده ها. کلان داده معمولاً از طیف گسترده ای از مجموعه داده های ساختاریافته و بدون ساختار از منابع و منشأهای مختلف تشکیل شده است.
Exhaustivity : اصطلاحی که دامنه کلان داده را توصیف می کند. برای کلان داده، مجموعه داده ها معمولاً تا حد امکان گسترده است و به جای نمونه ها، بر کل جمعیت ها متمرکز است.
وضوح : جزئیات و جزئیات در داده های بزرگ. کلان داده ها معمولاً تا حد امکان دارای جزئیات هستند، از جمله شاخص بودن در شناسایی اشیاء مورد مطالعه.
رابطه : میزانی که مجموعه داده های مختلف را می توان بر اساس ویژگی های مشترک به یکدیگر متصل کرد. یکی از ویژگی های تعیین کننده کلان داده، توانایی آن برای اتصال به مجموعه داده های دیگر است.
انعطاف پذیری : توانایی یک مجموعه داده برای گسترش آسان (با ویژگی های اضافی) و گسترش (با افزودن مشاهدات اضافی).
کاهش داده ها : یک استراتژی که برای کاهش مقدار داده یا خلاصه کردن بخش های مرتبط از یک مجموعه داده استفاده می شود.
فیلتر کردن: زیرمجموعه یک مجموعه داده بر اساس ویژگی های داده ها.
نمونهگیری فرعی : زیرمجموعه یک مجموعه داده بر اساس نمونهگیری تصادفی.
Aggregation : ترکیبی از چندین نقطه داده در یک تجمع سطح بالاتر.
طرح ریزی : یک استراتژی کاهش داده که داده ها را “نقشه برداری” می کند یا به تعداد ابعاد کمتر یا محدوده داده باریک تر اشاره می کند.
2. مقدمه ای بر داده های بزرگ
2.1 کلان داده چیست؟
فناوریهای اطلاعاتی و ارتباطی جدید بسیاری از جنبههای زندگی روزمره ما را در دهههای گذشته تغییر دادهاند و به طور همزمان باعث تغییر محسوس در انواع دادههایی شده است که شرکتها، دولتها، دانشمندان و افراد قادر به جمعآوری، تولید و تجزیه و تحلیل هستند. این مجموعه داده های نوظهور جدید اغلب به عنوان داده های بزرگ شناخته می شوند. اصطلاح “داده های بزرگ” برای اولین بار در دهه 1990 ابداع شد (دیبولد، 2012). در حالی که تعریف دقیق کلان داده تا حدودی سیال است، تلاش های متعددی برای تعریف ویژگی های اصلی آن صورت گرفته است. یکی از متداول ترین تعاریف استفاده شده بر اساس “سه V” است (لینی، 2001):
جلد. کلان داده عظیم است و اغلب در ترابایت و پتابایت اندازه گیری می شود یا شامل میلیون ها یا میلیاردها مشاهده است.
سرعت . کلان داده ها در زمان واقعی یا با جزئیات زمانی خوب تولید یا به روز می شوند.
تنوع . کلان داده شامل طیف گسترده ای از مجموعه داده های ساختاریافته و بدون ساختار از منابع و منشأهای مختلف است.
اگرچه تعریف 3V مختصر است، اما تعاریف جدید و جایگزینی نیز از این مفهوم ایجاد شده است که به تشخیص بیشتر داده های بزرگ از داده های کوچک کمک می کند. ترکیب مفیدی از این تعاریف چهار بعد اضافی را به تعریف 3 ولت اضافه می کند (برای بررسی گسترده و (Kitchin, 2013; 2014; Kitchin & McArdle, 2016) مراجعه کنید:
کامل بودن . دامنه کلان داده تا حد امکان گسترده است و به جای نمونه ها، بر کل جمعیت ها متمرکز است.
قطعنامه . داده های بزرگ تا حد امکان دارای جزئیات هستند، از جمله شاخص بودن در شناسایی اشیاء مورد مطالعه.
رابطه گرایی . داده های بزرگ را می توان به راحتی متصل کرد. مجموعه داده های مختلف را می توان بر اساس ویژگی های مشترک به یکدیگر متصل کرد.
انعطاف پذیری . کلان داده را می توان به راحتی گسترش داد (با ویژگی های اضافی) و گسترش داد (با افزودن مشاهدات اضافی).
یک منبع داده یا مجموعه داده برای در نظر گرفتن کلان داده ها نیازی به نمایش همه هفت ویژگی ندارد و هیچ آستانه دقیقی وجود ندارد که داده های کوچک و بزرگ را از هم متمایز کند. در عوض، این یک تصور پذیرفته شده است که یک منطقه انتقال خاکستری بین این دو وجود دارد. علاوه بر این، چندین اشکال مختلف یا «نوع» داده های بزرگ ممکن است به طور همزمان وجود داشته باشند (Kitchin & McArdle, 2016). با این حال، صرف نظر از معنای شناسی، واضح است که بسیاری از مجموعه داده هایی که در قرن بیست و یکم تولید، تجزیه و تحلیل و تجسم می شوند، به طور قابل توجهی با همتایان قرن بیستم خود تفاوت دارند، و باعث می شود که نقشه نگاری و تجسم نقش در این مورد ارزیابی مجدد شود. روند.
1.2 ارتباط داده های بزرگ برای GIS&T
بخش بزرگی از داده های بزرگ ماهیت جغرافیایی دارند و به همین دلیل، داده های بزرگ تأثیر زیادی بر رشته های جغرافیایی داشته است. دادههای بزرگ فضایی از تلفن همراه و دادههای ترافیک گرفته تا پلتفرمهای رسانههای اجتماعی (نگاه کنید به تجزیه و تحلیل رسانههای اجتماعی ) و تراکنشهای کارت اعتباری، تا حسگرهای کیفیت هوا و تصاویر ماهوارهای را شامل میشود – که هر کدام نه تنها یک نقطه داده، بلکه یک موقعیت جغرافیایی مرتبط با آن را ارائه میکنند. نقطه داده همه این مجموعه داده ها به طور بالقوه می توانند به ما در درک بهتر دنیای اطرافمان کمک کنند (به Citizen Science with GIS&T مراجعه کنید.) و بنابراین در تحقیقات فضایی جذب شده اند (آریباس-بل، 2014؛ گودچایلد، 2007؛ گراهام و شلتون، 2013). رواج فزاینده این نوع مجموعه داده ها باعث ایجاد یک رشته کاملاً جدید در علم داده شده است و برخی از افرادی که در GIS و زمینه های مرتبط کار می کنند شروع به نامگذاری مجدد خود به عنوان “دانشمندان داده های مکانی” کرده اند، همانطور که در مرکز جدید علوم داده های مکانی دیده می شود. در دانشگاه شیکاگو و آزمایشگاه علوم داده های جغرافیایی در دانشگاه لیورپول.
مهمتر از آن، داده های بزرگ ممکن است نحوه رویکرد ما به تحلیل و تجسم فضایی را تغییر دهد. در حالی که ما اکنون به مقادیر بینظیری از دادههای ناهمگون در مورد دنیای اطراف خود دسترسی داریم، درک و تعامل با این دادهها به روشهای معنیدار همچنان چالش بزرگی است. در نتیجه، رویکردهای جدیدی برای کمک به خودکارسازی بسیاری از جنبههای تجزیه و تحلیل دادهها، مانند رویکردهای یادگیری ماشین خودکار، هوش مصنوعی و سایر روشهای محاسباتی “بدون نظارت” توسعه یافتهاند (به هوش مصنوعی مراجعه کنید).). در حالی که این رویکردهای خودکار می توانند افزودنی های مفیدی به جعبه ابزار ما باشند، نقش انسان در تجزیه و تحلیل داده های مکانی و تجسم ضروری است. همانطور که Shneiderman (2014) استدلال می کند، در حالی که تجزیه و تحلیل داده های کامپیوتری ممکن است برای موضوعات به خوبی درک شده موثر باشد، ایجاد دانش و پیشرفت های جدید نیاز به متخصصان انسانی دارد که می توانند از تجسم ها برای به دست آوردن بینش های جدید استفاده و درک کنند. تجسم ابزاری ضروری برای درک داده های بزرگ است که نقشه برداری را برای درک داده های بزرگ جغرافیایی حیاتی می کند.
3. تجسم داده های بزرگ: ارتباطات بصری و تفکر بصری
در حوزه تجسم کلان دادهها، میتوانیم بین تقریباً دو نوع تجسم تمایز قائل شویم: آنهایی که به تفکر بصری کمک میکنند و آنهایی که برای ارتباطات بصری در نظر گرفته شدهاند (DiBiase، 1990) ( برای اطلاعات بیشتر به Cartography & Science و Geovisualizationمراجعه کنید. بحث). ارتباط بصری به بهترین وجه با “نقشه برای دیدن” انجام می شود، یک نمایش نقشه برداری ساده که در یک چشم به هم زدن قابل درک است (کراک، 1988). از سوی دیگر، تفکر بصری اغلب از طریق محصولات نقشهبرداری پیچیدهتر انجام میشود که درک کامل آن ممکن است مدتی طول بکشد: «نقشه برای خواندن».
در زمینه داده های بزرگ، ارتباطات بصری توسط شرکت ها، میزهای خبری و دانشمندان به کار گرفته شده است (به روایت و داستان سرایی، آینده مراجعه کنید.) برای انتقال یافتهها، ارائه روایتها، یا گاهی اوقات صرفاً تحت تأثیر قرار دادن پیچیدگی یا اندازه مجموعه داده زیربنایی بر روی خواننده. نمونه بارز دومی، تجسمهای به اصطلاح «هیربال» است که در آن شبکههای پیچیده و بزرگ با یک توپ به همان اندازه پیچیده از خطوط تجسم میشوند (کرزیوینسکی، بیرول، جونز، و مارا، 2012). در کارتوگرافی، یک مثال مشابه، نمایش یک مجموعه داده بزرگ متشکل از نقاط فضایی مستقیماً بر روی نقشه است که در نتیجه یک نمایش پیچیده با میلیونها نقطه ایجاد میشود. اگرچه بسیاری از مجموعههای کلان داده در واقع برای ارائه و برقراری ارتباط – اغلب به روشهای زیبا و قانعکننده – تجسم میشوند، در نهایت استفاده از دادههای بزرگ در این حالت استفاده از نقشه تفاوت قابلتوجهی با مجموعه دادههای کوچک یا معمولتر ندارد.
در حالت “تفکر بصری”، تجسم برای اهداف کاوش و تجزیه و تحلیل، و به طور خاص برای درک داده های بزرگ و تولید دانش جدید (علمی) به طور جدایی ناپذیری با داده های بزرگ مرتبط است (فاکس و هندلر، 2011). اگرچه با مجموعه ای از چالش ها (به بخش بعدی مراجعه کنید)، تجسم به محققان اجازه می دهد تا مجموعه داده هایی را که خیلی بزرگ، پیچیده و ناهمگن هستند را بررسی، تجزیه و تحلیل و ترکیب کنند که صرفاً با مشاهده داده های خام قابل درک نیستند. تجسم به عنوان یک ابزار ضروری در این فرآیند و یک نیروی محرکه مهم در تجزیه و تحلیل پیچیده داده های بزرگ است (به تحلیل ژئوویژوال مراجعه کنید ).
بدیهی ترین مجموعه چالش ها با تجسم داده های بزرگ ماهیت محاسباتی دارند. در سادهترین شکل، میتواند برای نرمافزار نگاشت مبتنی بر CPU معمولی چالشی برای ترسیم مقادیر زیادی از نقاط داده باشد (به واحدهای پردازش گرافیک مراجعه کنید.). مجموعه داده های بزرگ همچنین می تواند حتی عملکردهای اساسی مانند ذخیره سازی داده ها را پیچیده کند. به عنوان مثال، اندازه فایل یک شکل فایل استاندارد در یک سیستم اطلاعات جغرافیایی به 2 گیگابایت (یا تقریباً 70 میلیون ویژگی نقطه ای) و 255 ویژگی محدود می شود و هر فیلد به 254 کاراکتر محدود می شود. بسیاری از مجموعه داده های بزرگ از این محدودیت ها فراتر می روند، که فرمت های فایل جدید را تضمین می کند. علاوه بر این، ماهیت ساختار نیافته بسیاری از مجموعههای کلان داده لزوماً در استحکام ساختاریافته پایگاههای داده رابطهای مرسوم قرار نمیگیرد. هستی شناسی های پایگاه داده جدید (مانند فرمت های سند محور و دیگر فرمت های NoSQL) برای رسیدگی به این مسائل توسعه یافته اند.
4.2 بصری
مجموعه دیگری از چالشها با تجسم دادههای بزرگ در حوزه تجسم خود قرار دارد. در اینجا باید توجه داشت که این مسائل ذاتا منحصر به کلان داده نیستند. در عوض، داده های بزرگ به طور قابل توجهی بسیاری از چالش های موجود در نقشه کشی را تقویت می کند و ما را مجبور می کند که آنها را به صراحت بشناسیم و به آنها رسیدگی کنیم. واضح ترین این چالش ها به اندازه داده ها مربوط می شود. به سادگی تجسم یا ترسیم چنین تعداد زیادی از نقاط داده ممکن است تجسمهای گیجکنندهای ایجاد کند که هیچ بینشی به دست نمیآورد (ر.ک. تجسم گلوله مویی که در بالا مورد بحث قرار گرفت) یا تجسمیهایی که دادهها را پنهان یا مبهم میکنند، که اغلب به عنوان بیشپردهنگاری از آن یاد میشود (نگاه کنید به (Dang, Wilkinson, & Anand) ، 2010) برای بحث).
بسیاری از مجموعه دادههای بزرگ فضایی حاوی مختصات جغرافیایی دقیق برای هر مشاهده هستند، که چالش متناقض دیگری را ایجاد میکند: سهولت ترسیم این مختصات بهعنوان نقاط روی نقشه ممکن است ما را به تصویرسازی بالقوه باریک یا محدود از دادههای بزرگ سوق دهد (کرامپتون و همکاران .، 2013). از طرف دیگر، برخی دادههای بزرگ حاوی ارجاعات کمتر دقیق، اما همچنان فضایی، به نامهای محلی، محلهها و مناطق فضایی هستند که ممکن است به راحتی با هندسه گسسته یک چندضلعی ترسیم نشوند.
البته، «غنا» یا ناهمگونی چنین دادههایی سؤالات دیگری را مطرح میکند. برای مثال، چگونه میتوان دادههای متنی کیفی رسانههای اجتماعی را تجسم کرد؟ این مورد مخصوصاً برای مجموعههای دادهای است که بهروزرسانیهای زمانی بیدرنگ یا مکرر دارند، به این معنی که مجموعه دادهها ممکن است دائماً در حالت نوسانی باشند. در نهایت، داده های بزرگ طبیعت بدون ساختار نیز به این معنی است که مشاهدات ممکن است نادرست یا کمتر دقیق باشند. به عبارت دیگر، عدم قطعیت بالقوه در داده ها ممکن است لازم باشد در تجسم نیز در نظر گرفته شود (به نمایش عدم قطعیت مراجعه کنید ).
4.3 نمایندگی، اخلاق و حریم خصوصی
جدا از چالشهای فنی، آگاهی از یک سری چالشهای اخلاقی برای تجسم دادههای بزرگ مهم است. در حالی که اخلاق بخش مهمی از کل دامنه GIS&T را تشکیل می دهد (به اخلاق حرفه ای و عملی GIS&Tو کارتوگرافی و قدرت مراجعه کنید.داده های بزرگ ممکن است این مسائل اخلاقی را بزرگ یا اصلاح کند. یک مثال به خصوص قابل توجه، حریم خصوصی کسانی است که داده های آنها نقشه برداری و تجسم شده است. مجموعه دادههای مرسوم معمولاً دادههای اجتماعی را در بخشهای سرشماری یا دیگر مناطق جغرافیایی اداری جمعآوری میکنند، در حالی که بسیاری از مجموعههای داده بزرگ جفتهای مختصات دقیقی را ارائه میکنند، اغلب در سطح فرد. تجسم چنین داده هایی با همان دقت ممکن است به افراد آسیب برساند. در مقابل، جفت مختصات نیز ممکن است به طور عمدی جعل یا تغییر داده شوند، که به طور بالقوه افراد را در مکان هایی قرار می دهد که هرگز از آنها بازدید نکرده اند (ژائو و سوئی، 2017). مسائل اضافی زیادی پیرامون تجسم کلان داده ها وجود دارد (مثلاً نمایش، رضایت، سوگیری) و آگاهی از آنها بخش مهمی از هر پروژه است (برای یک مرور کلی نگاه کنید به (Boyd & Crawford, 2012; Zook et al., 2017؛ Zwitter، 2014)).
5. رویکردها و راه حل ها برای تجسم داده های بزرگ
5.1 کاهش داده ها
برای پرداختن به برخی از چالشهای بالا، یک رویکرد مهم برای تجسم دادههای بزرگ، «کوچک کردن دادههای بزرگ» است (Poorthuis & Zook, 2017; Poorthuis, Zook, Shelton, Graham, & Stephens, 2015) و در حوزه دادهها قرار میگیرد. کاهش یا خلاصه سازی تجسم مجموعه داده های پیچیده و بزرگ نباید خود پیچیده یا بزرگ باشد. ساریکایا (2017) چهار استراتژی کاهش خاص را متمایز می کند که بی شباهت با استراتژی های به کار رفته در تعمیم نقشه برداری نیستند (به مقیاس و تعمیم مراجعه کنید ) :
فیلتر کردن . زیر مجموعه یک مجموعه داده بر اساس ویژگی های داده ها. به عنوان مثال، فقط شامل سوابق مربوط به فرآیند مورد مطالعه است.
نمونه گیری فرعی . زیر مجموعه یک مجموعه داده بر اساس نمونه گیری تصادفی. به عنوان مثال، با انجام یک نمونه تصادفی در صورت غیرضروری برای تجسم کل مجموعه داده.
تجمع . ترکیب چندین نقطه داده در یک تجمع سطح بالاتر. این میتواند با رویکردی از پایین به بالا با خوشهبندی نقاط نزدیک یا مشابه (به طبقهبندی و خوشهبندی ، در آینده مراجعه کنید ) یا از بالا به پایین با تجمیع نقاط فردی به یک واحد فضایی بالاتر (مثلاً منطقه اداری) باشد (به جمعبندی موجودات فضایی مراجعه کنید ). .
فرافکنی _ داده های بزرگ بدون ساختار یا با ابعاد بالا را می توان با “نقشه برداری” نقاط داده به تعداد ابعاد کمتر یا محدوده داده باریک تر ساده کرد. در سادهترین شکل آن، این کار میتواند به صورت دستی انجام شود، اما مجموعه دادههای بزرگتر به استفاده از تکنیکهای خودکار نیاز دارند که از تجزیه و تحلیل اجزای اصلی (به تحلیل ویژگیهای چند بعدی، در آینده مراجعه کنید) تا تکنیکهای جدیدتر یادگیری ماشین را شامل میشود (به برنامهنویسی یادگیری ماشین برای GIS ، آینده مراجعه کنید).
شکل 2: داده های بزرگ را می توان از طریق استفاده از استراتژی های کاهش داده که تجسم های خلاصه را ارائه می دهد، “کوچک” کرد. شکل تکثیر شده با اجازه ساریکایا (2017).
5.2 استراتژی های بصری
استراتژیهای کاهش داده، دادههای بزرگ را کوچک میکنند تا از تکنیکهای کارتوگرافی ساده و معمولی استفاده کنند. با این حال، بسته به ماهیت داده ها و هدف تجسم، این همیشه یک گزینه نیست. گنجاندن صریح کلان داده در نقشهبرداری، بدون سادهسازی کاهش دادهها، هنوز در لبهی مقدماتی این زمینه است، پر از چالشها و فرصتهای جدید (برای یک مرور کلی به (رابینسون و همکاران، 2017) مراجعه کنید. مجموعهای از تکنیکها هنوز باید متبلور شوند، اما چندین نمونه از استراتژیها را میتوان شناسایی کرد (جدول 1 را ببینید).
جدول 1. نمونه هایی از استراتژی های بصری برای تجسم داده های بزرگ
تکنیک
چالش کلان داده مطرح شد
شرح
مثال
«هیت» یا نقشههای نقطه داغ
حجم زیادی از داده های نقطه ای
تبدیل داده های نقطه ای به سطح صاف، اغلب از طریق تخمین چگالی هسته. یک انتخاب محبوب به دلیل گنجاندن آن در بسیاری از نرم افزارهای نقشه برداری.
تکثیر شده با اجازه (ر.ک. Kumar, Morstatter, & Liu, 2014)
Edge Bundling
حجم زیادی از داده های خط
کلان داده اغلب حاوی مقادیر زیادی از روابط فضایی است (مثلاً ترافیک، حرکت). Edge bundling به صورت بصری روابطی را که در یک جهت مشابه حرکت می کنند، بسته بندی می کند.
سوفی انگل / GPL-3.0 (ر.ک. Holten & Van Wijk، 2009)
نقشه های سه بعدی
ابعاد بزرگ داده های بزرگ
بعد سوم می تواند برای نشان دادن یک ویژگی داده اضافی یا بعد زمانی (مثلاً مکعب فضا-زمان) استفاده شود.
کراک و کولادزه (2017)، CC-BY-4.0
سیستم های چند نما
انواع داده های بزرگ
سیستم های چند نما، پنجره های متعدد، اغلب مرتبط یا هماهنگ را در یک مجموعه داده ارائه می کنند.
نوست، روزنفلد، وینسنت، مور و راث (2017)، CC-BY-NC-ND-4.0
انیمیشن
سرعت داده های بزرگ
می توان از انیمیشن برای گنجاندن ابعاد زمانی در نقشه ها استفاده کرد
Dheeraj Savala / مجوز MIT
فرآیند تجسم کلان داده ها به شدت به رویه های محاسباتی فشرده متکی است، که ما را ملزم می کند تا در هماهنگی نزدیک با رایانه هایمان کار کنیم. برای تسهیل این فرآیند، تجسم کلان داده اغلب به صورت اکتشافی، تعاملی با رابطها و نرمافزارهایی انجام میشود که کاربر را قادر میسازد تا به سرعت یک سری تحلیلهای اکتشافی را از طریق تجسم جنبههای مختلف یک مجموعه داده انجام دهد (به تحلیل دادههای فضایی اکتشافی مراجعه کنید (آینده ) و طراحی UI/UX). این رابط ها را می توان برای یک پروژه خاص سفارشی ساخت یا برای استفاده با داده های بزرگ طراحی کرد. نمونه ای از چنین پروژه ای imMens است، یک سیستم مبتنی بر مرورگر که به کاربران اجازه می دهد میلیون ها نقطه داده چند متغیره را در یک محیط تعاملی و بلادرنگ کاوش کنند (Liu, Jiang, & Heer, 2013). برای فعال کردن این کار، سیستم تجسمها را به روشی شبیه به مجموعههای نقشه وب (نگاه کنید به نقشهبرداری وب ) از قبل محاسبه میکند و محاسبات را به صورت موازی انجام میدهد تا مطمئن شود رایانه میتواند با کاربر «همراه باشد» (به برنامهنویسی موازی و برنامههای GIS ، آینده مراجعه کنید).). نرمافزار معمولیتر و آمادهشده نیز برای فعال کردن تجسم دادههای بزرگ اقتباس شده است. به عنوان مثال، ArcGIS اکنون از هر دو رندر GPU و پردازش موازی استفاده میکند و زبانهای رایج علم داده (به عنوان مثال، Python و R) محیطهای نویسندگی را برای تجسم تعاملی و پیوند تنگاتنگ تجزیه و تحلیل و تجسم فراهم میکنند (نگاه کنید به Jupyter Notebooks ، آینده ).
شکل 3: نمونه ای از یک رابط نرم افزاری تعاملی و اکتشافی که داده های بزرگ را تجسم می کند (چن و همکاران، 2016). این امکان کشف الگوهای حرکتی در دادههای رسانههای اجتماعی را از طریق کاهش دادهها (مثلاً فیلتر کردن) و استراتژیهای تجسم (مثلاً مشاهدههای مرتبط چندگانه) فراهم میکند. تکثیر شده با اجازه ( https://vis.pku.edu.cn/trajectoryvis/en/weibogeo.html ).
واضح است که تعامل صاف بین کاربر و رایانه برای به دست آوردن بینش از تجسم داده های بزرگ بسیار مهم است. بنابراین، رویکردهای تجسم کلان دادهها نباید منحصراً بر عملکرد، جنبههای محاسباتی پردازش دادهها یا چالشهای بصری خاص متمرکز شوند، بلکه باید بر رابط مؤثر و طراحی تجربه تمرکز کنند (به طراحی و ارزیابی UI/UXو کاربردپذیری مراجعه کنید ). به این ترتیب، تجسم دادههای بزرگ لزوماً پشتوانه (محاسبات) و جلو (تجسم) نقشهنگاری را در یک جفت محکم ترکیب میکند، که در آن انسان و رایانه با هم کار میکنند تا بینش جدیدی از دادهها ایجاد کنند.
منابع:
Arribas-Bel، D. (2014). تصادفی، باز و همه جا: منابع داده در حال ظهور برای درک شهرها. جغرافیای کاربردی ، 49 ، 45-53. DOI: 10.1016/j.apgeog.2013.09.012
بن اشنایدرمن. (2014). تصویر بزرگ برای داده های بزرگ: تجسم Science , 343 (6172), 730-730. DOI: 10.1126/science.343.6172.730-a
Boyd, D., & Crawford, K. (2012). سوالات مهم برای داده های بزرگ اطلاعات، ارتباطات و جامعه ، 15 (5)، 662-679. DOI: 10.1080/1369118X.2012.678878
Chen, S., Yuan, X., Wang, Z., Guo, C., Liang, J., Wang, Z., et al. (2016). کشف بصری تعاملی الگوهای حرکتی از دادههای رسانههای اجتماعی با برچسب جغرافیایی پراکنده. IEEE Transactions on Visualization and Computer Graphics ، 22 (1)، 270-279. DOI: 10.1109/TVCG.2015.2467619
کرامپتون، جی دبلیو، گراهام، ام.، پورتویس، ا.، شلتون، تی.، استفنز، ام.، ویلسون، ام وات، و زوک، MA (2013). فراتر از برچسب جغرافیایی: قرار دادن “داده های بزرگ” و استفاده از پتانسیل geoweb. نقشه برداری و علم اطلاعات جغرافیایی ، 40 (2)، 130-139. DOI: 10.1080/15230406.2013.777137
Dang، TN، Wilkinson، L.، & Anand، A. (2010). انباشتن عناصر گرافیکی برای جلوگیری از ترسیم بیش از حد. IEEE Transactions on Visualization and Computer Graphics ، 16 (6)، 1044-1052. DOI: 10.1109/TVCG.2010.197
DiBiase، D. (1990). تجسم در علوم زمین. زمین و علوم معدنی ، 59 (2)، 13-18.
دیبولد، اف ایکس (2012). دیدگاه شخصی در مورد منشاء(ها) و توسعه “داده های بزرگ”: پدیده، اصطلاح، و رشته، نسخه دوم. مجله الکترونیکی SSRN . DOI: 10.2139/ssrn.2202843
فاکس، پی، و هندلر، جی (2011). تغییر معادله در تجسم داده های علمی. علوم ، 331 (6018)، 705-708. DOI: 10.1126/science.1197654
Goodchild، MF (2007). شهروندان به عنوان حسگر: دنیای جغرافیای داوطلبانه جئوژورنال ، 69 (4)، 211-221. DOI: 10.1007/s10708-007-9111-y
گراهام، ام.، و شلتون، تی (2013). جغرافیا و آینده داده های بزرگ، داده های بزرگ و آینده جغرافیا. گفتگوها در جغرافیای انسانی ، 3 (3)، 255-261. DOI: 10.1177/2043820613513121
هولتن، دی، و ون ویک، جی جی (2009). بستهبندی لبههای اجباری برای تجسم نمودار. انجمن گرافیک کامپیوتری ، 28 (3)، 983–990. DOI: 10.1111/j.1467-8659.2009.01450.x
کیچین، RM (2013). داده های بزرگ و جغرافیای انسانی: فرصت ها، چالش ها و خطرات گفتگوها در جغرافیای انسانی ، 3 (3)، 262-267. DOI: 10.1177/2043820613513388
کیچین، RM (2014). کلان داده، معرفت شناسی های جدید و تغییرات پارادایم. کلان داده و جامعه ، 1 (1)، 1-12. DOI: 10.1177/2053951714528481
کیچین، RM، و مک آردل، جی. (2016). چه چیزی Big Data، Big Data را می سازد؟ بررسی ویژگیهای هستیشناختی ۲۶ مجموعه داده. Big Data & Society , 3 (1), 205395171663113. DOI: 10.1177/2053951716631130
کراک، ام.-جی. (1988). تکنیک های تصویربرداری سه بعدی کارتوگرافی به کمک کامپیوتر (پایان نامه دکتری). انتشارات دانشگاه دلفت، دلفت.
کرژیوینسکی، ام.، بیرول، آی.، جونز، اس جی، و مارا، MA (2012). طرحهای کندو-رویکرد منطقی برای تجسم شبکهها. خلاصه در بیوانفورماتیک ، 13 (5)، 627-644. DOI: 10.1093/bib/bbr069
Kumar, S., Morstatter, F., & Liu, H. (2014). تجزیه و تحلیل داده های توییتر. نیویورک، نیویورک: اسپرینگر نیویورک. DOI: 10.1007/978-1-4614-9372-3
Kraak، MJ، و Kveladze، I. (2017). روایت مکعب فضا-زمان مشروح شده-بازبینی یک رویداد تاریخی. مجله نقشه ها , 13 (1), 56-61. DOI: 10.1080/17445647.2017.1323034
لیو، زی، جیانگ، بی، و هیر، جی (2013). imMens: جستجوی بصری در زمان واقعی از داده های بزرگ. انجمن گرافیک کامپیوتری ، 32 (3)، 421–430. DOI: 10.1111/cgf.12129
نوست، ای.، روزنفلد، اچ.، وینسنت، ک.، مور، SA، و راث، RE (2017). HazMatMapper: یک ابزار تجسم جغرافیایی آنلاین و تعاملی برای کاوش در جریان های فراملی زباله های خطرناک و عدالت زیست محیطی. مجله نقشه ها ، 13 (1)، 14-23. DOI: 10.1080/17445647.2017.1282384
پورتویس، ا.، و زوک، MA (2017). کوچک کردن داده های بزرگ: استراتژی هایی برای گسترش تحقیقات شهری و جغرافیایی با استفاده از رسانه های اجتماعی. مجله فناوری شهری ، 36 ، 1–21. DOI: 10.1080/10630732.2017.1335153
پورتویس، آ.، زوک، MA، شلتون، تی، گراهام، ام.، و استفنز، ام. (2015). استفاده از داده های اجتماعی دیجیتال دارای برچسب جغرافیایی در تحقیقات جغرافیایی. در N. Clifford, S. French, M. Cope, & S. Gillespie (Eds.), Key Methods in Geography (ویرایش سوم).
رابینسون، AC، Demšar، U.، Moore، AB، باکلی، A.، Jiang، B.، Field، K.، و همکاران. (2017). دادههای بزرگ جغرافیایی و نقشهبرداری: چالشها و فرصتهای تحقیقاتی برای ساختن نقشههای مهم مجله بین المللی کارتوگرافی ، 18 (5)، 1-29. DOI: 10.1080/23729333.2016.1278151
ساریکایا، AT (2017). طرح های هدف گذاری تجسم های خلاصه اکتشافی مقیاس پذیر (پایان نامه دکتری). دانشگاه ویسکانسین – مدیسون، مدیسون، WI.
ژائو، بی، و سوئی، دیزی (2017). دروغ های واقعی در داده های بزرگ جغرافیایی: تشخیص جعل موقعیت مکانی در رسانه های اجتماعی. Annals of GIS , 23 (1)، 1-14. DOI: 10.1080/19475683.2017.1280536
Zook, MA, Barocas, S., boyd, D., Crawford, K., Keller, E., Gangadharan, SP, et al. (2017). ده قانون ساده برای تحقیق مسئولیت پذیر کلان داده. PLoS Computational Biology , 13 (3), e1005399. DOI: 10.1371/journal.pcbi.1005399
Zwitter, A. (2014). اخلاق کلان داده کلان داده و جامعه ، 1 (2)، 1-6. DOI: 10.1177/2053951714559253
اهداف یادگیری:
ویژگی های داده های بزرگ و تفاوت های بین داده های کوچک و داده های بزرگ را شرح دهید.
توضیح دهید که چگونه می توان از تجسم داده های بزرگ جغرافیایی در دو حالت مختلف استفاده کرد: برای ارتباط بصری و تفکر بصری.
یک تجسم کلان داده را با توجه به چگونگی غلبه بر چالش های محاسباتی، بصری و اخلاقی نقد کنید.
ارزیابی کنید که چگونه تجسم ممکن است برای تولید دانش جدید از یک مجموعه داده (بزرگ) به کار گرفته شود
یک تصویرسازی برای کاوش و تجزیه و تحلیل داده های بزرگ ایجاد کنید
سوالات ارزشیابی آموزشی:
لیستی از مجموعه داده های مختلف به شما داده شده است. با استفاده از ویژگی های داده های بزرگ که در بخش 1 مورد بحث قرار گرفت، هر مجموعه داده را ارزیابی کنید و در مورد اینکه آیا می توان آن را “بزرگ” یا “کوچک” در نظر گرفت، بحث کنید.
اخلاق و حریم خصوصی (باید) در هر پروژه نقشه برداری نقش داشته باشد. اما چرا این موضوع هنگام تجسم کلان داده مهم است؟ نمونههای اخیر پروژههای تجسم را که مسائل مربوط به اخلاق دادهها را آشکار میکنند، شناسایی و مورد بحث قرار دهید.
“کوچک کردن داده های بزرگ” می تواند یک شعار مهم برای جلوگیری از تجسم “هیربال” باشد. مجموعه ای از تجسم داده های بزرگ به شما داده شده است که بسیار پیچیده هستند. استراتژی های کاهش داده را که می تواند اثربخشی هر تصویرسازی را بهبود بخشد، شناسایی کنید.
مجموعه داده های بزرگی شامل چندین میلیون رکورد به شما ارائه شده است که هر کدام شامل چندین متغیر مکانی، زمانی و سایر متغیرها است (مثلاً خط هوایی به موقع/تأخیر منتشر شده توسط DOT ( https://www.transtats.bts.gov/ OT_Delay/OT_DelayCause1.asp)) . الزامات یک رابط که می تواند به شما در کشف و تجزیه و تحلیل این مجموعه داده کمک کند را مشخص کنید. بستههای نرمافزاری موجود (مانند ArcGIS، QGIS، R، Python) را در برابر این الزامات ارزیابی کنید و در مورد استفاده بالقوه از یک پلتفرم سفارشی بحث کنید.
برای تجسم دادههای بزرگ آنلاین و تعاملی، جاوا اسکریپت اغلب مورد استفاده قرار میگیرد که با کمک Leaflet کتابخانه نقشهبرداری وب ( https://leafletjs.com/) و کتابخانه تجسم D3 ( https://d3js.org/ ) کمک میکند.
از آنجایی که فناوریهای اطلاعاتی و ارتباطی جدید بسیاری از جنبههای زندگی روزمره ما را در دهههای گذشته تغییر دادهاند، به طور همزمان باعث تغییر در انواع دادههایی شدهاند که جمعآوری، تولید و تحلیل میکنیم. با هم، این چشم انداز در حال تغییر داده اغلب به عنوان “داده بزرگ” نامیده می شود. داده های بزرگ نه تنها به دلیل حجم بالای آن، بلکه به دلیل سرعت، تنوع، جامعیت، وضوح، رابطه و انعطاف پذیری مجموعه داده ها از «داده های کوچک» متمایز می شوند. این مدخل تجسم مجموعه داده های فضایی بزرگ را مورد بحث قرار می دهد. از آنجایی که بسیاری از این مجموعه دادهها حاوی ویژگیهای جغرافیایی هستند یا در فضای جغرافیایی قرار گرفته و تولید میشوند، نقشهبرداری نقشی محوری در تجسم دادههای بزرگ دارد. تجسم داده های بزرگ اغلب و به طور موثر برای برقراری ارتباط و ارائه اطلاعات استفاده می شود. اما در درک کلان داده ها – ایجاد بینش و دانش جدید – است که تجسم به یک ابزار ضروری تبدیل می شود و نقشه برداری را برای درک داده های بزرگ جغرافیایی حیاتی می کند. اگرچه تجسم دادههای بزرگ چالشهای متعددی را به همراه دارد، متخصصان انسانی میتوانند از تجسم به طور کلی، و نقشهبرداری به طور خاص، با کمک رابطها و نرمافزارهای طراحیشده برای این منظور، برای کاوش و تحلیل مؤثر دادههای بزرگ استفاده کنند.
1. تعاریف
داده های بزرگ : مجموعه داده هایی که نه تنها با حجم زیاد، بلکه با سرعت، تنوع، جامعیت، وضوح، رابطه و انعطاف پذیری مشخص می شوند.
حجم : مقدار داده ای که برای در نظر گرفتن داده های “بزرگ” لازم است. به طور معمول، حجم داده های بزرگ برحسب ترابایت و پتابایت یا متشکل از میلیون ها تا میلیاردها مشاهده اندازه گیری می شود.
سرعت : فرکانس به روز رسانی یک مجموعه داده. به طور معمول، داده های بزرگ در زمان واقعی یا با جزئیات زمانی خوب تولید یا به روز می شوند.
تنوع : تنوع نقاط داده موجود در داخل و بین مجموعه داده ها. کلان داده معمولاً از طیف گسترده ای از مجموعه داده های ساختاریافته و بدون ساختار از منابع و منشأهای مختلف تشکیل شده است.
Exhaustivity : اصطلاحی که دامنه کلان داده را توصیف می کند. برای کلان داده، مجموعه داده ها معمولاً تا حد امکان گسترده است و به جای نمونه ها، بر کل جمعیت ها متمرکز است.
وضوح : جزئیات و جزئیات در داده های بزرگ. کلان داده ها معمولاً تا حد امکان دارای جزئیات هستند، از جمله شاخص بودن در شناسایی اشیاء مورد مطالعه.
رابطه : میزانی که مجموعه داده های مختلف را می توان بر اساس ویژگی های مشترک به یکدیگر متصل کرد. یکی از ویژگی های تعیین کننده کلان داده، توانایی آن برای اتصال به مجموعه داده های دیگر است.
انعطاف پذیری : توانایی یک مجموعه داده برای گسترش آسان (با ویژگی های اضافی) و گسترش (با افزودن مشاهدات اضافی).
کاهش داده ها : یک استراتژی که برای کاهش مقدار داده یا خلاصه کردن بخش های مرتبط از یک مجموعه داده استفاده می شود.
فیلتر کردن: زیرمجموعه یک مجموعه داده بر اساس ویژگی های داده ها.
نمونهگیری فرعی : زیرمجموعه یک مجموعه داده بر اساس نمونهگیری تصادفی.
Aggregation : ترکیبی از چندین نقطه داده در یک تجمع سطح بالاتر.
طرح ریزی : یک استراتژی کاهش داده که داده ها را “نقشه برداری” می کند یا به تعداد ابعاد کمتر یا محدوده داده باریک تر اشاره می کند.
2. مقدمه ای بر داده های بزرگ
2.1 کلان داده چیست؟
فناوریهای اطلاعاتی و ارتباطی جدید بسیاری از جنبههای زندگی روزمره ما را در دهههای گذشته تغییر دادهاند و به طور همزمان باعث تغییر محسوس در انواع دادههایی شده است که شرکتها، دولتها، دانشمندان و افراد قادر به جمعآوری، تولید و تجزیه و تحلیل هستند. این مجموعه داده های نوظهور جدید اغلب به عنوان داده های بزرگ شناخته می شوند. اصطلاح “داده های بزرگ” برای اولین بار در دهه 1990 ابداع شد (دیبولد، 2012). در حالی که تعریف دقیق کلان داده تا حدودی سیال است، تلاش های متعددی برای تعریف ویژگی های اصلی آن صورت گرفته است. یکی از متداول ترین تعاریف استفاده شده بر اساس “سه V” است (لینی، 2001):
اگرچه تعریف 3V مختصر است، اما تعاریف جدید و جایگزینی نیز از این مفهوم ایجاد شده است که به تشخیص بیشتر داده های بزرگ از داده های کوچک کمک می کند. ترکیب مفیدی از این تعاریف چهار بعد اضافی را به تعریف 3 ولت اضافه می کند (برای بررسی گسترده و (Kitchin, 2013; 2014; Kitchin & McArdle, 2016) مراجعه کنید:
یک منبع داده یا مجموعه داده برای در نظر گرفتن کلان داده ها نیازی به نمایش همه هفت ویژگی ندارد و هیچ آستانه دقیقی وجود ندارد که داده های کوچک و بزرگ را از هم متمایز کند. در عوض، این یک تصور پذیرفته شده است که یک منطقه انتقال خاکستری بین این دو وجود دارد. علاوه بر این، چندین اشکال مختلف یا «نوع» داده های بزرگ ممکن است به طور همزمان وجود داشته باشند (Kitchin & McArdle, 2016). با این حال، صرف نظر از معنای شناسی، واضح است که بسیاری از مجموعه داده هایی که در قرن بیست و یکم تولید، تجزیه و تحلیل و تجسم می شوند، به طور قابل توجهی با همتایان قرن بیستم خود تفاوت دارند، و باعث می شود که نقشه نگاری و تجسم نقش در این مورد ارزیابی مجدد شود. روند.
1.2 ارتباط داده های بزرگ برای GIS&T
بخش بزرگی از داده های بزرگ ماهیت جغرافیایی دارند و به همین دلیل، داده های بزرگ تأثیر زیادی بر رشته های جغرافیایی داشته است. دادههای بزرگ فضایی از تلفن همراه و دادههای ترافیک گرفته تا پلتفرمهای رسانههای اجتماعی (نگاه کنید به تجزیه و تحلیل رسانههای اجتماعی ) و تراکنشهای کارت اعتباری، تا حسگرهای کیفیت هوا و تصاویر ماهوارهای را شامل میشود – که هر کدام نه تنها یک نقطه داده، بلکه یک موقعیت جغرافیایی مرتبط با آن را ارائه میکنند. نقطه داده همه این مجموعه داده ها به طور بالقوه می توانند به ما در درک بهتر دنیای اطرافمان کمک کنند (به Citizen Science with GIS&T مراجعه کنید.) و بنابراین در تحقیقات فضایی جذب شده اند (آریباس-بل، 2014؛ گودچایلد، 2007؛ گراهام و شلتون، 2013). رواج فزاینده این نوع مجموعه داده ها باعث ایجاد یک رشته کاملاً جدید در علم داده شده است و برخی از افرادی که در GIS و زمینه های مرتبط کار می کنند شروع به نامگذاری مجدد خود به عنوان “دانشمندان داده های مکانی” کرده اند، همانطور که در مرکز جدید علوم داده های مکانی دیده می شود. در دانشگاه شیکاگو و آزمایشگاه علوم داده های جغرافیایی در دانشگاه لیورپول.
مهمتر از آن، داده های بزرگ ممکن است نحوه رویکرد ما به تحلیل و تجسم فضایی را تغییر دهد. در حالی که ما اکنون به مقادیر بینظیری از دادههای ناهمگون در مورد دنیای اطراف خود دسترسی داریم، درک و تعامل با این دادهها به روشهای معنیدار همچنان چالش بزرگی است. در نتیجه، رویکردهای جدیدی برای کمک به خودکارسازی بسیاری از جنبههای تجزیه و تحلیل دادهها، مانند رویکردهای یادگیری ماشین خودکار، هوش مصنوعی و سایر روشهای محاسباتی “بدون نظارت” توسعه یافتهاند (به هوش مصنوعی مراجعه کنید).). در حالی که این رویکردهای خودکار می توانند افزودنی های مفیدی به جعبه ابزار ما باشند، نقش انسان در تجزیه و تحلیل داده های مکانی و تجسم ضروری است. همانطور که Shneiderman (2014) استدلال می کند، در حالی که تجزیه و تحلیل داده های کامپیوتری ممکن است برای موضوعات به خوبی درک شده موثر باشد، ایجاد دانش و پیشرفت های جدید نیاز به متخصصان انسانی دارد که می توانند از تجسم ها برای به دست آوردن بینش های جدید استفاده و درک کنند. تجسم ابزاری ضروری برای درک داده های بزرگ است که نقشه برداری را برای درک داده های بزرگ جغرافیایی حیاتی می کند.
3. تجسم داده های بزرگ: ارتباطات بصری و تفکر بصری
در حوزه تجسم کلان دادهها، میتوانیم بین تقریباً دو نوع تجسم تمایز قائل شویم: آنهایی که به تفکر بصری کمک میکنند و آنهایی که برای ارتباطات بصری در نظر گرفته شدهاند (DiBiase، 1990) ( برای اطلاعات بیشتر به Cartography & Science و Geovisualization مراجعه کنید. بحث). ارتباط بصری به بهترین وجه با “نقشه برای دیدن” انجام می شود، یک نمایش نقشه برداری ساده که در یک چشم به هم زدن قابل درک است (کراک، 1988). از سوی دیگر، تفکر بصری اغلب از طریق محصولات نقشهبرداری پیچیدهتر انجام میشود که درک کامل آن ممکن است مدتی طول بکشد: «نقشه برای خواندن».
در زمینه داده های بزرگ، ارتباطات بصری توسط شرکت ها، میزهای خبری و دانشمندان به کار گرفته شده است (به روایت و داستان سرایی، آینده مراجعه کنید.) برای انتقال یافتهها، ارائه روایتها، یا گاهی اوقات صرفاً تحت تأثیر قرار دادن پیچیدگی یا اندازه مجموعه داده زیربنایی بر روی خواننده. نمونه بارز دومی، تجسمهای به اصطلاح «هیربال» است که در آن شبکههای پیچیده و بزرگ با یک توپ به همان اندازه پیچیده از خطوط تجسم میشوند (کرزیوینسکی، بیرول، جونز، و مارا، 2012). در کارتوگرافی، یک مثال مشابه، نمایش یک مجموعه داده بزرگ متشکل از نقاط فضایی مستقیماً بر روی نقشه است که در نتیجه یک نمایش پیچیده با میلیونها نقطه ایجاد میشود. اگرچه بسیاری از مجموعههای کلان داده در واقع برای ارائه و برقراری ارتباط – اغلب به روشهای زیبا و قانعکننده – تجسم میشوند، در نهایت استفاده از دادههای بزرگ در این حالت استفاده از نقشه تفاوت قابلتوجهی با مجموعه دادههای کوچک یا معمولتر ندارد.
در حالت “تفکر بصری”، تجسم برای اهداف کاوش و تجزیه و تحلیل، و به طور خاص برای درک داده های بزرگ و تولید دانش جدید (علمی) به طور جدایی ناپذیری با داده های بزرگ مرتبط است (فاکس و هندلر، 2011). اگرچه با مجموعه ای از چالش ها (به بخش بعدی مراجعه کنید)، تجسم به محققان اجازه می دهد تا مجموعه داده هایی را که خیلی بزرگ، پیچیده و ناهمگن هستند را بررسی، تجزیه و تحلیل و ترکیب کنند که صرفاً با مشاهده داده های خام قابل درک نیستند. تجسم به عنوان یک ابزار ضروری در این فرآیند و یک نیروی محرکه مهم در تجزیه و تحلیل پیچیده داده های بزرگ است (به تحلیل ژئوویژوال مراجعه کنید ).
شکل 1: نمونه هایی از تجسم های نوع ‘هیربال’. از چپ به راست، نمونه ای از تجسم شبکه ای همنام؛ نقشه مسیرهای هوایی مسافری جهانی (Josullivan.58 / CC-BY-3.0، https://commons.wikimedia.org/wiki/File:World_airline_routes.png )؛ و نقشه ای که بیش از 6 میلیارد توییت را نشان می دهد که پلت فرم نقشه برداری Mapbox را نشان می دهد (Eric Fisher / CC-BY-2.0، https://www.flickr.com/photos/walkingsf/15869589271/in/photostream/ ).
4. چالش ها برای تجسم داده های بزرگ
4.1 محاسباتی
بدیهی ترین مجموعه چالش ها با تجسم داده های بزرگ ماهیت محاسباتی دارند. در سادهترین شکل، میتواند برای نرمافزار نگاشت مبتنی بر CPU معمولی چالشی برای ترسیم مقادیر زیادی از نقاط داده باشد (به واحدهای پردازش گرافیک مراجعه کنید.). مجموعه داده های بزرگ همچنین می تواند حتی عملکردهای اساسی مانند ذخیره سازی داده ها را پیچیده کند. به عنوان مثال، اندازه فایل یک شکل فایل استاندارد در یک سیستم اطلاعات جغرافیایی به 2 گیگابایت (یا تقریباً 70 میلیون ویژگی نقطه ای) و 255 ویژگی محدود می شود و هر فیلد به 254 کاراکتر محدود می شود. بسیاری از مجموعه داده های بزرگ از این محدودیت ها فراتر می روند، که فرمت های فایل جدید را تضمین می کند. علاوه بر این، ماهیت ساختار نیافته بسیاری از مجموعههای کلان داده لزوماً در استحکام ساختاریافته پایگاههای داده رابطهای مرسوم قرار نمیگیرد. هستی شناسی های پایگاه داده جدید (مانند فرمت های سند محور و دیگر فرمت های NoSQL) برای رسیدگی به این مسائل توسعه یافته اند.
4.2 بصری
مجموعه دیگری از چالشها با تجسم دادههای بزرگ در حوزه تجسم خود قرار دارد. در اینجا باید توجه داشت که این مسائل ذاتا منحصر به کلان داده نیستند. در عوض، داده های بزرگ به طور قابل توجهی بسیاری از چالش های موجود در نقشه کشی را تقویت می کند و ما را مجبور می کند که آنها را به صراحت بشناسیم و به آنها رسیدگی کنیم. واضح ترین این چالش ها به اندازه داده ها مربوط می شود. به سادگی تجسم یا ترسیم چنین تعداد زیادی از نقاط داده ممکن است تجسمهای گیجکنندهای ایجاد کند که هیچ بینشی به دست نمیآورد (ر.ک. تجسم گلوله مویی که در بالا مورد بحث قرار گرفت) یا تجسمیهایی که دادهها را پنهان یا مبهم میکنند، که اغلب به عنوان بیشپردهنگاری از آن یاد میشود (نگاه کنید به (Dang, Wilkinson, & Anand) ، 2010) برای بحث).
بسیاری از مجموعه دادههای بزرگ فضایی حاوی مختصات جغرافیایی دقیق برای هر مشاهده هستند، که چالش متناقض دیگری را ایجاد میکند: سهولت ترسیم این مختصات بهعنوان نقاط روی نقشه ممکن است ما را به تصویرسازی بالقوه باریک یا محدود از دادههای بزرگ سوق دهد (کرامپتون و همکاران .، 2013). از طرف دیگر، برخی دادههای بزرگ حاوی ارجاعات کمتر دقیق، اما همچنان فضایی، به نامهای محلی، محلهها و مناطق فضایی هستند که ممکن است به راحتی با هندسه گسسته یک چندضلعی ترسیم نشوند.
البته، «غنا» یا ناهمگونی چنین دادههایی سؤالات دیگری را مطرح میکند. برای مثال، چگونه میتوان دادههای متنی کیفی رسانههای اجتماعی را تجسم کرد؟ این مورد مخصوصاً برای مجموعههای دادهای است که بهروزرسانیهای زمانی بیدرنگ یا مکرر دارند، به این معنی که مجموعه دادهها ممکن است دائماً در حالت نوسانی باشند. در نهایت، داده های بزرگ طبیعت بدون ساختار نیز به این معنی است که مشاهدات ممکن است نادرست یا کمتر دقیق باشند. به عبارت دیگر، عدم قطعیت بالقوه در داده ها ممکن است لازم باشد در تجسم نیز در نظر گرفته شود (به نمایش عدم قطعیت مراجعه کنید ).
4.3 نمایندگی، اخلاق و حریم خصوصی
جدا از چالشهای فنی، آگاهی از یک سری چالشهای اخلاقی برای تجسم دادههای بزرگ مهم است. در حالی که اخلاق بخش مهمی از کل دامنه GIS&T را تشکیل می دهد (به اخلاق حرفه ای و عملی GIS&T و کارتوگرافی و قدرت مراجعه کنید.داده های بزرگ ممکن است این مسائل اخلاقی را بزرگ یا اصلاح کند. یک مثال به خصوص قابل توجه، حریم خصوصی کسانی است که داده های آنها نقشه برداری و تجسم شده است. مجموعه دادههای مرسوم معمولاً دادههای اجتماعی را در بخشهای سرشماری یا دیگر مناطق جغرافیایی اداری جمعآوری میکنند، در حالی که بسیاری از مجموعههای داده بزرگ جفتهای مختصات دقیقی را ارائه میکنند، اغلب در سطح فرد. تجسم چنین داده هایی با همان دقت ممکن است به افراد آسیب برساند. در مقابل، جفت مختصات نیز ممکن است به طور عمدی جعل یا تغییر داده شوند، که به طور بالقوه افراد را در مکان هایی قرار می دهد که هرگز از آنها بازدید نکرده اند (ژائو و سوئی، 2017). مسائل اضافی زیادی پیرامون تجسم کلان داده ها وجود دارد (مثلاً نمایش، رضایت، سوگیری) و آگاهی از آنها بخش مهمی از هر پروژه است (برای یک مرور کلی نگاه کنید به (Boyd & Crawford, 2012; Zook et al., 2017؛ Zwitter، 2014)).
5. رویکردها و راه حل ها برای تجسم داده های بزرگ
5.1 کاهش داده ها
برای پرداختن به برخی از چالشهای بالا، یک رویکرد مهم برای تجسم دادههای بزرگ، «کوچک کردن دادههای بزرگ» است (Poorthuis & Zook, 2017; Poorthuis, Zook, Shelton, Graham, & Stephens, 2015) و در حوزه دادهها قرار میگیرد. کاهش یا خلاصه سازی تجسم مجموعه داده های پیچیده و بزرگ نباید خود پیچیده یا بزرگ باشد. ساریکایا (2017) چهار استراتژی کاهش خاص را متمایز می کند که بی شباهت با استراتژی های به کار رفته در تعمیم نقشه برداری نیستند (به مقیاس و تعمیم مراجعه کنید ) :
شکل 2: داده های بزرگ را می توان از طریق استفاده از استراتژی های کاهش داده که تجسم های خلاصه را ارائه می دهد، “کوچک” کرد. شکل تکثیر شده با اجازه ساریکایا (2017).
5.2 استراتژی های بصری
استراتژیهای کاهش داده، دادههای بزرگ را کوچک میکنند تا از تکنیکهای کارتوگرافی ساده و معمولی استفاده کنند. با این حال، بسته به ماهیت داده ها و هدف تجسم، این همیشه یک گزینه نیست. گنجاندن صریح کلان داده در نقشهبرداری، بدون سادهسازی کاهش دادهها، هنوز در لبهی مقدماتی این زمینه است، پر از چالشها و فرصتهای جدید (برای یک مرور کلی به (رابینسون و همکاران، 2017) مراجعه کنید. مجموعهای از تکنیکها هنوز باید متبلور شوند، اما چندین نمونه از استراتژیها را میتوان شناسایی کرد (جدول 1 را ببینید).
تکثیر شده با اجازه (ر.ک. Kumar, Morstatter, & Liu, 2014)
سوفی انگل / GPL-3.0 (ر.ک. Holten & Van Wijk، 2009)
کراک و کولادزه (2017)، CC-BY-4.0
نوست، روزنفلد، وینسنت، مور و راث (2017)، CC-BY-NC-ND-4.0
Dheeraj Savala / مجوز MIT
فرآیند تجسم کلان داده ها به شدت به رویه های محاسباتی فشرده متکی است، که ما را ملزم می کند تا در هماهنگی نزدیک با رایانه هایمان کار کنیم. برای تسهیل این فرآیند، تجسم کلان داده اغلب به صورت اکتشافی، تعاملی با رابطها و نرمافزارهایی انجام میشود که کاربر را قادر میسازد تا به سرعت یک سری تحلیلهای اکتشافی را از طریق تجسم جنبههای مختلف یک مجموعه داده انجام دهد (به تحلیل دادههای فضایی اکتشافی مراجعه کنید (آینده ) و طراحی UI/UX). این رابط ها را می توان برای یک پروژه خاص سفارشی ساخت یا برای استفاده با داده های بزرگ طراحی کرد. نمونه ای از چنین پروژه ای imMens است، یک سیستم مبتنی بر مرورگر که به کاربران اجازه می دهد میلیون ها نقطه داده چند متغیره را در یک محیط تعاملی و بلادرنگ کاوش کنند (Liu, Jiang, & Heer, 2013). برای فعال کردن این کار، سیستم تجسمها را به روشی شبیه به مجموعههای نقشه وب (نگاه کنید به نقشهبرداری وب ) از قبل محاسبه میکند و محاسبات را به صورت موازی انجام میدهد تا مطمئن شود رایانه میتواند با کاربر «همراه باشد» (به برنامهنویسی موازی و برنامههای GIS ، آینده مراجعه کنید).). نرمافزار معمولیتر و آمادهشده نیز برای فعال کردن تجسم دادههای بزرگ اقتباس شده است. به عنوان مثال، ArcGIS اکنون از هر دو رندر GPU و پردازش موازی استفاده میکند و زبانهای رایج علم داده (به عنوان مثال، Python و R) محیطهای نویسندگی را برای تجسم تعاملی و پیوند تنگاتنگ تجزیه و تحلیل و تجسم فراهم میکنند (نگاه کنید به Jupyter Notebooks ، آینده ).
شکل 3: نمونه ای از یک رابط نرم افزاری تعاملی و اکتشافی که داده های بزرگ را تجسم می کند (چن و همکاران، 2016). این امکان کشف الگوهای حرکتی در دادههای رسانههای اجتماعی را از طریق کاهش دادهها (مثلاً فیلتر کردن) و استراتژیهای تجسم (مثلاً مشاهدههای مرتبط چندگانه) فراهم میکند. تکثیر شده با اجازه ( https://vis.pku.edu.cn/trajectoryvis/en/weibogeo.html ).
واضح است که تعامل صاف بین کاربر و رایانه برای به دست آوردن بینش از تجسم داده های بزرگ بسیار مهم است. بنابراین، رویکردهای تجسم کلان دادهها نباید منحصراً بر عملکرد، جنبههای محاسباتی پردازش دادهها یا چالشهای بصری خاص متمرکز شوند، بلکه باید بر رابط مؤثر و طراحی تجربه تمرکز کنند (به طراحی و ارزیابی UI/UX و کاربردپذیری مراجعه کنید ). به این ترتیب، تجسم دادههای بزرگ لزوماً پشتوانه (محاسبات) و جلو (تجسم) نقشهنگاری را در یک جفت محکم ترکیب میکند، که در آن انسان و رایانه با هم کار میکنند تا بینش جدیدی از دادهها ایجاد کنند.
Arribas-Bel، D. (2014). تصادفی، باز و همه جا: منابع داده در حال ظهور برای درک شهرها. جغرافیای کاربردی ، 49 ، 45-53. DOI: 10.1016/j.apgeog.2013.09.012
بن اشنایدرمن. (2014). تصویر بزرگ برای داده های بزرگ: تجسم Science , 343 (6172), 730-730. DOI: 10.1126/science.343.6172.730-a
Boyd, D., & Crawford, K. (2012). سوالات مهم برای داده های بزرگ اطلاعات، ارتباطات و جامعه ، 15 (5)، 662-679. DOI: 10.1080/1369118X.2012.678878
Chen, S., Yuan, X., Wang, Z., Guo, C., Liang, J., Wang, Z., et al. (2016). کشف بصری تعاملی الگوهای حرکتی از دادههای رسانههای اجتماعی با برچسب جغرافیایی پراکنده. IEEE Transactions on Visualization and Computer Graphics ، 22 (1)، 270-279. DOI: 10.1109/TVCG.2015.2467619
کرامپتون، جی دبلیو، گراهام، ام.، پورتویس، ا.، شلتون، تی.، استفنز، ام.، ویلسون، ام وات، و زوک، MA (2013). فراتر از برچسب جغرافیایی: قرار دادن “داده های بزرگ” و استفاده از پتانسیل geoweb. نقشه برداری و علم اطلاعات جغرافیایی ، 40 (2)، 130-139. DOI: 10.1080/15230406.2013.777137
Dang، TN، Wilkinson، L.، & Anand، A. (2010). انباشتن عناصر گرافیکی برای جلوگیری از ترسیم بیش از حد. IEEE Transactions on Visualization and Computer Graphics ، 16 (6)، 1044-1052. DOI: 10.1109/TVCG.2010.197
DiBiase، D. (1990). تجسم در علوم زمین. زمین و علوم معدنی ، 59 (2)، 13-18.
دیبولد، اف ایکس (2012). دیدگاه شخصی در مورد منشاء(ها) و توسعه “داده های بزرگ”: پدیده، اصطلاح، و رشته، نسخه دوم. مجله الکترونیکی SSRN . DOI: 10.2139/ssrn.2202843
فاکس، پی، و هندلر، جی (2011). تغییر معادله در تجسم داده های علمی. علوم ، 331 (6018)، 705-708. DOI: 10.1126/science.1197654
Goodchild، MF (2007). شهروندان به عنوان حسگر: دنیای جغرافیای داوطلبانه جئوژورنال ، 69 (4)، 211-221. DOI: 10.1007/s10708-007-9111-y
گراهام، ام.، و شلتون، تی (2013). جغرافیا و آینده داده های بزرگ، داده های بزرگ و آینده جغرافیا. گفتگوها در جغرافیای انسانی ، 3 (3)، 255-261. DOI: 10.1177/2043820613513121
هولتن، دی، و ون ویک، جی جی (2009). بستهبندی لبههای اجباری برای تجسم نمودار. انجمن گرافیک کامپیوتری ، 28 (3)، 983–990. DOI: 10.1111/j.1467-8659.2009.01450.x
کیچین، RM (2013). داده های بزرگ و جغرافیای انسانی: فرصت ها، چالش ها و خطرات گفتگوها در جغرافیای انسانی ، 3 (3)، 262-267. DOI: 10.1177/2043820613513388
کیچین، RM (2014). کلان داده، معرفت شناسی های جدید و تغییرات پارادایم. کلان داده و جامعه ، 1 (1)، 1-12. DOI: 10.1177/2053951714528481
کیچین، RM، و مک آردل، جی. (2016). چه چیزی Big Data، Big Data را می سازد؟ بررسی ویژگیهای هستیشناختی ۲۶ مجموعه داده. Big Data & Society , 3 (1), 205395171663113. DOI: 10.1177/2053951716631130
کراک، ام.-جی. (1988). تکنیک های تصویربرداری سه بعدی کارتوگرافی به کمک کامپیوتر (پایان نامه دکتری). انتشارات دانشگاه دلفت، دلفت.
کرژیوینسکی، ام.، بیرول، آی.، جونز، اس جی، و مارا، MA (2012). طرحهای کندو-رویکرد منطقی برای تجسم شبکهها. خلاصه در بیوانفورماتیک ، 13 (5)، 627-644. DOI: 10.1093/bib/bbr069
Kumar, S., Morstatter, F., & Liu, H. (2014). تجزیه و تحلیل داده های توییتر. نیویورک، نیویورک: اسپرینگر نیویورک. DOI: 10.1007/978-1-4614-9372-3
Kraak، MJ، و Kveladze، I. (2017). روایت مکعب فضا-زمان مشروح شده-بازبینی یک رویداد تاریخی. مجله نقشه ها , 13 (1), 56-61. DOI: 10.1080/17445647.2017.1323034
Laney, D. (2001). مدیریت داده های سه بعدی: کنترل حجم، سرعت و تنوع داده ها. بازیابی شده در 29 اوت 2015، از https://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Manageme…
لیو، زی، جیانگ، بی، و هیر، جی (2013). imMens: جستجوی بصری در زمان واقعی از داده های بزرگ. انجمن گرافیک کامپیوتری ، 32 (3)، 421–430. DOI: 10.1111/cgf.12129
نوست، ای.، روزنفلد، اچ.، وینسنت، ک.، مور، SA، و راث، RE (2017). HazMatMapper: یک ابزار تجسم جغرافیایی آنلاین و تعاملی برای کاوش در جریان های فراملی زباله های خطرناک و عدالت زیست محیطی. مجله نقشه ها ، 13 (1)، 14-23. DOI: 10.1080/17445647.2017.1282384
پورتویس، ا.، و زوک، MA (2017). کوچک کردن داده های بزرگ: استراتژی هایی برای گسترش تحقیقات شهری و جغرافیایی با استفاده از رسانه های اجتماعی. مجله فناوری شهری ، 36 ، 1–21. DOI: 10.1080/10630732.2017.1335153
پورتویس، آ.، زوک، MA، شلتون، تی، گراهام، ام.، و استفنز، ام. (2015). استفاده از داده های اجتماعی دیجیتال دارای برچسب جغرافیایی در تحقیقات جغرافیایی. در N. Clifford, S. French, M. Cope, & S. Gillespie (Eds.), Key Methods in Geography (ویرایش سوم).
رابینسون، AC، Demšar، U.، Moore، AB، باکلی، A.، Jiang، B.، Field، K.، و همکاران. (2017). دادههای بزرگ جغرافیایی و نقشهبرداری: چالشها و فرصتهای تحقیقاتی برای ساختن نقشههای مهم مجله بین المللی کارتوگرافی ، 18 (5)، 1-29. DOI: 10.1080/23729333.2016.1278151
ساریکایا، AT (2017). طرح های هدف گذاری تجسم های خلاصه اکتشافی مقیاس پذیر (پایان نامه دکتری). دانشگاه ویسکانسین – مدیسون، مدیسون، WI.
ژائو، بی، و سوئی، دیزی (2017). دروغ های واقعی در داده های بزرگ جغرافیایی: تشخیص جعل موقعیت مکانی در رسانه های اجتماعی. Annals of GIS , 23 (1)، 1-14. DOI: 10.1080/19475683.2017.1280536
Zook, MA, Barocas, S., boyd, D., Crawford, K., Keller, E., Gangadharan, SP, et al. (2017). ده قانون ساده برای تحقیق مسئولیت پذیر کلان داده. PLoS Computational Biology , 13 (3), e1005399. DOI: 10.1371/journal.pcbi.1005399
Zwitter, A. (2014). اخلاق کلان داده کلان داده و جامعه ، 1 (2)، 1-6. DOI: 10.1177/2053951714559253