برنامه ریزی کاربری منطقه ای کارآمد عملی با استفاده از بهینه سازی الگوریتم ژنتیک چندهدفه و سیستم اطلاعات جغرافیایی

 تجسم کلان داده Big Data(داده های بزرگ) در GIS : تغییر جهان با روش های شگفت انگیز

از آنجایی که فناوری‌های اطلاعاتی و ارتباطی جدید بسیاری از جنبه‌های زندگی روزمره ما را در دهه‌های گذشته تغییر داده‌اند، به طور همزمان باعث تغییر در انواع داده‌هایی شده‌اند که جمع‌آوری، تولید و تحلیل می‌کنیم. با هم، این چشم انداز در حال تغییر داده اغلب به عنوان “داده بزرگ” نامیده می شود. داده های بزرگ نه تنها به دلیل حجم بالای آن، بلکه به دلیل سرعت، تنوع، جامعیت، وضوح، رابطه و انعطاف پذیری مجموعه داده ها از «داده های کوچک» متمایز می شوند. این مدخل تجسم مجموعه داده های فضایی بزرگ را مورد بحث قرار می دهد. از آنجایی که بسیاری از این مجموعه داده‌ها حاوی ویژگی‌های جغرافیایی هستند یا در فضای جغرافیایی قرار گرفته و تولید می‌شوند، نقشه‌برداری نقشی محوری در تجسم داده‌های بزرگ دارد. تجسم داده های بزرگ اغلب و به طور موثر برای برقراری ارتباط و ارائه اطلاعات استفاده می شود. اما در درک کلان داده ها – ایجاد بینش و دانش جدید – است که تجسم به یک ابزار ضروری تبدیل می شود و نقشه برداری را برای درک داده های بزرگ جغرافیایی حیاتی می کند. اگرچه تجسم داده‌های بزرگ چالش‌های متعددی را به همراه دارد، متخصصان انسانی می‌توانند از تجسم به طور کلی، و نقشه‌برداری به طور خاص، با کمک رابط‌ها و نرم‌افزارهای طراحی‌شده برای این منظور، برای کاوش و تحلیل مؤثر داده‌های بزرگ استفاده کنند.

 

توضیحات موضوع: 
  1. تعاریف
  2. مقدمه ای بر داده های بزرگ
  3. تجسم داده های بزرگ: ارتباطات بصری و تفکر بصری
  4. چالش‌های بصری داده‌های بزرگ
  5. رویکردها و راه حل هایی برای تجسم داده های بزرگ

 

1. تعاریف

داده های بزرگ : مجموعه داده هایی که نه تنها با حجم زیاد، بلکه با سرعت، تنوع، جامعیت، وضوح، رابطه و انعطاف پذیری مشخص می شوند.

حجم : مقدار داده ای که برای در نظر گرفتن داده های “بزرگ” لازم است. به طور معمول، حجم داده های بزرگ برحسب ترابایت و پتابایت یا متشکل از میلیون ها تا میلیاردها مشاهده اندازه گیری می شود.

سرعت : فرکانس به روز رسانی یک مجموعه داده. به طور معمول، داده های بزرگ در زمان واقعی یا با جزئیات زمانی خوب تولید یا به روز می شوند.

تنوع : تنوع نقاط داده موجود در داخل و بین مجموعه داده ها. کلان داده معمولاً از طیف گسترده ای از مجموعه داده های ساختاریافته و بدون ساختار از منابع و منشأهای مختلف تشکیل شده است.

Exhaustivity : اصطلاحی که دامنه کلان داده را توصیف می کند. برای کلان داده، مجموعه داده ها معمولاً تا حد امکان گسترده است و به جای نمونه ها، بر کل جمعیت ها متمرکز است.

وضوح : جزئیات و جزئیات در داده های بزرگ. کلان داده ها معمولاً تا حد امکان دارای جزئیات هستند، از جمله شاخص بودن در شناسایی اشیاء مورد مطالعه.

رابطه : میزانی که مجموعه داده های مختلف را می توان بر اساس ویژگی های مشترک به یکدیگر متصل کرد. یکی از ویژگی های تعیین کننده کلان داده، توانایی آن برای اتصال به مجموعه داده های دیگر است.

انعطاف پذیری : توانایی یک مجموعه داده برای گسترش آسان (با ویژگی های اضافی) و گسترش (با افزودن مشاهدات اضافی).

کاهش داده ها : یک استراتژی که برای کاهش مقدار داده یا خلاصه کردن بخش های مرتبط از یک مجموعه داده استفاده می شود.

فیلتر کردن: زیرمجموعه یک مجموعه داده بر اساس ویژگی های داده ها.

نمونه‌گیری فرعی : زیرمجموعه یک مجموعه داده بر اساس نمونه‌گیری تصادفی.

Aggregation : ترکیبی از چندین نقطه داده در یک تجمع سطح بالاتر.

طرح ریزی : یک استراتژی کاهش داده که داده ها را “نقشه برداری” می کند یا به تعداد ابعاد کمتر یا محدوده داده باریک تر اشاره می کند.

 

2. مقدمه ای بر داده های بزرگ

2.1 کلان داده چیست؟ 

فناوری‌های اطلاعاتی و ارتباطی جدید بسیاری از جنبه‌های زندگی روزمره ما را در دهه‌های گذشته تغییر داده‌اند و به طور همزمان باعث تغییر محسوس در انواع داده‌هایی شده است که شرکت‌ها، دولت‌ها، دانشمندان و افراد قادر به جمع‌آوری، تولید و تجزیه و تحلیل هستند. این مجموعه داده های نوظهور جدید اغلب به عنوان داده های بزرگ شناخته می شوند. اصطلاح “داده های بزرگ” برای اولین بار در دهه 1990 ابداع شد (دیبولد، 2012). در حالی که تعریف دقیق کلان داده تا حدودی سیال است، تلاش های متعددی برای تعریف ویژگی های اصلی آن صورت گرفته است. یکی از متداول ترین تعاریف استفاده شده بر اساس “سه V” است (لینی، 2001):

  1. جلد. کلان داده عظیم است و اغلب در ترابایت و پتابایت اندازه گیری می شود یا شامل میلیون ها یا میلیاردها مشاهده است.
  2. سرعت . کلان داده ها در زمان واقعی یا با جزئیات زمانی خوب تولید یا به روز می شوند.
  3. تنوع . کلان داده شامل طیف گسترده ای از مجموعه داده های ساختاریافته و بدون ساختار از منابع و منشأهای مختلف است.

اگرچه تعریف 3V مختصر است، اما تعاریف جدید و جایگزینی نیز از این مفهوم ایجاد شده است که به تشخیص بیشتر داده های بزرگ از داده های کوچک کمک می کند. ترکیب مفیدی از این تعاریف چهار بعد اضافی را به تعریف 3 ولت اضافه می کند (برای بررسی گسترده و (Kitchin, 2013; 2014; Kitchin & McArdle, 2016) مراجعه کنید:

  1. کامل بودن . دامنه کلان داده تا حد امکان گسترده است و به جای نمونه ها، بر کل جمعیت ها متمرکز است.
  2. قطعنامه . داده های بزرگ تا حد امکان دارای جزئیات هستند، از جمله شاخص بودن در شناسایی اشیاء مورد مطالعه.
  3. رابطه گرایی . داده های بزرگ را می توان به راحتی متصل کرد. مجموعه داده های مختلف را می توان بر اساس ویژگی های مشترک به یکدیگر متصل کرد.
  4. انعطاف پذیری . کلان داده را می توان به راحتی گسترش داد (با ویژگی های اضافی) و گسترش داد (با افزودن مشاهدات اضافی).

یک منبع داده یا مجموعه داده برای در نظر گرفتن کلان داده ها نیازی به نمایش همه هفت ویژگی ندارد و هیچ آستانه دقیقی وجود ندارد که داده های کوچک و بزرگ را از هم متمایز کند. در عوض، این یک تصور پذیرفته شده است که یک منطقه انتقال خاکستری بین این دو وجود دارد. علاوه بر این، چندین اشکال مختلف یا «نوع» داده های بزرگ ممکن است به طور همزمان وجود داشته باشند (Kitchin & McArdle, 2016). با این حال، صرف نظر از معنای شناسی، واضح است که بسیاری از مجموعه داده هایی که در قرن بیست و یکم تولید، تجزیه و تحلیل و تجسم می شوند، به طور قابل توجهی با همتایان قرن بیستم خود تفاوت دارند، و باعث می شود که نقشه نگاری و تجسم نقش در این مورد ارزیابی مجدد شود. روند.

1.2 ارتباط داده های بزرگ برای GIS&T

بخش بزرگی از داده های بزرگ ماهیت جغرافیایی دارند و به همین دلیل، داده های بزرگ تأثیر زیادی بر رشته های جغرافیایی داشته است. داده‌های بزرگ فضایی از تلفن همراه و داده‌های ترافیک گرفته تا پلتفرم‌های رسانه‌های اجتماعی (نگاه کنید به تجزیه و تحلیل رسانه‌های اجتماعی ) و تراکنش‌های کارت اعتباری، تا حسگرهای کیفیت هوا و تصاویر ماهواره‌ای را شامل می‌شود – که هر کدام نه تنها یک نقطه داده، بلکه یک موقعیت جغرافیایی مرتبط با آن را ارائه می‌کنند. نقطه داده همه این مجموعه داده ها به طور بالقوه می توانند به ما در درک بهتر دنیای اطرافمان کمک کنند (به Citizen Science with GIS&T مراجعه کنید.) و بنابراین در تحقیقات فضایی جذب شده اند (آریباس-بل، 2014؛ گودچایلد، 2007؛ گراهام و شلتون، 2013). رواج فزاینده این نوع مجموعه داده ها باعث ایجاد یک رشته کاملاً جدید در علم داده شده است و برخی از افرادی که در GIS و زمینه های مرتبط کار می کنند شروع به نامگذاری مجدد خود به عنوان “دانشمندان داده های مکانی” کرده اند، همانطور که در مرکز جدید علوم داده های مکانی دیده می شود. در دانشگاه شیکاگو و آزمایشگاه علوم داده های جغرافیایی در دانشگاه لیورپول.

مهمتر از آن، داده های بزرگ ممکن است نحوه رویکرد ما به تحلیل و تجسم فضایی را تغییر دهد. در حالی که ما اکنون به مقادیر بی‌نظیری از داده‌های ناهمگون در مورد دنیای اطراف خود دسترسی داریم، درک و تعامل با این داده‌ها به روش‌های معنی‌دار همچنان چالش بزرگی است. در نتیجه، رویکردهای جدیدی برای کمک به خودکارسازی بسیاری از جنبه‌های تجزیه و تحلیل داده‌ها، مانند رویکردهای یادگیری ماشین خودکار، هوش مصنوعی و سایر روش‌های محاسباتی “بدون نظارت” توسعه یافته‌اند (به هوش مصنوعی مراجعه کنید).). در حالی که این رویکردهای خودکار می توانند افزودنی های مفیدی به جعبه ابزار ما باشند، نقش انسان در تجزیه و تحلیل داده های مکانی و تجسم ضروری است. همانطور که Shneiderman (2014) استدلال می کند، در حالی که تجزیه و تحلیل داده های کامپیوتری ممکن است برای موضوعات به خوبی درک شده موثر باشد، ایجاد دانش و پیشرفت های جدید نیاز به متخصصان انسانی دارد که می توانند از تجسم ها برای به دست آوردن بینش های جدید استفاده و درک کنند. تجسم ابزاری ضروری برای درک داده های بزرگ است که نقشه برداری را برای درک داده های بزرگ جغرافیایی حیاتی می کند.

3. تجسم داده های بزرگ: ارتباطات بصری و تفکر بصری

در حوزه تجسم کلان داده‌ها، می‌توانیم بین تقریباً دو نوع تجسم تمایز قائل شویم: آنهایی که به تفکر بصری کمک می‌کنند و آنهایی که برای ارتباطات بصری در نظر گرفته شده‌اند (DiBiase، 1990) ( برای اطلاعات بیشتر به Cartography & Science  و Geovisualization مراجعه کنید. بحث). ارتباط بصری به بهترین وجه با “نقشه برای دیدن” انجام می شود، یک نمایش نقشه برداری ساده که در یک چشم به هم زدن قابل درک است (کراک، 1988). از سوی دیگر، تفکر بصری اغلب از طریق محصولات نقشه‌برداری پیچیده‌تر انجام می‌شود که درک کامل آن ممکن است مدتی طول بکشد: «نقشه برای خواندن». 

در زمینه داده های بزرگ، ارتباطات بصری توسط شرکت ها، میزهای خبری و دانشمندان به کار گرفته شده است (به روایت و داستان سرایی، آینده مراجعه کنید.) برای انتقال یافته‌ها، ارائه روایت‌ها، یا گاهی اوقات صرفاً تحت تأثیر قرار دادن پیچیدگی یا اندازه مجموعه داده زیربنایی بر روی خواننده. نمونه بارز دومی، تجسم‌های به اصطلاح «هیربال» است که در آن شبکه‌های پیچیده و بزرگ با یک توپ به همان اندازه پیچیده از خطوط تجسم می‌شوند (کرزیوینسکی، بیرول، جونز، و مارا، 2012). در کارتوگرافی، یک مثال مشابه، نمایش یک مجموعه داده بزرگ متشکل از نقاط فضایی مستقیماً بر روی نقشه است که در نتیجه یک نمایش پیچیده با میلیون‌ها نقطه ایجاد می‌شود. اگرچه بسیاری از مجموعه‌های کلان داده در واقع برای ارائه و برقراری ارتباط – اغلب به روش‌های زیبا و قانع‌کننده – تجسم می‌شوند، در نهایت استفاده از داده‌های بزرگ در این حالت استفاده از نقشه تفاوت قابل‌توجهی با مجموعه داده‌های کوچک یا معمول‌تر ندارد.

در حالت “تفکر بصری”، تجسم برای اهداف کاوش و تجزیه و تحلیل، و به طور خاص برای درک داده های بزرگ و تولید دانش جدید (علمی) به طور جدایی ناپذیری با داده های بزرگ مرتبط است (فاکس و هندلر، 2011). اگرچه با مجموعه ای از چالش ها (به بخش بعدی مراجعه کنید)، تجسم به محققان اجازه می دهد تا مجموعه داده هایی را که خیلی بزرگ، پیچیده و ناهمگن هستند را بررسی، تجزیه و تحلیل و ترکیب کنند که صرفاً با مشاهده داده های خام قابل درک نیستند. تجسم به عنوان یک ابزار ضروری در این فرآیند و یک نیروی محرکه مهم در تجزیه و تحلیل پیچیده داده های بزرگ است (به تحلیل ژئوویژوال مراجعه کنید ).

تجسم های نوع توپ مو

شکل 1: نمونه هایی از تجسم های نوع ‘هیربال’. از چپ به راست، نمونه ای از تجسم شبکه ای همنام؛ نقشه مسیرهای هوایی مسافری جهانی (Josullivan.58 / CC-BY-3.0، https://commons.wikimedia.org/wiki/File:World_airline_routes.png )؛ و نقشه ای که بیش از 6 میلیارد توییت را نشان می دهد که پلت فرم نقشه برداری Mapbox را نشان می دهد (Eric Fisher / CC-BY-2.0، https://www.flickr.com/photos/walkingsf/15869589271/in/photostream/ ).

 

4. چالش ها برای تجسم داده های بزرگ

4.1 محاسباتی

بدیهی ترین مجموعه چالش ها با تجسم داده های بزرگ ماهیت محاسباتی دارند. در ساده‌ترین شکل، می‌تواند برای نرم‌افزار نگاشت مبتنی بر CPU معمولی چالشی برای ترسیم مقادیر زیادی از نقاط داده باشد (به واحدهای پردازش گرافیک مراجعه کنید.). مجموعه داده های بزرگ همچنین می تواند حتی عملکردهای اساسی مانند ذخیره سازی داده ها را پیچیده کند. به عنوان مثال، اندازه فایل یک شکل فایل استاندارد در یک سیستم اطلاعات جغرافیایی به 2 گیگابایت (یا تقریباً 70 میلیون ویژگی نقطه ای) و 255 ویژگی محدود می شود و هر فیلد به 254 کاراکتر محدود می شود. بسیاری از مجموعه داده های بزرگ از این محدودیت ها فراتر می روند، که فرمت های فایل جدید را تضمین می کند. علاوه بر این، ماهیت ساختار نیافته بسیاری از مجموعه‌های کلان داده لزوماً در استحکام ساختاریافته پایگاه‌های داده رابطه‌ای مرسوم قرار نمی‌گیرد. هستی شناسی های پایگاه داده جدید (مانند فرمت های سند محور و دیگر فرمت های NoSQL) برای رسیدگی به این مسائل توسعه یافته اند.

4.2 بصری

مجموعه دیگری از چالش‌ها با تجسم داده‌های بزرگ در حوزه تجسم خود قرار دارد. در اینجا باید توجه داشت که این مسائل ذاتا منحصر به کلان داده نیستند. در عوض، داده های بزرگ به طور قابل توجهی بسیاری از چالش های موجود در نقشه کشی را تقویت می کند و ما را مجبور می کند که آنها را به صراحت بشناسیم و به آنها رسیدگی کنیم. واضح ترین این چالش ها به اندازه داده ها مربوط می شود. به سادگی تجسم یا ترسیم چنین تعداد زیادی از نقاط داده ممکن است تجسم‌های گیج‌کننده‌ای ایجاد کند که هیچ بینشی به دست نمی‌آورد (ر.ک. تجسم گلوله مویی که در بالا مورد بحث قرار گرفت) یا تجسمی‌هایی که داده‌ها را پنهان یا مبهم می‌کنند، که اغلب به عنوان بیش‌پرده‌نگاری از آن یاد می‌شود (نگاه کنید به (Dang, Wilkinson, & Anand) ، 2010) برای بحث).

بسیاری از مجموعه داده‌های بزرگ فضایی حاوی مختصات جغرافیایی دقیق برای هر مشاهده هستند، که چالش متناقض دیگری را ایجاد می‌کند: سهولت ترسیم این مختصات به‌عنوان نقاط روی نقشه ممکن است ما را به تصویرسازی بالقوه باریک یا محدود از داده‌های بزرگ سوق دهد (کرامپتون و همکاران .، 2013). از طرف دیگر، برخی داده‌های بزرگ حاوی ارجاعات کمتر دقیق، اما همچنان فضایی، به نام‌های محلی، محله‌ها و مناطق فضایی هستند که ممکن است به راحتی با هندسه گسسته یک چندضلعی ترسیم نشوند.

البته، «غنا» یا ناهمگونی چنین داده‌هایی سؤالات دیگری را مطرح می‌کند. برای مثال، چگونه می‌توان داده‌های متنی کیفی رسانه‌های اجتماعی را تجسم کرد؟ این مورد مخصوصاً برای مجموعه‌های داده‌ای است که به‌روزرسانی‌های زمانی بی‌درنگ یا مکرر دارند، به این معنی که مجموعه داده‌ها ممکن است دائماً در حالت نوسانی باشند. در نهایت، داده های بزرگ طبیعت بدون ساختار نیز به این معنی است که مشاهدات ممکن است نادرست یا کمتر دقیق باشند. به عبارت دیگر، عدم قطعیت بالقوه در داده ها ممکن است لازم باشد در تجسم نیز در نظر گرفته شود (به نمایش عدم قطعیت مراجعه کنید ).

4.3 نمایندگی، اخلاق و حریم خصوصی

جدا از چالش‌های فنی، آگاهی از یک سری چالش‌های اخلاقی برای تجسم داده‌های بزرگ مهم است. در حالی که اخلاق بخش مهمی از کل دامنه GIS&T را تشکیل می دهد (به اخلاق حرفه ای و عملی GIS&T و کارتوگرافی و قدرت مراجعه کنید.داده های بزرگ ممکن است این مسائل اخلاقی را بزرگ یا اصلاح کند. یک مثال به خصوص قابل توجه، حریم خصوصی کسانی است که داده های آنها نقشه برداری و تجسم شده است. مجموعه داده‌های مرسوم معمولاً داده‌های اجتماعی را در بخش‌های سرشماری یا دیگر مناطق جغرافیایی اداری جمع‌آوری می‌کنند، در حالی که بسیاری از مجموعه‌های داده بزرگ جفت‌های مختصات دقیقی را ارائه می‌کنند، اغلب در سطح فرد. تجسم چنین داده هایی با همان دقت ممکن است به افراد آسیب برساند. در مقابل، جفت مختصات نیز ممکن است به طور عمدی جعل یا تغییر داده شوند، که به طور بالقوه افراد را در مکان هایی قرار می دهد که هرگز از آنها بازدید نکرده اند (ژائو و سوئی، 2017). مسائل اضافی زیادی پیرامون تجسم کلان داده ها وجود دارد (مثلاً نمایش، رضایت، سوگیری) و آگاهی از آنها بخش مهمی از هر پروژه است (برای یک مرور کلی نگاه کنید به (Boyd & Crawford, 2012; Zook et al., 2017؛ Zwitter، 2014)).

 

5. رویکردها و راه حل ها برای تجسم داده های بزرگ

5.1 کاهش داده ها

برای پرداختن به برخی از چالش‌های بالا، یک رویکرد مهم برای تجسم داده‌های بزرگ، «کوچک کردن داده‌های بزرگ» است (Poorthuis & Zook, 2017; Poorthuis, Zook, Shelton, Graham, & Stephens, 2015) و در حوزه داده‌ها قرار می‌گیرد. کاهش یا خلاصه سازی تجسم مجموعه داده های پیچیده و بزرگ نباید خود پیچیده یا بزرگ باشد. ساریکایا (2017) چهار استراتژی کاهش خاص را متمایز می کند که بی شباهت با استراتژی های به کار رفته در تعمیم نقشه برداری نیستند (به مقیاس و تعمیم مراجعه کنید ) :

  • فیلتر کردن . زیر مجموعه یک مجموعه داده بر اساس ویژگی های داده ها. به عنوان مثال، فقط شامل سوابق مربوط به فرآیند مورد مطالعه است.
  • نمونه گیری فرعی . زیر مجموعه یک مجموعه داده بر اساس نمونه گیری تصادفی. به عنوان مثال، با انجام یک نمونه تصادفی در صورت غیرضروری برای تجسم کل مجموعه داده.
  • تجمع . ترکیب چندین نقطه داده در یک تجمع سطح بالاتر. این می‌تواند با رویکردی از پایین به بالا با خوشه‌بندی نقاط نزدیک یا مشابه (به طبقه‌بندی و خوشه‌بندی ، در آینده مراجعه کنید ) یا از بالا به پایین با تجمیع نقاط فردی به یک واحد فضایی بالاتر (مثلاً منطقه اداری) باشد (به جمع‌بندی موجودات فضایی مراجعه کنید ). .
  • فرافکنی _ داده های بزرگ بدون ساختار یا با ابعاد بالا را می توان با “نقشه برداری” نقاط داده به تعداد ابعاد کمتر یا محدوده داده باریک تر ساده کرد. در ساده‌ترین شکل آن، این کار می‌تواند به صورت دستی انجام شود، اما مجموعه داده‌های بزرگ‌تر به استفاده از تکنیک‌های خودکار نیاز دارند که از تجزیه و تحلیل اجزای اصلی (به تحلیل ویژگی‌های چند بعدی، در آینده مراجعه کنید) تا تکنیک‌های جدیدتر یادگیری ماشین را شامل می‌شود (به برنامه‌نویسی یادگیری ماشین برای GIS ، آینده مراجعه کنید).

 

کاهش کلان داده

شکل 2: داده های بزرگ را می توان از طریق استفاده از استراتژی های کاهش داده که تجسم های خلاصه را ارائه می دهد، “کوچک” کرد. شکل تکثیر شده با اجازه ساریکایا (2017).

5.2 استراتژی های بصری

استراتژی‌های کاهش داده، داده‌های بزرگ را کوچک می‌کنند تا از تکنیک‌های کارتوگرافی ساده و معمولی استفاده کنند. با این حال، بسته به ماهیت داده ها و هدف تجسم، این همیشه یک گزینه نیست. گنجاندن صریح کلان داده در نقشه‌برداری، بدون ساده‌سازی کاهش داده‌ها، هنوز در لبه‌ی مقدماتی این زمینه است، پر از چالش‌ها و فرصت‌های جدید (برای یک مرور کلی به (رابینسون و همکاران، 2017) مراجعه کنید. مجموعه‌ای از تکنیک‌ها هنوز باید متبلور شوند، اما چندین نمونه از استراتژی‌ها را می‌توان شناسایی کرد (جدول 1 را ببینید).

جدول 1. نمونه هایی از استراتژی های بصری برای تجسم داده های بزرگ
تکنیک  چالش کلان داده مطرح شد  شرح   مثال 
«هیت» یا نقشه‌های نقطه داغ  حجم زیادی از داده های نقطه ای تبدیل داده های نقطه ای به سطح صاف، اغلب از طریق تخمین چگالی هسته. یک انتخاب محبوب به دلیل گنجاندن آن در بسیاری از نرم افزارهای نقشه برداری. نقشه نقطه داغ

تکثیر شده با اجازه (ر.ک. Kumar, Morstatter, & Liu, 2014)

Edge Bundling حجم زیادی از داده های خط کلان داده اغلب حاوی مقادیر زیادی از روابط فضایی است (مثلاً ترافیک، حرکت). Edge bundling به صورت بصری روابطی را که در یک جهت مشابه حرکت می کنند، بسته بندی می کند. Edge Bundling

سوفی انگل / GPL-3.0 (ر.ک. Holten & Van Wijk، 2009)

نقشه های سه بعدی ابعاد بزرگ داده های بزرگ بعد سوم می تواند برای نشان دادن یک ویژگی داده اضافی یا بعد زمانی (مثلاً مکعب فضا-زمان) استفاده شود. بعد سوم

کراک و کولادزه (2017)، CC-BY-4.0

سیستم های چند نما انواع داده های بزرگ سیستم های چند نما، پنجره های متعدد، اغلب مرتبط یا هماهنگ را در یک مجموعه داده ارائه می کنند. سیستم های چند نما

نوست، روزنفلد، وینسنت، مور و راث (2017)، CC-BY-NC-ND-4.0

انیمیشن سرعت داده های بزرگ می توان از انیمیشن برای گنجاندن ابعاد زمانی در نقشه ها استفاده کرد انیمیشن

Dheeraj Savala / مجوز MIT

فرآیند تجسم کلان داده ها به شدت به رویه های محاسباتی فشرده متکی است، که ما را ملزم می کند تا در هماهنگی نزدیک با رایانه هایمان کار کنیم. برای تسهیل این فرآیند، تجسم کلان داده اغلب به صورت اکتشافی، تعاملی با رابط‌ها و نرم‌افزارهایی انجام می‌شود که کاربر را قادر می‌سازد تا به سرعت یک سری تحلیل‌های اکتشافی را از طریق تجسم جنبه‌های مختلف یک مجموعه داده انجام دهد (به تحلیل داده‌های فضایی اکتشافی مراجعه کنید (آینده )  و طراحی UI/UX). این رابط ها را می توان برای یک پروژه خاص سفارشی ساخت یا برای استفاده با داده های بزرگ طراحی کرد. نمونه ای از چنین پروژه ای imMens است، یک سیستم مبتنی بر مرورگر که به کاربران اجازه می دهد میلیون ها نقطه داده چند متغیره را در یک محیط تعاملی و بلادرنگ کاوش کنند (Liu, Jiang, & Heer, 2013). برای فعال کردن این کار، سیستم تجسم‌ها را به روشی شبیه به مجموعه‌های نقشه وب (نگاه کنید به نقشه‌برداری وب ) از قبل محاسبه می‌کند و محاسبات را به صورت موازی انجام می‌دهد تا مطمئن شود رایانه می‌تواند با کاربر «همراه باشد» (به برنامه‌نویسی موازی و برنامه‌های GIS ، آینده مراجعه کنید).). نرم‌افزار معمولی‌تر و آماده‌شده نیز برای فعال کردن تجسم داده‌های بزرگ اقتباس شده است. به عنوان مثال، ArcGIS اکنون از هر دو رندر GPU و پردازش موازی استفاده می‌کند و زبان‌های رایج علم داده (به عنوان مثال، Python و R) محیط‌های نویسندگی را برای تجسم تعاملی و پیوند تنگاتنگ تجزیه و تحلیل و تجسم فراهم می‌کنند (نگاه کنید به Jupyter Notebooks ، آینده ).

رابط نرم افزار داده های بزرگ تعاملی اکتشافی

شکل 3: نمونه ای از یک رابط نرم افزاری تعاملی و اکتشافی که داده های بزرگ را تجسم می کند (چن و همکاران، 2016). این امکان کشف الگوهای حرکتی در داده‌های رسانه‌های اجتماعی را از طریق کاهش داده‌ها (مثلاً فیلتر کردن) و استراتژی‌های تجسم (مثلاً مشاهده‌های مرتبط چندگانه) فراهم می‌کند. تکثیر شده با اجازه ( https://vis.pku.edu.cn/trajectoryvis/en/weibogeo.html ).

واضح است که تعامل صاف بین کاربر و رایانه برای به دست آوردن بینش از تجسم داده های بزرگ بسیار مهم است. بنابراین، رویکردهای تجسم کلان داده‌ها نباید منحصراً بر عملکرد، جنبه‌های محاسباتی پردازش داده‌ها یا چالش‌های بصری خاص متمرکز شوند، بلکه باید بر رابط مؤثر و طراحی تجربه تمرکز کنند (به طراحی و ارزیابی UI/UX و کاربردپذیری مراجعه کنید ). به این ترتیب، تجسم داده‌های بزرگ لزوماً پشتوانه (محاسبات) و جلو (تجسم) نقشه‌نگاری را در یک جفت محکم ترکیب می‌کند، که در آن انسان و رایانه با هم کار می‌کنند تا بینش جدیدی از داده‌ها ایجاد کنند.

 

منابع: 

Arribas-Bel، D. (2014). تصادفی، باز و همه جا: منابع داده در حال ظهور برای درک شهرها. جغرافیای کاربردی ، 49 ، 45-53. DOI:  10.1016/j.apgeog.2013.09.012

بن اشنایدرمن. (2014). تصویر بزرگ برای داده های بزرگ: تجسم Science , 343 (6172), 730-730. DOI: 10.1126/science.343.6172.730-a

Boyd, D., & Crawford, K. (2012). سوالات مهم برای داده های بزرگ اطلاعات، ارتباطات و جامعه ، 15 (5)، 662-679. DOI:  10.1080/1369118X.2012.678878

Chen, S., Yuan, X., Wang, Z., Guo, C., Liang, J., Wang, Z., et al. (2016). کشف بصری تعاملی الگوهای حرکتی از داده‌های رسانه‌های اجتماعی با برچسب جغرافیایی پراکنده. IEEE Transactions on Visualization and Computer Graphics ، 22 (1)، 270-279. DOI:  10.1109/TVCG.2015.2467619

کرامپتون، جی دبلیو، گراهام، ام.، پورتویس، ا.، شلتون، تی.، استفنز، ام.، ویلسون، ام وات، و زوک، MA (2013). فراتر از برچسب جغرافیایی: قرار دادن “داده های بزرگ” و استفاده از پتانسیل geoweb. نقشه برداری و علم اطلاعات جغرافیایی ، 40 (2)، 130-139. DOI: 10.1080/15230406.2013.777137

Dang، TN، Wilkinson، L.، & Anand، A. (2010). انباشتن عناصر گرافیکی برای جلوگیری از ترسیم بیش از حد. IEEE Transactions on Visualization and Computer Graphics ، 16 (6)، 1044-1052. DOI: 10.1109/TVCG.2010.197

DiBiase، D. (1990). تجسم در علوم زمین. زمین و علوم معدنی ، 59 (2)، 13-18.

دیبولد، اف ایکس (2012). دیدگاه شخصی در مورد منشاء(ها) و توسعه “داده های بزرگ”: پدیده، اصطلاح، و رشته، نسخه دوم. مجله الکترونیکی SSRN . DOI: 10.2139/ssrn.2202843

فاکس، پی، و هندلر، جی (2011). تغییر معادله در تجسم داده های علمی. علوم ، 331 (6018)، 705-708. DOI: 10.1126/science.1197654

Goodchild، MF (2007). شهروندان به عنوان حسگر: دنیای جغرافیای داوطلبانه جئوژورنال ، 69 (4)، 211-221. DOI: 10.1007/s10708-007-9111-y

گراهام، ام.، و شلتون، تی (2013). جغرافیا و آینده داده های بزرگ، داده های بزرگ و آینده جغرافیا. گفتگوها در جغرافیای انسانی ، 3 (3)، 255-261. DOI: 10.1177/2043820613513121

هولتن، دی، و ون ویک، جی جی (2009). بسته‌بندی لبه‌های اجباری برای تجسم نمودار. انجمن گرافیک کامپیوتری ، 28 (3)، 983–990. DOI: 10.1111/j.1467-8659.2009.01450.x

کیچین، RM (2013). داده های بزرگ و جغرافیای انسانی: فرصت ها، چالش ها و خطرات گفتگوها در جغرافیای انسانی ، 3 (3)، 262-267. DOI: 10.1177/2043820613513388

کیچین، RM (2014). کلان داده، معرفت شناسی های جدید و تغییرات پارادایم. کلان داده و جامعه ، 1 (1)، 1-12. DOI:  10.1177/2053951714528481

کیچین، RM، و مک آردل، جی. (2016). چه چیزی Big Data، Big Data را می سازد؟ بررسی ویژگی‌های هستی‌شناختی ۲۶ مجموعه داده. Big Data & Society , 3 (1), 205395171663113. DOI: 10.1177/2053951716631130

کراک، ام.-جی. (1988). تکنیک های تصویربرداری سه بعدی کارتوگرافی به کمک کامپیوتر (پایان نامه دکتری). انتشارات دانشگاه دلفت، دلفت.

کرژیوینسکی، ام.، بیرول، آی.، جونز، اس جی، و مارا، MA (2012). طرح‌های کندو-رویکرد منطقی برای تجسم شبکه‌ها. خلاصه در بیوانفورماتیک ، 13 (5)، 627-644. DOI: 10.1093/bib/bbr069

Kumar, S., Morstatter, F., & Liu, H. (2014). تجزیه و تحلیل داده های توییتر. نیویورک، نیویورک: اسپرینگر نیویورک. DOI: 10.1007/978-1-4614-9372-3

Kraak، MJ، و Kveladze، I. (2017). روایت مکعب فضا-زمان مشروح شده-بازبینی یک رویداد تاریخی. مجله نقشه ها ,  13 (1), 56-61. DOI:  10.1080/17445647.2017.1323034

Laney, D. (2001). مدیریت داده های سه بعدی: کنترل حجم، سرعت و تنوع داده ها. بازیابی شده در 29 اوت 2015، از https://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Manageme…

لیو، زی، جیانگ، بی، و هیر، جی (2013). imMens: جستجوی بصری در زمان واقعی از داده های بزرگ. انجمن گرافیک کامپیوتری ، 32 (3)، 421–430. DOI: 10.1111/cgf.12129

نوست، ای.، روزنفلد، اچ.، وینسنت، ک.، مور، SA، و راث، RE (2017). HazMatMapper: یک ابزار تجسم جغرافیایی آنلاین و تعاملی برای کاوش در جریان های فراملی زباله های خطرناک و عدالت زیست محیطی. مجله نقشه ها ، 13 (1)، 14-23. DOI: 10.1080/17445647.2017.1282384

پورتویس، ا.، و زوک، MA (2017). کوچک کردن داده های بزرگ: استراتژی هایی برای گسترش تحقیقات شهری و جغرافیایی با استفاده از رسانه های اجتماعی. مجله فناوری شهری ، 36 ، 1–21. DOI: 10.1080/10630732.2017.1335153

پورتویس، آ.، زوک، MA، شلتون، تی، گراهام، ام.، و استفنز، ام. (2015). استفاده از داده های اجتماعی دیجیتال دارای برچسب جغرافیایی در تحقیقات جغرافیایی. در N. Clifford, S. French, M. Cope, & S. Gillespie (Eds.), Key Methods in Geography (ویرایش سوم).

رابینسون، AC، Demšar، U.، Moore، AB، باکلی، A.، Jiang، B.، Field، K.، و همکاران. (2017). داده‌های بزرگ جغرافیایی و نقشه‌برداری: چالش‌ها و فرصت‌های تحقیقاتی برای ساختن نقشه‌های مهم مجله بین المللی کارتوگرافی ، 18 (5)، 1-29. DOI: 10.1080/23729333.2016.1278151

ساریکایا، AT (2017). طرح های هدف گذاری تجسم های خلاصه اکتشافی مقیاس پذیر (پایان نامه دکتری). دانشگاه ویسکانسین – مدیسون، مدیسون، WI.

ژائو، بی، و سوئی، دی‌زی (2017). دروغ های واقعی در داده های بزرگ جغرافیایی: تشخیص جعل موقعیت مکانی در رسانه های اجتماعی. Annals of GIS , 23 (1)، 1-14. DOI: 10.1080/19475683.2017.1280536

Zook, MA, Barocas, S., boyd, D., Crawford, K., Keller, E., Gangadharan, SP, et al. (2017). ده قانون ساده برای تحقیق مسئولیت پذیر کلان داده. PLoS Computational Biology , 13 (3), e1005399. DOI: 10.1371/journal.pcbi.1005399

Zwitter, A. (2014). اخلاق کلان داده کلان داده و جامعه ، 1 (2)، 1-6. DOI: 10.1177/2053951714559253

اهداف یادگیری: 
  • ویژگی های داده های بزرگ و تفاوت های بین داده های کوچک و داده های بزرگ را شرح دهید.
  • توضیح دهید که چگونه می توان از تجسم داده های بزرگ جغرافیایی در دو حالت مختلف استفاده کرد: برای ارتباط بصری و تفکر بصری.
  • یک تجسم کلان داده را با توجه به چگونگی غلبه بر چالش های محاسباتی، بصری و اخلاقی نقد کنید.
  • ارزیابی کنید که چگونه تجسم ممکن است برای تولید دانش جدید از یک مجموعه داده (بزرگ) به کار گرفته شود
  • یک تصویرسازی برای کاوش و تجزیه و تحلیل داده های بزرگ ایجاد کنید
سوالات ارزشیابی آموزشی: 
  1. لیستی از مجموعه داده های مختلف به شما داده شده است. با استفاده از ویژگی های داده های بزرگ که در بخش 1 مورد بحث قرار گرفت، هر مجموعه داده را ارزیابی کنید و در مورد اینکه آیا می توان آن را “بزرگ” یا “کوچک” در نظر گرفت، بحث کنید.
  2. اخلاق و حریم خصوصی (باید) در هر پروژه نقشه برداری نقش داشته باشد. اما چرا این موضوع هنگام تجسم کلان داده مهم است؟ نمونه‌های اخیر پروژه‌های تجسم را که مسائل مربوط به اخلاق داده‌ها را آشکار می‌کنند، شناسایی و مورد بحث قرار دهید.
  3. “کوچک کردن داده های بزرگ” می تواند یک شعار مهم برای جلوگیری از تجسم “هیربال” باشد. مجموعه ای از تجسم داده های بزرگ به شما داده شده است که بسیار پیچیده هستند. استراتژی های کاهش داده را که می تواند اثربخشی هر تصویرسازی را بهبود بخشد، شناسایی کنید.
  4. مجموعه داده های بزرگی شامل چندین میلیون رکورد به شما ارائه شده است که هر کدام شامل چندین متغیر مکانی، زمانی و سایر متغیرها است (مثلاً خط هوایی به موقع/تأخیر منتشر شده توسط DOT ( https://www.transtats.bts.gov/ OT_Delay/OT_DelayCause1.asp)) . الزامات یک رابط که می تواند به شما در کشف و تجزیه و تحلیل این مجموعه داده کمک کند را مشخص کنید. بسته‌های نرم‌افزاری موجود (مانند ArcGIS، QGIS، R، Python) را در برابر این الزامات ارزیابی کنید و در مورد استفاده بالقوه از یک پلت‌فرم سفارشی بحث کنید.

 

منابع اضافی: