توسعه معیار داده‌های بزرگ رستری: مقایسه تحلیل شطرنجی بر روی پلت‌فرم‌های کلان داده

خلاصه

فناوری‌ها در سرتاسر جهان داده‌های مکانی را فوراً تولید می‌کنند و با آن‌ها تعامل دارند، از برنامه‌های کاربردی وب تلفن همراه گرفته تا تصاویر ماهواره‌ای که روزانه در سراسر جهان جمع‌آوری و پردازش می‌شوند. داده‌های شطرنجی بزرگ به محققان اجازه می‌دهد تا دانش جدید در مورد الگوها و فرآیندهای جغرافیایی را ادغام و کشف کنند. با این حال، ما در یک لحظه حساس هستیم، زیرا تعداد پلتفرم‌های کلان داده در حال افزایشی داریم که برای پشتیبانی از تحلیل فضایی انتخاب می‌شوند. یک شکاف در ادبیات فقدان یک ارزیابی قوی برای مقایسه کارایی تجزیه و تحلیل داده‌های شطرنجی بر روی پلتفرم‌های کلان داده است. این تحقیق پرداختن به این موضوع را با ایجاد یک معیار داده شطرنجی آغاز می‌کند که از مجموعه داده‌های قابل دسترسی آزاد استفاده می‌کند تا یک ارزیابی عملکرد جامع و مقایسه عملیات شطرنجی بر روی پلت‌فرم‌های کلان داده ارائه دهد. این معیار برای ارزیابی عملکرد عملیات فضایی بر روی پلتفرم های کلان داده حیاتی است. مجموعه داده ها و عملیات محک زدن در سه پلتفرم کلان داده اعمال می شود. ما زمان‌های محاسباتی و تنگناهای عملکرد را گزارش می‌کنیم تا دانشمندان GIS بتوانند انتخاب‌های آگاهانه‌ای در مورد عملکرد هر پلتفرم داشته باشند. هر پلتفرم برای پنج عملیات شطرنجی ارزیابی می‌شود: تعداد پیکسل، طبقه‌بندی مجدد، افزودن شطرنجی، میانگین‌گیری کانونی و آمار منطقه‌ای با استفاده از سه مجموعه داده شطرنجی مختلف.

کلید واژه ها:

جغرافیایی ; محاسبه ; معیار فضایی ; سایبرگیس

1. معرفی

ما در عصر داده های شطرنجی بزرگ هستیم. Planet که قبلاً Planet Labs نام داشت دارای مجموعه ای متشکل از 200 ماهواره است که روزانه 1.4 میلیون تصویر را جمع آوری می کند [ 1 ]. تصاویر ماهواره‌ای یا داده‌های رصد زمین سالانه پتابایت داده تولید می‌کنند، و سازمان‌هایی مانند پانل بین‌دولتی تغییرات آب و هوا (IPCC) مجموعه‌های داده شطرنجی شبیه‌سازی‌شده‌ای را تولید می‌کنند که چندین پتابایت هستند [2 ] .

حجم داده‌های موجود برای محققان زمین‌فضایی در حال رشد است، با این حال ما مجموعه‌ای استاندارد از ابزارها و بهترین شیوه‌ها برای دسترسی، دستکاری، و انجام تحلیل‌ها بر روی داده‌های بزرگ جغرافیایی نداریم. در حال حاضر، محققان در حال توسعه راه‌های جدیدی برای دانلود داده‌ها در ایستگاه‌های کاری خود برای انجام تحلیل‌های خود هستند. اتکا به این گردش کار، توانایی مقیاس‌سازی تحلیل‌های مکانی در مجموعه داده‌های بزرگ را کاهش می‌دهد. با این حال، لازم است زیرا داده های مکانی متفاوت است. مقادیر داده های مکانی به صورت مجزا رخ نمی دهند و این مقادیر باید در زمینه مقادیر همسایه خود در نظر گرفته شوند. تحقیق ما بررسی می‌کند که آیا پلتفرم‌های کلان داده که از داده‌های مکانی پشتیبانی می‌کنند، هزینه‌های عملکرد محاسباتی متفاوتی را برای حفظ آن روابط متحمل می‌شوند یا خیر.

1.1. داده های بزرگ جغرافیایی

GIScience فناوری جدیدی را برای پشتیبانی از حل مسائل جغرافیایی انتخاب کرده است. به طور خاص، ظهور پلت فرم های توزیع شده، محاسبات فضایی موازی را تسهیل کرده است. به طور کلی، در حال حاضر سه نوع معماری داده‌های بزرگ وجود دارد که از داده‌های مکانی بزرگ پشتیبانی می‌کنند: پایگاه‌های داده موازی، پایگاه‌های داده No-SQL، و خانواده پلتفرم‌های مبتنی بر Hadoop که کاهش نقشه را در حافظه (Spark) یا روی دیسک (Hadoop) پیاده‌سازی می‌کنند. . هاینز [ 3 ] شرح کاملی از معماری های پلتفرم ارائه می دهد که از داده های شطرنجی از جمله PostgreSQL، SciDB، RasDaMan، Hadoop-GIS، SparkArray و GeoTrellis پشتیبانی می کنند.

در حالی که تعدادی پلتفرم وجود دارند که از داده های شطرنجی پشتیبانی می کنند، شواهد کمی برای توصیف قابلیت ها و عملکرد اپراتورهای تجزیه و تحلیل فضایی بر روی پلت فرم های کلان داده وجود دارد. این مشکل ساز است زیرا نیاز است که جامعه GIScience بتواند از این پلتفرم ها برای پردازش داده های شطرنجی بزرگ استفاده کند. از نظر تئوری، مجموعه داده هایی که در حافظه قرار می گیرند باید با پلتفرم های درون حافظه مانند Apache Spark عملکرد خوبی داشته باشند. با این حال، مقالات اخیر نشان داده‌اند که عملیات فضایی و مکانی به عملکرد بهینه بر روی پلت‌فرم‌های مختلف می‌رسند [ 4 ، 5]]. عملکرد عملیات شطرنجی به اندازه کافی در جامعه کلان داده پرداخته نشده است. در عوض، ادبیات پیرامون پلتفرم‌های داده شطرنجی بزرگ دارای سه موضوع است: (1) پیاده‌سازی جدید، (2) پیاده‌سازی علم حوزه، و (3) بررسی‌های فراخوان.

1.2. پیاده سازی های رمان

مشخصه‌های پیاده‌سازی جدید، گسترش یک پلتفرم جدید برای پشتیبانی از داده‌ها و روش‌های مکانی است. نمونه هایی از این پالاموتام [ 6 ] و وانگ [ 7 ] هستند که کتابخانه های آرایه ای چند بعدی را برای آپاچی اسپارک توسعه دادند. لی و همکاران [ 8 ]، FASTDB، یک پایگاه داده آرایه توزیع شده را توسعه دادند. سایر گروه های تحقیقاتی SciDB را برای حمایت از تحلیل فضایی گسترش داده اند [ 9 ، 10 ، 11 ]. این مقالات بر مشکلات خاص تمرکز دارند، موارد استفاده کوچکی دارند و بر روی مجموعه داده‌های خاص پیاده‌سازی می‌شوند. در مقایسه با یک معیار، پیاده سازی آنها بسیار خاص است و نمی تواند توسط جامعه گسترده تر ترجمه یا اتخاذ شود.

1.3. پیاده سازی علوم دامنه

پیاده سازی های علم دامنه بر توسعه یک گردش کاری فضایی در یک پلت فرم داده های بزرگ تمرکز دارند. این کار یک نیاز حیاتی در ادبیات را برآورده می‌کند زیرا کاربرد کلی پلتفرم را نشان می‌دهد [ 12 ، 13 ، 14 ، 15 ]. در حالی که این مقالات به طور گسترده برای درک توانایی یک پلتفرم خاص مفید هستند، در مقایسه با یک معیار، توانایی آنها برای مقایسه گردش کار در بین پلتفرم ها محدود است.

1.4. بررسی های متا

بررسی‌های متا پلتفرم‌ها و قابلیت‌های آنها را مورد بحث قرار می‌دهند [ 16 ، 17 ، 18 ، 19 ، 20 ]. این مقالات به سمت گسترده‌ترین جوامع متمرکز شده‌اند و بر قابلیت‌های پلتفرم تمرکز دارند نه عملکرد پلت فرم. آنها جهت ها و روندهایی را که در افق هستند توصیف می کنند و نشان می دهند که چگونه اتخاذ آنها می تواند اهداف بزرگتری را در جامعه گسترده تر برآورده کند. با این حال، این موارد نیز در مقایسه با یک معیار محدود هستند زیرا هیچ نتیجه ای برای مقایسه سیستم های مختلف ارائه نمی دهند.

1.5. نیاز به یک معیار جغرافیایی

یک شکاف در جامعه محاسباتی با عملکرد بالا، فقدان یک معیار شطرنجی است که امکان ارزیابی عملگرهای فضایی را در سراسر پلتفرم‌ها فراهم می‌کند. Ray و همکاران [ 21 ] یک معیار “Jackpine” برای داده های برداری ایجاد کردند. Jackpine نه عملیات تحلیل فضایی و پنج رابطه توپولوژیکی را روی سه نوع داده برداری اجرا کرد: نقطه، خطوط و چند ضلعی. رابل و همکارانش [ 22 ] محک زدن را برای پایگاه داده های آرایه ای پیاده سازی کردند اما فقط بارگذاری داده ها و عملگرهای زیرمجموعه آرایه را آزمایش کردند. بنابراین، یک معیار فضایی برای آزمایش عملگرهای شطرنجی مورد نیاز است. این معیار با ارائه مجموعه داده‌های مرجع و روش‌هایی که محققان می‌توانند برای مقایسه استفاده کنند، به جامعه مکانی کمک می‌کند.

این تحقیق در جهت ایجاد یک معیار شطرنجی کار خواهد کرد که ابزاری برای مقایسه دقیق عملکرد تحلیل فضایی شطرنجی بر روی داده های بزرگ فراهم می کند. معیار ما عملکرد عملیات محلی، کانونی و منطقه ای را در هر پلت فرم بررسی می کند. در حالی که آزمایش هر عملیات بالقوه غیرممکن است، معیار ما پنج اپراتور را بررسی می کند که موارد استفاده گسترده ای دارند. علاوه بر این، معیار عملکرد سیستم را با ویژگی های حجم و تنوع ارزیابی می کند.

معیار جغرافیایی بینش هایی را در مورد پیچیدگی انجام تجزیه و تحلیل فضایی داده های بزرگ ارائه می دهد. این معیار برای (1) شناسایی مسائل مربوط به عملکرد اپراتور، (2) تعیین اینکه آیا دلایل زمینه‌ای مربوط به معماری یا پیاده‌سازی است یا خیر، و (3) شناسایی مناطقی که در آن تحقیقات مورد نیاز است، مورد نیاز است.

2. Raster Big Data Benchmark

معیارها به عنوان مجموعه داده، پلت فرم(ها) و مجموعه ای از عملیات تعریف می شوند. تعریف معیار شطرنجی مشابه است. ابتدا مجموعه داده را با یک وسعت فضایی ثابت تعریف می کنیم. از آنجایی که هیچ مقاله منتشر شده قبلی در مورد معیارهای شطرنجی وجود ندارد، ما از مجموعه داده های متعدد با وضوح فضایی افزایش یافته برای تعیین عملکرد هر پلت فرم استفاده کردیم. ما از سه پلتفرم مختلف در این تحلیل استفاده کردیم و سه مورد از عملیات فضایی اصلی مورد استفاده در تحلیل‌های شطرنجی را به کار بردیم. ما سه پلتفرم کلان داده را انتخاب کردیم که در ادبیات مستند شده اند و از معماری های مختلف استفاده می کنند. سه پلتفرم انتخاب شده PostGIS در PostgreSQL، SciDB و GeoTrellis در Apache Spark هستند.

2.1. داده ها

ما از سه مجموعه داده مختلف در تجزیه و تحلیل خود استفاده کردیم ( جدول 1 ). هر یک از این مجموعه داده‌های در دسترس عموم به گستره فضایی قاره ایالات متحده بریده شد. هر مجموعه داده مورد استفاده در این تجزیه و تحلیل از طبقه‌بندی‌های کاربری زمین/پوشش زمین از قبل تعریف شده استفاده می‌کند. آنها به دلیل در دسترس بودن و استفاده گسترده آنها در برنامه های کاربردی جغرافیایی انتخاب شدند. ما سه مجموعه داده مختلف را انتخاب کردیم که نشان دهنده افزایش سطح دانه بندی فضایی است. جدول 1 تعداد پیکسل های موجود در هر مجموعه داده را گزارش می کند. جدول 1 باید توسط محققان زمین فضایی به عنوان راهنمایی برای مقایسه پروژه خود و تعیین سطوح عملکردی که باید بر اساس پلت فرمی که انتخاب کرده اند، مورد استفاده قرار گیرد.

برای محک زدن عملیات منطقه ای، ما همچنین سه مجموعه داده برداری از قاره ایالات متحده را گنجانده ایم. ما از مرزهای نقشه برداری ایالت، شهرستان و سرشماری از ایالات متحده استفاده کردیم ( جدول 2 ). همه مجموعه‌های داده دارای وسعت مکانی یکسان هستند و تنها تفاوت آنها در تعداد ویژگی‌های موجود در مجموعه داده است. GeoTrellis فایل‌های شکل را نمی‌خواند، بنابراین مجموعه داده‌ها به نمادگذاری شی جاوا اسکریپ جغرافیایی (GeoJSON) تبدیل شدند.

2.2. پارتیشن بندی فضایی

مانند تمام پلتفرم های کلان داده، پارتیشن بندی داده ها یک مرحله مهم و ضروری است. پارتیشن بندی داده ها، به ویژه، برای پلتفرم های کلان داده بسیار مهم است، زیرا یکی از راه های تنظیم پلت فرم با سخت افزار و داده است. در این تحقیق، ما پلتفرم ها را با استفاده از مجموعه ای تعریف شده از اندازه های پارتیشن داده تنظیم کردیم. اصطلاح اندازه کاشی برای تعیین طرح پارتیشن بندی شطرنجی استفاده می شود. اندازه کاشی 50 به این معنی است که 2500 پیکسل (50 × 50) در یک پارتیشن از داده ها وجود دارد. اندازه‌های کاشی در سراسر پلتفرم‌ها برای مقایسه عملکرد استاندارد شدند. هر پلت فرم در یک سری از اندازه‌های کاشی که بهینه یا کمتر از حد مطلوب بود، ارزیابی شد. همه پلتفرم‌ها با تمام اندازه‌های کاشی مقایسه نشدند، به دلیل مشکلات بارگذاری داده‌ها.

2.3. عملیات فضایی

تجزیه و تحلیل ما بر سه دسته از عملیات شطرنجی متمرکز است: محلی، کانونی و ناحیه ای. جدول 3 شرحی از نحوه ترجمه و اجرای هر پلت فرم و عملگرهای فضایی آن بر روی مجموعه داده داده شده ارائه می دهد. دو نوع ارزیابی وجود دارد: تنبل و مشتاق. ارزیابی مشتاق، که از لحاظ تاریخی رایج‌تر بوده است، اپراتوری است که تجزیه و تحلیل را بر روی مجموعه داده انجام می‌دهد. پلتفرم‌های جدیدتر از ارزیابی تنبلی استفاده می‌کنند که تنها زمانی روی داده‌ها عمل می‌کند که نتیجه آن عملیات مورد نیاز باشد. با این حال، این باعث می شود مقایسه بین پلتفرم هایی با ارزیابی های مختلف پیچیده شود. بنابراین، هنگامی که یک پلتفرم تنبل ارزیابی می‌شود، یک مرحله اضافی، تعداد پیکسل‌ها را اضافه می‌کنیم که ارزیابی را مجبور به تکمیل می‌کند. روش مشتاق برای اطمینان از سازگاری در بین پلتفرم های داده استفاده شد.

2.4. عملیات محلی

عملیات شطرنجی محلی بدون اشاره به سلول های اطراف آنالیز را بر روی هر سلول به صورت جداگانه انجام می دهد. این نوع عملیات خود را به موازی سازی می رساند زیرا مجموعه داده پس از تقسیم بندی می تواند به طور مستقل بر روی آن کار کند. در معیار خود، از تعداد پیکسل، طبقه‌بندی مجدد و افزودن شطرنجی استفاده کردیم. در حالی که عملیات محلی بر روی یک سلول به صورت جداگانه عمل می کنند، آنها بر روی کل مجموعه داده عمل می کنند.

2.4.1. تعداد پیکسل

عملیات شمارش پیکسل، تعداد وقوع یک مقدار پیکسل معین را در یک شطرنجی برمی گرداند. این تابع مبنایی برای هر تابع هیستوگرام مانند است که در آن مجموعه داده باید طی شود و اطلاعات مربوط به مقادیر سلولی که تعریف شده اند جمع آوری شود. شناسایی پیکسل ها بر اساس ارزش برای تجزیه و تحلیل تغییر پوشش زمین از اهمیت ویژه ای برخوردار است. علاوه بر این، ما از این روش استفاده کردیم زیرا به ما اجازه می‌دهد یک روش استاندارد شده برای وادار کردن عملیات‌های ارزیابی‌شده تنبلی برای مشتاق شدن در سراسر پلتفرم‌ها به ما امکان دهد.

در این برنامه، هر مقدار پیکسل یک نوع پوشش زمین را نشان می دهد و این عملیات تعداد دفعاتی که این مقدار رخ می دهد را برمی گرداند. از آنجایی که تابع باید کل مجموعه داده را طی کند، زمانی که یک مقدار پیکسل در مجموعه داده مکرر یا نادر باشد، هیچ افزایش یا ضرر عملکردی وجود ندارد.

2.4.2. طبقه بندی مجدد

طبقه‌بندی مجدد پیکسل‌های یک مقدار معین را شناسایی می‌کند و آنها را به مقدار جدیدی که توسط کاربر مشخص شده تغییر می‌دهد. طبقه بندی مجدد یک مورد خاص از جبر نقشه است که در آن یک مقدار پیکسل ارزیابی می شود و سپس با یک مقدار جدید جایگزین می شود. دو امکان برای عملگرهای طبقه بندی مجدد در PostGIS (1) عملگر جبر نقشه و (2) عملگر طبقه بندی مجدد وجود دارد. ما به طور تجربی عملگرهای ST_Reclassify و ST_MapAlgebra را مقایسه کردیم و مشخص کردیم که ST_Reclassify عملگر سریع‌تر است. هر دو GeoTrellis و SciDB در مورد تفاوت بین طبقه‌بندی مجدد و جبر نقشه نادیده‌انگیز هستند. اجرای مجدد طبقه‌بندی ما در GeoTrellis از تابع محلی if استفاده می‌کند. پیاده‌سازی طبقه‌بندی مجدد SciDB یک عبارت «اگر-پس-دیگر» است. عملگر شمارش پیکسل پس از طبقه بندی مجدد برای SciDB و GeoTrellis نامیده شد.

2.4.3. افزودن شطرنجی

افزودن رستر یک عملیات جبر نقشه است. دو رستر را به عنوان ورودی می گیرد و مقادیر هر سلول را اضافه می کند و سپس یک رستر جدید برمی گرداند. در مطالعه ما، مجموعه داده‌ها شطرنجی تک باندی بودند و ما از همان مجموعه داده‌های شطرنجی اول و دوم استفاده کردیم. افزودن شطرنجی در GeoTrellis و SciDB با تنبلی ارزیابی می‌شود، بنابراین تابع شمارش پیکسل برای ارزیابی اجباری فراخوانی شد. تابع افزودن شطرنجی توانایی هر پلتفرم را برای پیوستن به این مجموعه داده های بزرگ و برگرداندن یک مقدار آزمایش می کند.

2.5. عملیات کانونی

توابع کانونی با توابع محلی تفاوت دارند زیرا مقادیر خروجی تحت تأثیر سلول های اطراف قرار می گیرند. یک هسته یا پنجره برای تعیین اندازه تجزیه و تحلیل یا تعداد پیکسل های مجاور مورد نیاز برای تعیین مقدار خروجی استفاده می شود. عملیات کانونی عمدتاً در محاسباتی که شامل هموارسازی یا درون یابی هستند استفاده می شود. به عنوان مثال، حذف پیکسل های گیاهی از یک مدل ارتفاعی دیجیتالی زمین برهنه [ 23 ]. علاوه بر این، عملگرهای کانونی پیچیده هستند زیرا اگر مجموعه داده توزیع شود، اپراتور باید کاشی‌ها و پیکسل‌های مجاور را پیدا کند.

2.6. عملیات منطقه ای

توابع منطقه‌ای، به‌ویژه خلاصه‌های چند ضلعی، تجزیه و تحلیل پیچیده‌ای هستند زیرا شامل مجموعه داده‌های شطرنجی و برداری هستند. مناطق نامنظم فضایی (یعنی جزایر هاوایی) منجر به افزایش پیچیدگی می شود. بنابراین، هنگامی که یک محاسبه برای یک منطقه خاص اعمال می شود، تنها یک زیر مجموعه از مجموعه داده باید پردازش شود. دینگ و دشام [ 24 ] این مشکل را به صورت سست-همگام تعریف می کنند. برای معیار، مفهوم خلاصه های چند ضلعی مجموعه داده های شطرنجی را آزمایش کردیم. هر مجموعه داده برداری شامل چند ضلعی و چند ضلعی در مقیاس های کاهشی (مثلاً ایالت ها، شهرستان ها و بخش ها) بود. اپراتورها مقدار حداقل، حداکثر و میانگین را در هر منطقه محاسبه کردند.

3. مقایسه پلت فرم داده های بزرگ

3.1. توضیحات پلت فرم

بسیاری از ادبیاتی که بهبودهایی را در پلتفرم‌های کلان داده ایجاد می‌کنند، از سفارشی‌سازی استفاده می‌کنند، مانند توسعه روش‌های اضافی یا تنظیم نرم‌افزار برای پشتیبانی از سخت‌افزار خاص. رویکرد ما از این جهت متفاوت است که بر توسعه یک معیار جغرافیایی برای تحلیل فضایی تمرکز می‌کنیم. سپس معیار را بر روی پلتفرم ها اعمال می کنیم و توانایی آنها را برای انجام تحلیل های فضایی ارزیابی می کنیم.

3.1.1. PostGIS 2.4 (PostgreSQL 9.6)

PostgreSQL یک پایگاه داده رابطه ای است که از زمان انتشار اولیه PostGIS در سال 2001 از انواع داده های مکانی پشتیبانی می کند. نوع داده شطرنجی به عنوان یک نوع داده رسمی PostGIS در سال 2012 اضافه شد. یک مجموعه داده شطرنجی، پس از بارگذاری در PostgreSQL، یک نمایش جدول متشکل از دو را فرض می کند. ستون ها: RID و Raster. ستون RID یک کلید اولیه است و ستون شطرنجی حاوی داده‌های مقدار پیکسل باینری است که در شی بزرگ باینری (BLOB) ذخیره می‌شود و فقط با استفاده از توابع شطرنجی PostGIS قابل دسترسی است.

3.1.2. SciDB 16.9

SciDB یک پایگاه داده آرایه چند بعدی منبع باز است که توسط دکتر مایکل استون بریکر طراحی شده است [ 12 ، 25 ]. توسعه آن توسط این مفهوم تحریک شد که بسیاری از مجموعه داده های علمی دارای ساختارهای آرایه مانند هستند، و هزینه هایی برای بازسازی مجموعه داده ها وجود دارد تا به عنوان آرایه در یک پایگاه داده رابطه ای باقی بمانند. پلتفرم SciDB از آرایه‌ها به عنوان ساختار داده اولیه استفاده می‌کند و توسط جامعه جغرافیایی انتخاب شده است [ 11 ، 19 ، 26 ، 27 ]. معماری پردازش موازی انبوه SciDB (پایگاه داده موازی مشترک هیچ چیز) به آن اجازه می دهد تا آرایه های چند بعدی یا تصاویر مکانی را که چندین پتابایت هستند پردازش کند [ 12 ، 25].

SciDB تنها پلتفرم پایگاه داده آرایه ای نیست. RasDaMan، توسعه یافته توسط دکتر پیتر باومن، به طور خاص برای کار با مجموعه داده های شطرنجی طراحی شده است [ 28 ]. ما SciDB را انتخاب کردیم زیرا نسخه جامعه SciDB را می توان به چندین نمونه یا گره گسترش داد، در حالی که فقط نسخه سازمانی RasDaMan از این پشتیبانی می کند. در حال حاضر، SciDB قابلیت های داخلی برای خواندن تصاویر ارجاع شده جغرافیایی ندارد. تلاش‌های جامعه برای افزودن قابلیت‌های مکانی به SciDB رخ داده است، اما هیچ چیزی به طور رسمی تصویب نشده است [ 9 ، 29 ].

3.1.3. GeoTrellis 1.2 (Apache Spark 2.1)

Apache Spark یک محیط محاسباتی توزیع شده با کارایی بالا منبع باز است که در سال 2009 در آزمایشگاه RDAD UC Berkeley آغاز شد. اسپارک آپاچی جزئی از اکوسیستم هدوپ است و در برخی عملیات نشان داده شده است که 20× سریعتر از هادوپ است [ 30 ]. این عملکرد بهبود یافته به این دلیل است که Apache Spark داده ها را در حافظه نگه می دارد و به جای نوشتن روی دیسک مانند Hadoop، عملیات را در حافظه انجام می دهد.

ادبیات رو به رشدی وجود دارد که آرایه های چند بعدی را در آپاچی اسپارک بررسی می کند. وانگ و همکارانش [ 7 ] یک نوع داده آرایه جدید، SparkArray، برای بارگذاری و پردازش داده های شطرنجی پیاده سازی کردند. Doan و همکاران [ 17 ] عملکرد بارگذاری و عملیات زیرمجموعه را بین SciDB و Apache Spark مقایسه کردند. کتابخانه GeoTrellis یکی از اولین کتابخانه هایی است که فراتر از انواع داده های آرایه ساده است، زیرا برای پردازش، تجسم و تجزیه و تحلیل داده های مکانی توسعه یافته است.

GeoTrellis به عنوان یک پروژه تحقیقاتی Azavea در سال 2006 آغاز شد. با این حال، در سال 2013، پروژه GeoTrellis به عضویت بنیاد اکلیپس درآمد و در اسکالا و با استفاده از اسپارک آپاچی به عنوان موتور توزیع و پردازش آن، دوباره توسعه یافت. کتابخانه GeoTrellis مجموعه داده‌های توزیع‌شده انعطاف‌پذیر جفتی (RDD) را برای مجموعه داده‌های فضایی پیاده‌سازی می‌کند، که در آن هر RDD جفت شده به‌عنوان یک جفت کلید و ارزش نشان داده می‌شود. کلید به موقعیت جغرافیایی خاصی از کاشی شطرنجی اشاره دارد و مقدار آن یک ماتریس چند بعدی است.

3.2. سخت افزار

ما از زیرساخت سایبری Extreme Science and Engineering Discovery Environment (XSEDE) برای ارائه منابع محاسباتی برای محیط محاسباتی خود استفاده می کنیم [ 31 ]. XSEDE یک سرمایه گذاری بنیاد ملی علوم است که به درخواست تخصیص محاسباتی با کارایی بالا اجازه می دهد. ابررایانه Wrangler درخواست ما را در دانشگاه ایندیانا انجام داد، که سه گره محاسباتی را اختصاص داد و نرم افزار ما (TG-SES160012) را نصب کرد.

هر نود یک Dell PowerEdge R630 بود، مجهز به دو پردازنده Intel(R) Xeon(R) E5-2680 v3 @ 2.50 GHz، با 12 هسته برای هر Xeon. علاوه بر این، هر گره دارای 128 گیگابایت رم DDR4 با فرکانس 2133 مگاهرتز است. در حالی که هر گره دارای 24 هسته بود، همه زمان های عملکرد از 12 هسته برای SciDB و Apache Spark استفاده می کردند. PostgreSQL در این زمان یک رابطه یک به یک بین پرس و جوها و هسته ها دارد. همه پلتفرم ها از یک باطن Luster برای ذخیره سازی داده های بزرگ استفاده می کنند. نسخه Luster Luster 2.5.5 و Luster Client 2.10.3 بود. یک اختلاف کوچک در سیستم عامل ها وجود داشت، زیرا SciDB 16.9 در آن زمان به درستی برای اجرای CentOS 7 پیکربندی نشده بود. بنابراین، SciDB بر روی سیستم عامل CentOS 6 ساخته شد، در حالی که هر دو Apache Spark و PostgreSQL برای اجرا در یک محیط CentOS7 پیکربندی شده بودند. .

4. نتایج

نتایج مجموعه‌ای از تحلیل‌هایی است که ما برای نشان دادن معیار خود انجام دادیم. نتایج توصیف‌های گسترده‌ای را نشان می‌دهند که کاربران باید در هنگام انجام عملیات فضایی روی پلتفرم‌ها انتظار داشته باشند.

به منظور ارزیابی موثر اثر تنظیم در نتایج، هر اپراتور روی کل مجموعه داده با اندازه‌های کاشی مختلف انجام داد. با تغییر اندازه کاشی در فواصل زمانی مشخص، می توانیم تعیین کنیم که عملکرد بهینه یک پلت فرم خاص در یک مجموعه داده خاص چه زمانی رخ می دهد. طیف کامل اندازه‌های کاشی در هر پلتفرم به دلیل تغییرات حاشیه‌ای در عملکرد و مشکلات بارگذاری داده اعمال نشد. با این حال، ما مجموعه‌ای از اندازه‌های کاشی را شناسایی کردیم که امکان مقایسه منصفانه را در بین پلتفرم‌ها فراهم می‌کند و عملکرد بهینه تحلیل‌های شطرنجی را در پلتفرم‌های کلان داده مشخص می‌کند.

ما میانگین زمان را که از سه آزمایش متوالی تعیین شد، گزارش می‌کنیم. از PostGIS به عنوان خط مبنا برای مقایسه استفاده شد. بنابراین، افزایش سرعت با گرفتن بهترین زمان عملکرد برای PostGIS و مقایسه آن با بهترین زمان عملکرد برای SciDB و GeoTrellis تعیین شد. بهترین زمان عملکرد استفاده شد زیرا این نشان دهنده عملکرد تنظیم شده بهینه برای هر پلتفرم برای هر مجموعه داده است. از آنجایی که تمام پرس و جوهای PostGIS تک هسته ای هستند، افزایش سرعت به ازای هر هسته با تقسیم سرعت بر تعداد پردازنده ها یا نمونه های استفاده شده تعیین شد. برای همه تجزیه و تحلیل ها، این مقدار 12 بود.

4.1. عملیات محلی

4.1.1. تعداد پیکسل

شکل 1 یک مشکل رایج را هنگام تجزیه و تحلیل داده های شطرنجی بر روی پلتفرم های مختلف بدون تست حساسیت گزارش می کند. تنظیم کاشی شطرنجی مخصوص پلتفرم است. شکل 1 نشان می دهد که اندازه کاشی که به خوبی روی یک پلت فرم کار می کند، نباید روی پلت فرم دیگر اعمال شود، زیرا منجر به عملکرد کمتر از حد مطلوب می شود. به عنوان مثال، در شکل 1 ، اندازه کاشی 1000 (1،000،000 پیکسل در هر کاشی) برخی از بدترین زمان های عملکرد را برای PostGIS و GeoTrellis نشان می دهد، در حالی که برای SciDB، عملکرد بسیار خوب است. با کاهش اندازه کاشی، هر دو عملکرد PostGIS و GeoTrellis بهبود می یابند، در حالی که عملکرد SciDB کاهش می یابد.

نتایج عملگر شمارش پیکسل بیشتر در جدول 4 نشان داده شده است . جدول 4 نتایج حاصل از کوچکترین و بزرگترین مجموعه داده ها (یعنی GLC و NLCD) را نشان می دهد – نتایج کامل در جدول S1 مواد تکمیلی گزارش شده است . نتایج جدول 4 نشان می دهد که مجموعه داده GLC (18 میلیون پیکسل) کلان داده نیست. برای پلتفرم‌های کلان داده مانند GeoTrellis یا SciDB، این مجموعه داده کوچکی است و حداقل دستاوردهای عملکردی دارد. با این حال، با افزایش حجم داده ها، عملکرد قابل توجهی در پلتفرم های کلان داده وجود داشت ( جدول 4 ). جدول 5گزارش می دهد که افزایش سرعت در هر هسته (2.49) برای اولین بار توسط SciDB در مجموعه داده مریس (186 میلیون پیکسل) به دست آمد. بهبود SciDB در هر هسته تا 5.7 برابر در هر هسته افزایش یافته است. بهترین عملکردهای GeoTrellis با خواندن های Cached رخ می دهد که در آن داده ها یک بار خوانده شده و در حافظه کش ذخیره می شوند.

4.1.2. طبقه بندی مجدد

نتایج عملگر طبقه بندی مجدد به شدت با عملگر شمارش پیکسل متفاوت است. تابع طبقه بندی مجدد PostGIS بسیار کارآمد عمل کرد و به آن اجازه داد تا از پلتفرم های کلان داده بهتر عمل کند ( شکل 2 ). PostGIS زمان‌های عملکرد سریع‌تری را نسبت به GeoTrellis و SciDB در مجموعه داده GLC گزارش کرد. جدول 6 نشان می دهد که در هنگام استفاده از پلتفرم های کلان داده، تنها حداقل افزایش سرعت عملکرد هر هسته رخ داده است. هنگام بررسی دو مجموعه داده کوچکتر (GLC و MERIS)، زمان محاسبه GeoTrellis کندتر از PostGIS بود، به این معنی که پلت فرم برای استفاده از داده های کوچک جریمه شد ( جدول 6) .). افزایش سرعت با پلتفرم های کلان داده با بزرگترین داده NLCD اتفاق افتاد. با این حال، ما هیچ بهبودی در افزایش سرعت هر هسته برای اپراتور طبقه‌بندی مجدد گزارش نمی‌کنیم.

4.1.3. افزودن شطرنجی

جدول 7 عملکرد عملکرد افزودن شطرنجی را در هر سه پلت فرم توضیح می دهد. نتایج تابع افزودن شطرنجی مشابه نتایج در تعداد پیکسل است. پلتفرم های کلان داده دارای مزیت عملکرد فوق العاده ای نسبت به PostGIS بودند. جدول 7 نشان می دهد که بهترین عملکرد PostgreSQL زمانی رخ می دهد که اندازه کاشی ها بزرگ ترین بودند. با افزایش اندازه کاشی، عملکرد افزایش یافت، اما PostGIS نتوانست با موفقیت به مجموعه داده NLCD در هر اندازه کاشی بپیوندد. این عملیات بیش از 24 ساعت بدون پایان انجام شد. هم SciDB و هم GeoTrellis توانستند به تمام مجموعه داده های شطرنجی بپیوندند، و ما تفاوت هایی را در عملکرد اتصال بین پلتفرم ها پیدا کردیم.

4.2. تحلیل های کانونی

PostGIS در مجموعه داده های کوچک و متوسط (GLC و MERIS) عملکرد خوبی داشت. با این حال، نتوانست محاسبات را بر روی مجموعه داده NLCD (1.69 میلیارد) پیکسل برای هر اندازه کاشی به پایان برساند ( جدول 8 ). برای عملیات کانونی، بهترین عملکرد زمانی رخ می‌دهد که اندازه کاشی در 50 کوچک‌ترین باشد، با افزایش اندازه کاشی، زمان تکمیل پرس و جو افزایش یافت.

عملکرد SciDB در عملیات کانونی چالش برانگیز بود، و ما مقادیر عملکرد کامل را ارائه می دهیم ( جدول مواد تکمیلی S2 ). زمان‌های عملکرد نامنظم در مجموعه داده‌های متراکم بزرگ با اندازه‌های کاشی بیشتر از ۱۵۰۰ × ۱۵۰۰ پیکسل رخ داده است. زمان عملکرد آرایه همپوشانی با استفاده از عملگر کانونی دو برابر سریع‌تر از آرایه استاندارد بود. این کاهش در عملکرد به دلیل شناسایی برنامه‌ریز پرس و جو SciDB است که آرایه برای پیاده‌سازی موازی ساختاری ندارد و یک مرحله تغییر اندازه را آغاز می‌کند که از نظر محاسباتی گران است.

عملکرد GeoTrellis برای عملیات کانونی برتر از SciDB و PostgreSQL است. بهبود عملکرد با مجموعه داده های کوچک و بزرگ مشهود بود. به عنوان مثال، GeoTrellis به یک سرعت 7× در هر هسته در کوچکترین مجموعه داده GLC دست یافت. عملکرد GeoTrellis همچنان به بهبود خود ادامه داد زیرا به 9× سرعت در هر هسته در Meris رسید و NLCD را به پایان رساند. در حالی که عملکرد GeoTrellis نسبت به SciDB چندان زیاد نیست، سهولت و عملکرد کلی GeoTrellis را به پلتفرم برتر تبدیل کرده است.

4.3. تجزیه و تحلیل منطقه ای

برخلاف سایر عملیات، PostGIS بهترین عملکرد کلی را در عملیات منطقه ای در میان مجموعه داده ها ارائه کرد ( جدول 9 ). نتایج کامل عملیات منطقه ای گزارش شده است ( جدول مواد تکمیلی S3 ). عملکرد برتر PostGIS متکی به عملیات داخلی است که از انواع داده های برداری و شطرنجی پشتیبانی می کند. فرآیند شطرنجی سازی PostGIS سریالی است اما بسیار کارآمد است. علاوه بر این، تابعی که برای انجام آمار ناحیه ای با PostGIS، ST_SummaryStatsAgg استفاده می شود، یک تابع جمع است، به این معنی که بر روی هر ویژگی جغرافیایی و کاشی شطرنجی به طور مستقل عمل می کند. یک مورد اصلی نگرانی منحنی عملکرد شکل “U” است که PostGIS ایجاد می کند [ 19]. ما متوجه شدیم که این روندها در تمام مجموعه داده‌ها سازگار هستند. اندازه کاشی عملکرد بهینه با افزایش تعداد ویژگی‌ها و کاهش گستره جغرافیایی ویژگی‌ها متفاوت بود.

نتایج عملکرد برای SciDB مختلط است. شکل 3 شواهدی را نشان می دهد که SciDB به طور بالقوه یک پلت فرم خوب برای انجام آمار منطقه ای است. شکل 3 A عملکرد بین SciDB و PostgreSQL را در مجموعه داده وضعیت نشان می دهد، که در آن PostgreSQL به راحتی از SciDB-All Operations بهتر عمل کرد. با این حال، شکل 3 B نشان می دهد که با افزایش تعداد ویژگی ها، SciDB به پلت فرم برتر تبدیل شد. برخلاف PostGIS یا GeoTrellis، با SciDB، با افزایش اندازه قطعه، تغییر نسبتا کمی در عملکرد وجود داشت.

شکل 3 نتایج را برای SciDB گزارش می‌کند که هر دو «فقط پیوستن» و «همه عملیات» هستند. زمان‌های عملکرد فقط پیوستن فرض می‌کند که فرآیند پوشاندن قبلاً انجام شده است. این یک فرض بعید است و نتایج تمام وقت در جدول مواد تکمیلی S4 آمده است .

نتایج GeoTrellis شگفت آور است ( جدول 10 ). GeoTrellis 1.2 اپراتور ندارد که به آن اجازه دهد مجموعه ای از هندسه ها را بگیرد و تجزیه و تحلیل را در همه ویژگی ها انجام دهد. بنابراین، عملیات سریال بود که منجر به عملکرد ضعیف شد. جدول 10 نشان می دهد که عملکرد بهتر با کاشی های بزرگتر رخ داده است.

5. بحث

5.1. اپراتورهای محلی

به طور کلی، پلتفرم های کلان داده هنگام انجام عملیات محلی برتر هستند. پلتفرم های کلان داده در پارتیشن بندی مجموعه داده های بزرگ و تجزیه و تحلیل موازی آنها تخصص دارند. ساختارهای داده و معماری های به کار گرفته شده توسط هر دو پلتفرم احتمالاً روی داده های شطرنجی بزرگ عملکرد خوبی دارند. معماری آرایه‌ای SciDB در بسیاری از موارد در واکشی و پردازش سریع داده‌ها بهتر از GeoTrellis و PostGIS بود. به طور خاص، نتایج عملیات شمارش پیکسل، مزایای محاسباتی استفاده از یک پلتفرم کلان داده را به تصویر می‌کشد. با این حال، ما همچنین گزارش می دهیم که توابع بهینه شده به جای توابع تعمیم یافته می توانند عملکرد را بهبود بخشند.

نتایج معیار برای عملیات افزودن شطرنجی قابل توجه بود. در مقایسه با سایر عملیات محلی، عملیات افزودن شطرنجی بیشترین دستاوردهای عملکردی را هنگام استفاده از یک پلتفرم کلان داده مانند SciDB یا GeoTrellis نشان می‌دهد. PostGIS نمی تواند اتصال بین این دو مجموعه داده بزرگ شطرنجی (یعنی NLCD) را پردازش کند. جدول 7نتایج جالبی را هنگام مقایسه عملکرد بین SciDB و GeoTrellis گزارش می دهد. در ابتدا، SciDB بهترین عملکرد را در مجموعه داده های GLC و Meris با 18 میلیون و 186 میلیون پیکسل داشت. بهترین عملکرد SciDB برای هر مجموعه داده تقریباً دو برابر سریعتر از GeoTrellis بود. با این حال، عملکرد GeoTrellis در مجموعه داده NLCD با 1.69 میلیارد پیکسل برتر بود. بهترین عملکرد GeoTrellis با 171 ثانیه دو برابر سریعتر از SciDB در 359 ثانیه بود.

دلیل اینکه ما تغییرات در عملکرد این پلتفرم ها را مشاهده می کنیم در معماری سکوها نهفته است. تفاوت های مشاهده شده مربوط به تعادل بار است که به عنوان نسبت نمونه های SciDB به پارتیشن های داده موجود تعریف می شود. برای مثال، اگر 12 نمونه SciDB و 24 قطعه داشته باشیم و عملیات برای یک قطعه 10 ثانیه طول بکشد، SciDB 20 ثانیه طول می کشد تا این عملیات با 24 قطعه و 12 نمونه تمام شود. اگر همان مجموعه داده را به 26 قطعه تقسیم کنیم، SciDB 30 ثانیه طول می کشد.

رویکرد استفاده شده برای فریم ورک آپاچی اسپارک متفاوت است زیرا پلتفرم نسبت هسته ها به تعداد پارتیشن های داده را آگنوستیک می کند زیرا داده ها همه در حافظه هستند. برنامه Apache Spark تعداد هسته های موجود را تعریف می کند و داده ها را به هسته های موجود اختصاص می دهد. نتایج ما نشان می‌دهد که در حالی که SciDB از تعادل بار ناقص در همه مجموعه‌های داده رنج می‌برد، توانایی آن برای واکشی داده‌ها برتر بود و به آن اجازه می‌داد در مجموعه داده‌های کوچک‌تر از GeoTrellis بهتر عمل کند. با این حال، زمانی که عدم تعادل بار وجود داشت، چارچوب آپاچی اسپارک بهتر عمل می کرد زیرا می توانست از مشکلات تعادل بار جلوگیری کند.

5.2. اپراتورهای کانونی

ایجاد روش‌های قابل مقایسه برای تحلیل‌های کانونی پیچیده بود، اما نتایج ما نشان می‌دهد که تفاوت‌های ظاهری در پلتفرم‌ها وجود دارد.

هنگام استفاده از PostGIS باید از عملیات کانونی اجتناب شود زیرا نتایج رضایت بخشی ارائه می دهد – به دلیل اینکه مجموعه داده حاصل از PostGIS معادل مجموعه داده حاصل از SciDB یا GeoTrellis نیست. اپراتور کانونی PostGIS یک مجموعه نیست. در عوض، روی هر کاشی به طور مستقل عمل می کند. هر عملیات کانونی باید با تابع MapAlgebra PostGIS ترکیب شود. بنابراین، پیکسل هایی که در لبه کاشی قرار دارند، ارزش کانونی خود را توسط سلول های مجاور آن در کاشی بعدی تعیین نمی کنند. این پیامدهای بالقوه جدی برای مجموعه داده‌های بزرگ مانند NLCD زمانی که کاشی‌های کوچک زیادی دارد، دارد. جایگزین استفاده از عملگر ST_Union برای ادغام تمام کاشی ها و سپس اجرای عملگر کانونی است. بعید است که ادغام کاشی ها ناموفق باشد زیرا اندازه مجموعه داده های شطرنجی می تواند از محدودیت حافظه ردیف PostgreSQL تجاوز کند. هاینز نشان می دهد که عملگر ST_Union از نظر محاسباتی فشرده است و عملکرد پرس و جو را کاهش می دهد [19 ].

SciDB همچنین چالش‌های غیرمنتظره‌ای را ارائه کرد. آرایه های همپوشانی یک کلاس منحصر به فرد از آرایه ها نیستند. آنها یک مشخصات اضافی از طرح آرایه هستند. یک آرایه SciDB را می توان با همپوشانی در هر بعد تعریف کرد [ 25 ]. همپوشانی به هر آرایه SciDB اجازه می دهد تا داده هایی از کاشی های مجاور داشته باشد. آرایه ای با مقدار همپوشانی تعریف شده اکنون می تواند یک عملیات کانونی را به صورت موازی انجام دهد.

هنگام استفاده از اپراتور کانونی، عملکردهای گسترده ای مشاهده می شد که مسائل معماری را با استفاده از اندازه های کاشی بزرگ (یعنی بیشتر از 1500 × 1500 پیکسل) در آرایه های بزرگ برجسته می کرد. عملگر پنجره، برای SciDB، روی کاشی ها به صورت متوالی کار می کند و آنها را در حافظه ذخیره می کند. این فرآیند حافظه 128 گیگابایتی را در گره تمام کرد. جستارهایی که از کاشی‌هایی با اندازه‌های 2000 یا بیشتر استفاده می‌کردند، حتی در صورت تکمیل شدن، پرس‌وجو قطع می‌شد و گاهی اوقات منجر به نیاز به راه‌اندازی مجدد SciDB می‌شد.

در حالی که هر دو پلتفرم کلان داده جایگزین بهتری برای PostGIS هستند، GeoTrellis بهترین عملکرد را دارد. هنگامی که یک عملیات کانونی آغاز می شود، GeoTrellis از آرایش فضایی برای هر کاشی از مجموعه داده آگاه است. سپس تمام پیکسل‌های لبه‌ای را که برای هر کاشی لازم است جمع‌آوری می‌کند و آن‌ها را به کاشی‌های همسایه متصل می‌کند و عملیات کانونی را موازی می‌کند.

یکی دیگر از مزایای پیاده سازی GeoTrellis نسبت به SciDB این است که در حال حاضر در سطح کاشی ذخیره می شود. اولین باری که عملیات کانونی روی یک کاشی آغاز می شود، GeoTrellis اطلاعات بسیار کمی در مورد پیکسل های مجاور خود می داند. بنابراین باید اطلاعات مربوط به پیکسل های مجاور را جمع آوری کند. هنگامی که عملگر به یک پیکسل مجاور حرکت می کند، از قبل اطلاعاتی در مورد ⅓ از پیکسل های مجاور از پرس و جو قبلی دارد. پیاده‌سازی GeoTrellis به آن اجازه می‌دهد تا از طریق کش کردن، از داده‌هایی که قبلا خوانده‌اند، استفاده مجدد کند و سرعت عملیات را افزایش دهد. در حال حاضر، در SciDB، اپراتور کانونی کش نمی کند. محققان عملگرهای دیگری را برای SciDB نوشته‌اند که عملکرد عملیات کانونی را با اجرای حافظه پنهان [ 10] بهبود می‌بخشد.]. آزمایش این کد فراتر از حد تحقیق ما بود.

5.3. اپراتورهای منطقه ای

ایجاد روش های قابل مقایسه برای تجزیه و تحلیل منطقه ای پیچیده ترین بود زیرا شامل دو مجموعه داده مختلف بردار و شطرنجی بود. هر دو PostGIS و GeoTrellis به طور بومی از انواع داده های برداری پشتیبانی می کنند. با این حال، SciDB این کار را نمی کند، که برای انجام عملیات منطقه ای مشکل ساز است.

اپراتورهای منطقه ای منطقه ای هستند که در آن هر دو پلتفرم کلان داده در مقایسه با PostGIS با مشکل مواجه هستند. خلاصه های چند ضلعی حوزه ای هستند که در آن برای پلتفرم های کلان داده به تحقیق نیاز است. یک دلیل بالقوه این است که آمار خلاصه چند ضلعی یا منطقه ای تمایل دارد به عنوان یک عملیات واحد در نظر گرفته شود، در حالی که در واقع یک سری مراحل وجود دارد.

شطرنجی کردن مجموعه داده برداری به همان وسعت جغرافیایی که مجموعه داده شطرنجی است.
به صورت فضایی به مجموعه داده‌های شطرنجی ماسک‌دار و شطرنجی اصلی بپیوندید.
یک تجمیع (یعنی حداقل، حداکثر، مجموع، میانگین) بین دو مجموعه داده متصل انجام دهید.

در هر پلتفرم، خلاصه سازی چند ضلعی متفاوت عمل می کند. برای PostGIS، فرآیند خلاصه سازی چند ضلعی سریال است. هر چند ضلعی را می گیرد و آن را با کاشی های تراز فضایی قطع می کند. سپس دو مجموعه داده را به هم متصل می کند و آمار درخواستی را برمی گرداند.

مسئله اصلی برای SciDB عدم پشتیبانی از مجموعه داده برداری است که پس از آن نیاز به یک فرآیند خارجی برای ایجاد و بارگذاری یک مجموعه داده پوشانده دارد. Rasterization یک گلوگاه برای SciDB ایجاد می کند، زیرا مجموعه داده دومی را ایجاد می کند که باید در پلتفرم بارگذاری شود. اجرای عملیات scanline یا عملیات scanline موازی می تواند به SciDB گسترش یابد [ 32 ، 33 ].

GeoTrellis از شطرنجی‌سازی اجتناب می‌کند و از یک الگوریتم خط اسکن برای شناسایی پیکسل‌های مورد علاقه استفاده می‌کند و سپس یک RDD جدید ایجاد و برمی‌گرداند. با این حال، حل مسئله خلاصه چند ضلعی برای GeoTrellis (Apache Spark) پیچیده است. Zonal Statistics از مجموعه داده های ناهمگن استفاده می کند که باعث ایجاد مشکلاتی برای Apache Spark می شود. روش معمول آن برای مدیریت این است که داده ها را به هم بزنند. با این حال، مقدار به هم زدن اجرا شده در طول تجزیه و تحلیل منطقه ای نگرانی زیادی دارد. مخلوط کردن ضروری است زیرا Apache Spark به مجموعه داده های ناهمگن نمی پیوندد یا ادغام نمی کند.

به عنوان مثال، یک مجموعه داده شطرنجی با کاشی‌های زیاد بگیرید و آن‌ها را در یک سری از گره‌ها پراکنده کنید و سپس همین کار را با یک مجموعه داده برداری با ویژگی‌های زیاد انجام دهید. تجزیه و تحلیل حاصل جریمه های محاسباتی بیشتری را هنگام به هم زدن داده ها متحمل می شود. نتایج جدول 10 این را تایید می کند. عملکرد هنگام استفاده از مجموعه داده با ویژگی‌های کمی مانند حالت‌ها در مقایسه با مجموعه داده‌هایی با ویژگی‌های زیادی مانند سرشماری افزایش می‌یابد. GeoTrellis بیشتر زمان خود را صرف به هم زدن داده ها می کند تا بتواند مجموعه داده های برداری و شطرنجی را با هم تطبیق دهد. عملکرد GeoTrellis زمانی بهبود می‌یابد که کاشی‌های شطرنجی کمتر و ویژگی‌های برداری کمتری وجود داشته باشد.

یانگ [ 34 ] یک راه حل بالقوه به نام Map-Reduce-Merge را مورد بحث قرار می دهد که برای مدیریت مجموعه داده های ناهمگن طراحی شده است. اجرای چنین ویژگی برای تجزیه و تحلیل جغرافیایی بدون چالش نیست زیرا Apache Spark با پارتیشن های کوچک بهترین کار را دارد. در حال حاضر، پارتیشن GeoTrellis در سطح چند ضلعی. این مشکل ساز است زیرا چند ضلعی ها می توانند چندین کاشی را پوشش دهند. برای اینکه داده ها یکدست تر شوند، یک پارتیشن خاص بردار باید پیاده سازی شود. پارتیشن بندی باید در دو سطح اجرا شود. اولین سطح پارتیشن بندی در چند ضلعی است و سطح دوم پارتیشن بندی به گونه ای است که چند ضلعی ها را به قطعاتی می شکند که با ساختار پارتیشن بندی شطرنجی هماهنگ هستند. عفراتی و اولمان [ 35] بر اساس این کار در مورد استراتژی مشابه، نقشه-کاهش-پیوستن بحث می کند. استراتژی نقشه-کاهش-پیوستن اجازه می دهد تا مجموعه داده های ناهمگن را بر اساس اتصال ستاره به هم بپیوندد. که در آن مجموعه داده کوچکتر (بردار) به تمام کاشی های تطبیق بالقوه تکرار می شود و سپس اتصالات انجام می شود. GeoSpark یک استراتژی پارتیشن بندی مشابه را هنگام پیوستن به مجموعه داده های برداری در Apache Spark [ 36 ] پیاده سازی می کند.

6. نتیجه گیری

این تحقیق اولین معیار شطرنجی را ایجاد کرد که می تواند برای مقایسه جامع تجزیه و تحلیل شطرنجی بر روی پلتفرم های کلان داده استفاده شود. این یک نمای کلی از یک گروه منتخب از پلتفرم‌های کلان داده ارائه کرد و آنها را در سه کلاس از اپراتورهای فضایی اعمال کرد. توسعه معیار جغرافیایی برای عملیات شطرنجی ضروری است و به توسعه پلت فرم های داده شطرنجی بزرگ کمک می کند. معیار یک جزء حیاتی از زیرساخت های فضایی و جامعه فضایی بزرگ است و یک ابزار مرجع برای ارزیابی پلت فرم های شطرنجی بزرگ در اختیار جامعه مکانی قرار می دهد. کاربرد معیار در استفاده از معیار برای سه پلتفرم کلان داده موجود و کاربرد بالقوه آنها برای پردازش داده های بزرگ مکانی نشان داده شده است.

جدول 11گزارش یک ارزیابی کلی از عملکرد پلت فرم در عملیات فضایی بزرگ. هر دو پلتفرم کلان داده، SciDB و GeoTrellis، روش های عملکردی برتر را در عملیات محلی به نمایش گذاشتند. به طور خاص، عملیات جبر نقشه منطقه‌ای است که این پلتفرم‌ها عملکرد برتر خود را نشان می‌دهند، زیرا PostGIS قادر به اتمام محاسبات برای عملگر افزودن شطرنجی با افزایش حجم داده‌ها نبود. GeoTrellis همچنین پلت فرم برتر هنگام انجام عملیات کانونی بود. GeoTrellis سطوح مختلفی از کش را پیاده سازی می کند که منجر به عملکرد خوب در مجموعه داده ها در هر اندازه می شود. علاوه بر این، هر دو پلتفرم کلان داده توانایی بازسازی داده ها را در قالبی موازی در صورت تقاضا دارند. در نهایت، پلتفرم‌های کلان داده برای پشتیبانی از عملیات منطقه‌ای به کار توسعه بیشتری نیاز دارند. هر دو SciDB و GeoTrellis عملکردهای پایین تر برای عملیات منطقه ای تولید کردند. از بین دو پلتفرم، عملکرد SciDB مشابه یا مشابه PostGIS در مجموعه داده های متوسط و کوچک بود. گلوگاه اصلی SciDB نیاز به شطرنجی کردن و بارگذاری مجموعه داده خارجی است که برای مجموعه داده های بزرگ مشکل ساز است. SciDB یک عملکرد متوسط برای تجزیه و تحلیل Zonal است، زیرا مراحل پیش پردازش معمولاً در عملیات داده های بزرگ استفاده می شود. در حالی که GeoTrellis روش‌هایی را برای جلوگیری از شطرنجی‌سازی پیاده‌سازی می‌کند، ناتوانی معماری کنونی در مطابقت با مجموعه داده‌های ناهمگن بدون درهم‌آمیزی زیاد، استفاده از پلتفرم را در عملیات ناحیه‌ای که حاوی تعداد زیادی ویژگی برداری هستند یا دارای اندازه کاشی کوچک هستند، محدود می‌کند. گلوگاه اصلی SciDB نیاز به شطرنجی کردن و بارگذاری مجموعه داده خارجی است که برای مجموعه داده های بزرگ مشکل ساز است. SciDB یک عملکرد متوسط برای تجزیه و تحلیل Zonal است، زیرا مراحل پیش پردازش معمولاً در عملیات داده های بزرگ استفاده می شود. در حالی که GeoTrellis روش‌هایی را برای جلوگیری از شطرنجی‌سازی پیاده‌سازی می‌کند، ناتوانی معماری کنونی در مطابقت با مجموعه داده‌های ناهمگن بدون درهم‌آمیزی زیاد، استفاده از پلتفرم را در عملیات ناحیه‌ای که حاوی تعداد زیادی ویژگی برداری هستند یا دارای اندازه کاشی کوچک هستند، محدود می‌کند. گلوگاه اصلی SciDB نیاز به شطرنجی کردن و بارگذاری مجموعه داده خارجی است که برای مجموعه داده های بزرگ مشکل ساز است. SciDB یک عملکرد متوسط برای تجزیه و تحلیل Zonal است، زیرا مراحل پیش پردازش معمولاً در عملیات داده های بزرگ استفاده می شود. در حالی که GeoTrellis روش‌هایی را برای جلوگیری از شطرنجی‌سازی پیاده‌سازی می‌کند، ناتوانی معماری کنونی در مطابقت با مجموعه داده‌های ناهمگن بدون درهم‌آمیزی زیاد، استفاده از پلتفرم را در عملیات ناحیه‌ای که حاوی تعداد زیادی ویژگی برداری هستند یا دارای اندازه کاشی کوچک هستند، محدود می‌کند.جدول 11 دومین مسئله مهم را نشان می دهد. هیچ یک از پلتفرم هایی که ما تحلیل کردیم در هر سه کلاس عملیات شطرنجی موفق نبودند. GeoTrellis در دو مورد از این سه دسته بهترین عملکرد را داشت و آن را به یک پلتفرم ایده‌آل برای توسعه گردش‌های کاری فضایی تبدیل کرد.

6.1. محدودیت ها

در حالی که در این مطالعه سعی کردیم در تحلیل خود بسیار دقیق و قوی عمل کنیم، این تحقیق دارای محدودیت هایی است. اولین محدودیت این است که ما هر پلتفرم کلان داده ای را که در حال حاضر داده های شطرنجی را تجزیه و تحلیل می کند، بررسی نکردیم. ما مجموعه‌ای از پلتفرم‌هایی را که در ادبیات مستند شده‌اند، بررسی کردیم و از معماری‌های مختلف داده بزرگ استفاده کردیم: پایگاه‌های داده رابطه‌ای، پایگاه‌های داده آرایه‌ای No-SQL، و Apache Spark (هدوپ در حافظه). به دلیل مشکلات بارگذاری داده ها، همه سیستم ها در هر اندازه کاشی مقایسه نشدند. این توانایی مقایسه مستقیم را محدود می کند. با این حال، تمام پلت فرم ها در اندازه های 500 و 1000 کاشی مقایسه شدند. محدودیت دوم و مرتبط این است که نسخه های جدید نرم افزار عملکرد این پلتفرم ها را تغییر می دهد. درست است؛ با این حال، دوباره به محدودیت های معماری که شناسایی کردیم اشاره می کنیم.

6.2. کار آینده

این تحقیق از طریق توسعه یک معیار شطرنجی که می‌تواند برای ارزیابی تحلیل فضایی بر روی پلت‌فرم‌های کلان داده استفاده شود، به شکاف قابل‌توجهی در ادبیات می‌پردازد. تحقیق باید در چند جهت پیشرفت کند. ابتدا، ما پیشنهاد می کنیم یک معیار مکمل برای مجموعه داده های برداری ایجاد کنیم. بسیاری از پلتفرم‌ها عملگرهای تحلیل فضایی را برای داده‌های فضایی برداری ارائه می‌دهند، و این معیار باید به گونه‌ای گسترش یابد که دو نوع داده مکانی اصلی را در بر گیرد. ثانیاً، کار مقایسه پلتفرم‌ها باید در محیط‌های محاسباتی مختلف گسترش یابد. کار ما یک محیط با عملکرد بالا تک گره حافظه بزرگ را مورد بررسی قرار داد، اما نتایج می‌توانند در یک محیط محاسباتی توزیع‌شده به‌طور قابل ملاحظه‌ای متفاوت باشند. در نهایت، معیار ارزیابی باید با پلتفرم‌های بیشتر، نسخه‌های جدید پلتفرم‌های موجود به‌روزرسانی شود، مجموعه داده‌های چند طیفی بزرگ‌تر و ادغام گردش‌های کاری فضایی. توسعه چنین معیار جاه‌طلبی مکانی برای کل جامعه مکانی مفید خواهد بود، زیرا راهنمایی‌های روشنی را ارائه می‌دهد و گلوگاه‌ها و موفقیت‌ها را برای محاسبات مکانی با کارایی بالا شناسایی می‌کند.

منابع

بوشویزن، سی. میسون، جی. کلوپار، پ. Spanhake, S. نتایج حاصل از آزمایشگاه های سیاره گله صورت فلکی. 2014. [ Google Scholar ]
یانگ، سی. هوانگ، Q. لی، ز. لیو، ک. Hu, F. داده های بزرگ و رایانش ابری: فرصت ها و چالش های نوآوری. بین المللی جی دیجیت. زمین 2017 ، 10 ، 13-53. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
Haynes, D. Array Databases. مجموعه دانش فناوری های علم اطلاعات جغرافیایی. 2019. در دسترس آنلاین: https://gistbok.ucgis.org/bok-topics/array-databases (در 19 نوامبر 2020 قابل دسترسی است).
دینگ، ام. یانگ، م. چن، اس. ذخیره و جستجوی نمودارهای فضایی-زمانی در مقیاس بزرگ با درج‌های لبه با توان عملیاتی بالا. arXiv 2019 ، arXiv:1904.09610. [ Google Scholar ]
آرنولد، جی. گلاویچ، بی. Raicu، I. یک سیستم پایگاه داده رابطه ای توزیع شده با کارایی بالا برای پردازش OLAP مقیاس پذیر. در مجموعه مقالات سمپوزیوم بین المللی پردازش موازی و توزیع شده IEEE (IPDPS) 2019، ریودوژانیرو، برزیل، 20 تا 24 مه 2019؛ صص 738-748. [ Google Scholar ] [ CrossRef ]
پالاموتام، آر. Mogrovejo، RM; متمن، سی. ویلسون، بی. وایت هال، ک. ورما، ر. مک گیبنی، ال. Ramirez, P. SciSpark: استفاده از محاسبات توزیع شده در حافظه برای تشخیص و ردیابی رویدادهای آب و هوایی. در مجموعه مقالات کنفرانس بین المللی IEEE در سال 2015 درباره داده های بزرگ (داده های بزرگ)، سانتا کلارا، کالیفرنیا، ایالات متحده آمریکا، 29 اکتبر تا 1 نوامبر 2015؛ صفحات 2020–2026. [ Google Scholar ] [ CrossRef ]
وانگ، دبلیو. لیو، تی. تانگ، دی. لیو، اچ. لی، دبلیو. Lee, R. SparkArray: یک سیستم مدیریت داده علمی مبتنی بر آرایه که بر روی Apache Spark ساخته شده است. در مجموعه مقالات کنفرانس بین المللی IEEE 2016 در زمینه شبکه، معماری و ذخیره سازی (NAS)، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 8 تا 10 اوت 2016؛ صص 1-10. [ Google Scholar ] [ CrossRef ]
لی، اچ. کیو، ن. چن، ام. لی، اچ. دای، ز. زو، ام. Huang, M. FASTDB: یک سیستم پایگاه داده آرایه ای برای ذخیره سازی و تجزیه و تحلیل کارآمد داده های علمی. در مجموعه مقالات کنفرانس بین المللی الگوریتم ها و معماری برای پردازش موازی، Zhangjiajie، چین، 18-20 نوامبر 2015. Wang, G., Zomaya, A., Martinez, G., Li, K., Eds. انتشارات بین المللی Springer: چم، سوئیس، 2015; ص 606-616. [ Google Scholar ]
اپل، م. لان، اف. پبسما، ای. Buytaert، W. Moulds, S. تجزیه و تحلیل مشاهدات زمین مقیاس پذیر برای دانشمندان زمین شناسی: پسوند فضا-زمان به پایگاه داده آرایه SciDB. در مجموعه مقالات کنفرانس مجمع عمومی EGU، وین، اتریش، 17-22 آوریل 2016. جلد 18، ص. 11780. [ Google Scholar ]
جیانگ، ال. کاواشیما، اچ. Tatebe، O. تجمیع پنجره سریع در پایگاه داده آرایه با محاسبات افزایشی بازگشتی. در مجموعه مقالات دوازدهمین کنفرانس بین المللی IEEE در سال 2016 در علوم الکترونیک (E-Science)، بالتیمور، MD، ایالات متحده آمریکا، 23 تا 27 اکتبر 2016؛ صص 101-110. [ Google Scholar ]
لو، ام. اپل، م. Pebesma، آرایه های چند بعدی EJ برای تجزیه و تحلیل داده های علم زمین. ISPRS Int. J. Geo-Information 2018 ، 7 ، 313. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
پلنتابر، جی. استون بریکر، م. Frew, J. EarthDB: تجزیه و تحلیل مقیاس پذیر داده های MODIS با استفاده از SciDB. در مجموعه مقالات اولین کارگاه بین المللی ACM SIGSPATIAL در مورد تجزیه و تحلیل برای داده های جغرافیایی بزرگ، ردوندو بیچ، کالیفرنیا، ایالات متحده، 6-9 نوامبر 2012. صص 11-19. [ Google Scholar ]
کارماس، ا. کارانتزالوس، ک. آتاناسیو، اس. تحلیل آنلاین داده های سنجش از دور برای کاربردهای کشاورزی. در مجموعه مقالات کنفرانس اروپایی OSGeo در مورد نرم افزار رایگان و متن باز برای Geospatial، برمن، آلمان، 15 ژوئیه 2014. [ Google Scholar ]
پیکولی، MCA؛ کامارا، جی. Sanches، ID; Simões، REO; د کاروالیو، AXY; ماسیل، ا. کوتینیو، آ. اسکوردو، جی. Antunes، JFG; Begotti، RA; و همکاران تجزیه و تحلیل سری زمانی رصد زمین بزرگ برای نظارت بر کشاورزی برزیل ISPRS J. Photogramm. Remote Sens. 2018 , 145 , 328–339. [ Google Scholar ] [ CrossRef ]
سیدو، ن. پبسما، ای. Câmara, G. استفاده از موتور Google Earth برای تشخیص تغییر پوشش زمین: سنگاپور به عنوان یک مورد استفاده. یورو جی. ریموت. Sens. 2018 , 51 , 486–500. [ Google Scholar ] [ CrossRef ]
الدوی، ا. Mokbel, MF عصر داده های مکانی بزرگ. در مجموعه مقالات سی و یکمین کنفرانس بین المللی IEEE 2015 در کارگاه های مهندسی داده، پیتسبورگ، PA، ایالات متحده آمریکا، 15 تا 18 ژوئن 2015. ص 42-49. [ Google Scholar ]
دوان، ک. Oloso، AO; کو، ک.-اس. Clune، TL; یو، اچ. نلسون، بی. Zhang, J. ارزیابی تأثیر قرار دادن داده ها بر جرقه و SciDB با یک مورد استفاده از علوم زمین. در مجموعه مقالات کنفرانس بین المللی IEEE در سال 2016 درباره داده های بزرگ (داده های بزرگ)، واشنگتن، دی سی، ایالات متحده آمریکا، 5 تا 8 دسامبر 2016؛ صص 341-346. [ Google Scholar ]
اولاس، ا. تایلندی، BN; کریستوف، دی. یک ابتکار جدید برای کاشی کاری، دوخت و پردازش داده های بزرگ جغرافیایی در محیط های محاسباتی توزیع شده. ISPRS Ann. فتوگرام حسگر از راه دور اسپات. Inf. علمی 2016 ، 3 ، 111. [ Google Scholar ]
هاینز، دی. منسون، اس ام. شوک، ای. منسون، معماری S. Terra Populus برای خدمات یکپارچه بزرگ جغرافیایی. ترانس. GIS 2017 ، 21 ، 546-559. [ Google Scholar ] [ CrossRef ] [ PubMed ]
وینر، پی. سیمکو، وی. نیمیس، جی. رام کردن تکامل داده های بزرگ و فن آوری های آن در BigGIS یک چارچوب مفهومی معماری برای تجزیه و تحلیل مکانی-زمانی در مقیاس. در مجموعه مقالات سومین کنفرانس بین المللی نظریه، کاربردها و مدیریت سیستم های اطلاعات جغرافیایی، پورتو، پرتغال، 27-28 آوریل 2017; ص 90-101. [ Google Scholar ]
ری، اس. سیمیون، بی. براون، AD Jackpine: معیاری برای ارزیابی عملکرد پایگاه داده فضایی. در مجموعه مقالات بیست و هفتمین کنفرانس بین المللی مهندسی داده IEEE 2011، هانوفر، آلمان، 11-16 آوریل 2011. صص 1139–1150. [ Google Scholar ]
بارو، سی. باندارکار، م. نامبیار، ر. پوس، م. رابل، تی. محک زدن داده های بزرگ. در مجموعه مقالات ششمین کارگاه بین المللی، WBDB 2015، تورنتو، ON، کانادا، 16-17 ژوئن 2015 و هفتمین کارگاه بین المللی، WBDB 2015، دهلی نو، هند، 14-15 دسامبر 2015. مقالات منتخب اصلاح شده اسپرینگر: برلین/هایدلبرگ، آلمان؛ جلد 10044. [ Google Scholar ] [ CrossRef ]
شارما، م. پیج، گیگابایت؛ میلر، توسعه SN DEM از داده های LiDAR مبتنی بر زمین: روشی برای حذف اشیاء غیر سطحی. از راه دور. Sens. 2010 , 2 , 2629-2642. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
دینگ، ی. دنشم، PJ استراتژی‌های فضایی برای مدل‌سازی فضایی موازی. بین المللی جی. جئوگر. Inf. سیستم 1996 ، 10 ، 669-698. [ Google Scholar ] [ CrossRef ]
استون بریکر، م. براون، پ. پولیاکوف، آ. رامان، اس. معماری SciDB. در مجموعه مقالات رمزنگاری کلید عمومی PKC 2018، ژانیرو، برزیل، 25 تا 29 مارس 2018؛ صص 1-16. [ Google Scholar ]
کامارا، جی. Assis، LF; ریبیرو، جی. فریرا، KR; لاپا، ای. Vinhas، L. تجزیه و تحلیل داده های مشاهده زمین بزرگ: تطبیق الزامات با معماری سیستم. در مجموعه مقالات پنجمین کارگاه بین المللی ACM SIGSPATIAL در مورد تجزیه و تحلیل برای داده های جغرافیایی بزرگ—BigSpatial’16، سانفرانسیسکو، کالیفرنیا، ایالات متحده آمریکا، 31 اکتبر 2016. صص 1-6. [ Google Scholar ]
لو، ام. پبسما، ای. سانچز، ق. Verbesselt، J. تشخیص تغییرات مکانی-زمانی از آرایه‌های چند بعدی: تشخیص جنگل‌زدایی از سری‌های زمانی MODIS. ISPRS J. Photogramm. Remote Sens. 2016 , 117 , 227–236. [ Google Scholar ] [ CrossRef ]
باومن، پی. مازتی، پی. اونگار، ج. باربرا، آر. باربونی، دی. بکتی، ا. بیگاگلی، ال. بولدرینی، ای. برونو، آر. کالاندوچی، آ. و همکاران تجزیه و تحلیل داده های بزرگ برای علوم زمین: رویکرد EarthServer. بین المللی جی دیجیت. زمین 2015 ، 9 ، 3-29. [ Google Scholar ] [ CrossRef ]
موسسه ملی تحقیقات فضایی E-Sensing: تجزیه و تحلیل داده های مشاهده زمین Bg برای LUCC. 2014. در دسترس آنلاین: https://esensing.org/ (دسترسی در 1 ژوئن 2019).
گو، ال. Li, H. Memory or Time: Performance Evaluation for Iterative Operation on Hadoop and Spark. در مجموعه مقالات دهمین کنفرانس بین المللی IEEE 2013 در مورد محاسبات و ارتباطات با عملکرد بالا و کنفرانس بین المللی IEEE 2013 در محاسبات جاسازی شده و همه جا حاضر (HPCC_EUC)، Zhangjiajie، چین، 13 تا 15 نوامبر 2013. صص 721-727. [ Google Scholar ]
تاونز، جی. کوکریل، تی. دهان، م. فاستر، آی. گیتر، ک. گریمشاو، ا. هازلوود، وی. لاتروپ، اس. لیفکا، دی. پترسون، جی دی. و همکاران XSEDE: تسریع کشف علمی. محاسبه کنید. علمی مهندس 2014 ، 16 ، 62-74. [ Google Scholar ] [ CrossRef ]
وانگ، ی. چن، ز. چنگ، ال. لی، ام. وانگ، جی. الگوریتم پویش موازی برای شطرنجی سازی سریع داده های جغرافیایی برداری. محاسبه کنید. Geosci. 2013 ، 59 ، 31-40. [ Google Scholar ] [ CrossRef ]
الدوی، ا. نیو، ال. هاینز، دی. Su, Z. تجزیه و تحلیل مقیاس بزرگ داده های فضایی بزرگ بردار+راستر. در مجموعه مقالات بیست و پنجمین کنفرانس بین‌المللی ACM SIGSPATIAL در مورد پیشرفت‌ها در سیستم‌های اطلاعات جغرافیایی-SIGSPATIAL’17، ردوندو بیچ، کالیفرنیا، ایالات متحده آمریکا، 7 تا 10 نوامبر 2017؛ صص 1-4. [ Google Scholar ] [ CrossRef ]
یانگ، اچ.-سی. داسدان، ع. Hsiao، R.-L. پارکر، نقشه DS-کاهش-ادغام. در مجموعه مقالات کنفرانس بین المللی ACM SIGMOD در سال 2007 در مورد مدیریت داده ها-SIGMOD’07، پکن، چین، 12 تا 14 ژوئن 2007. ص 1029–1040. [ Google Scholar ] [ CrossRef ]
افراتی، FN; Ullman، JD Optimizing در یک محیط کاهش نقشه می پیوندد. در مجموعه مقالات سیزدهمین کنفرانس بین المللی گسترش فناوری پایگاه داده-EDBT’10، لوزان، سوئیس، 22 تا 26 مارس 2010. صص 99-110. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
یو، جی. ژانگ، ز. Sarwat، M. مدیریت داده های فضایی در اسپارک آپاچی: دیدگاه GeoSpark و فراتر از آن. GeoInformatica 2019 ، 23 ، 37–78. [ Google Scholar ] [ CrossRef ]

شکل 1. عملکرد تعداد پیکسل در مجموعه داده GLC در همه سیستم عامل ها.

شکل 2. عملکرد طبقه بندی مجدد در مجموعه داده GLC در تمام پلت فرم ها.

شکل 3. زمان عملکرد اپراتور ناحیه ای SciDB و PostGIS در GLC با حالت های ( A ) و تراکت ها ( B ).

مقالات داخلی و بین المللی

بدون دیدگاه

دیدگاهتان را بنویسید لغو پاسخ

برای نوشتن دیدگاه باید وارد بشوید.

مشاورین هوش پیروزی

خلاصه

کلید واژه ها:

1. معرفی

1.1. داده های بزرگ جغرافیایی

1.2. پیاده سازی های رمان

1.3. پیاده سازی علوم دامنه

1.4. بررسی های متا

1.5. نیاز به یک معیار جغرافیایی

2. Raster Big Data Benchmark

2.1. داده ها

2.2. پارتیشن بندی فضایی

2.3. عملیات فضایی

2.4. عملیات محلی

2.4.1. تعداد پیکسل

2.4.2. طبقه بندی مجدد

2.4.3. افزودن شطرنجی

2.5. عملیات کانونی

2.6. عملیات منطقه ای

3. مقایسه پلت فرم داده های بزرگ

3.1. توضیحات پلت فرم

3.1.1. PostGIS 2.4 (PostgreSQL 9.6)

3.1.2. SciDB 16.9

3.1.3. GeoTrellis 1.2 (Apache Spark 2.1)

3.2. سخت افزار

4. نتایج

4.1. عملیات محلی

4.1.1. تعداد پیکسل

4.1.2. طبقه بندی مجدد

4.1.3. افزودن شطرنجی

4.2. تحلیل های کانونی

4.3. تجزیه و تحلیل منطقه ای

5. بحث

5.1. اپراتورهای محلی

5.2. اپراتورهای کانونی

5.3. اپراتورهای منطقه ای

6. نتیجه گیری

6.1. محدودیت ها

6.2. کار آینده

منابع

قبلیتجزیه و تحلیل تعادل مجدد دوچرخه بدون ایستگاه: مقیاس، مدل‌سازی و چالش‌های محاسباتی

بعدینقشه برداری پانورامیک با فناوری اطلاعات برای حمایت از آموزش مهندسی: یک کاوش مقدماتی

مطالب مرتبط ...

آموزش مقاله نویسی در رشته ادبیات فارسی

تأثیر همسایگی درونیابی DEM بر عوامل زمین

رگرسیون وزنی جغرافیایی تطبیقی ​​غیر منفی برای تخمین تراکم جمعیت بر اساس نور شب

بدون دیدگاه

دیدگاهتان را بنویسید لغو پاسخ

درباره سرزمین فناوری مکانی GISLAND

دسترسی سریع

اطلاعات

خبرنامه

خبرنامه

درباره سرزمین فناوری مکانی GISLAND

دسترسی سریع

اطلاعات

دسترسی سریع

رگرسیون وزنی جغرافیایی تطبیقی غیر منفی برای تخمین تراکم جمعیت بر اساس نور شب