سیستم اطلاعات جغرافیایی (GIS)و پایش مخاطرات زیست‌محیطی تحت تغییرات آب و هوا: بررسی گسترده

علم داده های مکانی در مقابل GIS:اصطلاح “علم داده” در چند سال گذشته به یکی از داغ ترین توصیفات شغلی تبدیل شده است، اما دقیقا به چه معناست؟ آیا متخصصان GIS می توانند خود را «دانشمندان داده» بنامند؟ برخی گزارش‌ها حاکی از آن است که مشاغلی که برای «دانشمندان داده» و به‌ویژه «دانشمندان داده‌های جغرافیایی» فراخوان داده می‌شوند، ۲۵ درصد بیشتر از مشاغلی که «تحلیل‌گر GIS» دارند، دستمزد می‌گیرند. آیا واقعاً تفاوتی وجود دارد یا فقط آخرین کلمه رایج است؟

 

من استدلال می کنم که در حالی که همپوشانی های زیادی بین GIS و علم داده های جغرافیایی وجود دارد، آنها یک چیز نیستند و تفاوت های مهمی وجود دارد. برخی، از جمله ناتی سیلور، استدلال کرده اند که “علم داده” در واقع فقط نام دیگری برای آمار است و دوباره، در حالی که همپوشانی زیادی بین آمار و علم داده وجود دارد، من استدلال می کنم که آنها یک چیز نیستند. پس علم داده دقیقاً چیست؟ من پیشنهاد می کنم که به ساده ترین عبارت ممکن، نقش یک دانشمند داده استخراج اطلاعات قابل استفاده از داده های خام و انتقال آن اطلاعات به ذینفعان است. برای انجام این کار، آنها باید به ابزارهای مختلف از جمله تسلط کامل داشته باشند

  • آمار
  • یادگیری ماشین و هوش مصنوعی
  • فناوری پایگاه داده
  • زیرساخت فناوری اطلاعات
  • برنامه نويسي
  • روش های گزارش دهی و تصویرسازی

همه این موضوعات به خودی خود کاملاً متراکم هستند و احتمالاً برای هیچ فردی غیرممکن است که در همه آنها متخصص باشد. اکثر دانشمندان داده احتمالاً در یک یا دو مورد از این زمینه‌ها تخصص خواهند داشت، اما من استدلال می‌کنم که برای اینکه خود را دانشمند داده بنامید، باید حداقل در مفاهیم اساسی هر یک به خوبی مستقر باشید. به عنوان مثال، ممکن است شما یک دکترای آمار داشته باشید و تمام ریاضیات پشت روش ها را بدانید و در آستانه توسعه روش های آماری جدید باشید، اما اگر هیچ پیشینه ای در زمینه پایگاه داده یا زیرساخت فناوری اطلاعات برای مقابله با مقادیر زیادی از این روش ها ندارید. داده های رایج در دنیای مدرن شما یک دانشمند داده نیستید.

ابزارهای دانشمند داده

آمار

بله، برای اینکه یک دانشمند داده باشید، به یک پایه محکم در آمار نیاز دارید. هدف در نهایت کاهش داده های خام به دانش قابل استفاده است. لازم نیست آمارگیر باشید، اما باید به اندازه کافی در مورد روش های آماری آگاهی داشته باشید تا حداقل ایده ای در مورد اینکه کدام تکنیک های تحلیلی مناسب هستند و چگونه یک مدل آماری را با داده های خود تطبیق دهید، فرضیات آزمون و نتایج را تفسیر کنید. اگر سؤالاتی که می‌پرسید به اندازه کافی مهم هستند، همیشه می‌توانید با یک آمارگیر مشورت کنید تا مطمئن شوید که جزئیات فنی را درست می‌بینید، اما باید بتوانید آن جزئیات را به خوبی مورد بحث قرار دهید و باید بدانید که چگونه توصیه‌های او را اجرا کنید. در هر پلتفرمی که استفاده می کنید.

یادگیری ماشینی / هوش مصنوعی

بسیاری از مفاهیم پشت آمار و یادگیری ماشین مشابه هستند، اما هدف متفاوت است. آمار تلاش می کند تا بر اساس نمونه ای از آن جامعه استنباط به یک جامعه داشته باشد. یادگیری ماشین تلاش می کند تا بر اساس مجموعه آموزشی از مقادیر شناخته شده، در مورد مقادیر ناشناخته پیش بینی کند. برخی از روش‌های آماری مانند رگرسیون خطی و رگرسیون لجستیک نیز می‌توانند به‌عنوان الگوریتم‌های یادگیری ماشینی مورد استفاده قرار گیرند، اما این پیش‌بینی است که به جای ساختار داده‌های زیربنایی و آنچه در مورد جمعیت مورد نظر دلالت دارد، مورد توجه اولیه است.

در تحقیقات علمی، قبل از جمع‌آوری داده‌ها، می‌توان در مورد اینکه کدام مدل آماری مناسب است فکر کرد و سپس می‌توان داده‌ها را به گونه‌ای جمع‌آوری کرد که اطمینان حاصل شود که مفروضات روش آماری برآورده می‌شوند. عوامل مخدوش کننده را می توان کنترل کرد و مدل های توضیحی جایگزین (که هر کدام یک فرضیه را نشان می دهند) می توانند به طور رسمی با درجه بالایی از دقت آزمایش شوند. اغلب داده‌های بسیار محدودی در دسترس است، زیرا این داده‌ها باید به طور خاص برای هدف مورد نظر جمع‌آوری شوند.

با این حال، در دنیای امروز، حجم عظیمی از داده ها به صورت روزانه جمع آوری می شوند که اغلب در دسترس عموم قرار می گیرند. این شامل مکان‌های GPS از تلفن‌های همراه، تاریخچه مرور، هزینه‌های کارت اعتباری، پست‌های رسانه‌های اجتماعی، تصاویر ماهواره‌ای و غیره می‌شود. این داده‌ها اغلب برای مقاصدی غیر از آنچه در ابتدا برای آن جمع‌آوری شده بود مفید است و یافتن الگوها در این داده‌ها قلمرو یادگیری ماشین است. . آنچه که این داده فاقد ویژگی است، اغلب از نظر کمیت جبران می کند و امکان تشخیص اثرات نسبتاً کوچک اما واقعی را فراهم می کند.

هوش مصنوعی یا هوش مصنوعی را می‌توان از نظر مفهومی به عنوان توسعه‌ای از یادگیری ماشین در نظر گرفت که امکان تشخیص الگوهایی را فراهم می‌کند که با یک مدل خاص مطابقت ندارند. در حالی که الگوریتم‌های یادگیری ماشین معمولاً شبیه به مدل‌های آماری هستند، هوش مصنوعی معمولاً شامل شبکه‌های عصبی است که می‌توانند الگوهای متنوعی را متناسب کنند. نقاط ضعف این است که آنها معمولاً به تخمین پارامترهای بیشتری نیاز دارند و بسیار کامپیوتر فشرده هستند. این همچنین آنها را کمی بیشتر به یک رویکرد “جعبه سیاه” تبدیل می کند که به درک کمی از الگوهای اساسی نیاز دارد.

دانشمندان داده‌های جغرافیایی می‌توانند از یادگیری ماشین و هوش مصنوعی برای پاسخ به سؤالاتی مانند «چند اتومبیل بین ساعت 9 صبح تا 5 بعد از ظهر از این مکان عبور می‌کنند؟»، «کدام شهرها احتمالاً محصولات من را بیشتر خریداری می‌کنند؟» و «همه کجا هستند؟» استفاده کنند. استخرهای سهام در این شهرستان؟».

فناوری پایگاه داده

به دلیل حجم زیادی از اطلاعاتی که امروزه جمع آوری می شود، ذخیره سازی مبتنی بر فایل های سنتی اغلب ناکافی است. پایگاه داده های سطح سازمانی مانند Oracle، SQL Server و PostgreSQL مزایای زیادی نسبت به ذخیره سازی مبتنی بر فایل ارائه می دهند. این موارد شامل ویرایش چند کاربره، عملکرد، تقریباً بدون محدودیت در اندازه، توانایی سفارشی سازی مطابق با نیازهای شما، امنیت، استحکام و دسترسی از سایر پلتفرم ها است.

در حالی که می توان با داده ها در یک پایگاه داده در سطح سازمانی با استفاده از ابزارهای نقطه و کلیک استاندارد در نرم افزار دسکتاپ GIS بدون دانش بسیار بیشتر از آنچه برای ذخیره سازی داده های فایل مسطح نیاز است کار کرد، برای استفاده واقعی از تمام مزایا نیاز به دانش SQL است. زبان برنامه نویسی مورد استفاده برای تعامل با اکثر پایگاه های داده)، زیرساخت شبکه، سرورهای راه دور و غیره.

یک دانشمند داده حداقل باید نحوه اتصال به یک پایگاه داده راه دور، دسترسی به داده های ذخیره شده در جداول با استفاده از SQL و خروجی آن داده ها را به شکلی که می تواند توسط نرم افزاری که برای تجزیه و تحلیل آن داده ها استفاده می شود، بداند. . به احتمال زیاد، آن‌ها همچنین به درک درستی از راه‌اندازی حساب‌های کاربری برای کنترل دسترسی افراد به داده‌ها، راه‌اندازی نمونه‌ای از پایگاه داده روی سرور، و برقراری ارتباط با بخش فناوری اطلاعات خود در مورد مواردی مانند پشتیبان‌گیری، تکرار، کنترل تراکنش و غیره نیاز دارند. .

یک دانشمند داده های جغرافیایی همچنین نیاز به درک پسوندهای جغرافیایی موجود در اکثر پلتفرم های پایگاه داده دارد. این امکان ذخیره و تجزیه و تحلیل داده های برداری و رستری را مستقیماً در پایگاه داده بدون نیاز به نرم افزار تخصصی GIS فراهم می کند. اکثر متخصصان GIS از آنچه که می‌توان به سرعت و کارآمد با Spatial SQL انجام داد، متعجب می‌شوند.

اگرچه منحنی یادگیری مرتبط با انتقال به پایگاه‌های اطلاعاتی در سطح سازمانی وجود دارد، مزایا قابل توجه است و فناوری قوی و پایدار است. SQL به مدت 40 سال بسیار اندک تغییر کرده است و به احتمال زیاد در آینده قابل پیش بینی تغییر زیادی نخواهد کرد، بنابراین آنچه اکنون یاد می گیرید و رویه هایی که اجرا می کنید مشمول تصمیمات دلخواه بخش بازاریابی نرم افزار تجاری GIS برای تغییر ناگهانی پلت فرم اساسی نیستند.

زیرساخت فناوری اطلاعات

با توجه به حجم انبوه داده های موجود برای استفاده عمومی، ممکن است لازم باشد آن داده ها را در چندین رایانه که به صورت یک خوشه به یکدیگر متصل شده اند، پخش کرد. خوشه ها همچنین برای افزایش عملکرد برای رویه های محاسباتی فشرده استفاده می شوند. با اتصال چندین رایانه به یکدیگر، فضای دیسک بیشتری برای ذخیره سازی داده ها و قدرت پردازش بیشتری برای محاسبات در دسترس دارید.

با این حال، استفاده از چندین رایانه برای قدرت پردازش به طور خودکار اتفاق نمی افتد. اکثر نرم افزارهای دسکتاپ GIS از مزایای محدودی از چندین پردازنده بهره می برند. وظایف geoprocessing جداگانه ممکن است به پردازنده های جداگانه ارسال شود تا با یکدیگر یا با رابط کاربری برنامه اصلی تداخل نداشته باشند و این یک مزیت است. اما CPUهای مدرن معمولاً چندین هسته دارند و استفاده از این قدرت پردازشی برای یک عملیات ساده نیست. نرم افزار باید به گونه ای نوشته شود که بتواند یک فرآیند را به فرآیندهای مستقل تقسیم کند که می تواند به پردازنده های جداگانه ارسال شود و سپس در یک نتیجه واحد جمع شود. این فرآیند به عنوان موازی سازی شناخته می شود و می تواند مزایای عملکرد فوق العاده ای را در عملیات فشرده پردازشگر حتی در یک کامپیوتر با یک CPU چند هسته ای ارائه دهد. هنگامی که در چندین رایانه پخش می شود، افزایش عملکرد تقریبا نامحدود است. هنگامی که کد برای چندین هسته بهینه شده است، عملیاتی که ساعت ها روی یک هسته طول می کشد ممکن است چند ثانیه طول بکشد.

نوشتن کدهای پردازش موازی یک فناوری پیشرفته است و قطعاً به جای علم داده در حوزه علوم رایانه قرار می گیرد. بعید است که دانشمندان داده هرگز با چنین وظیفه ای روبرو شوند، اما به احتمال زیاد دانشمندان داده، به ویژه دانشمندان داده های جغرافیایی، در مقطعی وظیفه خود را با مشکل مربوط به عملیات فشرده پردازشگر در مجموعه داده های بزرگ مواجه می کنند و باید در نظر بگیرند. با استفاده از نرم افزار بهینه شده برای عملیات موازی برای بهبود عملکرد. هیچ چیز ناامید کننده تر از خرج کردن مقدار زیادی پول برای رایانه های جدید گران قیمت با پردازنده های چند هسته ای و فهمیدن این نیست که آن عملیات تقاطع عظیم را سریعتر اجرا نمی کند زیرا نرم افزاری که استفاده می کنید هنوز کل فرآیند را روی یک هسته واحد اجرا می کند. و هسته های دیگر هیچ کاری انجام نمی دهند. استفاده از نرم‌افزاری که از چندین هسته و حتی GPU (واحد پردازش گرافیک) برای استفاده از تمام هسته‌های موجود بر روی یک CPU یا در مجموعه‌ای از رایانه‌های متصل به شبکه استفاده می‌کند، اغلب مقرون به صرفه‌تر است. بنابراین یک دانشمند داده حداقل باید بداند چه نرم افزاری از پردازش موازی بهره می برد و می تواند در یک خوشه پیاده سازی شود. آنها همچنین باید با ابزارهای مبتنی بر ابر در دسترس برای ذخیره داده ها و انجام عملیات محاسباتی و زمان اجرای راه حل مبتنی بر ابر به جای سرمایه گذاری در سخت افزار محلی آشنا باشند. بنابراین یک دانشمند داده حداقل باید بداند که چه نرم افزاری از پردازش موازی بهره می برد و می تواند در یک خوشه پیاده سازی شود. آنها همچنین باید با ابزارهای مبتنی بر ابر در دسترس برای ذخیره داده ها و انجام عملیات محاسباتی و زمان اجرای راه حل مبتنی بر ابر به جای سرمایه گذاری در سخت افزار محلی آشنا باشند. بنابراین یک دانشمند داده حداقل باید بداند که چه نرم افزاری از پردازش موازی بهره می برد و می تواند در یک خوشه پیاده سازی شود. آنها همچنین باید با ابزارهای مبتنی بر ابر در دسترس برای ذخیره داده ها و انجام عملیات محاسباتی و زمان اجرای راه حل مبتنی بر ابر به جای سرمایه گذاری در سخت افزار محلی آشنا باشند.

برنامه نويسي

من اعتقاد راسخ دارم که چه خود را یک تحلیلگر GIS یا یک دانشمند داده در نظر بگیرید، اگر دانش برنامه نویسی اولیه داشته باشید، زندگی شما بسیار آسان تر خواهد شد. توانایی خودکار کردن برخی از فرآیندها می تواند صدها ساعت از انجام کارهای کسل کننده و تکراری شما را نجات دهد و بسیاری از اشتباهات را کاهش دهد. من همچنین معتقدم که برنامه نویسی در واقع ساده تر از بسیاری از راه حل های غیر برنامه نویسی است که اغلب اختصاصی هستند و در معرض تغییر هستند و دیر یا زود شما به چیزی نیاز خواهید داشت که بدون برنامه نویسی امکان پذیر نیست. بسیاری از ابزارهایی که معمولاً توسط دانشمندان داده استفاده می شود در واقع به برنامه نویسی نیاز دارند. برنامه نویسی اغلب نسبتاً ساده است، شما نیازی به مدرک علوم کامپیوتر ندارید، اما سطحی از برنامه نویسی ضروری است. دو زبان رایج مورد استفاده توسط دانشمندان داده R و Python هستند.

R یک زبان منبع باز است که به عنوان زبانی برای تجزیه و تحلیل آماری شروع شد. دانشمندان داده با پیشینه قوی در آمار ممکن است با R بسیار آشنا باشند، به خصوص اگر تحصیلات رسمی آنها در 15 سال گذشته یا بیشتر باشد، زیرا اکنون اکثر دوره های آمار کالج از R استفاده می کنند. R تقریباً روی همه پلتفرم‌ها اجرا می‌شود و دارای اکوسیستم غنی از بسته‌های شخص ثالث برای تقریباً هر هدفی از جمله کار با پایگاه‌های داده، کار با داده‌های مکانی بردار و رستری ، یادگیری ماشین، تجسم و پردازش موازی است.

پایتون همچنین یک زبان منبع باز است و اگرچه به عنوان یک زبان با هدف عمومی تر شروع به کار کرد، اما همچنین دارای طیف گسترده ای از بسته های شخص ثالث در دسترس است که توانایی تجزیه و تحلیل داده ها، تجسم و تقریباً هر چیز دیگری را که ممکن است بخواهید خودکار کنید را ارائه می دهد. رایانه ای شامل صفحات وب، ایمیل، خواندن و نوشتن تقریباً هر نوع فایلی که فکرش را بکنید، و غیره. بیشتر نرم افزارهای اصلی دسکتاپ GIS دارای API های Python برای خودکارسازی و سفارشی کردن عملیات GIS هستند و بنابراین دانشمندان داده های مکانی ممکن است با پایتون آشنا باشند و ترجیح دهند. آن را به R.

در پایان، انتخاب استفاده از پایتون یا R به ترجیحات شخصی و آنچه با آن آشنایی دارید بستگی دارد. هر دو ابزارهایی را در اختیار دانشمند داده قرار می دهند که برای کار با حجم زیادی از داده ها نیاز دارند. اگر شما یک مبتدی برنامه نویسی کامل هستید که علاقه مند به گسترش مجموعه مهارت های خود در حوزه علم داده های مکانی هستید، من Python را به عنوان اولین انتخاب شما برای یادگیری توصیه می کنم. این یک زبان آسان برای یادگیری است و در حال حاضر در اکثر نرم افزارهای دسکتاپ GIS گنجانده شده است و بسیار انعطاف پذیر است.

گزارش و تجسم

تقریباً تمام گردش‌های کاری تجزیه و تحلیل داده‌ها با نیاز به ارتباط نتایج به کاربر نهایی پایان می‌یابد. این به طور کلی مستلزم گزارشی است که جزئیات مراحلی را که برای انجام تجزیه و تحلیل انجام داده‌اید و نتایج اغلب به شکل جداول و نمودارها را شامل می‌شود. به طور سنتی، نرم‌افزار واژه‌پردازی برای تولید گزارش به‌عنوان یک محصول مستقل استفاده می‌شود که جداول و نمودارهای ثابت را که اغلب در نرم‌افزار صفحه‌گسترده و نقشه‌های استاتیک تولید شده در نرم‌افزار GIS رومیزی تولید می‌شوند، در خود جای می‌دهد. با این حال، این گردش کار کارآمدترین نیست. در یک دنیای ایده آل، گزارش باید به گونه ای نوشته شود که شخصی با دسترسی به گزارش و داده های اصلی که شما استفاده کرده اید، بتواند کار شما را تکرار کند و دقیقاً همان نتیجه را بگیرد. برای اینکه این اتفاق بیفتد، باید دقت کرد که گام به گام دقیقاً آنچه را که در تحلیل خود انجام داده اید توضیح دهید.

ابزاری که معمولاً در دنیای علم داده برای گزارش و تجسم استفاده می شود، Jupyter Notebook است. نوت بوک های Jupyter به شما این امکان را می دهند که اسناد متنی را با بلوک های کد و خروجی آن عملیات ادغام کنید. آنها را می توان با پایتون و R و همچنین چند زبان برنامه نویسی دیگر استفاده کرد. یک مزیت کلیدی این است که آنها پویا هستند و بنابراین می توان آنها را در صورت نیاز اصلاح کرد. هر کد بلوک می تواند توسط هرکسی که به دفترچه یادداشت دسترسی دارد اصلاح و اجرا شود و به راحتی با دیگرانی که ممکن است بخواهند تحلیل شما را تکرار کنند یا از روش هایی که شما استفاده کرده اید با داده های خود استفاده کنند، به اشتراک گذاشته شود. از اسناد متنی برای توضیح هر مرحله از فرآیند استفاده می شود و سپس کاربر می تواند کد دقیقی را که برای پیاده سازی آن استفاده شده و نتایج را مشاهده کند. این ترکیبی از اسناد، کد،

به عنوان مثال پروژه ای را در نظر بگیرید که سال ها پیش روی آن کار کردم. شرکتی که من در آن کار می‌کردم وظیفه داشت اجازه یک پروژه خورشیدی را بدهد که تقریباً 8 مایل مربع را پوشش می‌داد. در ابتدا این پروژه به یک شرکت مشاوره متفاوت داده شده بود، اما مدیران پروژه از عملکرد آنها ناراضی بودند و از رئیس من پرسیدند که آیا می تواند سریعتر پاسخ های مورد نیاز را دریافت کند. بنابراین رئیسم از من پرسید که چه چیزی طول می کشد و من توانستم آن پاسخ ها را در یک یا دو روز به جای پروانه هایی که آنها منتظر بودند ارائه دهم. این باعث خوشحالی همه شد و ما بیشتر و بیشتر کار کردیم و در نهایت کل پروژه را به عهده گرفتیم. این پروژه در زمین عمومی بود و با توجه به مسائل زیست محیطی و موارد دیگر تغییرات زیادی ایجاد شد و هر بار مجبور شدم تحلیل های پیچیده ای را با نرم افزار دسکتاپ GIS انجام دهم و هر بار نیاز داشت که تقریباً همان مراحل را با برنامه های مختلف انجام دهم. مجموعه ای از داده ها و بسیار وقت گیر بود. در نهایت چند چالش قانونی برای پروژه وجود داشت و ناگهان، یک سال بعد، رئیس من مجبور شد در دادگاه شهادت دهد و از من خواست تا شرح مفصلی از تمام کارهایی که انجام داده‌ام ارائه دهم. این کار چندین ماهه بود و با “فقط هر چه سریعتر انجامش دهید” شروع شد و بنابراین بازگشت یک سال بعد و مستند کردن تمام کارهایی که انجام داده بودم کاری دلهره آور، وقت گیر و خسته کننده بود. یک سال بعد، رئیسم مجبور شد در دادگاه شهادت دهد و از من خواست که شرح مفصلی از کارهایی که انجام داده‌ام ارائه دهم. این کار چندین ماهه بود و با “فقط هر چه سریعتر انجامش دهید” شروع شد و بنابراین بازگشت یک سال بعد و مستند کردن تمام کارهایی که انجام داده بودم کاری دلهره آور، وقت گیر و خسته کننده بود. یک سال بعد، رئیسم مجبور شد در دادگاه شهادت دهد و از من خواست که شرح مفصلی از کارهایی که انجام داده‌ام ارائه دهم. این کار چندین ماهه بود و با “فقط هر چه سریعتر انجامش دهید” شروع شد و بنابراین بازگشت یک سال بعد و مستند کردن تمام کارهایی که انجام داده بودم کاری دلهره آور، وقت گیر و خسته کننده بود.

حالا در نظر بگیرید که آیا من از یک گردش کار معمولی تری در علم داده با یک نوت بوک Jupyter استفاده کرده بودم یا خیر. اول از همه، من مجبور نبودم تمام دکمه‌هایی را که برای دریافت نتایج اصلی فشار دادم توضیح دهم، زیرا کد دقیقاً در دفترچه یادداشت وجود داشت. دوم اینکه من مجبور نبودم همه آن دکمه ها را دوباره فشار دهم هر بار که داده های اصلی تغییر می کرد (این ده ها بار اتفاق افتاده است). می توانستم ورودی اصلی را تغییر دهم و کل نوت بوک را با یک مرحله آسان دوباره اجرا کنم. در نهایت وقتی از من خواسته شد که تمام کارهایم را مستند کنم، همه آن‌ها را در دفترچه یادداشت داشتم. این باعث می شد صدها ساعت کار یکنواخت و مقدار ناگفته ای از ناامیدی برایم حفظ شود. علاوه بر این، هر بار که تجزیه و تحلیل را با GIS دسکتاپ دوباره انجام می دادم، ده ها فایل میانی تولید می کردم و به یک کابوس مدیریت فایل تبدیل می شدم.

در این مرحله ممکن است به این فکر کنید که خوب می‌توانستید به جای اجرای مکرر تحلیل‌های مشابه، یک مدل بسازید. این درست است، و اگر در زمان شروع می‌دانستم که باید آن را دوباره انجام می‌دادم، بارها می‌توانستم این کار را در ابتدا انجام دهم و این باعث صرفه‌جویی در زمانم می‌شد. اما دلایل متعددی وجود دارد که چرا این یک راه حل ایده آل نیست. اول از همه، گزارش هنوز کاملاً از مدل جدا است. شما همچنان باید خروجی های مدل را به نرم افزارهای دیگر صادر کنید تا جداول، شکل ها، نقشه ها و غیره ایجاد کنید و آنها را در گزارش بگنجانید. دوم، مدل‌ها نسبتاً سفت و سخت هستند و در صورت نیاز به ایجاد تغییر جزئی، همیشه به راحتی نمی‌توان آن‌ها را تغییر داد. سوم، مدل‌ها تمایل به اختصاصی بودن دارند و اگر به نقطه‌ای برسید که اطلاعات شما از محدودیت نرم‌افزاری که استفاده می‌کنید فراتر رود، گیر کرده‌اید.

راه دیگری برای انتقال نتایج تجزیه و تحلیل شما از طریق یک رابط مبتنی بر وب است. در طول اپیدمی اخیر کووید، ایده داشبورد مبتنی بر وب به بخشی از فرهنگ لغت محبوب تبدیل شد. اینها صرفاً یک صفحه وب بودند که داده‌ها را از منابع مختلف برای نمایش داده‌های جاری در زمان واقعی درباره همه‌گیری در قالب‌های جدولی، گرافیکی و نقشه‌برداری در خود جای داده بود. به عنوان یک دانشمند داده، احتمالاً نیازی نیست خودتان یکی از این داشبوردها را ایجاد کنید، اما ممکن است مجبور شوید با یک توسعه دهنده وب کار کنید تا توضیح دهید که چه اطلاعاتی را می خواهید نمایش دهید، چگونه به آن اطلاعات دسترسی پیدا کنید، و محتوایی را در توضیح داده ها و توضیح دهید. نحوه استفاده از سایت برای کاربران نهایی

مزایای رویکرد علم داده های جغرافیایی

امیدواریم اگر تا اینجا خوانده باشید، مزایایی را در این رویکرد نسبت به نرم‌افزار سنتی GIS مشاهده کرده‌اید. مزایای اصلی به نظر من فقدان محدودیت ها، استفاده از نرم افزار منبع باز، و توانایی ترکیب اسناد، کد و نتایج در یک نوت بوک Jupyter است.

هیچ چیز برای مدیریت خسته کننده تر از این نیست که رهبران GIS خود به آنها بگویند نرم افزار GIS که هزاران دلار برای آن هزینه کرده اند محدود است و برای ارتقاء به نرم افزار جدید و آموزش پرسنل برای استفاده از آن باید ده ها هزار دلار دیگر هزینه کنند. برای رسیدگی به نیازهای پروژه های جاری

اجزای پشته علم داده های جغرافیایی پایتون

چیزی که هنگام حرکت از دنیای تجاری GIS به استفاده از نرم‌افزار منبع باز می‌تواند گیج‌کننده باشد این است که اغلب راه‌های زیادی برای انجام همان کار وجود دارد و درک تفاوت‌ها و انتخاب بهترین گزینه برای اهداف شما می‌تواند دلهره‌آور باشد. در زیر مجموعه‌ای از مؤلفه‌ها را مورد بحث قرار می‌دهم که اکثر وظایف اولیه علم داده‌های جغرافیایی را به خوبی انجام می‌دهند. آنها دارای جوامع کاربری بزرگ هستند، به خوبی مستند شده اند، به خوبی با یکدیگر ادغام می شوند و به اکثر مبتدیان خدمات خوبی خواهند داد. این یک نقطه شروع است اما دانش اولیه لازم برای حرکت به سمت ابزارهای پیشرفته تر را در صورت لزوم و در صورت لزوم فراهم می کند.

  1. پایگاه داده – PostgreSQL و PostGIS. PostGIS یک افزونه geospatial برای PostgreSQL است که امکان ذخیره و تجزیه و تحلیل داده های مکانی را فراهم می کند. نصب آنها بر روی همه پلتفرم ها (ویندوز، مک او اس و لینوکس) آسان است و بنابراین می توانید یادگیری را در رایانه محلی خود شروع کنید و در صورت لزوم، داده های خود را به سروری در شبکه شرکتی خود یا سرور میزبانی شده قابل دسترسی از طریق اینترنت منتقل کنید. با سهولت. ذخیره داده های شما در یک پایگاه داده در سطح سازمانی امکان ویرایش چند کاربره را فراهم می کند و به شما امکان می دهد از راه دور به داده های خود از GIS دسکتاپ، برنامه های نقشه برداری وب/داشبورد و برنامه های جمع آوری داده های تلفن همراه دسترسی داشته باشید. در اینجا می توانید در مورد پایگاه های داده به طور کلی و PostgreSQL و PostGIS اطلاعات بیشتری کسب کنید .
  2. پایتون – چندین توزیع از پایتون موجود است. این احتمال وجود دارد که قبلاً یکی از آنها را روی رایانه خود نصب کرده باشید، به خصوص اگر نرم افزار GIS دسکتاپ را نصب کرده باشید. اگرچه امکان استفاده از توزیع موجود وجود دارد، من توصیه می‌کنم توزیع Anaconda را برای کاربردهای علم داده نصب کنید. Anaconda با تمام بسته های مورد نیاز برای علم داده مانند نوت بوک های Jupyter، Pandas، Matplotlib، Scikit-learn و موارد دیگر ارائه می شود. سیستم مدیریت بسته Anaconda تمایل دارد با کتابخانه‌های مکانی خاص مانند GDAL، GEOS و PROJ که ستون فقرات تجزیه و تحلیل مکانی هستند بهتر کار کند و زندگی را برای اکثر کاربران آسان‌تر می‌کند. در اینجا می‌توانید درباره Python برای کاربردهای مکانی اطلاعات بیشتری کسب کنید .
  3. Pandas and Geopandas – Pandas یک کتابخانه اصلی برای کار با داده ها در پایتون است. این امکان را به شما می دهد تا داده ها را از منابع مختلف (از جمله پایگاه داده راه دور) در یک دیتافریم درون حافظه بخوانید. هنگامی که داده‌ها در Pandas قرار می‌گیرند، ابزارهای متنوعی برای دستکاری و تجسم آن‌ها در دسترس است، و اکثر بسته‌های دیگر در پشته علم داده پایتون با داده‌ها در یک قاب داده پاندا کار می‌کنند. Geospandas یک توسعه جغرافیایی برای Pandas است که به شما امکان می‌دهد داده‌های مکانی را در یک geodataframe بخوانید که شامل داده‌های برداری است و همچنین شامل ابزارهای خاص مکانی برای دستکاری و تجسم داده‌های مکانی است. در اینجا می توانید درباره پانداها و ژئوپانداها بیشتر بدانید .
  4. Statsmodels و Scikit-learn – Statsmodels به فرد اجازه می دهد تا تجزیه و تحلیل آماری سنتی را در پایتون با استفاده از داده های ذخیره شده در قالب داده پاندا (یا geodataframe) انجام دهد. Scikit-learn شامل تعداد زیادی الگوریتم و ابزار یادگیری ماشین برای ایجاد مجموعه داده های آموزشی، کاوش فضای پارامترها و ارزیابی مدل های مختلف است. مانند Statsmodels، Scikit-learn با پانداها و ژئوپانداها ادغام می شود. در اینجا می‌توانید درباره تجزیه و تحلیل آماری و یادگیری ماشینی با داده‌های مکانی اطلاعات بیشتری کسب کنید .
  5. Matplotlib، Seaborn، Rasterio، Plotly – اینها همه بسته‌های پایتون هستند که به شما امکان می‌دهند تجسم‌های ایستا و پویا را از داده‌های جدولی (نمودارها) و داده‌های مکانی (نقشه‌ها) ایجاد کنید. اگرچه جایگزینی برای ابزارهای نقشه برداری موجود در GIS دسکتاپ یا ابزارهای نموداری موجود در صفحه گسترده و نرم افزارهای آماری نیست، اما می توان خروجی بسیار خوبی ایجاد کرد که در محیط پویا یک نوت بوک Jupyter به همراه مستندات، کدهای شما ادغام شود. و داده ها این یک محیط بسیار قدرتمند برای تجزیه و تحلیل داده ها و گزارش ها فراهم می کند. در اینجا می توانید اطلاعات بیشتری در مورد این ابزارها کسب کنید .

بدون دیدگاه

دیدگاهتان را بنویسید