علم داده های مکانی در مقابل GIS:اصطلاح “علم داده” در چند سال گذشته به یکی از داغ ترین توصیفات شغلی تبدیل شده است، اما دقیقا به چه معناست؟ آیا متخصصان GIS می توانند خود را «دانشمندان داده» بنامند؟ برخی گزارشها حاکی از آن است که مشاغلی که برای «دانشمندان داده» و بهویژه «دانشمندان دادههای جغرافیایی» فراخوان داده میشوند، ۲۵ درصد بیشتر از مشاغلی که «تحلیلگر GIS» دارند، دستمزد میگیرند. آیا واقعاً تفاوتی وجود دارد یا فقط آخرین کلمه رایج است؟
من استدلال می کنم که در حالی که همپوشانی های زیادی بین GIS و علم داده های جغرافیایی وجود دارد، آنها یک چیز نیستند و تفاوت های مهمی وجود دارد. برخی، از جمله ناتی سیلور، استدلال کرده اند که “علم داده” در واقع فقط نام دیگری برای آمار است و دوباره، در حالی که همپوشانی زیادی بین آمار و علم داده وجود دارد، من استدلال می کنم که آنها یک چیز نیستند. پس علم داده دقیقاً چیست؟ من پیشنهاد می کنم که به ساده ترین عبارت ممکن، نقش یک دانشمند داده استخراج اطلاعات قابل استفاده از داده های خام و انتقال آن اطلاعات به ذینفعان است. برای انجام این کار، آنها باید به ابزارهای مختلف از جمله تسلط کامل داشته باشند
- آمار
- یادگیری ماشین و هوش مصنوعی
- فناوری پایگاه داده
- زیرساخت فناوری اطلاعات
- برنامه نويسي
- روش های گزارش دهی و تصویرسازی
همه این موضوعات به خودی خود کاملاً متراکم هستند و احتمالاً برای هیچ فردی غیرممکن است که در همه آنها متخصص باشد. اکثر دانشمندان داده احتمالاً در یک یا دو مورد از این زمینهها تخصص خواهند داشت، اما من استدلال میکنم که برای اینکه خود را دانشمند داده بنامید، باید حداقل در مفاهیم اساسی هر یک به خوبی مستقر باشید. به عنوان مثال، ممکن است شما یک دکترای آمار داشته باشید و تمام ریاضیات پشت روش ها را بدانید و در آستانه توسعه روش های آماری جدید باشید، اما اگر هیچ پیشینه ای در زمینه پایگاه داده یا زیرساخت فناوری اطلاعات برای مقابله با مقادیر زیادی از این روش ها ندارید. داده های رایج در دنیای مدرن شما یک دانشمند داده نیستید.
ابزارهای دانشمند داده
آمار
بله، برای اینکه یک دانشمند داده باشید، به یک پایه محکم در آمار نیاز دارید. هدف در نهایت کاهش داده های خام به دانش قابل استفاده است. لازم نیست آمارگیر باشید، اما باید به اندازه کافی در مورد روش های آماری آگاهی داشته باشید تا حداقل ایده ای در مورد اینکه کدام تکنیک های تحلیلی مناسب هستند و چگونه یک مدل آماری را با داده های خود تطبیق دهید، فرضیات آزمون و نتایج را تفسیر کنید. اگر سؤالاتی که میپرسید به اندازه کافی مهم هستند، همیشه میتوانید با یک آمارگیر مشورت کنید تا مطمئن شوید که جزئیات فنی را درست میبینید، اما باید بتوانید آن جزئیات را به خوبی مورد بحث قرار دهید و باید بدانید که چگونه توصیههای او را اجرا کنید. در هر پلتفرمی که استفاده می کنید.
یادگیری ماشینی / هوش مصنوعی
بسیاری از مفاهیم پشت آمار و یادگیری ماشین مشابه هستند، اما هدف متفاوت است. آمار تلاش می کند تا بر اساس نمونه ای از آن جامعه استنباط به یک جامعه داشته باشد. یادگیری ماشین تلاش می کند تا بر اساس مجموعه آموزشی از مقادیر شناخته شده، در مورد مقادیر ناشناخته پیش بینی کند. برخی از روشهای آماری مانند رگرسیون خطی و رگرسیون لجستیک نیز میتوانند بهعنوان الگوریتمهای یادگیری ماشینی مورد استفاده قرار گیرند، اما این پیشبینی است که به جای ساختار دادههای زیربنایی و آنچه در مورد جمعیت مورد نظر دلالت دارد، مورد توجه اولیه است.
در تحقیقات علمی، قبل از جمعآوری دادهها، میتوان در مورد اینکه کدام مدل آماری مناسب است فکر کرد و سپس میتوان دادهها را به گونهای جمعآوری کرد که اطمینان حاصل شود که مفروضات روش آماری برآورده میشوند. عوامل مخدوش کننده را می توان کنترل کرد و مدل های توضیحی جایگزین (که هر کدام یک فرضیه را نشان می دهند) می توانند به طور رسمی با درجه بالایی از دقت آزمایش شوند. اغلب دادههای بسیار محدودی در دسترس است، زیرا این دادهها باید به طور خاص برای هدف مورد نظر جمعآوری شوند.
با این حال، در دنیای امروز، حجم عظیمی از داده ها به صورت روزانه جمع آوری می شوند که اغلب در دسترس عموم قرار می گیرند. این شامل مکانهای GPS از تلفنهای همراه، تاریخچه مرور، هزینههای کارت اعتباری، پستهای رسانههای اجتماعی، تصاویر ماهوارهای و غیره میشود. این دادهها اغلب برای مقاصدی غیر از آنچه در ابتدا برای آن جمعآوری شده بود مفید است و یافتن الگوها در این دادهها قلمرو یادگیری ماشین است. . آنچه که این داده فاقد ویژگی است، اغلب از نظر کمیت جبران می کند و امکان تشخیص اثرات نسبتاً کوچک اما واقعی را فراهم می کند.
هوش مصنوعی یا هوش مصنوعی را میتوان از نظر مفهومی به عنوان توسعهای از یادگیری ماشین در نظر گرفت که امکان تشخیص الگوهایی را فراهم میکند که با یک مدل خاص مطابقت ندارند. در حالی که الگوریتمهای یادگیری ماشین معمولاً شبیه به مدلهای آماری هستند، هوش مصنوعی معمولاً شامل شبکههای عصبی است که میتوانند الگوهای متنوعی را متناسب کنند. نقاط ضعف این است که آنها معمولاً به تخمین پارامترهای بیشتری نیاز دارند و بسیار کامپیوتر فشرده هستند. این همچنین آنها را کمی بیشتر به یک رویکرد “جعبه سیاه” تبدیل می کند که به درک کمی از الگوهای اساسی نیاز دارد.
دانشمندان دادههای جغرافیایی میتوانند از یادگیری ماشین و هوش مصنوعی برای پاسخ به سؤالاتی مانند «چند اتومبیل بین ساعت 9 صبح تا 5 بعد از ظهر از این مکان عبور میکنند؟»، «کدام شهرها احتمالاً محصولات من را بیشتر خریداری میکنند؟» و «همه کجا هستند؟» استفاده کنند. استخرهای سهام در این شهرستان؟».
فناوری پایگاه داده
به دلیل حجم زیادی از اطلاعاتی که امروزه جمع آوری می شود، ذخیره سازی مبتنی بر فایل های سنتی اغلب ناکافی است. پایگاه داده های سطح سازمانی مانند Oracle، SQL Server و PostgreSQL مزایای زیادی نسبت به ذخیره سازی مبتنی بر فایل ارائه می دهند. این موارد شامل ویرایش چند کاربره، عملکرد، تقریباً بدون محدودیت در اندازه، توانایی سفارشی سازی مطابق با نیازهای شما، امنیت، استحکام و دسترسی از سایر پلتفرم ها است.
در حالی که می توان با داده ها در یک پایگاه داده در سطح سازمانی با استفاده از ابزارهای نقطه و کلیک استاندارد در نرم افزار دسکتاپ GIS بدون دانش بسیار بیشتر از آنچه برای ذخیره سازی داده های فایل مسطح نیاز است کار کرد، برای استفاده واقعی از تمام مزایا نیاز به دانش SQL است. زبان برنامه نویسی مورد استفاده برای تعامل با اکثر پایگاه های داده)، زیرساخت شبکه، سرورهای راه دور و غیره.
یک دانشمند داده حداقل باید نحوه اتصال به یک پایگاه داده راه دور، دسترسی به داده های ذخیره شده در جداول با استفاده از SQL و خروجی آن داده ها را به شکلی که می تواند توسط نرم افزاری که برای تجزیه و تحلیل آن داده ها استفاده می شود، بداند. . به احتمال زیاد، آنها همچنین به درک درستی از راهاندازی حسابهای کاربری برای کنترل دسترسی افراد به دادهها، راهاندازی نمونهای از پایگاه داده روی سرور، و برقراری ارتباط با بخش فناوری اطلاعات خود در مورد مواردی مانند پشتیبانگیری، تکرار، کنترل تراکنش و غیره نیاز دارند. .
یک دانشمند داده های جغرافیایی همچنین نیاز به درک پسوندهای جغرافیایی موجود در اکثر پلتفرم های پایگاه داده دارد. این امکان ذخیره و تجزیه و تحلیل داده های برداری و رستری را مستقیماً در پایگاه داده بدون نیاز به نرم افزار تخصصی GIS فراهم می کند. اکثر متخصصان GIS از آنچه که میتوان به سرعت و کارآمد با Spatial SQL انجام داد، متعجب میشوند.
اگرچه منحنی یادگیری مرتبط با انتقال به پایگاههای اطلاعاتی در سطح سازمانی وجود دارد، مزایا قابل توجه است و فناوری قوی و پایدار است. SQL به مدت 40 سال بسیار اندک تغییر کرده است و به احتمال زیاد در آینده قابل پیش بینی تغییر زیادی نخواهد کرد، بنابراین آنچه اکنون یاد می گیرید و رویه هایی که اجرا می کنید مشمول تصمیمات دلخواه بخش بازاریابی نرم افزار تجاری GIS برای تغییر ناگهانی پلت فرم اساسی نیستند.
زیرساخت فناوری اطلاعات
با توجه به حجم انبوه داده های موجود برای استفاده عمومی، ممکن است لازم باشد آن داده ها را در چندین رایانه که به صورت یک خوشه به یکدیگر متصل شده اند، پخش کرد. خوشه ها همچنین برای افزایش عملکرد برای رویه های محاسباتی فشرده استفاده می شوند. با اتصال چندین رایانه به یکدیگر، فضای دیسک بیشتری برای ذخیره سازی داده ها و قدرت پردازش بیشتری برای محاسبات در دسترس دارید.
با این حال، استفاده از چندین رایانه برای قدرت پردازش به طور خودکار اتفاق نمی افتد. اکثر نرم افزارهای دسکتاپ GIS از مزایای محدودی از چندین پردازنده بهره می برند. وظایف geoprocessing جداگانه ممکن است به پردازنده های جداگانه ارسال شود تا با یکدیگر یا با رابط کاربری برنامه اصلی تداخل نداشته باشند و این یک مزیت است. اما CPUهای مدرن معمولاً چندین هسته دارند و استفاده از این قدرت پردازشی برای یک عملیات ساده نیست. نرم افزار باید به گونه ای نوشته شود که بتواند یک فرآیند را به فرآیندهای مستقل تقسیم کند که می تواند به پردازنده های جداگانه ارسال شود و سپس در یک نتیجه واحد جمع شود. این فرآیند به عنوان موازی سازی شناخته می شود و می تواند مزایای عملکرد فوق العاده ای را در عملیات فشرده پردازشگر حتی در یک کامپیوتر با یک CPU چند هسته ای ارائه دهد. هنگامی که در چندین رایانه پخش می شود، افزایش عملکرد تقریبا نامحدود است. هنگامی که کد برای چندین هسته بهینه شده است، عملیاتی که ساعت ها روی یک هسته طول می کشد ممکن است چند ثانیه طول بکشد.
نوشتن کدهای پردازش موازی یک فناوری پیشرفته است و قطعاً به جای علم داده در حوزه علوم رایانه قرار می گیرد. بعید است که دانشمندان داده هرگز با چنین وظیفه ای روبرو شوند، اما به احتمال زیاد دانشمندان داده، به ویژه دانشمندان داده های جغرافیایی، در مقطعی وظیفه خود را با مشکل مربوط به عملیات فشرده پردازشگر در مجموعه داده های بزرگ مواجه می کنند و باید در نظر بگیرند. با استفاده از نرم افزار بهینه شده برای عملیات موازی برای بهبود عملکرد. هیچ چیز ناامید کننده تر از خرج کردن مقدار زیادی پول برای رایانه های جدید گران قیمت با پردازنده های چند هسته ای و فهمیدن این نیست که آن عملیات تقاطع عظیم را سریعتر اجرا نمی کند زیرا نرم افزاری که استفاده می کنید هنوز کل فرآیند را روی یک هسته واحد اجرا می کند. و هسته های دیگر هیچ کاری انجام نمی دهند. استفاده از نرمافزاری که از چندین هسته و حتی GPU (واحد پردازش گرافیک) برای استفاده از تمام هستههای موجود بر روی یک CPU یا در مجموعهای از رایانههای متصل به شبکه استفاده میکند، اغلب مقرون به صرفهتر است. بنابراین یک دانشمند داده حداقل باید بداند چه نرم افزاری از پردازش موازی بهره می برد و می تواند در یک خوشه پیاده سازی شود. آنها همچنین باید با ابزارهای مبتنی بر ابر در دسترس برای ذخیره داده ها و انجام عملیات محاسباتی و زمان اجرای راه حل مبتنی بر ابر به جای سرمایه گذاری در سخت افزار محلی آشنا باشند. بنابراین یک دانشمند داده حداقل باید بداند که چه نرم افزاری از پردازش موازی بهره می برد و می تواند در یک خوشه پیاده سازی شود. آنها همچنین باید با ابزارهای مبتنی بر ابر در دسترس برای ذخیره داده ها و انجام عملیات محاسباتی و زمان اجرای راه حل مبتنی بر ابر به جای سرمایه گذاری در سخت افزار محلی آشنا باشند. بنابراین یک دانشمند داده حداقل باید بداند که چه نرم افزاری از پردازش موازی بهره می برد و می تواند در یک خوشه پیاده سازی شود. آنها همچنین باید با ابزارهای مبتنی بر ابر در دسترس برای ذخیره داده ها و انجام عملیات محاسباتی و زمان اجرای راه حل مبتنی بر ابر به جای سرمایه گذاری در سخت افزار محلی آشنا باشند.
برنامه نويسي
من اعتقاد راسخ دارم که چه خود را یک تحلیلگر GIS یا یک دانشمند داده در نظر بگیرید، اگر دانش برنامه نویسی اولیه داشته باشید، زندگی شما بسیار آسان تر خواهد شد. توانایی خودکار کردن برخی از فرآیندها می تواند صدها ساعت از انجام کارهای کسل کننده و تکراری شما را نجات دهد و بسیاری از اشتباهات را کاهش دهد. من همچنین معتقدم که برنامه نویسی در واقع ساده تر از بسیاری از راه حل های غیر برنامه نویسی است که اغلب اختصاصی هستند و در معرض تغییر هستند و دیر یا زود شما به چیزی نیاز خواهید داشت که بدون برنامه نویسی امکان پذیر نیست. بسیاری از ابزارهایی که معمولاً توسط دانشمندان داده استفاده می شود در واقع به برنامه نویسی نیاز دارند. برنامه نویسی اغلب نسبتاً ساده است، شما نیازی به مدرک علوم کامپیوتر ندارید، اما سطحی از برنامه نویسی ضروری است. دو زبان رایج مورد استفاده توسط دانشمندان داده R و Python هستند.
R یک زبان منبع باز است که به عنوان زبانی برای تجزیه و تحلیل آماری شروع شد. دانشمندان داده با پیشینه قوی در آمار ممکن است با R بسیار آشنا باشند، به خصوص اگر تحصیلات رسمی آنها در 15 سال گذشته یا بیشتر باشد، زیرا اکنون اکثر دوره های آمار کالج از R استفاده می کنند. R تقریباً روی همه پلتفرمها اجرا میشود و دارای اکوسیستم غنی از بستههای شخص ثالث برای تقریباً هر هدفی از جمله کار با پایگاههای داده، کار با دادههای مکانی بردار و رستری ، یادگیری ماشین، تجسم و پردازش موازی است.
پایتون همچنین یک زبان منبع باز است و اگرچه به عنوان یک زبان با هدف عمومی تر شروع به کار کرد، اما همچنین دارای طیف گسترده ای از بسته های شخص ثالث در دسترس است که توانایی تجزیه و تحلیل داده ها، تجسم و تقریباً هر چیز دیگری را که ممکن است بخواهید خودکار کنید را ارائه می دهد. رایانه ای شامل صفحات وب، ایمیل، خواندن و نوشتن تقریباً هر نوع فایلی که فکرش را بکنید، و غیره. بیشتر نرم افزارهای اصلی دسکتاپ GIS دارای API های Python برای خودکارسازی و سفارشی کردن عملیات GIS هستند و بنابراین دانشمندان داده های مکانی ممکن است با پایتون آشنا باشند و ترجیح دهند. آن را به R.
در پایان، انتخاب استفاده از پایتون یا R به ترجیحات شخصی و آنچه با آن آشنایی دارید بستگی دارد. هر دو ابزارهایی را در اختیار دانشمند داده قرار می دهند که برای کار با حجم زیادی از داده ها نیاز دارند. اگر شما یک مبتدی برنامه نویسی کامل هستید که علاقه مند به گسترش مجموعه مهارت های خود در حوزه علم داده های مکانی هستید، من Python را به عنوان اولین انتخاب شما برای یادگیری توصیه می کنم. این یک زبان آسان برای یادگیری است و در حال حاضر در اکثر نرم افزارهای دسکتاپ GIS گنجانده شده است و بسیار انعطاف پذیر است.
گزارش و تجسم
تقریباً تمام گردشهای کاری تجزیه و تحلیل دادهها با نیاز به ارتباط نتایج به کاربر نهایی پایان مییابد. این به طور کلی مستلزم گزارشی است که جزئیات مراحلی را که برای انجام تجزیه و تحلیل انجام دادهاید و نتایج اغلب به شکل جداول و نمودارها را شامل میشود. به طور سنتی، نرمافزار واژهپردازی برای تولید گزارش بهعنوان یک محصول مستقل استفاده میشود که جداول و نمودارهای ثابت را که اغلب در نرمافزار صفحهگسترده و نقشههای استاتیک تولید شده در نرمافزار GIS رومیزی تولید میشوند، در خود جای میدهد. با این حال، این گردش کار کارآمدترین نیست. در یک دنیای ایده آل، گزارش باید به گونه ای نوشته شود که شخصی با دسترسی به گزارش و داده های اصلی که شما استفاده کرده اید، بتواند کار شما را تکرار کند و دقیقاً همان نتیجه را بگیرد. برای اینکه این اتفاق بیفتد، باید دقت کرد که گام به گام دقیقاً آنچه را که در تحلیل خود انجام داده اید توضیح دهید.
ابزاری که معمولاً در دنیای علم داده برای گزارش و تجسم استفاده می شود، Jupyter Notebook است. نوت بوک های Jupyter به شما این امکان را می دهند که اسناد متنی را با بلوک های کد و خروجی آن عملیات ادغام کنید. آنها را می توان با پایتون و R و همچنین چند زبان برنامه نویسی دیگر استفاده کرد. یک مزیت کلیدی این است که آنها پویا هستند و بنابراین می توان آنها را در صورت نیاز اصلاح کرد. هر کد بلوک می تواند توسط هرکسی که به دفترچه یادداشت دسترسی دارد اصلاح و اجرا شود و به راحتی با دیگرانی که ممکن است بخواهند تحلیل شما را تکرار کنند یا از روش هایی که شما استفاده کرده اید با داده های خود استفاده کنند، به اشتراک گذاشته شود. از اسناد متنی برای توضیح هر مرحله از فرآیند استفاده می شود و سپس کاربر می تواند کد دقیقی را که برای پیاده سازی آن استفاده شده و نتایج را مشاهده کند. این ترکیبی از اسناد، کد،
به عنوان مثال پروژه ای را در نظر بگیرید که سال ها پیش روی آن کار کردم. شرکتی که من در آن کار میکردم وظیفه داشت اجازه یک پروژه خورشیدی را بدهد که تقریباً 8 مایل مربع را پوشش میداد. در ابتدا این پروژه به یک شرکت مشاوره متفاوت داده شده بود، اما مدیران پروژه از عملکرد آنها ناراضی بودند و از رئیس من پرسیدند که آیا می تواند سریعتر پاسخ های مورد نیاز را دریافت کند. بنابراین رئیسم از من پرسید که چه چیزی طول می کشد و من توانستم آن پاسخ ها را در یک یا دو روز به جای پروانه هایی که آنها منتظر بودند ارائه دهم. این باعث خوشحالی همه شد و ما بیشتر و بیشتر کار کردیم و در نهایت کل پروژه را به عهده گرفتیم. این پروژه در زمین عمومی بود و با توجه به مسائل زیست محیطی و موارد دیگر تغییرات زیادی ایجاد شد و هر بار مجبور شدم تحلیل های پیچیده ای را با نرم افزار دسکتاپ GIS انجام دهم و هر بار نیاز داشت که تقریباً همان مراحل را با برنامه های مختلف انجام دهم. مجموعه ای از داده ها و بسیار وقت گیر بود. در نهایت چند چالش قانونی برای پروژه وجود داشت و ناگهان، یک سال بعد، رئیس من مجبور شد در دادگاه شهادت دهد و از من خواست تا شرح مفصلی از تمام کارهایی که انجام دادهام ارائه دهم. این کار چندین ماهه بود و با “فقط هر چه سریعتر انجامش دهید” شروع شد و بنابراین بازگشت یک سال بعد و مستند کردن تمام کارهایی که انجام داده بودم کاری دلهره آور، وقت گیر و خسته کننده بود. یک سال بعد، رئیسم مجبور شد در دادگاه شهادت دهد و از من خواست که شرح مفصلی از کارهایی که انجام دادهام ارائه دهم. این کار چندین ماهه بود و با “فقط هر چه سریعتر انجامش دهید” شروع شد و بنابراین بازگشت یک سال بعد و مستند کردن تمام کارهایی که انجام داده بودم کاری دلهره آور، وقت گیر و خسته کننده بود. یک سال بعد، رئیسم مجبور شد در دادگاه شهادت دهد و از من خواست که شرح مفصلی از کارهایی که انجام دادهام ارائه دهم. این کار چندین ماهه بود و با “فقط هر چه سریعتر انجامش دهید” شروع شد و بنابراین بازگشت یک سال بعد و مستند کردن تمام کارهایی که انجام داده بودم کاری دلهره آور، وقت گیر و خسته کننده بود.
حالا در نظر بگیرید که آیا من از یک گردش کار معمولی تری در علم داده با یک نوت بوک Jupyter استفاده کرده بودم یا خیر. اول از همه، من مجبور نبودم تمام دکمههایی را که برای دریافت نتایج اصلی فشار دادم توضیح دهم، زیرا کد دقیقاً در دفترچه یادداشت وجود داشت. دوم اینکه من مجبور نبودم همه آن دکمه ها را دوباره فشار دهم هر بار که داده های اصلی تغییر می کرد (این ده ها بار اتفاق افتاده است). می توانستم ورودی اصلی را تغییر دهم و کل نوت بوک را با یک مرحله آسان دوباره اجرا کنم. در نهایت وقتی از من خواسته شد که تمام کارهایم را مستند کنم، همه آنها را در دفترچه یادداشت داشتم. این باعث می شد صدها ساعت کار یکنواخت و مقدار ناگفته ای از ناامیدی برایم حفظ شود. علاوه بر این، هر بار که تجزیه و تحلیل را با GIS دسکتاپ دوباره انجام می دادم، ده ها فایل میانی تولید می کردم و به یک کابوس مدیریت فایل تبدیل می شدم.
در این مرحله ممکن است به این فکر کنید که خوب میتوانستید به جای اجرای مکرر تحلیلهای مشابه، یک مدل بسازید. این درست است، و اگر در زمان شروع میدانستم که باید آن را دوباره انجام میدادم، بارها میتوانستم این کار را در ابتدا انجام دهم و این باعث صرفهجویی در زمانم میشد. اما دلایل متعددی وجود دارد که چرا این یک راه حل ایده آل نیست. اول از همه، گزارش هنوز کاملاً از مدل جدا است. شما همچنان باید خروجی های مدل را به نرم افزارهای دیگر صادر کنید تا جداول، شکل ها، نقشه ها و غیره ایجاد کنید و آنها را در گزارش بگنجانید. دوم، مدلها نسبتاً سفت و سخت هستند و در صورت نیاز به ایجاد تغییر جزئی، همیشه به راحتی نمیتوان آنها را تغییر داد. سوم، مدلها تمایل به اختصاصی بودن دارند و اگر به نقطهای برسید که اطلاعات شما از محدودیت نرمافزاری که استفاده میکنید فراتر رود، گیر کردهاید.
راه دیگری برای انتقال نتایج تجزیه و تحلیل شما از طریق یک رابط مبتنی بر وب است. در طول اپیدمی اخیر کووید، ایده داشبورد مبتنی بر وب به بخشی از فرهنگ لغت محبوب تبدیل شد. اینها صرفاً یک صفحه وب بودند که دادهها را از منابع مختلف برای نمایش دادههای جاری در زمان واقعی درباره همهگیری در قالبهای جدولی، گرافیکی و نقشهبرداری در خود جای داده بود. به عنوان یک دانشمند داده، احتمالاً نیازی نیست خودتان یکی از این داشبوردها را ایجاد کنید، اما ممکن است مجبور شوید با یک توسعه دهنده وب کار کنید تا توضیح دهید که چه اطلاعاتی را می خواهید نمایش دهید، چگونه به آن اطلاعات دسترسی پیدا کنید، و محتوایی را در توضیح داده ها و توضیح دهید. نحوه استفاده از سایت برای کاربران نهایی
مزایای رویکرد علم داده های جغرافیایی
امیدواریم اگر تا اینجا خوانده باشید، مزایایی را در این رویکرد نسبت به نرمافزار سنتی GIS مشاهده کردهاید. مزایای اصلی به نظر من فقدان محدودیت ها، استفاده از نرم افزار منبع باز، و توانایی ترکیب اسناد، کد و نتایج در یک نوت بوک Jupyter است.
هیچ چیز برای مدیریت خسته کننده تر از این نیست که رهبران GIS خود به آنها بگویند نرم افزار GIS که هزاران دلار برای آن هزینه کرده اند محدود است و برای ارتقاء به نرم افزار جدید و آموزش پرسنل برای استفاده از آن باید ده ها هزار دلار دیگر هزینه کنند. برای رسیدگی به نیازهای پروژه های جاری
اجزای پشته علم داده های جغرافیایی پایتون
چیزی که هنگام حرکت از دنیای تجاری GIS به استفاده از نرمافزار منبع باز میتواند گیجکننده باشد این است که اغلب راههای زیادی برای انجام همان کار وجود دارد و درک تفاوتها و انتخاب بهترین گزینه برای اهداف شما میتواند دلهرهآور باشد. در زیر مجموعهای از مؤلفهها را مورد بحث قرار میدهم که اکثر وظایف اولیه علم دادههای جغرافیایی را به خوبی انجام میدهند. آنها دارای جوامع کاربری بزرگ هستند، به خوبی مستند شده اند، به خوبی با یکدیگر ادغام می شوند و به اکثر مبتدیان خدمات خوبی خواهند داد. این یک نقطه شروع است اما دانش اولیه لازم برای حرکت به سمت ابزارهای پیشرفته تر را در صورت لزوم و در صورت لزوم فراهم می کند.
- پایگاه داده – PostgreSQL و PostGIS. PostGIS یک افزونه geospatial برای PostgreSQL است که امکان ذخیره و تجزیه و تحلیل داده های مکانی را فراهم می کند. نصب آنها بر روی همه پلتفرم ها (ویندوز، مک او اس و لینوکس) آسان است و بنابراین می توانید یادگیری را در رایانه محلی خود شروع کنید و در صورت لزوم، داده های خود را به سروری در شبکه شرکتی خود یا سرور میزبانی شده قابل دسترسی از طریق اینترنت منتقل کنید. با سهولت. ذخیره داده های شما در یک پایگاه داده در سطح سازمانی امکان ویرایش چند کاربره را فراهم می کند و به شما امکان می دهد از راه دور به داده های خود از GIS دسکتاپ، برنامه های نقشه برداری وب/داشبورد و برنامه های جمع آوری داده های تلفن همراه دسترسی داشته باشید. در اینجا می توانید در مورد پایگاه های داده به طور کلی و PostgreSQL و PostGIS اطلاعات بیشتری کسب کنید .
- پایتون – چندین توزیع از پایتون موجود است. این احتمال وجود دارد که قبلاً یکی از آنها را روی رایانه خود نصب کرده باشید، به خصوص اگر نرم افزار GIS دسکتاپ را نصب کرده باشید. اگرچه امکان استفاده از توزیع موجود وجود دارد، من توصیه میکنم توزیع Anaconda را برای کاربردهای علم داده نصب کنید. Anaconda با تمام بسته های مورد نیاز برای علم داده مانند نوت بوک های Jupyter، Pandas، Matplotlib، Scikit-learn و موارد دیگر ارائه می شود. سیستم مدیریت بسته Anaconda تمایل دارد با کتابخانههای مکانی خاص مانند GDAL، GEOS و PROJ که ستون فقرات تجزیه و تحلیل مکانی هستند بهتر کار کند و زندگی را برای اکثر کاربران آسانتر میکند. در اینجا میتوانید درباره Python برای کاربردهای مکانی اطلاعات بیشتری کسب کنید .
- Pandas and Geopandas – Pandas یک کتابخانه اصلی برای کار با داده ها در پایتون است. این امکان را به شما می دهد تا داده ها را از منابع مختلف (از جمله پایگاه داده راه دور) در یک دیتافریم درون حافظه بخوانید. هنگامی که دادهها در Pandas قرار میگیرند، ابزارهای متنوعی برای دستکاری و تجسم آنها در دسترس است، و اکثر بستههای دیگر در پشته علم داده پایتون با دادهها در یک قاب داده پاندا کار میکنند. Geospandas یک توسعه جغرافیایی برای Pandas است که به شما امکان میدهد دادههای مکانی را در یک geodataframe بخوانید که شامل دادههای برداری است و همچنین شامل ابزارهای خاص مکانی برای دستکاری و تجسم دادههای مکانی است. در اینجا می توانید درباره پانداها و ژئوپانداها بیشتر بدانید .
- Statsmodels و Scikit-learn – Statsmodels به فرد اجازه می دهد تا تجزیه و تحلیل آماری سنتی را در پایتون با استفاده از داده های ذخیره شده در قالب داده پاندا (یا geodataframe) انجام دهد. Scikit-learn شامل تعداد زیادی الگوریتم و ابزار یادگیری ماشین برای ایجاد مجموعه داده های آموزشی، کاوش فضای پارامترها و ارزیابی مدل های مختلف است. مانند Statsmodels، Scikit-learn با پانداها و ژئوپانداها ادغام می شود. در اینجا میتوانید درباره تجزیه و تحلیل آماری و یادگیری ماشینی با دادههای مکانی اطلاعات بیشتری کسب کنید .
- Matplotlib، Seaborn، Rasterio، Plotly – اینها همه بستههای پایتون هستند که به شما امکان میدهند تجسمهای ایستا و پویا را از دادههای جدولی (نمودارها) و دادههای مکانی (نقشهها) ایجاد کنید. اگرچه جایگزینی برای ابزارهای نقشه برداری موجود در GIS دسکتاپ یا ابزارهای نموداری موجود در صفحه گسترده و نرم افزارهای آماری نیست، اما می توان خروجی بسیار خوبی ایجاد کرد که در محیط پویا یک نوت بوک Jupyter به همراه مستندات، کدهای شما ادغام شود. و داده ها این یک محیط بسیار قدرتمند برای تجزیه و تحلیل داده ها و گزارش ها فراهم می کند. در اینجا می توانید اطلاعات بیشتری در مورد این ابزارها کسب کنید .
بدون دیدگاه