کاربرد رویکردهای مبتنی بر یادگیری ماشینی در علوم زمین طی چند سال گذشته شاهد افزایش قابل توجهی بوده است. در اینجا ما رویکردی را ارائه می‌دهیم که با معرفی ویژگی‌های فضایی به مدل‌ها، خودهمبستگی فضایی را محاسبه می‌کند. به طور خاص، ما دو نوع ویژگی فضایی، یعنی تاخیر فضایی و فیلتر فضایی بردار ویژه (ESF) را بررسی می‌کنیم. این ویژگی‌ها در روش جنگل تصادفی (RF) به‌طور گسترده مورد استفاده قرار می‌گیرند، و تأثیر آنها بر روی دو مجموعه داده عمومی با اندازه‌های مختلف (مجموعه داده‌های مسکن میوز و کالیفرنیا) نشان داده شده است. کمترین عملگر انقباض و انتخاب مطلق (LASSO) برای تعیین بهترین زیرمجموعه ویژگی‌های فضایی و اعتبارسنجی متقابل تودرتو برای تنظیم فراپارامتر و ارزیابی عملکرد استفاده می‌شود. ما از موران I و شاخص‌های محلی تداعی فضایی (LISA) برای ارزیابی چگونگی خودهمبستگی فضایی در مقیاس جهانی و محلی استفاده می‌کنیم. نتایج ما نشان می‌دهد که مدل‌های RF همراه با تاخیر فضایی یا ویژگی‌های ESF خطاهای کمتری (تا 33٪ متفاوت) و کاهش خودهمبستگی فضایی کلی باقیمانده‌ها (تا 95٪ کاهش در Moran’s I) را در مقایسه با مدل RF بدون کاهش می‌دهند. ویژگی های فضایی الگوهای خودهمبستگی محلی باقیمانده ها نیز ضعیف شده است. در مقایسه با مدل‌های رگرسیون وزن‌دار جغرافیایی معیار (GWR)، مدل‌های RF با ویژگی‌های فضایی مدل‌های دقیق‌تری با سطوح مشابه خود همبستگی جهانی و محلی در باقی‌مانده‌های پیش‌بینی به‌دست آوردند.

کلید واژه ها:

خودهمبستگی فضایی ; تأخیر فضایی ؛ فیلتر بردار ویژه ; یادگیری ماشینی ؛ اعتبار متقابل تو در تو ; پیش بینی جغرافیایی

1. مقدمه

حجم داده‌های تولید شده در سال‌های اخیر به شدت در حال افزایش است و بخش بزرگی از داده‌های بزرگ مربوط به مکانی است (به عنوان مثال، تصاویر سنجش از دور، مسیرهای GPS، اندازه‌گیری‌های آب و هوا) [ 1 ]. داده های بزرگ جغرافیایی دارای همان ویژگی های بزرگ داده های معمولی هستند، مانند حجم زیاد، سرعت بالا و تنوع بالا، و فرصت های جدیدی برای کشف بینش های ناشناخته قبلی در جهان ما فراهم می کند. با این حال، یکی از چالش‌های مرتبط با داده‌های بزرگ فضایی در توسعه روش‌های جدید برای مدیریت و تجزیه و تحلیل مجموعه‌های داده پیچیده است که در آن رویکردهای سنتی ممکن است شکست بخورند [ 2 ].
روش‌های یادگیری ماشینی (ML) به رایانه‌ها اجازه می‌دهد از داده‌ها یاد بگیرند و می‌توانند اطلاعات را استخراج کرده و ساختارها را از مجموعه داده‌های بزرگ و با ابعاد بالا شناسایی کنند [ 3 ]. با ظهور داده های بزرگ جغرافیایی، ML به طور جهانی در تحقیقات زمین شناسی مانند طبقه بندی پوشش زمین [ 4 ، 5 ]، حساسیت زمین لغزش [ 6 ]، مطالعات تغییرات آب و هوا [ 7 ] و دینامیک اتمسفر [ 8 ] استفاده شده است. یکی از کاربردهای اصلی ML بر روی داده‌های مکانی، پیش‌بینی فضایی است که در آن یک مدل با استفاده از نمونه‌های آموزشی برای پیش‌بینی مقادیر ناشناخته در مکان‌های خاص ساخته می‌شود [ 9 ، 10 ].
برخلاف روش‌های ML، که عمومی هستند و می‌توانند برای مجموعه داده‌های مختلف اعمال شوند، روش‌های فضایی به طور خاص به تجزیه و تحلیل داده‌های مکانی می‌پردازند. روش‌های فضایی بر اساس قانون اول جغرافیا ساخته شده‌اند که بیان می‌کند «همه چیز به هر چیز دیگری مربوط است، اما چیزهای نزدیک بیشتر از چیزهای دور مرتبط هستند» [ 11 ، 12 ، 13 ]. چنین ویژگی‌هایی از پدیده‌های فضایی دلالت بر وابستگی فضایی یا خودهمبستگی فضایی (SAC) دارد. وجود این رابطه فضایی، فرض توزیع یکسان و مستقل (iid) را نقض می کند که بر اساس آن بسیاری از روش های آماری غیرمکانی پیش بینی شده اند. از این رو، روش‌های فضایی خود را در برخورد صریح با وابستگی فضایی یا SAC متمایز می‌کنند.
خودرگرسیون فضایی [ 14 ] و رگرسیون وزنی جغرافیایی (GWR) [ 15 ] دو روش فضایی رایج برای پیش بینی فضایی هستند. مدل‌های مبتنی بر روش‌های خودرگرسیون فضایی را می‌توان بسته به جایی که SAC معرفی می‌کند، به‌طور متفاوتی پیکربندی کرد [ 14 ، 16 ]. به عنوان مثال، مدل تاخیر مکانی SAC را در متغیر پاسخ فرض می‌کند و مدل خطای مکانی وابستگی‌های مکانی را در عبارت خطا مشخص می‌کند. GWR نشان دهنده یک روش رگرسیون خطی محلی برای ساخت مدل هایی است که ناهمگنی فضایی را با تخمین پارامترهای متغیر مکانی نشان می دهد [ 17 ]]. یکی دیگر از زمینه های تحقیقاتی که به خودهمبستگی مکانی می پردازد، زمین آمار است. کریجینگ خانواده‌ای از روش‌ها را برای ایجاد مدل‌هایی پوشش می‌دهد که متغیرهای همبسته مکانی را درون‌یابی می‌کنند. SAC را با تعیین کوواریانس فضایی نمونه ها با استفاده از مدل واریوگرام می گیرد. با این حال، تمام این روش های ذکر شده در بالا از اشکالات متفاوتی رنج می برند. خودرگرسیون فضایی و GWR عمدتاً بر روابط خطی تمرکز دارند. کریجینگ معمولاً به فرضیاتی در مورد توزیع فضایی نیاز دارد (به عنوان مثال، ثابت مرتبه دوم)، که ممکن است در عمل غیر واقعی باشد [ 18 ]. علاوه بر این، مقیاس بندی کریجینگ و GWR برای محاسبات فضایی بزرگ دشوار است [ 19 ، 20 ].
ML به طور کلی برای تجزیه و تحلیل داده های پیچیده دقیق، انعطاف پذیر و مقیاس پذیر است اما به طور خودکار زمینه مکانی را تشخیص نمی دهد. بنابراین، کاربرد مستقیم ML برای داده‌های مکانی بدون در نظر گرفتن خودهمبستگی فضایی بالقوه می‌تواند منجر به نتایج مغرضانه شود [ 21 ، 22 ، 23 ، 24 ].
تحقیقات حاضر در مورد ادغام ML و تحلیل فضایی هنوز نسبتاً محدود یا کمیاب است. رویکردهای موجود را می‌توان تقریباً در چهار جهت طبقه‌بندی کرد: گنجاندن ویژگی‌های فضایی در الگوریتم‌های اصلی [ 22 ، 25 ، 26 ]، مدل‌های ترکیبی با زمین‌آمار [ 27 ، 28 ، 29 ، 30 ]، تحلیل خوشه‌ای مبتنی بر روش‌های مبتنی بر خوشه‌های متغیر مستقل. به عنوان یک روش پیش پردازش [ 31 ] معرفی شده است، و الگوریتم های دیگر به طور انحصاری برای مشکلات فضایی مانند درختان خوشه بندی پیش بینی فضایی (PCTs) [ 32 ] و SpaceGAN [ 33 ] طراحی شده است.].
چهار جهت فوق الذکر مزیت های متنوع و ارزش های تحقیقاتی منحصر به فردی را نشان می دهند. در این مقاله، گنجاندن ویژگی‌های فضایی را بررسی می‌کنیم. در ML، ویژگی ها معادل مفهوم متغیرهای توضیحی در آمار هستند. بنابراین، ویژگی‌های فضایی به متغیرهایی اشاره می‌کنند که ارتباط جغرافیایی و روابط فضایی بین مشاهدات را منعکس می‌کنند و به طور بالقوه SAC را به حساب می‌آورند [ 22 ]. مهندسی ویژگی نشان دهنده یک فرآیند حیاتی در ML است که هدف آن استخراج و فرمول بندی ویژگی های مناسب برای مدل مورد انتظار است. چندین گزینه برای مشخص کردن ویژگی‌های فضایی وجود دارد: میدان‌های فاصله اقلیدسی (EDF)، که شامل فواصل بافر (فاصله تا مکان‌های نمونه‌برداری) و مختصات [ 25 ]، تأخیر فضایی بر اساس تعریف همسایگی [ 26 ] است., 34 , 35 ]. مزیت اصلی گنجاندن ویژگی‌های فضایی نسبت به الگوریتم‌های فضایی منحصراً این است که این نیازی به اصلاح مستقیم روش‌های اصلی ندارد، بنابراین ML غیر فضایی در زمینه‌های جغرافیایی احیا می‌شود و مدل‌های متنوعی که قبلاً به صورت علمی ایجاد شده‌اند حفظ می‌شود.
هدف این مطالعه بررسی نقش ویژگی‌های فضایی در زمینه پیش‌بینی ML عمومی است. به طور خاص، اهداف ما عبارتند از (الف) ارائه یک گردش کار برای مهندسی و ارزیابی ویژگی‌های فضایی، و (ب) ارزیابی اینکه آیا چنین ویژگی‌هایی SAC را جذب می‌کنند و عملکرد پیش‌بینی را بهبود می‌بخشند.

2. کارهای مرتبط

تحقیقات در مورد ترکیب ویژگی های فضایی و ML در این سال ها در حال ظهور است. بهرنس و همکاران [ 25 ] یک چارچوب مدلسازی فضایی با EDF عمومی به عنوان متغیرهای کمکی فضایی اضافی معرفی کرد. آنها EDF را با سایر متغیرهای متداول محیطی در مورد نقشه برداری دیجیتالی خاک ترکیب کردند. شش روش ML برای مقایسه با مرجع به‌دست‌آمده از کریجینگ رگرسیون انتخاب شد. گنجاندن EDF ML را قادر می‌سازد تا هنگام پیش‌بینی در مکان‌های جدید بدون گام اضافی برای تصحیح باقیمانده‌ها با استفاده از کریجینگ، همبستگی مکانی را استنتاج کند. هنگل و همکاران [ 22] یک چارچوب جنگل تصادفی برای پیش‌بینی فضایی (RFsp) ارائه کرد که اثرات فضایی را با استفاده از چندین ویژگی مبتنی بر فاصله از جمله EDF به حساب می‌آورد. آنها اثربخشی فواصل بافر را بر روی پنج مجموعه داده محیطی ارزیابی کردند. نتایج آن‌ها نشان می‌دهد که RFsp می‌تواند پیش‌بینی‌های مشابه کریجینگ معمولی و کریجینگ رگرسیونی ایجاد کند، در حالی که RFsp مفروضات دقیقی در مورد توزیع و ایستایی نمی‌طلبد. با این حال، این نویسندگان همچنین اشاره کردند که استخراج متغیرهای فاصله بافر برای مجموعه داده های بزرگ دشوار است.
جدای از ویژگی‌های صریح مبتنی بر فاصله، مطالعات در مورد ادغام سایر ویژگی‌های فضایی و ML عمدتاً بر تأخیرهای فضایی متمرکز است. لی و همکاران [ 26 ] یک رویکرد یادگیری عمیق ژئوهوشمند را پیشنهاد کرد که در آن اصطلاحات PM2.5 عقب مانده از نظر مکانی و زمانی با شاخص های ماهواره ای و اجتماعی-اقتصادی در یک مدل شبکه باور عمیق ترکیب شدند. تجزیه و تحلیل آنها ثابت کرد که گنجاندن تاخیر فضایی به عنوان نمایش روابط جغرافیایی به طور قابل توجهی دقت برآوردها را بهبود می بخشد. Kiely و Bastian [ 34 ] ویژگی‌های تاخیر فضایی را در الگوریتم‌های ML متعدد برای پیش‌بینی فروش املاک و مستغلات گنجانده‌اند. نتایج مقایسه نشان‌دهنده بهبود عملکرد پیش‌بینی مدل‌های آگاه فضایی نسبت به همتایان غیر فضایی است. در کار زو و همکاران. [35 ]، نویسندگان از همان تکنیک لی و همکاران پیروی کردند. [ 26 ] برای گنجاندن ویژگی های عقب افتاده در چندین الگوریتم ML. الگوریتم‌های اصلاح‌شده در هنگام بازسازی دمای هوای سطحی در سراسر چین، پیشرفت زیادی از نظر دقت نشان دادند.
به طور خلاصه، تحقیقات فعلی با محدودیت ها و همچنین فرصت هایی برای تحقیقات بیشتر مواجه است. اولاً، ویژگی‌های فاصله بافر نمی‌توانند به طور کامل الزامات همه مشکلات فضایی را برآورده کنند، به ویژه مواردی که شامل مقادیر زیادی از نمونه‌های داده است. دوم، ویژگی‌های تاخیر فضایی با محاسبات مبتنی بر فاصله ساخته و مورد بررسی قرار گرفتند، اما می‌توان آنها را از طریق مشخصات ماتریس وزن فضایی و محاسبات مبتنی بر همسایه مهندسی کرد. سوم، ویژگی‌های فیلتر فضایی بردار ویژه در زمینه پیش‌بینی ML فضایی توسعه و بررسی نشده است.

3. روش ها

شکل 1 مدل سازی و روش تحلیلی ما را نشان می دهد که در بخش های فرعی زیر به تفصیل بیشتر توضیح داده شده است. بخش 3.1 داده‌هایی را که آزمایش‌ها بر اساس آن‌ها انجام شده‌اند، شرح می‌دهد. بخش 3.2 توضیح می دهد که چگونه ویژگی های فضایی در ML گنجانده شده اند. ما دو نوع ویژگی را پیشنهاد می‌کنیم: ویژگی‌های تاخیر فضایی (پیکربندی شده از طریق یک ماتریس وزن فضایی و محاسبات مبتنی بر همسایه) و ویژگی‌های ESF. در بخش 3.3 آموزش و ارزیابی مدل ها را توضیح می دهیم. اسکریپت های مورد استفاده برای مهندسی ویژگی های فضایی، ساخت مدل ها و همچنین ارزیابی نتایج در یک مخزن عمومی در دسترس هستند ( لطفاً به بیانیه در دسترس بودن داده ها مراجعه کنید ).

3.1. منابع اطلاعات

دو مجموعه داده فضایی عمومی با ویژگی‌های مختلف در این مطالعه برای آزمایش قابلیت استفاده از مدل‌سازی پیشنهادی استفاده می‌شود.

3.1.1. مجموعه داده رودخانه میوس

Meuse یک مجموعه داده فضایی کلاسیک در زمین آمار است که از نمونه‌های جمع‌آوری‌شده در دشت سیلابی رودخانه Meuse در هلند تشکیل شده است. هنگل و همکاران [ 22 ] از مجموعه داده Meuse برای یکی از آزمایش‌هایی استفاده کرد که در آن ویژگی‌های فضایی مبتنی بر فاصله در مدل‌های ML معرفی شدند. در داخل با چندین بسته R مانند “gstat” [ 36 ] و “sp” [ 37 ] یکپارچه شده است. علاوه بر این، به دلیل عمومیت و در دسترس بودن آن، برای سایر وظایف تحلیلی فضایی مانند خوشه بندی فضایی [ 38 ] و مدل های خودرگرسیون فضایی [ 39 ] استفاده شده است.]. ما از 153 نمونه استفاده کردیم که چهار غلظت فلزات سنگین برای آنها اندازه گیری شد. مکان های جغرافیایی نیز همراه با متغیرهای خاک و منظر گنجانده شده است. جزئیات مربوط به متغیرهای داده در جدول 1 توضیح داده شده است. درون یابی غلظت روی معمولاً تمرکز اصلی این مجموعه داده است. فراوانی سیل و فاصله تا رودخانه را می توان به عنوان متغیرهای کمکی در کریجینگ رگرسیونی برای پیش بینی غلظت روی با این فرض که رودخانه منبع اصلی روی است در نظر گرفت. شکل 2 a توزیع غلظت روی را نشان می دهد. هر دسته دارای تعداد تقریباً مساوی از مشاهدات است که توسط چندک ها تعیین می شوند. غلظت بیشتری از روی در امتداد ساحل غربی مشاهده می شود.
3.1.2. مجموعه داده مسکن کالیفرنیا
این مجموعه داده شامل 20640 مشاهده از قیمت مسکن کالیفرنیا بر اساس داده های سرشماری کالیفرنیا در سال 1990 است. هر ردیف نشان دهنده یک گروه یا منطقه بلوک سرشماری است (کوچکترین واحد جغرافیایی که اداره سرشماری ایالات متحده داده های نمونه را برای آن منتشر می کند). در ابتدا توسط پیس و بری [ 40 ] برای ساخت مدل‌های خودرگرسیون فضایی استفاده شد، و یک مجموعه داده استاندارد با همبستگی خودکار فضایی [ 33 ] در نظر گرفته می‌شود. میانه قیمت خانه، محل نمونه ها و شش متغیر توضیحی دیگر در جدول 2 توضیح داده شده است. مقادیر قیمت بر اساس چندک در شکل 2 طبقه بندی شده اندب مناطق ساحلی معمولاً قیمت خانه های بالاتری دارند، به ویژه برای مناطق اطراف کلان شهرها مانند سانفرانسیسکو و لس آنجلس. از آنجایی که ولسوالی‌های مختلف با تعداد خانوارهای متفاوتی پراکنده هستند، تعداد کل اتاق‌ها یا اتاق‌های خواب (متغیرهای اولیه از پیش پردازش شده) بر تعداد خانوارها در این مطالعه تقسیم شد تا متغیر میانگین به دست آید. در اینجا وظیفه ایجاد مدلی است که قیمت مسکن را پیش‌بینی کند.

3.2. ساخت و پردازش ویژگی های فضایی

3.2.1. ویژگی های تاخیر فضایی

ویژگی‌های تاخیر فضایی، همبستگی مکانی متغیرهای وابسته ( y ) در مناطق اطراف را به تصویر می‌کشند. تاخیر مکانی مکان i به عنوان مجموع وزنی مقادیر از مکان i تا j محاسبه می شود :

یک ماتریس وزن فضایی ( ij ) برای ساخت ویژگی‌های تاخیر ضروری است. در اصل، ساخت چنین ماتریس وزن فضایی شامل دو رویه است: تعریف همسایگی، و محاسبه وزن های فضایی. همسایگی تعیین می کند که کدام مکان ها به هم مرتبط هستند ( i به j ) و وزن ها قدرت پیوندها را تعیین می کنند. وزن ها را می توان با تنظیمات باینری یا از طریق توابع مبتنی بر فاصله مانند فاصله معکوس و توابع هسته محاسبه کرد. مشخصات مختلف ماتریس نشان دهنده ساختارهای فضایی متفاوت است. با این حال، توافق نظری در مورد انتخاب یک ماتریس وزن فضایی وجود ندارد [ 41]. در این مطالعه، تنظیم باینری یک k-نزدیک‌ترین همسایه استفاده می‌شود زیرا یک رابط مناسب برای ساخت ماتریس وزن فضایی با تغییر مقدار پارامتر k فراهم می‌کند. K-نزدیکترین همسایه همچنین یک پیکربندی اتصال تطبیقی ​​را معرفی می‌کند که در آن تعداد همسایه‌ها ثابت است اما محدوده فاصله بین همسایگان ثابت نیست. ماتریس وزن به صورت ردیفی استاندارد شده است به طوری که ویژگی‌های تاخیر نشان دهنده میانگین مقادیر اطراف است. بنابراین، مقادیر وزن عبارتند از:

تلاش‌های زیادی برای انتخاب یک ماتریس فضایی مناسب برای رگرسیون خودرگرسیون فضایی انجام شده است. به‌جای یک ماتریس واحد، ماتریس‌های وزن فضایی مختلف را می‌توان برای گنجاندن تاخیرهای فضایی متعدد در یک مدل رگرسیون با هدف گرفتن انواع مختلف وابستگی استفاده کرد [ 42 ]. ما یک رویکرد مشابه را دنبال می کنیم: برای مجموعه داده Meuse، یک دنباله افزایشی 5، 10، 15 برای پارامتر k استفاده می شود (در نتیجه سه ماتریس وزن فضایی ایجاد می شود) تا ویژگی های تاخیر فضایی ایجاد شود. از آنجایی که مجموعه داده مسکن کالیفرنیا منطقه بزرگ تری را پوشش می دهد، از 5، 10، 15، 50 نزدیکترین همسایه استفاده می شود (در نتیجه چهار ماتریس وزن فضایی ایجاد می شود) تا ویژگی های تاخیر فضایی را ایجاد کنند. این یک رویکرد داده محور برای پیکربندی تجربی k استارزش ها و امکانات مختلف همسایگان را شامل می شود. این مقادیر و همچنین تعداد ماتریس ها را می توان بسته به ویژگی های داده ها و مسئله در دست تغییر داد.
3.2.2. بردار ویژه فیلتر فضایی
فیلتر فضایی بردار ویژه (ESF) یک تکنیک رگرسیونی است که توسط Getis و Griffith [ 43 ] برای بهبود نتایج مدل در حضور وابستگی فضایی پیشنهاد شده است. این ایده از موران I سرچشمه گرفته است، که در آن از ماتریس وزن فضایی برای گرفتن همواریاسیون های فضایی استفاده می شود.

تجزیه ESF بر روی ماتریس انجام می شود

که در آن I یک ماتریس هویت n به n است، 1 یک بردار n در 1 از یک ها است، و W ماتریس وزن فضایی است که توسط Getis و Griffith [ 43 ] تعریف شده است. بردارهای ویژه استخراج شده، الگوهای نقشه پنهان زیرین را ارائه می دهند [ 44 ].

تبدیل ماتریس فضایی برای مثبت شدن آن نیمه معین اتفاق می افتد. بردارهای ویژه متعامد و غیر همبسته به عنوان متغیرهای مصنوعی در مسئله رگرسیون استفاده می شوند تا مدل را قادر سازد تا خودهمبستگی فضایی را محاسبه کند [ 43 ، 45 ، 46 ، 47 ].
تجزیه ویژه، که برای ESF ضروری است، برای نمونه های بزرگ از نظر محاسباتی فشرده است. برای بهبود کارایی محاسباتی، موراکامی و گریفیث [ 20 ] پیشنهاد کردند که اولین بردارهای ویژه L (L << n) را با استفاده از پسوند Nyström [ 48 ] تقریب کنند. آنها از خوشه‌بندی k-means بر روی مختصات فضایی استفاده کردند و مراکز خوشه‌ای را به عنوان گره‌هایی برای گسترش نیستروم در نظر گرفتند. نویسندگان توصیه کردند که حداقل 200 بردار ویژه محاسبه شود تا به طور موثر خودهمبستگی فضایی مثبت با خطاهای تقریبی کوچک حذف شود و ویژگی های فضایی با موفقیت ثبت شود.
ESF اغلب به عنوان یک تکنیک اکتشافی استفاده می شود، اما همچنین می توان از آن برای پیش بینی مقادیر در مکان های ناشناخته با استفاده از تقریب Nyström استفاده کرد. با این حال، این تکنیک تقریب نمی تواند با وابستگی فضایی منفی مقابله کند و فقط به ماتریس های وزن فضایی محدود می شود که بر اساس هسته های نیمه معین مثبت مانند هسته های گاوسی یا نمایی [ 20 ] است.

در این مطالعه، ما هسته نمایی مشترک موراکامی و گریفیث [ 20 ] را اتخاذ کردیم زیرا این نویسندگان قابلیت استفاده آن را در مجموعه داده های بزرگ نشان دادند. عناصر ماتریس وزن فضایی به صورت زیر محاسبه می شوند:

که ij فاصله بین مکان i و j است، و r با حداکثر طول در درخت پوشا حداقلی که همه نمونه ها را به هم متصل می کند، به دست می آید. تا زمانی که هسته نیمه معین است، هسته نمایی را می توان با هر تابع هسته جایگزین کرد تا نیازهای مسائل دیگر را برآورده کند [ 20 ]. با توجه به حجم نمونه و نگرانی محاسباتی تجزیه ویژه، تنها 200 بردار ویژه اول برای داده های مسکن کالیفرنیا تقریبی شده است. برای مجموعه داده Meuse، مقادیر ویژه دقیق بدون تقریب محاسبه می شود.

3.3. مدل‌های یادگیری ماشین و محک زدن

این بخش پیاده‌سازی مدل‌های یادگیری ماشین (ML) را با استفاده از جنگل تصادفی ( بخش 3.3.1 ) و همچنین مدل معیار مبتنی بر رگرسیون وزن‌دار جغرافیایی ( بخش 3.3.2 ) را توضیح می‌دهد. این پیاده سازی شامل تنظیم هایپرپارامتر و انتخاب ویژگی برای مدل های ML و تنظیم پارامتر برای مدل بنچمارک است. روش‌های مدل‌سازی برای دو مجموعه داده (موس و کالیفرنیا) و برای ایجاد چهار نوع مدل اجرا شد: (1) مدل‌های غیرمکانی صرفاً بر اساس ویژگی‌های اصلی موجود برای هر مجموعه داده، (ب) مدل‌های تاخیر فضایی، (iii) ) مدل های ESF و (iv) مدل های معیار.

3.3.1. جنگل تصادفی

جنگل تصادفی (RF) در این مطالعه برای دقت عمومی و کاربردهای موفق آن در مسائل مختلف زمین‌شناسی استفاده شده است [ 28 ، 35 ، 49 ]. RF همچنین اخیراً به عنوان چارچوبی برای ادغام متغیرهای فاصله در پیش بینی فضایی استفاده شده است [ 22 ]. در طول مرحله آموزش، تعداد ویژگی‌های مورد استفاده در تقسیم گره (که معمولاً به عنوان ” try ” شناخته می‌شود را تنظیم کردیم. تعداد درختان در اندازه متوسط ​​200 درخت برای تعادل بین راندمان محاسباتی و پایداری پیش بینی نگهداری می شود.
ما رویکرد انتخاب ویژگی حداقل مطلق انقباض و اپراتور انتخاب (LASSO) را اجرا کردیم تا تعداد ویژگی‌های فضایی مورد استفاده برای آموزش مدل‌ها را به حداقل برسانیم و همچنین درک بهتری از مفید بودن آنها داشته باشیم. LASSO یک روش منظم سازی است که توسط Tibshirani [ 50 ] توسعه یافته است که به طور گسترده ای از ML برای انتخاب ویژگی استفاده می شود. یک محدودیت L1 بر روی رگرسیون خطی تعیین می کند و ضرایب را با کوچک کردن بخشی از آنها تا دقیقاً صفر جریمه می کند. یک فراپارامتر λ ≥ 0 قدرت پنالتی L1 را در LASSO کنترل می کند، که می تواند با اعتبارسنجی متقاطع تنظیم شود. ویژگی های با ضرایب غیر صفر در مدل نهایی حفظ می شود. بزرگترین مقدار لامبدا به طوری که خطا در یک خطای استاندارد حداقل باشد اغلب برای مدل انتخاب شده استفاده می شود [ 51].
اگرچه RF می تواند به مبارزه با مشکل نفرین ابعاد [ 52 ] کمک کند، مطالعات متعددی از روش های انتخاب ویژگی در ترکیب با RF [ 53 ] استفاده می کنند. نتایج تجربی نشان داده‌اند که استفاده از تکنیک‌های کاهش ابعاد با RF ممکن است تقریباً همان عملکرد پیش‌بینی‌کننده را به همراه داشته باشد [ 54 ] یا حتی می‌تواند آن را افزایش دهد [ 55 ].
علاوه بر این، ما پیش‌بینی می‌کنیم که گردش کار مدل‌سازی پیشنهادی می‌تواند با الگوریتم‌های جایگزینی اجرا شود که برای آن‌ها ممکن است کاهش ابعاد مورد نیاز باشد، زمانی که تعداد ابعاد برای اندازه نمونه خیلی زیاد است [ 56 ، 57 ، 58 ]]. به جز شکل اصلی داده ها، تعداد زیادی از ابعاد نیز ممکن است پس از یک فرآیند مهندسی ویژگی ایجاد شود. به عنوان مثال، ESF ممکن است 200 یا بیشتر ویژگی بردار ویژه اضافی را معرفی کند. برای یک مجموعه داده با اندازه کوچکتر، تعداد ویژگی ها ممکن است از تعداد مشاهدات بیشتر باشد. با توجه به تاخیر مکانی، در صورت تمایل می توان هر تعداد ویژگی را اضافه کرد. رویکرد LASSO ویژگی‌های نماینده (ESF یا Spatial Lag) را حفظ می‌کند و موارد غیرضروری را حذف می‌کند، که هنگام اعمال و آزمایش مدل‌ها از نظر تفسیرپذیری مدل، پیچیدگی و کارایی زمانی مفید است. اگرچه LASSO انتخاب شده است زیرا یک رویکرد رایج است و از نظر محاسباتی کارآمد است، اما یک مدل خطی نیز هست. از این رو، ویژگی هایی با روابط غیر خطی، که می توانند توسط RF شناسایی شوند، ممکن است حذف شوند. کاربرد آن باید به صورت انتخابی و با در نظر گرفتن داده ها و مشکل موجود مورد استفاده قرار گیرد. علاوه بر این، روش‌های انتخاب ویژگی جایگزین ممکن است در نظر گرفته شوند، مانند کاهش میانگین RF در دقت، حذف ویژگی بازگشتی RF، VSURF، حذف ویژگی بازگشتی SVM، و انتخاب ویژگی مبتنی بر همبستگی [59 ، 60 ].
3.3.2. رگرسیون وزنی جغرافیایی
برای محک زدن رویکرد مدل‌سازی پیشنهادی خود، از یک RF سنتی “a-spatial” و یک مدل آماری فضایی کلاسیک، یعنی یک رگرسیون وزن‌دار جغرافیایی (GWR) استفاده می‌کنیم. GWR با موفقیت برای مدل‌سازی حوزه‌های مختلف کاربرد جغرافیایی، از جمله بازار مسکن [ 61 ]، سلامت [ 62 ]، گردشگری [ 63 ]، اقتصاد اشتراک [ 64 ]، سیاست‌گذاری [ 65 ] و جرم و جنایت [ 66 ] استفاده شده است.
GWR تخمین پارامترهای محلی را برای هر رابطه بین متغیرهای وابسته و مستقل در هر مکان برمی گرداند و بنابراین می تواند سطح پارامتر را در سراسر منطقه مورد مطالعه تولید کند [ 67 ]. این روش روابط خطی محلی را بررسی می کند و برای متغیرهای کمکی نسبت طراحی شده است. بنابراین، در اجرای مدل GWR برای داده‌های Meuse، متغیرهای ffreq، خاک، کاربری زمین و آهک را بر خلاف مدل‌های RF حذف کردیم. برای مدل‌های کالیفرنیا، از همان مجموعه متغیرهای کمکی استفاده شد.
مدل‌ها توسط ماژول MGWR در کتابخانه تحلیل فضایی پایتون (PySAL) که توسط اوشان و همکاران توسعه داده شده است، پیاده‌سازی شدند. [ 68 ]. نویسندگان پیشنهاد می‌کنند که معیار مناسب مدل را برای انتخاب پهنای باند زمانی که راهنمای نظری برای تعیین دستی آن وجود ندارد، بهینه کنید. معیار تناسب که ما برای بهینه‌سازی پهنای باند استفاده کردیم، معیار اطلاعات اصلاح‌شده Akaike (AICc) است. تنظیمات پیش فرض برای تابع هسته (یعنی “دو مربع”) و نوع هسته (یعنی نزدیکترین همسایه تطبیقی) به کار گرفته شد. تابع هسته دو مربعی رفتار پیش‌فرض است زیرا از یک مسئله بالقوه در مورد حفظ وزن همه مشاهدات جلوگیری می‌کند و همچنین به این دلیل که فاصله‌ای را نشان می‌دهد که در بالای آن پارامترها تأثیری ندارند [ 68 ]]. علاوه بر این، نوع هسته تطبیقی ​​تضمین می کند که هیچ مشکل کالیبراسیون در مناطق کم جمعیت منطقه مورد مطالعه وجود نخواهد داشت.

3.4. سنجش عملکرد

برای بازیابی یک ارزیابی عملکرد عینی تر از رویکردمان، ما ایده اعتبارسنجی متقابل تودرتو (CV) را پذیرفتیم. ایده اساسی CV این است که مجموعه داده را به بخش های مختلف تقسیم کند: آموزش و آزمایش. این تضمین می کند که اطلاعات زیرمجموعه تست در طول فرآیند آموزش لو نرود. نتیجه توسط CV ارائه می‌شود و بنابراین تخمین عینی از نحوه تعمیم مدل بر روی داده‌های دیده نشده را نشان می‌دهد. با CV تو در تو، فراپارامترهای بهینه چین های داخلی در یک چین بیرونی، به صورت تکراری و تودرتو آزمایش می شوند [ 69 ]. CV تودرتو یک رویکرد مناسب برای ارزیابی توانایی‌های تعمیم یک مدل است که از سوگیری در تخمین‌ها جلوگیری می‌کند [ 70 ]، همچنین به عنوان «تقاطع دوگانه» [ 71 ] شناخته می‌شود.
دو لایه اعتبار متقابل k-fold در CV تودرتو گنجانده شده است. CV بیرونی برای تخمین استفاده می‌کند در حالی که CV داخلی از سایر روش‌ها مانند تنظیم فراپارامتر مراقبت می‌کند (در اجرای RF ما این ویژگی انتخاب شده است). چین های داخلی با شکافتن چین های آموزشی بیرونی به دست می آیند. فراپارامترها توسط CV داخلی تعیین می شوند، سپس مقادیر بهینه برای برازش یک مدل در مجموعه آموزشی بیرونی استفاده می شود. عملکرد تعمیم یافته گزارش شده توسط CV تو در تو، میانگین بر روی چین های تست بیرونی است.
فرآیند CV تودرتو مورد استفاده در این مطالعه به شرح زیر خلاصه می شود:
(آ)
مجموعه داده را به چین های بیرونی K تقسیم کنید .
(ب)
برای هر تار بیرونی k = 1، 2، …، K : حلقه بیرونی برای ارزیابی مدل:
  • K را به عنوان مجموعه تست بیرونی در نظر بگیرید . چین های باقی مانده را به عنوان مجموعه تمرینی بیرونی، قطار بیرونی بگیرید.
  • قطار بیرونی را به چین های L داخلی تقسیم کنید.
  • برای هر چین داخلی l = 1، 2، …، L : حلقه داخلی برای تنظیم فراپارامتر:
    من.
    فولد l را به عنوان تست درونی مجموعه تست داخلی و بقیه را به عنوان قطار درونی در نظر بگیرید.
    ii
    محاسبه ویژگی های فضایی در قطار داخلی .
    III.
    LASSO تایید شده متقاطع را در قطار داخلی با ویژگی‌های فضایی انجام دهید و لامبدا را تعیین کنید با قانون “یک خطای استاندارد”؛ ویژگی های مکانی را با ضرایب غیر صفر انتخاب کنید.
    IV
    برای هر کاندیدای فراپارامتر، مدلی را در قطار داخلی با مجموعه ویژگی های ترکیبی قرار دهید.
    v
    ویژگی های فضایی انتخاب شده را در آزمون درونی محاسبه کنید.
    vi.
    مدل را در آزمون درونی با معیار سنجش ارزیابی کنید.
  • برای هر کاندیدهایپرپارامتر، مقادیر متریک ارزیابی را در تاهای L میانگین کنید و بهترین هایپرپارامتر را انتخاب کنید. در آزمایش‌های ما، فراپارامتری که آزمایش شد try بود.
  • محاسبه ویژگی های فضایی در قطار بیرونی .
  • LASSO تایید شده متقاطع را در قطار بیرونی با ویژگی‌های فضایی انجام دهید و لامبدا را تعیین کنید با قانون “یک خطای استاندارد”. ویژگی های مکانی را با ضرایب غیر صفر انتخاب کنید.
  • مدلی را با بهترین هایپرپارامتر در قطار بیرونی آموزش دهید .
  • ویژگی های فضایی انتخاب شده را در آزمون بیرونی محاسبه کنید.
  • مدل را در آزمون بیرونی با معیار سنجش ارزیابی کنید.
(ج)
میانگین مقادیر متریک را روی K folds بگیرید و عملکرد تعمیم یافته را گزارش کنید.
ویژگی‌های تأخیر برای آزمایش نمونه‌ها (مرحله 3. V و 8) از یک ماتریس وزن فضایی بازسازی‌شده مشتق شده‌اند که روابط فضایی بین این مکان آزمایشی واحد و همه نمونه‌های آموزشی را توصیف می‌کند. ویژگی‌های بردار ویژه نمونه‌های آزمایشی با مقدار پسوند Nyström (مرحله 3. V و 8) تقریبی شد. برای روش LASSO از یک CV 10 برابری استفاده کردیم (مرحله 3. III و 6).
معیار ارزیابی که ما استفاده می کنیم (مرحله 3. VI و 9) ریشه میانگین مربعات خطا (RMSE) است. فرآیند CV تودرتو در 5 چین خارجی ( K ) و 3 چین داخلی ( L ) اجرا شد. بدین ترتیب 5 مدل مورد آزمایش قرار گرفت و میانگین خطای آزمون استخراج شد. این خطا توانایی تعمیم یک مدل را نشان می دهد. به عبارت دیگر، نحوه عملکرد مدل نهایی بر روی داده‌های نادیده بالقوه.
برای مدل‌های معیار GWR، داده‌ها به 80 درصد داده‌های قطار و 20 درصد داده‌های آزمایش تقسیم شدند (20 درصد اندازه یکسانی را به یک تای CV بیرونی می‌دهد). سپس RMSE مقادیر پیش‌بینی‌شده از داده‌های آزمون نیز محاسبه شد. علاوه بر این، زمانی که همه داده‌ها در یک مدل قرار می‌گیرند، RMSE را به‌عنوان خطای آموزشی محاسبه می‌کنیم (تکرار برای همه انواع مدل: غیر مکانی، تاخیر مکانی، ESF و GWR). این خطا نشان دهنده توانایی برازش یک مدل است. به عبارت دیگر، مدل چقدر با این مجموعه داده خاص مطابقت دارد.

3.5. ارزیابی خودهمبستگی فضایی

هنگامی که مدل‌های مبتنی بر داده مستقیماً بدون در نظر گرفتن تأثیرات فضایی به داده‌های مکانی اعمال می‌شوند، باقی‌مانده‌ها ممکن است از نظر مکانی همبستگی خودکار باقی بمانند [ 25 ، 48 ، 69 ]. ترجیحاً SAC باقیمانده باید به حداقل برسد یا حتی حذف شود، که به این معنی است که مدل در فضا به طور مشابه عمل می کند و حداقل (یا هیچ) زیرمنطقه با الگوهای قوی مقادیر بیش از حد یا دست کم گرفته شده وجود دارد. متریک Moran’s I را می توان برای این منظور برای تشخیص و تعیین کمیت همبستگی فضایی جهانی در باقیمانده ها استفاده کرد. من موراناز -1 تا +1 متغیر است. مقدار مثبت نشان دهنده خودهمبستگی فضایی مثبت و مقدار منفی نشان دهنده خلاف آن است. مقدار صفر به معنای عدم وجود خودهمبستگی مکانی است.
علاوه بر این، شاخص‌های محلی انجمن فضایی (LISA) خوشه‌های باقیمانده برای بررسی وجود الگوهای محلی استفاده می‌شوند. LISA از تجزیه Moran’s I ساخته شد و توسط Anselin [ 72 ] برای ارزیابی خودهمبستگی فضایی محلی معرفی شد. چهار گروه با خود همبستگی فضایی محلی قابل توجه (بالا- زیاد، کم- کم، کم- زیاد، زیاد- کم) را می توان با LISA گرفت. High-High (HH) و Low-Low (LL) به ترتیب نشان دهنده خوشه بندی مقادیر زیاد و پایین است. Low-High (LH) نشان دهنده مقادیر کم است که با مقادیر بالا احاطه شده اند، و گروه High-Low (HL) نشان دهنده مقادیر بالا است که با مقادیر کم احاطه شده اند.
هر دو Moran’s I و LISA تحت شبیه‌سازی مونت کارلو [ 72 ] آزمایش شدند و از ماتریس‌های وزن فضایی نزدیک‌ترین همسایه بر اساس k = 5 نزدیک‌ترین همسایه استخراج شدند. این آمار در مدلی اجرا شد که با استفاده از یک CV استاندارد 5 برابری روی کل مجموعه داده آموزش داده شد. از CV برای استخراج m try بهینه و سپس LASSO برای انتخاب ویژگی‌های فضایی استفاده شد. مدل نهایی (یعنی مدل متناسب با همه داده ها) با استفاده از زیرمجموعه ویژگی ها و بهترین آزمون آموزش داده شد .

4. نتایج

بخش 4.1 مشخصات مدل ها را شرح می دهد، مانند اینکه کدام ویژگی های فضایی برای مدل ها ساخته و انتخاب شده اند و همچنین مقادیر پارامترهای بهینه شده. در بخش 4.2 ، ما تأثیر متغیرهای توضیحی و چگونگی تغییر آن در هر مدل را تحلیل می‌کنیم. بخش 4.3 نتایج ارزیابی عملکرد حاصل از محاسبات RMSE را ارائه می‌کند، در حالی که بخش 4.4 نتایج ارزیابی خودهمبستگی فضایی حاصل از آمار موران I و LISA را ارائه می‌کند (نقشه‌هایی که توزیع باقیمانده‌های مدل‌ها را می‌توان در مواد تکمیلی نشان داد ).

4.1. مشخصات مدل ها

مدل ها و مشخصات آنها در جدول 3 نشان داده شده است. برای مدل‌های GWR، پهنای باند 50 متر برای داده‌های Meuse و 80 متر برای داده‌های کالیفرنیا بهینه‌سازی شد. اگرچه مدل‌های RF Meuse بر روی مجموعه‌های ویژگی‌های مختلف آموزش دیده‌اند (مثلاً، غیرمکانی فقط ویژگی‌های اصلی دارد یا مدل تاخیری ویژگی‌های کمتری نسبت به مدل ESF دارد)، بهترین مقدار ” try ” برای همه آنها برابر با 5 است. برای مدل‌های RF کالیفرنیا، « try » برای مدل‌های فضایی بالاتر (یعنی 6) و برای مدل غیرمکانی کمتر (یعنی 2) است.
با توجه به ویژگی‌های تاخیر فضایی داده‌های Meuse، آنها با تعداد نزدیک‌ترین همسایه‌ها به ترتیب برابر با 5، 10، 15 ساخته شدند، در حالی که مورد انتخاب شده lag_k5 بود. برای داده‌های کالیفرنیا، از تاخیرهای k-نزدیک‌ترین همسایه‌ها استفاده شد و موارد انتخاب شده برای همسایگان 5، 10 و 15 بودند.
مجموعه داده Meuse شامل کمتر از 200 مشاهدات است، بنابراین مقادیر ویژه ماتریس وزن تقریبی نیست، بلکه دقیقاً محاسبه شده است. سپس ویژگی های ESF توسط LASSO انتخاب شدند. ویژگی های بردار ویژه با “ev” و یک عدد نشان داده می شوند. “ev1” بردار ویژه مربوط به بزرگترین مقادیر ویژه را نشان می دهد، و به همین ترتیب، اعداد دنبال می شوند. با این حال، از آنجایی که مجموعه داده کالیفرنیا شامل بیش از 20000 مشاهدات است، محاسبه مقادیر ویژه ماتریس وزن فضایی کامل غیرعملی و غیر ضروری است. بنابراین، 200 مقدار ویژه از ماتریس هسته نمایی تقریبی شد. با توجه به محدودیت های محتوا، ویژگی های ESF انتخاب شده در جدول 3 نشان داده نشده است ، اما در مجموع 77 ویژگی بود.

4.2. اهمیت متغیرهای توضیحی

در این بخش، ما به تأثیری که هر متغیر توضیحی (یعنی ویژگی‌ها) بر مدل‌های آزمایش‌شده دارد نگاه می‌کنیم ( جدول 4 ). برای مدل های RF، اهمیت ویژگی نسبی مدل نهایی استخراج شده است. اهمیت ویژگی نسبی با مقیاس بندی مقادیر اصلی به 0-100٪ به دست می آید. برای مدل‌های معیار GWR، پارامترهای تخمینی متفاوتی در هر مکان محاسبه می‌شوند. برای مقایسه تأثیر متغیرهای کمکی، میانگین ضریب مطلق حاصل از ضرایب استاندارد شده در هر مکان را ارائه می‌کنیم. شکل 3میانگین اتاق خواب و ضرایب جمعیت را برای مجموعه داده کالیفرنیا، و همچنین ضرایب ارتفاع و فاصله برای مجموعه داده Meuse را نشان می دهد. می بینیم که مقادیر ضرایب از نظر مکانی متفاوت است و الگوها نیز بین متغیرهای کمکی متفاوت است. این نشان دهنده ناهمگونی فضایی در هر دو مجموعه داده است. علاوه بر این، تعداد مشاهداتی (یعنی مکان‌ها) را محاسبه کردیم که ضریب برای آنها معنی‌دار است. با پیروی از رویکرد داسیلوا و فاثرینگهام [ 73 ]، اهمیت با آزمون‌های t تصحیح‌شده برای آزمایش اهمیت تخمین‌های پارامترهای محلی برای جلوگیری از مثبت کاذب بیش از حد محاسبه می‌شود.
برای مدل Meuse GWR، متغیر om (ماده آلی) دارای بالاترین میانگین ضریب استاندارد مطلق (یعنی 0.43) است اما برای بیش از نیمی از مکان‌ها نیز ناچیز است. برای مدل‌های Meuse RF، فاصله تا رودخانه و ارتفاع به ترتیب اولین و دومین ویژگی تأثیرگذار برای همه مدل‌ها هستند. جالب توجه است، برای مدل‌های GWR، اگرچه مقادیر ضرایب ممکن است در مکان‌ها به دلیل ناهمگونی فضایی متفاوت باشد، اما در همه جا نیز قابل توجه هستند. این نشان می‌دهد که این دو ویژگی برای مدل‌ها بدون در نظر گرفتن یا عدم توجه به ویژگی‌های مکانی (مثلاً همبستگی یا ناهمگنی) چقدر مهم هستند. خودهمبستگی فضایی نیز در مدل سازی داده های Meuse مهم است زیرا گنجاندن ویژگی های فضایی مانند lag_k5 یا ev34 باعث جابجایی سایر ویژگی ها می شود (به عنوان مثال، om یا ffreq) در ادامه با توجه به اهمیت نسبی آنها. با این وجود، به نظر می رسد ویژگی های فضایی در مقایسه با فاصله و ارتفاع کمتر تأثیرگذار باشد.
در مورد مدل های کالیفرنیا، نتایج کاملاً متفاوت است. اول، ویژگی‌های فضایی تا حد زیادی در مدل‌های تاخیر فضایی و ESF غالب هستند، که نشان می‌دهد خود همبستگی فضایی برای مدل‌های قیمت خانه مهم است. ثانیاً، در مدل‌های GWR، برای تعداد زیادی از مکان‌ها، ویژگی‌های غیرمکانی معنی‌دار نیستند، که نشان‌دهنده تنوع بیشتر در «کجا» در منطقه مورد مطالعه، این متغیرهای توضیحی مهم هستند (حداقل در مقایسه با داده‌های Meuse). علاوه بر این، در برخی موارد، اینها ویژگی هایی با ضرایب بالا تا متوسط ​​در مدل ها هستند (به عنوان مثال، اتاق میانگین و درآمد). به عنوان مثال، مقادیر ضریب درآمد برای 28.16 درصد از نمونه ها (5814 مکان) ناچیز است. این می تواند توضیح دهد که چرا در مدل غیر فضایی، درآمد با توجه به اهمیت ویژگی آن در رتبه اول قرار دارد.

4.3. ارزیابی عملکرد – خطای RMSE

در جدول 5 ، خطاهای آموزش و آزمون مشتق شده از مقادیر RMSE را در سراسر مدل ها مشاهده می کنیم. در هر دو مجموعه داده، مدل‌هایی با ویژگی‌های فضایی کمترین خطای آزمون را داشتند. یعنی مدل ESF Meuse با خطای تست 171.82 و Spatial Lag مدل California با خطای تست 44034.95. مدل های GWR دارای دومین کمترین خطا هستند. در مورد بالاترین خطاها، برای داده‌های Meuse، خطای آزمون در مدل غیرمکانی (191.04) بیشترین خطا را دارد، اما برای داده‌های کالیفرنیا، مدل ESF بالاترین خطا را دارد (68158.81).
خطاهای آموزشی نشان می‌دهد که مدل‌های ویژگی‌های فضایی بهتر از مدل‌های غیرمکانی با داده‌ها تناسب دارند. با این حال، آنها همچنین نشان می دهند که میزان خطاها در مقایسه با خطاهای تست چقدر کمتر است. تا حدی این به این دلیل است که خطای آموزشی از مدل‌هایی (مدل متناسب با همه داده‌ها) با حجم نمونه بزرگ‌تر مشتق می‌شود، اما همچنین به این دلیل است که با گنجاندن ویژگی‌های بیشتر، RF تمایل دارد داده‌ها را بیش از حد برازش دهد، و بنابراین وقتی برای داده‌های دیده نشده اعمال می‌شود، خطا بیشتر خواهد بود خطاهای آموزشی مدل های GWR بسیار بیشتر از مدل های RF است. با این وجود، آنها همچنین مقادیر نزدیک تری به مقادیر خطاهای تست دارند. بنابراین، هنگام استفاده از GWR برای آموزش یک مدل برای استفاده برای پیش‌بینی‌های خارج از نمونه، ارزیابی مدل آموزش‌دیده‌شده واقعی‌تر از مدل RF خواهد بود.
هنگام مقایسه مدل‌های غیرفضایی با مدل‌های RF فضایی، خطای آزمون در سه مورد از چهار مقایسه (یعنی 1. تاخیر فضایی Meuse در مقابل Meuse غیرمکانی، 2. ESF Meuse در مقابل Meuse غیر فضایی، 3. تاخیر فضایی کالیفرنیا در مقابل کالیفرنیای غیر فضایی، 4. ESF کالیفرنیا در مقابل کالیفرنیای غیر فضایی)، نشان می‌دهد که مدل‌های دارای ویژگی‌های فضایی دقیق‌تر هستند زیرا خطا دارای مقادیر پایین‌تری از 4٪ تا 33٪ است. استثنا در این مورد، مدل ESF کالیفرنیا با خطای تست 3 درصد بیشتر در مقایسه با خطای مدل کالیفرنیای غیر فضایی است. به طور مشابه، استفاده از تاخیر فضایی یا ESF به طور قابل ملاحظه ای خطای تمرین را کاهش می دهد (از 5٪ تا 40٪ مقادیر پایین تر).

4.4. ارزیابی خودهمبستگی فضایی-محلی و محلی موران

همبستگی جهانی و محلی باقیمانده ها به طور قابل توجهی در مدل های RF فضایی و مدل های GWR در مقایسه با مدل های غیر فضایی بهبود یافته است. در جدول 6 ، مقادیر Moran’s I و تعداد خوشه های LISA ناچیز باقیمانده ها را می بینیم. نقشه هایی که چهار گروه بندی LISA از جمله مقادیر ناچیز را نشان می دهند در شکل 4 (برای داده های Meuse) و شکل 5 (برای داده های کالیفرنیا) نشان داده شده اند. نقشه ها مناطق خوشه بندی مقادیر بیش از حد برآورد شده (HH)، مقادیر دست کم برآورد شده (LL)، و همچنین نقاط پرت خوشه (HL و LH) را نشان می دهند. عدد صحیح داخل پرانتز به تعداد مشاهدات در هر دسته اشاره دارد.
با توجه به تعداد خوشه‌های ناچیز LISA، مدل GWR بیشترین تعداد را برای داده‌های Meuse (139) و مدل ESF بیشترین تعداد را برای داده‌های کالیفرنیا (19514) دارد. در یک مدل ایده آل، هیچ خوشه LISA قابل توجهی وجود نخواهد داشت. این در ابتدا به این معنی است که هیچ ویژگی فضایی دیگری وجود ندارد که توسط مدل‌ها ثبت نشده باشد، و ثانیاً، می‌تواند تایید کند که ارزیابی عملکرد انجام شده توسط یک آمار جهانی، مانند RMSE، قوی است و تفاوت زیادی در مطالعه ندارد. حوزه.
مشاهدات مشابهی برای خوشه‌های LISA می‌توان برای مقادیر Moran’s I انجام داد که الگوهای خوشه‌بندی معنی‌داری را برای هر دو مدل غیرمکانی نشان می‌دهند (یعنی 0.2 برای داده‌های Meuse و 0.42 برای داده‌های کالیفرنیا). مدل Meuse ESF هنوز همبستگی قابل توجهی (یعنی 0.19) را نشان می دهد، اما کمتر از مدل غیر فضایی مربوطه است. مدل‌های تاخیر فضایی دارای مقادیر p ناچیز هستند، که نشان می‌دهد فرضیه صفر را نمی‌توان رد کرد و الگوها تصادفی هستند. مدل‌های GWR دارای همبستگی آماری معنی‌دار هستند اما بسیار کمتر از مدل‌های غیرمکانی و بسیار نزدیک به یک الگوی تصادفی (مقدار I مورد انتظار).
این نتایج با انتظارات ما مطابقت دارد که گنجاندن اطلاعات فضایی قرار است به گرفتن همبستگی مکانی و افزایش دقت و به اشتراک گذاشتن اجماع با تحقیقات مرتبط قبلی کمک کند [ 27 ، 34 ، 35 ، 47 ].

5. بحث

این مطالعه اختلاط دو ویژگی فضایی، به عنوان مثال، تأخیر فضایی و فیلتر فضایی بردار ویژه، در ML را بررسی کرد تا خود همبستگی فضایی را در نظر بگیرد. با این حال، مدل‌هایی که ما استفاده کردیم (RF، RF با تأخیر فضایی، ESF RF و GWR) نمی‌توانند رفتار ویژگی‌های هدف ما را توضیح دهند و نتایج ما به‌جای علیت با ارتباط و همبستگی تفسیر می‌شوند. بنابراین، تمرکز تحلیل و نتایج ما بر عملکرد پیش‌بینی و کاهش خطای مدل‌ها (هم در سطح جهانی و هم به صورت محلی) است.
به جای تنها یک ویژگی تاخیر فضایی که توسط مطالعات قبلی استفاده شده بود، چندین ویژگی تاخیر فضایی برای آزمایش‌های ما ساخته شد. مقادیر k مختلف از k-نزدیکترین همسایه برای نشان دادن امکانات مختلف ماتریس وزن فضایی استفاده شد. یک روش LASSO مبتنی بر داده برای انتخاب آموزنده‌ترین زیر مجموعه از ویژگی‌های تاخیر فضایی معرفی شد. برای ویژگی های ESF، یک هسته نمایی کلاسیک برای ایجاد یک ماتریس وزن نیمه معین مثبت استفاده شد. بردارهای ویژه استخراج شده از ماتریس وزن الگوهای مختلف نقشه را نشان می دهند. برای کاهش تعداد بردارهای ویژه، همان روش LASSO برای انتخاب زیرمجموعه‌ای از ویژگی‌های ESF اتخاذ شد.
خطاهای پیش‌بینی مدل‌های جنگل تصادفی فضایی در سه آزمایش از چهار آزمایش کاهش یافته است. بنابراین، مطابق با یافته‌های مطالعات مرتبط قبلی [ 25 ، 26 ، 35 ، 74 ]، ما دریافتیم که ادغام ویژگی‌های فضایی به ساخت مدل‌های دقیق‌تر در هنگام اعمال بر داده‌های دیده نشده کمک می‌کند. علاوه بر این، مدل‌های GWR دارای دومین کمترین خطا هستند که برتری خود را نسبت به مدل‌های جنگل تصادفی غیرمکانی نشان می‌دهد. علاوه بر این، خطاهای آموزشی مدل‌های GWR بیشتر از خطاهای سایر مدل‌های جنگل تصادفی بود اما در عین حال به خطاهای آزمون مربوطه نزدیک‌تر بود.
هنگامی که ویژگی‌های فضایی در مدل‌های جنگل تصادفی القا شد، خودهمبستگی فضایی جهانی با موفقیت در باقیمانده‌ها کاهش یافت (تا 95٪ در مورد مسکن کالیفرنیا). اندازه خوشه های بالا و پایین کم کوچک شده و تعداد مقادیر غیر قابل توجه LISA افزایش یافته است. مدل‌های GWR نتایج مشابهی ارائه دادند که نشان می‌دهد هم یک مدل مبتنی بر ناهمگنی فضایی و هم یک مدل یادگیری ماشین مبتنی بر وابستگی فضایی، همبستگی خودکار فضایی باقی‌مانده‌های پیش‌بینی را در مقایسه با جریان‌های کاری یادگیری ماشین سنتی (a-فضایی) کاهش می‌دهند. کاهش یا حذف SAC در باقیمانده‌های پیش‌بینی در مطالعات مرتبط قبلی مورد بحث و فرض قرار گرفته است، اما در اینجا ما شواهدی را برای این ادعا از طریق نتایج آمار جهانی و محلی SAC ارائه می‌کنیم.
با این حال، اثرات بر کاهش خوشه‌های محلی ناهمگن (خوشه‌های HL و LH در LISA) حاشیه‌ای هستند. نحوه بیان صریح خوشه های پرت ناشناخته باقی مانده است و به تحقیقات بیشتری نیاز دارد. علاوه بر این، تلاش برای مطالعات آینده برای بررسی اینکه آیا ترکیبی از تاخیر فضایی و ویژگی‌های ESF می‌تواند عملکرد مدل بهتری را به همراه داشته باشد، ارزش دارد.
هم مدل‌های GWR و هم مدل‌های یادگیری ماشین با ویژگی‌های فضایی، عملکرد پیش‌بینی‌کننده را بهبود می‌بخشند و ارزیابی قوی‌تری از خطاها در فضا نشان می‌دهند. مزیت مدل‌های دارای ویژگی‌های فضایی در برابر مدل‌های GWR این است که می‌توانند روابط غیرخطی را تشخیص دهند و ویژگی‌های طبقه‌بندی را نیز در بر گیرند. این ویژگی‌های مطلوب مستلزم بررسی بیشتر چنین مدل‌هایی و شاید بررسی احتمالاتی برای گنجاندن همزمان ناهمگونی فضایی و خودهمبستگی فضایی در جریان‌های کاری یادگیری ماشین است. فرصتی برای انجام این کار، گسترش بیشتر پیاده‌سازی جغرافیایی RF، به نام جنگل تصادفی جغرافیایی (GRF) است [ 74 ، 75 ]]، که فرآیند ناهمگونی فضایی را با گنجاندن ویژگی‌های وابستگی فضایی که همبستگی مکانی را به تصویر می‌کشد، نشان می‌دهد.
آزمایش‌های ما شامل یک سناریوی کلاسیک و پیش‌بینی فضایی است. این پیش‌بینی خارج از نمونه در مکان‌های مختلف در همان منطقه مورد مطالعه است. علاوه بر این، این گردش کار می تواند برای استخراج یک مدل در ناحیه a و زمان t-1 استفاده شود و از آن برای پیش بینی هدف y در ناحیه a و زمان t استفاده شود ، زمانی که متغیرهای کمکی در t شناخته شده و هدف y ناشناخته است. اینها وظایف پیش‌بینی رایج در بسیاری از حوزه‌های کاربردی هستند که الگوریتم‌های سنتی ML مانند جرم [ 76 ، 77 ]، سلامت/اپیدمیولوژی [ 78 ، 79 ، 80 ] برای آنها استفاده شده است.]، مسکن [ 81 ، 82 ]، ترافیک [ 83 ، 84 ] و شاخص های اجتماعی-اقتصادی [ 85 ، 86 ].
اگر بخواهیم از یک مدل برازش برای برون یابی فضایی استفاده کنیم چه؟ به عبارت دیگر، مدل را در یک منطقه مطالعه متفاوت اعمال کنید؟ ممکن است یک مدل غیرمکانی مشابه (اگر نه بهتر) نسبت به مدلی با ویژگی‌های فضایی که در یک منطقه مطالعه متفاوت آموزش دیده‌اند یا CV فضایی برای ارزیابی دقت مدل مورد نیاز باشد [ 24 ، 87 ]. تحقیقات بیشتری مورد نیاز است تا آشکار شود که چگونه سناریوهای مختلف پیش‌بینی فضایی ممکن است نیاز به تغییر روند کار مدل‌سازی و الگوریتم‌های مورد استفاده داشته باشند یا نداشته باشند. علاوه بر این، گردش کار مدل‌سازی ما به‌طور خودکار سطح پیوسته‌ای از مقادیر تخمینی را از نقاط مشاهده مشابه با روش‌های زمین آماری کریجینگ [ 88 ] یا تکنیک جدیدتر RFsp [ 22 ] ایجاد نمی‌کند.] می تواند انجام دهد. با این حال، با مجموعه ای متفاوت از متغیرهای کمکی (یعنی داده های شطرنجی)، این نیز می تواند یک کاربرد ممکن باشد.
هنگام مقایسه دو نوع مدل فضایی (تأخیر فضایی و ESF)، نمی‌توان نتیجه گرفت که آیا یک نوع در رابطه با I Moran بهتر از دیگری عمل می‌کند یا خیر.یا خوشه‌های LISA، اما کاهش خطا فقط برای مدل‌های تاخیر فضایی سازگار بود. علاوه بر این، تأثیر ویژگی‌های فضایی در مدل‌های Meuse به اندازه مدل‌های مسکن کالیفرنیا قوی نیست. داده‌های میز تعداد مشاهدات کمتری نسبت به داده‌های کالیفرنیا دارند، که ممکن است اولین توضیح ممکن برای این تفاوت باشد. چنین داده‌هایی (یعنی فلزات سنگین در خاک) با فاصله‌ای از مشاهدات نمونه‌برداری می‌شوند که ممکن است بر میزان همبستگی فضایی اندازه‌گیری شده تأثیر بگذارد. با یک نمونه بزرگتر، شدت نمونه‌گیری افزایش می‌یابد و در نتیجه فاصله کاهش می‌یابد و در نتیجه میزان همبستگی فضایی افزایش می‌یابد [ 89 ].]. علاوه بر این، مکانیسم‌های فضایی مختلف غلظت روی و قیمت مسکن می‌تواند دومین توضیح ممکن برای مشاهده باشد. به عنوان مثال، این مطالعه نشان می‌دهد که قیمت خانه‌ها بیشتر از غلظت روی به واکنش خودرگرسیون (یعنی تاخیر فضایی) مربوط می‌شود. این با استفاده از یک ماتریس وزن فضایی که بر اساس مفهوم مجاورت فضایی (یعنی نزدیکترین همسایگان) ساخته شده بود، نشان داده شد. با این حال، یک مطالعه توسط Ejigu و Wencheko [ 39]، که داده‌های Meuse را نیز مورد بررسی قرار داد، نشان داد که دو مکان ممکن است از نظر جغرافیایی نزدیک باشند اما توسط عوامل دیگر از هم جدا شوند و به این ترتیب نباید به عنوان همسایه‌های نزدیک در نظر گرفته شوند. نویسندگان استفاده از یک ماتریس وزنی را توصیه می کنند که مجاورت جغرافیایی و اطلاعات کمکی را هنگامی که توزیع های متغیر نتیجه با مقادیر متغیر کمکی تغییر می کند، ترکیب می کند. سومین توضیح ممکن این است که پیش‌بینی‌کننده‌های Meuse در پیش‌بینی متغیر وابسته در مقایسه با پیش‌بینی‌کننده‌های مورد استفاده برای داده‌های کالیفرنیا بهتر و در نتیجه قوی‌تر هستند. بررسی مجموعه داده‌های بیشتر با اندازه‌های داده‌ها و مضامین مختلف، درک کامل‌تری از عملکرد دو ویژگی فضایی پیشنهادی را نشان می‌دهد.
با توجه به ماتریس وزن فضایی، ما با مقادیر k مختلف از k-نزدیک ترین همسایه آزمایش کردیم که در نتیجه ماتریس های وزن فضایی مختلف برای ویژگی های تاخیر فضایی ایجاد شد. با این وجود، مقادیر k بیشتری را می توان آزمایش کرد. به طور مشابه، برای ساخت ویژگی‌های ESF یا اجرای مدل‌های GWR، از پیشنهادات پیش‌فرض برای تنظیماتی استفاده کردیم که شامل ماتریس‌های وزن فضایی مختلف بود (یعنی تابع هسته نمایی مبتنی بر فاصله برای ESF و تابع هسته دو مربعی مبتنی بر فاصله برای GWR. ). تحقیقات آینده ممکن است انجام یک تحلیل حساسیت روی این تنظیمات را در نظر بگیرد. علاوه بر این، یک جهت تحقیقاتی ممکن می‌تواند پیکربندی خودکار ماتریس‌های وزن فضایی در فاز تنظیم مدل و همچنین شامل تعاریف مختلف از ماتریس‌های وزن (به عنوان مثال، باند فاصله،k نزدیکترین همسایه، توابع هسته، مجاورت، یا مبتنی بر مجاورت همراه با اطلاعات کمکی).
در آخر، آزمایش‌های ما با جنگل تصادفی انجام شد و ما تغییرات عملکرد مدل را در بین دو مجموعه داده مشاهده کردیم. مطالعات کاربردی جدید با سایر الگوریتم‌های ML (مانند ماشین بردار پشتیبان، شبکه‌های عصبی) برای درک استحکام و کارایی گردش کار مدل‌سازی ML فضایی پیشنهادی ما مورد نیاز است.

منابع

  1. Goodchild، MF کیفیت داده های بزرگ (جغرافیایی). دیالوگ هام Geogr. 2013 ، 3 ، 280-284. [ Google Scholar ] [ CrossRef ]
  2. کیچین، آر. داده های بزرگ و جغرافیای انسانی: فرصت ها، چالش ها و خطرات. دیالوگ هام Geogr. 2013 ، 3 ، 262-267. [ Google Scholar ] [ CrossRef ]
  3. هافمن، جی. بار سینا، ی. لی، LM; آندریویچ، جی. میشا، س. روبینشتاین، اس ام. رایکرافت، CH یادگیری ماشینی در یک رژیم محدود داده: آزمایش‌های تقویت شده با داده‌های مصنوعی نظم را در ورق‌های مچاله شده آشکار می‌کند. علمی Adv. 2019 ، 5 ، eaau6792. [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
  4. آگیلار، آر. زوریتا میلا، ر. Izquierdo-Verdiguier، E. De By، RA طبقه‌بندی‌کننده گروه چندموقتی مبتنی بر ابر برای نقشه‌برداری سیستم‌های کشاورزی کوچک. Remote Sens. 2018 , 10 , 729. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  5. Řezník، T. چیتری، جی. Trojanová، K. خط لوله اثبات مفهوم پردازش مبتنی بر یادگیری ماشین برای دانلود تصاویر نیمه خودکار Sentinel-2، فیلتر ابری، طبقه بندی و به روز رسانی مجموعه داده های کاربری زمین/پوشش زمین باز. ISPRS Int. J. Geo-Inf. 2021 ، 10 ، 102. [ Google Scholar ] [ CrossRef ]
  6. پرادان، AMS؛ کیم، Y.-T. نقشه‌برداری حساسیت زمین لغزش کم عمق ناشی از بارندگی در دو حوضه مجاور با استفاده از الگوریتم‌های پیشرفته یادگیری ماشین. ISPRS Int. J. Geo-Inf. 2020 ، 9 ، 569. [ Google Scholar ] [ CrossRef ]
  7. زوریتا میلا، ر. گونکالوس، آر. Izquierdo-Verdiguier، E. Ostermann، FO در حال کاوش در شروع بهار در مقیاس قاره ای: نقشه برداری از فنورمنطقه ها و همبستگی دما و فنومتریک مبتنی بر ماهواره. IEEE Trans. کلان داده 2019 ، 6 ، 583–593. [ Google Scholar ] [ CrossRef ]
  8. رایششتاین، ام. کمپز-والز، جی. استیونز، بی. یونگ، ام. دنزلر، جی. کاروالهایس، ن. پرابهات. یادگیری عمیق و درک فرآیند برای علم سیستم زمین مبتنی بر داده. Nature 2019 ، 566 ، 195-204. [ Google Scholar ] [ CrossRef ]
  9. کانفسکی، م. پوزدنوخوف، ا. Timonin، V. الگوریتم های یادگیری ماشین برای داده های جغرافیایی. نرم افزارها و ابزارهای نرم افزاری. در مجموعه مقالات چهارمین کنگره بین المللی مدلسازی و نرم افزار محیطی، بارسلون، اسپانیا، 1 ژوئیه 2008; پ. 369. [ Google Scholar ]
  10. شکر، س. جیانگ، ز. علی، RY; افتلی اوغلو، ای. تانگ، ایکس. گونتوری، VMV؛ ژو، X. داده کاوی فضایی-زمانی: یک دیدگاه محاسباتی. ISPRS Int. J. Geo-Inf. 2015 ، 4 ، 2306-2338. [ Google Scholar ] [ CrossRef ]
  11. مایکل، FG علم اطلاعات جغرافیایی. بین المللی جی. جئوگر. Inf. سیستم 1992 ، 6 ، 31-45. [ Google Scholar ]
  12. میلر، HJ نمایش جغرافیایی در تحلیل فضایی. جی. جئوگر. سیستم 2000 ، 2 ، 55-60. [ Google Scholar ] [ CrossRef ]
  13. Tobler, WR یک فیلم کامپیوتری شبیه سازی رشد شهری در منطقه دیترویت. اقتصاد Geogr. 1970 ، 46 ، 234-240. [ Google Scholar ] [ CrossRef ]
  14. Anselin, L. اقتصاد سنجی فضایی: روش ها و مدل ها . Springer: Dordrecht, The Netherlands, 1988. [ Google Scholar ] [ CrossRef ][ Green Version ]
  15. براندون، سی. فاثرینگهام، اس. چارلتون، ام. رگرسیون وزنی جغرافیایی. JR Stat. Soc. سر. D 1996 , 47 , 431-443. [ Google Scholar ] [ CrossRef ]
  16. لوچل، ام. Axhausen، KW مدل سازی اجاره های مسکونی لذت جویانه برای استفاده از زمین و شبیه سازی حمل و نقل با در نظر گرفتن اثرات فضایی. J. Transp. کاربری زمین 2010 ، 3 ، 39-63. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  17. ویلر، DC رگرسیون وزنی جغرافیایی. در کتابچه راهنمای علوم منطقه ای ; Springer: برلین/هایدلبرگ، آلمان، 2014; ص 1435-1459. [ Google Scholar ]
  18. فوئجیو، اف. کلمپ، جی. بررسی عدم قطعیت پیش‌بینی داده‌های مکانی در رویکردهای زمین‌آماری و یادگیری ماشینی. محیط زیست علوم زمین 2019 ، 78 ، 38. [ Google Scholar ] [ CrossRef ]
  19. Kleijnen، JPC; ون بیرز، پیش‌بینی WCM برای داده‌های بزرگ از طریق کریجینگ: طرح‌های کوچک متوالی و تک‌شات. صبح. جی. ریاضی. مدیریت علمی 2020 ، 39 ، 199-213. [ Google Scholar ] [ CrossRef ]
  20. موراکامی، دی. Griffith، DA Eigenvector Spatial Filtering for Large Data Sets: Fixed and Random Effects Approaches. Geogr. مقعدی 2018 ، 51 ، 23-49. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  21. Dormann، CF; مک فرسون، جی.ام. Araújo، MB; بیوند، ر. بولیگر، جی. کارل، جی. دیویس، آر جی. هیرزل، ا. جتز، دبلیو. بوسیدن، WD; و همکاران روش‌هایی برای محاسبه خودهمبستگی فضایی در تجزیه و تحلیل داده‌های توزیع گونه‌ها: مروری. اکوگرافی 2007 ، 30 ، 609-628. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  22. هنگل، تی. نوسبام، م. رایت، MN; Heuvelink، GBM؛ Gräler، B. جنگل تصادفی به عنوان یک چارچوب عمومی برای مدل سازی پیش بینی متغیرهای مکانی و مکانی-زمانی. PeerJ 2018 , 6 , e5518. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  23. مایر، اچ. رودنباخ، سی. ولاور، اس. Nauss, T. اهمیت انتخاب متغیر پیش‌بینی‌کننده فضایی در برنامه‌های یادگیری ماشین – حرکت از بازتولید داده به پیش‌بینی فضایی. Ecol. مدل. 2019 ، 411 ، 108815. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  24. پوهجانکوکا، ج. Pahikkala، T. نوالاینن، پی. Heikkonen, J. برآورد عملکرد پیش‌بینی مدل‌های فضایی از طریق اعتبارسنجی متقاطع k-fold فضایی. بین المللی جی. جئوگر. Inf. علمی 2017 ، 31 ، 2001–2019. [ Google Scholar ] [ CrossRef ]
  25. بهرنز، تی. اشمیت، ک. راسل، راو؛ گریس، پی. شولتن، تی. مک میلان، مدل سازی فضایی RA با میدان های فاصله اقلیدسی و یادگیری ماشین. یورو J. Soil Sci. 2018 ، 69 ، 757-770. [ Google Scholar ] [ CrossRef ]
  26. لی، تی. شن، اچ. یوان، Q. ژانگ، ایکس. ژانگ، ال. تخمین PM2.5 سطح زمین با ترکیب مشاهدات ماهواره و ایستگاه: یک رویکرد یادگیری عمیق ژئو-هوشمند. ژئوفیز. Res. Lett. 2017 ، 44 ، 11985-11993. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  27. چن، ال. رن، سی. لی، ال. وانگ، ی. ژانگ، بی. وانگ، ز. لی، ال. ارزیابی مقایسه ای رویکردهای زمین آماری، یادگیری ماشینی و ترکیبی برای نقشه برداری محتوای کربن آلی خاک سطحی. ISPRS Int. J. Geo-Inf. 2019 ، 8 ، 174. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  28. فارستی، ال. پوزدنوخوف، ا. تویا، دی. Kanevski، M. مدل‌سازی بارش شدید با استفاده از الگوریتم‌های زمین آمار و یادگیری ماشین. در geoENV VII–Geostatistics for Environmental Applications ; Springer: Dordrecht، هلند، 2010; صص 41-52. [ Google Scholar ]
  29. هنگل، تی. Heuvelink، GBM؛ کمپن، بی. Leenaars، JGB; والش، ام جی؛ شپرد، KD; سیلا، ا. مک میلان، RA; De Jesus, JM; تمنه، ال. و همکاران نقشه برداری از ویژگی های خاک آفریقا با وضوح 250 متر: جنگل های تصادفی به طور قابل توجهی پیش بینی های فعلی را بهبود می بخشد. PLoS ONE 2015 ، 10 ، e0125814. [ Google Scholar ] [ CrossRef ]
  30. هنگل، تی. Heuvelink، GBM؛ Rossiter، DG درباره رگرسیون-کریجینگ: از نظریه تا تفسیر نتایج. محاسبه کنید. Geosci. 2007 ، 33 ، 1301-1315. [ Google Scholar ] [ CrossRef ]
  31. مولر، ای. Sandoval، JSO؛ مودیگوندا، اس. الیوت، ام. رویکرد گروه یادگیری ماشینی مبتنی بر خوشه برای داده‌های مکانی: برآورد وضعیت بیمه سلامت در میسوری. ISPRS Int. J. Geo-Inf. 2018 ، 8 ، 13. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  32. استویانوا، دی. سیسی، م. آپیس، ا. مالربا، دی. Džeroski، S. برخورد با خودهمبستگی فضایی هنگام یادگیری درختان خوشه‌بندی پیش‌بینی‌کننده. Ecol. به اطلاع رساندن. 2013 ، 13 ، 22-39. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  33. کلمر، ک. کوشیاما، ا. Flennerhag، S. تقویت ساختارهای همبستگی در داده های فضایی با استفاده از مدل های مولد عمیق. در دسترس آنلاین: https://arxiv.org/pdf/1905.09796.pdf (دسترسی در 23 دسامبر 2021).
  34. کیلی، تی جی; باستیان، ND مدل یادگیری ماشینی هوشیار فضایی. آمار مقعدی حداقل داده ASA Data Sci. J. 2020 ، 13 ، 31-49. [ Google Scholar ] [ CrossRef ]
  35. زو، ایکس. ژانگ، Q. Xu، C.-Y.; سان، پ. هو، پی. بازسازی داده‌های دمای هوای سطحی با وضوح فضایی بالا در سراسر چین: تکنیک یادگیری ماشین مبتنی بر داده‌های چندمنبعی جدید ژئوهوشمند. علمی کل محیط. 2019 ، 665 ، 300–313. [ Google Scholar ] [ CrossRef ]
  36. Pebesma، EJ زمین آمار چند متغیره در S: بسته gstat. محاسبه کنید. Geosci. 2004 ، 30 ، 683-691. [ Google Scholar ] [ CrossRef ]
  37. بیوند، RS; پبسما، ای. Gómez-Rubio، V. تحلیل داده های مکانی کاربردی با R ، ویرایش دوم. Springer: Berlin/Heidelberg, Germany, 2013. [ Google Scholar ] [ CrossRef ]
  38. D’Urso، P. Vitale, V. یک خوشه بندی سلسله مراتبی قوی برای داده های جغرافیایی ارجاع داده شده. تف کردن آمار 2020 ، 35 ، 100407. [ Google Scholar ] [ CrossRef ]
  39. Ejigu، BA; Wencheko، E. معرفی ماتریس‌های وزنی وابسته به متغیرهای کمکی در برازش مدل‌های خودرگرسیون و اندازه‌گیری خودهمبستگی فضایی-محیطی. تف کردن آمار 2020 ، 38 ، 100454. [ Google Scholar ] [ CrossRef ]
  40. سرعت، RK; باری، آر. خودرگرسیون های فضایی پراکنده. آمار احتمالا. Lett. 1997 ، 33 ، 291-297. [ Google Scholar ] [ CrossRef ]
  41. باومن، دی. دروئت، تی. درای، اس. Vleminckx، J. جداسازی عملکردهای خوب از بد در انتخاب بردارهای ویژه فضایی یا فیلوژنتیکی. اکوگرافی 2018 ، 41 ، 1638-1649. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  42. دبارسی، ن. LeSage, J. مدل‌سازی وابستگی انعطاف‌پذیر با استفاده از ترکیبات محدب انواع مختلف ساختارهای اتصال. Reg. علمی اقتصاد شهری 2018 ، 69 ، 48-68. [ Google Scholar ] [ CrossRef ]
  43. گتیس، ع. گریفیث، DA فیلترینگ فضایی مقایسه ای در تحلیل رگرسیون. Geogr. مقعدی 2002 ، 34 ، 130-140. [ Google Scholar ] [ CrossRef ]
  44. گریفیث، دی. چون، Y. خودهمبستگی فضایی و فیلتر فضایی. در کتابچه راهنمای علوم منطقه ای ; Springer: برلین/هایدلبرگ، آلمان، 2014; ص 1477-1507. [ Google Scholar ]
  45. کوپیدو، ک. جوتیچ، پ. Paez, A. الگوهای فضایی مرگ و میر در ایالات متحده: یک رویکرد فیلتر فضایی. بیمه ریاضی. اقتصاد 2020 ، 95 ، 28-38. [ Google Scholar ] [ CrossRef ]
  46. Paez, A. استفاده از فیلترهای فضایی و تجزیه و تحلیل داده های اکتشافی برای تقویت مدل های رگرسیون داده های مکانی. Geogr. مقعدی 2018 ، 51 ، 314-338. [ Google Scholar ] [ CrossRef ]
  47. ژانگ، جی. لی، بی. چن، ی. چن، ام. نیش، تی. Liu, Y. مدلسازی رگرسیون فیلتر فضایی بردار ویژه غلظت PM2.5 زمین با استفاده از داده های سنجش از دور. بین المللی جی. محیط زیست. Res. بهداشت عمومی 2018 ، 15 ، 1228. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  48. دریناس، پ. ماهونی، مگاوات؛ کریستیانینی، ن. در روش نیستروم برای تقریب ماتریس گرم برای بهبود یادگیری مبتنی بر هسته. جی. ماخ. فرا گرفتن. Res. 2005 ، 6 ، 2153-2175. [ Google Scholar ]
  49. لی، جی. هیپ، AD; پاتر، ا. دانیل، جی جی استفاده از روش های یادگیری ماشین برای درونیابی فضایی متغیرهای محیطی. محیط زیست مدل. نرم افزار 2011 ، 26 ، 1647-1659. [ Google Scholar ] [ CrossRef ]
  50. تبشیرانی، آر. انقباض و انتخاب رگرسیون از طریق کمند. JR Stat. Soc. سر. روش B. 1996 ، 58 ، 267-288. [ Google Scholar ] [ CrossRef ]
  51. فریدمن، جی اچ. هستی، تی. Tibshirani, R. مسیرهای منظم سازی برای مدل های خطی تعمیم یافته از طریق نزول مختصات. J. Stat. نرم افزار 2010 ، 33 ، 1-22. [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
  52. کاروانا، آر. کارامپاتزیاکیس، ن. Yessenalina، A. یک ارزیابی تجربی از یادگیری تحت نظارت در ابعاد بالا. در مجموعه مقالات بیست و پنجمین کنفرانس بین المللی یادگیری ماشین، هلسینکی، فنلاند، 5 تا 9 ژوئیه 2008. صص 96-103. [ Google Scholar ]
  53. بلژیک، م. Drăguţ، L. جنگل تصادفی در سنجش از دور: بررسی برنامه‌ها و جهت‌های آینده. ISPRS J. Photogramm. Remote Sens. 2016 ، 114 ، 24–31. [ Google Scholar ] [ CrossRef ]
  54. Vasan، KK; Surendiran، B. کاهش ابعاد با استفاده از تجزیه و تحلیل مؤلفه اصلی برای تشخیص نفوذ شبکه. چشم انداز علمی 2016 ، 8 ، 510-512. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  55. عبدالحمد، ر. مسافر، ح. آلسا، ا. فائزی پور، م. Abuzneid، A. ویژگی‌های رویکردهای کاهش ابعاد برای تشخیص نفوذ شبکه مبتنی بر یادگیری ماشین. Electronics 2019 ، 8 ، 322. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  56. بنژیو، ی. دلالو، او. Le Roux, N. نفرین ابعاد برای ماشین های هسته محلی. تکنولوژی Rep. 2005 , 1258 , 12. [ Google Scholar ]
  57. تنه، GV مشکل ابعاد: یک مثال ساده. IEEE Trans. الگوی مقعدی ماخ هوشمند 1979 ، 1 ، 306-307. [ Google Scholar ] [ CrossRef ]
  58. ورلیسن، ام. فرانسوا، دی. نفرین ابعاد در داده کاوی و پیش بینی سری های زمانی. در کنفرانس کاری بین المللی شبکه های عصبی مصنوعی ; Springer: برلین/هایدلبرگ، آلمان، 2005; صص 758-770. [ Google Scholar ] [ CrossRef ]
  59. ما، ال. فو، تی. بلاشکه، تی. لی، ام. تاید، دی. ژو، ز. ما، ایکس. Chen, D. ارزیابی روش‌های انتخاب ویژگی برای نقشه‌برداری پوشش زمین مبتنی بر شی از تصاویر وسایل نقلیه هوایی بدون سرنشین با استفاده از طبقه‌بندی‌کننده‌های ماشین بردار تصادفی و جنگلی تصادفی. ISPRS Int. J. Geo-Inf. 2017 ، 6 ، 51. [ Google Scholar ] [ CrossRef ]
  60. جورجانوس، اس. گریپا، تی. وان هویس، اس. لنرت، ام. شیمونی، م. کالوگیرو، س. Wolff, E. Less is more: بهینه‌سازی عملکرد طبقه‌بندی از طریق انتخاب ویژگی در یک برنامه کاربردی شهری مبتنی بر شیء سنجش از دور با وضوح بسیار بالا. GIScience Remote Sens. 2017 ، 55 ، 221-242. [ Google Scholar ] [ CrossRef ]
  61. سلمر، آر. سیچولسکا، ا. Bełej، M. تحلیل فضایی قیمت مسکن و فعالیت بازار با رگرسیون وزن‌دار جغرافیایی. ISPRS Int. J. Geo-Inf. 2020 ، 9 ، 380. [ Google Scholar ] [ CrossRef ]
  62. چن، D.-R. Truong، K. استفاده از مدل‌سازی چند سطحی و رگرسیون وزن‌دار جغرافیایی برای شناسایی تغییرات فضایی در رابطه بین معایب سطح مکان و چاقی در تایوان. Appl. Geogr. 2012 ، 32 ، 737-745. [ Google Scholar ] [ CrossRef ]
  63. سولر، IP; Gemar، G. مدل‌های قیمت لذت‌بخش با رگرسیون وزن‌دار جغرافیایی: کاربرد برای مهمان‌نوازی. جی. مقصد. علامت. مدیریت 2018 ، 9 ، 126-137. [ Google Scholar ] [ CrossRef ]
  64. ژانگ، ز. چن، RJC; هان، LD; یانگ، ال. عوامل کلیدی مؤثر بر قیمت فهرست‌های Airbnb: یک رویکرد وزن‌دار جغرافیایی. پایداری 2017 ، 9 ، 1635. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  65. علی، ک. کبک، MD; Olfert، MR آیا رگرسیون های وزنی جغرافیایی می توانند تحلیل و سیاست گذاری منطقه ای را بهبود بخشند؟ بین المللی Reg. علمی Rev. 2007 , 30 , 300-329. [ Google Scholar ] [ CrossRef ]
  66. کیهیل، م. مولیگان، جی. استفاده از رگرسیون وزن‌دار جغرافیایی برای کاوش الگوهای جرم محلی. Soc. علمی محاسبه کنید. Rev. 2007 , 25 , 174-193. [ Google Scholar ] [ CrossRef ]
  67. چارلتون، ام. Fotheringham، AS رگرسیون وزنی جغرافیایی: آموزش استفاده از GWR در ArcGIS 9.3. 2009. در دسترس آنلاین: https://www.geos.ed.ac.uk/~gisteac/fcl/gwr/gwr_arcgis/GWR_Tutorial.pdf (در 1 ژانویه 2022 قابل دسترسی است).
  68. اوشان، TM; لی، ز. کانگ، دبلیو. ولف، ال جی. Fotheringham، AS mgwr: پیاده‌سازی پایتون از رگرسیون جغرافیایی وزن‌دار چند مقیاسی برای بررسی ناهمگونی و مقیاس فضایی فرآیند. ISPRS Int. J. Geo-Inf. 2019 ، 8 ، 269. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  69. شراتز، پی. موئنچو، جی. ایتوریتکسا، ای. ریشتر، جی. برنینگ، الف. تنظیم فراپارامتر و ارزیابی عملکرد الگوریتم‌های آماری و یادگیری ماشینی با استفاده از داده‌های مکانی. Ecol. مدل. 2019 ، 406 ، 109-120. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  70. کاولی، جی سی; Talbot، NLC در مورد برازش بیش از حد در انتخاب مدل و سوگیری انتخاب بعدی در ارزیابی عملکرد. جی. ماخ. فرا گرفتن. Res. 2010 ، 11 ، 2079-2107. [ Google Scholar ]
  71. استون، ام. انتخاب اعتبار متقابل و ارزیابی پیش‌بینی‌های آماری. JR Stat. Soc. سر. روش B. 1974 ، 36 ، 111-133. [ Google Scholar ] [ CrossRef ]
  72. Anselin، L. نشانگرهای محلی انجمن فضایی-LISA. Geogr. مقعدی 1995 ، 27 ، 93-115. [ Google Scholar ] [ CrossRef ]
  73. دا سیلوا، آر. Fotheringham، AS مسئله آزمایش چندگانه در رگرسیون وزن‌دار جغرافیایی. Geogr. مقعدی 2016 ، 48 ، 233-247. [ Google Scholar ] [ CrossRef ]
  74. جورجانوس، اس. گریپا، تی. Gadiaga، AN; لینارد، سی. لنرت، ام. وان هویس، اس. امبوگا، ن. ولف، ای. Kalogirou، S. جنگل‌های تصادفی جغرافیایی: گسترش فضایی الگوریتم جنگل تصادفی برای پرداختن به ناهمگونی فضایی در سنجش از دور و مدل‌سازی جمعیت. Geocarto Int. 2021 ، 36 ، 121-136. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  75. کالوگیرو، س. جورجانوس، S. SpatialML. بنیاد R برای محاسبات آماری. در دسترس آنلاین: https://cran.r-project.org/web/packages/SpatialML/SpatialML.pdf (در 1 ژانویه 2022 قابل دسترسی است).
  76. ریستئا، ع. البونی، م. رسچ، بی. گربر، ام اس; لایتنر، ام. توزیع جرم فضایی و پیش‌بینی رویدادهای ورزشی با استفاده از رسانه‌های اجتماعی. بین المللی جی. جئوگر. Inf. علمی 2020 ، 34 ، 1708-1739. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  77. لاماری، ی. فرسکورا، بی. عبدالصمد، ع. آیچبرگ، اس. De Bonviller, S. پیش بینی وقوع جرم فضایی از طریق یک مدل یادگیری گروهی کارآمد. ISPRS Int. J. Geo-Inf. 2020 ، 9 ، 645. [ Google Scholar ] [ CrossRef ]
  78. شائو، کیو. خو، ی. Wu, H. پیش‌بینی فضایی COVID-19 در چین بر اساس الگوریتم‌های یادگیری ماشین و رگرسیون وزن‌دار جغرافیایی. محاسبه کنید. ریاضی. روش ها Med. 2021 ، 2021 ، 7196492. [ Google Scholar ] [ CrossRef ]
  79. جوان، اس جی. تولیس، جی. Cothren، J. رویکرد اپیدمیولوژی چشم انداز به کمک سنجش از دور و GIS به ویروس نیل غربی. Appl. Geogr. 2013 ، 45 ، 241-249. [ Google Scholar ] [ CrossRef ]
  80. المالکی، ع. گوکاراجو، بی. مهتا، ن. تکنیک‌های رگرسیون یادگیری ماشینی و مکانی مکانی Doss، DA برای تجزیه و تحلیل تأثیر دسترسی به غذا بر مسائل بهداشتی در جوامع پایدار. ISPRS Int. J. Geo-Inf. 2021 ، 10 ، 745. [ Google Scholar ] [ CrossRef ]
  81. ژو، ایکس. تانگ، دبلیو. لی، دی. مدل سازی اجاره مسکن در منطقه شهری آتلانتا با استفاده از اطلاعات متنی و یادگیری عمیق. ISPRS Int. J. Geo-Inf. 2019 ، 8 ، 349. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  82. چه، م. کلیبردا، م. لیسک، ا. باجات، ب. برآورد عملکرد جنگل تصادفی در مقابل رگرسیون چندگانه برای پیش‌بینی قیمت آپارتمان‌ها. ISPRS Int. J. Geo-Inf. 2018 ، 7 ، 168. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  83. آکر، بی. یوان، ام. مدل‌سازی احتمال وقوع رویداد در فضا و زمان مبتنی بر شبکه: مطالعه موردی تصادفات رانندگی در دالاس، تگزاس، ایالات متحده آمریکا. کارتوگر. Geogr. Inf. علمی 2018 ، 46 ، 21-38. [ Google Scholar ] [ CrossRef ]
  84. کلر، اس. گابریل، ر. Guth، J. چارچوب یادگیری ماشین برای تخمین سرعت متوسط ​​در شبکه های جاده ای روستایی با داده های نقشه خیابان باز. ISPRS Int. J. Geo-Inf. 2020 ، 9 ، 638. [ Google Scholar ] [ CrossRef ]
  85. دونگ، ال. راتی، سی. ژنگ، اس. پیش بینی ویژگی های اجتماعی-اقتصادی محله ها با استفاده از داده های رستوران. Proc. Natl. آکادمی علمی ایالات متحده آمریکا 2019 ، 116 ، 15447–15452. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  86. فلدمایر، دی. میش، سی. ساتر، اچ. Birkmann, J. استفاده از داده های OpenStreetMap و یادگیری ماشینی برای تولید شاخص های اجتماعی-اقتصادی. ISPRS Int. J. Geo-Inf. 2020 ، 9 ، 498. [ Google Scholar ] [ CrossRef ]
  87. کرازبی، اچ. دامولاس، تی. جارویس، SA اعتبار متقاطع جاده و زمان سفر برای مدل‌سازی شهری. بین المللی جی. جئوگر. Inf. علمی 2020 ، 34 ، 98-118. [ Google Scholar ] [ CrossRef ]
  88. دیگل، پی جی؛ تاون، JA; موید، زمین آمار مبتنی بر مدل RA. JR Stat. Soc. سر. C Appl. آمار 1998 ، 47 ، 299-350. [ Google Scholar ] [ CrossRef ]
  89. گریفیث، DA توزیع جغرافیایی غلظت سرب خاک: توضیحات و نگرانی ها. URISA J. 2002 ، 14 ، 5-14. [ Google Scholar ]
شکل 1. رویه‌های گردش کار پیش‌بینی یادگیری ماشین فضایی پیشنهادی.
شکل 2. توزیع نمونه ها با استفاده از شکاف های کمی. ( الف ) مجموعه داده رودخانه میوس و ( ب ) مجموعه داده مسکن کالیفرنیا.
شکل 3. توزیع ضرایب استاندارد شده GWR: ( الف ) مجموعه داده Meuse، ارتفاع، ( ب ) مجموعه داده Meuse، فاصله، ( ج ) مجموعه داده کالیفرنیا، اتاق خواب های متوسط، ( د ) مجموعه داده کالیفرنیا، جمعیت.
شکل 4. خوشه های LISA برای داده های Meuse: ( الف ) مدل غیر فضایی، ( ب ) مدل تاخیر فضایی، ( ج ) مدل ESF، و ( د ) مدل GWR. سطح معنی داری خوشه بندی LISA روی 5 درصد تنظیم شده است .
شکل 5. خوشه های LISA برای داده های کالیفرنیا: ( الف ) مدل غیر فضایی، ( ب ) مدل تاخیر فضایی، ( ج ) مدل ESF، و ( د ) مدل GWR. سطح معنی داری خوشه بندی LISA روی 5 درصد تنظیم شده است .

بدون دیدگاه

دیدگاهتان را بنویسید