رگرسیون وزندار جغرافیایی (GWR) چگونه کار میکند
توجه داشته باشید:
این ابزار برای ArcGIS Pro 2.3 بهروزرسانی شده است و شامل تحقیقات آکادمیک اضافی، پیشرفتهایی در روش توسعهیافته در چند سال گذشته است و پشتیبانی از مدلهای اضافی را گسترش میدهد. اضافه شدن مدل های شمارش (پواسون) و باینری (لجستیک) به این ابزار اجازه می دهد تا برای طیف وسیع تری از مسائل اعمال شود.
برنامه های کاربردی بالقوه
ابزار Geographically Weighted Regression را می توان برای کاربردهای مختلفی استفاده کرد، از جمله موارد زیر:
- آیا رابطه بین میزان تحصیلات و درآمد در سراسر منطقه مورد مطالعه سازگار است؟
- آیا برخی از بیماری ها یا بیماری ها با نزدیک شدن به آب ها افزایش می یابد؟
- متغیرهای کلیدی که فرکانس بالای آتش سوزی جنگل را توضیح می دهد چیست؟
- کدام زیستگاه ها باید برای تشویق به معرفی مجدد گونه های در خطر انقراض محافظت شوند؟
- مناطقی که کودکان در آن نمرات آزمون بالایی کسب می کنند کجا هستند؟ به نظر می رسد چه ویژگی هایی مرتبط است؟ هر یک از مشخصه ها کجا مهم تر است؟
- آیا عوامل مؤثر بر نرخ بالاتر سرطان در سراسر منطقه مورد مطالعه سازگار هستند؟
ورودی ها
برای اجرای ابزار GWR، پارامتر Input Features را با یک فیلد نشان دهنده متغیر وابسته و یک یا چند فیلد نشان دهنده متغیر(های) توضیحی ارائه دهید . این فیلدها باید عددی و دارای محدوده ای از مقادیر باشند. ویژگی هایی که حاوی مقادیر گمشده در متغیرهای وابسته یا توضیحی هستند از تحلیل حذف خواهند شد. با این حال، می توانید از ابزار Fill Missing Values برای تکمیل مجموعه داده قبل از اجرای GWR استفاده کنید. در مرحله بعد، باید یک نوع مدل را بر اساس داده هایی که در حال تجزیه و تحلیل هستید انتخاب کنید. مهم است که از یک مدل مناسب برای داده های خود استفاده کنید. شرح انواع مدل و نحوه تعیین مدل مناسب برای داده های شما در زیر آمده است.
نوع مدل
GWR سه نوع مدل رگرسیون ارائه می دهد: Continuous، Binary و Count. این نوع رگرسیون در ادبیات آماری به ترتیب با نام های گوسی، لجستیک و پواسون شناخته می شود. نوع مدل برای تجزیه و تحلیل شما باید بر اساس نحوه اندازهگیری یا خلاصهسازی متغیر وابسته و همچنین دامنه مقادیری که دارد انتخاب شود.
پیوسته (گاوسی)
اگر متغیر وابسته شما می تواند طیف وسیعی از مقادیر مانند دما یا فروش کل را داشته باشد، از نوع مدل پیوسته (گاوسی) استفاده کنید. در حالت ایده آل، متغیر وابسته شما به طور معمول توزیع می شود. می توانید یک هیستوگرام از متغیر وابسته خود ایجاد کنید تا بررسی کنید که به طور معمول توزیع شده است. اگر هیستوگرام یک منحنی زنگی متقارن است، از نوع مدل گاوسی استفاده کنید. بسیاری از مقادیر نزدیک به میانگین دسته بندی می شوند و مقادیر کمی از میانگین جدا می شوند. در سمت چپ میانگین باید به اندازه سمت راست مقادیر وجود داشته باشد (مقادیر میانگین و میانه برای توزیع یکسان است). اگر متغیر وابسته شمابه نظر نمی رسد که به طور معمول توزیع شود، طبقه بندی مجدد آن را به یک متغیر باینری در نظر بگیرید. به عنوان مثال، اگر متغیر وابسته شما متوسط درآمد خانوار است، می توانید آن را به یک متغیر باینری تبدیل کنید، که در آن عدد 1 نشان دهنده بالاتر از متوسط درآمد ملی و 0 (صفر) نشان دهنده زیر درآمد متوسط ملی است. یک فیلد پیوسته را می توان با استفاده از تابع کمکی Reclassify در ابزار Calculate Field به یک فیلد باینری طبقه بندی کرد .
باینری (لجستیک)
اگر متغیر وابسته شما می تواند یکی از دو مقدار ممکن مانند موفقیت و شکست یا حضور و غیاب را داشته باشد، از یک نوع مدل باینری (لجستیک) استفاده کنید. فیلد حاوی متغیر وابسته شما باید عددی باشد و فقط شامل یک و صفر باشد. اگر رویداد مورد علاقه، مانند موفقیت یا حضور یک حیوان را به عنوان 1 رمزگذاری کنید، تفسیر نتایج آسانتر خواهد بود، زیرا رگرسیون احتمال 1 را مدل میکند. باید در دادههای شما هر دو در سطح جهانی، تنوع یکها و صفرها وجود داشته باشد. و به صورت محلی اگر یک هیستوگرام از متغیر وابسته خود ایجاد کنید، فقط باید یک و صفر را نشان دهد. میتوانید از ابزار Select By Circle برای بررسی تغییرات محلی با انتخاب مناطق مختلف در سراسر نقشه و اطمینان از وجود ترکیبی از یکها و صفرها در هر منطقه استفاده کنید.
شمارش (پواسون)
اگر متغیر وابسته شما گسسته است و تعداد وقوع یک رویداد مانند تعداد جنایات را نشان می دهد، از نوع مدل شمارش (پواسون) استفاده کنید. اگر متغیر وابسته شما یک نرخ باشد و مخرج نرخ یک مقدار ثابت مانند فروش در ماه یا تعداد افراد مبتلا به سرطان به ازای هر 10000 جمعیت باشد، میتوان از مدلهای شمارش نیز استفاده کرد. یک مدل شمارش (پواسون) فرض میکند که میانگین و واریانس متغیر وابسته برابر است و مقادیر متغیر وابسته شما نمیتواند منفی یا حاوی اعشار باشد.
انتخاب محله (پهنای باند)
همسایگی (همچنین به عنوان پهنای باند نیز شناخته میشود) باند فاصله یا تعداد همسایههایی است که برای هر معادله رگرسیون محلی استفاده میشود و شاید مهمترین پارامتری است که برای رگرسیون وزندار جغرافیایی در نظر گرفته میشود ، زیرا درجه هموارسازی را در مدل کنترل میکند. شکل و وسعت همسایگیهای تحلیلشده بر اساس ورودی پارامترهای نوع محله و روش انتخاب محله با یک اصلاح است: وقتی تعداد ویژگیهای همسایگی از 1000 تجاوز میکند، تنها نزدیکترین 1000 در هر معادله رگرسیون محلی استفاده میشود.
پارامتر نوع محله می تواند بر اساس تعداد همسایه ها یا فاصله فاصله باشد. وقتی از تعداد همسایه ها استفاده می شود، اندازه همسایگی تابعی از تعداد مشخصی از همسایگان است، که به محله ها اجازه می دهد در جایی که ویژگی ها متراکم هستند کوچکتر و در جایی که ویژگی ها کم هستند بزرگتر باشند. وقتی از نوار فاصله استفاده میشود، اندازه همسایگی برای هر ویژگی در منطقه مورد مطالعه ثابت میماند، و در نتیجه ویژگیهای بیشتری در هر محله که ویژگیها متراکم هستند و در هر محله که پراکنده هستند، کمتر میشود.
پارامتر Neighborhood Selection Method نحوه تعیین اندازه همسایگی (فاصله واقعی یا تعداد همسایه های استفاده شده) را مشخص می کند. محله ای که با گزینه جستجوی طلایی یا فواصل دستی انتخاب می شود همیشه بر اساس به حداقل رساندن مقدار معیار اطلاعات آکایک (AICc) است. همچنین، میتوانید فاصله محله یا تعداد همسایهها را با گزینه User defined تعیین کنید.
هنگامی که گزینه جستجوی طلایی انتخاب می شود، ابزار با استفاده از روش جستجوی بخش طلایی بهترین مقادیر را برای پارامتر باند فاصله یا تعداد همسایگان تعیین می کند. جستجوی طلاییابتدا حداکثر و حداقل فاصله را پیدا کرده و AICc را در فواصل مختلف به صورت تدریجی بین آنها آزمایش می کند. هنگامی که بیش از 1000 ویژگی در یک مجموعه داده وجود دارد، حداکثر فاصله فاصله ای است که در آن هر ویژگی حداکثر 1000 همسایه دارد. حداقل فاصله فاصله ای است که در آن هر ویژگی حداقل 20 همسایه دارد. اگر کمتر از 1000 ویژگی وجود داشته باشد، حداکثر فاصله فاصله ای است که در آن هر ویژگی n/2 همسایه دارد (نصف تعداد ویژگی ها به عنوان همسایه)، و حداقل فاصله فاصله ای است که در آن هر ویژگی حداقل 5 درصد از ویژگی ها را دارد. n (5 درصد از ویژگی های مجموعه داده به عنوان همسایه). جستجوی طلایی فاصله یا تعداد همسایههایی را که کمترین AICc را دارند به عنوان اندازه محله تعیین میکند.
پارامترهای حداقل فاصله جستجو و حداکثر فاصله جستجو (برای باند فاصله ) و حداقل تعداد همسایگان و حداکثر تعداد همسایه ها (برای تعداد همسایه ها) می توانند برای محدود کردن محدوده جستجو با تنظیم فاصله شروع و پایان برای جستجوی طلایی به صورت دستی استفاده شوند.
طرح وزن دهی محلی
قدرت GWR در این است که یک وزن دهی جغرافیایی به ویژگی های مورد استفاده در هر یک از معادلات رگرسیون محلی اعمال می کند. ویژگی هایی که دورتر از نقطه رگرسیون هستند وزن کمتری دارند و بنابراین تأثیر کمتری بر نتایج رگرسیون برای ویژگی هدف دارند. ویژگی هایی که نزدیکتر هستند وزن بیشتری در معادله رگرسیون دارند. وزن ها با استفاده از یک هسته تعیین می شوند، که یک تابع کاهش فاصله است که تعیین می کند با افزایش فواصل وزن ها چقدر سریع کاهش می یابد. ابزار Geographically Weighted Regression دو گزینه هسته را در پارامتر Local Weighting Scheme ارائه می دهد ، Gaussian و Bisquare .
طرح وزن دهی گاوسی وزن یک را به ویژگی رگرسیون (ویژگی i ) اختصاص می دهد و وزن ها را برای ویژگی های اطراف (ویژگی های j ) به آرامی و با افزایش فاصله از ویژگی رگرسیون به تدریج کاهش می دهد. برای مثال، اگر ویژگی i و j 0.25 واحد از هم فاصله داشته باشند، وزن حاصل در معادله تقریباً 0.88 خواهد بود. اگر ویژگی i و j 0.75 واحد از هم فاصله داشته باشند، وزن حاصل تقریباً 0.32 خواهد بود. ویژگی j تاثیر کمتری بر رگرسیون خواهد داشت زیرا دورتر است. یک گاوسیطرح وزن دهی هرگز به صفر نمی رسد، اما وزن برای ویژگی های دور از ویژگی رگرسیون می تواند بسیار کوچک باشد و تقریباً هیچ تاثیری بر رگرسیون نداشته باشد. از نظر مفهومی، هنگام استفاده از طرح وزن دهی گاوسی ، هر ویژگی دیگری در داده های ورودی یک ویژگی همسایه است و وزنی به آن اختصاص داده می شود. با این حال، برای کارایی محاسباتی، زمانی که تعداد ویژگیهای همسایه از 1000 تجاوز کند، تنها نزدیکترین 1000 مورد در هر رگرسیون محلی گنجانده میشود. طرح وزن دهی گاوسی تضمین می کند که هر یک از ویژگی های رگرسیون همسایه های زیادی خواهد داشت و در نتیجه احتمال تغییر در مقادیر آن همسایگان را افزایش می دهد. این امر از یک مشکل شناخته شده در رگرسیون وزنی جغرافیایی به نام هم خطی محلی جلوگیری می کند. از گوسی استفاده کنیدطرح وزندهی زمانی که تأثیر ویژگیهای همسایه به آرامی و به تدریج اهمیت کمتری پیدا میکند، اما این تأثیر بدون توجه به اینکه ویژگیهای اطراف چقدر دور هستند، همیشه وجود دارد.
طرح وزن دهی Bisquare مشابه گاوسی است. وزن یک را به ویژگی رگرسیون (ویژگی i ) اختصاص می دهد و وزن برای ویژگی های اطراف (ویژگی های j ) به آرامی و با افزایش فاصله از ویژگی رگرسیون به تدریج کاهش می یابد. با این حال، همه ویژگیهای خارج از همسایگی مشخص شده صفر هستند و بر رگرسیون محلی برای ویژگی هدف تأثیر نمیگذارند. هنگام مقایسه یک طرح وزن دهی Bisquare با یک طرح وزن دهی گاوسی با مشخصات همسایگی یکسان، وزن ها با Bisquare سریعتر کاهش می یابد . استفاده از Bisquareطرح وزن به شما امکان می دهد فاصله ای را مشخص کنید که پس از آن ویژگی ها هیچ تاثیری بر نتایج رگرسیون نخواهند داشت. از آنجایی که Bisquare ویژگیها را پس از یک فاصله مشخص حذف میکند، هیچ تضمینی وجود ندارد که ویژگیهای کافی (با نفوذ) در همسایگی اطراف برای تولید یک تحلیل رگرسیون محلی خوب وجود داشته باشد. از گوسی استفاده کنیدطرح وزن دهی زمانی که تأثیر ویژگی های همسایه به آرامی و به تدریج اهمیت کمتری پیدا می کند و فاصله ای وجود دارد که پس از آن دیگر آن تأثیر وجود ندارد. به عنوان مثال، رگرسیون اغلب برای مدل سازی قیمت مسکن استفاده می شود و قیمت فروش خانه های اطراف یک متغیر توضیحی رایج است. این خانه های اطراف را comps یا خواص مقایسه ای می نامند. آژانسهای وامدهنده گاهی قوانینی را وضع میکنند که خانههای مشابه را ملزم میکنند تا حداکثر فاصله داشته باشند. در این مثال، Bisquare را می توان با محله ای برابر با حداکثر فاصله مشخص شده توسط موسسه وام دهنده استفاده کرد.
پیش بینی
می توانید از مدل رگرسیون ایجاد شده برای پیش بینی سایر ویژگی ها (اعم از نقاط یا چند ضلعی) در همان منطقه مورد مطالعه استفاده کنید. ایجاد این پیشبینیها مستلزم آن است که هر یک از مکانهای پیشبینی مقادیری برای هر یک از متغیر(های) توضیحی ارائه شده داشته باشد. اگر نام فیلدها از پارامترهای ویژگی های ورودی و مکان های پیش بینی مطابقت نداشته باشند، یک پارامتر تطبیق متغیر ارائه می شود. هنگام تطبیق متغیرهای توضیحی، فیلدهای پارامترهای ویژگی های ورودی و مکان های پیش بینی باید از یک نوع باشند (مثلاً فیلدهای دوتایی باید با فیلدهای دوتایی مطابقت داده شوند).
شطرنجی ضریب
یکی از جنبه های قدرتمند GWR این است که به شما امکان می دهد تا روابط متفاوت فضایی را کشف کنید. یکی از راههای تجسم اینکه چگونه روابط بین متغیرهای توضیحی و متغیر وابسته در فضا تغییر میکند، ایجاد رسترهای ضریب است. هنگامی که نام مسیری را برای پارامتر Coefficient Raster Workspace ارائه می کنید، ابزار GWR سطوح شطرنجی ضریب را برای رهگیری مدل و هر متغیر توضیحی ایجاد می کند. وضوح رسترها توسط محیط Cell Size کنترل می شود. یک همسایگی (هسته) در اطراف هر سلول شطرنجی با استفاده از نوع محله و طرح وزن دهی محلی ساخته می شود.مولفه های. وزنهای مبتنی بر فاصله از مرکز سلول شطرنجی تا تمام ویژگیهای ورودی در همسایگی (پهنای باند) محاسبه میشوند. این وزن ها برای محاسبه یک معادله رگرسیون منحصر به فرد برای آن سلول شطرنجی استفاده می شود. ضرایب از سلول شطرنجی به سلول رستری متفاوت است، زیرا وزنهای مبتنی بر فاصله تغییر میکند و ویژگیهای ورودی بالقوه متفاوت در همسایگی (پهنای باند) قرار میگیرند.
توجه داشته باشید:
در حال حاضر هیچ اتفاق نظری در مورد چگونگی ارزیابی اطمینان در ضرایب از یک مدل GWR وجود ندارد. در حالی که آزمونهای t برای استنباط بر این که آیا مقدار تخمینی ضرایب به طور قابلتوجهی متفاوت از صفر است یا خیر، استفاده شدهاند، اعتبار این رویکرد هنوز حوزهای از تحقیقات فعال است. یک رویکرد برای ارزیابی غیررسمی ضرایب این است که ضریب را بر خطای استاندارد ارائه شده برای هر ویژگی به عنوان روشی برای مقیاس بندی بزرگی تخمین با خطای استاندارد مرتبط و تجسم آن نتایج، به دنبال خوشه هایی از خطاهای استاندارد بالا نسبت به آنها تقسیم کنیم. ضرایب
خروجی ها
ابزار Geographically Weighted Regression خروجی های مختلفی تولید می کند. خلاصه ای از مدل GWR و خلاصه های آماری به عنوان پیام در پایین صفحه Geoprocessing در طول اجرای ابزار موجود است. برای دسترسی به پیامها ، نشانگر را روی نوار پیشرفت نگه دارید، روی دکمه بازشو کلیک کنید یا بخش پیامها را در قسمت Geoprocessing گسترش دهید . همچنین میتوانید از طریق تاریخچه پردازش جغرافیایی به پیامهای یک ابزار رگرسیون وزندار جغرافیایی که قبلاً اجرا شده است دسترسی داشته باشید . این ابزار همچنین ویژگی های خروجی ، نمودارها و به صورت اختیاری ویژگی های پیش بینی شده خروجی و سطوح شطرنجی ضریب تولید می کند. درویژگیهای خروجی و نمودارهای مرتبط بهطور خودکار با یک طرح رندر سرد و گرم که برای مدلهای باقیمانده اعمال میشود، به صفحه محتوا اضافه میشوند. تشخیص ها و نمودارهای تولید شده به نوع مدل ویژگی های ورودی بستگی دارد و در زیر توضیح داده شده است.
آمار مدل جهانی برای همه مدل ها محاسبه می شود.
پیوسته (گاوسی)
کلاس ویژگی و فیلدهای اضافه شده
علاوه بر باقیمانده های رگرسیون، پارامتر ویژگی های خروجی شامل فیلدهایی برای مقادیر y مشاهده شده و پیش بینی شده، شماره شرط ( COND )، R2 محلی، ضرایب متغیر توضیحی و خطاهای استاندارد است.
وقفه ( INTERCEPT )، خطای استاندارد رهگیری ( SE_INTERCEPT )، ضرایب و خطاهای استاندارد برای هر یک از متغیرهای توضیحی، پیشبینیشده، باقیمانده، Std باقیمانده، تأثیر، Cook’s D و محلی R-Squared نیز گزارش شدهاند.
تفسیر پیام ها و تشخیص
جزئیات تحلیل شامل تعداد ویژگی های تحلیل شده، متغیرهای وابسته و توضیحی و تعداد همسایگان مشخص شده در پیام ها ارائه می شود. علاوه بر این، تشخیص در تصویربرداری از صفحه زیر گزارش شده است:
- R2-R-squared معیار خوبی است. مقدار آن از 0.0 تا 1.0 متغیر است و مقادیر بالاتر ترجیح داده می شود. ممکن است به عنوان نسبت واریانس متغیر وابسته که توسط مدل رگرسیون محاسبه شده است تفسیر شود. مخرج محاسبه R2 مجموع مجذور مقادیر متغیر وابسته است. افزودن یک متغیر توضیحی اضافی به مدل، مخرج را تغییر نمیدهد، اما صورت را تغییر میدهد. این احساس بهبود در تناسب مدل را می دهد که ممکن است واقعی نباشد. Adj R2 را در زیر ببینید.
- AdjR2 – به دلیل مشکلی که در بالا برای مقدار R2 توضیح داده شد، محاسبات برای مقدار مربع R تنظیم شده، صورت و مخرج را با درجه آزادی آنها عادی می کند. این اثر جبران تعداد متغیرهای یک مدل را دارد و در نتیجه مقدار R2 تنظیم شده تقریباً همیشه کمتر از مقدار R2 است. با این حال، در انجام این تنظیم، تفسیر مقدار را به عنوان نسبتی از واریانس توضیح داده شده از دست می دهید. در GWR، تعداد مؤثر درجه آزادی تابعی از همسایگی استفاده شده است، بنابراین تنظیم ممکن است در مقایسه با یک مدل جهانی مانند رگرسیون خطی تعمیم یافته (GLR) کاملا مشخص باشد. به همین دلیل، AICc به عنوان وسیله ای برای مقایسه مدل ها ترجیح داده می شود.
- AICc: این معیار عملکرد مدل است و می تواند برای مقایسه مدل های رگرسیون استفاده شود. با در نظر گرفتن پیچیدگی مدل، مدل با مقدار AICc کمتر، تناسب بهتری با داده های مشاهده شده فراهم می کند. AICc معیار مطلق خوبی برای برازش نیست، اما برای مقایسه مدلها با متغیرهای توضیحی مختلف تا زمانی که برای متغیر وابسته یکسان اعمال میشوند، مفید است. اگر مقادیر AICc برای دو مدل بیش از 3 متفاوت باشد، مدل با مقدار AICc کمتر بهتر است. مقایسه مقدار GWR AICc با مقدار GLR AICc یکی از راههای ارزیابی مزایای حرکت از یک مدل جهانی (GLR) به یک مدل رگرسیون محلی (GWR) است.
- Sigma-Squared – این تخمین حداقل مربعات واریانس (انحراف استاندارد مجذور) برای باقیمانده ها است. مقادیر کوچکتر این آمار ارجح است. این مقدار مجموع باقیمانده مربعات نرمال شده است، که در آن مجموع باقیمانده مربع ها بر درجات آزادی موثر باقیمانده ها تقسیم می شود. Sigma-Squared برای محاسبات AICc استفاده می شود.
- Sigma-Squared MLE – این تخمین حداکثر درستنمایی (MLE) واریانس (مربع انحراف استاندارد) باقیمانده ها است. مقادیر کوچکتر این آمار ارجح است. این مقدار با تقسیم مجموع باقیمانده مربع ها بر تعداد ویژگی های ورودی محاسبه می شود.
- درجات مؤثر آزادی – این مقدار منعکس کننده یک مبادله بین واریانس مقادیر برازش و تعصب در برآورد ضرایب است و با انتخاب اندازه محله مرتبط است. همانطور که همسایگی به بی نهایت نزدیک می شود، وزن های جغرافیایی برای هر ویژگی نزدیک به 1، و برآورد ضرایب بسیار نزدیک به مدل های جهانی GLR خواهد بود. برای محله های بسیار بزرگ، تعداد موثر ضرایب به عدد واقعی نزدیک می شود. تخمین های ضریب محلی دارای واریانس کمی خواهند بود اما کاملاً مغرضانه خواهند بود. برعکس، با کوچکتر شدن همسایگی و نزدیک شدن به صفر، وزن های جغرافیایی برای هر ویژگی به جز خود نقطه رگرسیون به صفر نزدیک می شود. برای محله های بسیار کوچک، تعداد موثر ضرایب، تعداد مشاهدات است. و تخمین های ضریب محلی دارای واریانس زیاد اما بایاس کم خواهند بود. عدد موثر برای محاسبه بسیاری از اقدامات تشخیصی دیگر استفاده می شود.
نمودارهای خروجی
یک ماتریس نمودار پراکندگی در صفحه محتوا (شامل حداکثر 19 متغیر) و همچنین یک هیستوگرام از باقیمانده انحراف ارائه شده است که یک خط توزیع نرمال را نشان می دهد.
باینری (لجستیک)
کلاس ویژگی و فیلدهای اضافه شده
وقفه ( INTERCEPT )، خطای استاندارد رهگیری ( SE_INTERCEPT )، ضرایب، و خطاهای استاندارد برای هر یک از متغیرهای توضیحی، و همچنین احتمال 1 بودن، پیش بینی شده، انحراف باقیمانده، GInfluence و انحراف درصد محلی گزارش شده است.
تفسیر پیام ها و تشخیص
جزئیات تجزیه و تحلیل شامل تعداد ویژگی های تحلیل شده، متغیرهای وابسته و توضیحی و تعداد همسایگان مشخص شده در پیام ها ارائه می شود. علاوه بر این، تشخیص در تصویربرداری از صفحه زیر گزارش شده است:
- % انحراف توضیح داده شده توسط مدل جهانی (غیر فضایی) – این معیار خوبی از تناسب است و عملکرد یک مدل جهانی (GLR) را کمیت می کند. مقدار آن از 0.0 تا 1.0 متغیر است و مقادیر بالاتر ترجیح داده می شود. می توان آن را به عنوان نسبت واریانس متغیر وابسته که توسط مدل رگرسیون به حساب می آید تفسیر کرد.
- % انحراف توضیح داده شده توسط مدل محلی – این معیار خوبی است و عملکرد یک مدل محلی (GWR) را کمیت میکند. مقدار آن از 0.0 تا 1.0 متغیر است و مقادیر بالاتر ترجیح داده می شود. می توان آن را به عنوان نسبت واریانس متغیر وابسته که توسط مدل رگرسیون محلی محاسبه می شود تفسیر کرد.
- % انحراف توسط مدل محلی در مقابل مدل جهانی توضیح داده شده است – این نسبت یکی از راههای ارزیابی مزایای حرکت از یک مدل جهانی (GLR) به یک مدل رگرسیون محلی (GWR) با مقایسه مجموع مربعات باقیمانده از مدل محلی است. مجموع مربع های باقی مانده از مدل جهانی. مقدار آن از 0.0 تا 1.0 متغیر است، با مقادیر بالاتر نشان دهنده عملکرد مدل رگرسیون محلی بهتر از یک مدل جهانی است.
- AICc: این معیار عملکرد مدل است و می تواند برای مقایسه مدل های رگرسیون استفاده شود. با در نظر گرفتن پیچیدگی مدل، مدل با مقدار AICc کمتر، تناسب بهتری با داده های مشاهده شده فراهم می کند. AICc معیار مطلق خوبی برای برازش نیست، اما برای مقایسه مدلها با متغیرهای توضیحی مختلف تا زمانی که برای متغیر وابسته یکسان اعمال میشوند، مفید است. اگر مقادیر AICc برای دو مدل بیش از 3 متفاوت باشد، مدل با مقدار AICc کمتر بهتر است. مقایسه مقدار GWR AICc با مقدار OLS AICc یکی از راههای ارزیابی مزایای حرکت از یک مدل جهانی (OLS) به یک مدل رگرسیون محلی (GWR) است.
- Sigma-Squared – این مقدار مجموع باقیمانده مربعات نرمال شده است که در آن مجموع مربعات باقیمانده بر درجات آزادی موثر باقیمانده تقسیم می شود. این برآورد حداقل مربعات واریانس (مربع انحراف استاندارد) باقیمانده ها است. مقادیر کوچکتر این آمار ارجح است. Sigma-Squared برای محاسبات AICc استفاده می شود.
- Sigma-Squared MLE – این تخمین حداکثر درستنمایی (MLE) واریانس (مربع انحراف استاندارد) باقیمانده ها است. مقادیر کوچکتر این آمار ارجح است. این مقدار با تقسیم مجموع باقیمانده مربع ها بر تعداد ویژگی های ورودی محاسبه می شود.
- درجات مؤثر آزادی – این مقدار منعکس کننده یک مبادله بین واریانس مقادیر برازش و تعصب در برآورد ضرایب است و با انتخاب اندازه محله مرتبط است. همانطور که همسایگی به بی نهایت نزدیک می شود، وزن های جغرافیایی برای هر ویژگی نزدیک به 1، و برآورد ضرایب بسیار نزدیک به مدل های جهانی GLR خواهد بود. برای محله های بسیار بزرگ، تعداد موثر ضرایب به عدد واقعی نزدیک می شود. تخمین های ضریب محلی دارای واریانس کمی خواهند بود اما کاملاً مغرضانه خواهند بود. برعکس، با کوچکتر شدن همسایگی و نزدیک شدن به صفر، وزن های جغرافیایی برای هر ویژگی به جز خود نقطه رگرسیون به صفر نزدیک می شود. برای محله های بسیار کوچک، تعداد موثر ضرایب، تعداد مشاهدات است. و تخمین های ضریب محلی دارای واریانس زیاد اما بایاس کم خواهند بود. عدد موثر برای محاسبه بسیاری از اقدامات تشخیصی دیگر استفاده می شود.
نمودارهای خروجی
یک ماتریس نمودار پراکندگی و همچنین نمودارهای جعبه و یک هیستوگرام از باقیمانده های انحراف ارائه شده است.
شمارش (پواسون)
کلاس ویژگی و فیلدهای اضافه شده
رهگیری ( INTERCEPT )، خطای استاندارد رهگیری ( SE_INTERCEPT )، ضرایب و خطاهای استاندارد برای هر یک از متغیرهای توضیحی، و همچنین مقدار پیشبینیشده قبل از تبدیل لگاریتمی ( RAW_PRED )، پیشبینیشده، انحراف باقیمانده، GInfluence، انحراف درصد محلی و شماره وضعیت گزارش شده است.
تفسیر پیام ها و تشخیص
جزئیات تحلیل شامل تعداد ویژگی های تحلیل شده، متغیرهای وابسته و توضیحی و تعداد همسایگان مشخص شده در پیام ها ارائه می شود. علاوه بر این، تشخیص در تصویربرداری از صفحه زیر گزارش شده است:
- % انحراف توضیح داده شده توسط مدل جهانی (غیر فضایی) – این معیار خوبی از تناسب است و عملکرد یک مدل جهانی (GLR) را کمیت می کند. مقدار آن از 0.0 تا 1.0 متغیر است و مقادیر بالاتر ترجیح داده می شود. می توان آن را به عنوان نسبت واریانس متغیر وابسته که توسط مدل رگرسیون به حساب می آید تفسیر کرد.
- % انحراف توضیح داده شده توسط مدل محلی – این معیار خوبی از برازش است و عملکرد مدل محلی (GWR) را کمی می کند. مقدار آن از 0.0 تا 1.0 متغیر است و مقادیر بالاتر ترجیح داده می شود. می توان آن را به عنوان نسبت واریانس متغیر وابسته که توسط مدل رگرسیون محلی محاسبه می شود تفسیر کرد.
- % انحراف توسط مدل محلی در مقابل مدل جهانی توضیح داده شده است – این نسبت یکی از راههای ارزیابی مزایای حرکت از یک مدل جهانی (GLR) به یک مدل رگرسیون محلی (GWR) با مقایسه مجموع مربعات باقیمانده از مدل محلی است. مجموع مربع های باقی مانده از مدل جهانی. مقدار آن از 0.0 تا 1.0 متغیر است، با مقادیر بالاتر نشان دهنده عملکرد مدل رگرسیون محلی بهتر از یک مدل جهانی است.
- AICc: این معیار عملکرد مدل است و می تواند برای مقایسه مدل های رگرسیون استفاده شود. با در نظر گرفتن پیچیدگی مدل، مدل با مقدار AICc کمتر، تناسب بهتری با داده های مشاهده شده فراهم می کند. AICc معیار مطلق خوبی برای برازش نیست، اما برای مقایسه مدلها با متغیرهای توضیحی مختلف تا زمانی که برای متغیر وابسته یکسان اعمال میشوند، مفید است. اگر مقادیر AICc برای دو مدل بیش از 3 متفاوت باشد، مدل با مقدار AICc کمتر بهتر است. مقایسه مقدار GWR AICc با مقدار OLS AICc یکی از راههای ارزیابی مزایای حرکت از یک مدل جهانی (OLS) به یک مدل رگرسیون محلی (GWR) است.
- Sigma-Squared – این مقدار مجموع باقیمانده مربعات نرمال شده است که در آن مجموع مربعات باقیمانده بر درجات آزادی موثر باقیمانده تقسیم می شود. این برآورد حداقل مربعات واریانس (مربع انحراف استاندارد) باقیمانده ها است. مقادیر کوچکتر این آمار ارجح است. Sigma-Squared برای محاسبات AICc استفاده می شود.
- Sigma-Squared MLE – این تخمین حداکثر درستنمایی (MLE) واریانس (مربع انحراف استاندارد) باقیمانده ها است. مقادیر کوچکتر این آمار ارجح است. این مقدار با تقسیم مجموع باقیمانده مربع ها بر تعداد ویژگی های ورودی محاسبه می شود.
- درجات مؤثر آزادی – این مقدار منعکس کننده یک مبادله بین واریانس مقادیر برازش و تعصب در برآورد ضرایب است و با انتخاب اندازه محله مرتبط است. همانطور که همسایگی به بی نهایت نزدیک می شود، وزن های جغرافیایی برای هر ویژگی نزدیک به 1، و برآورد ضرایب بسیار نزدیک به مدل های جهانی GLR خواهد بود. برای محله های بسیار بزرگ، تعداد موثر ضرایب به عدد واقعی نزدیک می شود. تخمین های ضریب محلی دارای واریانس کمی خواهند بود اما کاملاً مغرضانه خواهند بود. برعکس، با کوچکتر شدن همسایگی و نزدیک شدن به صفر، وزن های جغرافیایی برای هر ویژگی به جز خود نقطه رگرسیون به صفر نزدیک می شود. برای محله های بسیار کوچک، تعداد موثر ضرایب، تعداد مشاهدات است. و تخمین های ضریب محلی دارای واریانس زیاد اما بایاس کم خواهند بود. عدد موثر برای محاسبه بسیاری از اقدامات تشخیصی دیگر استفاده می شود.
نمودارهای خروجی
یک ماتریس نمودار پراکندگی در صفحه محتوا (شامل حداکثر 19 متغیر) و همچنین یک هیستوگرام از خط توزیع انحراف باقیمانده و عادی ارائه شده است.
سایر نکات و نکات اجرایی
در مدلهای رگرسیون جهانی، مانند GLR ، زمانی که دو یا چند متغیر چند خطی را نشان میدهند، نتایج غیرقابل اعتماد هستند (زمانی که دو یا چند متغیر اضافی هستند یا با هم داستان یکسانی را بیان میکنند). ابزار Geographically Weighted Regression یک معادله رگرسیون محلی برای هر ویژگی در مجموعه داده ایجاد می کند. هنگامی که مقادیر یک متغیر توضیحی خاص به صورت مکانی خوشه می شوند، احتمالاً با چند خطی بودن محلی مشکل خواهید داشت. شماره شرط در ویژگی های خروجیپارامتر زمانی را نشان می دهد که نتایج به دلیل چند خطی بودن محلی ناپایدار هستند. به عنوان یک قاعده کلی، در مورد نتایج برای ویژگیهایی با عدد شرط بزرگتر از 30، برابر با Null یا برای فایلهای شیپ، برابر با -1.7976931348623158e+308، شک داشته باشید. عدد شرط به منظور تصحیح تعداد متغیرهای توضیحی در مدل به صورت مقیاس تنظیم می شود. این امکان مقایسه مستقیم عدد شرط بین مدلها را با استفاده از تعداد متفاوتی از متغیرهای توضیحی فراهم میکند.
خطاهای طراحی مدل اغلب نشان دهنده مشکلی در چند خطی بودن سراسری یا محلی است. برای تعیین اینکه مشکل کجاست، مدل را با استفاده از GLR اجرا کنیدو مقدار VIF را برای هر متغیر توضیحی بررسی کنید. اگر برخی از مقادیر VIF بزرگ باشند (برای مثال، بالای 7.5)، چند خطی جهانی مانع از حل GWR می شود. با این حال، به احتمال زیاد، چند خطی بودن محلی مشکل است. سعی کنید برای هر متغیر توضیحی یک نقشه موضوعی ایجاد کنید. اگر نقشه خوشهبندی فضایی مقادیر یکسان را نشان میدهد، حذف آن متغیرها از مدل یا ترکیب آن متغیرها با سایر متغیرهای توضیحی برای افزایش تنوع ارزش را در نظر بگیرید. برای مثال، اگر در حال مدلسازی ارزشهای خانه هستید و متغیرهایی برای اتاق خواب و حمام دارید، ممکن است بخواهید اینها را برای افزایش تنوع ارزش ترکیب کنید یا آنها را به عنوان متراژ مربع حمام/اتاق خواب نشان دهید. از استفاده از متغیرهای مصنوعی یا باینری رژیم فضایی برای انواع مدل گاوسی یا پواسون خودداری کنید.
مشکلات مربوط به چند خطی محلی همچنین میتواند مانع از حل باند فاصله یا تعداد همسایگان بهینه توسط ابزار شود . فواصل دستی یا باند فاصله تعریف شده توسط کاربر یا تعداد همسایگان خاص را مشخص کنید . سپس اعداد شرط را در کلاس ویژگی Output بررسی کنید تا ببینید کدام ویژگی با مشکلات چند خطی محلی (اعداد شرط بزرگتر از 30) مرتبط است. ممکن است بخواهید این ویژگی های مشکل را به طور موقت حذف کنید، در حالی که فاصله یا تعداد همسایگان بهینه را پیدا می کنید. به خاطر داشته باشید که نتایج مرتبط با اعداد شرایط بیشتر از 30 قابل اعتماد نیستند.
تخمین پارامترها و مقادیر پیشبینیشده برای GWR با استفاده از تابع وزندهی فضایی زیر محاسبه میشوند: exp(-d^2/b^2). ممکن است تفاوت هایی در این تابع وزنی در بین پیاده سازی های مختلف نرم افزار GWR وجود داشته باشد. در نتیجه، نتایج حاصل از ابزار GWR ممکن است دقیقاً با نتایج سایر بسته های نرم افزاری GWR مطابقت نداشته باشد.
بیشتر بدانید :
منابع اضافی
تعدادی منبع وجود دارد که به شما کمک می کند تا در مورد رگرسیون خطی تعمیم یافته و رگرسیون دارای وزن جغرافیایی بیشتر بدانید . با مبانی تحلیل رگرسیون شروع کنید یا از طریق آموزش تحلیل رگرسیون کار کنید .
موارد زیر نیز منابع مفیدی هستند:
Brunsdon، C.، Fotheringham، AS، و Charlton، ME (1996). “رگرسیون وزندار جغرافیایی: روشی برای کاوش غیرایستایی فضایی”. تحلیل جغرافیایی ، 28(4)، 281-298.
فاثرینگهام، استوارت آ.، کریس براندون، و مارتین چارلتون. رگرسیون وزنی جغرافیایی: تجزیه و تحلیل روابط متغیر فضایی. جان وایلی و پسران، 2002.
گولینی، آی.، لو، بی.، چارلتون، ام.، براندون، سی، و هریس، پی (2013). GWmodel: یک بسته R برای کاوش ناهمگونی فضایی با استفاده از مدلهای وزندار جغرافیایی . پیش چاپ arXiv arXiv:1306.0413.
میچل، اندی. The ESRI Guide to GIS Analysis, Volume 2. ESRI Press, 2005.
ناکایا، تی، فاثرینگهام، ع.اس، براندون، سی، و چارلتون، ام (2005). “رگرسیون پواسون دارای وزن جغرافیایی برای نقشه برداری ارتباط بیماری”. آمار در پزشکی ، 24(17)، 2695-2717.
Páez, A., Farber, S., & Wheeler, D. (2011). “مطالعه مبتنی بر شبیه سازی رگرسیون وزنی جغرافیایی به عنوان روشی برای بررسی روابط متغیر فضایی”. محیط و برنامه ریزی A , 43 (12), 2992-3010.
بدون دیدگاه