رگرسیون وزن‌دار جغرافیایی (GWR) چگونه کار می‌کند

کاربردهای GIS در جنگلداری :حفاظت از منابع طبیعی خدادای

رگرسیون وزن‌دار جغرافیایی (GWR) چگونه کار می‌کند

رگرسیون وزن‌دار جغرافیایی (GWR) چگونه کار می‌کند:رگرسیون وزن‌دار جغرافیایی (GWR) یکی از چندین تکنیک رگرسیون فضایی است که در جغرافیا و سایر رشته‌ها استفاده می‌شود. GWR یک مدل محلی از متغیر یا فرآیندی را که می‌خواهید با برازش یک معادله رگرسیون برای هر ویژگی در مجموعه داده، درک یا پیش‌بینی کنید، ارزیابی می‌کند. GWR این معادلات جداگانه را با ترکیب متغیرهای وابسته و توضیحی ویژگی‌های موجود در همسایگی هر ویژگی هدف می‌سازد. شکل و وسعت هر محله تجزیه و تحلیل شده بر اساس پارامترهای نوع محله و روش انتخاب محله است. GWR باید برای مجموعه داده هایی با چند صد ویژگی اعمال شود. این روش مناسبی برای مجموعه داده های کوچک نیست و با داده های چند نقطه ای کار نمی کند.

توجه داشته باشید:

این ابزار برای ArcGIS Pro 2.3 به‌روزرسانی شده است و شامل تحقیقات آکادمیک اضافی، پیشرفت‌هایی در روش توسعه‌یافته در چند سال گذشته است و پشتیبانی از مدل‌های اضافی را گسترش می‌دهد. اضافه شدن مدل های شمارش (پواسون) و باینری (لجستیک) به این ابزار اجازه می دهد تا برای طیف وسیع تری از مسائل اعمال شود.

برنامه های کاربردی بالقوه

ابزار Geographically Weighted Regression را می توان برای کاربردهای مختلفی استفاده کرد، از جمله موارد زیر:

آیا رابطه بین میزان تحصیلات و درآمد در سراسر منطقه مورد مطالعه سازگار است؟
آیا برخی از بیماری ها یا بیماری ها با نزدیک شدن به آب ها افزایش می یابد؟
متغیرهای کلیدی که فرکانس بالای آتش سوزی جنگل را توضیح می دهد چیست؟
کدام زیستگاه ها باید برای تشویق به معرفی مجدد گونه های در خطر انقراض محافظت شوند؟
مناطقی که کودکان در آن نمرات آزمون بالایی کسب می کنند کجا هستند؟ به نظر می رسد چه ویژگی هایی مرتبط است؟ هر یک از مشخصه ها کجا مهم تر است؟
آیا عوامل مؤثر بر نرخ بالاتر سرطان در سراسر منطقه مورد مطالعه سازگار هستند؟

ورودی ها

برای اجرای ابزار GWR، پارامتر Input Features را با یک فیلد نشان دهنده متغیر وابسته و یک یا چند فیلد نشان دهنده متغیر(های) توضیحی ارائه دهید . این فیلدها باید عددی و دارای محدوده ای از مقادیر باشند. ویژگی هایی که حاوی مقادیر گمشده در متغیرهای وابسته یا توضیحی هستند از تحلیل حذف خواهند شد. با این حال، می توانید از ابزار Fill Missing Values برای تکمیل مجموعه داده قبل از اجرای GWR استفاده کنید. در مرحله بعد، باید یک نوع مدل را بر اساس داده هایی که در حال تجزیه و تحلیل هستید انتخاب کنید. مهم است که از یک مدل مناسب برای داده های خود استفاده کنید. شرح انواع مدل و نحوه تعیین مدل مناسب برای داده های شما در زیر آمده است.

نوع مدل

GWR سه نوع مدل رگرسیون ارائه می دهد: Continuous، Binary و Count. این نوع رگرسیون در ادبیات آماری به ترتیب با نام های گوسی، لجستیک و پواسون شناخته می شود. نوع مدل برای تجزیه و تحلیل شما باید بر اساس نحوه اندازه‌گیری یا خلاصه‌سازی متغیر وابسته و همچنین دامنه مقادیری که دارد انتخاب شود.

پیوسته (گاوسی)

اگر متغیر وابسته شما می تواند طیف وسیعی از مقادیر مانند دما یا فروش کل را داشته باشد، از نوع مدل پیوسته (گاوسی) استفاده کنید. در حالت ایده آل، متغیر وابسته شما به طور معمول توزیع می شود. می توانید یک هیستوگرام از متغیر وابسته خود ایجاد کنید تا بررسی کنید که به طور معمول توزیع شده است. اگر هیستوگرام یک منحنی زنگی متقارن است، از نوع مدل گاوسی استفاده کنید. بسیاری از مقادیر نزدیک به میانگین دسته بندی می شوند و مقادیر کمی از میانگین جدا می شوند. در سمت چپ میانگین باید به اندازه سمت راست مقادیر وجود داشته باشد (مقادیر میانگین و میانه برای توزیع یکسان است). اگر متغیر وابسته شمابه نظر نمی رسد که به طور معمول توزیع شود، طبقه بندی مجدد آن را به یک متغیر باینری در نظر بگیرید. به عنوان مثال، اگر متغیر وابسته شما متوسط درآمد خانوار است، می توانید آن را به یک متغیر باینری تبدیل کنید، که در آن عدد 1 نشان دهنده بالاتر از متوسط درآمد ملی و 0 (صفر) نشان دهنده زیر درآمد متوسط ملی است. یک فیلد پیوسته را می توان با استفاده از تابع کمکی Reclassify در ابزار Calculate Field به یک فیلد باینری طبقه بندی کرد .

باینری (لجستیک)

اگر متغیر وابسته شما می تواند یکی از دو مقدار ممکن مانند موفقیت و شکست یا حضور و غیاب را داشته باشد، از یک نوع مدل باینری (لجستیک) استفاده کنید. فیلد حاوی متغیر وابسته شما باید عددی باشد و فقط شامل یک و صفر باشد. اگر رویداد مورد علاقه، مانند موفقیت یا حضور یک حیوان را به عنوان 1 رمزگذاری کنید، تفسیر نتایج آسان‌تر خواهد بود، زیرا رگرسیون احتمال 1 را مدل می‌کند. باید در داده‌های شما هر دو در سطح جهانی، تنوع یک‌ها و صفرها وجود داشته باشد. و به صورت محلی اگر یک هیستوگرام از متغیر وابسته خود ایجاد کنید، فقط باید یک و صفر را نشان دهد. می‌توانید از ابزار Select By Circle برای بررسی تغییرات محلی با انتخاب مناطق مختلف در سراسر نقشه و اطمینان از وجود ترکیبی از یک‌ها و صفرها در هر منطقه استفاده کنید.

شمارش (پواسون)

اگر متغیر وابسته شما گسسته است و تعداد وقوع یک رویداد مانند تعداد جنایات را نشان می دهد، از نوع مدل شمارش (پواسون) استفاده کنید. اگر متغیر وابسته شما یک نرخ باشد و مخرج نرخ یک مقدار ثابت مانند فروش در ماه یا تعداد افراد مبتلا به سرطان به ازای هر 10000 جمعیت باشد، می‌توان از مدل‌های شمارش نیز استفاده کرد. یک مدل شمارش (پواسون) فرض می‌کند که میانگین و واریانس متغیر وابسته برابر است و مقادیر متغیر وابسته شما نمی‌تواند منفی یا حاوی اعشار باشد.

انتخاب محله (پهنای باند)

همسایگی (همچنین به عنوان پهنای باند نیز شناخته می‌شود) باند فاصله یا تعداد همسایه‌هایی است که برای هر معادله رگرسیون محلی استفاده می‌شود و شاید مهمترین پارامتری است که برای رگرسیون وزن‌دار جغرافیایی در نظر گرفته می‌شود ، زیرا درجه هموارسازی را در مدل کنترل می‌کند. شکل و وسعت همسایگی‌های تحلیل‌شده بر اساس ورودی پارامترهای نوع محله و روش انتخاب محله با یک اصلاح است: وقتی تعداد ویژگی‌های همسایگی از 1000 تجاوز می‌کند، تنها نزدیک‌ترین 1000 در هر معادله رگرسیون محلی استفاده می‌شود.

پارامتر نوع محله می تواند بر اساس تعداد همسایه ها یا فاصله فاصله باشد. وقتی از تعداد همسایه ها استفاده می شود، اندازه همسایگی تابعی از تعداد مشخصی از همسایگان است، که به محله ها اجازه می دهد در جایی که ویژگی ها متراکم هستند کوچکتر و در جایی که ویژگی ها کم هستند بزرگتر باشند. وقتی از نوار فاصله استفاده می‌شود، اندازه همسایگی برای هر ویژگی در منطقه مورد مطالعه ثابت می‌ماند، و در نتیجه ویژگی‌های بیشتری در هر محله که ویژگی‌ها متراکم هستند و در هر محله که پراکنده هستند، کمتر می‌شود.

پارامتر Neighborhood Selection Method نحوه تعیین اندازه همسایگی (فاصله واقعی یا تعداد همسایه های استفاده شده) را مشخص می کند. محله ای که با گزینه جستجوی طلایی یا فواصل دستی انتخاب می شود همیشه بر اساس به حداقل رساندن مقدار معیار اطلاعات آکایک (AICc) است. همچنین، می‌توانید فاصله محله یا تعداد همسایه‌ها را با گزینه User defined تعیین کنید.

هنگامی که گزینه جستجوی طلایی انتخاب می شود، ابزار با استفاده از روش جستجوی بخش طلایی بهترین مقادیر را برای پارامتر باند فاصله یا تعداد همسایگان تعیین می کند. جستجوی طلاییابتدا حداکثر و حداقل فاصله را پیدا کرده و AICc را در فواصل مختلف به صورت تدریجی بین آنها آزمایش می کند. هنگامی که بیش از 1000 ویژگی در یک مجموعه داده وجود دارد، حداکثر فاصله فاصله ای است که در آن هر ویژگی حداکثر 1000 همسایه دارد. حداقل فاصله فاصله ای است که در آن هر ویژگی حداقل 20 همسایه دارد. اگر کمتر از 1000 ویژگی وجود داشته باشد، حداکثر فاصله فاصله ای است که در آن هر ویژگی n/2 همسایه دارد (نصف تعداد ویژگی ها به عنوان همسایه)، و حداقل فاصله فاصله ای است که در آن هر ویژگی حداقل 5 درصد از ویژگی ها را دارد. n (5 درصد از ویژگی های مجموعه داده به عنوان همسایه). جستجوی طلایی فاصله یا تعداد همسایه‌هایی را که کمترین AICc را دارند به عنوان اندازه محله تعیین می‌کند.

پارامترهای حداقل فاصله جستجو و حداکثر فاصله جستجو (برای باند فاصله ) و حداقل تعداد همسایگان و حداکثر تعداد همسایه ها (برای تعداد همسایه ها) می توانند برای محدود کردن محدوده جستجو با تنظیم فاصله شروع و پایان برای جستجوی طلایی به صورت دستی استفاده شوند.

طرح وزن دهی محلی

قدرت GWR در این است که یک وزن دهی جغرافیایی به ویژگی های مورد استفاده در هر یک از معادلات رگرسیون محلی اعمال می کند. ویژگی هایی که دورتر از نقطه رگرسیون هستند وزن کمتری دارند و بنابراین تأثیر کمتری بر نتایج رگرسیون برای ویژگی هدف دارند. ویژگی هایی که نزدیکتر هستند وزن بیشتری در معادله رگرسیون دارند. وزن ها با استفاده از یک هسته تعیین می شوند، که یک تابع کاهش فاصله است که تعیین می کند با افزایش فواصل وزن ها چقدر سریع کاهش می یابد. ابزار Geographically Weighted Regression دو گزینه هسته را در پارامتر Local Weighting Scheme ارائه می دهد ، Gaussian و Bisquare .

طرح وزن دهی گاوسی وزن یک را به ویژگی رگرسیون (ویژگی i ) اختصاص می دهد و وزن ها را برای ویژگی های اطراف (ویژگی های j ) به آرامی و با افزایش فاصله از ویژگی رگرسیون به تدریج کاهش می دهد. برای مثال، اگر ویژگی i و j 0.25 واحد از هم فاصله داشته باشند، وزن حاصل در معادله تقریباً 0.88 خواهد بود. اگر ویژگی i و j 0.75 واحد از هم فاصله داشته باشند، وزن حاصل تقریباً 0.32 خواهد بود. ویژگی j تاثیر کمتری بر رگرسیون خواهد داشت زیرا دورتر است. یک گاوسیطرح وزن دهی هرگز به صفر نمی رسد، اما وزن برای ویژگی های دور از ویژگی رگرسیون می تواند بسیار کوچک باشد و تقریباً هیچ تاثیری بر رگرسیون نداشته باشد. از نظر مفهومی، هنگام استفاده از طرح وزن دهی گاوسی ، هر ویژگی دیگری در داده های ورودی یک ویژگی همسایه است و وزنی به آن اختصاص داده می شود. با این حال، برای کارایی محاسباتی، زمانی که تعداد ویژگی‌های همسایه از 1000 تجاوز کند، تنها نزدیکترین 1000 مورد در هر رگرسیون محلی گنجانده می‌شود. طرح وزن دهی گاوسی تضمین می کند که هر یک از ویژگی های رگرسیون همسایه های زیادی خواهد داشت و در نتیجه احتمال تغییر در مقادیر آن همسایگان را افزایش می دهد. این امر از یک مشکل شناخته شده در رگرسیون وزنی جغرافیایی به نام هم خطی محلی جلوگیری می کند. از گوسی استفاده کنیدطرح وزن‌دهی زمانی که تأثیر ویژگی‌های همسایه به آرامی و به تدریج اهمیت کمتری پیدا می‌کند، اما این تأثیر بدون توجه به اینکه ویژگی‌های اطراف چقدر دور هستند، همیشه وجود دارد.

طرح وزن دهی Bisquare مشابه گاوسی است. وزن یک را به ویژگی رگرسیون (ویژگی i ) اختصاص می دهد و وزن برای ویژگی های اطراف (ویژگی های j ) به آرامی و با افزایش فاصله از ویژگی رگرسیون به تدریج کاهش می یابد. با این حال، همه ویژگی‌های خارج از همسایگی مشخص شده صفر هستند و بر رگرسیون محلی برای ویژگی هدف تأثیر نمی‌گذارند. هنگام مقایسه یک طرح وزن دهی Bisquare با یک طرح وزن دهی گاوسی با مشخصات همسایگی یکسان، وزن ها با Bisquare سریعتر کاهش می یابد . استفاده از Bisquareطرح وزن به شما امکان می دهد فاصله ای را مشخص کنید که پس از آن ویژگی ها هیچ تاثیری بر نتایج رگرسیون نخواهند داشت. از آنجایی که Bisquare ویژگی‌ها را پس از یک فاصله مشخص حذف می‌کند، هیچ تضمینی وجود ندارد که ویژگی‌های کافی (با نفوذ) در همسایگی اطراف برای تولید یک تحلیل رگرسیون محلی خوب وجود داشته باشد. از گوسی استفاده کنیدطرح وزن دهی زمانی که تأثیر ویژگی های همسایه به آرامی و به تدریج اهمیت کمتری پیدا می کند و فاصله ای وجود دارد که پس از آن دیگر آن تأثیر وجود ندارد. به عنوان مثال، رگرسیون اغلب برای مدل سازی قیمت مسکن استفاده می شود و قیمت فروش خانه های اطراف یک متغیر توضیحی رایج است. این خانه های اطراف را comps یا خواص مقایسه ای می نامند. آژانس‌های وام‌دهنده گاهی قوانینی را وضع می‌کنند که خانه‌های مشابه را ملزم می‌کنند تا حداکثر فاصله داشته باشند. در این مثال، Bisquare را می توان با محله ای برابر با حداکثر فاصله مشخص شده توسط موسسه وام دهنده استفاده کرد.

پیش بینی

می توانید از مدل رگرسیون ایجاد شده برای پیش بینی سایر ویژگی ها (اعم از نقاط یا چند ضلعی) در همان منطقه مورد مطالعه استفاده کنید. ایجاد این پیش‌بینی‌ها مستلزم آن است که هر یک از مکان‌های پیش‌بینی مقادیری برای هر یک از متغیر(های) توضیحی ارائه شده داشته باشد. اگر نام فیلدها از پارامترهای ویژگی های ورودی و مکان های پیش بینی مطابقت نداشته باشند، یک پارامتر تطبیق متغیر ارائه می شود. هنگام تطبیق متغیرهای توضیحی، فیلدهای پارامترهای ویژگی های ورودی و مکان های پیش بینی باید از یک نوع باشند (مثلاً فیلدهای دوتایی باید با فیلدهای دوتایی مطابقت داده شوند).

شطرنجی ضریب

یکی از جنبه های قدرتمند GWR این است که به شما امکان می دهد تا روابط متفاوت فضایی را کشف کنید. یکی از راه‌های تجسم اینکه چگونه روابط بین متغیرهای توضیحی و متغیر وابسته در فضا تغییر می‌کند، ایجاد رسترهای ضریب است. هنگامی که نام مسیری را برای پارامتر Coefficient Raster Workspace ارائه می کنید، ابزار GWR سطوح شطرنجی ضریب را برای رهگیری مدل و هر متغیر توضیحی ایجاد می کند. وضوح رسترها توسط محیط Cell Size کنترل می شود. یک همسایگی (هسته) در اطراف هر سلول شطرنجی با استفاده از نوع محله و طرح وزن دهی محلی ساخته می شود.مولفه های. وزن‌های مبتنی بر فاصله از مرکز سلول شطرنجی تا تمام ویژگی‌های ورودی در همسایگی (پهنای باند) محاسبه می‌شوند. این وزن ها برای محاسبه یک معادله رگرسیون منحصر به فرد برای آن سلول شطرنجی استفاده می شود. ضرایب از سلول شطرنجی به سلول رستری متفاوت است، زیرا وزن‌های مبتنی بر فاصله تغییر می‌کند و ویژگی‌های ورودی بالقوه متفاوت در همسایگی (پهنای باند) قرار می‌گیرند.

توجه داشته باشید:

در حال حاضر هیچ اتفاق نظری در مورد چگونگی ارزیابی اطمینان در ضرایب از یک مدل GWR وجود ندارد. در حالی که آزمون‌های t برای استنباط بر این که آیا مقدار تخمینی ضرایب به طور قابل‌توجهی متفاوت از صفر است یا خیر، استفاده شده‌اند، اعتبار این رویکرد هنوز حوزه‌ای از تحقیقات فعال است. یک رویکرد برای ارزیابی غیررسمی ضرایب این است که ضریب را بر خطای استاندارد ارائه شده برای هر ویژگی به عنوان روشی برای مقیاس بندی بزرگی تخمین با خطای استاندارد مرتبط و تجسم آن نتایج، به دنبال خوشه هایی از خطاهای استاندارد بالا نسبت به آنها تقسیم کنیم. ضرایب

خروجی ها

ابزار Geographically Weighted Regression خروجی های مختلفی تولید می کند. خلاصه ای از مدل GWR و خلاصه های آماری به عنوان پیام در پایین صفحه Geoprocessing در طول اجرای ابزار موجود است. برای دسترسی به پیام‌ها ، نشانگر را روی نوار پیشرفت نگه دارید، روی دکمه بازشو کلیک کنید یا بخش پیام‌ها را در قسمت Geoprocessing گسترش دهید . همچنین می‌توانید از طریق تاریخچه پردازش جغرافیایی به پیام‌های یک ابزار رگرسیون وزن‌دار جغرافیایی که قبلاً اجرا شده است دسترسی داشته باشید . این ابزار همچنین ویژگی های خروجی ، نمودارها و به صورت اختیاری ویژگی های پیش بینی شده خروجی و سطوح شطرنجی ضریب تولید می کند. درویژگی‌های خروجی و نمودارهای مرتبط به‌طور خودکار با یک طرح رندر سرد و گرم که برای مدل‌های باقی‌مانده اعمال می‌شود، به صفحه محتوا اضافه می‌شوند. تشخیص ها و نمودارهای تولید شده به نوع مدل ویژگی های ورودی بستگی دارد و در زیر توضیح داده شده است.

آمار مدل جهانی برای همه مدل ها محاسبه می شود.

پیوسته (گاوسی)

کلاس ویژگی و فیلدهای اضافه شده

علاوه بر باقیمانده های رگرسیون، پارامتر ویژگی های خروجی شامل فیلدهایی برای مقادیر y مشاهده شده و پیش بینی شده، شماره شرط ( COND )، R2 محلی، ضرایب متغیر توضیحی و خطاهای استاندارد است.

وقفه ( INTERCEPT )، خطای استاندارد رهگیری ( SE_INTERCEPT )، ضرایب و خطاهای استاندارد برای هر یک از متغیرهای توضیحی، پیش‌بینی‌شده، باقی‌مانده، Std باقی‌مانده، تأثیر، Cook’s D و محلی R-Squared نیز گزارش شده‌اند.

تفسیر پیام ها و تشخیص

جزئیات تحلیل شامل تعداد ویژگی های تحلیل شده، متغیرهای وابسته و توضیحی و تعداد همسایگان مشخص شده در پیام ها ارائه می شود. علاوه بر این، تشخیص در تصویربرداری از صفحه زیر گزارش شده است:

R2-R-squared معیار خوبی است. مقدار آن از 0.0 تا 1.0 متغیر است و مقادیر بالاتر ترجیح داده می شود. ممکن است به عنوان نسبت واریانس متغیر وابسته که توسط مدل رگرسیون محاسبه شده است تفسیر شود. مخرج محاسبه R2 مجموع مجذور مقادیر متغیر وابسته است. افزودن یک متغیر توضیحی اضافی به مدل، مخرج را تغییر نمی‌دهد، اما صورت را تغییر می‌دهد. این احساس بهبود در تناسب مدل را می دهد که ممکن است واقعی نباشد. Adj R2 را در زیر ببینید.
AdjR2 – به دلیل مشکلی که در بالا برای مقدار R2 توضیح داده شد، محاسبات برای مقدار مربع R تنظیم شده، صورت و مخرج را با درجه آزادی آنها عادی می کند. این اثر جبران تعداد متغیرهای یک مدل را دارد و در نتیجه مقدار R2 تنظیم شده تقریباً همیشه کمتر از مقدار R2 است. با این حال، در انجام این تنظیم، تفسیر مقدار را به عنوان نسبتی از واریانس توضیح داده شده از دست می دهید. در GWR، تعداد مؤثر درجه آزادی تابعی از همسایگی استفاده شده است، بنابراین تنظیم ممکن است در مقایسه با یک مدل جهانی مانند رگرسیون خطی تعمیم یافته (GLR) کاملا مشخص باشد. به همین دلیل، AICc به عنوان وسیله ای برای مقایسه مدل ها ترجیح داده می شود.
AICc: این معیار عملکرد مدل است و می تواند برای مقایسه مدل های رگرسیون استفاده شود. با در نظر گرفتن پیچیدگی مدل، مدل با مقدار AICc کمتر، تناسب بهتری با داده های مشاهده شده فراهم می کند. AICc معیار مطلق خوبی برای برازش نیست، اما برای مقایسه مدل‌ها با متغیرهای توضیحی مختلف تا زمانی که برای متغیر وابسته یکسان اعمال می‌شوند، مفید است. اگر مقادیر AICc برای دو مدل بیش از 3 متفاوت باشد، مدل با مقدار AICc کمتر بهتر است. مقایسه مقدار GWR AICc با مقدار GLR AICc یکی از راه‌های ارزیابی مزایای حرکت از یک مدل جهانی (GLR) به یک مدل رگرسیون محلی (GWR) است.
Sigma-Squared – این تخمین حداقل مربعات واریانس (انحراف استاندارد مجذور) برای باقیمانده ها است. مقادیر کوچکتر این آمار ارجح است. این مقدار مجموع باقیمانده مربعات نرمال شده است، که در آن مجموع باقیمانده مربع ها بر درجات آزادی موثر باقیمانده ها تقسیم می شود. Sigma-Squared برای محاسبات AICc استفاده می شود.
Sigma-Squared MLE – این تخمین حداکثر درستنمایی (MLE) واریانس (مربع انحراف استاندارد) باقیمانده ها است. مقادیر کوچکتر این آمار ارجح است. این مقدار با تقسیم مجموع باقیمانده مربع ها بر تعداد ویژگی های ورودی محاسبه می شود.
درجات مؤثر آزادی – این مقدار منعکس کننده یک مبادله بین واریانس مقادیر برازش و تعصب در برآورد ضرایب است و با انتخاب اندازه محله مرتبط است. همانطور که همسایگی به بی نهایت نزدیک می شود، وزن های جغرافیایی برای هر ویژگی نزدیک به 1، و برآورد ضرایب بسیار نزدیک به مدل های جهانی GLR خواهد بود. برای محله های بسیار بزرگ، تعداد موثر ضرایب به عدد واقعی نزدیک می شود. تخمین های ضریب محلی دارای واریانس کمی خواهند بود اما کاملاً مغرضانه خواهند بود. برعکس، با کوچکتر شدن همسایگی و نزدیک شدن به صفر، وزن های جغرافیایی برای هر ویژگی به جز خود نقطه رگرسیون به صفر نزدیک می شود. برای محله های بسیار کوچک، تعداد موثر ضرایب، تعداد مشاهدات است. و تخمین های ضریب محلی دارای واریانس زیاد اما بایاس کم خواهند بود. عدد موثر برای محاسبه بسیاری از اقدامات تشخیصی دیگر استفاده می شود.

نمودارهای خروجی

یک ماتریس نمودار پراکندگی در صفحه محتوا (شامل حداکثر 19 متغیر) و همچنین یک هیستوگرام از باقیمانده انحراف ارائه شده است که یک خط توزیع نرمال را نشان می دهد.

باینری (لجستیک)

کلاس ویژگی و فیلدهای اضافه شده

وقفه ( INTERCEPT )، خطای استاندارد رهگیری ( SE_INTERCEPT )، ضرایب، و خطاهای استاندارد برای هر یک از متغیرهای توضیحی، و همچنین احتمال 1 بودن، پیش بینی شده، انحراف باقیمانده، GInfluence و انحراف درصد محلی گزارش شده است.

تفسیر پیام ها و تشخیص

جزئیات تجزیه و تحلیل شامل تعداد ویژگی های تحلیل شده، متغیرهای وابسته و توضیحی و تعداد همسایگان مشخص شده در پیام ها ارائه می شود. علاوه بر این، تشخیص در تصویربرداری از صفحه زیر گزارش شده است:

% انحراف توضیح داده شده توسط مدل جهانی (غیر فضایی) – این معیار خوبی از تناسب است و عملکرد یک مدل جهانی (GLR) را کمیت می کند. مقدار آن از 0.0 تا 1.0 متغیر است و مقادیر بالاتر ترجیح داده می شود. می توان آن را به عنوان نسبت واریانس متغیر وابسته که توسط مدل رگرسیون به حساب می آید تفسیر کرد.
% انحراف توضیح داده شده توسط مدل محلی – این معیار خوبی است و عملکرد یک مدل محلی (GWR) را کمیت می‌کند. مقدار آن از 0.0 تا 1.0 متغیر است و مقادیر بالاتر ترجیح داده می شود. می توان آن را به عنوان نسبت واریانس متغیر وابسته که توسط مدل رگرسیون محلی محاسبه می شود تفسیر کرد.
% انحراف توسط مدل محلی در مقابل مدل جهانی توضیح داده شده است – این نسبت یکی از راه‌های ارزیابی مزایای حرکت از یک مدل جهانی (GLR) به یک مدل رگرسیون محلی (GWR) با مقایسه مجموع مربعات باقی‌مانده از مدل محلی است. مجموع مربع های باقی مانده از مدل جهانی. مقدار آن از 0.0 تا 1.0 متغیر است، با مقادیر بالاتر نشان دهنده عملکرد مدل رگرسیون محلی بهتر از یک مدل جهانی است.
AICc: این معیار عملکرد مدل است و می تواند برای مقایسه مدل های رگرسیون استفاده شود. با در نظر گرفتن پیچیدگی مدل، مدل با مقدار AICc کمتر، تناسب بهتری با داده های مشاهده شده فراهم می کند. AICc معیار مطلق خوبی برای برازش نیست، اما برای مقایسه مدل‌ها با متغیرهای توضیحی مختلف تا زمانی که برای متغیر وابسته یکسان اعمال می‌شوند، مفید است. اگر مقادیر AICc برای دو مدل بیش از 3 متفاوت باشد، مدل با مقدار AICc کمتر بهتر است. مقایسه مقدار GWR AICc با مقدار OLS AICc یکی از راه‌های ارزیابی مزایای حرکت از یک مدل جهانی (OLS) به یک مدل رگرسیون محلی (GWR) است.
Sigma-Squared – این مقدار مجموع باقیمانده مربعات نرمال شده است که در آن مجموع مربعات باقیمانده بر درجات آزادی موثر باقیمانده تقسیم می شود. این برآورد حداقل مربعات واریانس (مربع انحراف استاندارد) باقیمانده ها است. مقادیر کوچکتر این آمار ارجح است. Sigma-Squared برای محاسبات AICc استفاده می شود.
Sigma-Squared MLE – این تخمین حداکثر درستنمایی (MLE) واریانس (مربع انحراف استاندارد) باقیمانده ها است. مقادیر کوچکتر این آمار ارجح است. این مقدار با تقسیم مجموع باقیمانده مربع ها بر تعداد ویژگی های ورودی محاسبه می شود.
درجات مؤثر آزادی – این مقدار منعکس کننده یک مبادله بین واریانس مقادیر برازش و تعصب در برآورد ضرایب است و با انتخاب اندازه محله مرتبط است. همانطور که همسایگی به بی نهایت نزدیک می شود، وزن های جغرافیایی برای هر ویژگی نزدیک به 1، و برآورد ضرایب بسیار نزدیک به مدل های جهانی GLR خواهد بود. برای محله های بسیار بزرگ، تعداد موثر ضرایب به عدد واقعی نزدیک می شود. تخمین های ضریب محلی دارای واریانس کمی خواهند بود اما کاملاً مغرضانه خواهند بود. برعکس، با کوچکتر شدن همسایگی و نزدیک شدن به صفر، وزن های جغرافیایی برای هر ویژگی به جز خود نقطه رگرسیون به صفر نزدیک می شود. برای محله های بسیار کوچک، تعداد موثر ضرایب، تعداد مشاهدات است. و تخمین های ضریب محلی دارای واریانس زیاد اما بایاس کم خواهند بود. عدد موثر برای محاسبه بسیاری از اقدامات تشخیصی دیگر استفاده می شود.

نمودارهای خروجی

یک ماتریس نمودار پراکندگی و همچنین نمودارهای جعبه و یک هیستوگرام از باقیمانده های انحراف ارائه شده است.

شمارش (پواسون)

کلاس ویژگی و فیلدهای اضافه شده

رهگیری ( INTERCEPT )، خطای استاندارد رهگیری ( SE_INTERCEPT )، ضرایب و خطاهای استاندارد برای هر یک از متغیرهای توضیحی، و همچنین مقدار پیش‌بینی‌شده قبل از تبدیل لگاریتمی ( RAW_PRED )، پیش‌بینی‌شده، انحراف باقی‌مانده، GInfluence، انحراف درصد محلی و شماره وضعیت گزارش شده است.

تفسیر پیام ها و تشخیص

% انحراف توضیح داده شده توسط مدل جهانی (غیر فضایی) – این معیار خوبی از تناسب است و عملکرد یک مدل جهانی (GLR) را کمیت می کند. مقدار آن از 0.0 تا 1.0 متغیر است و مقادیر بالاتر ترجیح داده می شود. می توان آن را به عنوان نسبت واریانس متغیر وابسته که توسط مدل رگرسیون به حساب می آید تفسیر کرد.
% انحراف توضیح داده شده توسط مدل محلی – این معیار خوبی از برازش است و عملکرد مدل محلی (GWR) را کمی می کند. مقدار آن از 0.0 تا 1.0 متغیر است و مقادیر بالاتر ترجیح داده می شود. می توان آن را به عنوان نسبت واریانس متغیر وابسته که توسط مدل رگرسیون محلی محاسبه می شود تفسیر کرد.
% انحراف توسط مدل محلی در مقابل مدل جهانی توضیح داده شده است – این نسبت یکی از راه‌های ارزیابی مزایای حرکت از یک مدل جهانی (GLR) به یک مدل رگرسیون محلی (GWR) با مقایسه مجموع مربعات باقی‌مانده از مدل محلی است. مجموع مربع های باقی مانده از مدل جهانی. مقدار آن از 0.0 تا 1.0 متغیر است، با مقادیر بالاتر نشان دهنده عملکرد مدل رگرسیون محلی بهتر از یک مدل جهانی است.
AICc: این معیار عملکرد مدل است و می تواند برای مقایسه مدل های رگرسیون استفاده شود. با در نظر گرفتن پیچیدگی مدل، مدل با مقدار AICc کمتر، تناسب بهتری با داده های مشاهده شده فراهم می کند. AICc معیار مطلق خوبی برای برازش نیست، اما برای مقایسه مدل‌ها با متغیرهای توضیحی مختلف تا زمانی که برای متغیر وابسته یکسان اعمال می‌شوند، مفید است. اگر مقادیر AICc برای دو مدل بیش از 3 متفاوت باشد، مدل با مقدار AICc کمتر بهتر است. مقایسه مقدار GWR AICc با مقدار OLS AICc یکی از راه‌های ارزیابی مزایای حرکت از یک مدل جهانی (OLS) به یک مدل رگرسیون محلی (GWR) است.
Sigma-Squared – این مقدار مجموع باقیمانده مربعات نرمال شده است که در آن مجموع مربعات باقیمانده بر درجات آزادی موثر باقیمانده تقسیم می شود. این برآورد حداقل مربعات واریانس (مربع انحراف استاندارد) باقیمانده ها است. مقادیر کوچکتر این آمار ارجح است. Sigma-Squared برای محاسبات AICc استفاده می شود.
Sigma-Squared MLE – این تخمین حداکثر درستنمایی (MLE) واریانس (مربع انحراف استاندارد) باقیمانده ها است. مقادیر کوچکتر این آمار ارجح است. این مقدار با تقسیم مجموع باقیمانده مربع ها بر تعداد ویژگی های ورودی محاسبه می شود.
درجات مؤثر آزادی – این مقدار منعکس کننده یک مبادله بین واریانس مقادیر برازش و تعصب در برآورد ضرایب است و با انتخاب اندازه محله مرتبط است. همانطور که همسایگی به بی نهایت نزدیک می شود، وزن های جغرافیایی برای هر ویژگی نزدیک به 1، و برآورد ضرایب بسیار نزدیک به مدل های جهانی GLR خواهد بود. برای محله های بسیار بزرگ، تعداد موثر ضرایب به عدد واقعی نزدیک می شود. تخمین های ضریب محلی دارای واریانس کمی خواهند بود اما کاملاً مغرضانه خواهند بود. برعکس، با کوچکتر شدن همسایگی و نزدیک شدن به صفر، وزن های جغرافیایی برای هر ویژگی به جز خود نقطه رگرسیون به صفر نزدیک می شود. برای محله های بسیار کوچک، تعداد موثر ضرایب، تعداد مشاهدات است. و تخمین های ضریب محلی دارای واریانس زیاد اما بایاس کم خواهند بود. عدد موثر برای محاسبه بسیاری از اقدامات تشخیصی دیگر استفاده می شود.

نمودارهای خروجی

یک ماتریس نمودار پراکندگی در صفحه محتوا (شامل حداکثر 19 متغیر) و همچنین یک هیستوگرام از خط توزیع انحراف باقیمانده و عادی ارائه شده است.

سایر نکات و نکات اجرایی

در مدل‌های رگرسیون جهانی، مانند GLR ، زمانی که دو یا چند متغیر چند خطی را نشان می‌دهند، نتایج غیرقابل اعتماد هستند (زمانی که دو یا چند متغیر اضافی هستند یا با هم داستان یکسانی را بیان می‌کنند). ابزار Geographically Weighted Regression یک معادله رگرسیون محلی برای هر ویژگی در مجموعه داده ایجاد می کند. هنگامی که مقادیر یک متغیر توضیحی خاص به صورت مکانی خوشه می شوند، احتمالاً با چند خطی بودن محلی مشکل خواهید داشت. شماره شرط در ویژگی های خروجیپارامتر زمانی را نشان می دهد که نتایج به دلیل چند خطی بودن محلی ناپایدار هستند. به عنوان یک قاعده کلی، در مورد نتایج برای ویژگی‌هایی با عدد شرط بزرگ‌تر از 30، برابر با Null یا برای فایل‌های شیپ، برابر با -1.7976931348623158e+308، شک داشته باشید. عدد شرط به منظور تصحیح تعداد متغیرهای توضیحی در مدل به صورت مقیاس تنظیم می شود. این امکان مقایسه مستقیم عدد شرط بین مدل‌ها را با استفاده از تعداد متفاوتی از متغیرهای توضیحی فراهم می‌کند.

خطاهای طراحی مدل اغلب نشان دهنده مشکلی در چند خطی بودن سراسری یا محلی است. برای تعیین اینکه مشکل کجاست، مدل را با استفاده از GLR اجرا کنیدو مقدار VIF را برای هر متغیر توضیحی بررسی کنید. اگر برخی از مقادیر VIF بزرگ باشند (برای مثال، بالای 7.5)، چند خطی جهانی مانع از حل GWR می شود. با این حال، به احتمال زیاد، چند خطی بودن محلی مشکل است. سعی کنید برای هر متغیر توضیحی یک نقشه موضوعی ایجاد کنید. اگر نقشه خوشه‌بندی فضایی مقادیر یکسان را نشان می‌دهد، حذف آن متغیرها از مدل یا ترکیب آن متغیرها با سایر متغیرهای توضیحی برای افزایش تنوع ارزش را در نظر بگیرید. برای مثال، اگر در حال مدل‌سازی ارزش‌های خانه هستید و متغیرهایی برای اتاق خواب و حمام دارید، ممکن است بخواهید اینها را برای افزایش تنوع ارزش ترکیب کنید یا آنها را به عنوان متراژ مربع حمام/اتاق خواب نشان دهید. از استفاده از متغیرهای مصنوعی یا باینری رژیم فضایی برای انواع مدل گاوسی یا پواسون خودداری کنید.

مشکلات مربوط به چند خطی محلی همچنین می‌تواند مانع از حل باند فاصله یا تعداد همسایگان بهینه توسط ابزار شود . فواصل دستی یا باند فاصله تعریف شده توسط کاربر یا تعداد همسایگان خاص را مشخص کنید . سپس اعداد شرط را در کلاس ویژگی Output بررسی کنید تا ببینید کدام ویژگی با مشکلات چند خطی محلی (اعداد شرط بزرگتر از 30) مرتبط است. ممکن است بخواهید این ویژگی های مشکل را به طور موقت حذف کنید، در حالی که فاصله یا تعداد همسایگان بهینه را پیدا می کنید. به خاطر داشته باشید که نتایج مرتبط با اعداد شرایط بیشتر از 30 قابل اعتماد نیستند.

تخمین پارامترها و مقادیر پیش‌بینی‌شده برای GWR با استفاده از تابع وزن‌دهی فضایی زیر محاسبه می‌شوند: exp(-d^2/b^2). ممکن است تفاوت هایی در این تابع وزنی در بین پیاده سازی های مختلف نرم افزار GWR وجود داشته باشد. در نتیجه، نتایج حاصل از ابزار GWR ممکن است دقیقاً با نتایج سایر بسته های نرم افزاری GWR مطابقت نداشته باشد.

بیشتر بدانید :

منابع اضافی

تعدادی منبع وجود دارد که به شما کمک می کند تا در مورد رگرسیون خطی تعمیم یافته و رگرسیون دارای وزن جغرافیایی بیشتر بدانید . با مبانی تحلیل رگرسیون شروع کنید یا از طریق آموزش تحلیل رگرسیون کار کنید .

موارد زیر نیز منابع مفیدی هستند:

Brunsdon، C.، Fotheringham، AS، و Charlton، ME (1996). “رگرسیون وزن‌دار جغرافیایی: روشی برای کاوش غیرایستایی فضایی”. تحلیل جغرافیایی ، 28(4)، 281-298.

فاثرینگهام، استوارت آ.، کریس براندون، و مارتین چارلتون. رگرسیون وزنی جغرافیایی: تجزیه و تحلیل روابط متغیر فضایی. جان وایلی و پسران، 2002.

گولینی، آی.، لو، بی.، چارلتون، ام.، براندون، سی، و هریس، پی (2013). GWmodel: یک بسته R برای کاوش ناهمگونی فضایی با استفاده از مدل‌های وزن‌دار جغرافیایی . پیش چاپ arXiv arXiv:1306.0413.

میچل، اندی. The ESRI Guide to GIS Analysis, Volume 2. ESRI Press, 2005.

ناکایا، تی، فاثرینگهام، ع.اس، براندون، سی، و چارلتون، ام (2005). “رگرسیون پواسون دارای وزن جغرافیایی برای نقشه برداری ارتباط بیماری”. آمار در پزشکی ، 24(17)، 2695-2717.

Páez, A., Farber, S., & Wheeler, D. (2011). “مطالعه مبتنی بر شبیه سازی رگرسیون وزنی جغرافیایی به عنوان روشی برای بررسی روابط متغیر فضایی”. محیط و برنامه ریزی A , 43 (12), 2992-3010.

آموزش آمار فضایی

مشاورین هوش پیروزی

رگرسیون وزن‌دار جغرافیایی (GWR) چگونه کار می‌کند

رگرسیون وزن‌دار جغرافیایی (GWR) چگونه کار می‌کند

توجه داشته باشید:

برنامه های کاربردی بالقوه

ورودی ها

نوع مدل

پیوسته (گاوسی)

باینری (لجستیک)

شمارش (پواسون)

انتخاب محله (پهنای باند)

طرح وزن دهی محلی

پیش بینی

شطرنجی ضریب

توجه داشته باشید:

خروجی ها

پیوسته (گاوسی)

کلاس ویژگی و فیلدهای اضافه شده

تفسیر پیام ها و تشخیص

نمودارهای خروجی

باینری (لجستیک)

کلاس ویژگی و فیلدهای اضافه شده

تفسیر پیام ها و تشخیص

نمودارهای خروجی

شمارش (پواسون)

کلاس ویژگی و فیلدهای اضافه شده

تفسیر پیام ها و تشخیص

نمودارهای خروجی

سایر نکات و نکات اجرایی

منابع اضافی