همبستگی و رگرسیون

همبستگی و رگرسیون


همبستگی و رگرسیون-موسسه چشم انداز هزاره سوم ملل-آموزش کاربردی GIS و RS

مقدمه

یکی از کاربردی ­ترین تکنیک آماری در جغرافیا همبستگی و رگرسیون است. همبستگی به ارتباط بین متغیرها می ­پردازد. برای نمونه، ارتباط بین دما و بارش در یک منطقه. تحلیل رگرسیون روشی برای مدل­ سازی و تحلیل داده­ های عددی است. داده­ ها شامل مقدار هایی برای متغیر وابسته و یک یا چند متغیر مستقل هستند. هدف از تحلیل رگرسیون، بیان متغیر وابسته به شکل تابعی از متغیر یا متـغیرهای مسـتقل، ضرایب و مـقادیر خطا است تا به این روش، بتـوان رفتار متغیر وابسـته را در افق­ های زمانی آتی پیش ­بینی نمود. برای نمونه، پیش­ بینی بارش یک منطقه با در نظر گرفتن دما در آن منطقه. موضوع همبستگی و رگرسیون علاوه بر اهمیتی که در دیدگاه غیر مکانی دارد، در دیدگاه مکانی نیز از اهمیت ویژه­ ای برخوردار است. در این فصل، علاوه بر همبستگی و رگرسیون، مبحث خودهمبستگی و رگرسیون موزون جغرافیایی در مکان نیز مورد بررسی قرار می­گیرد.

همبستگی و رگرسیون

همبستگی و رگرسیون

الف) همبستگی و انواع آن در مباحث غیر مکانی

ميزان هماهنگي بين تغييرات دو متغير توسط ضريب همبستگي اندازه گرفته مي­ شود. زماني بين دو متغير رابطه يا هماهنگي وجود دارد كه به ازاي يك واحد معيني افزايش در يكي مقدار معيني، هم در ديگري افزايش يا كاهش يابد. اگر قيمت زمين با دوري از مركز شهر كاهش يابد، بين قيمت زمين و فاصله از مركز شهر رابطه يا هماهنگي معكوس وجود دارد. بين افزايش ارتفاع و بارش در دامنه غربي زاگرس رابطه و هماهنگي مستقيم وجود دارد. در این بخش به بررسی چند نوع همبستگی پرداخته می­شود.

دوره-آموزش-حرفه-ای-gis

همبستگی پیرسون

هماهنگي مكاني بين دو متغیر از طريق محاسبه واريانس مشترك آن­ ها حاصل مي­ شود.

براي استاندارد كردن كوواريانس، مقدار آن بر حاصل ضرب انحراف­ معيارهاي متغيرهاي مستقل و وابسته تقسيم مي­ شود. واريانس مشترك استاندارد شده ضريب همبستگي پیرسون ناميده مي­شود. معادلۀ ضريب همبستگي پیرسون به شرح زير است:

(Cov(X,Y تغییرات دو متغیر X و  σ x، y انحراف معیار متغیر σ y، X انحراف معیار متغیر y در نظر گرفته می­ شود. خواص ضریب همبستگی عبارتند از:

الف) برای اعداد حقیقی a>0  و c>0 و b و d

به این معنی است که ضریب همبستگی با تغییر مبدأ و واحد اندازه ­گیری  و  تغییر نمی­ کند.

ب) همواره

با توجه به خواص بالا معلوم می ­شود که ضریب همبستگی معیار خوبی برای سنجش همبستگی خطی میان دو متغیر تصادفی می­ باشد. هر اندازه |ρ| به یک نزدیکتر باشد این همبستگی قوی ­تر می­ باشد، به عبارت دیگر یافته­ های (X,Y) گرایش زیاد دارند که اطراف یک خط راست باشند. در جدول 7-1 یک طبقه ­بندی برای مقادیر و شدت ضریب همبستگی صرف نظر از علامت انجام شده است.

انواع مختلف نمودارهای پراکنش در شکل زیر مشاهده می ­شود (بهبودیان، 1384).

نمودار P = -1 نشان می ­دهد که همبستگی بین دو متغیر کامل است و اگر از بین نقاط مشاهده شده خطی را عبور دهیم نقاط دقیقاً بر روی خط راست قرار می­ گیرند. منفی بودن مقدار یک نیز اشاره به این مطلب دارد که متغیر X افزایش یافته اما متغیر Y کاهش یافته است به عبارتی دیگر دو متغیر در خلاف جهت یکدیگر بوده ­اند.

نمودار

نشان می­ دهد که همبستگی بین دو متغیر به صورت ناقص است و نقاط مشاهده شده از خط عبور داده شده از بین مشاهدات فاصله دارند. این بازه در برگیرنده مقادیر منفی است به این معنی که متغیر X افزایش یافته اما متغیر Y کاهش یافته است به عبارتی دیگر دو متغیر در خلاف جهت یکدیگر بوده­اند.

نمودار

نشان می­ دهد که همبستگی بین دو متغیر به صورت ناقص است و نقاط مشاهده شده از خط عبور داده شده از بین مشاهدات فاصله دارند. این بازه در برگیرنده مقادیر مثبت است به این معنی که متغیر X و متغیر Y افزایش یافته ­اند. به عبارتی دیگر دو متغیر در یک جهت یکدیگر بوده­ اند.

نمودار P = 1 نشان می­ دهد که همبستگی بین دو متغیر کامل است و اگر از بین نقاط مشاهده شده خطی را عبور دهیم نقاط دقیقاً بر روی خط راست قرار می­ گیرند. مثبت بودن مقدار یک نیز اشاره به این مطلب دارد که متغیر X و متغیر Y افزایش یافته ­اند. به عبارتی دیگر دو متغیر در یک جهت یکدیگر بوده ­اند.

نمودار P = 0 نشان می ­دهد که رابطه خطی بین دو متغیر وجود ندارد. و این امر بیانگر پراکندگی زیاد بین دو متغیر است. به عبارتی دیگر گفته می شود X و Y از نظر همبستگی خطی، ناهمبسته می­ باشند (بهبودیان، 1387).

همبستگی اسپیرمن

یکی از روش­ های معمول در تعیین ضریب همبستگی، به کارگیری همبستگی رتبه ­ای اسپیرمن است. ضریب همبستگی رتبه ای اسپیرمن توسط چارلز اسپیرمن (1945-1863) روانشناس و آماردان انگلیسی در سال 1904 معرفی شد. این ضریب میزان همبستگی رابطه ی میان دو متغیر ترتیبی را نشان می ­دهد و به عبارت دیگر متناظر ناپارامتری ضریب همبستگی پیرسون می ­باشد. در این ضریب همبستگی به جای استفاده از خود مقادیر متغیرها از رتبه ­های آنان استفاده می ­شود. رابطۀ مربوط به ضریب همبستگی رتبه ­ای اسپیرمن به صورت زیر تعریف می ­شود.

پرسش 1)

داده ­های زیر مربوط به تعداد روزهای یخبندان و مقدار بارش است. ضریب همبستگی اسپیرمن را محاسبه کنید؟

جواب:

به عنوان نمونه نحوه رتبه ­بندی تعداد روزهای یخبندان به صورت زیر انجام می ­شود. ابتدا اعداد را به ترتیب از کوچک به بزرگ مرتب نموده.

رتبه از 1 تا 10 به اعداد بالا اختصاص داده شده. اما چون عدد 5 دو مرتبه تکرار شده و رتبه 2 و 3 را به خود اختصاص داده از متوسط رتبه ­ها که 5/2 می­ باشد استفاده شده است. برای عدد 8 نیز به همین طریق رتبه محاسبه شده است.

از تفاوت­ های ضریب همبستگی رتبه ­ای اسپیرمن و ضریب همبستگی پیرسون به موارد زیر می­ توان اشاره داشت:

– ضریب همبستگی پیرسون برای محاسبۀ همبستگی دو متغیر فاصله ­ای یا نسبتی به کار برده می­ شود، ولی ضریب اسپیرمن، همبستگی موجود بین دو متغیر ترتیبی را نشان می­ دهد.

– به کمک ضریب همبستگی اسپیرمن روابط غیرخطی بررسی می­ شود در حالی که ضریب همبستگی پیرسون به منظور بررسی یک رابطۀ خطی بکار برده می­ شود.

– کارایی ضریب همبستگی رتبه ای اسپیرمن کمتر از ضریب همبستگی پیرسون است.

ضریب همبستگی رتبه‌ای کندال

کندال در حدود 1930 به مطالعه یک نوع ضریب همبستگی پرداخت که به نام او شهرت دارد. ضریب همبستگی رتبه ­ای به تای کندال مشهور است و با حرف یونانی τ نمایش داده‌ می‌شود یک آمارۀ ناپارامتری است که برای سنجش همبستگی آماری میان دو متغیر تصادفی به کار می‌رود. ضریب همبستگی کندال به صورت زیر تعریف می­ شود:

برای نحوۀ مشخص کردن P و N به پرسش زیر توجه کنید.

پرسش 1)

دو کارشناس از بین هشت منطقه، بنا به اولویت و ویژگی­ هایی که آن مناطق دارند به ترتیب مناسب بودن مناطق را برای کشت ذرت اعلام کردند. ارتباط دیدگاه دو کارشناس را از طریق ضریب همبستگی کندال به دست اورید؟

جواب:

همان طور که در جدول بالا مشاهده می ­کنید. ردیف سوم و چهارم مرتب کردن داده ­های کارشناس ­ها می ­باشد. طریقه به دست آوردن ردیف (مثبت)  Aij به صورت زیر است:

ارزیابی کارشناس2 در هر ستون با ستو ن­های ما قبل آن سنجیده می­ شود به عبارت دیگر یعنی ارزیابی می­ شود این رتبه در مقایسه با رتبه ستون­ های ماقبل آن از چندتای آن بزرگتر هست. جمع تمام (مثبت) Aij را با P  نشان داده می­ شود. که جواب در اینجا برابر با 21 می ­باشد.

طریقه به دست آوردن ردیف (منفی) Aij نیز به صورت زیر است:

ارزیابی معلم 2 در هر ستون با ستون­ های ما قبل آن سنجیده می­ شود به عبارت دیگر یعنی ارزیابی می ­شود این رتبه در مقایسه با رتبه ستون های ما قبل آن از چندتای آن کوچکتر هست. جمع تمام (منفی) Aij را با  N نشان می­ دهند که در اینجا برابر با 7 می ­باشد.

در اینجا تعداد n  برابر با 8 می­باشد. حال با قرار دادن این موارد در فرمول ضریب همبستگی کندال به راحتی محاسبه می­ شود.

دوره-آموزش-حرفه-ای-gis

الف) مفهوم رگرسیون در مباحث غیر مکانی

یکی از اهداف بیشتر بررسی ­های آماری، یافتن رابطه ­هایی است که به کمک آن بتوان اثر تغییرات یک یا چند متغیر را بر روی متغیرهای دیگر پیش بینی کرد. برای نمونه:

 

– پیش­ بینی سیل­ ها بر اساس نرخ تخلیه ­ی آب رودخانه در محلی خاص و نرخ تخلیه­ ی رودخانه در محل ­های واقع در بالای رودخانه.

– پیش­ بینی مصرف سرانه ­ی یک نوع غذای مشخص بر حسب میزان مواد مغذی موجود در آن.

– پیش­ بینی درصد مردمی که دارای شرایط رأی دادن هستند، نسبت به عوامل اجتماعی-سیاسی همچون: ساختار سنی، سطح سواد و میانگین درآمد.

– پیش ­بینی امکان فروش یک فرآورده­ ی جدید بر حسب قیمت آن.

 

برای پیش ­بینی این قبیل نمونه ­ها از رگرسیون استفاده می­ شود (بازرگان لاری، 1385). واژه “رگرسيون” از لحاظ لغوی به معني پسروی، برگشت و بازگشت است. اما از دید آمار و ریاضیات اغلب جهت رساندن مفهوم “بازگشت به يک مقدار متوسط يا ميانگين” به ­کار مي ­رود. بدين معني که برخي پديده­ ها به مرور زمان از نظر کمي به طرف يک مقدار متوسط ميل مي ­کنند. در واقع تحليل رگرسيون، یک فن آماري براي بررسي و مدل سازي ارتباط بين متغيرها است. رگرسيون تقريباً در هر زمينه ­اي از جمله مهندسي، فيزيک، اقتصاد، مديريت، علوم زيستي، بيولوژي، جغرافیا، کشاورزی و علوم اجتماعي برای برآورد و پیش ­بینی مورد نیاز است.

در فرآيند رگرسیون با متغیرهاي وابسته و مستقل سروکار است. با یک مثال ساده در طبیعت، مي ­توان با مفهوم اين دو متغير و در نهايت فن رگرسيون آشنا شد. مي ­دانيد که برای به دست آوردن یک محصول کشاورزي خوب، شرایطی چون مقدار آب، نور، کود و سم­پاشی لازم است. در اين جا “محصول خوب” که هدف پیش ­بینی است، متغیر وابسته است و عواملی مثل آب، نور، کود و سم­پاشی متغيرهاي مستقل محسوب مي شوند. در صورتي که تنها عامل موثر در تولید محصول خوب عامل آب باشد، فقط يک متغير مستقل وجود دارد و مدل رگرسيوني را مدل رگرسيوني خطي ساده مي­ نامند.  معادله مدل رگرسیونی خطی ساده به صورت زير است:

که در آن a  عرض از مبدأ، b ضریب متغیر مستقل، y،  xمتغیر وابسته و ε نیز مقدار خطا است (وایسبرگ، 1985). در صورتي که در مدل رگرسيوني چندین متغير مستقل تأثیرگذار (مانند آب، نور، و …) وجود داشته باشد، مدل را مدل رگرسيوني خطي چندگانه مي­ نامند. با فرض وجود K متغیر مستقل، معادله رگرسيون به صورت زير می­ باشد:

که در آن  a عرض از مبدأ، b1ضریب متغیر مستقل b2،  x1ضریب متغیر مستقل x2و  bkضریب متغیر مستقل  xkاست (دراپر، 1981).

در بیشتر موارد رابطه بین متغیرهای مستقل و وابسته یک رابطه خطی نیست. به عبارتي هماهنگی بین اين متغيرها به صورت غیر خطی است. مدل ­های غیر خطی به شکل­ هاي مختلفي ارائه مي­ شوند که معادله کلی آن­ها یک مدل رگرسیون چند درجه ­ای به صورت زير است:

در این رابطه واست که n درجه رگرسيون را نشان می ­دهد (علیجانی، 1390). شکل­ هاي مختلف توابع رگرسيوني با درجات متفاوت در جدول زیر ارائه شده است:

هر كدام از اين توابع در جغرافيا كاربرد خاصي دارد. در مورد نمايش تغييرات دماي يك روز 24 ساعته و يا تغييرات ارتفاع در نيمرخ يك دّره يا يال، تابع درجه 2 استفاده مي­ شود. نمايش تغييرات دماي ساعتي بامداد امروز تا 2 بعد از ظهر فردا و يا تغييرات ارتفاع از خط القعر يك دّره تا خط الراس يال دوم از تابع درجه 3 استفاده مي ­شود. تغييرات بارش در دامنه يك تپه از تابع درجه 1 ولي در دامنه يك كوه بلند از تابع لگاريتمي تبعيت مي­ كند. مناسب ترين تابع براي تغييرات ارتفاع از كف يك جلگه به طرف خط الراس يال مجاور تابع نمايي است. در واقع مدلي مناسب است كه در آن متغيير مستقل بتواند تمام واريانس متغيير وابسته را تبيين كند. درصد واريانس متغيير وابسته كه توسط متغيير مستقل تبيين شده باشد قدرت متغيير مستقل و يا مدل رگرسيون ناميده مي شود. هيچ تعداد متغيير مستقل نمي­ توانند تمام واريانس يك متغيير وابسته را توجيه كنند. مقداري از واريانس متغيير وابسته توجيه نشده باقي مي ­ماند كه به آن واريانس خطا و يا خطاي مدل گويند.

مفهوم خطای رگرسیون

مقدار عددي تفاوت بين نقاط مشاهده شده (y) و خط رگرسيوني یا خط پیش بینی کننده (y ̂) با عنوان خطاي برآورد معرفي مي شود (شکل 7-2).

مقدار خطا به صورت زیر محاسبه می­ شود:

اين خطا ممکن است از خطا در اندازه ­گيري، شرایط محیط، تفاوت­ های طبیعی و … ناشي شده باشد (مونتگمری و همکاران، 1384).

فرض کنید P مقدار بارش سالانه و H ارتفاع نقطه اندازه ­گيري بارش مي ­باشد. مدل رگرسیون خطی ساده بین بارش و ارتفاع به صورت زير مي باشد:

ضریب متغیر مستقل (H) نشان می ­دهد که اولاً هماهنگی بین بارش و ارتفاع مثبت است. ثانیاً مدل رگرسیوني مقدار بارش نقاطی را که بر روی خط رگرسیون قرار دارند، به صورت دقیق پیش ­بینی می ­کند. اما در مورد نقاطي که دورتر از خط قرار دارند مقدار خطا افزايش مي ­يابد. اندازه­ خطای هر نقطه نسبت به خط رگرسیون برابر است با فاصله آن نقطه از خط موازی محور ­yها.

مشابه مثال قبل مي ­توان به ارتباط رگرسيوني ساده بين دما و ارتفاع سطح زمين اشاره کرد. معمولاً اين ارتباط يا هماهنگي در طبيعت به صورت منفي است، يعني با افزايش ارتفاع (H)، مقدار دما (T)، کاسته مي ­شود. شکل زير نشان دهنده ارتباط دماي سالانه و ارتفاع زمين در ايستگاه هاي هواشناسي حوضه آبريز رودخانه مُند (جنوب ايران) مي­ باشد. ارتباط رگرسيوني (با ضريب برابر با 0/94 و تعداد ايستگاه برابر با 37) در اين مثال به صورت زير مي­ باشد:

رسم خط رگرسیون

همانطور كه در بالا گفته شد خط رگرسيون بايد خط بهترين برازش باشد. يعني اينكه مجموع واريانس باقيمانده از آن كمترين مقدار ممكن باشد. براي رسم چنين خطي بايد ضرايب آن را محاسبه كرد. ضرايب معادله خط عبارتند از b و a كه از فرمول هاي زير محاسبه مي­ شوند:

محاسبه واريانس هاي مختلف مدل رگرسيون از براساس جدول 7-2 انجام مي­ شود.

الف) واريانس كل ( TSS) كه برابر است با مجموع مربعات فاصله  ­yiها از ميانگين آن يعني .

ب) واريانس رگرسيون ( RSS) كه برابر است بامجموع مربعات فاصله ­y ̂iها از ميانگين يعني . ­y ̂i مقدار پيش بيني yi توسط معادله رگرسيون است.

ج) واريانس باقيمانده ­ها(خطاها)(ESS) كه برابر است با مجموع مربعات فاصله yi ها از y ̂i هاي متناظر (يا مجموع مربعات فاصله yi­ها از خط رگرسيون).

در رگرسيون، باقيمانده ­ها (خطاها) بسيار مهم هستند. هرقدر مقدار آن­ ها كمتر باشد قدرت مدل بيشتر است .مجموع باقيمانده ­ها معمولاً صفر است. باقيمانده­ ها كاربرد فراوان دارند. مانند آزمون معني ­داري مدل و فاصله اطمينان خط رگرسيون. بدين جهت لازم است بعضي آماره ­هاي آن­ ها محاسبه شود:

در اين رابطه ­ها K تعداد متغييرهاي مستقل كه در مورد رگرسيون ساده برابر با یک است و يعني ميانگين.

با استفاده از رابطه فوق معمولاً باقيمانده­ ها استاندارد مي­ شوند:

فرضیات رگرسیون

در بیشتر موارد بین مقادیر مشاهده شده و خط رگرسیونی تفاوت ­هايي وجود دارد که برخی از آن­ها مثبت و برخی ديگر منفی هستند (شکل 7-4). فرضياتي در رابطه با اين خطاها وجود دارد که عبارتند از:

– خطاها یکدیگر را خنثی می­ کنند، به عبارت دیگر مجموع خطا­ها برابر صفر است؛

– رابطه ­ای بین خطای موجود در یک مشاهده با خطاهای دیگر وجود ندارد (استقلال خطا) ؛

– تغییرات بین خطاها (واریانس) ثابت در نظر گرفته می ­شود؛

– خطاها دارای توزیع نرمال هستند.

 

فرضیه­ های بالا برای ساختن یک مدل ضروری است و روش ­های بسیاری برای پی بردن به وجود (یا عدم برقراری) این فرضیه­ ها وجود دارد. معمولاً یکی از دلایل استفاده­ نادرست از رگرسیون نادیده گرفتن این فرض­ ها است که موجب استدلال ­های غلط خواهد شد (توماس، 1960).

معمولاً در مطالعات مختلف از جمله مطالعات بازرگانی و اقتصاد، نوعي عدم استقلال در خطاها وجود دارد. اين عدم استقلال زماني ايجاد مي­ شود که مشاهدات جمع­ آوري شده در یک دنباله­ زماني، با هدف پیش­ بینی يک يا چند روند کلی در آینده، در مدل ­هاي رگرسیوني قرار مي­ گيرند. مادامي که پارامتر زمان در یک آزمایش تغییر می­ کند رسم خطاها در برابر زمان، مي ­تواند تخطی از فرض استقلال را آشکار کند. در این نمودار پراکندگي، محور افقی مقادير زمان و محور عمودی مقادير خطا را نشان مي­ دهد. اگر در اين نمودار، پراکنش نقاط به صورت یک خوشه بی­ الگو باشد فرض وجود استقلال را القا می­ کند، به عبارتي اگر این نقاط در یک نوار افقی (شکل 7-4 الف) قرار گیرند، فرض استقلال ­εiها فرض شایسته ای است. اما اگر نمودار باقی­مانده ­ها در برابر ترتیب زمان به یکی از صورت ­هاي نشان داده شده در شکل 7-4 ب، ج و د باشند، نبايد اثر زمان را پذيرفت.

بررسی فرضیات رگرسیون

الف) آزمون دوربین واتسون

یکی از فرضیات رگرسیون، مستقل بودن خطاها از یکدیگر است. در صورتی که خطاها با یکدیگر همبستگی داشته باشند، امکان استفاده از رگرسیون وجود ندارد. به منظور بررسی استقلال خطاها از آزمونی به نام آزمون دوربین-واتسون استفاده می­ شود (مونتگمری و همکاران، 1982). اگر همبستگی بین خطاها را با P نشان داده شود در این صورت آماره دوربین واتسون به کمک رابطه زیر محاسبه می ­شود:

همواره مقدار این آماره در فاصله 0 تا 4 قرار دارد و نتیجه آزمون به صورت زیر قابل تفسیر است:

1) اگر P =0، آنگاه مقدار آماره دوربین واتسون برابر  با 2 است که نشان دهنده استقلال خطاها از یکدیگر است.

2) اگر P =1، آنگاه مقدار آماره دوربین واتسون برابر با 0 است که نشان دهنده خودهمبستگی مثبت خطاها است.

3) اگر P =-1، آنگاه مقدار آماره دوربین واتسون برابر با 4 است و نشان دهنده خودهمبستگی منفی بین خطاها می ­باشد.

 

فرض H0 مربوط به آزمون دوربین واتسون بر عدم همبستگی بین خطاها تأکید دارد، و فرض خلاف H1 به همبستگی بین خطاها اشاره می­ کند:

چنانچه این آماره در بازه 1/5 تا 2/5 قرار گیرد دلیلی برای رد فرضیه HO وجود ندارد؛ یعنی همبستگی بین خطاها وجود ندارد. در خارج از این بازه H0 فرض رد می­ شود یعنی بین خطاها همبستگی وجود دارد.

ب) بررسی نرمال بودن خطاها

1) نمودار هیستوگرام

مطابق با این فرضیه در رگرسیون خطاها دارای توزیع نرمال با میانگین صفر می ­باشند (شکل 7-5 را ببینید). بدیهی است در صورت عدم برقراری این فرضیه، نمی ­توان از رگرسیون استفاده کرد. بدین منظور باید مقادیر استاندارد خطاها محاسبه شده و نمودار توزیع داده ­ها و منحنی نرمال آن­ ها رسم شود و سپس مقایسه ­ای بین دو نمودار صورت گیرد (گریبیل، 1976).

2) آزمون خی­‌دو

بدين منظور از آزمون خی دو (χ 2) استفاده می­ شود. در صورت نرمال بودن توزیع داده­ ها، فراوانی خطاها در گروه­ های طبقاتی توزیع نرمال، نزديک يا برابر با فراوانی­ های مورد انتظار خواهد بود. آزمون خی دو در واقع فرضیه نفی صفر (توزیع فراوانی خطاها از توزیع نرمال تبعیت می­کند) را با مقدار a معین و درجه آزادی مناسب بررسی می­ کند:

آستانه معنی­ داری مقدار χ 2 از جدول توزیع χ 2 براساس a و درجه آزادی به دست مي ­آيد. در معادله فوق، r تعداد ردیف­ ها، و c تعداد ستون­ های جدول فراوانی مشاهدات است (راس، 1987).

3) آزمون جارک برا

در این آزمون، فرض­ های ذیل تدوین می­ شود:

H0: جملات خطا دارای توزیع نرمال است.

H1 : جملات خطا دارای توزیع نرمال نیست.

اگر مقادیر محاسباتی آماره جارک-برا (J-B) از مقدار بحرانی جدول خی‏دو بزرگتر نباشد، نرمال بودن توزیع جملات خطا رد نمی ‏شود. اما زمانی که اندازه نمونه به میزان کافی بزرگ باشد و سایر فرضیات نیز برقرار باشند، انحراف از فرض نرمال بودن معمولاً بی‌اهمیت و پیامدهای آن ناچیز است (هوگ و همکاران، 1978).

ج) فرضیه ­ی ناهمسانی واریانس

یکی از فرضیات رگرسیون اینست که تمامی جملات خطا باید دارای واریانس برابر باشند. در عمل این فرض چندان صادق نیست. آزمون بروش – پاگان به منظور آزمون واریانس ناهمسانی در مدل­ های رگرسیون خطی استفاده می ­شود و وابستگی واریانس جملات خطا به دست آمده از رگرسیون خطی را به مقادیر متغیرهای مستقل مدل، بررسی می ­کند (فروند و همکاران، 1980). این آزمون از ساده‌ترین آزمون‌های مورد استفاده در این زمینه است و توسط آقایان بروش و پاگان در سال ۱۹۷۹ معرفی شده است. فرضیات این آزمون عبارتند از:

 

H0: دلالت بر همسانی واریانس دارد.

H1: دلیلی بر همسانی واریانس وجود ندارد.

آزمون بروش-پاگان شامل چهار مرحله زیر است:

1) مدل رگرسیونی با فرض همسان بودن واریانس تخمین زده شده و جملات خطای به دست آمده نگه داشته می ­شود.

2) مجذور جملات خطا بر روی متغیرهای مستقل  X رگرسیون زده می­ شود. این معادله رگرسیونی به بررسی ارتباط معنادار بین جملات خطا و متغیرهای مستقل می پردازد. سپس ضریب تعیین بدست آمده از این رگرسیون نگه داشته می ­شود.

3) با استفاده از ضریب تعیین به دست آمده، آماره LM و آماره F مربوطه محاسبه می ­شود:

4) آماره LM دارای توزیع خی دو با درجه آزادی K و آماره F دارای توزیع F با درجه آزادی n – k – 1،k است.

با توجه به سطح اطمینان مورد نظر، مقادیر بحرانی متناظر با این آماره ­ها از جداول توزیع ‌های مربوطه به دست می ­آید. اگر مقادیر این آماره­ ها از مقادیر بحرانی بیشتر باشد، فرض صفر که دلالت بر همسانی واریانس دارد، رد می­ شود.

دوره-آموزش-حرفه-ای-gis

بررسی نیکویی مدل رگرسیون

برای بررسی نیکویی مدل رگرسیون، علاوه بر سایر روش ­های مربوط به بررسی نیکویی برازش از روش ­های زیر نیز استفاده می­ شود.

الف) معیار اطلاعاتی آکائیکه

معیار اطلاعاتی آکائیکه (AIC) معیاری برای سنجش نیکویی برازش رگرسیونی است. معیار اطلاعاتی آکائیکه، معیاری برای سنجش میزان کارآیی نسبی است و نشان می­ دهد که استفاده از یک مدل آماری به چه میزان باعث از دست رفتن اطلاعات می­ شود. به عبارت دیگر، این معیار تعادلی میان دقت مدل و پیچیدگی آن برقرار می­ کند. مقدار کم این معیار نشان می­ دهد که مقدار تخمین زده شده توسط مدل، به مقدار مشاهده ­ای (یا واقعیت زمینی) نزدیک­تر است (آش، 1972). معیار تصحیح شده آکائیکه از رابطه زیر به دست می­ آید:

که K تعداد پارامتر مدل و L مقدار حداکثر درست نمایی می­ باشد. لازم به ذکر است که روش استانداردی برای انتخاب حد آستانه AIC وجود ندارد.

ب) بررسی ضریب تعیین ( R²) و ضریب تعیین تعدیل یافته

با به توان دو رساندن ضریب همبستگی، مقدار ضریب تعیین (R²) بین دو متغیر بدست می­ آید. ضریب تعیین نشان می­ دهد که چند درصد تغییرات متغیر وابسته به وسیله متغیر مستقل تبیین می ­شود (نصیری و همکاران، 1385). این ضریب در رگرسیون کاربرد زیادی دارد. مقدار ضریب تعیین همواره مثبت و بین صفر و یک است. مقدار صفر یعنی استفاده از متغیر یا متغیرهای مستقل در برآورد متغیر وابسته هیچ نقشی ندارد و مقدار یک بیانگر تخمین 100 درصد واریانس متغیر وابسته توسط متغیر یا متغیرهای مستقل می­ باشد. اگر انحراف معیار متغیرهای X و Y به ترتیب به صورت SX  و Sy باشد و کواریانس آنها با علامت (cov(X,Y نشان داده شود. ضریب تعیین از رابطه زیر قابل محاسبه است:

درصد نشان داده شده توسط ضریب تعیین با فرض تأثیر همه متغیرهای مستقل بر متغیر وابسته می­ باشد. درصد حاصل از ضریب تعیین تعدیل شده فقط نشان دهنده تأثیر واقعی متغیرهای مستقل ( نه همه متغیرهای مستقل) بر متغیرهای وابسته مدل است. تفاوت دیگر این است که مناسب بودن متغیرها برای مدل توسط ضریب تعیین حتی با وجود مقدار بالا قابل تشخیص نیست در صورتی که می ­توان به مقدار برآورد شده ضریب تعیین تعدیل شده اعتماد کرد:

که N تعداد کل مشاهدات، P تعداد متغیرهای مستقل و R² ضریب تعیین می ­باشد. هرچه تفاوت R²و R² تعدیل شده کمتر باشد متغیر­های مستقل اضافه شده به مدل بهتر انتخاب شده ­اند (بازرگان لاری، 1385).

ج) مجموع مربعات خطا (باقیمانده)

در یک تحلیل رگرسیونی به دست آوردن پارامترهای موثر و برآورد آن­ ها اهمیت زیادی دارد. یکی از روش ­های به دست آوردن پارامترها این است که مجموع مربعات خطا (باقیمانده) کمینه شود.

مفهوم همخطی در رگرسیون

مدل رگرسیون در صورتي کارا خواهد بود که بین متغیر وابسته و متغیر مستقل ارتباط قوی وجود داشته باشد. در عين حال ممکن است در رگرسيون هاي چندگانه بین متغیرهاي مستقل نیز ارتباط وجود داشته باشد که اين ارتباط با عنوان “هم خطي ” معرفي مي شود. این وضعیتی است که نشان می دهد یک متغیر مستقل تابعی خطی از سایر متغیرهای مستقل دیگر در معادله خط رگرسیون است. اگر هم خطي در يک معادله رگرسيون بالا باشد، بدين معني است که بين متغيرهاي مستقل همبستگي بالايي وجود دارد و ممکن است با بالا رفتن ضريب همبستگي، مدل داراي اعتبار چندانی نباشد. به عبارت ديگر با وجود آن که مدل خوب به نظر مي رسد ولي داراي متغيرهاي مستقل معناداري نمي باشد (نتر و همکاران، 1985).
در صورت وجود هم خطی بین متغیرهای مستقل، می توان راهکارهای زیر را برای رفع این مشکل به کار گرفت:
-کاهش تعداد يا خلاصه کردن داده ها در چند عامل کلي با پياده کردن تحلیل عاملی بر روی متغیرهای مستقل؛
– تشکيل ماتریس همبستگی برای متغیرهای مستقل و شناسايي و حذف برخی متغیرها که با دیگر متغیرها همبستگی بالا دارند؛
– بازنگري داده های موجود و يا تجديدنظر در انتخاب نمونه؛
– ايجاد اختلال در هم خطی متغیرهای مستقل با به کارگیری متغیرهای مجازی؛
– استفاده از لگاریتم متغیرهای موجود در تحلیل رگرسیون و
– تغيير دادن ماهيت داده ها با استفاده از تابع اولین تفاضل.

رگرسیون حداقل مربعات معمولی(OLS)

در مدل­ سازی با روش OLS فرض بر این است که ضرایب یا پارامترهای مدل آماری نسبت به مکان (مختصات جغرافیایی) ثابت هستند. بنابراین مقدار متغیر وابسته که با این مدل تخمین زده می­ شود برای کل منطقه مورد مطالعه ثابت است. این یکی از نقطه ضعف ­های روش OLS در مدل سازی مکانی محسوب می­ شود. در مدل رگرسیون خطی ساده زیر:

که در آن y متغیر وابسته، x متغیر مستقل و ε جمله خطا (باقیمانده)، a و  b پارامترهای برآوردی هستند. در مدل رگرسیونی حداقل مربعات پارامترهای a و b برای تمام سطح مورد بررسی مقادیری ثابت فرض می ­شوند. مدل آماری OLS و ماتریس تخمین ضرایب مدل با رابطه زیر بیان می­ شود:

که Y ماتریس متغیر وابسته، X ماتریس متغیر مستقل، β ماتریس ضرایب (که در معادله رگرسیونی خطی ساده شامل دو پارامتر a و b می ­باشد) و  ماتریس خطا می­ باشد. برآورد ماتریس ضرایب نیز به صورت زیر است:

که در آن T ترانهاده ماتریس، معکوس ماتریس واریانس-کواریانس و X ماتریس متغیرهای مستقل می­ باشد (رضایی و همکاران، 1378). ضرایب مدل رگرسیونی چند متغیره OLS در سراسر مکان ثابت است.

جغرافیای محاسباتی


Warning: ltrim() expects parameter 1 to be string, object given in /home/gisland1/public_html/wp-includes/formatting.php on line 4494

Warning: ltrim() expects parameter 1 to be string, object given in /home/gisland1/public_html/wp-includes/formatting.php on line 4494

ESSOLSRSSTSSآزمون جارک براآزمون خی­‌دوآزمون دوربین واتسونارتباط بین متغیرهابارشبررسی ضریب تعیین ( R²) و ضریب تعیین تعدیل یافتهبررسی نرمال بودن خطاهابررسی نیکویی مدل رگرسیونپیش­ بینی بارشتای کندالتحلیل داده­ های عددیتحلیل رگرسیونتکنیک آماریتکنیک آماری در جغرافیاجغرافیاخطاهاخودهمبستگیدمارگرسیونرگرسیون حداقل مربعات معمولیرگرسیون حداقل مربعات معمولی OLSرگرسیون حداقل مربعات معمولی(OLS)رگرسیون موزون جغرافیاییسنجشسنجش همبستگیسنجش همبستگی آماریضريب همبستگي پیرسونضریب همبستگی رتبه ای اسپیرمنضریب همبستگی رتبه‌ای کندالفراوانی خطاها در گروه­ های طبقاتی توزیع نرمالفرضیات رگرسیونفرضیه ­ی ناهمسانی واریانسكوواريانسمتـغیرهای مسـتقلمجموع مربعات خطا (باقیمانده)مختصات جغرافیاییمدل رگرسیونی چند متغیرهمدل سازیمعیار اطلاعاتی آکائیکهمفهوم خطای رگرسیونمفهوم رگرسیون در مباحث غیر مکانیمفهوم همخطی در رگرسیوننرمال بودن توزیع داده­ هانمودار هیستوگرامنمودارهای پراکنشهمبستگیهمبستگی آماریهمبستگی اسپیرمنهمبستگی پیرسونهمبستگی و انواع آن در مباحث غیر مکانیهمبستگی و رگرسیونواريانسواريانس باقيمانده ­هاواريانس رگرسيونواريانس كلواريانس مشترك

112 نظرات

دیدگاهتان را بنویسید