تشخیص خوشه ها-موسسه چشم انداز هزاره سوم ملل-آموزش کاربردی GIS و RS
مقدمه
در فصل هشتم به معرفي تعدادي از آماره هاي عمومي فضايي پرداخته شد. این آماره ها نمي تواند در مورد افزایش يا کاهش معنادار مقادير اندازه گيري شده عوارض در اطراف پهنه هاي (جایگاه های) خاص توضيحي قابل قبولي ارائه دهد. لذا براي مشخص کردن تغييرات معنادار مقادير در اطراف يک پهنه مشخص از آماره هاي فضايي محلي استفاده مي شود (ژانگ ، 2003). از ويژگي هاي مهم آماره هاي محلي اين است که مجموع آماره های مزبور، در میان همه پهنه ها، برابر با مضربی از آماره عمومی است. لذا، آماره عمومی ممکن است به یک سری آماره های منطقه ای و محلی تقسیم شود (پیرسون، 1895). در این فصل، تعدادی از آماره محلی معرفي خواهد شد.
آماره موران محلي
آماره موران محلی (يا آماره آنسلين) در تعيين وجود يا عدم وجود خودهمبستگی فضایی محلی در اطراف یک پهنه مشخصبه کار مي رود. اين آماره به صورت زير تعريف مي شود:
در رابطه فوق (w(i,j وزن فضایی بین عارضه i و j می باشد، yi و yj به ترتيب مقادير مشاهده شده متغیر مورد نظر در پهنه هاي i و j مي باشند و y ̅ نيز میانگین مقادیر مشاهده شده است. مقدار آماره موران عمومی معادل با مجموع مقادیر آماره موران محلی ضرب در حاصل جمع ωij است:
آنسلين (1995)، مقدار پیش بینی شده و واریانس Ii برای فرضیه تصادفی بودن را به شکل زیر ارائه می دهد:
که در اینجا:
و
آماره I موران محلی با عنوان “شاخص خوشه و ناخوشه محلي” نيز معروف است. در صورتي که تعدادی عارضه وزن دهی شده موجود باشد، با استفاده از این شاخص مي توان نشان داد که در چه مکان هايي مقادیر زیاد و یا کم این پدیده ها در فضا به طور خوشه ای توزیع شده اند و همچنین کدام عوارض دارای مقادیری بسیار متفاوت از عوارض پیرامون شان هستند (آنسلین ،1988).
در فصل قبل مفهوم خوشه بندي در مقياس عمومي مورد بحث و بررسي قرار گرفت. خوشه بندي را مي توان در مقياس محلي نيز مطرح کرد. در اين حالت با استفاده از آماره I موران محلي (آنسلين محلي)، علاوه بر مشخص کردن وجود يا عدم وجود خوشه بندي، مي توان دو نوع خوشه بندي محلي مختلف را نيز از هم تفکيک کرد. در شکل زير نمودار معروف به “آنسلين” نشان داده شده است. محور افقي در اين نمودار نشان دهنده تغييرات آماره I موران محلي و محور عمودي مقدار عارضه مورد نظر مي باشد. مقادير مثبت I موران محلي، نشان دهنده وجود خوشه بندي محلي و مقادير منفي اين آماره، نشان دهنده عدم وجود خوشه (وجود ناخوشه ) در داده ها مي باشد. مطابق با اين نمودار ناحیه ای که در آن xوy هر دو مثبت هستند نشان دهنده خوشه بندي بالا-بالا (HH) مي باشد. در اين حالت اگر دو پیکسل (يا دو عارضه مجاور) انتخاب شوند، هر دو آن ها دارای مقدار بالا هستند و همچنين از اطراف نیز توسط عوارضي محاصره شده اند که دارای مقدار بالای آن خصیصه مي باشند. از طرف ديگر ناحیه ای که در آن x و y هر دو منفي هستند نشان دهنده خوشه بندي پايين-پايين (LL) مي باشد.
ناحیه ای که درآن x با مقادیر منفی و y با مقادیر مثبت نشان داده شده است (ناحيهLH )، یک ناخوشه وجود دارد و یک مقدار با ارزش کم توسط مقادیر با ارزش بالا محاصره شده اند. در نهايت ناحیه ای که درآن x با مقادیر مثبت و yنيز با مقادیر منفی نشان داده شده (ناحيهHL ) نيز یک ناخوشه وجود دارد. در اين حالت یک مقدار با ارزش زیاد توسط مقادیر با ارزش کم محاصره شده است (آنسلین، 1995).
آريفين و همکاران (2016) در مطالعه اي با عنوان “شناسايي خوشه بندي فضايي قرارگيري در معرض آلودگي هوا در ايالات متحده”، پس از تقسيم بندي ايالات متحده به 9 پهنه مختلف، با استفاده از آماره I موران محلي به بررسي وضعيت خوشه بندي فضايي (محلي) افراد در معرض آلودگي هوا در پهنه هاي مختلف پرداختند. اين پژوهش گران نتايج را براي دو دسته از افراد زير 60 سال و بالاي 60 سال به شکل نقشه هاي ارائه شده در شکل 10-2 ارائه کردند. بر اين اساس انواع خوشه هاي HH و LL و ناخوشه هاي HL و LH را مي توان در اين نقشه ها ملاحظه نمود.
براي درک بهتر مفهوم ناخوشه محلي در شکل 10-3، نقشه پهنه بندي بارش هاي بالاي صفر ميلي متر کشور در دوره زماني مهر تا اسفند 1394 نشان داده شده است. در پهنه مشخص شده در اين نقشه يک ناخوشه بارش وجود دارد زیرا در مرکز اين پهنه مقدار بارش 0/3 تا 31/7 میلی متر قرار دارد و مناطق همسايه این مرکز مقدار بارش بین 100/3 تا 305 میلی متر را نشان مي دهند.
پرسش 1)
براي منطقه مورد مطالعه زير که داراي شش پهنه مي باشد، اگر خودهمبستگی فضایی محلی در اطراف پهنه شماره 6 مد نظر باشد، با دانستن موارد زير
– ماتریس وزنی برای 6 پهنه به صورت:
الف) آماره موران محلي را براي پهنه شماره 6 محاسبه کرده و مشخص کنيد که آيا خودهمبستگي فضايي محلي در اطراف اين پهنه وجود دارد يا خير.
جواب:
براي پهنه 6:
و
لذا، آماره موران محلی برای پهنه 6 به صورت زیر محاسبه می شود:
با استفاده از معادلات 3-9 و 4-9 مقدار پیش بینی شده و واریانس به ترتیبوهستند. Z-score مربوط به مقدارمشاهده شده عبارت است از:
که نشان دهنده خودهمبستگی فضایی مثبت محلی معنادار در اطراف پهنه 6 است.
در شاخص آنسلین موران محلی خصیصه مورد مطالعه حتمًا باید دارای مقادیر مثبت باشد. و همچنین خصیصه مورد مطالعه از پراکندگی قابل قبولی برخوردار باشد. به عبارت دیگر برای همه پدیده های مورد مطالعه مقادیر یکسان نداشته باشد.
آماره Score
اگر هدف بررسي چگونگي عدم افزايش يک متغير (شیوع بیماری، جنایت، خشکسالی) در اطراف یک پهنه مشخص باشد، از آماره Score استفاده مي شود (اسکارویش ، 1995). اين آماره برای آزمون فرضیه صفرِ “عدم افزایش مقدار متغير مورد بررسی در اطراف یک پهنه از پیش تعیین شده i ” عبارت است از:
که در اینجا rj و pj به ترتیب نسبت های مشاهده شده و پیش بینی شده همه مواردی هستند که در منطقهقرار می گیرند؛ ωj وزنی است که معرف قرارگیری ساکنان منطقه j در معرض محل از پیش تعیین شده می باشد؛ و n تعداد کل مواردی است که در محل مطالعه یافت می شوند. مقدار پیش بینی آماره:
و واریانس عبارت است از:
این را می توان برای تشکیل یک آماره z مورد استفاده قرار داد:
با استفاده از مقدار بحرانی و یا سطح معنی داری آزمون (p-value ) می توان راجع به رد و یا عدم رد فرضیه صفر تصمیم گرفت (ککس و همکاران، 1974).
پرسش2)
با فرض يک منطقه مورد مطالعه متشکل از 7 پهنه مجاور هم و در اختيار داشتن جدول زير، و همچنين با در نظر گرفتن اين که از 100 نقطه از منطقه مورد مطالعه نمونه برداري شده است، فرضیه صفر: عدم افزایش مقادير اندازه گيري شده در مجاورت پهنه 1 را مورد آزمون قرار دهيد.
جواب:
1) محاسبه آماره امتياز:
2) محاسبه میانگین و واریانسU:
3) محاسبه مقدار Z:
مقدار به دست آمده در سطح اطمینان 0/05 معنادار است.
آماره CF تانگو
اين آماره برای آزمون کردن دسته های اطراف مراکز از پیش تعیین شده مورد استفاده قرار مي گيرد. آماره مزبور توسط تانگو (1995) به صورت زير پيشنهاد شده است:
که در اینجا c یک برداراست. اگر i یکی از مراکز از پیش تعیین شده باشداست و در غیر این صورت معادل با صفر است؛ p و r نيز بردارهایبا مولفه هایی شامل نسبت های مشاهده شده و از پیش تعیین شده مقادير اندازه گيری شده عوارض در هر منطقه هستند؛ W نيز ماتریسی شامل مولفه های ωij است که نزدیکی (یا مجاورت) میان مناطق i و j را اندازه گیری می کند.
واریانس CF عبارت است از:
بر اساس فرضیه صفر عدم وجود الگو، کمیتدارای یک توزیع کای اسکوئر با یک درجه آزادی است. آماره CF تانگو دارای این مزیت است که امکان تعیین همزمان چند مرکز را می دهد و بعلاوه وقتی تعداد مراکز از پیش تعیین شده کم باشد، در رد فرضیه های صفر غلط کاملاً قدرت مند است (تانگو،1995).
پرسش3)
با فرض يک منطقه مورد مطالعه متشکل از 6 پهنه مجاور هم و در اختيار داشتن جدول زير، اگر در پهنه شماره 6:
– نسبت تعداد موارد پیش بینی شده به صورت:
– نسبت موارد مشاهده شده به صورت:
و ماتریس وزنی W به صورت زير باشد:
مشخص کنيد که آيا وقتی توزیع نابرابر تعداد موارد پیش بینی شده (که اغلب یک توزیع نابرابر جمعیت را نشان می دهد) مورد توجه قرار گیرد، تمرکز تعداد موارد مشاهده شده در پهنه 6 و مجاورت آن، معنادار مي باشد يا خير.
جواب:
1) محاسبه مقدار CF:
2) محاسبه مقدار Vp:
3) محاسبه واريانس CF:
4) سرانجام:
مقدار p-value با یک درجه آزادی، برابر با 0/985 است. این نتیجه نشان می دهد که وقتی توزیع نابرابر تعداد موارد پیش بینی شده (که اغلب یک توزیع نابرابر جمعیت را نشان می دهد) مورد توجه قرار گیرد، تمرکز تعداد موارد مشاهده شده در پهنه شماره 6 و مجاورت آن، اصلاً معنادار نمی باشد.
آماره GI گتيس
اين آماره توسط اُرد و گتيس (1995) به صورت زير تعريف مي شود:
و براي همه jها:
که در اينجا:
مولفه (ωij(d یک وزن فضایی است که نشان دهنده مجاورت (نزدیکی) میان پهنه هاي i و j است. به طور کلی اگر پهنه j در فاصله h از پهنه i باشد، (ωij(d برابر با 1 و در غیر اینصورت برابر با صفر مي باشد. همچنین x ̅ و s به ترتیب میانیگن و انحراف معیار مجموعهمشاهده شده هستند واز رابطه زير به دست مي آيد:
تنها تفاوت میان دو نوع آماره Gi و Gi* اینست که آیا منطقه هدف i در محاسبه آماره گنجانده می شود یا گنجانده نمی شود (اسکات و همکاران، 2005). هر چند اورد و گتيس هیچ گونه توضیح خاصی در مورد این مسئله نمی دهند که در کدام موقعیت ها، یکی مناسب تر از دیگری است، به نظر می رسد که Gi* در قیاس با Gi یک معیار طبیعی تر گرایش خوشه بندی محلی باشد.
نمره استاندارد آماره Gi در صورتی که مثبت باشد، یعنی مقادیر بالا به میزان زیادی خوشه بندی شده و نقاط داغ تشکیل می دهند. در صورتی که نمره استاندارد منفی باشد، به معنای خوشه بندی شدیدتر مقادیر پایین خواهد بود (ارد و گتیس ، 1995).
پرسش4)
با در نظر گرفتن منطقه 6 پهنه اي مورد بحث در پرسش 3، با فرض اين که پهنه هاي 4 و 5 در فاصله d از منطقه 6 باشند، مقدار آماره Gi* را به دست آوريد.
جواب:
برای پهنه 6،واست و میانگین و انحراف معیار 6 مقدار پهنه هاي مشاهده شده به ترتیب عبارتند ازو. پس آماره Gi* محلی از معادله زیر به دست می آید:
در این مثال مقادیر اندازه گيري شده در پهنه ها، توزیع نرمال ندارند و فرآيند شبیه سازی باید معناداری آماره محلی مشاهده شده را ارزیابی کند. از مهمترين کاربردهاي آماره، تشخیص نقاط داغ و نقاط سرد می باشد.اگر مقادیر بالا در فضا به گونه ای قرار بگیرند که نزدیک به یکدیگر باشند باعث به وجود آمدن خوشه بندی مثبت (زياد) یا نقاط داغ می شوند و در صورتی که خوشه بندی فضايي به این دلیل باشد که در پدیده مورد بررسی مقادیر پایین نزدیک به یکدیگر قرار گرفته اند به آن خوشه بندی منفي (کم) یا نقاط سرد می گویند. به عنوان مثال اگر نقاط نمونه برداري شده در پهنه شمالي يک درياچه، آلودگي بالاتري نسبت به ساير نقاط از نظر فلزات سنگين نشان دهند، قسمت شمالي درياچه نقاط داغ (خوشه مثبت) نسبت به فلزات سنگين محسوب شده و احتمالا در نزديکي آن يک لوله تخليه فاضلاب قرار گرفته است. از طرف ديگر اگر نقاط جنوبي درياچه کاهش چشم گيري در مقادير فلزات سنگين نشان دهند، پهنه جنوبي درياچه نقاط سرد نسبت به فلزات سنگين محسـوب شده و احتمالاً بستر يا سواحل رسي درياچه در اين قسمت باعث خودپالايي و جذب فلزات سنگين شده است.
برای تحلیل نقاط داغ استفاده از روش مفهوم سازی فاصله ثابت مناسب تر است بنابراین گزینه عمومی و پیشنهادی برای انجام تحلیل نقاط داغ فاصله ثابت است. روش های منطقه بی تفاوتی، مجاورت فضایی، تابع نزدیکترین همسایگی k، و مثلث های نامنظم برای این تحلیل نتایج خوبی به دست می دهند. در شاخص جی استار خصیصه مورد مطالعه حتماً باید دارای مقادیر مثبت باشد. و همچنین خصیصه مورد مطالعه از پراکندگی قابل قبولی برخوردار باشد. به عبارت دیگر برای همه پدیده های مورد مطالعه مقادیر یکسان نداشته باشد.
آماره استون
اين آماره که توسط استون ابداع شده براساس احتمال حداکثر نسبت تعداد موارد مشاهده شده تجمعی به تعداد موارد پیش بینی شده تجمعی مورد محاسبه قرار مي گيرد (کلت ، 1994). در آزمون استون ابتدا پهنه هاي موجود در منطقه مورد مطالعه برحسب فاصله از مبدأ فرضی (مثلاً پهنه 1) مرتب می شوند و جدولی از تعداد موارد مشاهده شده و پیش بینی شده تجمعی، (مانند جدول 10-1) تشکیل می شود. سپس مقادير احتمال حداکثر نسبت تعداد موارد مشاهده شده تجمعی به تعداد موارد پیش بینی شده تجمعی محاسبه شده و بعد عدد حاصله با توزیع آن نسبت مقایسه می شود.
همان طور که در رديف اول جدول فوق مشاهده مي شود حداکثر نسبت مقادیر پیش بینی شده به مقادیر مشاهده شده در پهنه 1 یک برابر با 1/33 است. برای ارزیابی احتمال این حداکثر نسبت، براساس فرضیه صفرِ عدم افزایش مقدار عارضه مورد بررسی در مجاورت پهنه 1، مي توان يک شبيه سازي انجام داد. مطابق با اين شبيه سازي مي توان 100 مورد (تعداد نقاط اندازه گيري يا نمونه برداري برابر با 100 است) را براساس نسبت های پیش بینی شده در میان پهنه هاي موجود در منطقه مورد مطالعه (در اين جا 7 پهنه) توزیع کرد. در مثال فوق تقریباً 95% مواقع (از میان 10000 تکرار)، حداکثر نسبت معادل با 1/40 یا کمتر به دست مي آيد. این موضوع نشان می دهد که دلیلی بر رد فرضیه صفر در سطح 0/05 وجود ندارد.
آماره چارک محلی و مقدمه ای بر آزمون چندگانه (چند آزمون) از طریق ام-تست
با این فرض که شمارش های سلول از یک توزیع پواسون تبعیت می کند، مي توان براي سلول خاص i، یک آماره محلی ايجاد کرد. در اين حالت احتمال اين که از شمارش مشاهده شده در یک سلول Oi بیشتر شود یا شمارش ها مساوی باشند، عبارت است از:
که در اینجا Ei تعداد موارد پیش بینی شده در سلول i است. اگر پیش بینی به اندازه کافی بزرگ باشد (بیشتر از حدود 5)، یک آزمون تقریب عبارت است از:
و می توان فرض کرد که zi دارای یک توزیع تقریباً نرمال استاندارد است. این نمونه ای از یک آزمون محلی است که در آن، وزن های مربوط به ساير پهنه هاي موجود در منطقه مورد مطالعه مساوی با صفر هستند. در مواردي که هدف بررسي همزمان معناداری تعداد زیادی از تغييرات محلی مي باشد، از آزمون چندگانه آماره های محلی استفاده مي شود (اگرستی،2002).
20 نظرات