اکثر پایگاه های داده GIS حاوی خطاهای داده ای هستند. کیفیت منابع داده مانند نقشه های کاغذی سنتی یا داده های سنجش از دور جدیدتر کیفیت داده های مکانی را تعیین می کند. در چند دهه گذشته، معیارهای آماری مختلفی برای ارزیابی کیفیت دادهها برای انواع مختلف دادهها، مانند دادههای طبقهبندی اسمی، دادههای طبقهبندی ترتیبی و دادههای عددی ایجاد شدهاند. اگرچه این روش ها در ابتدا برای تحقیقات پزشکی یا تحقیقات روانشناختی پیشنهاد شده بودند، اما به طور گسترده برای ارزیابی کیفیت داده های مکانی استفاده شده اند. در این مقاله، ابتدا روشهای آماری برای ارزیابی کیفیت دادهها را بررسی میکنیم، در مورد اینکه در چه شرایطی باید از آنها استفاده کنیم و چگونه نتایج را تفسیر کنیم، بحث میکنیم و سپس به بحث مختصری در مورد نرمافزار و بستههای آماری که میتوان برای محاسبه این معیارهای کیفیت دادهها استفاده کرد، پرداخته میشود.
کلید واژه ها
کیفیت داده های GIS , حساسیت , ویژگی , کاپا , کاپا وزنی , تحلیل بلند آلتمن , ضریب همبستگی درون کلاسی
1. مقدمه
کیفیت داده های مکانی توسط کیفیت منابع داده مانند نقشه های کاغذی سنتی یا داده های سنجش از دور جدیدتر محدود می شود [ 1 ]. عملیات فضایی و تحلیل های فضایی مانند طرح ریزی، پوشش، بافر، تحلیل شبکه و رگرسیون فضایی به شدت به کیفیت داده های مکانی بستگی دارد. بدون دانش قبلی از کیفیت داده ها، انجام عملیات پایین دستی دشوار است و بنابراین تصمیم گیری آگاهانه را دشوار می کند. بنابراین، کیفیت دادهها جنبه مهمی برای پایگاههای اطلاعاتی سیستمهای اطلاعات جغرافیایی (GIS) است و توجه قابل توجهی را از جوامع دانشگاهی، سازمانهای دولتی و همچنین صنعت به خود جلب کرده است [ 2 ].
چهار سطح از مقیاس های اندازه گیری وجود دارد که برای ضبط داده های مکانی استفاده می شود: اسمی، ترتیبی، فاصله و نسبت. دادههای معمولی و ترتیبی به دادههای طبقهبندی تعلق دارند، در حالی که دادههای فاصله و نسبت به دادههای عددی تعلق دارند. در چند دهه گذشته، معیارهای آماری مختلفی برای ارزیابی کیفیت داده ها برای انواع مختلف داده ها توسعه یافته است. اگرچه این روشها در ابتدا برای تحقیقات پزشکی یا تحقیقات روانشناختی [ 3 ] – [ 8 ] توسعه داده شدند، اما به طور گسترده برای ارزیابی کیفیت دادههای مکانی استفاده شدهاند [ 9 ] [ 10 ] [ 11 ] [ 12 ]]. در این مقاله ابتدا به بررسی این روشهای مختلف آماری برای ارزیابی کیفیت دادهها برای انواع مختلف دادههای مکانی میپردازیم، در مورد اینکه در چه شرایطی باید از آنها استفاده کنیم و چگونه نتایج را تفسیر کنیم، بحث میکنیم و سپس به بحث مختصری در مورد نرمافزارها و بستههای آماری میپردازیم. برای محاسبه این معیارهای کیفیت داده استفاده می شود.
2. روش های مورد استفاده برای اندازه گیری کیفیت داده ها
2.1. داده های طبقه بندی اسمی
داده های طبقه بندی اسمی برای برچسب گذاری متغیرها بدون ارائه هیچ مقدار کمی استفاده می شود که ساده ترین شکل مقیاس اندازه گیری است. برخلاف داده های ترتیبی، داده های اسمی را نمی توان مرتب کرد. به عنوان مثال، پوشش زمین/کاربری زمین را می توان به «آب آزاد»، «مسکونی»، «تجاری»، «تالاب»، «جنگل مختلط»، «کشاورزی» طبقه بندی کرد و هیچ ترتیب ذاتی در میان این دسته ها وجود ندارد. بدون از دست دادن کلیت، ابتدا یک مسئله طبقه بندی ساده را در نظر می گیریم که در آن تنها دو دسته وجود دارد. به عنوان مثال، ما یک نقشه از یک ماده معدنی خاص داریم و می خواهیم صحت نقشه معدنی را ارزیابی کنیم. داده ها را می توان در یک ماتریس سردرگمی یا خطا 2 در 2 خلاصه کرد که حقیقت و طبقه بندی را بر روی نقشه جدول بندی می کند ( جدول 1). انواع معیارهای دقت را می توان از یک ماتریس سردرگمی 2 در 2 [ 3 ] استخراج کرد. جدول 2 فهرستی از این موارد را نشان می دهد
اقدامات دقت
برای طبقهبندی چند کلاسه، میتوانیم از رویکرد یک در برابر همه برای TP، TN، FP، FN استفاده کنیم. فرض کنید نقشه ای از طبقه بندی احتمال زمین لغزش داریم که در جدول 3 نشان داده شده است. سه طبقه وجود دارد: کم، متوسط و زیاد. TP of low همه نمونه های پایینی هستند که در نقشه طبقه بندی شده و کم هستند. TN کم همه نمونه های غیر کم (یعنی متوسط و زیاد) هستند که به عنوان کم طبقه بندی نمی شوند. FP low همه نمونههای غیر پایین است که به عنوان low طبقهبندی میشوند و FN low همه نمونههای low هستند که به عنوان low طبقهبندی نمیشوند. به طور مشابه، می توانیم TP، FN، TN، FP را به ترتیب برای دسته های متوسط و بالا محاسبه کنیم. حساسیت و ویژگی را نیز می توان بر اساس TF، FN، TN و FP محاسبه کرد. نرخ طبقهبندی صحیح، نرخ طبقهبندی اشتباه را نیز میتوان برای ماتریس سردرگمی با دو یا چند دسته محاسبه کرد.
نرخ طبقهبندی صحیح تعداد نمونههای طبقهبندیشده صحیح روی نقشه تقسیم بر تعداد کل نمونهها است، یعنی مجموع تعداد در مورب تقسیم بر N، که در آن N تعداد کل نمونهها است. نرخ طبقهبندی اشتباه تعداد نمونههای طبقهبندیشده نادرست روی نقشه تقسیم بر تعداد کل نمونهها است، یعنی مجموع تعداد خارج از مورب تقسیم بر کل نمونه N.
شاخص کاپا می تواند برای ارزیابی صحت صفت زمانی که حقیقت شناخته شده است استفاده شود [ 4 ]. به طور شهودی، شاخص کاپا نشان دهنده حقیقت و توافق نقشه با در نظر گرفتن توافق مورد انتظار تصادفی است. فرض می کنیم یک ماتریس سردرگمی k-by-k M داشته باشیم و یک ماتریس نسبت P ایجاد کنیم که M/n است. اجازه دهید پمن ، جpi,jنسبت مشاهدات در ردیف i، ستون j باشد، پمن +pi+نسبت داده های نگاشت شده در ردیف (کلاس) i و پ+ jp+jنسبت داده های نگاشت شده در ستون j باشد. بیشتر تعریف می کنیم پo=∑کi = 1پمن منpo=∑i=1kpii، و پج=∑کi = 1پمن +پ+ jpc=∑i=1kpi+p+j. سپس شاخص کاپا را می توان به صورت محاسبه کرد کˆ= (پo–پج) / ( 1 −پج) .K^=(po−pc)/(1−pc).شاخص کاپا می تواند مقادیری از -1 تا 1 بگیرد. تفسیر تا حدی دلخواه است ( جدول 4 ). مقادیر منفی نشان می دهد که توافق مشاهده شده بدتر از آن چیزی است که تنها با تغییر انتظار می رود.
هنگامی که داده های حقیقت در دسترس نیست، شاخص کاپا می تواند برای ارزیابی توافق نسبی بین دو منبع داده، یا توافق نسبی زوجی بین بیش از دو منبع داده استفاده شود. اگر شاخص کاپا بین دو منبع داده کوچک باشد، می توانیم استنباط کنیم که کیفیت داده حداقل یک منبع داده خوب نیست. اگر 3 منبع داده داشته باشیم، دو تای آنها دارای “کاپا خوب” هستند، اما هر دوی آنها دارای “کاپا بد” با منبع داده سوم هستند، می توانیم استنباط کنیم که دو منبع داده اول کیفیت داده مشابهی دارند – یا هر دوی آنها دارای کیفیت داده هستند. خوب یا هر دو بد در این مورد، اطلاعات دیگری برای تعیین کیفیت باید جمع آوری شود
2.2. داده های دسته بندی ترتیبی
دادههای ترتیبی یک نوع داده طبقهبندی است که عددی ندارد (یعنی کمی نیست)، اما دادهها دارای دستههای طبیعی و مرتب هستند. به عنوان مثال، دمای متوسط را می توان به عنوان “بسیار سرد”، “سرد”، “سرد”، “ولرم”، “گرم”، “گرم”، “بسیار گرم” بر روی نقشه طبقه بندی کرد، یا وقوع رانش زمین در یک منطقه خاص می تواند روی نقشه با رنگ های مختلف نشان داده شود تا احتمال زمین لغزش “کم”، “متوسط” و “زیاد” را نشان دهد. به عبارت دیگر، اگرچه داده های ترتیبی یک کمیت را نشان نمی دهند، اما دارای نظم ذاتی هستند.
شاخص کاپا که قبلاً مورد بحث قرار گرفتیم برای دادههای طبقهبندی ترتیبی مناسب نیست، زیرا فرض میکند که تمام خطاهای موجود در ماتریس سردرگمی از اهمیت یکسانی در نظر گرفته میشوند. با این حال، برای داده های ترتیبی، اشتباهات طبقه بندی در اهمیت آنها متفاوت است. به عبارت دیگر، «هزینههای» طبقهبندی اشتباه در میان دادههای طبقهبندی ترتیبی متفاوت است. برای مثال، ممکن است طبقهبندی یک منطقه با احتمال زیاد زمین لغزش به احتمال کم زمین لغزش، بسیار بدتر از طبقهبندی آن به عنوان احتمال متوسط زمینلغزش باشد. در این سناریو، کاپا وزنی شاخص صحیحی است که برای ارزیابی هدف کیفیت داده ها استفاده می شود [ 5 ]. در زیر روش محاسبه شاخص کاپا وزنی با ماتریس سردرگمی در جدول 3 توضیح داده شده است.
برای محاسبه وزن کاپا، باید ماتریس Weights دیگری ایجاد کنیم که حاوی وزنهای هر سلول است. سلول مورب در ماتریس Weights 1 است که اعتبار کامل هر کلاس را به درستی نشان می دهد. مقدار سلولهای خارج از مورب باید توسط تحلیلگر با ارزش وزنی بین 0 و 1 تخصیص داده شود. مقدار 0 به این معنی است که اعتبار جزئی برای طبقهبندی نادرست برای یک کلاس به کلاس دیگر وجود ندارد، مقدار 1 به این معنی است که ما میدهیم. اعتبار کامل برای طبقه بندی اشتباه (یعنی، ما این طبقه بندی اشتباه را به عنوان طبقه بندی صحیح در نظر می گیریم). هر مقدار کمتر از 1 اما بیشتر از 0 به این معنی است که اعتبار جزئی برای طبقه بندی اشتباه وجود دارد.
جدول 5 یک ماتریس فرضی 3 در 3 وزن را برای طبقه بندی احتمال زمین لغزش ارائه می دهد. در این مثال، ما اعتبار کامل را برای طبقهبندی صحیح میدهیم، همانطور که نشان داده شده است که همه عناصر مورب 1 هستند. برای طبقهبندی «کم» به عنوان «متوسط» اعتبار جزئی (0.5) و برای طبقهبندی «کم» اعتبار جزئی (0.2) میدهیم. به عنوان “بالا”.
ما همچنین اعتبار جزئی را برای طبقهبندی «متوسط» به «بالا» قائل هستیم. با این حال، ما اعتبار جزئی برای طبقهبندی «متوسط» به «کم» یا طبقهبندی اشتباه «بالا» قائل نیستیم. به طور کلی کاپا وزنی را می توان به صورت زیر محاسبه کرد.
فرض می کنیم یک ماتریس سردرگمی k-by-k M داشته باشیم و یک ماتریس نسبت P ایجاد کنیم که M/n است. اجازه دهید پمن ، جpi,jنسبت مشاهدات در ردیف i، ستون j باشد، پمن +pi+نسبت داده های نگاشت شده در ردیف (کلاس) i و پ+ jp+jنسبت داده های نگاشت شده در ستون j باشد. اجازه دهید wمن جwijوزن تخصیص یافته به عنصر i,j ام در ماتریس W را نشان می دهیم پ∗0=∑کi = 1∑کj = 1wمن جپمن جپ0*=∑من=1ک∑j=1کwمنjپمنj، و پ∗ج=∑کi = 1∑کj = 1wمن جپمن +پ+ jpc*=∑i=1k∑j=1kwijpi+p+j. سپس وزن کاپا را می توان به صورت تعریف کرد
کˆw= (پ∗0–پ∗ج) / ( 1 −پ∗ج)K^w=(p0*−pc*)/(1−pc*).
2.3. داده های عددی
داده های عددی یا داده های کمی یک اندازه گیری عددی است که می تواند به صورت اعداد نمایش داده شود. داده های عددی می توانند گسسته یا پیوسته باشند. دادههای گسسته زمانهایی را نشان میدهند که میتوان آنها را شمارش کرد و دارای تعداد محدودی از مقادیر ممکن است و مقادیر را نمیتوان به طور معناداری تقسیم کرد. به عنوان مثال، تعداد افراد در یک تراکت سرشماری داده های عددی گسسته است و تعداد خانه ها در یک منطقه خاص نیز داده های عددی گسسته است. از سوی دیگر، دادههای پیوسته نشاندهنده اندازهگیری است که بسته به دقت سیستم اندازهگیری، میتواند به طور معناداری به افزایشهای ظریفتر و ریزتر تقسیم شود. به عنوان مثال، بارش سالانه و دما هر دو داده های پیوسته هستند. تحلیل بلند آلتمن [ 6 ] و ضریب همبستگی درون طبقاتی (ICC) [ 7 ] [8 ] دو روش پرکاربرد برای ارزیابی توافق بین اندازه گیری های داده های عددی هستند.
نمودار بلند-آلتمن نمودار پراکنده ای از تفاوت بین دو اندازه گیری (محور Y) در برابر میانگین دو اندازه گیری (محور X) با محدودیت 95٪ توافق است. حدود توافق با میانگین تفاوت مشاهده شده 1.96 ± X انحراف استاندارد تفاوت مشاهده شده محاسبه می شود. موقعیتی را در نظر بگیرید که در آن ما یک الگوریتم جدید برای پردازش تصاویر ایجاد کردیم که از نظر محاسباتی کارآمدتر از روش استاندارد است. ما می خواهیم توافق بین مقادیر شدت از این الگوریتم پردازش تصویر جدید (مقدار مشاهده شده) و حقیقت زمین را از روش استاندارد ارزیابی کنیم. مقادیر واقعی با حجم نمونه n = 30 از توزیع یکنواخت (0، 255) و مقادیر مشاهده شده با مقادیر واقعی به علاوه مقادیری که از توزیع نرمال با حجم نمونه n = 30، میانگین 0 و انحراف استاندارد 3 شبیه سازی شده است، به دست آمد. .جدول 6 .
شکل 1 نمودار Bland-Altman را با استفاده از داده های جدول 6 نشان می دهد. محور X میانگین مقادیر واقعی و مشاهده شده است. محور Y تفاوت بین مقادیر واقعی و مشاهده شده است. میانگین تفاوت مشاهده شده 0.2- است که به صورت خط تیره درست زیر خط ثابت با اختلاف 0 نشان داده شده است. انحراف استاندارد تفاوت مشاهده شده 3.36 است. حدود توافقات (-6.79، 6.39) است که با دو خط خط تیره دیگر دور از خط ثابت نشان داده می شود. توجه داشته باشید که یک نقطه داده خارج از محدوده 95٪ توافق وجود دارد. این نمودار نشان میدهد که دادههای شدت الگوریتم جدید میتواند از مقادیر واقعی 6.79- تا 6.39 برای 95٪ از نقاط داده متفاوت باشد. برای 5 درصد از
شکل 1 . نمودار بلند-آلتمن برای مقایسه داده ها از الگوریتم جدید با حقیقت زمین با استفاده از داده های شبیه سازی جدول 6.
نقاط داده، تغییرات ممکن است خارج از این محدودیت ها باشد. به نظر می رسد که الگوریتم جدید نمی تواند جایگزین روش استاندارد شود. توجه داشته باشید که هیچ معیار یکسانی در مورد مقادیر قابل قبول حدود توافق وجود ندارد. این بستگی به متغیرهایی دارد که اندازه گیری می شوند و محققان باید از دانش حوزه خود برای تصمیم گیری استفاده کنند.
ضریب همبستگی درون طبقاتی (ICC) یک شاخص پرکاربرد برای ارزیابی توافق بین دو معیار عددی است. ICC تخمینی از تطابق کلی بین داده های دو یا چند منبع ارائه می دهد. این تا حدودی شبیه به “تحلیل واریانس” است. بسته به انتخاب مدل (مدل اثر تصادفی در مقابل مدل اثر ترکیبی) و نوع انتخاب (اندازهگیری منفرد یا چند اندازهگیری)، و تعریف انتخاب (توافق یا سازگاری مطلق)، 10 شکل از ICC وجود دارد. بررسی جامع انتخاب و گزارش ICC را می توان در Koo و Li [ 13 ] یافت.
نکته مهم این است که باید بدانیم که هیچ مقادیر استانداردی برای قابلیت اطمینان قابل قبول بر اساس ICC وجود ندارد. یک ICC پایین ممکن است به دلیل عدم تنوع در میان دادههای نمونهبرداری شده، به جای درجه توافق پایین بین دو روش یا دو ارزیاب. بنابراین، پیشنهاد می شود حداقل 30 نمونه هنگام استفاده از ICC برای ارزیابی توافق وجود داشته باشد. تفسیر مقادیر ICC تا حدودی دلخواه است ( جدول 7 ).
با استفاده از داده های شبیه سازی شده در جدول 6 ، ICC بر اساس مدل اثر مختلط با توافق مطلق و اندازه گیری منفرد، ICC 0.999 است. طبق جدول 6 ، این ICC می تواند به عنوان توافق عالی تفسیر شود. این تا حدودی با آنچه ما با استفاده از تجزیه و تحلیل بلند-آلتمن یافتیم در تضاد است. بلند آلتمن اطلاعات بیشتری را برای تصمیمگیری فراهم میکند، زیرا خلاصهای جامعتر از دادهها (میانگین تفاوت بین دو روش، انحراف استاندارد تفاوت، 95٪ محدودیت توافقها، و غیره) به غیر از یک عدد به ما میدهد. برای نشان دادن توافق اندازه گیری شده با هماهنگی با استفاده از ICC. علاوه بر این، باید درک کنیم که این ICC فقط یک مقدار مورد انتظار ICC واقعی بر اساس 30 جفت داده در جدول 6 است.. ممکن است انجام یک آزمون فرضیه برای بررسی اینکه آیا مقدار ICC مشاهده شده به طور قابل توجهی از برخی آستانه های از پیش تعیین شده فراتر می رود، جالب تر باشد.
هنگامی که ما داده های صحت زمینی نداریم، همچنان می توانیم از ICC برای ارزیابی توافق بین دو منبع داده استفاده کنیم. ICC بالا به معنای توافق بالا بین دو منبع داده است، آنها می توانند به همان اندازه کیفیت داده خوب یا به همان اندازه کیفیت داده بد داشته باشند. ICC پایین به معنای توافق کم بین دو منبع داده است، حداقل یکی از منابع داده کیفیت داده بدی دارد. به طور مشابه، تجزیه و تحلیل بلند آلتمن نیز می تواند برای ارزیابی توافق دو منبع/مدل داده استفاده شود.
3. نرم افزار آماری
برخی از معیارهای آماری برای ارزیابی کیفیت داده ها نسبتا ساده هستند و محاسبه با استفاده از روش سنتی “قلم و کاغذ” امکان پذیر است. با این حال، با افزایش حجم نمونه، نرم افزار آماری برای انجام چنین تحلیلی مورد نیاز است. علاوه بر این، برای روشهای پیچیدهتر مانند شاخص وزنی کاپا، نمودار بلند آلتمن و ICC، معمولاً برای انجام محاسبات به نرمافزار آماری نیاز داریم. نرم افزارهای آماری مانند نرم افزار SAS [ 14 ]، SPSS [ 15 ]، Stata [ 16 ] و R [ 17 ]] می تواند آن معیارهای آماری را محاسبه کند. با این حال، فقط R یک نرم افزار منبع باز است که به این معنی است که برای هر کسی در هر کشوری در جهان استفاده از آن رایگان است. R بر روی طیف گسترده ای از پلتفرم های یونیکس، ویندوز و MacOS کامپایل و اجرا می شود. بسته “EvaluationMeasures” [ 18 ] می تواند حساسیت، ویژگی، TP، FP، TN، FN، و غیره را محاسبه کند. بسته “روان” [ 19 ] می تواند شاخص کاپا، کاپا وزنی و ICC را محاسبه کند و آزمایش فرضیه را انجام دهد. بسته های “irr” [ 20 ] و “icc” [ 21 ] همچنین می توانند اشکال مختلف ICC را محاسبه کنند. بسته “blandr” [ 22 ] می تواند تجزیه و تحلیل های Bland-Altman را انجام دهد و نمودار تولید کند.
4. خلاصه
اکثر پایگاه های داده GIS حاوی خطاهای داده ای هستند. خطاهای داده ممکن است ناشی از خطای ورودی انسانی، منبع داده (نقشه ها یا تصاویر کاغذی) یا نقص الگوریتم های پردازش تصویر باشد. این نواقص داده ها تأثیر مستقیمی بر قابلیت اطمینان نتایج تحلیل فضایی دارند. به عنوان مثال، اگر اشیاء دارای مرزهای کمی متفاوت برای عملیات همپوشانی چند ضلعی باشند، تعداد زیادی “شکل” تولید می شود که منجر به خطاهایی برای تجزیه و تحلیل پایین دست می شود [ 23 ]. بنابراین کیفیت داده های مکانی به عنوان یک موضوع حیاتی برای سازمان ها شناخته شده است.
کاربردهای مختلف GIS به درجات متفاوتی از جزئیات دادههای مکانی نیاز دارند که بستگی به هدف برنامهها دارد. مهمتر از همه، ما باید درک کنیم که هیچ دستورالعمل “یک اندازه مناسب برای همه” برای ارزیابی کیفیت داده های مکانی وجود ندارد. حتی اگر از روشهای مشابهی استفاده کنیم، ممکن است از مقادیر «برش» متفاوتی استفاده کنیم تا تصمیم بگیریم که آیا کیفیت دادهها دقت کافی دارد یا خیر. انتخاب روش های صحیح برای ارزیابی کیفیت داده ها و تفسیر عاقلانه نتایج مهم است تا بتوانیم شناخت بهتری از کیفیت داده ها داشته باشیم که به نوبه خود به ما در تصمیم گیری آگاهانه کمک می کند.
بدون دیدگاه