طبقه بندی داده ها

هدف یادگیری

  1. هدف این بخش توصیف روش‌های موجود برای تجزیه داده‌ها به کلاس‌های مختلف برای نمایش بصری در نقشه است.

فرآیند طبقه‌بندی داده‌ها، داده‌های خام را در کلاس‌های از پیش تعریف‌شده یا bin‌ها ترکیب می‌کند. این کلاس‌ها ممکن است در یک نقشه با برخی از نمادهای منحصربه‌فرد یا در مورد نقشه‌های choropleth، با یک رنگ یا رنگ منحصر به فرد نشان داده شوند (برای اطلاعات بیشتر در مورد رنگ و رنگ، به فصل 8 “تحلیل جغرافیایی II: داده‌های شطرنجی” ، بخش 8.1 مراجعه کنید. ژئوپردازش پایه با رسترها” ). نقشه‌های کروپلث نقشه‌های موضوعی هستند که با رنگ‌های مدرج سایه‌دار می‌شوند تا برخی از متغیرهای آماری مورد علاقه را نشان دهند. اگرچه به ظاهر ساده است، اما چندین روش طبقه بندی مختلف در دسترس یک نقشه کش وجود دارد. این روش‌ها مقادیر مشخصه را در طول الگوهای بازه‌ای مختلف تجزیه می‌کنند. Monmonier (1991) Monmonier, M. 1991. How to Lie with Maps. شیکاگو: انتشارات دانشگاه شیکاگو. اشاره کرد که روش‌های طبقه‌بندی مختلف می‌توانند تأثیر عمده‌ای بر تفسیرپذیری یک نقشه معین داشته باشند، زیرا الگوی بصری ارائه شده به راحتی با دستکاری فاصله‌های بازه‌ای خاص طبقه‌بندی تحریف می‌شود. علاوه بر روش بکار گرفته شده، تعداد کلاس‌هایی که برای نشان دادن ویژگی مورد علاقه انتخاب می‌شوند نیز به طور قابل توجهی بر توانایی بیننده برای تفسیر اطلاعات نقشه‌برداری شده تأثیر می‌گذارد. گنجاندن تعداد زیاد کلاس‌ها می‌تواند نقشه را بیش از حد پیچیده و گیج‌کننده جلوه دهد. کلاس های بسیار کم می توانند نقشه را بیش از حد ساده کنند و روندهای داده های مهم را پنهان کنند. بیشتر تلاش‌های موثر طبقه‌بندی از چهار تا شش کلاس مجزا استفاده می‌کنند.

در حالی که مشکلات به طور بالقوه با هر تکنیک طبقه بندی وجود دارد، یک choropleth به خوبی ساخته شده، تفسیرپذیری هر نقشه داده شده را افزایش می دهد. بحث زیر روش‌های طبقه‌بندی را که معمولاً در بسته‌های نرم‌افزاری سیستم اطلاعات جغرافیایی (GIS) موجود است، تشریح می‌کند. در این مثال‌ها، از آمار جمعیت اداره سرشماری ایالات متحده برای شهرستان‌های ایالات متحده در سال 1997 استفاده خواهیم کرد. این داده‌ها به صورت رایگان در وب‌سایت سرشماری ایالات متحده ( http://www.census.gov ) در دسترس هستند.

روش طبقه بندی فاصله مساوی (یا گام مساوی) محدوده مقادیر مشخصه را به کلاس هایی با اندازه مساوی تقسیم می کند. تعداد کلاس ها توسط کاربر تعیین می شود. روش طبقه بندی بازه مساوی برای مجموعه داده های پیوسته مانند بارش یا دما بهتر است استفاده شود. در مورد داده های اداره سرشماری 1997، مقادیر جمعیت شهرستان در سراسر ایالات متحده از 40 (شهرستان پارک ملی یلوستون، MO) تا 9،184،770 (شهرستان لس آنجلس، کالیفرنیا) برای محدوده کل 9،184،770 – 40 = 9،184،73 متغیر است. اگر تصمیم بگیریم این داده ها را به 5 کلاس فاصله مساوی طبقه بندی کنیم، دامنه هر طبقه یک توزیع جمعیتی 9,184,730 / 5 = 1,836,946 را پوشش می دهد ( شکل 6.19 “طبقه بندی بازه های مساوی برای داده های جمعیت شهرستان ایالات متحده در سال 1997”). مزیت روش طبقه‌بندی فاصله مساوی این است که افسانه‌ای ایجاد می‌کند که تفسیر و ارائه آن برای مخاطبان غیر فنی آسان است. نقطه ضعف اصلی این است که مجموعه داده‌های خاصی در نهایت به این نتیجه می‌رسند که بیشتر مقادیر داده‌ها فقط در یک یا دو کلاس قرار می‌گیرند، در حالی که مقدار کمی یا هیچ مقداری کلاس‌های دیگر را اشغال نمی‌کند. همانطور که در شکل 6.19 “طبقه بندی بازه های مساوی برای داده های جمعیت شهرستان ایالات متحده در سال 1997” مشاهده می کنید ، تقریباً همه شهرستان ها به اولین سطل (زرد) اختصاص داده شده اند.

شکل 6.19 طبقه بندی بازه های مساوی برای داده های جمعیت شهرستان ایالات متحده در سال 1997

روش طبقه بندی چندک تعداد مشاهدات مساوی را در هر کلاس قرار می دهد. این روش برای داده هایی که به طور مساوی در محدوده آن توزیع شده اند، بهترین است. شکل 6.20 “کوانتیل ها”روش طبقه بندی چندکی را با پنج کلاس کل نشان می دهد. از آنجایی که 3140 شهرستان در ایالات متحده وجود دارد، هر طبقه در روش طبقه بندی کمیت شامل 3140 / 5 = 628 شهرستان مختلف خواهد بود. مزیت این روش این است که اغلب در تأکید بر موقعیت نسبی مقادیر داده ها برتری دارد (یعنی کدام شهرستان ها 20 درصد از جمعیت ایالات متحده را شامل می شوند). نقطه ضعف اصلی روش طبقه‌بندی چندک این است که ویژگی‌هایی که در یک کلاس قرار می‌گیرند می‌توانند مقادیر بسیار متفاوتی داشته باشند، به ویژه اگر داده‌ها به طور مساوی در محدوده آن توزیع نشده باشند. علاوه بر این، برعکس نیز می‌تواند اتفاق بیفتد که به موجب آن مقادیر با تفاوت‌های محدوده کوچک را می‌توان در کلاس‌های مختلف قرار داد، که نشان‌دهنده تفاوت گسترده‌تری در مجموعه داده‌ها نسبت به واقعی است.

شکل 6.20 چندک

روش طبقه‌بندی شکست‌های طبیعی (یا Jenks) از یک الگوریتم برای گروه‌بندی مقادیر در کلاس‌هایی استفاده می‌کند که با نقاط شکست مجزا از هم جدا شده‌اند. این روش به بهترین وجه برای داده هایی استفاده می شود که به طور ناموزون توزیع شده اند اما به سمت هر دو انتهای توزیع منحرف نشده اند. شکل 6.21 “وقفه های طبیعی”طبقه بندی شکست های طبیعی برای داده های تراکم جمعیت شهرستان ایالات متحده در سال 1997 را نشان می دهد. یکی از معایب احتمالی این است که این روش می‌تواند کلاس‌هایی ایجاد کند که دارای محدوده‌های اعداد بسیار متفاوتی هستند. بر این اساس، کلاس 1 با محدوده کمی بیش از 150000 مشخص می شود، در حالی که کلاس 5 با محدوده بیش از 6000000 مشخص می شود. در مواردی مانند این، اغلب مفید است که کلاس‌ها را به دنبال تلاش طبقه‌بندی تغییر دهید یا برچسب‌ها را به مقیاس‌های ترتیبی مانند «کوچک، متوسط ​​یا بزرگ» تغییر دهید. مثال اخیر، به ویژه، می تواند منجر به نقشه ای شود که برای بیننده قابل درک تر باشد. دومین نقطه ضعف این واقعیت است که مقایسه دو یا چند نقشه ایجاد شده با روش طبقه‌بندی شکست‌های طبیعی دشوار است، زیرا محدوده‌های کلاس برای هر مجموعه داده بسیار خاص است. در این موارد،

شکل 6.21 شکست های طبیعی

در نهایت، روش طبقه‌بندی انحراف استاندارد، هر کلاس را با افزودن و کم کردن انحراف استاندارد از میانگین مجموعه داده تشکیل می‌دهد. این روش برای استفاده با داده هایی که با توزیع نرمال مطابقت دارند، مناسب تر است. در نمونه جمعیت شهرستان، میانگین 85108 و انحراف معیار 277080 است. بنابراین، همانطور که در افسانه شکل 6.22 “انحراف استاندارد” مشاهده می شود ، کلاس مرکزی حاوی مقادیری در انحراف استاندارد 0.5 از میانگین است، در حالی که کلاس های بالا و پایین حاوی مقادیری هستند که 0.5 یا بیشتر انحراف استاندارد بالاتر یا پایین تر هستند. به ترتیب.

شکل 6.22 انحراف معیار

در نتیجه، چندین روش طبقه‌بندی داده‌ها وجود دارد که می‌توانند برای نقشه‌های choropleth اعمال شوند. اگرچه روش‌های دیگری در دسترس هستند (مثلاً مساحت مساوی، بهینه)، آن‌هایی که در اینجا بیان شده‌اند، رایج‌ترین و در دسترس‌ترین روش‌ها را نشان می‌دهند. هر یک از این روش‌ها داده‌ها را به شیوه‌ای متفاوت ارائه می‌کنند و جنبه‌های مختلف روند در مجموعه داده را برجسته می‌کنند. در واقع، روش طبقه‌بندی، و همچنین تعداد کلاس‌های مورد استفاده، می‌تواند به تفاسیر بسیار متنوعی از مجموعه داده منجر شود. این وظیفه شما، نقشه‌بردار است که روشی را انتخاب کنید که به بهترین وجه با نیازهای مطالعه مطابقت داشته باشد و داده‌ها را تا حد امکان به صورت معنادار و شفاف ارائه کنید.

خوراکی های کلیدی

  • نقشه‌های کروپلث، نقشه‌های موضوعی هستند که با رنگ‌های مدرج سایه می‌زنند تا برخی از متغیرهای آماری مورد علاقه را نشان دهند.
  • چهار روش برای طبقه بندی داده های ارائه شده در اینجا شامل فواصل مساوی، چارک، شکست های طبیعی و انحراف معیار است. این روش ها مزایا و معایب خاصی را هنگام تجسم یک متغیر مورد علاقه نشان می دهند.

تمرینات

  1. با توجه به نقشه های choropleth ارائه شده در این فصل، به نظر شما کدام مجموعه داده را بهتر نشان می دهد؟ چرا؟
  2. آنلاین شوید و دو روش دیگر طبقه بندی داده ها را که برای کاربران GIS در دسترس است شرح دهید.
  3. برای جدول سی مقدار داده ایجاد شده در بخش 6.1 «توضیحات و خلاصه‌ها» ، تمرین 1، محدوده داده‌ها را برای هر کلاس مشخص کنید، به گونه‌ای که گویی در حال ایجاد طرح‌های طبقه‌بندی فاصله و کمیت یکسان هستید.

10 نظرات

دیدگاهتان را بنویسید