طبقه بندی و خوشه بندی مکانی – فضایی: شناسایی و کشف پنهان مکان ها :طبقه بندی و خوشه بندی اغلب با یکدیگر اشتباه گرفته می شوند یا به جای یکدیگر استفاده می شوند. خوشهبندی و طبقهبندی با توجه به اینکه تعداد و نوع کلاسها از قبل شناخته شده باشند (طبقهبندی)، یا اینکه از دادهها (خوشهبندی) آموخته شدهاند، متمایز میشوند. هدف کلی طبقهبندی و خوشهبندی این است که مشاهدات را در گروههایی قرار دهیم که ویژگیهای مشابهی دارند و در عین حال تفکیک گروههایی که با یکدیگر متفاوت هستند به حداکثر برسد. خوشه ها در کاربردهای محیطی و اجتماعی یافت می شوند و طبقه بندی روشی متداول برای سازماندهی اطلاعات است. هر دو در بسیاری از زمینههای GIS از جمله تشخیص خوشههای فضایی، طبقهبندی سنجش از دور، نقشهبرداری و تحلیل فضایی استفاده میشوند. روش های طبقه بندی کارتوگرافی یک روش ساده برای بررسی برخی روش های طبقه بندی و خوشه بندی ارائه می دهد.
Fatal error: Uncaught TypeError: ltrim(): Argument #1 ($string) must be of type string, WP_Error given in /home/gisland1/public_html/wp-includes/formatting.php:4482 Stack trace: #0 /home/gisland1/public_html/wp-includes/formatting.php(4482): ltrim(Object(WP_Error)) #1 /home/gisland1/public_html/wp-content/themes/xtra/functions.php(3349): esc_url(Object(WP_Error)) #2 /home/gisland1/public_html/wp-content/themes/xtra/single.php(19): Codevz_Core_Theme::generate_page('single') #3 /home/gisland1/public_html/wp-includes/template-loader.php(106): include('/home/gisland1/...') #4 /home/gisland1/public_html/wp-blog-header.php(19): require_once('/home/gisland1/...') #5 /home/gisland1/public_html/index.php(17): require('/home/gisland1/...') #6 {main} thrown in /home/gisland1/public_html/wp-includes/formatting.php on line 4482
1. تعاریف
خوشهبندی : روشهایی که به دنبال شناسایی گروهها یا قرار دادن دادهها در گروهها هستند.
طبقه بندی : روش هایی که به دنبال قرار دادن داده ها در گروه ها یا دسته های شناخته شده هستند.
مشاهده : مشاهدات نقاط داده منفرد در یک مجموعه داده بزرگتر هستند. در GIS&T، یک مشاهده ممکن است یک ردیف در یک جدول ویژگی باشد.
متغیر : متغیر خاصیت یا مشخصه ای است که در مورد یک یا چند مشاهده اندازه گیری شده است. در GIS&T ممکن است به آنها به عنوان ویژگی یا ستون در جدول ویژگی اشاره شود.
تک متغیره / چند متغیره : تک متغیره به یک متغیر یا ویژگی منفرد و چند متغیره به بیش از یک متغیر اشاره دارد.
انحصار متقابل: انحصاری متقابل اصطلاحی در احتمال است که به این معنی است که دو رویداد نمی توانند همزمان رخ دهند. با زدن یک سکه، این دو رویداد سر و کار دارند. یک ورق سکه نمی تواند همزمان سر و دم باشد.
میانگین یا میانگین : میانگین به عنوان مجموع مقادیر یک متغیر تقسیم بر تعداد مشاهدات محاسبه می شود. این یکی از راه های نشان دادن مرکز داده ها است.
2. بررسی اجمالی
طبقه بندی و خوشه بندی اغلب با یکدیگر اشتباه گرفته می شوند یا به جای یکدیگر استفاده می شوند. تعاریف آنها بسته به رشته یا زیر رشته کمی تغییر می کند. در هر صورت، هدف تعمیم اطلاعات دقیق موجود در ویژگی ها به تعداد کمتری از کلاس ها (دسته ها یا گروه ها) است. اگر مشاهده بخشی از یک مقوله باشد، گفته می شود که عضوی از آن گروه است. عضویت در یک دسته به این معنی است که یک مشاهده نمی تواند عضو هیچ دسته دیگری باشد، یا گفته می شود که دسته ها متقابل هستند. یعنی بین مرزهای هر طبقه همپوشانی وجود ندارد.
خوشهبندی و طبقهبندی با توجه به اینکه تعداد و نوع کلاسها از قبل شناخته شده باشند (طبقهبندی)، یا اینکه از دادهها (خوشهبندی) آموخته شدهاند، متمایز میشوند. این گاهی اوقات به عنوان یادگیری نظارت شده (طبقه بندی) و یادگیری بدون نظارت (خوشه بندی) متمایز می شود. موقعیت جغرافیایی ممکن است در هر دو رویکرد گنجانده شود یا نباشد.
نمونه ای از دسته های از پیش تعریف شده مورد استفاده در طبقه بندی سنجش از دور، طبقات پوشش زمین، مانند آب یا زمین بایر هستند. تعدادی دسته بندی برای پوشش زمین وجود دارد (به طور بالقوه چند صد دسته مختلف). هر یک از این طبقات پوشش زمین دارای ویژگی های خاصی هستند (رنگ، بازتاب و غیره). از این اطلاعات می توان برای قرار دادن مشاهدات جدید در این کلاس ها استفاده کرد. بسیاری از این روشهای طبقهبندی یاد میگیرند که بین کلاسها بر اساس مجموعه دادههای آموزشی که در آن عضویت و ویژگیهای کلاس مشاهده تعریف شدهاند، تفاوت قائل شوند. بسیاری از روش های طبقه بندی ماهیت احتمالی دارند، به این معنی که احتمال عضویت در یک گروه خاص را تخمین می زنند.
خوشهبندی تلاش میکند تا دستههایی را براساس شباهتهای بین ویژگیهای مشاهدات ایجاد کند. مشاهدات مشابه بیشتری با هم در یک گروه قرار می گیرند. گاهی اوقات روشهای خوشهبندی برای تعیین تعداد گروهها تلاش میکنند، و گاهی اوقات تحلیلگر یا محقق نیاز به ارائه این اطلاعات دارد. خوشهبندی فضایی توزیع ویژگیهای فضایی را بررسی میکند و خوشهبندی غیرمکانی برای گروهبندی آنها به ویژگیهای مشاهدات متکی است. فضایی و غیرمکانی ممکن است در روش های مختلفی با هم ترکیب شوند.
همانطور که در جدول 1 مشاهده می شود، رویکردهای طبقه بندی و خوشه بندی بسیاری از حوزه های مختلف GIS&T را لمس می کنند. از آنجایی که موضوع دارای دامنه وسیعی است، این بخش بر طبقه بندی کارتوگرافی تک متغیره تمرکز خواهد کرد. این یک نمای کلی از نحوه قرارگیری داده ها در دسته های مختلف ارائه می دهد که ممکن است به برنامه های پیچیده تر تعمیم داده شوند. قبل از حرکت به آن مثالها، مفهوم زیربنایی شباهت باید مورد بحث قرار گیرد.
طبقه بندی بدون نظارت: K-به معنای خوشه بندی
یادگیری بدون نظارت: K-means، خوشه بندی سلسله مراتبی، یا مبتنی بر چگالی (مانند DBSCAN)
2.1 کاربردهای خوشه بندی و طبقه بندی
تشخیص بصری خوشه ها ممکن است وسوسه انگیز باشد، اما این می تواند گمراه کننده باشد. شکل 1 را در نظر بگیرید که داده های نقطه ای یکسان را در مقیاس های مختلف نشان می دهد. در شکل 1A (سمت چپ)، توزیع نقاط ممکن است به صورت خوشه ای در نظر گرفته شود، اما زمانی که مقیاس در شکل 1B (راست) تغییر می کند، توزیع ممکن است پراکنده یا حتی تصادفی در نظر گرفته شود. نحوه تعریف مرز یک منطقه مورد مطالعه می تواند بر نحوه تعریف خوشه های فضایی تأثیر بگذارد و به این اثرات لبه می گویند. روش های شرح داده شده در جدول 1 از روش های آماری برای اندازه گیری درجه خوشه بندی در انواع مختلف داده ها استفاده می کنند. این از مشکل تکیه بر تفسیر بصری جلوگیری می کند.
شکل های 1a و 1b. توزیع یکسان نقاط در مقیاس های مختلف. به نظر می رسد (A) خوشه ای است و (B) به نظر پراکنده است. منبع: نویسنده
برخی از خوشهبندیهای فضایی برای تعیین اینکه آیا خوشهبندی وجود دارد یا اینکه خوشهها کجا هستند، به مختصات x و y نقاط متکی است. داده ها ممکن است بتوانند از مختصات x و y نقاط و فاصله بین آنها برای شناسایی خوشه ها استفاده کنند. تشخیص خوشهای پیچیدهتر نیازمند درک روابط فضایی بین ویژگیها یا پدیدهها، معمولاً با چندضلعیها است. معمولاً این رابطه از طریق یک نمودار همسایگی یا ماتریس توصیف میشود که به روش خوشهبندی میگوید کدام ویژگیها همسایه هستند یا خیر. این روابط و فواصل را می توان با یک توزیع تصادفی نظری برای بیان درجه خوشه بندی (مثلاً توزیع پواسون)، یا نوع متفاوتی از متریک (امتیاز Silhouette) مقایسه کرد.
خوشه بندی فضایی ممکن است شامل ویژگی ها یا متغیرهای غیر مکانی باشد. خوشهبندی غیرمکانی کاملاً بر ویژگیهای دادههای مشاهدهشده تکیه میکند، اما از ایدههایی استفاده میکند که قبلاً برای کاربران GIS آشنا هستند، مانند فواصل اقلیدسی (به زیر مراجعه کنید). خوشه بندی در بسیاری از پدیده های دنیای واقعی دیده می شود. مفهوم انبوه سازی در جغرافیا این ایده است که مشاغل مشابه به منظور اشتراک منابع یا مشتریان (مثلاً نمایندگی های خودرو) در نزدیکی یکدیگر قرار می گیرند. مثال دیگر، جنایات مشابه معمولاً در نزدیکی یکدیگر واقع می شوند. اپیدمیولوژیست ها ممکن است علاقه مند شوند که در کجا گروه هایی از افراد آلوده وجود دارد که در مکان و زمان در نزدیکی یکدیگر قرار دارند که طبیعی نیستند. این خوشه ها ممکن است به منبعی از قرار گرفتن در معرض یا دلیل ناشناخته ای برای بیماری آنها اشاره کنند.
به طور مشابه، روشهای طبقهبندی ممکن است برای پیشبینی اینکه آیا فردی به بیماری خاصی مبتلا است یا خیر، استفاده شود. بیماریهای مختلف بهعنوان کلاسهای جداگانه در نظر گرفته میشوند و متغیرهای زیادی (مانند قد، وزن، سن، شغل، و غیره…) برای پیشبینی اینکه یک فرد در کدام طبقه قرار میگیرد استفاده میشود. طبقهبندی در GIS و نقشهبرداری برای توسعه نقشههای موضوعی گروه مشابه استفاده میشود. انواع داده ها با هم و کد رنگی (در زیر به طور عمیق کاوش می شود). در نهایت، هر دو طبقهبندی و خوشهبندی در کاربردهای سنجش از دور برای گروهبندی سلولهای شطرنجی مشابه در مناطق همگن مانند تجزیه و تحلیل پوشش زمین، ایجاد دستههایی مانند جنگلهای برگریز، آب یا زمینهای بایر استفاده میشوند.
2.2 شباهت و فاصله
هدف کلی طبقهبندی و خوشهبندی این است که مشاهدات را در گروههایی قرار دهیم که ویژگیهای مشابهی دارند و در عین حال تفکیک گروههایی که با یکدیگر متفاوت هستند به حداکثر برسد. این به طور طبیعی منجر به این سؤال می شود: چگونه دو مشاهده مشابه (یا غیر مشابه) هستند؟ یک رویکرد استفاده از متریک فاصله است که می تواند به عنوان معیاری برای تشابه بین جفت مشاهدات تفسیر شود. هر چه فاصله کمتر باشد این دو به هم شباهت بیشتری خواهند داشت. راه های زیادی برای محاسبه فاصله وجود دارد، اما یکی از آنها که اغلب در GIS&T استفاده می شود، فاصله اقلیدسی است. با توجه به مکان دو مشاهده یا نقطه مختلف که هر کدام دارای یک جفت مختصات x i , y i هستند، می توان فاصله را مانند رابطه 1 محاسبه کرد.
(معادله 1)
اگر نمای مکانی را گسترش دهیم، میتواند نه تنها یک موقعیت جغرافیایی فیزیکی، بلکه هر مکانی را در هر متغیر عددی در خود جای دهد. در این دیدگاه فاصله اقلیدسی بین هر تعداد متغیر محاسبه می شود. یکی دیگر از معیارهای رایج فاصله، فاصله منهتن است که در معادله 2 نشان داده شده است، و بسیاری دیگر وجود دارد.
(معادله 2)
رویکردهای رایج دیگری وجود دارد که ممکن است از فاصله به عنوان معیاری برای تشابه یا نزدیکی استفاده کنند یا نه. مقایسه برخی از الگوریتم های اصلی خوشه بندی و طبقه بندی فضایی در جدول 2 ارائه شده است.
3. طبقه بندی و خوشه بندی تک متغیره
روش های طبقه بندی کارتوگرافی یک روش ساده برای بررسی برخی روش های طبقه بندی و خوشه بندی ارائه می دهد. در کارتوگرافی، طبقهبندی فرآیندی است برای سادهسازی یا جمعآوری اطلاعات در گروههایی که روی نقشه نمایش داده میشوند. جدول 3 برخی از رایج ترین رویکردهای مورد استفاده در نقشه کشی را ارائه می دهد. برای تشخیص این کلاسها، به هر یک از اعضای یک گروه نماد نقشه یکسانی به اطلاعات جغرافیایی خود اختصاص داده میشود. به عنوان مثال، برای این نوع نگاشت، مقادیر تک متغیره از یک واحد جغرافیایی چند ضلعی مانند تراکت سرشماری ایالات متحده (ایالات متحده) گرفته می شود و به هر دسته یک رنگ اختصاص می یابد (نقشه برداری choropleth). نقشهبردار تعداد دستهها را برای نقشه انتخاب میکند. سپس، روش طبقه بندی انتخاب شده، مرزهای طبقات را تعیین می کند (شکل 2). مرزها مقادیر پایین/شروع و بالایی/پایانی را برای هر گروه تعریف می کنند، گاهی اوقات این مقادیر را «شکست» می نامند (Brewer & Pickle, 2002). برای اطلاعات بیشتر، نگاه کنید نقشه برداری آماری (شمارش، عادی سازی، طبقه بندی ).
شکل های 2A – 2D. روشهای طبقهبندی دادهها برای گروهبندی دادهها با استفاده از (A) طبقهبندی دستی، (B) طبقهبندی بازههای مساوی، (C) فاصله تعریفشده، و بهکاررفته در دادههای سن متوسط (D). منبع: نویسنده
اساسی ترین مورد، رویکرد ارزش یکتا است که در آن به هر مقدار یک نماد منحصر به فرد اختصاص داده می شود و برای هر مقدار یک کلاس یا دسته ایجاد می کند. در حالی که انجام این کار برای دادههای عددی امکانپذیر است، معمولاً برای دادههای طبقهبندی (سطح اسمی) رزرو میشود، در غیر این صورت ممکن است کلاسهای منحصربهفرد زیادی وجود داشته باشد. طبقه بندی دستی به نقشه کش اجازه می دهد تا حد بالایی و پایینی مرزها یا نقاط شکست را تعریف کند. شکل 2A دو “شکست” را در 50 و 60 نشان می دهد که سه کلاس را ایجاد می کند. از آنجایی که این حدهای بالا و پایین متقابلاً منحصر به فرد هستند، کلاس اول از 18 تا 50 اجرا می شود، کلاس دوم از 51 (یا احتمالاً 50.000001) تا 60، و گروه سوم از 61 (یا احتمالاً 60.0000001) تا 86 اجرا می شود. یک مقدار رنگ به آن اختصاص داده می شود و در مورد داده های متوالی، رنگ ها از روشن به تیره می روند.
فاصله مساوی و بازه تعریف شده یک سناریوی طبقه بندی ساده بر اساس ویژگی های داده ها ارائه می دهد. Equal Interval تعداد کلاسها را تنظیم میکند و محدوده داده بر این عدد تقسیم میشود (به عنوان مثال (86-18)/5=17)، یک بازه 17 ایجاد میکند. مقادیر در این کلاسهای شناخته شده قرار میگیرند، همانطور که در شکل 2B نشان داده شده است. در رویکرد بازه تعریف شده، نقشهبردار بازه زمانی را انتخاب میکند، سپس نرمافزار تعداد کلاسهایی را که متناسب هستند را تعیین میکند. در شکل 2C، فاصله زمانی 34 است که دو کلاس را ایجاد می کند.
سایر رویکردها بر توزیع متغیر تکیه دارند. توزیع فرکانس به صورت هیستوگرام تجسم می شود. هیستوگرام دادهها را به سطلهایی با عرض مساوی (مثلاً بین 40 تا 45) تقسیم میکند و تعداد مقادیری را که در هر سطل قرار میگیرد، شمارش میکند. این تعداد در ارتفاع میله منعکس می شود. شکل 3 یک هیستوگرام برای متغیر سن متوسط را نشان می دهد. صدک ها درصدی از داده ها هستند که کمتر از مقدار مربوطه می شوند. برای تعریف شکست های کلاس با استفاده از صدک، تعداد کلاس ها انتخاب می شود، سپس محدوده 0 تا 100٪ بر این عدد تقسیم می شود. در شکل 3A، 3 کلاس به صدک های 25%، 50% و 75% منجر می شوند. اینها به ترتیب با مقادیر 33، 38 و 44 مطابقت دارند. این بدان معناست که 25 درصد از مشاهدات در سمت چپ 33 در هیستوگرام، 50 درصد در سمت چپ 38 و 75 درصد در سمت چپ 44 قرار می گیرند. به خاطر داشته باشید که ارتفاع میله تعداد کل واقعی مشاهدات را نشان می دهد. در 86، 100٪ از مشاهدات در سمت چپ هیستوگرام قرار می گیرند. شکل 2B صدک هایی را برای 5 کلاس نشان می دهد، اما ایده ثابت باقی می ماند.
شکل های 3a – 3c. توزیع فراوانی دادههای میانگین سنی و شکستهای مرتبط با (A) صدکهای کلاس 3، (B) صدکهای کلاس 5، و (C) روش شکستهای طبیعی جنکس کلاس 5. منبع: نویسنده
در نهایت، روش جنکس یک رویکرد الگوریتمی تکراری است که نقاط شکست طبیعی را در داده ها شناسایی می کند (جنکز و کاسپال، 1971). این روش به ایده شناسایی خوشهها (گروهها) در دادهها نزدیکتر است که منجر به فواصل ناهموار میشود. نتیجه روش جنکس به کار رفته در متغیر سن متوسط در شکل 3C نشان داده شده است. الگوریتم پیچیده است، اما رویکرد مشابهی به نام خوشهبندی K-means وجود دارد که میتوان آن را نشان داد. K-means همچنین به طور گسترده در مناطق دیگر استفاده می شود. k به تعداد کلاس ها اشاره دارد. رویکردهایی برای کمک به انتخاب k وجود دارد، اما اینها به طور گسترده در بستههای GIS (نمرات silhouette یا نمودارهای آرنج) در دسترس نیستند.
با شروع یک مجموعه داده کوچکتر، شکل 4 20 مشاهدات را در امتداد یک خط اعداد نشان می دهد. K-means خوشه بندی با انتخاب k شروع می شود و در این مثال از سه استفاده می شود. الگوریتم اولین تکرار را با تولید سه مقدار تصادفی که در محدوده متغیر قرار می گیرند، آغاز می کند. در شکل 5، سه مقدار تصادفی تولید شده است (یک نقطه آبی روشن، زرد و خاکستری تیره). اینها به عنوان مرکز هر یک از گروه ها برای اولین تکرار عمل خواهند کرد. سپس، الگوریتم فاصله مشاهده اولیه تا هر یک از مراکز خوشه را محاسبه می کند. شکل 6 این فاصله را به صورت فلش از اولین مشاهده در سمت چپ به هر یک از مراکز نشان می دهد.
شکل 4. بیست مشاهده در امتداد یک خط اعداد برای نشان دادن الگوریتم K-means. منبع: نویسنده
شکل 5. بیست مشاهده با سه مرکز خوشه ای تصادفی در امتداد خط اعداد. این اولین مرحله در الگوریتم K-means را نشان می دهد. منبع: نویسنده
شکل 6. محاسبه فاصله از اولین مشاهده در سمت چپ خط اعداد تا هر مرکز خوشه تصادفی. منبع: نویسنده
سپس، الگوریتم هر مشاهده را بر اساس فاصله به نزدیکترین مرکز خوشه اختصاص می دهد (شکل 7A). اینها اولین مجموعه از خوشه ها را ایجاد می کنند و الگوریتم میانگین را در هر خوشه محاسبه می کند (خطوط عمودی در شکل 7B نشان دهنده میانگین هر خوشه است). حال، میانگین به مرکز هر خوشه تبدیل میشود و فاصله هر مشاهده تا این مراکز جدید دوباره محاسبه میشود. باز هم مشاهدات بر اساس فاصله به گروه های مختلف منتقل می شوند. میانگین برای هر یک از خوشه ها دوباره محاسبه می شود، و دوباره فاصله، و غیره. این فرآیند تا زمانی تکرار میشود که هیچ تغییری در آن خوشه مشاهده نشود. الگوریتم یک تکرار جدید را آغاز می کند و مقادیر تصادفی را برای هر مرکز خوشه ایجاد می کند. پس از تکرارهای زیاد، “بهترین” خوشه های مناسب را برمی گرداند.
شکل 7a – 7b. در طول الگوریتم K-means مشاهدات به نزدیکترین مرکز خوشه خود، (A) سمت چپترین مشاهده به نزدیکترین مرکز خوشه (A) و (B) همه مشاهدات به نزدیکترین مرکز خوشه خود و میانگین هر یک اختصاص داده می شود. گروه محاسبه می شود. منبع: نویسنده
در هر تکرار، الگوریتم اندازه گیری را محاسبه می کند تا تعیین کند که این خوشه ها چقدر با داده ها مطابقت دارند. برای انجام این کار، الگوریتم از واریانس هر خوشه و واریانس کل استفاده می کند. واریانس فاصله هر یک از اعضای گروه را تا میانگین خوشه اندازه گیری می کند. واریانس معیاری برای اندازه گیری پراکندگی داده ها است. شکل 8 این گسترش را به صورت فلش نشان می دهد و هر گروه دارای عرض متفاوتی است. واریانس کل مجموع واریانس های گروه است و تکراری که کمترین واریانس کل را داشته باشد به عنوان بهترین گزینه برگردانده می شود. نتیجه، محدودههای کلاسی است که میتوانند عرض بازههای متفاوت و نقاط شروع و پایان غیرمعمول داشته باشند.
شکل 8. الگوریتم K-means از واریانس خوشه های مختلف (همانطور که توسط فلش ها نشان داده شده است) برای تعیین عملکرد این گروه بندی ها استفاده می کند. منبع: نویسنده
از کدام روش باید استفاده کرد؟ اینکه کدام روش انتخاب شده و چه تعداد کلاس انتخاب شده بر ظاهر نهایی نقشه و احتمالاً نحوه تفسیر داده ها تأثیر خواهد داشت. این را می توان از هر دو ملاحظات اخلاقی و عملی در نظر گرفت (هارلی، 1991؛ مونمونیر، 1991). برای مقایسه، شکل 9 داده های میانگین سنی شهرستان هیلزبورو، فلوریدا را با استفاده از سرشماری ایالات متحده نشان می دهد. هر تراکت بسته به سن متوسط آن تراکت در یک کلاس قرار می گیرد. کران کلاس بسته به روش تغییر می کند و نتایج می توانند تفسیرهای بسیار متفاوتی از داده های اساسی ایجاد کنند. به عنوان مثال، شکل 9B شکست های کلاس را با استفاده از روش Equal Interval برای 5 کلاس نشان می دهد. این نقشه این تصور را ایجاد می کند که بیشتر شهرستان ها در گروه سنی 27 تا 41 سال قرار دارند. در حالیکه،
انتخاب روشی که باید اعمال شود ممکن است دشوار باشد. اسلوکام و همکاران (2009، ص 68) دستورالعمل هایی برای نقشه برداری ارائه می دهد. گاهی اوقات شکل توزیع فرکانس (مثلاً یک توزیع نرمال برای صدک مناسب است)، یا سایر مشخصات داده ها ممکن است کمک کند. Monmonier (1991) پیشنهاد می کند که یک “توالی پویا” از نقشه ها به خواننده ارائه شود که نمای افراطی از داده ها را نشان می دهد (Monmonier, 1991, p. 4).
صرف نظر از روش، باید مراقب بود که قابلیت تفسیر کلاس ها را متعادل کرد، در حالی که اجازه داد داده ها خودشان صحبت کنند. در مورد متغیر سن متوسط، استفاده از کلاس های انتخاب شده به صورت دستی که منعکس کننده مراحل زندگی هستند (مثلا سن رای دادن در ایالات متحده 18 سال یا سن بازنشستگی 66 سال است) منطقی است و نقشه خوان به راحتی قابل درک است. این به معنای برخی مجوزهای هنری است که همیشه در دسترس یا مناسب در سایر زمینههای طبقهبندی و خوشهبندی نیست.
شکل 9A-9D. مقایسه روشهای طبقهبندی نقشهبرداری با استفاده از (الف) شکستهای طبیعی جنکس، (ب) فاصله مساوی، (ج) دستی، و (د) درصد/چندک. منبع: نویسنده
4. طبقه بندی و خوشه بندی چند متغیره
بسیاری از روشهای طبقهبندی و خوشهبندی برای دادههای چند متغیره اعمال میشوند. رویکرد K-means را می توان گسترش داد تا بسیاری از ویژگی ها را شامل شود و الگوریتم یکسان باقی می ماند. همچنان به دنبال مرکز هر خوشه است. شکل 10 خوشه هایی از مشاهدات از سه متغیر را به صورت سه بعدی نشان می دهد. خوشه ای که با شکل مثلث به رنگ آبی سایه می زند با خوشه نقطه سبز در امتداد متغیر اول همپوشانی دارد، اما نتایج بسیار متفاوتی برای متغیر سوم (محور z) دارد. این ترکیبی از ویژگیهایی است که میتواند هنگام برخورد با دادههای چند متغیره، خوشههای منحصر به فرد متقابل ایجاد کند.
شکل 10. خوشهبندی و طبقهبندی چند متغیره تلاش میکند تا گروهها را بر اساس بیش از یک متغیر جدا کند. منبع: نویسنده.
الکسیو، ا.، و سینگلتون، AD (2015). تجزیه و تحلیل ژئودموگرافیک. در C. Brundson & AD Singleton (Eds.), Geocomputation. آغازگر عملی (صص 137-151). لندن: سیج.
بیلی، تی سی و گترل، ای سی (1995). تجزیه و تحلیل داده های فضایی تعاملی: Longman Scientific & Technical Essex.
بروور، کالیفرنیا، و پیکل، ال. (2002). ارزیابی روشهای طبقهبندی دادههای اپیدمیولوژیک روی نقشههای کوروپلث به صورت سری. سالنامه انجمن جغرافیدانان آمریکایی، 92 (4)، 662-681.
هارلی، جی بی (1991). آیا یک اخلاق نقشه کشی وجود دارد؟ دیدگاه های نقشه کشی . (10)، 9-16.
جنکس، جی اف، و کاسپال، اف سی (1971). خطا در نقشه های کوروپلتیک: تعریف، اندازه گیری، کاهش. سالنامه انجمن جغرافیدانان آمریکایی، 61 (2)، 217-244.
جیانگ، بی (2013). شکستگیهای سر/دم: یک طرح طبقهبندی جدید برای دادهها با توزیع دم سنگین. جغرافیدان حرفهای، 65 (3)، 482–494.
لوید، آر، و استینک، تی (1977). مقایسه بصری و آماری نقشه های کروپلث. سالنامه انجمن جغرافیدانان آمریکایی، 67 (3)، 429-436.
لو، دی، و ونگ، کیو (2007). بررسی روشها و تکنیکهای طبقهبندی تصویر برای بهبود عملکرد طبقهبندی. مجله بین المللی سنجش از دور، 28 (5)، 823-870.
Miller, H., & Han, J. (2009). داده کاوی جغرافیایی و کشف دانش (دوم): CRC Press.
Monmonier، M. (1991). اخلاق و طراحی نقشه: شش راهبرد برای مقابله با راه حل سنتی تک نقشه. دیدگاه های نقشه کشی . (10)، 3-8.
O’Sullivan، D.، & Unwin، D. (2010). تجزیه و تحلیل اطلاعات جغرافیایی (دوم). هوبوکن، نیوجرسی: جان وایلی و پسران.
Slocum، TA، McMaster، RM، Kessler، FC، Howard، HH، و McMaster، RB (2009). نقشه کشی موضوعی و تجسم جغرافیایی (سوم). رودخانه فوقانی زین، نیوجرسی: سالن پرنتیس.
اسمیت، ام جی د، گودچایلد، ام اف، و لانگلی، پی (2007). تجزیه و تحلیل جغرافیایی: راهنمای جامع اصول، تکنیک ها و ابزارهای نرم افزاری: Troubador Publishing Ltd.