برنامه ریزی کاربری منطقه ای کارآمد عملی با استفاده از بهینه سازی الگوریتم ژنتیک چندهدفه و سیستم اطلاعات جغرافیایی

طبقه بندی و خوشه بندی مکانی – فضایی: شناسایی و کشف پنهان مکان ها :طبقه بندی و خوشه بندی اغلب با یکدیگر اشتباه گرفته می شوند یا به جای یکدیگر استفاده می شوند. خوشه‌بندی و طبقه‌بندی با توجه به اینکه تعداد و نوع کلاس‌ها از قبل شناخته شده باشند (طبقه‌بندی)، یا اینکه از داده‌ها (خوشه‌بندی) آموخته شده‌اند، متمایز می‌شوند. هدف کلی طبقه‌بندی و خوشه‌بندی این است که مشاهدات را در گروه‌هایی قرار دهیم که ویژگی‌های مشابهی دارند و در عین حال تفکیک گروه‌هایی که با یکدیگر متفاوت هستند به حداکثر برسد. خوشه ها در کاربردهای محیطی و اجتماعی یافت می شوند و طبقه بندی روشی متداول برای سازماندهی اطلاعات است. هر دو در بسیاری از زمینه‌های GIS از جمله تشخیص خوشه‌های فضایی، طبقه‌بندی سنجش از دور، نقشه‌برداری و تحلیل فضایی استفاده می‌شوند. روش های طبقه بندی کارتوگرافی یک روش ساده برای بررسی برخی روش های طبقه بندی و خوشه بندی ارائه می دهد.

 

توضیحات موضوع: 
  1. تعاریف
  2. بررسی اجمالی
  3. طبقه بندی و خوشه بندی تک متغیره
  4. طبقه بندی و خوشه بندی چند متغیره

 

1. تعاریف

خوشه‌بندی : روش‌هایی که به دنبال شناسایی گروه‌ها یا قرار دادن داده‌ها در گروه‌ها هستند.

طبقه بندی : روش هایی که به دنبال قرار دادن داده ها در گروه ها یا دسته های شناخته شده هستند.

مشاهده : مشاهدات نقاط داده منفرد در یک مجموعه داده بزرگتر هستند. در GIS&T، یک مشاهده ممکن است یک ردیف در یک جدول ویژگی باشد.

متغیر : متغیر خاصیت یا مشخصه ای است که در مورد یک یا چند مشاهده اندازه گیری شده است. در GIS&T ممکن است به آنها به عنوان ویژگی یا ستون در جدول ویژگی اشاره شود.

تک متغیره / چند متغیره : تک متغیره به یک متغیر یا ویژگی منفرد و چند متغیره به بیش از یک متغیر اشاره دارد.

انحصار متقابل: انحصاری متقابل اصطلاحی در احتمال است که به این معنی است که دو رویداد نمی توانند همزمان رخ دهند. با زدن یک سکه، این دو رویداد سر و کار دارند. یک ورق سکه نمی تواند همزمان سر و دم باشد.

میانگین یا میانگین : میانگین به عنوان مجموع مقادیر یک متغیر تقسیم بر تعداد مشاهدات محاسبه می شود. این یکی از راه های نشان دادن مرکز داده ها است.

 

2. بررسی اجمالی

طبقه بندی و خوشه بندی اغلب با یکدیگر اشتباه گرفته می شوند یا به جای یکدیگر استفاده می شوند. تعاریف آنها بسته به رشته یا زیر رشته کمی تغییر می کند. در هر صورت، هدف تعمیم اطلاعات دقیق موجود در ویژگی ها به تعداد کمتری از کلاس ها (دسته ها یا گروه ها) است. اگر مشاهده بخشی از یک مقوله باشد، گفته می شود که عضوی از آن گروه است. عضویت در یک دسته به این معنی است که یک مشاهده نمی تواند عضو هیچ دسته دیگری باشد، یا گفته می شود که دسته ها متقابل هستند. یعنی بین مرزهای هر طبقه همپوشانی وجود ندارد.

خوشه‌بندی و طبقه‌بندی با توجه به اینکه تعداد و نوع کلاس‌ها از قبل شناخته شده باشند (طبقه‌بندی)، یا اینکه از داده‌ها (خوشه‌بندی) آموخته شده‌اند، متمایز می‌شوند. این گاهی اوقات به عنوان یادگیری نظارت شده (طبقه بندی) و یادگیری بدون نظارت (خوشه بندی) متمایز می شود. موقعیت جغرافیایی ممکن است در هر دو رویکرد گنجانده شود یا نباشد.

نمونه ای از دسته های از پیش تعریف شده مورد استفاده در طبقه بندی سنجش از دور، طبقات پوشش زمین، مانند آب یا زمین بایر هستند. تعدادی دسته بندی برای پوشش زمین وجود دارد (به طور بالقوه چند صد دسته مختلف). هر یک از این طبقات پوشش زمین دارای ویژگی های خاصی هستند (رنگ، ​​بازتاب و غیره). از این اطلاعات می توان برای قرار دادن مشاهدات جدید در این کلاس ها استفاده کرد. بسیاری از این روش‌های طبقه‌بندی یاد می‌گیرند که بین کلاس‌ها بر اساس مجموعه داده‌های آموزشی که در آن عضویت و ویژگی‌های کلاس مشاهده تعریف شده‌اند، تفاوت قائل شوند. بسیاری از روش های طبقه بندی ماهیت احتمالی دارند، به این معنی که احتمال عضویت در یک گروه خاص را تخمین می زنند.

خوشه‌بندی تلاش می‌کند تا دسته‌هایی را براساس شباهت‌های بین ویژگی‌های مشاهدات ایجاد کند. مشاهدات مشابه بیشتری با هم در یک گروه قرار می گیرند. گاهی اوقات روش‌های خوشه‌بندی برای تعیین تعداد گروه‌ها تلاش می‌کنند، و گاهی اوقات تحلیلگر یا محقق نیاز به ارائه این اطلاعات دارد. خوشه‌بندی فضایی توزیع ویژگی‌های فضایی را بررسی می‌کند و خوشه‌بندی غیرمکانی برای گروه‌بندی آنها به ویژگی‌های مشاهدات متکی است. فضایی و غیرمکانی ممکن است در روش های مختلفی با هم ترکیب شوند.

همانطور که در جدول 1 مشاهده می شود، رویکردهای طبقه بندی و خوشه بندی بسیاری از حوزه های مختلف GIS&T را لمس می کنند. از آنجایی که موضوع دارای دامنه وسیعی است، این بخش بر طبقه بندی کارتوگرافی تک متغیره تمرکز خواهد کرد. این یک نمای کلی از نحوه قرارگیری داده ها در دسته های مختلف ارائه می دهد که ممکن است به برنامه های پیچیده تر تعمیم داده شوند. قبل از حرکت به آن مثال‌ها، مفهوم زیربنایی شباهت باید مورد بحث قرار گیرد.

 

جدول 1. تکنیک های خوشه و طبقه بندی در مناطق مختلف جغرافیایی
حوزه هدف / شرح روش های مثال
آمار فضایی (بیلی و گترل، 1995؛ اوسالیوان و آنوین، 2010)   در تحلیل الگوی نقطه ای، روش هایی برای شناسایی حضور خوشه های فضایی با استفاده از فاصله بین نقاط استفاده می شود. روش‌های دیگر از خودهمبستگی فضایی برای شناسایی الگوهای خوشه‌ای در داده‌ها استفاده می‌کنند. تابع K، تجزیه و تحلیل چگالی هسته، تحلیل کوادرات، میانگین نزدیکترین همسایه، یا موران I
سنجش از دور (لو و ونگ، 2007؛ اسمیت، گودچایلد، و لانگلی، 2007) با استفاده از تصاویر چند باندی و داده های سنجش از راه دور انجام می شود. هر مشاهده یک پیکسل یا سلول در منطقه مورد مطالعه است و از ویژگی های آن پیکسل (مثلاً امضای طیفی) برای قرار دادن آن در یک کلاس استفاده می شود. طبقه بندی معمولاً طبقه بندی نظارت شده نامیده می شود و خوشه بندی طبقه بندی بدون نظارت نامیده می شود. طبقه بندی نظارت شده: رگرسیون لجستیک، ماشین های بردار پشتیبان، یا طبقه بندی جنگل تصادفی

طبقه بندی بدون نظارت: K-به معنای خوشه بندی

داده کاوی مکانی (میلر و هان، 2009) روش‌های تشخیص الگوها در داده‌ها شامل متغیرهای زیادی است، گاهی اوقات از اطلاعات مکان نیز استفاده می‌کند. طبقه بندی را یادگیری تحت نظارت و خوشه بندی را یادگیری بدون نظارت می نامند. یادگیری تحت نظارت: رگرسیون لجستیک، ماشین‌های بردار پشتیبان یا طبقه‌بندی‌کننده جنگل تصادفی. 

یادگیری بدون نظارت: K-means، خوشه بندی سلسله مراتبی، یا مبتنی بر چگالی (مانند DBSCAN)

ژئودموگرافی (الکسیو و سینگلتون، 2015) خوشه‌بندی برای کشف گروه‌های درون جمعیت، یا آنچه که بخش‌های جمعیتی نامیده می‌شود (مثلاً مسافران با خانواده‌های جوان) که به یک منطقه جغرافیایی (معمولاً یک واحد سرشماری) مرتبط هستند، استفاده می‌شود. تقسیم بندی: K-به معنای خوشه بندی
خوشه بندی آماری هدف از این خوشه بندی ممکن است کاهش پیچیدگی داده ها با ترکیب متغیرها در یک متغیر واحد (مانند تجزیه و تحلیل اجزای اصلی) باشد. این ناحیه با نواحی فوق نیز همپوشانی دارد. تکنیک‌های کاهش: مقیاس‌بندی چند بعدی، تحلیل عاملی، تجزیه و تحلیل مؤلفه‌های اصلی، خوشه‌بندی K-means یا تجزیه و تحلیل متمایز خطی

 

2.1 کاربردهای خوشه بندی و طبقه بندی

تشخیص بصری خوشه ها ممکن است وسوسه انگیز باشد، اما این می تواند گمراه کننده باشد. شکل 1 را در نظر بگیرید که داده های نقطه ای یکسان را در مقیاس های مختلف نشان می دهد. در شکل 1A (سمت چپ)، توزیع نقاط ممکن است به صورت خوشه ای در نظر گرفته شود، اما زمانی که مقیاس در شکل 1B (راست) تغییر می کند، توزیع ممکن است پراکنده یا حتی تصادفی در نظر گرفته شود. نحوه تعریف مرز یک منطقه مورد مطالعه می تواند بر نحوه تعریف خوشه های فضایی تأثیر بگذارد و به این اثرات لبه می گویند. روش های شرح داده شده در جدول 1 از روش های آماری برای اندازه گیری درجه خوشه بندی در انواع مختلف داده ها استفاده می کنند. این از مشکل تکیه بر تفسیر بصری جلوگیری می کند.

شکل های 1a و 1b.  توزیع یکسان نقاط در مقیاس های مختلف. به نظر می رسد (A) خوشه ای است و (B) به نظر پراکنده است. منبع: نویسنده 

برخی از خوشه‌بندی‌های فضایی برای تعیین اینکه آیا خوشه‌بندی وجود دارد یا اینکه خوشه‌ها کجا هستند، به مختصات x و y نقاط متکی است. داده ها ممکن است بتوانند از مختصات x و y نقاط و فاصله بین آنها برای شناسایی خوشه ها استفاده کنند. تشخیص خوشه‌ای پیچیده‌تر نیازمند درک روابط فضایی بین ویژگی‌ها یا پدیده‌ها، معمولاً با چندضلعی‌ها است. معمولاً این رابطه از طریق یک نمودار همسایگی یا ماتریس توصیف می‌شود که به روش خوشه‌بندی می‌گوید کدام ویژگی‌ها همسایه هستند یا خیر. این روابط و فواصل را می توان با یک توزیع تصادفی نظری برای بیان درجه خوشه بندی (مثلاً توزیع پواسون)، یا نوع متفاوتی از متریک (امتیاز Silhouette) مقایسه کرد.

خوشه بندی فضایی ممکن است شامل ویژگی ها یا متغیرهای غیر مکانی باشد. خوشه‌بندی غیرمکانی کاملاً بر ویژگی‌های داده‌های مشاهده‌شده تکیه می‌کند، اما از ایده‌هایی استفاده می‌کند که قبلاً برای کاربران GIS آشنا هستند، مانند فواصل اقلیدسی (به زیر مراجعه کنید). خوشه بندی در بسیاری از پدیده های دنیای واقعی دیده می شود. مفهوم انبوه سازی در جغرافیا این ایده است که مشاغل مشابه به منظور اشتراک منابع یا مشتریان (مثلاً نمایندگی های خودرو) در نزدیکی یکدیگر قرار می گیرند. مثال دیگر، جنایات مشابه معمولاً در نزدیکی یکدیگر واقع می شوند. اپیدمیولوژیست ها ممکن است علاقه مند شوند که در کجا گروه هایی از افراد آلوده وجود دارد که در مکان و زمان در نزدیکی یکدیگر قرار دارند که طبیعی نیستند. این خوشه ها ممکن است به منبعی از قرار گرفتن در معرض یا دلیل ناشناخته ای برای بیماری آنها اشاره کنند.

به طور مشابه، روش‌های طبقه‌بندی ممکن است برای پیش‌بینی اینکه آیا فردی به بیماری خاصی مبتلا است یا خیر، استفاده شود. بیماری‌های مختلف به‌عنوان کلاس‌های جداگانه در نظر گرفته می‌شوند و متغیرهای زیادی (مانند قد، وزن، سن، شغل، و غیره…) برای پیش‌بینی اینکه یک فرد در کدام طبقه قرار می‌گیرد استفاده می‌شود. طبقه‌بندی در GIS و نقشه‌برداری برای توسعه نقشه‌های موضوعی گروه مشابه استفاده می‌شود. انواع داده ها با هم و کد رنگی (در زیر به طور عمیق کاوش می شود). در نهایت، هر دو طبقه‌بندی و خوشه‌بندی در کاربردهای سنجش از دور برای گروه‌بندی سلول‌های شطرنجی مشابه در مناطق همگن مانند تجزیه و تحلیل پوشش زمین، ایجاد دسته‌هایی مانند جنگل‌های برگ‌ریز، آب یا زمین‌های بایر استفاده می‌شوند.

2.2 شباهت و فاصله

هدف کلی طبقه‌بندی و خوشه‌بندی این است که مشاهدات را در گروه‌هایی قرار دهیم که ویژگی‌های مشابهی دارند و در عین حال تفکیک گروه‌هایی که با یکدیگر متفاوت هستند به حداکثر برسد. این به طور طبیعی منجر به این سؤال می شود: چگونه دو مشاهده مشابه (یا غیر مشابه) هستند؟ یک رویکرد استفاده از متریک فاصله است که می تواند به عنوان معیاری برای تشابه بین جفت مشاهدات تفسیر شود. هر چه فاصله کمتر باشد این دو به هم شباهت بیشتری خواهند داشت. راه های زیادی برای محاسبه فاصله وجود دارد، اما یکی از آنها که اغلب در GIS&T استفاده می شود، فاصله اقلیدسی است. با توجه به مکان دو مشاهده یا نقطه مختلف که هر کدام دارای یک جفت مختصات i  هستند، می توان فاصله را مانند رابطه 1 محاسبه کرد.

\large \sqrt{\left ( x_1 - x_2 )^2} + {\left ( y_1 - y_2 \right )^2}\right     (معادله 1)

اگر نمای مکانی را گسترش دهیم، می‌تواند نه تنها یک موقعیت جغرافیایی فیزیکی، بلکه هر مکانی را در هر متغیر عددی در خود جای دهد. در این دیدگاه فاصله اقلیدسی بین هر تعداد متغیر محاسبه می شود. یکی دیگر از معیارهای رایج فاصله، فاصله منهتن است که در معادله 2 نشان داده شده است، و بسیاری دیگر وجود دارد.

\ چپ |  y_1 - y_2 \right |                (معادله 2)

رویکردهای رایج دیگری وجود دارد که ممکن است از فاصله به عنوان معیاری برای تشابه یا نزدیکی استفاده کنند یا نه. مقایسه برخی از الگوریتم های اصلی خوشه بندی و طبقه بندی فضایی در جدول 2 ارائه شده است.

جدول 2. روش های متداول خوشه بندی و طبقه بندی و رویکردهای آنها
الگوریتم یا روش مثال  استفاده کنید رویکرد
تجزیه و تحلیل کوادرات اندازه گیری خوشه بندی فضایی نقاط  منطقه مورد مطالعه را به یک شبکه تقسیم می کند، سپس تعداد نقاط هر سلول را می شمارد 
K-function وجود خوشه بندی فضایی نقاط  از هر نقطه از چندین فاصله یا تاخیر استفاده می‌شود (تصور کنید موج‌هایی در یک حوض از یک مشت سنگریزه به داخل پرتاب می‌شوند)، و نقاط در حلقه eac شمارش می‌شوند. این با شبیه سازی نقاط تصادفی در همان منطقه مقایسه شده است (شبیه سازی مونت کارلو).
من موران اطلاعات مکانی را با یک ویژگی ترکیب می کند مشابه روش های آماری سنتی تر و آزمون فرضیه ها.
K-Means خوشه بندی فضایی یا غیر فضایی برای تشخیص اینکه کدام داده به کدام خوشه تعلق دارد، بر معیار تشابه تکیه دارد. در زیر در این ورودی با عمق بیشتری بررسی شده است. 
DBSCAN خوشه‌بندی غیرمکانی (اما می‌توان از آن برای فضایی استفاده کرد)  مشابه تابع k، به دنبال نقاطی در فاصله دور می گردد. همچنین سعی می‌کند «نویز» یا نقاط تصادفی را که در داخل خوشه‌ها قرار نمی‌گیرند، پیدا کند. این نیاز به تنظیم پارامترهایی مانند حداقل تعداد نقاط برای در نظر گرفتن یک خوشه دارد. تنظیم این پارامترها ممکن است دشوار باشد و نتیجه را تغییر خواهد داد.
جنگل تصادفی طبقه بندی یک تکنیک محبوب طبقه بندی هوش مصنوعی از درخت های تصمیم برای شناسایی مهم ترین متغیرهایی که داده ها را در کلاس های مختلف مرتب می کنند، استفاده می کند.

3. طبقه بندی و خوشه بندی تک متغیره

روش های طبقه بندی کارتوگرافی یک روش ساده برای بررسی برخی روش های طبقه بندی و خوشه بندی ارائه می دهد. در کارتوگرافی، طبقه‌بندی فرآیندی است برای ساده‌سازی یا جمع‌آوری اطلاعات در گروه‌هایی که روی نقشه نمایش داده می‌شوند. جدول 3 برخی از رایج ترین رویکردهای مورد استفاده در نقشه کشی را ارائه می دهد. برای تشخیص این کلاس‌ها، به هر یک از اعضای یک گروه نماد نقشه یکسانی به اطلاعات جغرافیایی خود اختصاص داده می‌شود. به عنوان مثال، برای این نوع نگاشت، مقادیر تک متغیره از یک واحد جغرافیایی چند ضلعی مانند تراکت سرشماری ایالات متحده (ایالات متحده) گرفته می شود و به هر دسته یک رنگ اختصاص می یابد (نقشه برداری choropleth). نقشه‌بردار تعداد دسته‌ها را برای نقشه انتخاب می‌کند. سپس، روش طبقه بندی انتخاب شده، مرزهای طبقات را تعیین می کند (شکل 2). مرزها مقادیر پایین/شروع و بالایی/پایانی را برای هر گروه تعریف می کنند، گاهی اوقات این مقادیر را «شکست» می نامند (Brewer & Pickle, 2002). برای اطلاعات بیشتر، نگاه کنید نقشه برداری آماری (شمارش، عادی سازی، طبقه بندی ). 

 

جدول 3. روش های رایج طبقه بندی مورد استفاده در نقشه برداری و نقشه برداری کروپلث
نوع طبقه بندی  شرح
ارزش های منحصر به فرد  هر مقدار کلاس یا گروه خودش است و به هر گروه یک رنگ اختصاص می‌یابد. معمولاً برای داده های طبقه بندی شده (مثلاً داده های سطح اسمی) رزرو می شود.
دسته بندی دستی نقشه‌بردار محدوده‌های هر طبقه را به‌عنوان گروه‌های متقابل منحصربفرد مشخص می‌کند.
فاصله برابر از محدوده متغیر استفاده می کند و آن را بر تعداد کلاس ها تقسیم می کند و یک فاصله ایجاد می کند.
فاصله تعریف شده با این روش ابتدا بازه انتخاب می شود و تعداد کلاس هایی که از تعداد بازه های مورد نیاز برای پوشش محدوده به دست می آید، انتخاب می شود.
چندک یا صدک از درصد مقادیری که در محدوده‌های خاص قرار می‌گیرند، بر اساس تعداد کلاس‌های انتخاب شده استفاده می‌کند. تعداد مشاهدات یکسانی در هر دسته وجود خواهد داشت.
شکست های طبیعی / جنکس یک رویکرد الگوریتمی برای شناسایی نقاط شکست “طبیعی” در داده ها (جنکز و کاسپال، 1971). این شبیه به رویکرد K-means خوشه بندی است.
انحراف معیار یک رویکرد آماری با استفاده از میانگین داده‌ها و انحراف معیار. اغلب برای نشان دادن مقادیر شدید یا انحراف از میانگین استفاده می شود (الگوی واگرا در نمادشناسی).
مساحت مساوی این رویکرد از مساحت چند ضلعی ها برای تعیین شکست های کلاس استفاده می کند به طوری که هر گروه دارای نسبت مساوی از مساحت کل باشد (برویر و پیکل، 2002؛ لوید و استینک، 1977). جایگزینی برای عادی سازی متغیر توسط ناحیه چند ضلعی.
سر/دم می شکند تکنیک نسبتا جدیدی که برای متغیرهایی با توزیع اریب (دم سنگین) طراحی شده است (جیانگ، 2013).

 

 

شکل های 2A – 2D. روش‌های طبقه‌بندی داده‌ها برای گروه‌بندی داده‌ها با استفاده از (A) طبقه‌بندی دستی، (B) طبقه‌بندی بازه‌های مساوی، (C) فاصله تعریف‌شده، و به‌کاررفته در داده‌های سن متوسط ​​(D). منبع: نویسنده

 

اساسی ترین مورد، رویکرد ارزش یکتا است که در آن به هر مقدار یک نماد منحصر به فرد اختصاص داده می شود و برای هر مقدار یک کلاس یا دسته ایجاد می کند. در حالی که انجام این کار برای داده‌های عددی امکان‌پذیر است، معمولاً برای داده‌های طبقه‌بندی (سطح اسمی) رزرو می‌شود، در غیر این صورت ممکن است کلاس‌های منحصربه‌فرد زیادی وجود داشته باشد. طبقه بندی دستی به نقشه کش اجازه می دهد تا حد بالایی و پایینی مرزها یا نقاط شکست را تعریف کند. شکل 2A دو “شکست” را در 50 و 60 نشان می دهد که سه کلاس را ایجاد می کند. از آنجایی که این حدهای بالا و پایین متقابلاً منحصر به فرد هستند، کلاس اول از 18 تا 50 اجرا می شود، کلاس دوم از 51 (یا احتمالاً 50.000001) تا 60، و گروه سوم از 61 (یا احتمالاً 60.0000001) تا 86 اجرا می شود. یک مقدار رنگ به آن اختصاص داده می شود و در مورد داده های متوالی، رنگ ها از روشن به تیره می روند.

فاصله مساوی و بازه تعریف شده یک سناریوی طبقه بندی ساده بر اساس ویژگی های داده ها ارائه می دهد. Equal Interval تعداد کلاس‌ها را تنظیم می‌کند و محدوده داده بر این عدد تقسیم می‌شود (به عنوان مثال (86-18)/5=17)، یک بازه 17 ایجاد می‌کند. مقادیر در این کلاس‌های شناخته شده قرار می‌گیرند، همانطور که در شکل 2B نشان داده شده است. در رویکرد بازه تعریف شده، نقشه‌بردار بازه زمانی را انتخاب می‌کند، سپس نرم‌افزار تعداد کلاس‌هایی را که متناسب هستند را تعیین می‌کند. در شکل 2C، فاصله زمانی 34 است که دو کلاس را ایجاد می کند.

سایر رویکردها بر توزیع متغیر تکیه دارند. توزیع فرکانس به صورت هیستوگرام تجسم می شود. هیستوگرام داده‌ها را به سطل‌هایی با عرض مساوی (مثلاً بین 40 تا 45) تقسیم می‌کند و تعداد مقادیری را که در هر سطل قرار می‌گیرد، شمارش می‌کند. این تعداد در ارتفاع میله منعکس می شود. شکل 3 یک هیستوگرام برای متغیر سن متوسط ​​را نشان می دهد. صدک ها درصدی از داده ها هستند که کمتر از مقدار مربوطه می شوند. برای تعریف شکست های کلاس با استفاده از صدک، تعداد کلاس ها انتخاب می شود، سپس محدوده 0 تا 100٪ بر این عدد تقسیم می شود. در شکل 3A، 3 کلاس به صدک های 25%، 50% و 75% منجر می شوند. اینها به ترتیب با مقادیر 33، 38 و 44 مطابقت دارند. این بدان معناست که 25 درصد از مشاهدات در سمت چپ 33 در هیستوگرام، 50 درصد در سمت چپ 38 و 75 درصد در سمت چپ 44 قرار می گیرند. به خاطر داشته باشید که ارتفاع میله تعداد کل واقعی مشاهدات را نشان می دهد. در 86، 100٪ از مشاهدات در سمت چپ هیستوگرام قرار می گیرند. شکل 2B صدک هایی را برای 5 کلاس نشان می دهد، اما ایده ثابت باقی می ماند.

شکل های 3a – 3c. توزیع فراوانی داده‌های میانگین سنی و شکست‌های مرتبط با (A) صدک‌های کلاس 3، (B) صدک‌های کلاس 5، و (C) روش شکست‌های طبیعی جنکس کلاس 5. منبع: نویسنده 

 

در نهایت، روش جنکس یک رویکرد الگوریتمی تکراری است که نقاط شکست طبیعی را در داده ها شناسایی می کند (جنکز و کاسپال، 1971). این روش به ایده شناسایی خوشه‌ها (گروه‌ها) در داده‌ها نزدیک‌تر است که منجر به فواصل ناهموار می‌شود. نتیجه روش جنکس به کار رفته در متغیر سن متوسط ​​در شکل 3C نشان داده شده است. الگوریتم پیچیده است، اما رویکرد مشابهی به نام خوشه‌بندی K-means وجود دارد که می‌توان آن را نشان داد. K-means همچنین به طور گسترده در مناطق دیگر استفاده می شود. k به تعداد کلاس ها اشاره دارد. رویکردهایی برای کمک به انتخاب k وجود دارد، اما اینها به طور گسترده در بسته‌های GIS (نمرات silhouette یا نمودارهای آرنج) در دسترس نیستند.

با شروع یک مجموعه داده کوچکتر، شکل 4 20 مشاهدات را در امتداد یک خط اعداد نشان می دهد. K-means خوشه بندی با انتخاب k شروع می شود و در این مثال از سه استفاده می شود. الگوریتم اولین تکرار را با تولید سه مقدار تصادفی که در محدوده متغیر قرار می گیرند، آغاز می کند. در شکل 5، سه مقدار تصادفی تولید شده است (یک نقطه آبی روشن، زرد و خاکستری تیره). اینها به عنوان مرکز هر یک از گروه ها برای اولین تکرار عمل خواهند کرد. سپس، الگوریتم فاصله مشاهده اولیه تا هر یک از مراکز خوشه را محاسبه می کند. شکل 6 این فاصله را به صورت فلش از اولین مشاهده در سمت چپ به هر یک از مراکز نشان می دهد.

شکل 4. بیست مشاهده در امتداد یک خط اعداد برای نشان دادن الگوریتم K-means. منبع: نویسنده 

شکل 5. بیست مشاهده با سه مرکز خوشه ای تصادفی در امتداد خط اعداد. این اولین مرحله در الگوریتم K-means را نشان می دهد. منبع: نویسنده

شکل 6. محاسبه فاصله از اولین مشاهده در سمت چپ خط اعداد تا هر مرکز خوشه تصادفی. منبع: نویسنده 

 

سپس، الگوریتم هر مشاهده را بر اساس فاصله به نزدیکترین مرکز خوشه اختصاص می دهد (شکل 7A). اینها اولین مجموعه از خوشه ها را ایجاد می کنند و الگوریتم میانگین را در هر خوشه محاسبه می کند (خطوط عمودی در شکل 7B نشان دهنده میانگین هر خوشه است). حال، میانگین به مرکز هر خوشه تبدیل می‌شود و فاصله هر مشاهده تا این مراکز جدید دوباره محاسبه می‌شود. باز هم مشاهدات بر اساس فاصله به گروه های مختلف منتقل می شوند. میانگین برای هر یک از خوشه ها دوباره محاسبه می شود، و دوباره فاصله، و غیره. این فرآیند تا زمانی تکرار می‌شود که هیچ تغییری در آن خوشه مشاهده نشود. الگوریتم یک تکرار جدید را آغاز می کند و مقادیر تصادفی را برای هر مرکز خوشه ایجاد می کند. پس از تکرارهای زیاد، “بهترین” خوشه های مناسب را برمی گرداند.

شکل 7a – 7b. در طول الگوریتم K-means مشاهدات به نزدیکترین مرکز خوشه خود، (A) سمت چپترین مشاهده به نزدیکترین مرکز خوشه (A) و (B) همه مشاهدات به نزدیکترین مرکز خوشه خود و میانگین هر یک اختصاص داده می شود. گروه محاسبه می شود. منبع: نویسنده

 

در هر تکرار، الگوریتم اندازه گیری را محاسبه می کند تا تعیین کند که این خوشه ها چقدر با داده ها مطابقت دارند. برای انجام این کار، الگوریتم از واریانس هر خوشه و واریانس کل استفاده می کند. واریانس فاصله هر یک از اعضای گروه را تا میانگین خوشه اندازه گیری می کند. واریانس معیاری برای اندازه گیری پراکندگی داده ها است. شکل 8 این گسترش را به صورت فلش نشان می دهد و هر گروه دارای عرض متفاوتی است. واریانس کل مجموع واریانس های گروه است و تکراری که کمترین واریانس کل را داشته باشد به عنوان بهترین گزینه برگردانده می شود. نتیجه، محدوده‌های کلاسی است که می‌توانند عرض بازه‌های متفاوت و نقاط شروع و پایان غیرمعمول داشته باشند.

شکل 8. الگوریتم K-means از واریانس خوشه های مختلف (همانطور که توسط فلش ​​ها نشان داده شده است) برای تعیین عملکرد این گروه بندی ها استفاده می کند. منبع: نویسنده

 

از کدام روش باید استفاده کرد؟ اینکه کدام روش انتخاب شده و چه تعداد کلاس انتخاب شده بر ظاهر نهایی نقشه و احتمالاً نحوه تفسیر داده ها تأثیر خواهد داشت. این را می توان از هر دو ملاحظات اخلاقی و عملی در نظر گرفت (هارلی، 1991؛ مونمونیر، 1991). برای مقایسه، شکل 9 داده های میانگین سنی شهرستان هیلزبورو، فلوریدا را با استفاده از سرشماری ایالات متحده نشان می دهد. هر تراکت بسته به سن متوسط ​​آن تراکت در یک کلاس قرار می گیرد. کران کلاس بسته به روش تغییر می کند و نتایج می توانند تفسیرهای بسیار متفاوتی از داده های اساسی ایجاد کنند. به عنوان مثال، شکل 9B شکست های کلاس را با استفاده از روش Equal Interval برای 5 کلاس نشان می دهد. این نقشه این تصور را ایجاد می کند که بیشتر شهرستان ها در گروه سنی 27 تا 41 سال قرار دارند. در حالیکه،

انتخاب روشی که باید اعمال شود ممکن است دشوار باشد. اسلوکام و همکاران (2009، ص 68) دستورالعمل هایی برای نقشه برداری ارائه می دهد. گاهی اوقات شکل توزیع فرکانس (مثلاً یک توزیع نرمال برای صدک مناسب است)، یا سایر مشخصات داده ها ممکن است کمک کند. Monmonier (1991) پیشنهاد می کند که یک “توالی پویا” از نقشه ها به خواننده ارائه شود که نمای افراطی از داده ها را نشان می دهد (Monmonier, 1991, p. 4).

صرف نظر از روش، باید مراقب بود که قابلیت تفسیر کلاس ها را متعادل کرد، در حالی که اجازه داد داده ها خودشان صحبت کنند. در مورد متغیر سن متوسط، استفاده از کلاس های انتخاب شده به صورت دستی که منعکس کننده مراحل زندگی هستند (مثلا سن رای دادن در ایالات متحده 18 سال یا سن بازنشستگی 66 سال است) منطقی است و نقشه خوان به راحتی قابل درک است. این به معنای برخی مجوزهای هنری است که همیشه در دسترس یا مناسب در سایر زمینه‌های طبقه‌بندی و خوشه‌بندی نیست.

 

شکل 9A-9D. مقایسه روش‌های طبقه‌بندی نقشه‌برداری با استفاده از (الف) شکست‌های طبیعی جنکس، (ب) فاصله مساوی، (ج) دستی، و (د) درصد/چندک. منبع: نویسنده

 

4. طبقه بندی و خوشه بندی چند متغیره

بسیاری از روش‌های طبقه‌بندی و خوشه‌بندی برای داده‌های چند متغیره اعمال می‌شوند. رویکرد K-means را می توان گسترش داد تا بسیاری از ویژگی ها را شامل شود و الگوریتم یکسان باقی می ماند. همچنان به دنبال مرکز هر خوشه است. شکل 10 خوشه هایی از مشاهدات از سه متغیر را به صورت سه بعدی نشان می دهد. خوشه ای که با شکل مثلث به رنگ آبی سایه می زند با خوشه نقطه سبز در امتداد متغیر اول همپوشانی دارد، اما نتایج بسیار متفاوتی برای متغیر سوم (محور z) دارد. این ترکیبی از ویژگی‌هایی است که می‌تواند هنگام برخورد با داده‌های چند متغیره، خوشه‌های منحصر به فرد متقابل ایجاد کند.

شکل 10. خوشه‌بندی و طبقه‌بندی چند متغیره تلاش می‌کند تا گروه‌ها را بر اساس بیش از یک متغیر جدا کند. منبع: نویسنده.

 

 

منابع: 

الکسیو، ا.، و سینگلتون، AD (2015). تجزیه و تحلیل ژئودموگرافیک. در C. Brundson & AD Singleton (Eds.), Geocomputation. آغازگر عملی (صص 137-151). لندن: سیج.

بیلی، تی سی و گترل، ای سی (1995). تجزیه و تحلیل داده های فضایی تعاملی: Longman Scientific & Technical Essex.

بروور، کالیفرنیا، و پیکل، ال. (2002). ارزیابی روش‌های طبقه‌بندی داده‌های اپیدمیولوژیک روی نقشه‌های کوروپلث به صورت سری. سالنامه انجمن جغرافیدانان آمریکایی، 92 (4)، 662-681.

هارلی، جی بی (1991). آیا یک اخلاق نقشه کشی وجود دارد؟ دیدگاه های نقشه کشی . (10)، 9-16.

جنکس، جی اف، و کاسپال، اف سی (1971). خطا در نقشه های کوروپلتیک: تعریف، اندازه گیری، کاهش. سالنامه انجمن جغرافیدانان آمریکایی، 61 (2)، 217-244.

جیانگ، بی (2013). شکستگی‌های سر/دم: یک طرح طبقه‌بندی جدید برای داده‌ها با توزیع دم سنگین. جغرافی‌دان حرفه‌ای، 65 (3)، 482–494.

لوید، آر، و استینک، تی (1977). مقایسه بصری و آماری نقشه های کروپلث. سالنامه انجمن جغرافیدانان آمریکایی، 67 (3)، 429-436.

لو، دی، و ونگ، کیو (2007). بررسی روش‌ها و تکنیک‌های طبقه‌بندی تصویر برای بهبود عملکرد طبقه‌بندی. مجله بین المللی سنجش از دور، 28 (5)، 823-870.

Miller, H., & Han, J. (2009). داده کاوی جغرافیایی و کشف دانش (دوم): CRC Press.

Monmonier، M. (1991). اخلاق و طراحی نقشه: شش راهبرد برای مقابله با راه حل سنتی تک نقشه. دیدگاه های نقشه کشی . (10)، 3-8.

O’Sullivan، D.، & Unwin، D. (2010). تجزیه و تحلیل اطلاعات جغرافیایی (دوم). هوبوکن، نیوجرسی: جان وایلی و پسران.

Slocum، TA، McMaster، RM، Kessler، FC، Howard، HH، و McMaster، RB (2009). نقشه کشی موضوعی و تجسم جغرافیایی (سوم). رودخانه فوقانی زین، نیوجرسی: سالن پرنتیس.

اسمیت، ام جی د، گودچایلد، ام اف، و لانگلی، پی (2007). تجزیه و تحلیل جغرافیایی: راهنمای جامع اصول، تکنیک ها و ابزارهای نرم افزاری: Troubador Publishing Ltd.

اهداف یادگیری: 
  • تفاوت بین طبقه بندی و خوشه بندی را شرح دهید.
  • کاربرد فاصله در طبقه بندی و خوشه بندی را توضیح دهید.
  • روش های طبقه بندی را در حالت تک متغیره اعمال کنید.
  • مقایسه روش های مورد استفاده در طبقه بندی کارتوگرافی
  • دسته بندی روش های طبقه بندی و خوشه بندی مورد استفاده در حوزه های مختلف GIS&T.
  • نتایج طبقه بندی های نقشه برداری را با هم مقایسه کنید.
سوالات ارزشیابی آموزشی: 
  1. با استفاده از فهرستی از اعداد، کران بالا و پایین 5 کلاس را با رویکرد فاصله مساوی محاسبه کنید. هر عدد را در کلاس مناسب خود قرار دهید.
  2. بحث کنید که چگونه طبقات پوشش زمین مقوله های منحصر به فرد متقابل هستند.
  3. فاصله اقلیدسی بین جفت مشاهدات مختلف را با استفاده از انواع مختلف متغیرهای عددی (سن، قد، وزن، و غیره) محاسبه کنید.
  4. حداقل دو نقشه choropleth ایجاد کنید که از تکنیک های طبقه بندی مختلف استفاده می کند. نتایج را مقایسه و مقایسه کنید. این را می توان به صورت آنلاین از طریق پلتفرم هایی مانند ArcGIS Online انجام داد.
  5. منطقه ای را که از روش های طبقه بندی و خوشه بندی استفاده می شود، شناسایی کنید. فهرستی از روش های رایج ایجاد کنید. مزایا و معایب هر کدام چیست؟

آموزش آمار فضایی


Fatal error: Uncaught TypeError: ltrim(): Argument #1 ($string) must be of type string, WP_Error given in /home/gisland1/public_html/wp-includes/formatting.php:4482 Stack trace: #0 /home/gisland1/public_html/wp-includes/formatting.php(4482): ltrim(Object(WP_Error)) #1 /home/gisland1/public_html/wp-content/themes/xtra/functions.php(3349): esc_url(Object(WP_Error)) #2 /home/gisland1/public_html/wp-content/themes/xtra/single.php(19): Codevz_Core_Theme::generate_page('single') #3 /home/gisland1/public_html/wp-includes/template-loader.php(106): include('/home/gisland1/...') #4 /home/gisland1/public_html/wp-blog-header.php(19): require_once('/home/gisland1/...') #5 /home/gisland1/public_html/index.php(17): require('/home/gisland1/...') #6 {main} thrown in /home/gisland1/public_html/wp-includes/formatting.php on line 4482