طبقه بندی داده ها

طبقه بندی داده ها


طبقه بندی داده ها

طبقه بندی داده ها-موسسه چشم انداز هزاره سوم ملل-آموزش کاربردی GIS و RS

مقدمه

هنگامی که قصد تحلیل یک سری بزرگ از داده­ ها وجود دارد طبقه ­بندی به ما کمک خواهد کرد، زیرا که طبقه ­بندی روشی استاندارد برای نظم دادن به داده ­ها می­ باشد. می­ توان گفت که با این کار، داده­ ها به شکل قابل استفاده و ساده تر بیان می­ شوند و اعضای مشابه در کنار هم قرار می­ گیرند. در این فصل به روش­ هایی برای طبقه ­بندی کردن داده­ ها با دیدگاه آماری و مکانی پرداخته شده است.

دوره-آموزش-حرفه-ای-gis

الف) طبقه ­بندی داده ­ها با روش آماری (غیر مکانی)

گاهی اوقات آن­قدر داده­ هایی که با آن­ها سر و کار وجود دارد از نظر تعداد زیاد هستند که فرد دچار سردرگمی می­ شود، بنابراین آن­ها را در قالب جدول فراوانی می ­توان به شکل منظمی در آورد. در جدول زیر رطوبت نسبی شهر شیراز از سال 1350 تا سال 1389 به صورت زیر درج شده است.

ساده ترين راه تنظيم آماری داده­ ها مرتب كردن آن­ها به صورت صعودي (نزولي) است. اين كار در جدول 4-2 انجام شده است. از اين جدول با زحمتي كمتر می­ توان فهميد كه کمترین و بیشترین مقدار رطوبت در شهر شیراز کدام است؟ مقدار تفاوت بين آنها چقدر است.

برای طبقه ­بندی کردن داده­ ها باید چند گام را انجام داد که به شرح زیر است:

طبقه بندی داده ها

طبقه بندی داده ها

– تصمیم ­گیری درباره تعداد طبقات

تصمیم ­گیری راجع به تعداد طبقات باید با دقت انجام شود. اگر تعداد طبقات کم انتخاب شود، گرچه انجام محاسبات ساده ­تر خواهد بود ولی اندازه های کمی به صورت فشرده در آمده و اطلاعات مورد نظر با دقت لازم به دست نخواهد آمد. بالعکس اگر تعداد طبقات زیاد انتخاب شود ضمن اینکه محاسبات و نتیجه­ گیری مشکل خواهد شد نتیجه ­ای که از رده­ بندی مورد نظر است حاصل نمی ­آید زیرا که هدف از رده ­بندی، تلخیص و ساده نمودن اطلاعات آماری برای محاسبات است. یکی از روش­ها که برای طبقه­ بندی کردن داده ­ها به ما کمک می­ کند قاعده استورجس است.

برای ساختن یک جدول فراوانی استورجس پیشنهاد کرد که بهترین تعداد طبقات می­ تواند تقریباً به وسیله معادله زیر تعیین شود که در آن N حجم (تعداد) جامعه است

در جدول زیر تعداد رده ­ها با توجه به حجم جامعه مشخص شده است.

همان طور که در جدول بالا مشاهده شده است تعداد طبقات متناسب با حجم نمونه افزایش نمی­ یابد. به عنوان نمونه تعداد رده­ ها برای حجم جامعه 1000 برابر 11 رده و برای حجم جامعه 2000 برابر با 12 رده بدست آمده است. از این رو برای رفع این مشکل قاعده تصحیح استورجس مطرح شد که به شرح زیر است.

1) تصحیح روش استورجس

برای این که روش استورجس اصلاح شود پارامتر مهمی به عنوان (R) دامنه تغییرات مطرح شد.

در فرمول بالا منظور Xmax بیشترین مقدار داده و Xmin کمترین مقدار داده مشاهده شده می­باشد. فرمول محاسباتی با این روش به شکل زیر است که در آن منظور از K تعداد رده­ های به دست آمده با استفاده از روش تصحیح استورجس است. R دامنه تغییرات و N حجم جامعه است.

2) روش نمایی

در روش نمایی به دنبال اولین توانی هستیم که اگر عدد 2 به توان آن عدد برسد از حجم جامعه بزرگتر شود. به طور ساده حجم جامعه برابر با 25 است اگر بخواهیم تعداد رده ­ها را با روش نمایی به دست آورد کافی ست این مقایسه ساده را انجام داد.

عدد 2 به توان 5 برابر با 32 و عدد 2 به توان 4 برابر با 16 می باشد چون به دنبال اولین توانی هستیم که جواب به دست آمده از آن از حجم جامعه 25 تا بزرگتر باشد بنابراین تعداد رده­ هاد برابر با 5 می­ باشد.

3) با توجه به تجربه

گاهی اوقات داشتن اطلاعات کافی از موضوع مورد بررسی یک دلیل برای طبقه ­بندی کردن داده ­ها محسوب می­ شود.

– تعیین بعد طبقه

بعد از مشخص شدن تعداد طبقات، لازم است فاصله بین طبقات (h) تعیین شود. با توجه به دامنه تغییرات داده­ ها (R) و تعداد طبقه­ های به دست آمده که آن را با (K) نشان می­ دهیم این کار به سادگی امکان پذیر است.

در محاسبه فاصله طبقات معمولاً نتیجه تقسیم را به عدد بعدی گرد می­ شود. این گرد کردن سبب می­ شود که تمام داده­ ها در جدول آورده شوند. چنانچه عمل تقسیم تعداد طبقات بر دامنه تغییر، بدون باقیمانده باشد یک طبقه دیگر به جدول اضافه می­ شود تا جدول در برگیرندۀ تمام داده­ ها باشد.

دوره-آموزش-حرفه-ای-gishttps://gisland.org/

– انتخاب نقطۀ شروع

نقطه شروع می­ تواند کمترین نمره یا نمره ­ای کمی پایین ­تر از آن باشد چنین نقطه ­ای حد پایین اولین طبقه تعریف می ­شود.

– بعد طبقه به نقطه شروع اضافه شود.

نقطه شروع را با بعد طبقه جمع کرده تا حدود پایین طبقه دوم حاصل شود. حدود پایین طبقه دوم را با بعد طبقه جمع کرده تا حدود پایین طبقه سوم به دست آید و به همین طریق ادامه داده می­ شود که حدود پایین تمام طبقات به دست آید.

– حدود بالا طبقات ثبت شود.

با توجه به مقدار حدود پایین طبقه بعدی حدود بالای طبقه قبلی به راحتی به دست خواهد آمد.

– به ازای هر نمره که در طبقه مخصوص به خود قرار دارد یک خط نشان رسم شود.

– از روی تعداد خط نشان­ه ای هر طبقه فراوانی طبقه ثبت می­ شود.

بعد طبقه عبارت ست از اختلاف حدود پایین یا کرانه ­ی پایین دو طبقه متوالی است.

حدود پایین طبقات، عبارت از کوچک ترین اعدادی که به طبقات مختلف تعلق دارند.

حدود بالای طبقات، عبارت از بزرگترین اعدادی که به طبقات مختلف تعلق دارند.

هرگاه یک مقدار مساوی به حدود بالای طبقات اضافه و همان مقدار از حدود پایین طبقات طوری کم شود که فاصله طبقات متوالی از بین برود کرانه های طبقات به دست می ­آید.

نقطه میانی طبقه: نقطه میانی طبقه عبارت ست از نصف مجموع حد بالا و پایین طبقه است.

چند نکته راجع به طبقه­ بندی کردن داده ­ها باید رعایت شود که به شرح زیر است.

– طبقات باید ناسازگار باشند به این معنی که هر نمره بایستی فقط به یکی از طبقات تعلق داشته باشد.

– تمام طبقات باید دارای بعد یکسان باشند. بعضی اوقات چنین کاری ممکن نیست و مثلا ممکن است طبقه ­ای به صورت (65 سال به بالاتر ) داشته باشیم.

– سعی شود برای حدود طبقات اعداد مناسبی انتخاب گردند.

– تعداد طبقات باید بین 5 تا 20 باشد.

7 نظرات

دیدگاهتان را بنویسید