داده های گمشده برای پیش بینی قیمت مبتنی بر موقعیت جغرافیایی با استفاده از روش KNN–MCF

خلاصه

پیش بینی دقیق قیمت مسکن برای تدوین سیاست های اقتصادی ملی بسیار مهم است. در این مقاله روشی موثر برای پیش‌بینی قیمت فروش مسکن ارائه می‌کنیم. الگوریتم ما شامل رمزگذاری یک‌طرفه برای تبدیل داده‌های متنی به داده‌های عددی، همبستگی ویژگی‌ها برای انتخاب تنها مرتبط‌ترین متغیرها و تکنیکی برای غلبه بر داده‌های از دست رفته است. رویکرد ما روشی موثر برای مدیریت داده‌های از دست رفته در مجموعه داده‌های بزرگ با الگوریتم K-نزدیک‌ترین همسایه بر اساس مرتبط‌ترین ویژگی‌ها (KNN-MCF) است. تا آنجایی که به ما مربوط می شود، هیچ تحقیق قبلی که بر ویژگی های مهمی که با مشاهدات گمشده سر و کار دارند متمرکز شده باشد، وجود نداشته است. در مقایسه با الگوریتم‌های پیش‌بینی یادگیری ماشین معمولی، دقت پیش‌بینی روش پیشنهادی با الگوریتم جنگل تصادفی 92.01 درصد است.

کلید واژه ها:

پیش بینی قیمت مسکن ; رسیدگی به داده های از دست رفته ؛ جنگل تصادفی

1. معرفی

املاک و مستغلات یکی از نیازهای اصلی انسان است. علاوه بر این، این روزها ثروت و موقعیت یک فرد را نشان می دهد. پس انداز در اموال معمولاً سودآور است زیرا ارزش آن بلافاصله کاهش نمی یابد. بی ثباتی در قیمت ملک می تواند بر چندین سهامدار خانوار، سرمایه گذاران و سیاست گذاران تأثیر بگذارد. علاوه بر این، اکثر سرمایه گذاران ترجیح می دهند در بخش واقعی سرمایه گذاری کنند. بنابراین، پیش‌بینی بهای تمام شده املاک و مستغلات یک شاخص اقتصادی ضروری است. برای پیش‌بینی قیمت خانه، به یک مجموعه داده سازمان‌یافته خوب از املاک و مستغلات نیاز داریم. در این کار، ما از یک مجموعه داده در دسترس عموم از Kaggle Inc. [ 1]. این شامل 3000 مثال آموزشی با 80 ویژگی است که بر قیمت املاک تأثیر می گذارد. با این حال، تکنیک‌های پیش‌پردازش داده‌ها مانند رمزگذاری یک‌طرفه، همبستگی ویژگی‌ها و مدیریت داده‌های از دست رفته باید برای به دست آوردن یک نتیجه خوب اعمال شوند.

رمزگذاری تک داغ پرکاربردترین روش رمزگذاری باینری برای تبدیل داده های متنی به داده های عددی است [ 2 ]. انتخاب ویژگی‌ها ابعاد فضای ویژگی را کاهش می‌دهد و داده‌های غیرضروری، نامرتبط یا نویزدار را حذف می‌کند. این تأثیر فوری بر روی یک پیش‌بینی دارد: بهبود کیفیت داده‌ها، شتاب فرآیند یادگیری ماشین (ML) و افزایش درک پیش‌بینی [ 3 ، 4 ]]. علاوه بر مشکلات پیش پردازش ذکر شده در بالا، داده های از دست رفته یک مشکل هستند، زیرا تقریباً تمام رویکردهای آماری معمولی اطلاعات کاملی را برای همه ویژگی های مربوط به بررسی فرض می کنند. مشاهدات مبهم نسبتاً کمی روی برخی متغیرها می تواند حجم نمونه را به میزان قابل توجهی کاهش دهد. بر این اساس، دقت اطمینان آسیب می بیند، قدرت آماری کمرنگ می شود و ارزیابی پارامترها ممکن است تحت تأثیر قرار گیرد [ 5 ].

در رویکرد خود، ما از الگوریتم همبسته ترین ویژگی های مبتنی بر KNN (KNN-MCF) برای مقابله با داده های از دست رفته استفاده کردیم. ایده اصلی این بود که فقط از معنی‌دارترین متغیرهای یافت شده با استفاده از شبیه‌سازی برای مدیریت داده‌های موجود با الگوریتم KNN استفاده شود. در این روش پیشرفته، دقت پیش‌بینی قیمت مسکن به طور مشخص بهتر از روش‌های سنتی مدیریت داده‌های گمشده، مانند میانگین، میانه و حالت است. ما روش خود را با روش‌های میانگین سنتی و KNN با پیاده‌سازی آنها بر روی چندین الگوریتم یادگیری ماشین مقایسه کردیم.

سازماندهی بقیه این مقاله به شرح زیر است: کارهای مرتبط در بخش 2 مورد بحث قرار گرفته است. بخش 3 شامل مجموعه داده ها و روش های مورد استفاده در این کار است. بخش 4 نتایج را نشان می دهد و بخش 5 این مقاله را با نتیجه گیری و بحث مختصری در مورد مسیرهای کاری آینده به پایان می رساند.

2. آثار مرتبط

ما برخی از کارهای مرتبط را که سعی در پیش‌بینی قیمت مسکن با تکنیک‌های پیش‌پردازش داده‌ها در این بخش داشتند، مرور کردیم. بررسی کردیم که چه کارهایی انجام شده است و چه چیزی از این تلاش ها می توان آموخت. یک بحث کاملتر در مورد روشهای داده از دست رفته را می توان در [ 6 ، 7 ] یافت. داده های از دست رفته یا ناقص یک اشکال رایج برای بسیاری از موارد دنیای واقعی در طبقه بندی الگو است [ 8 ، 9 ، 10 ]. در [ 11 ]، نویسنده بیشترین پارامترهای کلان اقتصادی را برشمرده است که بر نوسانات قیمت مسکن تأثیر می گذارد. در [ 12]، محققان سعی کردند با استفاده از چندین تکنیک یادگیری ماشینی، قیمت فروش خانه ها را پیش بینی کنند. داده های کار ما و کار آنها یکی است. با این حال، نویسندگان از یک راه ساده برای جلوگیری از داده های از دست رفته استفاده کردند. آنها فقط مشاهداتی را که ارزش گمشده داشتند حذف کردند. این روش منجر به کاهش اندازه مجموعه داده شد.

حذف مشاهدات می تواند باعث ارزیابی هایی با میانگین خطاهای نسبتاً بزرگ به دلیل کاهش حجم نمونه شود [ 13 ]. حذف ردیف‌هایی در مجموعه داده‌ای که داده‌های گمشده دارند، پیامدهای تعصب‌آمیز یا نارضایتی به همراه دارد، حتی اگر چنین تکنیک‌هایی هنوز معمولاً در تولید نرم‌افزار استفاده می‌شوند [ 14 ]. ما این روش را به عنوان “تحلیل کامل موردی” می شناسیم. این استراتژی برخی از متغیرهایی را که برای برآورده کردن پیش‌بینی‌های ضروری برای شفاف‌سازی رضایت‌بخش مورد نیاز است، حذف می‌کند [ 13 ]. در تعدادی از مطالعات، انتساب مقادیر از دست رفته داده های عددی به طور منظم با استفاده از جایگزینی میانگین [ 14 ] بررسی شده است.]. نکته منفی اولیه این است که این استراتژی می تواند توزیع را برای صفتی که برای انتساب استفاده می شود با قضاوت نادرست انحراف استاندارد تغییر دهد [ 15 ]. علاوه بر این، انتساب متوسط برای افزایش دوام اجرا می شود، زیرا نقاط پرت مجموعه داده ممکن است بر مقدار میانگین تأثیر بگذارد. انتساب حالت عموماً برای ویژگی‌های طبقه‌بندی به‌جای انتساب میانگین و انتساب میانه استفاده می‌شود [ 16 ].

نقطه ضعف این روش این است که نمی تواند وابستگی های بین مقادیر ویژگی را کنترل کند [ 7 ]. علاوه بر این، مقاله [ 17 ] مجموعه داده آزمایشی را با برخی از داده های گمشده مورد بحث قرار داد و مقادیر درصد گمشده متنوعی را در کار خود انتخاب کرد. میانگین، میانه و انحراف معیار برای هر مقدار اختصاص داده شد. آنها برای هر مورد نتایج متفاوتی به همراه داشتند. در [ 5 ]، مکانیسم های داده های گمشده و الگوهای داده های از دست رفته به خوبی توضیح داده شده است. نویسندگان این مقاله برخی از تکنیک‌های پیشرفته را برای مدیریت داده‌های از دست رفته، مانند حداکثر احتمال و همچنین انتساب چندگانه در نظر گرفتند. طبق [ 18]، می‌توانیم دو ویژگی مهم روش KNN را فهرست کنیم: تابع impute KNN می‌تواند بدون زحمت با ویژگی‌های کمی و کیفی مقابله کرده و آن‌ها را پیش‌بینی کند، و این روش می‌تواند مستقیماً تعدادی از مقادیر از دست رفته را کنترل کند. حتی اگر ورودی KNN به طور گسترده برای مقابله با داده های از دست رفته مورد استفاده قرار گرفته است ، هنگامی که بر روی یک مجموعه داده بزرگ اجرا می شود ، نکات منفی [ 19 ، 20 ، 21 ] وجود دارد .

به منظور مقایسه روش خود با تکنیک‌های فعلی، ابتدا از یک روش ساده، میانگین همه مشاهدات غیرمفقود، برای رسیدگی به داده‌های گمشده استفاده کردیم. عیب اصلی این روش این است که تمام داده های از دست رفته با مقدار میانگین یکسان پر شدند [ 22 ]. بنابراین در حال حاضر از این روش در حوزه علم داده استفاده زیادی نمی شود. روش دومی که برای محاسبه داده های از دست رفته استفاده کردیم، الگوریتم KNN بود. در این روش، ما تابع الگوریتم KNN را بررسی کردیم تا مقادیر گمشده را به نام KNN impute [ 18 ] درج کنیم.]. اگر یک ویژگی جزئی وجود داشته باشد، این تکنیک نزدیک‌ترین K نمونه‌های خود را از نمونه‌های آموزشی با مقادیر شناخته‌شده در ویژگی‌هایی که باید نسبت داده شوند، انتخاب می‌کند، به طوری که فاصله را کاهش می‌دهند. پس از به دست آوردن K نزدیکترین همسایگان، یک مقدار جایگزین باید برای بازیابی مقدار مشخصه گمشده ارزیابی شود. نوع ارزش جایگزینی به نوع داده های مورد استفاده بستگی دارد – میانگین می تواند برای داده های پیوسته و حالت برای داده های کیفی استفاده شود.

بر اساس مطالعات ذکر شده در بالا، متوجه شدیم که می‌توانیم با انتخاب مهم‌ترین ویژگی‌هایی که تأثیر زیادی در پیش‌بینی قیمت مسکن دارند، روش‌شناسی برای منتسب کردن داده‌های گمشده را با الگوریتم KNN بهبود دهیم. معماری سیستم به دست آمده با استفاده از روش پیشنهادی در زیر نشان داده شده است.

3. مواد و روشها

3.1. مجموعه داده

مجموعه داده اولیه ما از مجموعه داده Kaggle [ 23 ] به دست آمده است، که داده های زیادی را در اختیار دانشمندان داده برای آموزش مدل های یادگیری ماشینی خود قرار می دهد. توسط بارت دی کاک در سال 2011 جمع آوری شد و به طور قابل توجهی بزرگتر از مجموعه داده معروف مسکن بوستون است [ 24 ]]. این شامل 79 متغیر بیانی است که تقریباً هر ویژگی خانه‌های مسکونی در ایمز، آیووا، ایالات متحده را در دوره 2006 تا 2010 نشان می‌دهد. مجموعه داده شامل داده‌های عددی و متنی است. داده های عددی شامل اطلاعاتی در مورد تعداد اتاق ها، اندازه اتاق ها و کیفیت کلی ملک است. برخلاف داده های عددی، داده های متنی به صورت کلمات ارائه می شوند. مکان خانه، نوع مصالح استفاده شده برای ساخت خانه، و سبک سقف، گاراژ و حصار نمونه هایی از داده های متنی هستند. جدول 1 شرح مجموعه داده را نشان می دهد.

دلیل اصلی تقسیم مجموعه داده ها به انواع مختلف داده این بود که داده های متنی باید قبل از آموزش با تکنیک رمزگذاری یک داغ به داده های عددی تبدیل می شد. ما این روش رمزگذاری را در بخش پیش پردازش داده های متدولوژی خود شرح خواهیم داد. در مجموع 19 ویژگی از مجموع 80 ویژگی دارای مقادیر گمشده هستند. درصد مقادیر از دست رفته 16٪ است.

3.2. پیش پردازش داده ها

در این فرآیند، داده های خام و پیچیده را به داده های سازمان یافته تبدیل کردیم. این شامل چندین روش از رمزگذاری یکباره تا یافتن داده های گم شده و غیر ضروری در مجموعه داده بود. چندین تکنیک یادگیری ماشینی می توانند بلافاصله با داده های طبقه بندی شده کار کنند. به عنوان مثال، یک الگوریتم درخت تصمیم می‌تواند با داده‌های طبقه‌بندی شده بدون نیاز به تبدیل داده عمل کند. با این حال، بسیاری از سیستم‌های یادگیری ماشینی نمی‌توانند با داده‌های برچسب‌گذاری شده کار کنند. آنها نیاز دارند که همه متغیرها (ورودی و خروجی) عددی باشند. این را می‌توان به‌عنوان محدودیت بزرگ الگوریتم‌های یادگیری ماشین به‌جای محدودیت‌های سخت در خود الگوریتم‌ها در نظر گرفت. بنابراین، اگر داده‌های دسته‌بندی داریم، باید آن‌ها را به داده‌های عددی تبدیل کنیم. دو روش متداول برای ایجاد داده های عددی از داده های طبقه بندی وجود دارد:

رمزگذاری تک داغ
رمزگذاری عدد صحیح

در مورد مکان خانه، خانه های موجود در مجموعه داده ممکن است در سه شهر مختلف واقع شوند: نیویورک، واشنگتن و تگزاس. نام شهرها باید به داده های عددی تبدیل شوند. در مرحله اول، به هر مقدار ویژگی منحصر به فرد یک مقدار صحیح داده می شود. به عنوان مثال، 1 برای “نیویورک”، 2 برای “واشنگتن”، و 3 برای “کالیفرنیا” است. برای چندین ویژگی، این ممکن است کافی باشد. این به این دلیل است که اعداد صحیح یک ارتباط منظم با یکدیگر دارند که تکنیک‌های یادگیری ماشین را قادر می‌سازد تا این ارتباط را درک کرده و از آن استفاده کنند. در مقابل، متغیرهای طبقه‌ای هیچ رابطه ترتیبی ندارند. بنابراین، رمزگذاری عدد صحیح قادر به حل مشکل نیست. استفاده از چنین رمزگذاری و اجازه دادن به مدل برای بدست آوردن نظم طبیعی بین دسته‌ها ممکن است کاربرد ضعیف یا نتایج پیش‌بینی نشده داشته باشد.جدول 2 و رمزگذاری عدد صحیح آن در جدول 3 . می توان متوجه شد که ترتیب بین دسته ها منجر به پیش بینی دقیق تر قیمت خانه می شود.

برای حل مشکل، می‌توانیم از رمزگذاری تک داغ استفاده کنیم. اینجاست که متغیر عدد صحیح تعیین شده حذف می شود و یک متغیر باینری جدید برای هر عدد صحیح منفرد اضافه می شود [ 2 ]]. همانطور که اشاره کردیم، بر اساس داده‌هایمان، ممکن است با این تصور که یک ستون داده‌ها را با نظم یا سلسله مراتب خاصی دارد، با وضعیتی مواجه شویم که مدل ما دچار سردرگمی شود. با این حال، می‌توان با «رمزگذاری یک‌طرفه» که در آن داده‌های طبقه‌بندی کدگذاری‌شده برچسب به ستون‌های متعدد تقسیم می‌شوند، از آن اجتناب کرد. بر اساس مقادیر ستون ها، اعداد با 1 و 0 جایگزین می شوند. در مورد ما، ما سه ستون جدید، یعنی نیویورک، واشنگتن، و کالیفرنیا دریافت کردیم. برای سطرهایی که مقدار ستون اول آنها نیویورک است، “1” به ستون “نیویورک” اختصاص داده می شود و دو ستون دیگر “0” دریافت می کنند. به همین ترتیب، برای سطرهایی که مقدار ستون اول آنها واشنگتن است، “1” به “واشنگتن” اختصاص داده می شود، و دو ستون دیگر “0” و غیره خواهند داشت ( جدول 4 را ببینید.). ما از این نوع رمزگذاری در قسمت پیش پردازش داده ها استفاده کردیم.

در صورت وجود مقادیر از دست رفته، رمزگذاری یک گرم، مقادیر از دست رفته را به صفر تبدیل می کند. در اینجا مثال نشان داده شده در جدول 5 آمده است :

در جدول فوق، مقدار سوم وجود ندارد. هنگام تبدیل این مقادیر مقوله‌ای به عددی، همه مقادیری که از دست نمی‌روند دارای یک (ها) در ردیف‌های ID مربوطه خود هستند. با این حال، مقادیر از دست رفته، در ردیف های شناسه مربوطه صفر دریافت کنید. اکنون ما نتیجه را خواهیم دید که چگونه رمزگذاری یک داغ با این مقدار برخورد می کند.

بنابراین، مثال سوم همان طور که در جدول 6 می بینیم، فقط صفر می گیرد. قبل از انتخاب بیشتر ویژگی‌های همبسته و پرداختن به مقادیر گمشده، این صفرها را دوباره به مقادیر گمشده تبدیل می‌کنیم.

3.3. همبستگی ویژگی

انتخاب ویژگی یک حوزه قوی در علوم کامپیوتر است. از دهه 1970، این یک حوزه تحقیقاتی سازنده در تعدادی از زمینه‌ها، مانند تشخیص الگوی آماری، یادگیری ماشین، و داده‌کاوی بوده است [ 25 ، 26 ، 27 ، 28 ، 29 ، 30 ، 31 ، 32 .]. پیشنهاد اصلی در این کار این است که قبل از پرداختن به داده های گمشده با استفاده از الگوریتم KNN، همبستگی ویژگی را به مجموعه داده اعمال کنیم. با انجام این کار، می‌توانیم یک الگوریتم K-نزدیک‌ترین همسایه بهینه‌سازی شده را بر اساس همبستگی‌ترین ویژگی‌ها برای انتساب داده‌های گمشده، یعنی KNN–MCF نشان دهیم. ابتدا، همانطور که در بخش فرعی قبلی توضیح داده شد، داده های طبقه بندی را در داده های عددی رمزگذاری کردیم. مرحله بعدی و اصلی انتخاب مهم ترین ویژگی های مربوط به قیمت خانه در مجموعه داده بود. معماری کلی مدل در شکل 1 نشان داده شده است .

سپس، ما سه روش مدیریت داده های از دست رفته را پیاده سازی کردیم:

مقدار میانگین همه مشاهدات گم نشده،
الگوریتم KNN و
KNN–MCF، که الگوریتم پیشنهادی برای مدیریت داده های از دست رفته است.

دقت هر مدل اجرا شده در بخش آموزشی پس از اعمال روش بهبود یافت. اکنون انتخاب مهم ترین ویژگی ها را توضیح می دهیم. روش های مختلفی برای همبستگی ویژگی ها وجود دارد. در این کار از روش ضریب همبستگی برای انتخاب مهمترین ویژگی ها استفاده شده است. فرض کنید دو ویژگی داریم: a و b. ضریب همبستگی بین این دو متغیر را می توان به صورت زیر تعریف کرد:

ضریب همبستگی:

r(آ،ب)=سیov(آ،ب)Vآr(آ) Vآr(ب)

(1)

که در آن Cov(a,b) کوواریانس a و b و Var(.) واریانس یک ویژگی است. کوواریانس بین دو ویژگی با استفاده از فرمول زیر محاسبه می شود:

سیov(آ،ب)=∑(آمن – آ¯)(بمن – ب¯)n

(2)

در این فرمول:

آمن- مقادیر متغیر “a”
آ¯-میانگین (متوسط) مقدار متغیر “a”
بمن-مقادیر متغیر b
ب¯-میانگین (متوسط) مقدار متغیر “b”

پس از پیاده سازی فرمول بالا در مجموعه داده، نتیجه نشان داده شده در شکل 2 را به دست آوردیم .

بدیهی است که صفات بر اساس ضریب همبستگی مرتب شده اند. کیفیت کلی خانه و کل مساحت زمین مهم ترین ویژگی مجموعه داده برای پیش بینی قیمت خانه بود. ما یک الگوریتم جنگل تصادفی با مقادیر مختلف ضریب همبستگی آموزش دادیم. دقت در مجموعه آموزشی با تعداد زیادی ویژگی بالا بود، در حالی که عملکرد در مجموعه آزمایشی به دلیل مشکل بیش از حد برازش بسیار پایین‌تر بود. به منظور دستیابی به مقدار کامل ضریب همبستگی، مجموعه داده را با جزئیات بیشتر و با دقت بیشتری شبیه سازی کردیم. شکل 3رابطه معنادار بین ضریب همبستگی و دقت مدل را در هر دو زیر مجموعه آموزش و آزمون نشان می دهد. محور عمودی درصد دقت آموزش و زیر مجموعه های آزمون را نشان می دهد. محور افقی نشان دهنده ضریب همبستگی بیش از مقدار داده شده است.

برای روشن‌تر شدن آن، مقدار اول، 0% را به عنوان مثال در نظر بگیرید. این نشان می دهد که ما از تمام 256 ویژگی در هنگام آموزش و آزمایش مدل استفاده کردیم. خط دقت مقادیر حدود 99% و 89% را به ترتیب برای مجموعه های آموزشی و تست نشان می دهد. مقدار دوم، 5٪، نشان می دهد که ما ویژگی ها را با ضریب همبستگی بیش از 5٪ در نظر گرفتیم. در این شرایط، تعداد ویژگی ها در فرآیند آموزش به 180 کاهش یافت. عملاً هر چه ویژگی های مجموعه آموزشی کمتر باشد، دقت ثبت شده کمتر می شود. پس از آموزش مدل ما با تعداد ویژگی های داده شده، دقت برای آموزش کاهش یافت، در حالی که دقت مجموعه تست به تدریج افزایش یافت زیرا سعی کردیم از بیش از حد برازش مدل خود جلوگیری کنیم.

شکل 3 نشان می دهد که بهترین مقدار 30 درصد بوده است. مجموعه داده شامل 45 ویژگی است که با این نیاز مطابقت دارد.

بنابراین، ما دقت مدل را بهبود بخشیم، زیرا استفاده از چند ویژگی مناسب برای آموزش مدل بهتر از حجم عظیمی از داده‌های نامربوط و غیر ضروری است. علاوه بر این، می‌توانیم از اضافه‌برازش جلوگیری کنیم، زیرا با افزایش تعداد ویژگی‌های نامرتبط، احتمال بیش‌برازش افزایش می‌یابد.

3.4. رسیدگی به داده های از دست رفته

چندین مفهوم برای تعریف فاصله برای KNN تا کنون شرح داده شده است [ 6 ، 9 ، 10 ، 33 ، 34 ]. اندازه گیری فاصله را می توان با استفاده از فاصله اقلیدسی محاسبه کرد. فرض کنید که jامین ویژگی ورودی x در جدول 7 وجود ندارد . همانطور که در رابطه (3) نشان داده شده است، پس از محاسبه فاصله x تا تمام مثال های آموزشی، K نزدیکترین همسایه آن را از زیر مجموعه آموزشی انتخاب کردیم.

آایکس={vک}ک=1ک

(3)

مجموعه در معادله (3) K نزدیکترین همسایه x را نشان می دهد که به ترتیب صعودی دور بودن آنها قرار گرفته اند. بنابراین، v ₁ نزدیکترین همسایه x بود. K نزدیکترین موارد با بررسی فاصله با ورودی‌های گم نشده در ویژگی ناقص برای منتسب انتخاب شدند. _{پس از انتخاب نزدیک‌ترین همسایه‌های K آن، مقدار} مجهول با تخمینی از مقادیر ویژگی j ام Ax نسبت داده شد . مقدار نسبت داده شده ایکسj˜در صورتی که ویژگی j یک متغیر عددی باشد، با استفاده از مقدار میانگین K نزدیکترین همسایگان آن به دست می آید. یکی از تغییرات مهم وزن کردن تأثیر هر مشاهده بر اساس فاصله آن تا x بود که وزن بیشتری را برای همسایگان نزدیک‌تر فراهم کرد (به معادله (4) مراجعه کنید).

ایکسj˜=1کدبلیو∑ک=1کwکvکj

(4)

کاستی اصلی این روش این است که وقتی impute KNN مشابه ترین نمونه ها را مطالعه می کند، الگوریتم از کل مجموعه داده استفاده می کند. این محدودیت می تواند برای پایگاه های داده بزرگ بسیار جدی باشد [ 35]. تکنیک پیشنهادی روش KNN-MCF را برای یافتن مقادیر گمشده در مجموعه داده‌های بزرگ پیاده‌سازی می‌کند. نقطه ضعف کلیدی استفاده از انتساب KNN این است که می توان آن را با داده های با ابعاد بالا به شدت تخریب کرد زیرا تفاوت کمی بین نزدیک ترین و دورترین همسایه وجود دارد. در این تحقیق به جای استفاده از تمام صفات، تنها از مهمترین ویژگی های انتخاب شده با استفاده از معادلات (1) و (2) استفاده کردیم. تکنیک انتخاب ویژگی معمولاً برای چندین هدف در یادگیری ماشین استفاده می شود. اول، دقت مدل را می توان بهبود بخشید، زیرا استفاده از تعدادی ویژگی مناسب برای آموزش مدل بهتر از استفاده از تعداد زیادی داده غیرمرتبط و اضافی است. دومین و مهم ترین دلیل برخورد با مشکل بیش از حد برازش است. از آنجایی که با افزایش تعداد ویژگی های نامربوط، امکان بیش از حد برازش زیاد است. ما فقط از 45 مورد از مهمترین ویژگی ها برای مدیریت داده های از دست رفته با مدل خود استفاده کردیم. با انجام این کار، به هدف اجتناب از اشکالات الگوریتم impute KNN دست یافتیم. برای راستی‌آزمایی مدل پیشنهادی، ما سه روش فوق‌الذکر برای مدیریت داده‌های گمشده، یعنی میانگین، KNN و KNN-MCF را برای چندین الگوریتم پیش‌بینی مبتنی بر یادگیری ماشین اعمال کردیم.

4. نتایج

ما عملکرد الگوریتم KNN-MCF خود را با استفاده از شش الگوریتم مختلف پیش‌بینی مبتنی بر یادگیری ماشین ارزیابی کردیم و آن‌ها را با دقت میانگین سنتی و روش‌های ورودی KNN برای رسیدگی به داده‌های از دست رفته مقایسه کردیم. مقادیر گمشده در مجموعه داده بر این اساس با روش‌های میانگین استاندارد، ورودی KNN و KNN-MCF قبل از مرحله آموزش پر شدند. شکل 4 عملکرد الگوریتم های یادگیری ماشین را نشان می دهد.

الگوریتم درخت تصمیم کمترین دقت را نشان داد که کمتر از 80 درصد برای روش قبلی و 0.8633 درصد برای روش پیشنهادی بود. الگوریتم‌های تقویت‌شده گرادیان، درخت‌های اضافی، و الگوریتم‌های جنگل تصادفی نسبت به الگوریتم‌های رگرسیون خطی و ElasticNet صحت نسبتاً بالاتری با دقت بیش از ۹۰ درصد داشتند. بهترین عملکرد الگوریتم جنگل تصادفی با نرخ دقت 88.43، 89.34 درصد و 92.01 درصد برای روش‌های میانگین، ورودی KNN و KNN-MCF بود.

پس از تغییر روش میانگین سنتی به الگوریتم impute KNN، مشاهده کردیم که دقت در هر الگوریتم یادگیری ماشین برای پیش‌بینی اندکی افزایش یافت. یکی از ملاحظات عمده در شکل های فوق الذکر این است که عملکرد هر الگوریتم ML به طور متفاوتی تحت تأثیر تغییرات در روش مدیریت داده های از دست رفته قرار گرفته است. افزایش دقت در برخی نمونه ها کم بود، در حالی که در برخی دیگر بالا بود. اکنون، ما اجرای تمام الگوریتم‌های یادگیری ماشین را با توجه به روش KNN–MCF مقایسه می‌کنیم. از شکل 5 مشهود است که حداکثر دقت برای الگوریتم جنگل تصادفی ثبت شده است.

علاوه بر این، روش KNN در مقایسه با KNN-MCF از نظر محاسباتی گران‌تر است. دلیل اصلی این تفاوت این است که KNN کل مجموعه داده را بررسی می‌کند در حالی که KNN–MCF تنها ویژگی‌های انتخاب شده را در هنگام برخورد با داده‌های از دست رفته تجزیه و تحلیل می‌کند. ما می توانیم جدول 8 را برای نشان دادن تفاوت هزینه محاسباتی بین این دو روش ارائه کنیم.

5. بحث

از آنجایی که حداکثر دقت با الگوریتم جنگل تصادفی به دست آمد، تصمیم گرفتیم دو پارامتر اصلی این الگوریتم را مورد بحث قرار دهیم. این تعداد درخت ها و تعداد گره های هر درخت است. هر دو قبل از اجرای جنگل تصادفی توسط برنامه نویس تعریف می شوند. این پارامترها بسته به نوع کار و مجموعه داده می توانند متفاوت باشند. اگر مقادیر کامل این دو پارامتر را از قبل شناسایی کنیم، نه تنها می‌توانیم بالاترین دقت را بدست آوریم، بلکه در بیشتر موارد زمان کمتری را نیز صرف خواهیم کرد. شکل 6 به وضوح نشان می دهد که تعداد درختان برای دستیابی به دقت تست ایده آل 20 عدد بوده است. طبق نتایج، خط عملکرد برای بیش از 20 درخت بین 91% و 92% در نوسان بوده است.

تعداد گره‌ها مشخص می‌کند که چند گره از گره ریشه تا برگ هر درخت در جنگل تصادفی داریم. شکل 7 نشان می دهد که بهترین مقدار برای این پارامتر در مورد ما 10 بود. بنابراین، ما یک جنگل تصادفی با 20 برآوردگر و 10 گره در هر برآوردگر پیاده سازی کردیم.

هنگام انتخاب یک خانه جدید، مردم همیشه به عوامل خاصی مانند پیاده‌روی، کیفیت مدرسه و ثروت منطقه توجه می‌کنند. از این منظر موقعیت خانه به طور مستقیم بر قیمت ملک تاثیر می گذارد. رابطه بین قیمت متوسط خانه در مکان معین و منطقه محله در شکل 8 نشان داده شده است . مقادیر میانه های مختلف با رنگ های مختلف داده می شود. این نمودار نشان می دهد که قیمت فروش خانه با توجه به موقعیت خانه بین 100000 تا 300000 دلار متغیر است.

6. نتیجه گیری

ما یک تکنیک موثر برای مقابله با داده های از دست رفته در این مقاله پیشنهاد کردیم. ایده اصلی در پس این روش، انتخاب مرتبط ترین ویژگی ها و استفاده از این ویژگی ها برای پیاده سازی الگوریتم KNN است. برای بررسی عملکرد یک مدل با استفاده از تکنیک خود، آن را با روش‌های میانگین میانگین سنتی و مدل‌سازی KNN با تجزیه و تحلیل عملکرد این سه روش در چندین الگوریتم پیش‌بینی مبتنی بر یادگیری ماشین به طور همزمان مقایسه کردیم. نتایج رویکرد ما بالاتر از نتایج همه الگوریتم‌های یادگیری ماشین بود. علیرغم دستیابی به دقت مناسب برای پیش‌بینی قیمت مسکن، ما معتقدیم که در آینده می‌توان پیشرفت‌های مختلفی کرد، مانند انتخاب مهم‌ترین ویژگی‌ها با استفاده از یادگیری عمیق.

منابع

انتخاب ویژگی برای رگرسیون | کاگل. در دسترس آنلاین: https://www.kaggle.com/ohmets/feature-selection-for-regression/data (در تاریخ 10 ژوئن 2019 قابل دسترسی است).
باکمن، جی. روی، ا. رافل، سی. Goodfellow، I. رمزگذاری دماسنج: یک راه داغ برای مقاومت در برابر مثال‌های متخاصم. در مجموعه مقالات کنفرانس بین المللی نمایندگی های یادگیری، Vacouver، BC، کانادا، 22 فوریه 2018; جلد 19، ص 92–97. [ Google Scholar ]
نواکوویچ، جی. Strbac، P. Bulatović، D. به سوی انتخاب ویژگی بهینه با استفاده از روش های رتبه بندی و الگوریتم های طبقه بندی. یوگسل. جی. اوپر. Res. 2011 ، 21 ، 119-135. [ Google Scholar ] [ CrossRef ]
کای، جی. لو، جی. وانگ، اس. یانگ، اس. انتخاب ویژگی در یادگیری ماشین: دیدگاهی جدید. کامپیوترهای عصبی 2018 . [ Google Scholar ] [ CrossRef ]
سولی-بوری، ام. برخورد با داده های از دست رفته: مفروضات و روش های کلیدی برای تحلیل کاربردی . گزارش فنی دانشگاه بوستون؛ دانشگاه بوستون: بوستون، MA، ایالات متحده آمریکا، 2013. [ Google Scholar ]
کالینز، LM؛ Schafer، JL; کام، سی.-م. مقایسه استراتژی های فراگیر و محدود کننده در روش های مدرن داده های گمشده روانی Methods 2001 ، 6 ، 330-351. [ Google Scholar ] [ CrossRef ] [ PubMed ]
کلارک، پی. هاردی، آر. روش‌های مدیریت داده‌های از دست رفته. در روشهای اپیدمیولوژیک در دوره پژوهی زندگی ; انتشارات دانشگاه آکسفورد: نیویورک، نیویورک، ایالات متحده آمریکا، 2009. [ Google Scholar ]
دودا، روسی. هارت، PE; Stork, DG Pattern Classification , 2nd ed.; انتشارات وایلی-اینترساینس: نیویورک، نیویورک، ایالات متحده آمریکا، 2001; ISBN 0471056693. [ Google Scholar ]
کوچک، RJA; Rubin، DB داده‌های عادی و غیر عادی را با مقادیر گمشده ترکیب کردند، با نادیده گرفتن مکانیسم داده‌های گمشده. در تجزیه و تحلیل آماری با داده های از دست رفته ; انتشارات وایلی-اینترساینس: هوبوکن، نیوجرسی، ایالات متحده آمریکا، 2014; صص 292-311. [ Google Scholar ]
کاکس، DR; هینکلی، دی وی; رید، ن. روبین، DB; Silverman, BW Monographs on Statistics and Applied Probability , 1st ed.; یک شرکت مطبوعاتی CRC: واشنگتن، دی سی، ایالات متحده آمریکا، 1995; ISBN 9780412406508. [ Google Scholar ]
لی، ال. چو، KH پیش بینی تغییرات قیمت املاک و مستغلات بر اساس پارامترهای اقتصادی. در مجموعه مقالات کنفرانس بین المللی IEEE 2017 در مورد نوآوری سیستم کاربردی: نوآوری سیستم کاربردی برای فناوری مدرن، ICASI 2017، ساپورو، ژاپن، 1 مه 2017؛ صص 87-90. [ Google Scholar ]
شینده، ن. Gawande، K. ارزیابی قیمت خانه با استفاده از تکنیک های پیش بینی. بین المللی J. Adv. الکترون. محاسبه کنید. علمی 2018 ، 5 ، 2393-2835. [ Google Scholar ]
Hilbe، JM تجزیه و تحلیل داده ها با استفاده از رگرسیون و مدل های چند سطحی/سلسله مراتبی. J. Stat. نرم افزار 2009 ، 30 ، 625. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
Mockus، A. داده های از دست رفته در مهندسی نرم افزار. در راهنمای مهندسی نرم افزار تجربی پیشرفته ; فهرست نویسی کتابخانه بریتانیا در داده های انتشارات: لندن، انگلستان، 2008; ص 185–200. ISBN 9781848000438. [ Google Scholar ]
دی سیلوا، اچ. Perera، AS داده های گمشده با استفاده از الگوریتم تکاملی k-نزدیکترین همسایه برای داده های بیان ژن. در مجموعه مقالات شانزدهمین کنفرانس بین المللی پیشرفت های فناوری اطلاعات و ارتباطات برای مناطق نوظهور، ICTer 2016-مجموعه مقالات کنفرانس ; IEEE: Negombo، سریلانکا، 2017؛ صص 141-146. [ Google Scholar ]
Kaiser, J. الگوریتم برای انتساب مقادیر گمشده در داده های طبقه بندی با استفاده از قوانین انجمن. ACEEE Int. J. Recent Trends Eng. تکنولوژی 2011 ، 6 ، 1-4. [ Google Scholar ]
ملارویزی، محمدرضا; Selvadoss Thanamani، A. K-نزدیک‌ترین همسایه در انتساب داده‌های گمشده. بین المللی J. Eng. Res. 2012 ، 5 ، 5-07. [ Google Scholar ]
García-Laencina، PJ; سانچو گومز، جی ال. فیگویرس-ویدال، آر. Verleysen، M. K نزدیکترین همسایگان با اطلاعات متقابل برای طبقه بندی همزمان و انتساب داده های گمشده. محاسبات عصبی 2009 ، 72 ، 1483-1493 . [ Google Scholar ] [ CrossRef ]
کیم، تی. کو، دبلیو. کیم، جی. تجزیه و تحلیل و ارزیابی تأثیر داده های گمشده در پیش بینی تولید PV روز آینده. Appl. علمی 2019 ، 9 ، 204. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
مهدیان پری، م. صالحی، ب. محمدی منش، ف. همایونی، س. گیل، ای. اولین نقشه موجودی تالاب نیوفاندلند با وضوح فضایی 10 متر با استفاده از داده های Sentinel-1 و Sentinel-2 در پلت فرم محاسبات ابری Google Earth Engine. Remote Sens. 2019 ، 11 ، 43. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
لی، ک. چن، ی. Li، Y. روش تصادفی مبتنی بر جنگل برای فضایی سازی جمعیت با وضوح خوب با استفاده از عکسبرداری شبانه ایستگاه فضایی بین المللی و داده های سنجش اجتماعی. Remote Sens. 2018 ، 10 ، 1-19. [ Google Scholar ] [ CrossRef ]
قهوهای مایل به زرد، FES؛ جولانی، س. وربیک، اچ. دستورالعمل‌هایی برای انتساب‌های متعدد در اندازه‌گیری‌های مکرر با متغیرهای وابسته به زمان: مطالعه موردی. جی. کلین. اپیدمیول. 2018 ، 102 ، 107-114. [ Google Scholar ] [ CrossRef ] [ PubMed ]
قیمت خانه: تکنیک های رگرسیون پیشرفته | کاگل. در دسترس آنلاین: https://www.kaggle.com/c/house-prices-advanced-regression-techniques (در 23 ژوئن 2019 قابل دسترسی است).
مسکن بوستون | کاگل. در دسترس آنلاین: https://www.kaggle.com/c/boston-housing (در 23 ژوئن 2019 قابل دسترسی است).
کیم، اچ. گلوب، GH; پارک، اچ. تخمین مقدار از دست رفته برای داده‌های بیان ژن ریزآرایه DNA: انتساب حداقل مربعات محلی. بیوانفورماتیک 2005 ، 21 ، 187-198. [ Google Scholar ] [ CrossRef ] [ PubMed ]
سیدلکی، دبلیو. Sklansky, J. On Automatic Feature Selection. بین المللی ج. تشخیص الگو. آرتیف. هوشمند 1988 ، 2 ، 197-220. [ Google Scholar ] [ CrossRef ]
بلوم، آل. Langley, P. انتخاب ویژگی ها و مثال های مرتبط در یادگیری ماشین. آرتیف. هوشمند 1997 ، 97 ، 245-271. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
داش، م. لیو، اچ. انتخاب ویژگی برای طبقه بندی. هوشمند داده آنال. 1997 ، 1 ، 131-156. [ Google Scholar ] [ CrossRef ]
Dy، JG; برادلی، انتخاب زیر مجموعه ویژگی CE و شناسایی سفارش برای یادگیری بدون نظارت. در مجموعه مقالات هفدهمین کنفرانس بین المللی. یادگیری ماشینی ؛ Morgan Kaufman Publisher Inc.: San Francisco, CA, USA, 2000; صص 247-254. [ Google Scholar ]
Das، S. فیلترها، لفاف‌ها و ترکیبی مبتنی بر تقویت برای انتخاب ویژگی. در مجموعه مقالات هجدهمین کنفرانس بین المللی. یادگیری ماشینی، کالج ویلیامز، ویلیامزتاون، MA، ایالات متحده، 28 ژوئن – 1 ژوئیه 2001. [ Google Scholar ]
کیم، ی. خیابان، WN; Menczer, F. انتخاب ویژگی در یادگیری بدون نظارت از طریق جستجوی تکاملی. در مجموعه مقالات ششمین کنفرانس بین المللی ACM SIGKDD در زمینه کشف دانش و داده کاوی ; انجمن ماشین های محاسباتی: نیویورک، نیویورک، ایالات متحده آمریکا، 2000; صص 365-369. [ Google Scholar ]
میترا، پ. اعضا.؛ مورتی، کالیفرنیا؛ پال، SK انتخاب ویژگی بدون نظارت با استفاده از تشابه ویژگی. IEEE Trans. الگوی مقعدی ماخ هوشمند 2002 ، 24 ، 301-312. [ Google Scholar ] [ CrossRef ]
هرون، ک. تمپل، ام. Filzmoser، P. نسبت مقادیر گمشده برای داده های ترکیبی با استفاده از روش های کلاسیک و قوی. محاسبه کنید. آمار داده آنال. 2010 ، 54 ، 3095-3107. [ Google Scholar ] [ CrossRef ]
ترویانسکایا، او. کانتور، ام. شرلوک، جی. براون، پ. هستی، تی. طبشیرانی، ر. بوتشتاین، دی. آلتمن، RB روش‌های برآورد مقدار گمشده برای ریزآرایه‌های DNA. بیوانفورماتیک 2001 ، 17 ، 520-525. [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
باتیستا، جی. مونارد، MC مطالعه K-نزدیکترین همسایه به عنوان یک روش انتساب. در مجموعه مقالات HIS’02: دومین کنفرانس بین المللی سیستم های هوشمند هیبریدی . دانشگاه شیلی: سانتیاگو، شیلی، 2002; صص 251-260. [ Google Scholar ]

شکل 1. الگوریتم K-nearest همسایه بهینه شده (KNN): مرتبط ترین ویژگی های مبتنی بر KNN.

شکل 2. ضرایب همبستگی بر اساس قیمت فروش هر خانه.

شکل 3. ضریب همبستگی در مقابل دقت.

شکل 4. مقایسه دقت الگوریتم میانگین، ورودی KNN و K-نزدیک ترین همسایه بر اساس روش های مرتبط ترین ویژگی ها (KNN-MCF) برای مقابله با داده های از دست رفته با چندین الگوریتم یادگیری ماشین: ( الف ) درخت تصمیم ، ( ب ) رگرسیون خطی، ( ج ) ElasticNet، ( د ) درختان اضافی، ( e ) گرادیان تقویت شده، و ( f ) جنگل تصادفی.

شکل 5. دقت تمام الگوریتم های یادگیری ماشین با توجه به روش KNN–MCF.

شکل 6. تعداد درختان در مقابل دقت آزمون الگوریتم جنگل تصادفی.

شکل 7. تعداد گره ها در مقابل دقت آزمون الگوریتم جنگل تصادفی.

شکل 8. نقشه بر اساس مکان: رنگ جزئیاتی در مورد میانگین قیمت فروش خانه را نشان می دهد. اندازه تعداد خانه های ثبت شده در محله برچسب گذاری شده را نشان می دهد.

مقالات داخلی و بین المللی

بدون دیدگاه

دیدگاهتان را بنویسید لغو پاسخ

برای نوشتن دیدگاه باید وارد بشوید.

مشاورین هوش پیروزی

خلاصه

کلید واژه ها:

1. معرفی

2. آثار مرتبط