1. مقدمه
در هلند، دریافت ارزیابی توسط یک ارزیاب خبره هنگام گرفتن وام مسکن، همانطور که توسط مرجع بازارهای مالی (AFM) اجباری شده است [ 1 ]. این ارزیابی ها نقش مهمی در درخواست وام مسکن دارند. در اعطای وام مسکن، نسبت بین مبلغ وام گرفته شده و ارزش وثیقه را Loan-to-Value می نامند. وام به ارزش و وام به درآمد دو عامل مهم تعیین کننده میزان وام گرفتن هستند. آنها به عنوان یک شاخص خوب برای ریسک وام دهنده [ 2 ] عمل می کنند و از مردم در برابر گرفتن وام مسکنی که توانایی پرداخت آن را ندارند محافظت می کنند.
ارزیابی ها ممکن است اشتباه باشد. به عنوان مثال، در سال 2018، DNB، بانک مرکزی هلند، گزارش انتقادی در مورد کیفیت و استقلال ارزیابی مسکن هلند منتشر کرد [ 3 ]. آنها به این نتیجه رسیدند که ارزشی بیش از حد ساختاری توسط ارزیابان وجود دارد، بر این اساس که 95٪ از تمام ارزیابی ها برابر یا بالاتر از قیمت فروش (در دوره مشاهده شده) هستند. تلاش برای ارزیابی دقیق نه تنها برای مدیریت ریسک ذکر شده، بلکه برای ایجاد اعتماد بین خریدار مسکن و بخش مالی که برای جامعه مفید است، مهم است.
ما می توانیم بین ارزیابی های سنتی و ارزیابی های مبتنی بر مدل تمایز قائل شویم. با ارزیابی های سنتی، یک ارزیاب برای ارزیابی وضعیت خانه به خانه مراجعه می کند. ویژگی های ذاتی خانه بخش بزرگی از قیمت آن را تعیین می کند. نمونه ها شامل تعداد اتاق خواب، مقدار فضای نشیمن، وجود باغ یا گاراژ و وجود پنل های خورشیدی است. ارزیابان این عوامل را وزن می کنند و قیمت فروش خانه هایی با ویژگی های مشابه را مقایسه می کنند. در نهایت، ارزیاب تلاش می کند تا یک برآورد عینی از ارزش ملک انجام دهد. ارزیابی های سنتی دقیق اما زمان بر و در نتیجه گران هستند.
در مقابل، ارزیابیهای مبتنی بر مدل، با استفاده از دادههای خانههای مشابهی که قبلاً فروخته شدهاند، یک تخمین خودکار مبتنی بر مدل از قیمت یک خانه خاص انجام میدهند. یکی از مزایای ارزیابی های مبتنی بر مدل نسبت به ارزیابی های سنتی این است که ارزان تر هستند. با این حال، دقت ارزیابیهای مبتنی بر مدل بستگی به مقدار دادههای خانههای مشابه دارد که میتوانند به عنوان مرجع استفاده شوند.
مدلهای قیمتگذاری لذتگرا، که قیمت مسکن را با استفاده از دادههای کمی در مورد ویژگیهای خانه، مکان و عرضه در مقابل تقاضا تخمین میزنند، میتوانند برای بهبود ارزیابیهای مبتنی بر مدل استفاده شوند. ادبیات نشان داده است که برای بسیاری از شهرها، به عنوان مثال، لندن [ 4 ]، روتردام [ 5 ]، لایپزیگ [ 6 ] و سنگاپور [ 7 ]، قیمت خانه را می توان با استفاده از این نوع مدل ها تخمین زد. با این حال، بسیاری از این مدل ها بر روی یک شهر واحد در یک کشور تمرکز دارند.
برآوردهای مبتنی بر مدل مبتنی بر مدلهای قیمتگذاری لذتگرا در حال حاضر در عمل به عنوان جایگزینی برای ارزیاب سنتی استفاده میشوند. در هلند، یک نمونه بدنام WOZ-waarde است که یک ارزش مالیاتی است که توسط دولت ایجاد شده است. در هسته خود، WOZ-waarde از تطبیق قیمتهای فروش خانههایی با ویژگیهای مشابه میآید [ 8 ]. مشابه مدل لذتگرا، از ویژگیها و مکان خانه برای پیشبینی استفاده میکند. این داده ها از ثبت رسمی از Kadaster که یک نهاد اداری مستقل در هلند برای نگهداری دفاتر اسناد املاک است، مانند ثبت پایگاه آدرس ها و ساختمان ها (BAG) [ 9 ] به دست می آید.]. در واقع، این مدل پیچیدهتر از مدل قیمت لذتبخش است. از بسیاری از لایه های اضافی برای بهبود و اعتبارسنجی دقت مدل استفاده می کند. به عنوان مثال، آنها برای اطمینان از اعتبار، نمونههایی از ارزیابیهای فیزیکی را برای خانههای بسیار منحصربهفرد انجام میدهند. علاوه بر این، از تصاویر ماهواره ای برای بررسی اینکه آیا خانه ها دارای ویژگی های فیزیکی ثبت شده هستند یا خیر استفاده می شود (به عنوان مثال، مالک خانه ممکن است یک پسوند خانه یا استخر شنا ساخته باشد که ارزش ملک را افزایش می دهد). یک صاحب خانه می تواند گزارشی در مورد WOZ-waarde خانه خود دریافت کند. این گزارش شامل خانه هایی شبیه به خانه صاحب خانه است که برای استخراج WOZ-waarde استفاده می شود.
WOZ-waarde به عنوان نشانه ای از ارزش ملک است که توسط شهرداری برای مالیات استفاده می شود. برای شهرداری ها غیرممکن است که تک تک خانه ها را از طریق بازرسی خانه ها به صورت سالانه ارزیابی کنند. بسیاری از شرکت های بیمه و وام دهندگان وام مسکن در یک قایق هستند: هزینه های انجام یک ارزیابی سنتی برای هر خانه در مجموعه آنها بسیار زیاد است. با این حال، محدودیتی در استفاده از WOZ-waarde وجود دارد، زیرا این داده ها را نمی توان به صورت انبوه برای هر خانه جداگانه، بدون دلایل قانونی کافی درخواست کرد. بنابراین، بسیاری از وام دهندگان وام مسکن و شرکت های بیمه ترجیح می دهند ارزش مسکن موجود در پرتفوی خود را با شاخص های ملی برای ارزیابی مجدد قیمت مسکن تنظیم کنند. اشکال شاخصسازی این است که عوامل مختلفی را که ارزش خانه را تعیین میکنند به یک شاخص واحد تعمیم میدهد. در نتیجه، خانهها همچنان میتوانند بیش از حد یا کمتر از ارزشگذاری شوند، برای مثال اگر نرخ رشد قیمت برای مناطق مختلف، ویژگیهای مکان یا نوع خانه متفاوت باشد.
یک مثال تجاری از مدل قیمت خانه (هدونیک) Calcasa [ 10 ] است. Calcasa، یک شرکت فینتک، خود را با مدل ارزشگذاری املاک خود وارد بازار میکند که توسط دفاتر رتبهبندی مانند Moody’s، Fitch Ratings و Standard & Poor’s تایید شده است. آنها شرکت های بیمه و ارائه دهندگان وام مسکن را برای ارائه ارزیابی های مبتنی بر مدل برای پرتفوی خود هدف قرار می دهند. متأسفانه، از آنجایی که این مدل کسب و کار آنهاست، مشخص نیست که دقیقاً چه مدلی را اجرا می کنند. با این حال، Calcasa از ویژگیهای مسکن همراه با دادههای فروش تاریخی برای مدل خود استفاده میکند، که شبیه به آنچه مدل WOZ-waarde استفاده میکند.
در مجموع از این نمونه ها می توان دریافت که قطعاً بازاری برای مدل های قیمت خانه در هلند وجود دارد. به نظر میرسد همه این مدلها بر سیستمهایی تکیه دارند که سعی میکنند قیمتهای فروش خانههای مشابه را بر اساس ویژگیهایشان مطابقت دهند. این داده های فروش نقطه شروع کلیدی برای همه مدل ها هستند. اگر دادههای فروش کافی وجود داشته باشد، دشوارترین چالش جمعآوری اطلاعات دقیق در مورد یک خانه است. ویژگیهای فیزیکی اصلی، و همچنین ویژگیهای محله، به ترتیب از طریق Kadaster هلند و آژانس مرکزی آمار (CBS) در دسترس عموم قرار دارند. در پایان، هر کسی که دادههای بیشتری و در عین حال دقیق داشته باشد، در نهایت میتواند بهترین پیشبینی را انجام دهد.
تا آنجا که ما می دانیم، در حال حاضر هیچ مدل قیمت گذاری لذت جویانه ای وجود ندارد که بتواند تخمین قیمت مسکن را در شهرهای مختلف انجام دهد. هدف این مقاله بررسی ارزیابی مبتنی بر مدل املاک و مستغلات با استفاده از قیمتگذاری لذتگرا در شهرها و دادههای در دسترس عموم است. ما میخواهیم روشهای مختلف یادگیری ماشین (ML) را برای تولید مدلهای قیمتگذاری لذتگرا مقایسه کنیم و آنها را بر اساس دقت، هزینه، سرعت و نیازهای داده ارزیابی کنیم.
سوالات پژوهشی که برای دستیابی به این هدف مطرح می کنیم به شرح زیر است:
-
کدام رویکردهای ML در حال حاضر برای قیمتگذاری لذتگرا استفاده میشوند و چگونه عمل میکنند؟
-
کدام عوامل برای تفاوت قیمت خانه ها در شهرها مهم است؟
-
کدام اطلاعات در مورد این عوامل در دسترس است؟
-
چگونه می توانیم با استفاده از بینش های به دست آمده، روشی برای قیمت گذاری لذت جویانه در شهرهای مختلف بسازیم؟
-
نتایج اعمال این روش با مجموعه داده واقعی چیست؟
بقیه این مقاله به شرح زیر سازماندهی شده است: بخش 2 یک نمای کلی از شاخصسازی قیمت سنتی و چهار مدل قیمتگذاری لذتگرا برای ارزیابیهای املاک ارائه میدهد: (1) رگرسیون خطی، (2) رگرسیون وزندار جغرافیایی (GWR)، (3) چندگانه مقیاس GWR (MGWR)، (4) افزایش گرادیان شدید (XGBoost)، و همچنین متغیرهایی که معمولا در این مدل ها استفاده می شود. بخش 3 منابع داده و معیارهای مدل مورد استفاده در این مقاله برای ساخت مدل ها را معرفی می کند. بخش 4 مدل ها و اشکالات آنها را ارزیابی می کند و همچنین عملکرد آنها را در برابر نمایه سازی سنتی مقایسه می کند. بخش 5 پیامدهای نتایج مدل را مورد بحث قرار می دهد. در نهایت، بخش 6نتیجه گیری را به سؤالات تحقیق و زمینه های تحقیق بیشتر ارائه می دهد.
2. پس زمینه
در این بخش مزایا و محدودیتهای دو رویکرد برای برآورد قیمت مسکن مورد بحث قرار میگیرد: شاخصهای قیمت و مدلهای قیمتگذاری لذتگرا. به طور همزمان، شاخص قیمت و سایر شاخصهای قیمت مسکن هلند برای نشان دادن تحولات بازار مسکن هلند بررسی میشوند. علاوه بر این، این بخش هر دو مدل عملی و همچنین چهار مدل پیشرفته را که معمولاً در ادبیات برای مدلهای قیمت لذتبخش استفاده میشوند، ارزیابی میکند: رگرسیون خطی (LR)، رگرسیون وزندار جغرافیایی (GWR)، GWR چند مقیاسی (MGWR). ، و افزایش گرادیان شدید (XGBoost). در نهایت، یک مرور کلی از ویژگی های مشترک برای چنین مدل های قیمت لذت بخش ارائه شده است. این نمای کلی به سه دسته تقسیم می شود: ویژگی های بازار، ویژگی های مکان و ویژگی های ذاتی خانه.
2.1. شاخص های قیمت خانه هلندی و مدل تکراری فروش
شاخص سازی قیمت روشی برای محاسبه میانگین افزایش قیمت نرمال شده برای انواع مختلف کالاها است. چهار روش رایج برای محاسبه یک شاخص به شرح زیر است: (1) شاخص Paasche، (2) شاخص Laspeyres، (3) شاخص Lowe، و (4) شاخص فیشر. هدف هر شاخصی ارائه یک نشانه خوب برای تغییر قیمت در یک بازه زمانی خاص است. یک شاخص قیمت اغلب برای تخمین ارزش فعلی با استفاده از یک مقدار شناخته شده تاریخی استفاده می شود. این فرآیند را نمایه سازی می نامند. در مورد قیمت مسکن، ارزش فعلی یک خانه را می توان با استفاده از قیمت فروش از گذشته و نمایه سازی آن با استفاده از شاخص قیمت مسکن، تخمین زد.
برای هلند، شاخص قیمت مسکن قابل توجه توسط Kadaster محاسبه می شود. Kadaster آژانس ثبت زمین و نقشه برداری هلند است. ثبت رسمی املاک و مالکیت زمین در هلند را حفظ می کند. این رجیستری آدرس ها و ساختمان های پایگاه ثبت (BAG) نامیده می شود. شاخص قیمت مسکن به همراه سایر آمارهای مربوط به بازار مسکن هلند در داشبوردی در دسترس عموم ارائه شده است که هر ماه به روز می شود.
شاخص Kadaster با استفاده از مدل وزنی تکرار فروش محاسبه می شود [ 11 ]. چهار روش فوق الذکر برای محاسبه شاخص های قیمت مستلزم فروش چندگانه یک کالا در بازه زمانی مورد نظر برای یک شاخص دقیق است. این به معنای فروش چندگانه یک کالا در سال برای یک شاخص سالانه است. با این حال، این مورد برای خانههایی نیست که اغلب برای چندین دهه معامله نمیشوند. مدل فروش تکراری برای دور زدن این موضوع به طور خاص توسعه داده شده است.
مدل تکرار فروش میانگین تغییر در قیمت فروش برای یک کالا را بین دو لحظه مختلف در زمان میدهد [ 12 ]. در مورد قیمت مسکن، میانگین تغییر قیمت همان خانه ای که در سال های جداگانه فروخته شده است را نشان می دهد. به طور اجتناب ناپذیر، پیش نیاز این مدل نیاز به حداقل دو تاریخ فروش جداگانه برای هر خانه منحصر به فرد است. مدل فروش تکراری نه تنها برای محاسبه قیمت مسکن، بلکه سایر کالاهای غیرمعمول مانند کلکسیون (مثلاً آثار هنری) مورد استفاده قرار می گیرد. مدل فروش تکراری وزنی این مدل را گسترش میدهد، زیرا خانههایی که اغلب معامله میشوند کمتر از خانههایی که در بازه زمانی طولانیتر معامله میشوند، به میانگین کل کمک میکنند. این امر از تعصب نسبت به خانه هایی که اغلب معامله می شوند جلوگیری می کند.
علاوه بر این، شاخص قیمت خانه Kadaster از دو سطح اصلاح منحصر به فرد تشکیل شده است: یکی برای استان های مختلف هلند ( جدول A1 )، دیگری برای شش نوع مختلف مسکن ( جدول A2 ). هر دو شاخص بر اساس تمام معاملات املاک و مستغلات در بیست سال گذشته (2000-2020) با سال 2015 به عنوان سال پایه است. در حالی که قیمت مسکن از روند یکسانی پیروی می کند، تفاوت های کوچک در طی سالیان متمادی منجر به تفاوت های قابل توجهی در طول زمان می شود [ 11 ]. بیشترین افزایش در Noord-Holland مشاهده می شود، جایی که قیمت ها تا 76.70٪ افزایش یافته است که دو برابر بیشتر از 38.16٪ در لیمبورگ است (همانطور که در جدول A1 مشاهده می شود.). برای انواع مختلف خانه ها، این تفاوت از نظر آماری نیز معنادار است، همانطور که در [ 11 ] ثابت شده است. با توجه به این واقعیت ها، می توان نتیجه گرفت که برای مدل سازی قیمت مسکن در مقیاس محلی تر برای بازار مسکن هلند، به عوامل بیشتری نیاز است.
در پایان، شاخصسازی تخمین معقولی برای قیمت مسکن ارائه میکند، اما فقط در مقیاس جهانی. در یک مدل محلی، زمانی که کسی میخواهد ارزش فعلی یک خانه خاص را تخمین بزند، یک شاخص احتمالاً تخمین “به اندازه کافی خوب” را ارائه می دهد. برای یک خانه تکی، یک شاخص نمی تواند تغییر قیمت دقیق را تعیین کند، زیرا بر اساس میانگین تغییر قیمت یک نمونه بزرگتر است. گنجاندن عوامل مختلف برای ایجاد شاخص های بیشتر دقت را بهبود می بخشد. با وجود این، بزرگترین نقطه ضعف هنوز باقی است. شاخص ها به نمونه های بزرگی از کل معاملات متکی هستند تا قابل اعتماد باشند. با استفاده از رگرسیون، مدلهای قیمت لذتگرا یک جایگزین معتبر زمانی که یک نمونه داده بزرگ در دسترس نیست، هستند.
2.2. مدل های قیمت لذت بخش
قیمتگذاری لذتگرا بیان میکند که قیمت یک محصول تجمیع قیمتهایی است که خریدار مایل است برای ویژگیهای فردی محصول خرج کند. برای یک خانه، این ویژگیها از ویژگیهای ذاتی (مثلاً تعداد اتاقها) تا مشخصه مکان (مثلاً دسترسی به امکانات رفاهی) و همچنین ویژگیهای بازار (مثلاً عرضه خانهها در منطقه) را شامل میشود [ 13 ]. به همین ترتیب، قیمت مسکن منعکس کننده تغییرات کلان اقتصادی در خواسته ها و ارزش های جامعه است. به این ترتیب، قیمت خانه نقش همه جانبه ای در تعیین کمیت قیمت کالاهای نامشهود مانند هوای پاک [ 4 ]، وجود فضای سبز [ 14 ] دارد.] و زیرساخت های قابل دسترس. مدلهای قیمت لذتگرا از انواع مختلفی از مدلهای رگرسیونی برای تخمین قیمت و وزن هر مشخصه استفاده میکنند. چهار نوع مدل رگرسیون مورد استفاده در تحقیقات اخیر برای برآورد قیمت خانه لذتبخش عبارتند از: رگرسیون خطی (چند)، رگرسیون وزندار جغرافیایی (GWR)، GWR چند مقیاسی (MGWR) – بهبودی بر GWR – و افزایش گرادیان شدید (XGBoost) .
2.3. رگرسیون خطی (LR)
رگرسیون خطی (LR) تغییر در یک متغیر وابسته را بر اساس یک رابطه خطی به یک یا چند متغیر مستقل مدل می کند. با استفاده از حداقل مربعات معمولی، تأثیر هر ویژگی با یک ضریب منفرد توصیف می شود. تحقیقات با موفقیت نشان می دهد که روابط خطی بین قیمت خانه و مساحت سطح زندگی یک خانه وجود دارد [ 15 ]. علاوه بر این، بسیاری از ویژگی های ذاتی دیگر مانند تعداد اتاق خواب ها [ 16 ] و مقدار فضای باغ [ 14 ]] یک سهم خطی اساسی را در قیمت یک خانه نشان می دهد. مزیت مدل رگرسیون خطی در سادگی آن برای داشتن پاسخ یکسان برای تمام نقاط داده است. در نتیجه، مدلهای رگرسیون خطی معمولاً کمتر مستعد برازش بیش از حد مجموعه دادهها هستند.
برعکس، سادگی مدلهای رگرسیون خطی نیز در مدلسازی پدیدههای پیچیدهتر مانند قیمت مسکن، نزولی است. در عمل، بسیاری از عوامل دیگر که در قیمت مسکن نقش دارند نیز روابط غیرخطی را نشان می دهند [ 5 ]. به عنوان مثال، یک اتاق اضافی تأثیر بیشتری بر ارزش یک آپارتمان نسبت به یک خانه مستقل دارد. این را می توان با شکستن رابطه غیر خطی به یک رابطه خطی با گنجاندن یک ویژگی دیگر، در این مورد نوع خانه، حل کرد. با این حال، اغلب اتفاق میافتد که روابط غیرخطی را نمیتوان از طریق گنجاندن ویژگیهای اضافی به روابط خطی تجزیه کرد.
در نهایت، مدلهای رگرسیون خطی به دلیل عدم مدلسازی یک مؤلفه فضایی، تخمینگر خوبی برای قیمت مسکن نیستند [ 16 ]. قیمت خانه برای همان نوع خانه در آمستردام بسیار متفاوت از قیمت خانه در گرونینگن است [ 17 ]. هم در سطح ملی و هم در سطح شهر، قیمت یک خانه اغلب متفاوت است. این به دلیل ناهمگونی فضایی است، به این معنی که مقدار یک متغیر در فضا متفاوت است. در نظر نگرفتن ناهمگونی فضایی در مدل باعث عدم ایستایی فضایی می شود. ناایستایی فضایی نام [ 18 ] برای وضعیتی است که در آن یک مدل جهانی، مانند رگرسیون خطی، به دلیل نقش ایفای مکان، قادر به پیشبینی دقیق نتیجه نیست.
یکی از راه های کاهش مشکل عدم ایستایی فضایی، گروه بندی مشاهدات از طریق استفاده از یک متغیر ساختگی، مانند گنجاندن کدهای پستی [ 19 ] یا فاصله تا مرکز شهر [ 20 ] است. علاوه بر این، استدلال می شود که از طریق کمی کردن ویژگی های کافی، می توان مناطق را تشخیص داد [ 21]. با این وجود، اشکال کمی کردن ویژگیهای بیشتر این است که برای ایجاد تمایزات قابل اعتماد، داده بسیار فشرده است. با وجود همه اینها، این مدل هنوز وابستگی فضایی خانه های واقع در نزدیکی را نادیده می گیرد، که ثابت شده است که از نظر آماری مربوط به مدل سازی قیمت خانه است. در مجموع، فقدان مولفه فضایی و متعاقب آن کاهش دقت مدل نمی تواند با نگاه کردن به ویژگی های فردی خانه ها در یک محله یا شهر قابل توجه باشد.
2.4. رگرسیون وزنی جغرافیایی (GWR)
رگرسیون وزندار جغرافیایی (GWR) یک مدل پارامتری مبتنی بر رگرسیون خطی سنتی است، اما ناهمگونی فضایی را نیز برای جلوگیری از مشکل عدم ایستایی فضایی در نظر میگیرد. مشابه رگرسیون خطی، GWR به هر متغیر مستقل یک ضریب تخمینی می دهد. با این حال، ضریب از نظر مکانی بسته به نقاط داده نزدیک [ 18 ] متفاوت است. کدام نقاط به اندازه کافی نزدیک در نظر گرفته می شوند و وزنی که هر نقطه به آن اختصاص می یابد از طریق یک تابع هسته تعریف می شود. GWR برای دقت بهتر بر اساس ویژگیهای ذاتی [ 5 ] و ویژگیهای مکان [ 6 ] مفید است.
برای تجزیه و تحلیل فضایی مانند GWR، دانستن در مورد خودهمبستگی فضایی مهم است. خودهمبستگی فضایی در نقل قولی از توبلر که به قانون اول جغرافیا نیز معروف است، مشهورتر توصیف شده است: “همه چیز به هر چیز دیگری مربوط است، اما چیزهای نزدیک بیشتر از چیزهای دور مرتبط هستند” [ 22 ]. به طور رسمی تر، خودهمبستگی فضایی همبستگی بین نقاط داده مکان های مجاور در فضا است. آمارهای متداول برای تعیین خودهمبستگی های فضایی، آمار آزمون موران I و جیری است. خودهمبستگی مکانی می تواند نشانه ای از گم شدن یک متغیر وابسته باشد. به نوبه خود، این بدان معنی است که مدل به اشتباه مشخص شده است، که منجر به نتایجی می شود که می توانند از نظر آماری نامعتبر باشند.
تابع هسته نقش مهمی در نحوه وزن دهی مدل به هر یک از ضرایب ایفا می کند. دو نوع اصلی از توابع هسته وجود دارد: (1) ثابت، که نقاط داده را در یک شعاع ثابت در نظر می گیرد، و (2) تطبیقی، که مقدار ثابتی از همسایگان را در نظر می گیرد. یک تابع تطبیقی به طور خودکار پهنای باند خود را طوری تنظیم می کند که همیشه تعداد نقاط داده یکسانی را شامل شود. این باعث می شود آن را برای مجموعه داده های فضایی، که به طور یکنواخت از نظر مکانی توزیع نشده اند، ایده آل کند. متداول ترین تابع هسته مورد استفاده در ادبیات شناسایی شده در قیمت گذاری املاک، هسته گاوسی تطبیقی است که همه مشاهدات را در نظر می گیرد اما وزن هر چه دورتر از یک مشاهده باشد به سمت صفر می رود [ 5 ، 6 ، 7 ، 23 ].]. عملکرد هسته مدل GWR را می توان با استفاده از روش جستجوی طلایی و اعتبارسنجی متقابل بهینه کرد. مرحله بهینه سازی تابع هسته بسیار مهم است، زیرا یک تابع هسته به طور تصادفی انتخاب شده دقت مدل را کاهش می دهد.
نقطه ضعف مدل GWR این واقعیت است که تابع هسته مجبور است برای همه متغیرها پهنای باند یکسانی داشته باشد. پهنای باند مقدار نقاط داده ای است که در تابع هسته وزن می شود. متغیرهای مختلف ممکن است بر مناطق بزرگتر یا کوچکتر تأثیر بگذارند. در این حالت، فرض ثابت بودن پهنای باند اشتباه است. برخی از اثرات فقط می توانند به تأثیرات خانه های دیگر در همان محله مرتبط باشند، در حالی که برخی دیگر در سطح جهانی تحت تأثیر همه نقاط داده در شهر هستند. این سادهسازی واقعیت جرقهای ایجاد یک تغییر جدید در GWR شد که شامل پهنای باند متغیر است که رگرسیون وزندار جغرافیایی چند مقیاسی نامیده میشود.
2.5. رگرسیون وزنی جغرافیایی چند مقیاسی (MGWR)
رگرسیون وزنی جغرافیایی چند مقیاسی (MGWR) پهنای باند متغیر را برای هر یک از ضرایب معرفی می کند [ 24 ]. علیرغم اولین انتشار در سال 2017، این مدل مطالعات کمتری نسبت به GWR داشته است، هم در کل و هم در زمینه تخمین قیمت مسکن. این می تواند به دلیل این واقعیت باشد که ابزارهای رایج تجزیه و تحلیل فضایی، مانند ArcGis، هنوز یک تجزیه و تحلیل MGWR داخلی ندارند، فقط برای GWR. انتشار اخیر همراه با عدم پشتیبانی عمده از ابزارهای تحلیل فضایی به این معنی است که تحقیقات کمتری در مورد MGWR در مقایسه با GWR انجام شده است.
با این وجود، تحقیقات نشان داده است که MGWR اغلب نسبت به GWR بهبود می یابد [ 24 ]. با این حال، بهبودهای توصیف شده در مطالعات مختلف متفاوت است. این تفاوت ها گاهی خیلی کوچک هستند که از نظر آماری قابل توجه نیستند. همانطور که در [ 25 ] دیده می شود، واریانس توضیح داده شده ( ) افزایش جزئی 0.05 (10٪ بهبود) را هنگام تغییر از GWR به MGWR نشان می دهد. علاوه بر این، یک مطالعه اخیر در مورد قیمتهای اجاره AirBnB نیز با استفاده از MGWR در مقابل GWR 0.10 بهبود داشت [ 26 ]. به طور کلی، تحقیقات [ 25 ، 26 ] موافق هستند که تأثیرات مختلف محلی و جهانی متغیرها مزیت اصلی MGWR نسبت به GWR است.
2.6. درختان رگرسیون و تقویت گرادیان شدید (XGBoost)
اگرچه با (M)GWR، ضرایب میتوانند از نظر فضایی برای مدلسازی تأثیرات مثبت در یک مکان و همچنین تأثیرات منفی در مکان دیگر متفاوت باشند، آنها هنوز بر روابط خطی برای انجام تحلیل رگرسیون متکی هستند. یک جایگزین برای این مدل درخت تصمیم است که قادر به مدل سازی رفتار غیر خطی است. درخت تصمیم که معمولاً برای طبقه بندی استفاده می شود، می تواند برای رگرسیون نیز استفاده شود که در آن سناریو اغلب درختان رگرسیون نامیده می شوند. تقویت گرادیان تکنیکی است که از یادگیری گروهی بسیاری از مدلهای پیشبینی ضعیف برای پیشبینی بهتر از استفاده از یک درخت استفاده میکند. در نهایت، افزایش گرادیان شدید (XGBoost) کتابخانه ای است که این افزایش گرادیان را برای مدل های درختی به روشی سریع و کارآمد پیاده سازی می کند.
XGBoost همچنین دارای برنامه هایی برای پیش بینی قیمت خانه است. برای مدلسازی مجموعه داده مسکن بوستون با میانگین درصد مطلق خطای کمتر از 5% استفاده شده است [ 27 ]. این مجموعه داده یک مجموعه داده محبوب برای مسابقات Kaggle برای مقایسه عملکرد مدل های مختلف یادگیری ماشین است. مشابه مجموعه داده بوستون، بیشتر کاربردهای دیگر XGBoost نیز بر مدل سازی قیمت خانه بر اساس ویژگی های ذاتی خود خانه تمرکز دارند [ 28 ]. به طور کلی، این XGBoost را یکی دیگر از کاندیدای اصلی برای مدل قیمتگذاری لذتگرا میکند که میتواند روابط غیرخطی را نیز ثبت کند.
2.7. ویژگی های تخمین قیمت خانه
بر اساس مطالعات تحلیل شده و کاربردهای عملی برای مدلهای قیمتگذاری لذتگرا، فهرستی از ویژگیها شناسایی و به سه دسته ویژگیهای بازار، ویژگیهای مکان و ویژگیهای ذاتی خانه تقسیم میشود. دو مقوله مهم، ویژگیهای ذاتی و موقعیت مکانی خانه هستند، زیرا ویژگیهای بازار تأثیرات جهانی هستند که بر همه خانهها تأثیر میگذارند. با این وجود، ویژگی های بازار به منظور کامل بودن درج شده است. این بررسی اجمالی بر اساس مروری بر متغیرهای مدل لذتگرای ژو و همکاران است. [ 16 ]. با این حال، این بررسی اجمالی عمدتاً بر متغیرهایی متمرکز است که در مدلهای رگرسیون وزندار جغرافیایی نیز گنجانده شدهاند.
ویژگی های بازار به عنوان تأثیرات جهانی بر کل بازار مسکن شناسایی می شوند. یکی از تأثیرات بزرگ بازار، سیاست های ملی است، مانند لغو اخیر (ژانویه 2021) مالیات نقل و انتقال برای مبتدیان در بازار مسکن هلند. این سیاست های ملی اغلب تأثیر یکسانی بر تمام قیمت های مسکن دارند [ 21]. یکی دیگر از تأثیرات جهانی نرخ بهره وام مسکن است. نرخ بهره کمتر باعث می شود خریدار خانه پول بیشتری برای خرج کردن داشته باشد. در نتیجه، این اغلب باعث افزایش قیمت خانه می شود. از آنجایی که ویژگی های بازار تأثیرات جهانی هستند، واریانس مکانی قیمت مسکن را توضیح نمی دهد. به این ترتیب، این متغیرها در یک مدل رگرسیون وزندار جغرافیایی تعلق ندارند. با این وجود، آنها نقش مهمی در توضیح تفاوت زمانی قیمتهای مسکن دارند، زیرا در نگاهی به رشد قیمت مسکن به صورت سالانه نقشی را ایفا میکنند.
در مقابل، ویژگی های ذاتی بزرگترین عوامل متمایزکننده قیمت مسکن هستند [ 4 ، 29 ، 30 ]. به این ترتیب، آنها همچنین بیشترین استفاده را برای مدلهای قیمتگذاری لذتگرا دارند [ 16 ]. نه تنها در ادبیات، بلکه در کاربردهای عملی، مانند مدل مالیات هلند، این متغیرها نقش غالب را ایفا می کنند. بزرگترین تأثیرات منطقه زندگی و حجم [ 16] که معمولاً با مقدار فضای باغ دنبال می شود. امکاناتی مانند گاراژ و حمام های متعدد نیز به افزایش قیمت خانه کمک می کند. سال ساخت می تواند به عنوان یک شاخص متوسط از بهره وری انرژی و وضعیت نگهداری باشد. با این حال، همیشه وضعیت واقعی خانه را نشان نمی دهد. خانه های قدیمی احتمالاً یک بار در طول عمر خود بازسازی می شوند، بنابراین ویژگی های دیگری مانند برچسب انرژی مورد نیاز است. علاوه بر این، ساختمانهای قدیمیتر نیز میتوانند میراث فرهنگی باشند، که میتواند منجر به قیمتهای بالاتر برای ساختمانهای قدیمیتر به دلیل ارزش تاریخی قابل توجه آنها شود که در [ 5 ] بیان شد. نمای کلی همه متغیرها در جدول 1 آورده شده است.
بزرگترین نقطه ضعف ویژگی های ذاتی این است که داده های باز در مورد این ویژگی ها به سختی بدست می آیند. بیشتر داده های آژانس های املاک یا محافظت می شوند یا فقط قابل خرید هستند. با وجود این، منابع ملی عمومی خوب برای ویژگی های خانه در هلند وجود دارد. Kadaster اطلاعات اولیه در مورد هر خانه از جمله سال ساخت و منطقه زندگی را ارائه می دهد.
در ادبیات، اکثر مدلهای GWR برای قیمتگذاری خانه بر مدلسازی ویژگیهای ذاتی بر اساس دادههای جمعآوریشده از بازارهای املاک و مستغلات یا آژانسهای املاک تمرکز دارند [ 5 ، 31 ، 32 ، 33 ]. با این حال، تحقیقات [ 4 ، 7 ] همچنین نشان میدهد که ویژگیهای مربوط به مکان/همسایگی خانه نیز به قیمت خانه کمک میکند. طبق [ 4 ]، مکان/محله 15 تا 50 درصد کل قیمت خانه را تشکیل می دهد. به این ترتیب، حتی زمانی که اطلاعات کمی در مورد هر خانه خاص در دسترس باشد، باز هم می توان با استفاده از ویژگی های مکان، یک تخمین محلی تری انجام داد.
در این مقاله، ویژگی های مکان به ویژگی های ناشی از نوع محله و وجود ساختمان های مجاور اشاره دارد. برای مثال، دسترسی نزدیک به فروشگاههای رفاه، تفریحات و پارکها همگی تأثیرات مثبتی بر قیمت خانه دارند [ 19 ]. این با تئوری اجاره پیشنهادی موافق است، که بیان میکند هر چه خانه به منطقه تجاری مرکزی نزدیکتر باشد، اجاره مسکن بالاتر میرود.
به همین ترتیب، دسترسی نقش دیگری در قیمت خانه ایفا می کند. زمان سفر به مکان های خاص مانند منطقه تجاری مرکزی می تواند شاخص بهتری نسبت به مسافت باشد. با این حال، همه اشکال حمل و نقل تأثیر مثبتی ندارند. نزدیکی بزرگراه تأثیر مخرب بیشتری دارد. تأثیر اغتشاش صوتی بیشتر از تأثیر آن بر دسترسی بهتر شهرهای دیگر است. دیدگاه ها نیز نقش دارند. چشم انداز رودخانه، دریاچه یا دریا می تواند تأثیرات مثبتی داشته باشد، در حالی که آسیاب های بادی و ساختمان های بلند اثرات مضری دارند.
در نهایت، شاخص های اجتماعی-اقتصادی برای یک محله وجود دارد که به قیمت مسکن نیز مربوط می شود. متوسط درآمد خانوار بیشتر در مناطقی با مسکن گرانتر دیده میشود. نرخ جرم و جنایت اغلب تأثیر منفی بر قیمت مسکن دارد. هنگام تحقیق در مورد این روابط، مهم است که کشف کنید آیا واقعاً یک همبستگی اتفاقی وجود دارد یا خیر. به طور کلی، ویژگی های مکان تأثیر کمتری نسبت به خصوصیات ذاتی دارند، زیرا ارزش مرتبط با هر یک از آنها بر اساس شخصی متفاوت است، با این حال آنها هنوز هم می توانند بینش بزرگی در مورد اینکه چرا خانه های خاص قیمت خانه های بالاتری نسبت به سایرین دارند ارائه دهند. خلاصه ای از متغیرهای مکان در جدول 2 آورده شده است.
3. داده ها و روش ها
در این مطالعه، ما سه مدل قیمتگذاری لذتگرا را برای پیشبینی ارزشهای ارزیابی خانهها در هلند بر اساس مدلها و متغیرهای مورد بحث در بخش قبل ایجاد میکنیم. مدل های انتخاب شده (1) LR، (2) GWR و (3) XGBoost هستند. هر مدل برای داده های ارزیابی دنیای واقعی ارائه شده توسط Stater NV، که بزرگترین ارائه دهنده خدمات وام مسکن در هلند است، اعمال می شود. این مدلها از دادههای سالهای 2018 و 2020 برای پنج شهرداری بزرگ منتخب در سراسر هلند، یعنی روتردام، آمستردام، آیندهوون، آمرسفورت و گرونینگن استفاده میکنند. فرض بر این است که این مجموعه داده تنوع کافی را برای آموزش مدل برای هر شهر خاص در هلند فراهم می کند. در نهایت، این بخش با مروری بر متغیرهای توضیحی و پارامترهای مدل که بهینه شده اند به پایان می رسد.
3.1. معیارهای مدل
هدف نهایی این است که کشف کنیم آیا ویژگیهای خانه و مکان امکان پیشبینی منطقی ارزیابیها را فراهم میکند یا خیر، و آیا این رویکرد بهتر از نمایهسازی سنتی است. این سه مدل با استفاده از معیارهای کمی و کیفی ارزیابی می شوند.
3.1.1. معیارهای کمی
معیارهای کمی بر اساس معیارهای عملکرد دقت رایج برای مدلهای یادگیری ماشینی است. اول، به عنوان معیاری برای خوبی تناسب عمل می کند. ثانیاً، خطای پیشبینی با ریشه میانگین مربعات خطا یا RMSE تعیین میشود. RMSE خطاهای بزرگ را با مجذور کردن آنها بیشتر از خطاهای کوچکتر وزن می کند. این معیاری است که اغلب برای بهینه سازی مدل های رگرسیون استفاده می شود. علاوه بر این، MAE محاسبه می شود که میانگین مطلق خطای میانگین است. MAE همیشه کمتر یا برابر با RMSE است، زیرا وزن بیشتری برای خطاهای مطلق بزرگتر ایجاد نمی کند. در نهایت، میانگین درصد مطلق خطا یا MAPE، خطای نسبی را می دهد. این مفید است، زیرا قیمت خانه ها از 150000 یورو تا بیش از یک میلیون متغیر است و به این ترتیب، خانه های گران تر با خطاهای مطلق بزرگتر دقت مدل را مختل نمی کند.
3.1.2. معیارهای کیفی
یک مدل کمی دقیقتر لزوماً بهتر نیست اگر قابلیت نگهداری مدل هزینههای بسیار بالاتری داشته باشد. هدف معیارهای کیفی ارائه بینش بهتر در مورد هزینه های عملیاتی برای پیاده سازی مدل و به روز نگه داشتن مدل است. دو معیار اصلی در اینجا عبارتند از: (1) زمان اجرای مدل: چقدر زمان/ تلاش برای جایگزینی مدل فعلی، (2) نگهداری مدل: چه مقدار زمان برای به روز نگه داشتن مدل باید صرف شود و در حال اجرا (بارگیری داده های جدید و آموزش مدل).
3.2. کاوش در متغیر پاسخ
هر درخواست وام مسکن در هلند نیاز به ارزیابی رسمی توسط یک ارزیاب معتبر دارد. ارزش ارزیابی، بیان شده در یورو، چیزی است که به عنوان نشانه ای از ارزش دارایی استفاده می شود. این به عنوان متغیر پاسخ برای مدل ها استفاده می شود. تعداد کل ارزیابی های املاک در سال در شکل 1 الف آورده شده است. این نشان می دهد که میزان کل ارزیابی ها در سال متفاوت است. به عنوان مثال، در حوالی بحران مالی 2007-2008، درخواست های وام مسکن بسیار کمتری وجود داشت. از سوی دیگر، در سال های اخیر به دلیل افزایش تقاضا در بازار مسکن هلند، درخواست های وام مسکن بیشتر شده است.
علاوه بر این، شکل 1 ب نشان می دهد که تعداد ارزیابی ها در هر شهرداری متفاوت است. به نظر می رسد که این تقریباً با تراکم جمعیت هلند مرتبط است، جایی که شهرداری های بزرگتر ارزیابی های بیشتری دارند. شکل A1در ضمیمه نشان می دهد که این توزیع در طول سال ها مشابه است. در سالهایی که درخواستهای وام مسکن کمی دارند، مانند سال 2008، بسیاری از شهرداریهای کوچکتر تنها حدود 300 ارزیابی دارند که تنها بخش کوچکی از کل خانههایشان است. برای این مناطق، پیش بینی دقیق دشوارتر است. در عوض، ما بر روی پنج شهرداری بزرگ، یعنی روتردام، آمستردام، آیندهوون، آمرسفورت و گرونینگن تمرکز می کنیم. اگر مدلها پیشبینیهایی را با دقت خوبی برای این پنج منطقه انجام دهند، در این صورت درصد زیادی از مجموعه داده Stater را پوشش میدهند.
میانگین قیمت خانه ها در سراسر هلند متفاوت است. به طور مشابه، میانگین ارزش ارزیابی مجموعه داده نیز در هر شهرداری و همچنین در زمان متفاوت است. برای ارزش های ارزیابی 2000 و 2020، افزایش در تعداد و میانگین ارزش ارزیابی بین سال های 2000 و 2020 مشاهده می شود ( شکل 1).ج). این بدان معناست که یک مدل پیشبینی کامل برای مقادیر ارزیابی باید تفاوتها را هم در زمان و هم در مکان منطقهای تشخیص دهد. با این حال، هدف این مقاله توضیح تفاوتهای بین سالها و پیشبینی قیمتهای ارزیابی آینده برای خانهها نیست، که کار دشوارتری است که نیازمند رویکردی متفاوت است. برای خدمات وام مسکن، ارزش فعلی وثیقه وام مسکن بیشترین اهمیت را دارد. به این ترتیب، فقط آموزش مدل ها برای یک سال خاص مشکلی نیست. در این مقاله، مدلها بر روی دادههای سالهای 2018 و 2020 آموزش داده میشوند. سال 2020 انتخاب شده است، زیرا این آخرین سال کامل است. علاوه بر این، سال 2018 برای اعتبارسنجی مدل برای یک سال متفاوت با ارزیابی های کمتر انتخاب شده است. برای سال 2018، تعداد ارزیابی ها برای این 5 شهرداری در جدول 3 خلاصه شده است.
3.3. کاوش در متغیرهای توضیحی
مجموعه داده ارزیابی شامل داده های اضافی در مورد نوع خانه (آپارتمان یا خانه خانوادگی) و وجود گاراژ یا فضای پارکینگ است. این متغیرهای طبقهبندی با استفاده از رمزگذاری یکطرفه تبدیل میشوند، زیرا مدلها فقط میتوانند دادههای عددی را بپذیرند. علاوه بر این، از چهار مجموعه داده برای جمع آوری اطلاعات بیشتر در مورد خانه ها و مکان آنها استفاده می شود. آنها از سه حزب می آیند: ثبت کاداستر هلند (Kadaster)، اداره مرکزی آمار هلند (CBS)، و آژانس تصدی هلند (RVO). جدول 4 را ببینید .
همانطور که در بخش 2 ذکر شد ، Kadaster ثبت مرکزی مربوط به مالکیت زمین در هلند را حفظ می کند. پایگاه ثبت آدرسها و ساختمانها (BAG) [ 9 ] مختصات جغرافیایی برای هر آدرس معتبر در هلند و همچنین کل منطقه زندگی و سال ساخت خانه را ارائه میکند. دادههای BAG از طریق آدرس – ترکیبی از کد پستی، نام خیابان و شماره خانه – از مجموعه دادههای ارزیابی به هم متصل میشوند.
علاوه بر اطلاعات در مورد خانه های واقعی، Kadaster همچنین اطلاعاتی در مورد مرزهای تمام زمین ها در هلند دارد که در DKK ذخیره می شوند [ 38 ]. همانطور که ادبیات نشان داده است، مساحت زمین نسبت به منطقه زندگی اهمیت کمتری دارد، اما همچنان بر قیمت خانه تاثیر می گذارد. به خصوص در مراکز شهر، فضای باغ بیشتر ارزشمند است. برای این تحقیق، Kadaster جدول “Location Cadastral Object” (LKO) را ارائه کرده است که زمین های زمین را از DKK به ساختمان ها از BAG مرتبط می کند. داده های زمین با استفاده از شناسه ساختمانی که در BAG موجود است به هم متصل می شوند.
در مجموع، پس از پیوستن و محاسبه سطح ترکیبی همه زمینها، به طور متوسط 69.3 درصد از خانههای خانوادگی دارای یک مساحت زمین مرتبط هستند. برای تمام آپارتمان هایی که زمین ندارند، یک صفر پر می شود، زیرا آپارتمان ها عموماً زمین ندارند. نمودار پراکندگی متغیرهای Kadaster در شکل A2 a آورده شده است که یک رابطه قوی بین ارزش ارزیابی هم برای منطقه مسکونی و هم برای مساحت زمین نشان می دهد. در نهایت، درصد کلی رکوردهای از دست رفته برای این متغیر در جدول 5 در زیر “مساحت زمین” خلاصه شده است.
مجموعه داده بعدی به اصطلاح «آمار مربع» از CBS است [ 39 ]. CBS متغیرهای جامعه شناختی و جمعیتی زیادی را در مورد کل هلند منتشر می کند. آنها این داده ها را برای سطوح مختلف وضوح منتشر می کنند. از بالاترین وضوح تا کمترین وضوح، مجموعه های زیر منتشر می شود: کد پستی کامل (PC6)، کاشی های 100 × 100 متر، کاشی های 500 × 500 متر، کد پستی 4 کاراکتری (PC4) و محله ها و بلوک های شهر. محله ها و حتی شهرداری ها می توانند ادغام شوند، تقسیم شوند یا مرزها را تغییر دهند. در این مقاله از مجموعه داده های 100×100 متر و 500×500 متر استفاده شده است. یکی از مزایای اصلی مجموعه داده کاشی این است که اندازه و موقعیت جغرافیایی آنها در طول سال ها ثابت می ماند. شکل 2مثالی از سه متغیر برای Amersfoort (2018) ارائه می دهد.
پیوستن به مجموعه داده کاشی با استفاده از مختصات جغرافیایی از BAG امکان پذیر است. با این حال، هر خانه ای درون یک کاشی قرار نمی گیرد. دلیل اصلی این است که کاشیهای کمتر از 5 خانوار به دلایل حفظ حریم خصوصی ارزششان سانسور شده است. این مشکل عمدتاً مربوط به متغیرهای جمعیت شناختی بود، مانند تعداد افراد 0-14 ساله، 15-24 سال و غیره و میانگین ارزش مالیات (WOZ-waarde). ترکیب و جایگزینی کاشی های 100 متری با کاشی های 500 متری برای مقادیر مطلق، مانند تعداد افراد 0 تا 14 سال، امکان پذیر نیست. از طرف دیگر، اگر مقدار متوسط باشد، می توان از کاشی های 500 متری استفاده کرد، زیرا کاشی های 500 متری فقط میانگین تعمیم یافته تری از نمونه بزرگتر را ارائه می دهند. برای میانگین درآمد و میانگین ارزش مالیاتی، جدول 6مقدار زیرمجموعه دادههایی که مقادیر گمشده کاشیهای 100 متری با کاشیهای 500 متری جایگزین شدهاند، چقدر است. این به طور متوسط 5٪ از کل تعداد مشاهدات است.
علاوه بر این، در داخل مجموعه داده CBS، متغیرهای زیادی وجود دارد که فاصله تا نزدیکترین «X» یا مقدار «Y» را در شعاع خاصی از کاشی فهرست میکنند. اینها به ترتیب با «AFS» و «AV##» (که در آن ## شعاع را بر حسب کیلومتر مشخص میکند) مخفف شدهاند. X و Y به امکاناتی مانند فروشگاه های مواد غذایی، کافه ها، استخرهای شنا، بیمارستان ها، سینماها و غیره اشاره دارد. متغیرهای «فاصله تا» و «مقدار در شعاع» که نوع یک ساختمان را توصیف میکنند، در نهایت همبستگی بالایی دارند. به این ترتیب، فقط متغیرهای “فاصله تا …” گنجانده شده است. به طور خلاصه، نمای کلی متغیرهای جدول A4 در ضمیمه، توصیف همه متغیرها و مجموعه کاشی هایی را که آنها استفاده می کنند (نام متغیرها که به _100 یا _500 ختم می شوند) فهرست می کند.
علاوه بر این، بر اساس مختصات جغرافیایی از BAG، امکان محاسبه فاصله تا مرکز شهر برای هر خانه وجود دارد. مختصات مراکز شهر به صورت دستی با استفاده از نقشه های گوگل تعیین می شود. برای پنج شهرداری در این تحقیق، این هنوز با دست قابل انجام است. با این حال، برای کل هلند، راه حل متفاوتی باید پیدا شود. متغیر به دست آمده ‘dist_centre’ نامیده می شود. در پایان، فاصله تا متغیر مرکز شهر نیز با متغیرهای فاصله CBS همبستگی دارد. به عنوان مثال، همانطور که در شکل 2 ج مشاهده می شود، بین فاصله تا کافه و فاصله تا مرکز شهر آمرسفورت رابطه وجود دارد. برای رگرسیون خطی، متغیرهای همبسته باید حذف شوند. در غیر این صورت، مدل می تواند ناپایدار شود.
علیرغم حذف متغیرهای “مقدار در شعاع”، هنوز یک مسئله همبستگی وجود دارد. برخی از متغیرهای “فاصله تا” و همچنین فاصله مرکز شهر با یکدیگر همبستگی دارند. نمودار همبستگی را در شکل 3 ببینید. کادرهایی که با رنگ قرمز مشخص شده اند، ضریب همبستگی 0.75 یا بالاتر را نشان می دهند (همبستگی قوی). بقیه همبستگی های غیر معنی دار خط خورده اند. به این ترتیب، متغیرهای زیر حذف می شوند: فاصله تا نیازهای روزانه (به نفع فاصله تا سوپرمارکت)، فاصله تا سینما، موزه و سکو (به نفع فاصله تا نزدیکترین ایستگاه قطار)، فاصله تا بیمارستان و داروخانه (به نفع فاصله تا پزشک عمومی)، فاصله تا کافه تریا (به نفع فاصله تا کافه)، و در نهایت، همانطور که در پاراگراف قبل ذکر شد، فاصله تا مرکز شهر.
در نهایت، RVO مجموعه داده ای را منتشر می کند که شامل تمام ثبت های رسمی برچسب انرژی در هلند است [ 40 ]. این داده ها را می توان با استفاده از شناسه از BAG به مجموعه داده موجود پیوست. این مجموعه داده محدودیتهای خود را نیز دارد، زیرا هر خانهای دارای برچسب انرژی رسمی نیست. در گذشته داشتن برچسب انرژی هنگام فروش خانه اجباری نبود. مجموعه داده RVO فقط شامل ثبت است، بنابراین هر خانه در این مجموعه داده وجود ندارد. علاوه بر برچسب انرژی، مجموعه داده همچنین حاوی اطلاعات دقیق تری در مورد نوع خانه و مصرف انرژی است. با این حال، به دلیل اینکه بسیاری از خانه ها در این مجموعه داده وجود ندارند، از نوع خانه موجود از Stater و همچنین میانگین مصرف انرژی از CBS استفاده می شود. در نهایت برچسب انرژی برای 70 درصد خانه ها موجود است (جدول 5 )؛ برای توزیع نمونه، شکل A2 ب را ببینید.
مجموعه کامل متغیرها در جدول A4 خلاصه شده است. با این حال، هنوز متغیرهایی وجود دارند که مقادیر گم شده ای دارند. همانطور که قبلا اشاره شد، تعداد مقادیر از دست رفته در جدول 5 خلاصه شده است. در اینجا، «فاصله» به متغیرهای فاصله مجموعه داده CBS اشاره دارد. متغیرهایی که در این نمای کلی گنجانده نشده اند 100٪ کامل هستند. برای CBS، تعداد زیادی از متغیرهای گمشده با شامل کردن کاشیهای 500×500 متر نیز حل شد. تعداد رکوردهایی که از مقادیر مجموعه داده 500 × 500 متر استفاده می کنند در جدول 6 خلاصه شده است.
یک مسئله کوچک اضافی مربوط به این واقعیت است که همه متغیرها برای سال 2020 در دسترس نیستند. جدیدترین سال کاملاً کامل، 2018 است. برای سال 2020، برخی از متغیرهای مربوط به درآمد و “فاصله تا …” هنوز در دسترس نیستند. با این حال، میتوان فرض کرد که اکثر این متغیرها در دو سال گذشته فقط اندکی تغییر کردهاند. به این ترتیب، برای سال 2020، متغیرهای گمشده را با مقادیر 2018 جایگزین می کنیم.
حذف تمام رکوردهای دارای مقادیر از دست رفته یک گزینه نیست، زیرا بخش بزرگی از رکوردها حداقل یک یا دو متغیر از دست داده اند. نتیجه یک مجموعه داده خواهد بود که فقط از چند صد رکورد در هر شهرداری تشکیل شده است. در عوض، مقادیر مجهول از رکوردهای مشابه منتسب می شوند. این کار با استفاده از “ک-نزدیکترین همسایه” با 7 همسایه انجام می شود. تعداد همسایگان بر اساس این واقعیت است که گزارش های ارزیابی معمولاً از حدود 5 خانه به عنوان خانه های مرجع استفاده می کنند. قبل از وارد کردن مقادیر، ابتدا ستونهای متغیر از کمترین مقادیر به بیشترین مقادیر از دست رفته مرتبسازی میشوند تا تضمین شود که متغیرهایی که کمترین متغیرهای گمشده را دارند، ابتدا وارد میشوند.
در نتیجه، از چهار منبع داده خارجی از Kadaster، CBS و RVO برای جمع آوری 31 متغیر قابل استفاده استفاده می شود. نمای کلی متغیرها در جدول A4 در پیوست ارائه شده است. Kadaster عمدتا ویژگی های ذاتی خانه را ارائه می دهد، در حالی که CBS ویژگی های مکان را در مورد محله ارائه می دهد. علاوه بر این، RVO همچنین برچسب های انرژی را برای درصد زیادی از تمام خانه ها ارائه می دهد. با این حال، از همه متغیرهای موجود استفاده نمی شود. جدول A5 22 متغیری را که به دلیل همبستگی زیاد با سایر متغیرها یا برای استخراج متغیرهای دیگر استفاده می شوند، درج نشده اند. در نهایت، همان طور که در جدول 5 نشان داده شده است، مسئله کمبود مقادیر وجود دارد. دو متغیر بزرگ با مقادیر گمشده، مساحت زمین و برچسب انرژی هستند که تا 30 درصد مقادیر گمشده دارند. مقادیر گمشده با استفاده از “k-nearest همسایه” با 7 همسایه برای جلوگیری از دور ریختن اکثر رکوردها نسبت داده می شوند. این مجموعه داده کامل برای تحقق سه مدل پیشبینی استفاده میشود.
3.4. بهینه سازی Hyper-Parameter با استفاده از CV
برخلاف LR، GWR و XGBoost پارامترهای مدلی دارند که میتوان آنها را بهینه کرد. این با استفاده از N بار مکرر k-folds اعتبار متقاطع انجام می شود. در این مقاله، 4 برابر (k = 4) 10 بار (N = 10) به دلیل حجم نمونه کوچک (~1k نمونه آموزشی) در هر شهرداری تکرار شده است. بنابراین، هر چین تقریباً 750 نمونه برای تنظیم پارامترها و 250 نمونه برای ارزیابی است. استفاده از اعتبارسنجی متقاطع k-folds (تکرار) باعث کاهش بیش از حد برازش می شود و تصویر بهتری از عملکرد واقعی ایجاد می کند. در این مقاله، مدلها با استفاده از R پیادهسازی میشوند. به طور خاص، با استفاده از بستههای R به نامهای «lm»، «GWmodel» و «xgboost» که با روشهای اعتبارسنجی متقابل داخلی ارائه میشوند.
برای GWR، سه پارامتر مربوط به تابع هسته وجود دارد که به خوبی تنظیم شده اند. خود تابع هسته، پهنای باند هسته و تنظیمات “تطبیقی”. تابع کرنل شکل کرنل را تعیین می کند. Gaussian، boxcar و bi-square معمولاً در ادبیات استفاده میشوند [ 26 ، 41 ]. در پایان، هسته گاوسی تطبیقی برای هر پنج شهرداری بهترین عملکرد را داشت. جدول A3 پهنای باند استفاده شده توسط هر شهرداری را خلاصه می کند.
در نهایت، برای XGBoost، نرخ یادگیری (eta) و حداکثر عمق درخت را بهینه میکنیم. نرخ یادگیری بالاتر به این معنی است که مدل گام های بزرگ تری به سمت حداقل تابع ضرر بردارد. نرخ یادگیری بهینه بین 0.13 و 0.17 برای پنج شهرداری است، بنابراین میانگین آنها به 0.15 رسید، زیرا هدف نهایی ایجاد یک مدل واحد برای کل هلند است. این تأثیر ناچیزی بر RMSE داشت. مشابه عمق درخت، 4 مدل از 5 مدل با عمق درخت 7 بهترین عملکرد را داشتند. با این حال، این تنها آزمون RMSE را اندکی بهبود بخشید و در عین حال مجموعه آموزشی RMSE را تا حد زیادی بهبود بخشید. به این ترتیب، برای جلوگیری از نصب بیش از حد، عمق درخت کمی کمتر از 6 انتخاب می شود.
4. نتایج
این بخش نتایج مدل های LR، GWR و XGBoost نهایی را که آموزش داده شده اند، خلاصه می کند. هر یک از مدل ها بر اساس معیارهای کمی و کیفی از بخش 3.1 ارزیابی می شوند. اول، مدلهای منحصربهفرد برای هر شهرداری برای سالهای 2018 و 2020 ارزیابی میشوند. دوم، یک مدل XGBoost ارزیابی میشود که در هر پنج شهرداری آموزش داده شده است. در نهایت، مقایسهای بین شاخصسازی و پنج مدل منحصربهفرد انجام میشود که در آن ارزشهای ارزیابی فعلی وثیقه متعلق به وامهای مسکن از سال 2000 را پیشبینی میکنند.
برای مدل LR، مدل اولیه برازش ضعیفی را عمدتاً به دلیل واریانس بالای مقادیر ارزیابی بالا ارائه کرد. ما مقادیر پرت بالای 750000 یورو را فیلتر می کنیم، که اکثر ارزیابی ها را حفظ می کند و در عین حال بهبود قابل توجهی در مدل ایجاد می کند. این در مقایسه نمودارهای چندک – چندک در شکل 4 نشان داده شده است. ارزش های ارزیابی بالا به احتمال زیاد نماینده خوبی برای کل جمعیت خانه ها نیستند. بنابراین، آنها حذف می شوند زیرا تأثیر زیادی بر دقت پیش بینی دارند.
علاوه بر این، به عنوان یک رویکرد جایگزین دیگر، مقادیر ارزیابی برای مدلسازی تأثیر رو به کاهش فضای زندگی ثبت شد. متأسفانه، هر دو مدل ورود به سیستم خطی با مقادیر ارزیابی ثبت شده و مدل لاگ خطی با فضاهای زندگی ثبت شده دقت مدل را بهبود نمیبخشند. در نهایت، بهترین مدل LR مدلی است که دارای مقادیر ارزیابی فیلتر شده است. همانطور که در جدول 7 خلاصه شده است، مدل LR دارای RMSE 85.628 یورو است و از 0.785، که در کل یک تناسب کافی است. از آنجایی که مقادیر ارزیابی به شدت از 50000 یورو تا 750000 یورو متفاوت است، باید به میانگین درصد مطلق خطا (MAPE) و صرفاً میانگین میانگین خطا (MAE) توجه کرد. اینها به ترتیب با میانگین خطای 9.61 درصد و 56219 یورو مطابقت دارند.
عملکرد LR در بهترین حالت کافی است. بسیاری از متغیرهای CBS رابطه خطی قوی با ارزش ارزیابی نشان نمی دهند. با این حال، به دلیل گنجاندن منطقه نشیمن (نام متغیر: perceel_oppr) و WOZ-waarde، هنوز هم می توان یک مدل مناسب با انحراف کمتر از 10٪ برای Amersfoort ایجاد کرد. شکل A3 نشان می دهد که این دو متغیر تا حد زیادی دو عامل مهم هستند، که پس از آن متغیری که درآمد بالا (P_HINK_HH)، افراد 15 تا 24 ساله و سال ساخت را توصیف می کند، قرار می گیرد.
رگرسیون وزندار جغرافیایی (GWR) برازش بهتری نسبت به مدل LR فراهم میکند، همانطور که در نمای کلی عملکرد GWR در جدول 8 خلاصه شده است. همانطور که در بخش 3.4 اشاره شد، GWR با استفاده از یک تابع هسته گاوسی تطبیقی با پهنای باند متفاوت در هر شهرداری آموزش داده شده است. برای Amersfoort، 10 متغیر مهم و نمونه ای از تأثیرات فضایی منطقه زندگی در شکل 5 ترسیم شده است.
مهم ترین متغیر، دوباره، منطقه نشیمن است، که پس از آن WOZ-waarde است. نمودار اهمیت متغیر به نظر می رسد شکلی مشابه با رگرسیون خطی داشته باشد ( شکل A3 ). این بار نیز برخی از متغیرهای فاصله مانند فاصله تا نزدیکترین سوپرمارکت و کافه نمایان می شود. در حالی که تأثیر متغیرهای دیگر جزئی به نظر می رسد، بدون گنجاندن آنها، 0.09 کاهش می یابد، که منجر به تناسب کمتر خوب با MAPE دوباره 10٪ می شود. GWR نهایی موفق به مدل سازی مقادیر ارزیابی تنها با 7.67% انحراف به طور متوسط می شود. مهمتر کاهش بیشتر است و RMSE، نشان دهنده نقاط پرت کمتر است. بدترین عملکرد شهرداری گرونینگن است که احتمالاً به دلیل داشتن کمترین نمونه است. از سوی دیگر، روتردام عملکرد خوبی دارد، که شاید به دلیل درصد بیشتری از آپارتمان ها در این مجموعه داده باشد. به طور متوسط، آپارتمان ها خطای پیش بینی کمتری (6.98٪) نسبت به خانه های خانوادگی (7.41٪) دارند. این را می توان به دلیل پایین بودن میانگین ارزش ارزیابی آپارتمان ها و ارزیابی های پایین تر دارای نقاط مرجع بیشتر نسبت داد. نتایج برای سال 2020 در جدول A6 در پیوست خلاصه شده است. آنها کاهش جزئی در دقت پیشبینی را نشان میدهند اما نه قابل توجه.
مدل نهایی مدل XGBoost است، با تنظیمات پارامترهای eta = 0.15، عمق درخت = 6، برای هر یک از پنج شهرداری. پس از 39 دور تقویت به طور متوسط، هیچ پیشرفت عمده ای ایجاد نمی شود، و پس از 159 دور، عملکرد شروع به کمی بدتر شدن می کند. تناسب مدل XGBoost بهترین تناسب کلی را دارد ( = 0.848) با کمترین امتیاز RMSE (58,374 یورو). خلاصه ای از معیارهای عملکرد در جدول 9 آورده شده است. شکل 6 مقادیر ارزیابی پیش بینی شده در مقابل واقعی را برای Amersfoort 2018 نشان می دهد. سایر شهرداری ها در شکل A4 نشان داده شده اند . همانطور که در شکل A5 مشاهده می شود، منطقه نشیمن و WOZ-waarde دوباره مهم ترین متغیرها هستند . حتی با حذف ارزیابیهای بالای 750000 یورو، اختلاف کمی بیشتر در ارزشهای ارزیابی بالا وجود دارد. به طور کلی، مدل XGBoost پیش بینی های دقیقی را با تنها 5 درصد انحراف به طور متوسط ارائه می دهد. جدول 10 میانگین عملکرد هر مدل را برای هر یک از پنج شهرداری خلاصه می کند.
در نهایت، از آنجایی که XGBoost بهترین مدل است، یک مدل XGBoost برای هر پنج شهرداری با استفاده از تنظیمات پارامتر یکسان آموزش داده شده است ( جدول 11 ). این مدل شامل نام شهرداری به عنوان یک متغیر اضافی است. خطای پیشبینی مدل کمی به 6 درصد افزایش مییابد. علاوه بر این، RMSE به طور قابلتوجهی بیشتر از MAE افزایش مییابد، که نشان میدهد در حالی که عملکرد کلی فقط اندکی کاهش یافته است، مدل در گرفتن موارد پرت بدتر است. نام شهرداری در نهایت به سومین متغیر مهم تبدیل می شود. در حالی که عملکرد مدل کمی بدتر است، اما همچنان از مدلهای GWR که به صورت جداگانه آموزش دیدهاند بهتر عمل میکند.
در مجموع، وقتی به معیارهای عملکرد کمی نگاه میکنیم، مدلهای XGBoost بهتر از مدلهای رگرسیون خطی و GWR عمل میکنند. معیارهای کیفی نهایی، زمان اجرا و نگهداری مدل است. در این تحقیق بیشترین تلاش برای جمع آوری تمامی متغیرها و تهیه مجموعه داده ها انجام شد. به این ترتیب، در عمل، انتظار می رود این نیز به بیشترین تعمیر و نگهداری نیاز داشته باشد. BAG را می توان به طور معمول با استفاده از درخواست API به روز کرد. با این حال، مجموعه دادههای RVO و CBS هر دو از عصارهای استفاده میکنند که نقطه پایانی API ندارد. در مجموع، آمادهسازی دادهها برای مدل نیازمند کارهای دستی است که به راحتی نمیتوان آن را خودکار کرد.
علاوه بر این، زمان آموزش نیز در نظر گرفته می شود. LR ساده و سریع است. برای میلیونها رکورد، این مشکل در رایانههای مدرن به ندرت پیش میآید. از سوی دیگر، GWR رگرسیون ها را برای یک شبکه محاسبه می کند. در مورد شهرداری آمرسفورت، یک شبکه کاشی 100 × 100 متر برای آمرسفورت (تقریباً 10 کیلومتر × 10 کیلومتر) برابر با 100 × 100 کاشی = 10 هزار کاشی = 10 هزار رگرسیون منحصر به فرد محاسبه شده است. در سخت افزار مدرن، این کمتر از 5 دقیقه طول می کشد. برای مقیاس ملی، شبکه باید در هر دو بعد بسیار بزرگتر باشد. بنابراین، قدرت محاسباتی مورد نیاز به صورت تصاعدی افزایش می یابد. تطبیق رگرسیون برای کل هلند احتمالا به جای چند دقیقه یک روز طول می کشد.
برخلاف GWR، XGBoost دارای یک GPU نیز است. در این مقاله، اندازههای نمونه برای یک سال به ازای هر شهرداری نسبتاً کوچک بود، بنابراین حتی استفاده از تنها CPU منجر به تناسب خوب در کمتر از 10 دقیقه با استفاده از XGBoost شد. با استفاده از GPU، XGboost سریعتر از مدل GWR هنگام آموزش برای کل هلند است. زمان آموزش مدل چیزی است که زمان زیادی برای یک کارمند هزینه نمی کند. در پایان، جمعآوری دادهها و ایجاد مجموعه داده فعالترین کار وقتگیر است که برای هر سه مدل تلاش یکسانی میطلبد.
در نهایت، رویکرد فعلی در استاتر از شاخص قیمت مسکن منطقهای Kadaster ( جدول A1 ) برای شاخصسازی ارزیابیها استفاده میکند. هر دو روش با کم کردن مقدار نمایه شده از مقدار پیش بینی شده XGBoost، همانطور که در شکل 7 نشان داده شده است، مقایسه می شوند. این دو نمودار بر اساس نوع مسکن از هم جدا شدهاند و پیشبینیها را برای همه خانههای خانوادگی و برای همه آپارتمانها فهرست میکنند. در هر دو مورد، XGBoost ارزش های ارزیابی بالاتری را نسبت به روش نمایه سازی پیش بینی می کند، به طور متوسط 34678 یورو برای آپارتمان ها (+ 17.31 درصد بالاتر از شاخص) و 28،566 یورو (11.12 درصد).
دو مشاهدات را می توان از شکل 7 انجام داد. اول، پیشبینیهای XGBoost برای آپارتمانها انحراف کمتری از شاخص را در مقایسه با پیشبینیهای خانههای خانوادگی نشان میدهند. یک توضیح برای این موضوع، واریانس بالاتر در ارزش های ارزیابی خانه های خانوادگی در مقایسه با آپارتمان ها است. این مدل به احتمال زیاد پیشبینی ضعیفی برای یک خانه خانوادگی نسبت به یک آپارتمان دارد، همانطور که با مقادیر پرت بزرگتر نشان داده میشود (به ندرت اختلاف زیاد +250k €).
دوم، تفاوت بین آپارتمانها و خانههای خانوادگی با دیگر شاخص Kadaster برای انواع مسکن مطابقت دارد ( جدول A2). از این شاخص، می توان دریافت که آپارتمان ها تقریباً 20٪ اضافی نسبت به خانه های خانوادگی در کل هلند (2000-2020) افزایش یافته است. مدل XGBoost قادر به توضیح این موضوع است، در حالی که شاخص منطقه ای چنین نیست. این نتیجه گیری اصلی را تایید می کند که مدل XGBoost می تواند جایگزین بهتری برای نمایه سازی قیمت باشد. یک شاخص ایده آل برای Kadaster هم منطقه و هم نوع خانه را تشخیص می دهد. این می تواند یک پیشرفت نسبتا ساده نسبت به روش فعلی نمایه سازی باشد. در مجموع، این پشتیبانی اضافی برای این نتیجه گیری فراهم می کند که رویکرد مدل می تواند نسبت به شاخص سازی بهبود یابد، زیرا می تواند نوع مسکن را در نظر بگیرد.
5. بحث
در نهایت مدل XGBoost قادر است زیر مجموعه بزرگی از خانه ها را با دقت بهتری نسبت به نمایه سازی مدل سازی کند. این مدل فقط از ارزشهای ارزیابی زیر 750000 یورو استفاده میکند، زیرا بالاترین ارزیابیها (گرانترین خانهها) به دلیل تأثیر قویتر ترجیحات فردی خریداران باعث افزایش زیادی در واریانس شدند. این فقط 4.24٪ از تمام ارزیابی ها را حذف می کند. به این ترتیب، چالش مدل سازی ارزش های ارزیابی برای گران ترین خانه ها باقی می ماند.
در مدل XGBoost، منطقه زندگی و ارزش مالیات (WOZ-waarde) 70٪ از واریانس توضیح داده شده را تشکیل می دهند، در حالی که سایر متغیرها در مجموع واریانس توضیح داده شده را 7٪ افزایش می دهند. یک اشکال این است که WOZ-waarde منحصر به فرد هلند است. ما استدلال می کنیم که نتایج مشابه برای کشورهای دیگر قابل دستیابی است، زیرا WOZ-waarde نیز تحت تأثیر متغیرهایی مانند منطقه زندگی است. به هر حال، WOZ-waarde یک ارزیابی تقریبی از سوی دولت است. بدون گنجاندن آن، منطقه نشیمن احتمالاً نقش بزرگتری ایفا می کند. در مجموع، مدل نتایج پیشبینی بهتری برای هلند با درج ارزش مالیات (متوسط) دارد. همانطور که در مقایسه بین نمایه سازی و XGBoost نشان داده شده است، XGBoost نسبت به نمایه سازی برتری دارد، زیرا مدل انواع مختلفی از خانه ها را در نظر می گیرد.شکل 7 ). واریانس غیرقابل توضیح باقی مانده 17٪ احتمالاً به دلیل یک متغیر گمشده است که کیفیت خانه را توضیح می دهد. اطلاعات مربوط به خانه از گزارش های رسمی ارزیابی می تواند به کاهش این اختلاف کمک کند، زیرا آنها حاوی اطلاعات بیشتری در مورد خود خانه هستند.
علاوه بر این که XGBoost دارای دقت بالاتری نسبت به LR و GWR است (از نظر معیارهای کمی، ، RMSE و MAPE)، همچنین از نظر عملکرد زمان تمرین در مقایسه با GWR عملکرد خوبی دارد. XGBoost دارای این مزیت است که می تواند بر روی GPU اجرا شود، در حالی که GWR محدود به CPU است که هنگام محاسبه رگرسیون برای شبکه های بزرگ کل کشورها با مشکلات عملکردی مواجه می شود. بنابراین، زمان آموزش XGBoost در هنگام آموزش مدلها برای همه ارزشهای ارزیابی مسئلهای نیست. بیشترین زمان مصرف در مقایسه با نمایه سازی، در به روز نگه داشتن داده های مدل است که برای هر سه مدل به یک اندازه زمان بر است. فقط داده های Kadaster از طریق API های مختلف به راحتی قابل دسترسی هستند. مجموعه داده های CBS و RVO باید به صورت دستی دانلود شوند.
نقاط ضعف مدل XGBoost، مقادیر پرت بزرگتر در مقایسه با نمایه سازی محافظه کارانه است، و همچنین این واقعیت که مدل در حال حاضر یک سال کامل را پیش بینی می کند و تغییرات ماهانه را در نظر نمی گیرد. این می تواند تا حدی با اطمینان از اینکه مدل هر ماه بازآموزی می شود، و جایگزینی ارزیابی های قدیمی ترین ماه با ماه جدید کاهش می یابد. در نهایت، برای به روز نگه داشتن داده های مدل ها تلاش بیشتری لازم است. با این حال، در ازای این تلاش اضافی، XGBoost میتواند پیشبینیهای محلیتری برای کل هلند انجام دهد تا وثیقههای وام مسکن را ارزیابی کند.
6. نتیجه گیری
این مقاله ارزیابی مبتنی بر مدل املاک و مستغلات را با استفاده از قیمتگذاری لذتگرا در شهرها بررسی میکند. ما رویکردهای مختلف یادگیری ماشینی (ML) را برای تولید مدلهای قیمتگذاری لذتگرا مقایسه میکنیم و آنها را بر اساس دقت، هزینه، سرعت و نیازهای داده ارزیابی میکنیم. برای دستیابی به این هدف، پنج سوال تحقیقی را مطرح کردیم که برای آنها به نتایج زیر رسیدیم.
کدام رویکردهای ML در حال حاضر برای قیمتگذاری لذتگرا استفاده میشوند و چگونه عمل میکنند؟
چهار مدل قیمتگذاری لذتگرا از ادبیات، و همچنین متغیرهای مورد استفاده در مدلسازی ارزش املاک و مستغلات تحلیل میشوند. از این رو، ما سه مدل قیمتگذاری لذتگرا را با استفاده از رگرسیون خطی (LR)، رگرسیون وزندار جغرافیایی (GWR)، و افزایش گرادیان شدید (XGBoost) پیادهسازی کردیم. آنها ارزش های ارزیابی را برای پنج شهرداری در بخش های مختلف هلند مدل می کنند: آمستردام، آمرسفورت، آیندهوون، گرونینگن، و روتردام. نتایج کمی برای هر مدل در جدول 10 ارائه شده است. این مدلها روی ارزشهای ارزیابی زیر 750000 یورو آزمایش میشوند، زیرا بالاترین ارزیابیها (گرانترین خانهها) به دلیل تأثیر قویتر ترجیحات فردی خریداران، افزایش زیادی در واریانس ایجاد کردند.
برای سال 2020، XGBoost به بهترین وجه واریانس مقادیر ارزیابی را با میانگین توضیح می دهد. از 0.852. این یک پیشرفت آماری قابل توجه نسبت به GWR ( = 0.809) و LR ( = 0.734). برای XGBoost، میانگین RMSE در پنج شهرداری 61028 یورو و MAE 35451 یورو است. ارزشهای ارزیابی بالاتر واریانس بیشتری نسبت به ارزشهای ارزیابی پایینتر دارند. بنابراین، در پیشبینیهای انجامشده، برخی موارد پرت وجود دارد. به طور متوسط، میانگین درصد خطای مطلق (MAPE) 5.89٪ است. در سال 2020، برای یک ارزیابی متوسط 450000 یورو (در سال 2018)، این معادل با خطای حدود 27000 یورو است. بنابراین، XGBoost به طور کلی روش خوبی برای مدلسازی ارزشهای ارزیابی است.
کدام عوامل برای تفاوت قیمت خانه ها در شهرها مهم است؟ کدام اطلاعات در مورد این عوامل در دسترس است؟
دو متغیر مهم در هر سه نوع مدل عبارتند از: مساحت کل زندگی (vbo_oppervlakte، از Kadaster) و میانگین ارزش مالیات تمام خانه های مجاور در یک منطقه 500 × 500 متر (WOZ-waarde، از CBS). علاوه بر این، متغیرهای مهم دیگر در مدل XGBoost شامل عرض جغرافیایی خانه، درصد درآمد متعلق به 20٪ بالاترین درآمد در هلند، مصرف برق و در نهایت فاصله تا نزدیکترین کافه است. بخش غربی هلند به طور کلی دارای ارزش های ارزیابی بالاتری است. علاوه بر این، افراد ثروتمند معمولا در محله های گران تری زندگی می کنند. فاصله تا نزدیکترین کافه احتمالا به فاصله تا مرکز شهر مربوط می شود. سایر متغیرها، مانند برچسب های انرژی، تأثیر کمی دارند زیرا بیشترین مقادیر گم شده را دارند.
چگونه می توانیم با استفاده از بینش های به دست آمده، روشی برای قیمت گذاری لذت جویانه در شهرهای مختلف بسازیم؟ نتایج اعمال این روش با مجموعه داده واقعی چیست؟
هدف نهایی یک مدل ارزیابی ملی برای هلند است. این پنج شهرداری بهطور خاص انتخاب شدند، زیرا استانهای منحصربهفردی را در بخشهای مختلف هلند نشان میدهند. علاوه بر این، این شهرداریها دارای بیشترین جمعیت هستند. به این ترتیب، ما معتقدیم که آنها یک نمونه ترکیبی خوب برای یک مدل ملی ارائه می دهند. مدل تک XGBoost که برای هر پنج شهرداری آموزش داده شده است، میتواند 83 درصد از واریانس را با RMSE 65312 یورو، MAE 43625 یورو و MAPE 6.35 درصد توضیح دهد ( جدول 11 ). در مجموع، این مدل XGBoost تنها به میزان اندکی بدتر از پنج مدل آموزشدیده فردی عمل میکند و تنها ۰.۰۲ کاهش برای و افزایش 0.48 درصدی برای MAPE. بنابراین، می توان نتیجه گرفت که به احتمال زیاد XGBoost قادر به مدل سازی ارزش های ارزیابی برای همه شهرداری ها است.
در نهایت، یک مقایسه کمی بین XGBoost و نمایه سازی با مقایسه پیش بینی های هر دو روش برای ارزش های ارزیابی از سال 2000 انجام شده است. پیش بینی ها در دو دسته تشخیص داده می شوند: آپارتمان ها و خانه های خانوادگی. در هر دو مورد، مدل XGBoost پیش بینی های بالاتری نسبت به شاخص انجام می دهد: +17.14٪ برای آپارتمان ها و +11.12٪ برای خانه های خانوادگی ( شکل 7 ). بدیهی است که این شاخص با در نظر گرفتن میانگین بسیاری از قیمتهای املاک، تخمین محافظهکارانهتری از افزایش قیمت است. پیشبینیهای مدل XGBoost نیز با شاخص نوع مسکن مطابقت دارد ( جدول A2). این شاخص نشان دهنده افزایش 70 درصدی قیمت آپارتمان در مقایسه با تنها 50 درصدی خانه های خانوادگی است. این نشان میدهد که مدل XGBoost میتواند تفاوتها در توسعه قیمت آپارتمانها و خانههای خانوادگی را توضیح دهد. در نهایت باید به این نکته اشاره کرد که مدل XGBoost در پیشبینیهای خود برای خانههای خانوادگی نیز دارای چند نقطه پرت است. با این حال، بر اساس نتایج آموزش برای سال 2018، می توان نتیجه گرفت که مدل XGBoost می تواند برای اکثر ارزیابی ها، به استثنای گران ترین ارزیابی ها، قابل اعتمادتر از نمایه سازی باشد.
بر اساس نتایج قبلی، ما به توصیههای زیر برای تحقیقات آینده با محوریت مدلسازی ارزش املاک و مستغلات با استفاده از دادههای باز و XGBoost میرسیم:
- –
-
عدم وجود ویژگی برای مدل سازی کیفیت خانه. واریانس غیرقابل توضیح باقی مانده 17 درصد احتمالاً به دلیل یک متغیر گمشده است که کیفیت خود خانه یا سایر ویژگی های مکان را توضیح می دهد. یک گزارش ارزیابی رسمی حاوی اطلاعات دقیق تری در مورد وضعیت یک خانه است. این می تواند به ترسیم تصویر بهتری از خود خانه کمک کند.
- –
-
به عنوان مثال، نقشه غرق زمین از TU Delft یک مورد استفاده جالب برای بررسی عوامل خطر سبد املاک و مستغلات ارائه می دهد. غرق شدن زمین یک مشکل واقعی در هلند، به ویژه در گرونینگن است. در نتیجه بهره برداری از گاز، ارزش ملک در منطقه به شدت کاهش می یابد. این یک خطر آشکار برای صاحب وام مسکن و وام دهنده است. مشکل دیگر برای بسیاری از خانه ها پوسیدگی پایه است. شاید بتوان مناطق خطر را با ترکیب داده های غرق با ترکیبات زمین شناسایی کرد.
2 نظرات