1. مقدمه
20 سال پیش، اگر از مردم پرسیده می شد که محبوب ترین جنبه مطالعات اطلاعات جغرافیایی چیست، بسیاری از مردم پاسخ می دادند “استفاده روزافزون از سیستم های اطلاعات جغرافیایی” (GIS). اکنون، به طور مشابه، اطلاعات جغرافیایی داوطلبانه جامعه اطلاعات جغرافیایی را وادار می کند تا مجموعه داده های جغرافیایی ایجاد شده توسط داوطلبان را درک کند. پلتفرمهای جمعسپاری که شامل تولید دادههای مکانی توسط شرکتکنندگان داوطلب است، پروژههای اطلاعات جغرافیایی داوطلبانه (VGI) نامیده میشوند. هر یک از داوطلبان مستقل از حق برابر برای تولید داده های مکانی و به روز رسانی داده های موجود برخوردار است. به عبارت دیگر، شرکتکنندگان داوطلب این امکان را دارند که دادههای جغرافیایی نامحدودی ارائه کنند و مشارکتهای یکدیگر را ویرایش کنند. با این حال، هیچ الزامی برای صلاحیت های نقشه برداری در میان شرکت کنندگان در پلتفرم های VGI وجود ندارد. از این رو، همیشه این احتمال وجود دارد که شخص بتواند یک نقشه کش غیر متخصص باشد. داوطلبانی که تخصص آنها به عنوان کافی تأیید نشده است می توانند داده های جغرافیایی را از طریق رابط های آنلاین ایجاد کنند [1 ، 2 ]. سازگاری دادههای مکانی تنها پس از رفع تضادهای شناسایی شده به صورت دستی به دست میآید [ 3 ]. بنابراین، مطالعات علمی مختلفی برای تعیین اینکه آیا داده های جغرافیایی تولید شده از طریق VGI می توانند برای اهداف حرفه ای مانند سایر نقشه های تولید شده توسط نقشه نگاران مورد استفاده قرار گیرند یا خیر، انجام شده است. بیشتر مطالعات بر روی ارزیابی دقت و کامل بودن داده های معنایی و هندسی در VGI متمرکز شده اند. تنها چند مطالعه به طور مستقیم رفتار داوطلبان را مورد بررسی قرار داده اند [ 4 ، 5 ، 6 ، 7 ، 8 ]. به طور خلاصه، آنها مشارکت های هندسی و معنایی را بررسی کردند و فعالیت های داوطلبان را ارزیابی کردند.
این بخش ابتدا به معرفی کلی OpenStreetMap، محبوب ترین پلتفرم VGI می پردازد. در مرحله دوم، مطالعات ارزیابی کیفیت دادههای VGI خلاصه میشوند، زیرا یکی از رایجترین علایق تحقیقاتی در مورد دادههای VGI هستند. سپس، مطالعات قبلی که انگیزه این مقاله و دامنه بررسی رفتار مشارکتکنندگان را شکل میدهند، ارائه میشوند. در نهایت انگیزه و طرحی مختصر از مطالعه معرفی شده است.
OSM، Wheelmap، Wikimapia و WorldMap برخی از پروژه های مهم VGI هستند. پروژه Wheelmap برای افراد دارای ناتوانی در راه رفتن برای شناسایی اشیاء جغرافیایی بر روی نقشه مناسب برای استفاده از ویلچر انجام می شود [ 9 ]. WorldMap پروژه ای است که به سرعت تولید داده های جغرافیایی را برای آفریقا [ 10 ]، قبل از گسترش به سایر قاره ها آغاز کرد. پروژه Wikimapia در سال 2006 [ 11 ] با هدف ایجاد یک دانشنامه داده های جغرافیایی با الهام از ویکی پدیا تاسیس شد. یکی از پروژه های پیشگام VGI OSM است. برای همه نهادهای جغرافیایی که عمدتاً در نزدیکی یا مرتبط با جاده ها قرار دارند استفاده می شود. با این حال، هیچ محدودیتی در تنوع داده های جغرافیایی در پروژه وجود ندارد [ 12]. شرکت کنندگان می توانند آزادانه اطلاعات هندسی و معنایی را برای هر مکانی در جهان ارائه دهند. داده ها به صورت هفتگی در planet.osm در دسترس قرار می گیرند. در ابتدای پروژه OSM، در حالی که برخی از شرکت کنندگان فعال بودند، بسیاری از آنها فقط عضو شدند و از هرگونه ویرایش خودداری کردند. Neis و Zipf [ 13 ] ذکر کردند که تنها 38٪ از داوطلبان حداقل یک مشارکت داشتند و فقط 5٪ به طور فعال به عنوان داوطلب OSM به صورت واقعی مشارکت داشتند. در طول سالها، با افزایش مشارکت اعضا، نسخه فشرده دادههای سیاره موجود برای اشتراکگذاری در 31 دسامبر 2020 به 54.5 گیگابایت و نسخه استخراج شده در قالب XML، 1338.4 گیگابایت افزایش یافته است [ 14 ]]. هیچ مکانیزم کنترل داخلی هندسی، معنایی یا نقشهکشی به جز اختیار داوطلبان برای تنظیم مشارکتهای یکدیگر وجود ندارد و هیچ قانون محدودکنندهای وجود ندارد که ارزیابی این منبع بزرگ دادههای جغرافیایی را امکانپذیر کند. بنابراین، Mooney و Corcoran [ 5 ] خاطرنشان میکنند که لازم است کاربران کیفیت دادههای OSM را ارزیابی کنند، بهویژه برای برنامههای نقشهای که نیاز به دقت هندسی و دقت بالایی دارند. بصیری و همکاران [ 15 ] مشکلات مشارکت های OSM را ناشی از عدم تجربه داوطلبان در GIS، دانش ناکافی از منطقه ارائه شده، تفسیر ویژگی های مشابه با برچسب های مختلف برای اشیاء مشابه، و افزودن تعداد متفاوت برچسب ها به اشیاء مشابه ذکر کرد.
مطالعات اولیه برای ارزیابی داده های OSM بر تعیین دقت و کامل بودن با استفاده از داده های مرجع متمرکز بود. هاکلی [ 16 ] بر تجزیه و تحلیل کیفیت مبتنی بر مقایسه داده های OSM انگلستان با داده های مقیاس بزرگ تولید شده توسط Ordnance Survey تمرکز کرد. نویسنده تعیین کرد که دقت داده های هندسی OSM تقریباً 6 متر است. در فرانسه، Girres و Touya [ 17 ] از معیارهای ارزیابی برای داده های OSM استفاده کردند که کیفیت داده های مکانی را تعیین می کند، مانند هندسی، صفت، دقت معنایی و زمانی، سازگاری منطقی و کامل بودن. Mondzech و Sester [ 18] کیفیت OSM را از نظر پیمایش عابر پیاده با مقایسه داده های ATKIS و OSM ارزیابی کرد. آنها برخی از شهرهای آلمان را تجزیه و تحلیل کردند و به این نتیجه رسیدند که مجموعه داده هایی که مسیرهای طولانی در آنها شکل گرفته است شامل داده های ناقص است. دا کوستا [ 19 ] کامل بودن ساختمان های OSM را با مقایسه آنها با مجموعه داده های رسمی ساختمان ارزیابی کرد. مطالعه نشان داد که کامل بودن در مراکز شهرها نسبتاً بالا بود اما دورتر از مناطق شهری کاهش یافت. Zhang و Malczewski [ 20 ] کیفیت داده های جاده OSM را در کانادا ارزیابی کردند. در نتیجه تجزیه و تحلیل آنها با استفاده از معیارهای ارزیابی داده های مکانی مانند کامل بودن، مکانی، صفت و دقت معنایی، آنها دریافتند که مشارکت در شبکه های جاده ای شهری بیشتر از مناطق روستایی است. مبشری و همکاران [ 21] ارزیابی اولیه داده های پیاده رو در OSM را برای افزایش آگاهی و مشارکت جمعیت برای غنی سازی اطلاعات پیاده رو در شهرهای مختلف اروپایی انجام داد. در ایران، محمدی و صداقت [ 22 ] چارچوبی را برای تخمین کیفیت VGI با استفاده از یک شاخص برای طبقهبندی آنها بر اساس نیاز کاربران با استفاده از یک رویکرد یکپارچه شامل فرآیند تطبیق و طبقهبندی شبکه عصبی پیشنهاد کردند.
دادههای مرجع میتوانند اطلاعاتی در مورد درستی دادههای هندسی یا معنایی ارائه دهند، اما اطلاعاتی در مورد انتخاب نوع برچسب یا روند کلی ترسیم توسط داوطلبان ارائه نمیکنند [ 5 ]. مطالعات بدون داده های مرجع عموماً اشیاء OSM را با کمک معیارهای هندسی و معنایی ارزیابی می کنند و در مورد تکامل داده ها یا رفتار مشارکت کنندگان استنباط می کنند. برخی از مطالعات انجام شده بدون داده های مرجع بر روی تکامل و تولید خودکار داده های OSM متمرکز شده اند. کورکوران و همکاران [ 23 ] تکامل زمانی سه شبکه جاده ای OSM در ایرلند را تحلیل کرد. آنها نتایج را با تراکم و اکتشاف در مناطق شهری ارزیابی کردند. ژائو و همکاران [ 24] تکامل شبکههای جادهای OSM پکن را بین سالهای 2009 و 2012 از نظر معیارهای هندسی، توپولوژیکی و مرکزی بررسی کرد. در منطقه مورد مطالعه، مشخص شد که داوطلبان OSM شروع به مشارکت از مرزهای شهر کردند و نقاشی های آنها به سمت مرکز شهر هدایت شد. هاکار و همکاران [ 25 ] تکامل شبکههای جادهای OSM را در آنکارا بین سالهای 2007 و 2017 با استفاده از معیارهای مرکزیت بررسی کرد. آنها پارامتر کامل بودن زمانی، سینوسی بودن جادهها و تراکم فعالسازی داوطلبان را در طول سالها اندازهگیری کردند. مشاهده شد که با افزایش تجربه مشارکت کنندگان، آنها مشارکت های دقیق تری داشتند. بصیری و همکاران [ 26] مسیر حرکت را برای استخراج برخی الگوها و قوانین، که به تشخیص ناهنجاری ها و خطاها در داده های OSM کمک می کند، تجزیه و تحلیل کرد. علاوه بر این، بصیری و همکاران. [ 15 ] مطالعه ای را با این فرض انجام داد که برخی از ویژگی های داده های خط سیر خام ممکن است به هندسه و ویژگی های اجسام مرتبط باشد. آنها رویکردی برای تولید اشیاء جدید یا ویرایش دادههای موجود با استفاده از تکنیکهای داده کاوی، که شامل تعمیم نقشهکشی و مراحل تطبیق است، پیشنهاد کردند. هاکار [ 27 ] یک رویکرد نیمه خودکار برای شناسایی ارزش برچسب های اوقات فراغت پیشنهاد کرد. این رویکرد از دادههای هندسی (مستطیل شکل، تراکم، مساحت و فاصله تا ایستگاه اتوبوس و فروشگاه) و معنایی (امکانات رفاهی) استفاده میکند و مقادیر کلیدی را با استفاده از طبقهبندیکننده جنگل تصادفی تخمین میزند.
ایجاد اشیاء جغرافیایی و تبدیل آنها به ویژگی های نقشه در تخصص نقشه نگاران است. مانند بسیاری از شاخه های مهندسی، این رشته نیز نیازمند دانش گسترده ای از هندسه تحلیلی است. قوانین نقشه برداری زیادی وجود دارد که با محدودیت های وضوح گرافیکی و هندسی در هنگام ایجاد نقشه ها تعریف می شوند. علاوه بر این، هنگامی که عمل طراحی یک فعالیت هنری در نظر گرفته شود، می توان تشخیص داد که اعمال ذهنی نیز انجام می شود [ 28 ]]. این اقدامات عاداتی هستند که با تجربه نقشهبرداران در طول زمان شکل گرفتهاند و استانداردهای مشترک خاصی وجود ندارد. به عنوان مثال، هیچ قانون عینی برای تعیین محل شروع ترسیم شبکه جاده، مرز جنگل، دریاچه یا ساختمان وجود ندارد. بررسی علمی عادات طراحی ذهنی نقشهبرداران در پروژههای متشکل از چندین نقشهبردار ممکن است معنیدار نباشد. با این حال، داوطلبانی که در دادههای VGI جمعسپاری شده مشارکت دارند، باید خارج از این محدوده در نظر گرفته شوند. در پروژه های VGI، بر خلاف دیگران، به جای عادات فردی، لازم است در مورد رفتار صدها هزار نفر صحبت شود. تحقیقات علمی در مورد رفتار مشارکت جمعی با استفاده از هر دو رویکرد هندسی و معنایی انجام شده است. مونی و همکاران [ 4] کیفیت دادههای OSM را با بررسی ایجاد چندضلعیهایی که نمایانگر هیدروگرافی و مناطق جنگلی هستند، ارزیابی کرد. آنها بیان کردند که ترسیم ویژگی های هیدروگرافیک و مرزها از تصاویر ماهواره ای برای داوطلبان آسان تر از ترسیم مرزهای منطقه جنگلی است.
با این حال، بیشتر مطالعات ارزیابی کیفیت OSM برای ارزیابی برچسبهای معنایی و مقادیر آنها طراحی شدهاند. Mooney و Corcoran [ 5 ، 29 ] دادههای بهروز شده مکرر (حداقل 15 بار) را بر اساس کشور بررسی کردند. اگرچه اشیایی که اغلب تغییر می کنند دارای نقاط مشترک خاصی هستند، اما مشاهده شد که آنها همبستگی ندارند. آنها دریافتند که بیش از 90 درصد از داده های OSM کمتر از سه بار تغییر کرده و هیچ رابطه قوی بین تعداد مشارکت کنندگان و تعداد برچسب ها وجود ندارد. جیلانی و همکاران [ 6] یک مدل یادگیری ماشینی (ML) را برای پیشبینی مقادیر برچسب “بزرگراه = *” که به کلاسهای جاده OSM اشاره دارد، توسعه داد. آنها برخی از داده های نسبتاً قابل اعتماد جاده OSM لندن را به عنوان مرجع در نظر گرفتند. در نتیجه آزمایش، در حالی که بیش از 50 درصد مسیرهای مسکونی، عابر پیاده، اولیه، بزرگراه، پیوند اولیه و پیوند بزرگراه به درستی پیشبینی شده بود، کمتر از 40 درصد مسیر دوچرخه، راه افسار، مسیر، ثانویه و پیوند ثانویه درست بود. با توجه به تراکم دادهها در مناطق شهری، استفاده از راهنمای «ویژگیهای نقشه» در وبسایت OSM Wiki به مشارکتهای دقیقتر و دقیقتر کمک میکند [ 30 ]]. در دفترچه راهنما، نامهای تگهایی که بهویژه طی چندین سال توسط کاربران ترجیح داده شده و پذیرفته شدهاند، همراه با تعاریف آنها فهرست شدهاند. مشارکتکنندگان میتوانند برچسبهای مناسب برای مشخصه یک شی جغرافیایی را از فهرست انتخاب کرده و دادههای سازگار با سایر کاربران را وارد کنند. داوودوویچ و همکاران [ 7 ] بررسی کرد که چقدر داوطلبان OSM در 30 منطقه شهری مختلف صفحه وب OSM ویکی را در نظر می گیرند. آنها دریافتند که داوطلبان به طور کلی با دستورالعمل موجود در صفحه “ویژگی های نقشه” موافق بودند، اما انواع مشابهی از اشیاء جغرافیایی با برچسب های مختلف در شهرهای مختلف ایجاد شدند. هاکار [ 8] دادههای planet.osm را بررسی کرد، برچسبهای مربوط به جادهها را مقایسه کرد و تگهای اضافه کردن روند داوطلبان را مطالعه کرد. وی اظهار داشت: در حالی که برچسبهای سطحی، مبدا و یک طرفه در جادههای مسکونی با نرخی مشابه سایر جادهها اضافه میشد، برچسبهای نام به دفعات اضافه میشد. همچنین مشخص شد که در 81 درصد از نقشه های جاده های مسکونی، منبع استفاده شده مشخص نشده است. وی خاطرنشان کرد: در حالی که OSM منبع داده خوبی از نظر تنوع برچسب است، اما از نظر کامل بودن داده ها دارای کمبودهایی است.
سوال تحقیق این مطالعه از مطالعه محدود روندهای جمع سپاری در ترسیم نقشه برداری الهام گرفته شده است. تا به حال، محققان این فرصت را داشته اند تا کشف کنند که داوطلبان چه چیزی می کشند، اما اطلاعات کافی در مورد نحوه ترسیم آنها وجود ندارد. هدف این مطالعه یافتن جهت یا روند مشترک در میان مشارکتکنندگان OSM هنگام نگاشت چند ضلعیها است. از ویژگی های مختلف نقاط گوشه ساختمان برای اندازه گیری تمایزات احتمالی در بین نقاط استفاده می شود. رویکرد پیشنهادی ارزیابی میکند که ویژگیهای یک نقطه در تبدیل آن به اولین نقطه ساختمانهای OSM چقدر برجسته است. به منظور بررسی روندها، چندین معیار از نقاط تشکیل دهنده ساختمان ها (به عنوان مثال فاصله، تراکم و مستطیل) به عنوان متغیرهای مستقل استفاده می شود. علاوه بر این، از انواع مجاورت ساختمان ها به عنوان متغیرهای وابسته استفاده می شود. به منظور بررسی روند ترسیم، رویکرد پیشنهادی یک مطالعه طبقهبندی را با استفاده از طبقهبندیکننده جنگل تصادفی انجام میدهد. دلیل طبقهبندی اجرای این فرض است که «اگر یک طبقهبندی موفقیتآمیز (ضمیمه/جداشده) با معیارهای محاسبهشده با استفاده از اولین نقاط امکانپذیر باشد، رفتار مشترکی در ترسیم اولین نقاط ساختمانهای متصل یا جدا وجود دارد. به عبارت دیگر، هر کلاس به درک روندهای خاص برای ساختمان های درون آن کمک می کند. روند ترسیم با استفاده از نتایج داده های آزمون تفسیر شد. در بخش بعدی روش پیشنهادی به تفصیل توضیح داده شده است. داده های OSM و منطقه مورد مطالعه نیز ارائه شده است. در بخش سوم، نتایج آزمایش بر اساس اهمیت اندازه گیری ارزیابی می شود. سرانجام،
2. مواد و روشها
2.1. حوزه و داده های مطالعه
ساختمانهای OSM در استانبول و ازمیر، که مناطق شهری در آن متمرکز شدهاند، برای مشاهده رفتار طراحی داوطلبان انتخاب شدند ( شکل 1 ). ویژگیهای هندسی نقاط تشکیلدهنده ساختمانها از نظر انواع مجاورت مورد بررسی قرار گرفت: متصل ( شکل 2 الف) و جدا شده ( شکل 2 ب). این مطالعه با هشت گروه ساختمانی به نمایندگی از انواع مجاور انجام شد ( جدول 1 ). همانطور که در شکل 2 مشاهده می شود ، هر گروه از ساختمان هایی با یکی از انواع مجاور تشکیل شده است. تعداد و مکان گروه ها با در نظر گرفتن نمایش پراکنده داده های ناهمگن انتخاب شدند.
یک باور کلی این است که در مکانهای شهری، خانههای مجزا در مقایسه با آپارتمانهای متصل ساختمانهای نسبتاً کوچکی هستند. با این حال، منطقه مورد مطالعه ما نیز شامل آپارتمان های مجزا با اندازه های بزرگتر است. میانگین مساحت هر ساختمان نشان دهنده میانگین مساحت ساختمان در هر گروه است ( جدول 1 ). این نشان می دهد که هیچ ارتباطی بین اندازه ساختمان و نوع مجاورت وجود ندارد. این مورد همچنین نشان میدهد که طبقهبندی مجاورت به چندین معیار پیچیده نیاز دارد، نه صرفاً به ناحیه چند ضلعی.
2.2. رویکرد پیشنهادی
رویکرد پیشنهادی از برخی از ویژگیهای هندسی نقاط تشکیلدهنده یک ساختمان (نقاط گوشه) برای ارزیابی رفتار ترسیمی استفاده میکند. برای ارزیابی انواع مختلف معیارها، مطالعات قبلی از تکنیک های داده کاوی استفاده کرده اند [ 6 ، 26 ، 32 ، 33 ]. بصیری و همکاران [ 15 ] نمرات برخی از طبقهبندیکنندههای ML را اندازهگیری کرد و دریافت که طبقهبندیکنندههای K-نزدیکترین همسایه و طبقهبندی تصادفی جنگل به ترتیب برای طبقهبندی نوع هندسی و جغرافیایی مناسب هستند. همچنین پازوکی و پهلوانی [ 34] اخیراً چندین طبقهبندی کننده ML را با معیارهای مرکزی دادههای OSM برای غنیسازی داده مقایسه کرد. جنگل تصادفی از نظر نمرات پیشبینی هم در یک سناریوی منفرد و هم در یک طبقهبندی چندگانه با ماشین بردار پشتیبانی برجسته شد. در این مطالعه، رویکرد پیشنهادی همچنین از جنگل تصادفی با ویژگیهای هندسی دادههای آموزشی برای طبقهبندی دادههای آزمون استفاده میکند. شکل 3 طرح کلی گردش کار پیشنهادی را برای طبقه بندی مجاورت و استنباط اهمیت ویژگی نشان می دهد. پس از اولین طبقهبندی که با استفاده از ویژگیها انجام شد، نمرات پیشبینی را با مقایسه کلاسهای پیشبینیشده با کلاسهای واقعی (انواع مجاورت) دادههای آزمون ارزیابی میکند.
در این مطالعه از معیارهای تشابه رایج مانند فاصله نقطه به نقطه و نقطه به خط [ 35 ]، چگالی [ 36 ، 37 ] و مستطیل [ 38 ، 39 ] استفاده می شود. برای هر نقطه گوشه، مقدار چگالی هسته را اندازه گیری می کند ، فاصله تا ساخت مرکز و کوتاهترین فاصله تا نزدیکترین خیابان محاسبه می شوند. شکل 4 طرح محاسباتی اندازه گیری های هندسی را خلاصه می کند. اندازه گیری اولین نقطه ترسیم شده در هر ساختمان و مجموع مقادیر اندازه گیری مربوط به تمام نقاط محاسبه می شود. به عبارت دیگر، هر ساختمان شامل مقادیر زیر است:
-
: تراکم هسته نقطه اول،
-
: مجموع مقادیر چگالی هسته تمام نقاط ساختمان،
-
: فاصله بین نقطه اول و مرکز ساختمان،
-
: مجموع فواصل تمام نقاط تا مرکز،
-
: کوتاهترین فاصله بین نقطه اول و نزدیکترین خیابان و
-
: مجموع فواصل همه نقاط تا نزدیکترین خیابانها.
رویکرد پیشنهادی از انواع مجاورت ساختمان ها به عنوان متغیرهای وابسته برای اندازه گیری اثر استفاده می کند ، ، و ارزش انتخاب داوطلبان برای اولین امتیازشان. انواع مجاورت با استفاده از مقادیر (متغیرهای مستقل) پیش بینی می شوند. سپس با مقایسه انواع مجاورت واقعی (واقعی) با طبقات پیش بینی شده، نمرات پیش بینی به دست می آید. اهمیت ، ، و اقدامات در پیش بینی انواع مجاورت تعیین می شود (مرحله اول). به عبارت دیگر، روابط بین خصوصیات فضایی نقطه اول و کلاس مجاورت ساختمان از نوع مقادیر اهمیت استنباط می شود. روابط مشابهی برای ارزش مستطیل شکل ایجاد می شود و نام شهر (مرحله دوم).
تمام نقاط گوشه ای که یک ساختمان را تشکیل می دهند، مجموعه نقطه آن ساختمان را نشان می دهند. از آنجایی که این رویکرد به مشاهده انتخاب نقطه اول در هر ساختمان، به جای مجموعه داده کامل، متکی است، برای محاسبه چگالی هسته، به جای مجموعه نقاط کل، فقط از مجموعه نقاط مربوطه استفاده می کند. چگالی فقط با در نظر گرفتن ساختمان هدف محاسبه می شود. به عبارت دیگر، تأثیرات ساختمان ها بر یکدیگر نادیده گرفته می شود. این به این دلیل است که مقدار چگالی در چند ضلعی هنگام انتخاب اولین نقطه در ساختمان نشان داده شده چقدر مهم است. ابزار چگالی هسته در ArcMap 10 [ 40 ] با توجه به Silverman’s [ 36 ] استفاده شد.] فرمول کوارتیک. چگالی در هر چند ضلعی محاسبه می شود. سپس، یک مقدار چگالی از نزدیکترین پیکسل به هر نقطه گوشه اختصاص داده می شود.
علاوه بر این، فاصله ها بین هر نقطه در مجموعه نقطه و مرکز ساختمان و کوتاهترین فواصل بین هر نقطه در مجموعه نقطه و نزدیکترین خیابان به ترتیب در شکل 5 و شکل 6 در هندسه اقلیدسی اندازه گیری می شود. روش پیشنهادی از تخمین مستطیل شکل ساده استفاده می کند به عنوان نسبت مساحت چند ضلعی به مساحت حداقل مستطیل مرزی آن [ 39 ].
رویکرد پیشنهادی به امتیازات پیشبینی نتایج طبقهبندی وابسته است. در این مطالعه، پیشبینی بیشتر دادههای موردی برای بررسی رفتار ترسیمی مشارکتکنندگان و استنتاج قابل اعتماد در نظر گرفته شده است. بنابراین، نمرات پیشبینی بیشتر از 50 درصد نشاندهنده اطمینان بیشتر در رویکرد است.
اجرای رویکرد پیشنهادی با استفاده از ArcMap 10.2.2 [ 40 ]، زبان برنامه نویسی Python و بسته Scikit-learn [ 41 ] انجام شد.
3. نتایج و ارزیابی
این مطالعه با گروه های ساختمانی در استانبول و ازمیر انجام شد ( جدول 1 و شکل 2 ). در حالی که 5600 ساختمان به طور تصادفی به عنوان داده های آموزشی مورد استفاده قرار گرفتند، انواع مجاورت 1400 ساختمان باقی مانده پیش بینی شده است. نمرات پیش بینی داده های آزمون با مقایسه کلاس های پیش بینی شده و انواع مجاورت واقعی به دست آمد. در حالی که دقت را می توان به عنوان ارزش اخباری مثبت یا توانایی طبقه بندی کننده تعریف کرد، یادآوری حساسیت و توانایی طبقه بندی کننده برای یافتن تمام نمونه های مثبت است [ 41 ]. امتیاز F نشان دهنده تعادل بین دقت و یادآوری است. این یک میانگین هارمونیک وزنی از دقت و یادآوری است، جایی که امتیاز به بهترین مقدار خود در 1 و بدترین مقدار آن در 0 می رسد [ 41 ].در جدول 2 و جدول 3 به ترتیب نتایج مرحله اول و دوم ارائه شده است.
در مرحله اول مطالعه، تنها با استفاده از نوع مجاورت ساختمان ها پیش بینی شد ، ، ، ، ، و معیارهای. امتیاز F آزمایش 77 درصد تعیین شد ( جدول 2 ). در مرحله دوم، و برای آموزش دوم به اقدامات موجود اضافه شد. در نتیجه، با استفاده از همه متغیرها، امتیاز به 83 درصد افزایش یافت. جدول 2 و جدول 3 نشان می دهد که بیشتر کلاس ها پیش بینی شده اند. با این حال، نمرات پیش بینی نشان نمی دهد که چگونه معیارها بر نتایج تأثیر می گذارند. بنابراین، ارزیابی اضافی برای درک اینکه کدام معیار در پیشبینی مؤثرتر است، ضروری است.
به طور کلی، اهمیت یک اندازه گیری به عنوان کاهش کل (نرمال شده) معیار حاصل از آن اندازه گیری محاسبه می شود [ 41 ]. اهمیت از فرمول پایه ناخالصی جینی [ 42 ] می آید. پس از تعیین اهمیت هر معیار در فرآیند پیشبینی (PP)، اهمیت اندازهگیری در پیشبینی کلاس مربوطه (یعنی نوع مجاورت) نیز با (1) محاسبه شد.
جایی که اهمیت اندازه گیری i در پیش بینی نوع مجاورت خاص است، مقدار مقیاس شده اندازه گیری i، و است اهمیت اندازه گیری i در PP است. این فرمول اهمیت را با ضرب میانگین مقدار هر اندازه گیری در هر نوع مجاورت پیش بینی شده در اهمیت اندازه گیری مربوطه پیدا می کند. در نتیجه، نمودار زیر اهمیت هر یک از معیارها را در پیشبینی انواع متصل (PA در شکل 7 ) و جداشده (PD در شکل 7 ) خلاصه میکند. علامت مقدار اهمیت در نمودار به ما کمک می کند تا تفسیر کنیم که مقدار مربوطه چقدر بیشتر (+) یا کمتر (-) اهمیت دارد. هر چه تراکم هسته هر دو نقطه اول بیشتر باشد ( ) و تمام نکات ( ، تراکم هسته در تخمین ساختمان های متصل اهمیت بیشتری دارد زیرا علامت در نمودار مثبت است ( شکل 7).). برعکس، می توان گفت که هر چه تراکم کمتر باشد، در پیش بینی ساختمان های جدا شده موثرتر است زیرا علامت منفی است. به همین ترتیب، در پیشبینی ساختمانهای جداشده، اگر نقطه اول از خیابان دور باشد، مؤثرتر است، در حالی که نزدیکتر بودن نقطه اول به خیابان در پیشبینی ساختمانهای متصل مؤثرتر است. علاوه بر این، در ساختمان های متصل مهم تر است که نقطه اول به مرکز نزدیکتر باشد، در حالی که مهمتر است که در جدا شده دورتر باشد. این نتایج شامل روندی است که نشان می دهد اولین نقاط ساختمان های متصل تراکم بیشتری دارند و به خیابان و مرکز نزدیک تر هستند. ساختمان های مجزا روند معکوس دارند. می توان به اهمیت اقدامات دستور داد. مقادیر فاصله و چگالی هسته اولین نقطه از کل فواصل و تراکم هسته همه نقاط مهمتر است. علاوه بر این، مقدار مستطیل پایینتر در ساختمانهای متصل بیشتر است، در حالی که برای ساختمانهای جدا شده برعکس است. در نهایت، نام شهرها تأثیر کمی بر PA و PD دارند. بنابراین، استنباط در مورد انواع مجاورت با توجه به معیار نام مستلزم آزمایشات اضافی در شهرهای مختلف است.
4. نتیجه گیری
ارزیابی روند ترسیم در میان ساختمانهای OSM چالش برانگیز است زیرا ساختمانها در مقایسه با سایر ویژگیهای جغرافیایی مانند جادهها، نهرها، کاربری زمین یا دریا از تعداد محدودی نقاط تشکیل شدهاند. این مطالعه از یک طبقهبندی کننده ML برای تفسیر مشارکتهای هندسه ساختمان در OSM استفاده کرد. چهار معیار هندسی ( ، ، ، و ) و یک معیار معنایی ( ) برای ارزیابی رفتار نقاشی داوطلبان استفاده شد. روندهای مشترک در بین نقشههای OSM مشخص شد که توسط مشارکتهای جمعسپاری در استانبول و ازمیر ایجاد شدهاند. مشاهده شد که بین نوع مجاورت ساختمان و اولین اقدام ترسیمی داوطلبان OSM رابطه وجود دارد. برای ساختمان های متصل، گرایشی به سمت ترسیم اولین نقطه وجود دارد که در آن تراکم نقطه بزرگ و نزدیک به خیابان و مرکز است. این در ساختمان های مستقل برعکس است. همچنین امکان تعیین ترتیب اهمیت در بین اقدامات وجود داشت. فاصله تا خیابان از تراکم هسته مهمتر است و تراکم مهمتر از فاصله تا مرکز ساختمان است. به عبارت دیگر، برای ساختمان های متصل، داوطلبان روی ترسیم اولین نقطه ساختمان در نزدیکترین قسمتها به خیابان تمرکز کردند و در میان گزینههای جایگزین، تصمیم گرفتند آن را در محلی ترسیم کنند که تراکم نقطه بیشتر و فاصله تا مرکز کمتر باشد. نتایج همچنین این استنباط را امکانپذیر کرد که برای ساختمانهای جدا، داوطلبان OSM توجه بیشتری به فضاهای باز هنگام ترسیم اولین نقاط نشان دادند زیرا نقاط ترسیم شده اول چگالی کمتری دارند و هم از خیابانها و هم از مرکز ساختمان دورتر از نقاط متصل هستند.
این مطالعه نشان می دهد که یک طبقه بندی کننده ML و اهمیت ویژگی بر اساس نتایج پیش بینی می تواند برای تعیین روند ترسیم مشارکت کنندگان OSM استفاده شود. تازگی این مطالعه این است که روندهای ترسیم رایج در اقدامات نقشه برداری ساختمان را نشان می دهد.
به نظر می رسد که افزودن نام شهر در مرحله دوم تأثیر کمی (به جای عدم تأثیر) در پیش بینی طبقات مجاورت داشته است، حتی اگر تعداد مساوی ساختمان در هر دو شهر استفاده شده باشد. این بدان معنی است که داوطلبان ممکن است عادات طراحی خاصی در یک منطقه خاص داشته باشند. با این حال، برای اثبات این فرض، ساختمان های بیش از دو شهر باید در آینده مورد مطالعه قرار گیرند.
آزمون تجربی ویژگیهای نقاشی داوطلبانی را که در OSM در مناطق مورد مطالعه مشارکت داشتند، ارائه میکند. استانبول و ازمیر هر دو کلان شهر هستند. بنابراین، انواع مختلف مناطق شهری یا روستایی ممکن است نتایج متفاوتی به همراه داشته باشند.
محدودیت اصلی مطالعه، معیارهای مورد استفاده به عنوان متغیرهای مستقل در PP است. جدای از اقدامات، برچسب های ارائه شده توسط داوطلبان OSM نیز می توانند به عنوان متغیرهای مستقل ارزیابی شوند و مطالعه مشابهی ممکن است انجام شود. بنابراین، روندهای جمع سپاری ممکن را می توان با ویژگی ها و برچسب های هندسی تفسیر کرد.
بدون دیدگاه