پیش‌بینی خطر جرم و جنایت شهری با استفاده از داده‌های نقطه‌نظر

خلاصه

سیستم‌های اطلاعات جغرافیایی کاربردهای موفقی برای پیش‌بینی و تصمیم‌گیری در چندین حوزه از اهمیت حیاتی برای جامعه معاصر یافته‌اند. این مقاله نشان می‌دهد که چگونه می‌توان آن‌ها را با الگوریتم‌های یادگیری ماشین برای ایجاد مدل‌های پیش‌بینی جرم برای مناطق شهری ترکیب کرد. لایه های انتخاب شده نقطه مورد علاقه (POI) از OpenStreetMapبرای استخراج ویژگی‌هایی استفاده می‌شوند که مناطق خرد را توصیف می‌کنند، که طبق سوابق جرم پلیس، طبقات خطر جرم اختصاص داده می‌شوند.
 سپس ویژگی‌های POI به عنوان ویژگی‌های ورودی برای یادگیری مدل‌های پیش‌بینی خطر جرم با الگوریتم‌های یادگیری طبقه‌بندی عمل می‌کنند. نتایج تجربی به‌دست‌آمده برای چهار منطقه شهری بریتانیا نشان می‌دهد که ویژگی‌های POI کاربرد پیش‌بینی بالایی دارند. مدل‌های طبقه‌بندی که از این ویژگی‌ها استفاده می‌کنند، بدون هیچ شکلی از شناسایی مکان، عملکرد پیش‌بینی‌کننده خوبی را در زمانی که برای نواحی کوچک جدید و قبلاً دیده نشده اعمال می‌شوند، نشان می‌دهند. این باعث می‌شود که آنها بتوانند خطر جرم و جنایت را برای محله‌های تازه توسعه‌یافته یا در حال تغییر پویا پیش‌بینی کنند. ابعاد بالای فضای ورودی مدل را می توان بدون از دست دادن عملکرد پیش بینی شده با انتخاب ویژگی یا تجزیه و تحلیل مولفه اصلی به طور قابل توجهی کاهش داد.

کلید واژه ها:

پیش بینی جرم ; نقطه مورد علاقه یادگیری ماشینی ؛ طبقه بندی

1. معرفی

دو دهه اخیر افزایش عظیمی در دامنه و پیچیدگی کاربردهای روش‌ها و ابزارهای محاسباتی توسعه‌یافته در حوزه علم اطلاعات جغرافیایی ایجاد کرده است [ 1 ، 2 ، 3 ]. آنها به اجزای اساسی زیرساخت اطلاعاتی جوامع معاصر و نهادهای آنها تبدیل شده اند. یکی از امکان‌های افزایش کاربرد سیستم‌های اطلاعات جغرافیایی، ترکیب آنها با روش‌های هوش مصنوعی برای استنتاج، تصمیم‌گیری، بهینه‌سازی و پیش‌بینی است. این جهت کاری برای مدت طولانی فعال بوده است [ 4 , 5 , 6 , 7]، اما افزایش قدرت محاسباتی موجود و شروع الگوریتم‌های دقیق‌تر و مؤثرتر، آن را امیدوارکننده‌تر از همیشه می‌کند [ 8 ]. به طور خاص، الگوریتم های یادگیری ماشین ممکن است برای کشف و تعمیم روابط غیر پیش پا افتاده بین اطلاعات جغرافیایی و سایر عوامل یا کمیت ها مورد استفاده قرار گیرند و آنها را به مدل های پیش بینی قابل استفاده مجدد تبدیل کنند.
یکی از حوزه‌های کاربردی مهم که در آن علم اطلاعات جغرافیایی با یادگیری ماشین ملاقات می‌کند، پلیس پیش‌بینی است [ 9 ]. توانایی پیش‌بینی اینکه کدام مناطق دارای ریسک بالایی از انواع خاص رویدادهای جنایی هستند ممکن است به تخصیص مؤثر منابع اجرای قانون در جایی که بیشتر مورد نیاز است کمک کند. بنابراین، پیش‌بینی جرم با استفاده از الگوریتم‌های تحلیلی از یادگیری ماشین و آمار، به یک حوزه محبوب تحقیقاتی و کاربردهای عملی تبدیل شده است [ 10 ، 11 ، 12 ، 13 ، 14 ، 15 .]. سهم بالقوه دستاوردها در این راستا به امنیت عمومی انگیزه بالایی را برای به کارگیری روش‌های مختلف برای انواع مختلف داده‌های بالقوه مفید فراهم می‌کند. علاوه بر سوابق جرم پلیس، این موارد ممکن است شامل آمارهای اجتماعی و اقتصادی، پست های رسانه های اجتماعی یا داده های سیستم های اطلاعات جغرافیایی باشد. یک نوع به طور گسترده در دسترس و اغلب به روز شده از دومی، مکان های نقطه مورد علاقه (POI) هستند که ممکن است ویژگی مفیدی از مناطق شهری ارائه دهند.

1.1. مشارکت ها

این کار نشان می‌دهد که چگونه الگوریتم‌های یادگیری ماشینی می‌توانند برای داده‌های سیستم‌های اطلاعات جغرافیایی برای ایجاد مدل‌های پیش‌بینی جرم اعمال شوند. این پتانسیل سودمندی بالای اطلاعات جغرافیایی را از یک سو تأیید می‌کند و از سوی دیگر دستورالعمل‌های عملی در مورد استفاده از الگوریتم‌های یادگیری ماشین با داده‌های جغرافیایی ارائه می‌کند. دومی شامل فرآیند آماده‌سازی داده‌ها با تجمیع جغرافیایی در ریز ناحیه‌های شبکه، تخصیص برچسب‌های کلاس، استخراج ویژگی‌های جغرافیایی، مدیریت عدم تعادل کلاس، کاهش ابعاد و استفاده مجدد از مدل در مناطق مختلف است.
پیش‌بینی جرم برای مناطق شهری را می‌توان یک کار طبقه‌بندی در نظر گرفت که در آن مدلی ایجاد می‌شود که خطر انواع خاصی از رویدادهای جنایی را بر اساس ویژگی‌هایی که ویژگی‌های مناطق خرد خاص را مشخص می‌کند، پیش‌بینی می‌کند. ایجاد چنین مدلی مستلزم تهیه یک مجموعه داده ترکیبی است که هم ویژگی‌های جغرافیایی مناطق خرد مشتق‌شده از مکان‌های POI و هم برچسب‌های خطر جرم ناشی از سوابق جرم را شامل می‌شود. الگوریتم‌های طبقه‌بندی این امکان را فراهم می‌کنند که روابط بین اولی و دومی را به تصویر بکشیم و تعمیم دهیم. مدل‌های به‌دست‌آمده را می‌توان برای پیش‌بینی سطح خطر جرم برای مناطق خرد دلخواه جدید که ویژگی‌های جغرافیایی در دسترس هستند، به کار برد.
سناریوی ایجاد و پیش‌بینی مدل فرضی را می‌توان به صورت زیر خلاصه کرد:
  • تجمیع جغرافیایی: منطقه مورد علاقه شهری را به مناطق خرد و کل سوابق جرم و جنایت و تعداد POI در سطح مناطق خرد تقسیم کنید.
  • اشتقاق ویژگی جغرافیایی: مناطق خرد را با ویژگی‌های جغرافیایی توصیف می‌کند که از مکان‌های POI جمع‌آوری شده است.
  • شناسایی نقاط داغ: با توجه به تعداد مجموع رویدادهای جرم تاریخی، مناطق خرد را به عنوان پرخطر/کم برچسب گذاری کنید.
  • مدل‌سازی نقطه‌های مهم: ایجاد مدل‌هایی برای پیش‌بینی برچسب‌های ریسک بالا/کم بر اساس ویژگی‌های جغرافیایی با استفاده از الگوریتم‌های طبقه‌بندی،
  • پیش‌بینی نقطه‌های مهم: مدل‌های ایجاد شده را برای پیش‌بینی برچسب‌های پرخطر/کم خطر برای مناطق خرد بر اساس ویژگی‌های جغرافیایی اعمال کنید.
این سناریو از داده های تاریخی برای ایجاد مدل هایی استفاده می کند که قادر به پیش بینی خطر جرم در آینده هستند. قابل توجه است که ریز نواحی با شناسه ها یا مختصات نشان داده نمی شوند، بلکه منحصراً با ویژگی های مشتق شده از مکان های POI جمع آوری شده جغرافیایی توصیف می شوند. این امکان ثبت روابط عمومی تر و قابل استفاده مجدد را، مستقل از توپوگرافی شهر خاص، فراهم می کند.
روش آزمایشی مورد استفاده برای تأیید سودمندی رویکرد پیشنهادی شامل عملیات اضافی زیر است:
  • ارزیابی قدرت پیش‌بینی: کیفیت پیش‌بینی‌های جرم به‌دست‌آمده را با استفاده از روش اعتبارسنجی متقاطع k -fold و تحلیل ROC ارزیابی کنید.
  • ارزیابی سودمندی پیش‌بینی کننده ویژگی: ویژگی‌های جغرافیایی را با توجه به کاربرد آنها برای پیش‌بینی خطر جرم با استفاده از معیار اهمیت متغیر تصادفی جنگل رتبه‌بندی می‌کند.
  • کاهش ابعاد: بررسی امکان کاهش ابعاد داده ها بدون تنزل کیفیت مدل با انتخاب ویژگی و تجزیه و تحلیل مؤلفه اصلی،
  • انتقال مدل: امکان استفاده از مدلی آموزش دیده بر روی داده های یک منطقه شهری برای پیش بینی خطر جرم در یک منطقه شهری دیگر را تأیید می کند.

پیش‌بینی خطر جرم و جنایت شهری با استفاده از داده‌های نقطه‌نظر

1.2. کار مرتبط

بررسی کاربرد منابع داده‌های مختلف موجود برای توصیف مناطق جغرافیایی و ایجاد مدل‌های پیش‌بینی کانون جرم بر اساس این ویژگی‌ها به جهت‌های پیشرو در تحقیقات پیش‌بینی جرم تعلق دارد. ادبیات شامل چندین مطالعه است که تا حدی با این کار مرتبط است. خلاصه‌ای از آن‌هایی که اهداف یا روش‌ها برای آن‌ها بیشتر شبیه به اهداف یا روش‌های اتخاذ شده در این مقاله است، در جدول 1 ارائه شده است .
هر یک از این مطالعات مرتبط، سوابق جرم و جنایت را برای یک منطقه شهری واحد با برخی از داده‌های فضایی اضافی ترکیب می‌کند و تجمیع جغرافیایی را در مناطق خرد با اندازه‌های مختلف انجام می‌دهد. سپس الگوریتم‌های طبقه‌بندی یا رگرسیون را برای پیش‌بینی سطح خطر جرم (پس از نوعی شناسایی نقطه داغ) یا تعداد رویدادهای جرم اعمال می‌کنند. دو استثنای جزئی از این الگوی رایج که مدل‌های پیش‌بینی جرم را ایجاد نمی‌کنند، آثار Traunmueller و همکاران هستند. [ 16 ] و مالسون و آندرسن [ 17]. اولی همبستگی بین تعداد جرم و مشخصات اجتماعی جمعیت شناختی افرادی را که از مناطق خرد خاص بازدید می کنند، بر اساس تعداد قدم ها و ویژگی های مشتری به دست آمده از یک ارائه دهنده تلفن همراه تجزیه و تحلیل می کند. دومی ها به دنبال الگوهای ارتباطی بین ویژگی های جمعیت و منطقه از یک سو و کانون های جرم و جنایت از سوی دیگر هستند.
از ویژگی های بارز این اثر می توان به موارد زیر اشاره کرد:
  • با استفاده از داده های چهار منطقه شهری مختلف، بدون توجه به تحقیقات قبلی، به جای یک شهر واحد،
  • پیش‌بینی خطر به طور جداگانه برای چندین نوع جرم مختلف، با فراوانی وقوع متفاوت،
  • ریزدانه 300 × 300300×300-مناطق خرد متر که برای تجمع جغرافیایی، برچسب‌گذاری نقاط کانونی و پیش‌بینی استفاده می‌شوند، به‌جای مناطق بسیار بزرگ‌تر LSOA، جامعه یا انتشار آمار عمومی،
  • مجموعه گسترده ای از دسته بندی های POI که برای توصیف ریز نواحی استفاده می شوند،
  • مدیریت عدم تعادل کلاس با راه اندازی الگوریتم مناسب،
  • مقایسه سیستماتیک کیفیت پیش‌بینی با استفاده از تحلیل ROC،
  • بررسی اثر کاهش ابعاد با انتخاب ویژگی و تحلیل مولفه اصلی،
  • بررسی امکان انتقال مدل‌های پیش‌بینی جرم در مناطق مختلف شهری.
قابل توجه است که چندین مطالعه قبلی فهرست شده در جدول 1 هر دو بعد مکانی و زمانی جرم را تجزیه و تحلیل می کند [ 18 , 19 , 20 , 21 , 22 , 23]. این امر یا با اعمال همبستگی و تجزیه و تحلیل خودرگرسیون سری های زمانی رویداد جرم یا با افزودن ویژگی های ساعت و تقویم (مانند فاصله ساعت یا ساعت، روز هفته و ماه) به ورودی های مدل به دست می آید. بسیاری از آنها همچنین دو یا چند منبع داده مکانی را برای به دست آوردن یک مشخصه ریز ناحیه کاملتر و مفیدتر ترکیب می کنند. بنابراین، ممکن است به نظر محدودیت این کار باشد که داده‌های جرم را تنها با یک منبع داده‌های مکانی ترکیب می‌کند و هیچ عامل زمانی را شامل نمی‌شود. در حالی که ترکیب منابع بیشتر اطلاعات مکانی و زمانی برای مدل‌سازی ریسک جرم یک جهت ادامه طبیعی و امیدوارکننده است، این تحقیق عمداً فقط بر مکان‌های POI متمرکز شده است.
جدول 1. کارهای مرتبط.

1.3. بررسی اجمالی کاغذ

بخش 2 مجموعه داده‌های مورد استفاده برای این کار، روش آماده‌سازی داده‌های اعمال شده برای داده‌های جرم و POI، الگوریتم‌های مورد استفاده برای ایجاد مدل‌های پیش‌بینی خطر جرم، و روش تجربی را ارائه می‌کند. نتایج آزمایش ها در بخش 3 ارائه شده است. یافته های اصلی و جهت گیری های کاری آینده در بخش 4 مورد بحث قرار گرفته است.

2. مواد و روشها

2.1. داده ها

مطالعه تجربی ارائه شده در این مقاله از دو منبع داده‌های در دسترس عموم استفاده می‌کند: سوابق جرم پلیس بریتانیا و مکان‌های مورد علاقه OpenStreetMap .

2.1.1. داده های جرم و جنایت

سوابق جرم پلیس انگلستان از وب سایت data.police.uk در دسترس است. برای این کار، سوابق جرم برای نیروهای پلیس منطقه زیر بازیابی شد:
  • پلیس بزرگ منچستر،
  • پلیس مرسی ساید،
  • پلیس دورست،
  • پلیس یورکشایر غربی،
دربرگیرنده بازه زمانی بین اکتبر 2016 و سپتامبر 2019. برای هر رویداد جرم، موقعیت جغرافیایی و اطلاعات نوع جرم در دسترس است.
چهار مجموعه داده جرم فیلتر شدند تا فقط بزرگترین مناطق شهری مربوطه را شامل شوند، به عنوان مثال، به ترتیب، مناطق زیر بریتانیا:
  • منطقه منچستر (که پس از آن منچستر نامیده می شود)،
  • ناحیه لیورپول (پس از آن لیورپول نامیده می شود)،
  • بورنموث، کرایست چرچ و ناحیه پول (که پس از آن بورنموث نامیده می شود)،
  • ناحیه ویکفیلد (پس از آن ویکفیلد نامیده می شود).
فیلترینگ با استفاده از مرزهای اداری بریتانیا در دسترس از وب سایت ordnancesurvey.co.uk انجام شد.
از 14 نوع جرم اولیه شامل زیر مجموعه زیر برای آزمایش ها استفاده می شود:
  • رفتار ضد اجتماعی (که پس از آن ضد اجتماعی نامیده می شود)،
  • خشونت و جرایم جنسی (که پس از آن خشونت نامیده می شود)،
  • دزدی (که پس از آن دزدی نامیده می شود)،
  • دزدی از فروشگاه (که پس از آن دزدی مغازه نامیده می شود)،
  • سرقت های دیگر (پس از آن دزدی نامیده می شود)،
  • دزدی (که بعداً به آن ROBBERY گفته می شود).
شکل 1 نمودارهای شمارش جرم را برای این انواع جرم در هر یک از مناطق شهری مورد علاقه نشان می دهد. شکل 2 مکان های جرم را بر روی نقشه های مرزی مناطق مربوطه نشان می دهد. توزیع انواع جرم برای هر منطقه شهری مشابه است و نوع ضد اجتماعی و خشونت بیشترین فراوانی را دارند، انواع دزدی، دزدی از مغازه و دزدی دارای فراوانی متوسط ​​و نوع سرقت کمترین فراوانی را دارند. فراوانی و تراکم فضایی جنایات برای منچستر بیشترین و برای ویکفیلد کمترین است.

2.1.2. داده های POI

داده های نقطه مورد علاقه به صورت فایل های شکل با عصاره های لایه OpenStreetMap انتخاب شده، در دسترس از Geofabrik.de  [ 26 ] به دست آمد. بارگذاری و پیش پردازش شکل فایل POI با استفاده از بسته های rgdal  [ 27 ] و sp  [ 28 ] R انجام شد. از لایه های زیر استفاده شد:
pois :
اشیاء POI که به صورت نقاط نمایش داده می شوند،
pois_a :
اشیاء POI که به صورت چند ضلعی نمایش داده می شوند،
حمل و نقل :
اشیاء حمل و نقل که به صورت نقاط نمایش داده می شوند،
transport_a :
انتقال اشیاء به صورت چند ضلعی نمایش داده می شود.
هر شی POI با مختصات جغرافیایی و یک دسته توصیف می شود. تعداد دسته بندی های واقعی در مناطق مختلف متفاوت است و از 107 برای لیورپول تا 122 برای بورنموث متغیر است. 97 مقوله مشترک در هر یک از چهار منطقه شهری وجود دارد که تنها از این دسته ها در مطالعه تجربی استفاده می شود.
شکل 3 بار پلات های شمارش POI را برای 30 دسته بندی متداول در هر یک از مناطق شهری مورد علاقه نشان می دهد. شکل 4 مکان های POI را بر روی نقشه های مرزی مناطق مربوطه نشان می دهد. متداول ترین دسته های POI عمدتاً برای همه مناطق شهری یکسان هستند. تفاوت اصلی این است که رده اتوبوس_ایستگاه ، که همیشه پرتکرارترین است، مطلقاً بر سایر دسته‌ها برای منچستر، لیورپول و ویکفیلد غالب است، در حالی که برای بورنموث کمی بالاتر از دسته بعدی است.

پیش‌بینی خطر جرم و جنایت شهری با استفاده از داده‌های نقطه‌نظر

2.1.3. تجمیع جغرافیایی

برای شناسایی ساده هات اسپات، هر منطقه شهری به یک شبکه مربعی با ابعاد تقسیم شد. 300 × 300300×300m، همانطور که در شکل 5 نشان داده شده است. داده های POI با استفاده از همان تجمیع شدند 300 × 300300×300توری. POI در داخل حساب می شود 300 × 300300×300سلول های شبکه برای هر یک از دسته های POI رایج به عنوان ویژگی های ورودی برای پیش بینی خدمت می کنند.
رزولوشن شبکه اعمال شده ممکن است یک مبادله معقول بین ارائه پیش‌بینی‌های کانون جرم در سطح ریز مناطق کوچک برای حداکثر سودمندی از یک سو و استفاده از ریز ناحیه‌های بزرگ‌تر برای قابلیت اطمینان بیشتر پیش‌بینی از سوی دیگر در نظر گرفته شود. یک شبکه ریز دانه، پیش‌بینی‌های مدل را برای سازمان‌های مجری قانون مفیدتر می‌کند، و تخصیص دقیق‌تر منابع پیشگیری را ممکن می‌سازد، اما تعداد اشیاء POI در سلول‌های شبکه ممکن است برای امکان کشف الگوهای قابل تعمیم با ارزش پیش‌بینی بسیار کم باشد. یک شبکه درشت دانه تضمین می کند که نقاط داده کافی در سلول های شبکه وجود دارد، اما پیش بینی های حاصل از کاربرد عملی مشکوک خواهند بود. را  300 × 300300×300سلول‌های شبکه‌ای بسیار کوچک‌تر از موارد مورد استفاده در بسیاری از مطالعات قبلی ذکر شده در بخش 1.2 هستند، اما هنوز به اندازه کافی بزرگ هستند که معمولاً چندین شی POI را شامل می‌شوند.

2.1.4. شناسایی هات اسپات

شمارش جرم برای انواع جرایم خاص در سلول‌های شبکه با استفاده از چارک سوم به عنوان نقطه برش به برچسب‌های باینری با خطر بالا / کم تبدیل شد ( در صورتی که تعداد رویداد بالاتر از ربع سوم باشد، در غیر این صورت خطر کم ). شاخص‌های ریسک باینری به‌عنوان ویژگی‌های هدف برای پیش‌بینی عمل می‌کنند. مناطق خرد پرخطر را می توان کانون جرم و جنایت [ 29 ] در نظر گرفت.
روش بکار گرفته شده برای شناسایی هات اسپات ساده و کارآمد است، اما به وضوح ناقص است. مرزهای شبکه مربعی دلخواه و وضوح ثابت، غیر حساس به تفاوت در ساختمان و تراکم جمعیت و همچنین الگوهای ترافیک، کاستی های آشکار آن است. این رویکرد برای این کار، علی‌رغم محدودیت‌هایش، برای تمرکز بر کاربرد داده‌های POI و سطح کیفیت پیش‌بینی ممکن برای دستیابی به پایه‌ای‌ترین محیط، و به تعویق انداختن بررسی روش‌های دقیق‌تر با وضوح متغیر به کار آینده اتخاذ شده است.
یک جایگزین ممکن برای یک شبکه با وضوح ثابت معمولی می تواند تقسیم منطقه شهری در امتداد مرزهای خیابان [ 30 ] باشد. از آنجایی که ترافیک، ساختمان‌های مسکونی، ادارات، مغازه‌ها و غیره در امتداد خیابان‌ها متمرکز می‌شوند، تعیین مرزها بر اساس چیدمان و اتصالات آن‌ها ممکن است مناطق کوچک تری را با توجه به خطر و نوع رویدادهای مجرمانه شناسایی کند. آنها همچنین می توانند برای برنامه ریزی فعالیت های پیشگیری از جرم مفیدتر باشند.
تجمیع جغرافیایی رویدادهای جرم و جنایت در مناطق خرد، حتی با وضوح متغیر، حاکی از مرزهای ثابت و تغییرات پله ای بین ریزمناطق مجاور است. حتی مکان‌های بسیار نزدیک متعلق به دو ریز ناحیه مختلف می‌توانند سطوح ریسک قابل ملاحظه‌ای متفاوتی را در نظر بگیرند. یک نمایش مناسب تر از ریسک واقعی می تواند یک سطح ریسک هموار باشد که به تدریج با فاصله تغییر می کند. این را می توان با استفاده از تخمین چگالی هسته (KDE) [ 31]. در این رویکرد، مکان های رویداد برای تخمین تابع چگالی احتمال با هموارسازی، کنترل شده توسط پارامتر پهنای باند استفاده می شود. این یک نگاشت پیوسته از نقاط از یک منطقه تجزیه و تحلیل شده به یک چگالی احتمال رویداد تولید می کند. ریز نواحی با بیشترین تراکم احتمال، که نقاط داغ در نظر گرفته می شوند، مرزهای خودسرانه از پیش تعریف شده ندارند، اما بر اساس توزیع رویداد شناسایی می شوند [ 32 ، 33 ، 34 ، 35 ]. ترکیب مدل‌سازی ریسک جرم و پیش‌بینی بر اساس ویژگی‌های POI با روش شناسایی کانون مبتنی بر KDE می‌تواند یک جهت کاری جالب در آینده باشد.
ایده کانون‌های جرم و جنایت را می‌توان به گونه‌ای گسترش داد که علاوه بر تراکم سرزمینی، تغییرات فراوانی جرم در زمان را نیز در بر گیرد. چنین نقاط کانونی مکانی-زمانی ترکیبی از مناطق خرد و پنجره های زمانی با خطر بالای فعالیت مجرمانه را نشان می دهد [ 14 ، 36 ]. این مطالعه بعد زمانی را در تجزیه و تحلیل گنجانده است، هرچند، به طور کامل بر روی ابزار پیش بینی داده های POI تمرکز می کند.

2.1.5. داده های ترکیبی

پیوستن به داده های جرم و POI جمع آوری شده جغرافیایی توسط سلول های شبکه، مجموعه داده های ترکیبی را برای هر منطقه شهری به دست می دهد که برای ایجاد و ارزیابی مدل استفاده می شود. ردیف‌های این مجموعه داده‌ها با سلول‌های شبکه و ستون‌ها با شاخص‌های ریسک و ویژگی‌های POI مطابقت دارند. هر یک از این مجموعه داده‌ها به سلول‌های شبکه‌ای محدود می‌شوند که در محدوده شهری مربوطه قرار می‌گیرند یا با آن تلاقی می‌کنند، طبق مرزهای منطقه بریتانیا. جدول 2 اندازه هر مجموعه داده و درصد کانون را برای انواع جرم خاص نشان می دهد. برای انواع جرایم کم‌تکرار، این درصد به میزان قابل‌توجهی کمتر از سطح مورد انتظار ۲۵ درصد است. این زمانی اتفاق می‌افتد که کمتر از 25 درصد سلول‌های شبکه با شمارش رویداد غیر صفر برای نوع جرم مربوطه وجود داشته باشد.

2.2. الگوریتم ها

یک الگوریتم طبقه‌بندی دلخواه می‌تواند برای پیش‌بینی برچسب‌های ریسک بالا/پایین بر اساس ویژگی‌های POI استفاده شود. مجموعه‌ای از مفیدترین الگوریتم‌های شناخته شده از ادبیات در این کار اعمال می‌شود: رگرسیون لجستیک، ماشین‌های بردار پشتیبان، درخت‌های تصمیم‌گیری، و جنگل‌های تصادفی [ 37 ].

2.2.1. رگرسیون لجستیک

رگرسیون لجستیک نمونه‌ای از مدل‌های خطی تعمیم‌یافته است که یک تابع نمایش مدل ترکیبی را با یک مدل خطی داخلی و یک تبدیل لاجیت بیرونی اتخاذ می‌کند [ 38 ]. آموزش یک مدل رگرسیون لجستیک شامل یافتن پارامترهای مدل است که احتمال ورود به سیستم کلاس های مجموعه آموزشی را به حداکثر می رساند.
با توجه به تابع هدف احتمالی مورد استفاده برای تخمین پارامتر، رگرسیون لجستیک می‌تواند پیش‌بینی‌های احتمال خوب کالیبره‌شده را ایجاد کند و اغلب الگوریتم طبقه‌بندی انتخابی است که در آن مورد نیاز است. استفاده از آن آسان است و بیش از حد مستعد بیش از حد برازش نیست مگر اینکه برای داده های با ابعاد بالا استفاده شود. در آزمایش‌های ما، رگرسیون لجستیک به‌عنوان یک پایه مقایسه طبیعی برای الگوریتم ماشین‌های بردار پشتیبان اصلاح‌شده‌تر عمل می‌کند که طبقه‌بندی خطی را گسترش می‌دهد، به مقاومت بیش از حد برازش بهتری دست می‌یابد و اجازه روابط غیرخطی را می‌دهد.

2.2.2. ماشین های بردار پشتیبانی

ماشین‌های بردار پشتیبان (SVM)، که اغلب به مؤثرترین الگوریتم‌های طبقه‌بندی همه منظوره تعلق دارند، می‌توانند به‌عنوان نسخه‌ای تقویت‌شده قابل توجهی از طبقه‌بندی‌کننده آستانه خطی پایه با پیشرفت‌های زیر مشاهده شوند [ 39 ، 40 ، 41 ]:
  • حداکثر سازی حاشیه: محل مرز تصمیم گیری (هیپرصفحه جداکننده) با توجه به حاشیه طبقه بندی بهینه شده است.
  • حاشیه نرم: نمونه هایی که به طور نادرست جدا شده اند مجاز هستند،
  • ترفند هسته: روابط غیرخطی پیچیده را می توان با تبدیل نمایش با استفاده از توابع هسته نشان داد.
الگوریتم SVM یک سناریوی طبقه بندی باینری با دو کلاس را فرض می کند. پیش‌بینی‌های کلاس با استفاده از یک قانون آستانه خطی استاندارد تولید می‌شوند. پارامترهای مدل با حل یک مسئله برنامه‌ریزی درجه دوم تعریف شده برای دستیابی به حداکثر کردن حاشیه طبقه‌بندی، یعنی قرار دادن مرز تصمیم به گونه‌ای که فاصله را از نزدیک‌ترین نمونه‌های جدا شده به درستی به حداکثر می‌رساند، با جریمه برای نقض محدودیت‌ها که توسط پارامتر هزینه کنترل می‌شود، پیدا می‌شوند.
تبدیل این مشکل به شکل دوگانه با استفاده از ضرب کننده های لاگرانژ مزایای قابل توجهی را فراهم می کند [ 42 ، 43 ]. یکی از ویژگی‌های مهم فرم دوگانه این است که فقط از بردارهای ارزش ویژگی در محصولات نقطه‌ای استفاده می‌کند، هم در طول ایجاد مدل و هم در حین پیش‌بینی. این امکان اعمال ترفند هسته – یک تبدیل نمایش ضمنی را فراهم می کند. به جای محصولات نقطه ای بردارهای ارزش ویژگی اصلی، از مقادیر تابع هسته استفاده می شود که نشان دهنده محصولات نقطه ای بردارهای ارزش ویژگی افزایش یافته است. این به اثر تبدیل مقادیر مشخصه بردارها بدون اعمال واقعی تبدیل می‌شود.
به جای پیش‌بینی‌های SVM آستانه خطی باینری، ممکن است اغلب استفاده از پیش‌بینی‌های احتمالی راحت‌تر باشد. این با اعمال یک تبدیل لجستیک به فاصله علامت‌دار نمونه‌های طبقه‌بندی‌شده از مرز تصمیم، با پارامترهای تنظیم‌شده برای حداکثر احتمال امکان‌پذیر است [ 44 ].
یکی از ویژگی‌های قابل توجه SVM عدم حساسیت کیفیت مدل به ابعاد داده است که – بر خلاف بسیاری از الگوریتم‌های دیگر – خطر تطبیق بیش از حد را افزایش نمی‌دهد زیرا پیچیدگی مدل به تعداد موارد نزدیک به مرز تصمیم‌گیری مرتبط است نه به تعداد. از صفات

2.2.3. درختان تصمیم

درخت تصمیم [ 45 ، 46 ] یک ساختار سلسله مراتبی است که یک مدل طبقه بندی را نشان می دهد. گره‌های درختی داخلی، تقسیم‌هایی را نشان می‌دهند که برای تجزیه دامنه به مناطق اعمال می‌شوند، و گره‌های پایانی برچسب‌ها یا احتمالات کلاس را به مناطقی که تصور می‌شود به اندازه کافی کوچک یا به اندازه کافی یکنواخت هستند، اختصاص می‌دهند.
درخت‌های تصمیم در بسیاری از کاربردها به دلیل توانایی آنها در ترکیب دقت پیش‌بینی نسبتاً خوب با خوانایی مدل‌ها توسط انسان، محبوب هستند. آنها ممکن است به معیارهای توقف یا هرس مناسب نیاز داشته باشند تا از برازش بیش از حد جلوگیری شود. در آزمایش‌های ما، درخت‌های تصمیم به‌عنوان یک پایه مقایسه طبیعی برای الگوریتم جنگل‌های تصادفی تصفیه‌شده‌تر عمل می‌کنند که چندین درخت را برای دستیابی به کیفیت پیش‌بینی بهتر و مقاومت بیش از حد ترکیب می‌کند.

2.2.4. جنگل تصادفی

جنگل‌های تصادفی به محبوب‌ترین الگوریتم‌های مدل‌سازی گروه تعلق دارند [ 47 ]، که با ترکیب چندین مدل متنوع برای یک حوزه، عملکرد پیش‌بینی بهبود یافته را به دست می‌آورند. یک جنگل تصادفی [ 48 ] یک مدل مجموعه ای است که توسط مجموعه ای از درختان تصمیم هرس نشده نشان داده شده است، که بر اساس نمونه های راه انداز متعددی که با جایگزینی از مجموعه آموزشی ترسیم شده اند، با انتخاب تقسیم تصادفی رشد می کنند. می‌توان آن را یک شکل بهبودیافته از کیسه‌بندی [ 49 ] در نظر گرفت که به‌علاوه با تصادفی‌سازی الگوریتم رشد درخت تصمیم که برای ایجاد آن‌ها استفاده می‌شود، تنوع مدل‌های فردی را در مجموعه تحریک می‌کند.
رشد تصادفی جنگل شامل رشد درخت های تصمیم گیری چندگانه است که هر کدام بر اساس یک نمونه راه انداز از مجموعه آموزشی (معمولاً هم اندازه مجموعه آموزشی اصلی) است، با استفاده از یک الگوریتم رشد درخت تصمیم اساساً استاندارد [ 45 ، 46 ]. از آنجایی که بهبود مورد انتظار مجموعه مدل حاصل از یک مدل واحد منوط به تنوع کافی از مدل‌های فردی در مجموعه است [ 47 ، 49 ]، اصلاحات زیر برای تحریک تنوع درخت‌های تصمیم‌گیری اعمال می‌شوند که قرار است یک تصادفی را تشکیل دهند. جنگل:
  • درختان بزرگ با حداکثر تناسب رشد می کنند (با شکافتن تا رسیدن به یک کلاس یکنواخت ادامه می یابد، مجموعه ای از نمونه ها خسته می شود، یا مجموعه ای از تقسیم های احتمالی خسته می شود)
  • هر زمان که باید یک تقسیم برای یک گره درختی انتخاب شود، زیر مجموعه کوچکی از ویژگی های موجود به طور تصادفی انتخاب می شود و تنها آن ویژگی ها برای تقسیم های نامزد در نظر گرفته می شوند.
پیش‌بینی تصادفی جنگل با رأی‌گیری بدون وزن ساده درختان منفرد از مدل به دست می‌آید. توزیع رای همچنین می تواند برای به دست آوردن پیش بینی های احتمال کلاس استفاده شود. با تعداد کافی درختان متنوع (معمولاً صدها) این مکانیسم رای گیری ساده معمولاً جنگل های تصادفی را بسیار دقیق و در برابر بیش از حد مقاوم می کند. در واقع، در بسیاری از موارد، آنها متعلق به دقیق ترین مدل های طبقه بندی هستند که می توان به آنها دست یافت.

2.3. کاهش ابعاد

تعداد زیادی از ویژگی‌ها ممکن است برخی از الگوریتم‌های مدل‌سازی، به‌ویژه آن‌هایی که مستعد بیش از حد برازش هستند، از دستیابی به مدل‌های با کیفیت بالا جلوگیری کند. زیرا ایجاد مدل یک فرآیند جستجو در فضای نمایش مدل است که پیچیدگی آن معمولاً مستقیماً به ابعاد داده بستگی دارد [ 50 ]. این خطر مدل های بیش از حد برازش شده با قابلیت تعمیم ناکافی را افزایش می دهد. برخی از ویژگی های موجود ممکن است ارزش پیش بینی واقعی نداشته باشند و فقط به صورت تصادفی با برچسب های کلاس ارتباط برقرار کنند.
مجموعه داده های تهیه شده برای تجزیه و تحلیل همانطور که در بخش 2.1 توضیح داده شده است دارای 97 ویژگی ورودی است که مربوط به دسته های POI مشترک برای هر چهار منطقه شهری است. این را می توان ابعاد نسبتاً بالایی در نظر گرفت، به ویژه با توجه به اندازه متوسط ​​مجموعه داده ها (بین 1500 تا 4000)، که در آن نمونه ها با سلول های شبکه مطابقت دارند. بنابراین ممکن است جالب باشد که ببینیم آیا تکنیک‌های کاهش ابعاد می‌توانند به بهبود کیفیت پیش‌بینی منجر شوند یا خیر.
دو نوع کاهش ابعاد در نظر گرفته خواهد شد:
  • انتخاب ویژگی، که زیرمجموعه کوچکی از مجموعه ویژگی های اصلی را حفظ می کند،
  • تبدیل بازنمایی، که ویژگی های اصلی را با یک زیر مجموعه کوچک از ویژگی های جدید جایگزین می کند.

2.3.1. انتخاب صفت

هدف از انتخاب ویژگی محدود کردن مجموعه کامل ویژگی‌های موجود به زیرمجموعه احتمالاً کوچک آن با بالاترین کاربرد پیش‌بینی است [ 51 ]. روش‌های انتخاب ویژگی شامل رویکردهای فیلتری است که از برخی معیارهای سودمندی پیش‌بینی ویژگی‌ها و زیرمجموعه ویژگی‌ها بدون فرض الگوریتم مدل‌سازی هدف خاص استفاده می‌کنند، و رویکردهای پوششی که در آن یک الگوریتم هدف از پیش تعیین‌شده برای ایجاد مدل‌هایی بر روی زیرمجموعه ویژگی‌ها برای ارزیابی سودمندی آنها استفاده می‌شود. [ 52 ]. مورد دوم ممکن است در مواقعی که مفیدترین ویژگی برای یک الگوریتم مورد نیاز باشد، دارای مزایایی باشد، اما حالت اولی هنگام آزمایش با چندین الگوریتم راحت‌تر است، مانند این کار.
یکی از انواع فیلترهای انتخاب ویژگی که محبوبیت بالایی به دست آورده است بر اساس معیارهای سودمند ویژگی است که می تواند به عنوان یک “عوارض جانبی” الگوریتم جنگل تصادفی [ 48 ] محاسبه شود، که اغلب به عنوان اهمیت متغیر جنگل تصادفی شناخته می شود. یکی از این معیارها که به نام دقت کاهش میانگین (MDA) نامیده می شود و قابل اطمینان ترین در نظر گرفته می شود، کاهش تخمینی دقت پیش بینی به دلیل جایگشت مقدار مشخصه تصادفی است [ 53 ]. هرچه کاهش بیشتر باشد، ویژگی مفیدتر به نظر می رسد. برخلاف معیارهای ساده رابطه آماری، این نوع اهمیت متغیر به زمینه ارائه شده توسط سایر ویژگی های موجود حساس است.
دو مشکل مرتبط با اعمال مستقیم اهمیت متغیر جنگل تصادفی برای انتخاب ویژگی وجود دارد. یکی ناپایداری است که ناشی از تصادفی بودن الگوریتم است و دیگری فقدان مکانیزم انتخاب خودکار زیرمجموعه است که تعیین می کند چه تعداد از مفیدترین ویژگی ها باید استفاده شوند. بوروتا [ 54 ] بر این ناراحتی ها غلبه می کند] الگوریتم، که به طور مکرر جنگل تصادفی را اعمال می کند تا تصمیم بگیرد کدام ویژگی ها باید حفظ شوند و کدام یک از زیر مجموعه حذف شوند. اگرچه این هزینه محاسباتی قابل توجهی دارد. برای آزمایش‌های ارائه‌شده در این مقاله، اهمیت متغیر MDA به‌طور مستقیم استفاده می‌شود، اما ثبات با میانگین‌گیری مقادیر اهمیت از همه مدل‌های ایجاد شده در یک روش اعتبارسنجی متقابل افزایش می‌یابد. سپس از این مقادیر اهمیت متوسط ​​برای انتخاب زیرمجموعه‌های ویژگی‌های برتر از چند اندازه از پیش تعیین‌شده استفاده می‌شود.

2.3.2. تبدیل PCA

یک رویکرد جایگزین برای کاهش ابعاد شامل تبدیل داده‌ها به نمایش دیگری با اعمال برخی تبدیل‌های جبری است. مجموعه‌ای کوچک‌تر از ویژگی‌ها تولید می‌کند که هر کدام از نظر عملکردی به برخی یا همه ویژگی‌های اصلی وابسته هستند. رایج ترین نوع چنین تبدیلی، تحلیل مؤلفه اصلی (PCA) است [ 55 ، 56 ].
تبدیل PCA با شناسایی ویژگی های جدید به عنوان اجزای اصلی انجام می شود – ترکیبات خطی نامرتبط از ویژگی های اصلی. هر مؤلفه اصلی بعدی قرار است واریانس را به حداکثر برساند و در عین حال متعامد بودن را نسبت به موارد قبلی حفظ کند. این را می توان با تعیین بردارهای ویژه و مقادیر ویژه ماتریس همبستگی صفت یا کوواریانس یا با اعمال تجزیه مقدار منفرد [ 57 ] به ماتریس کوواریانس به دست آورد.
برای کاهش ابعاد اصلی n باید انتخاب شود nک<�اولین اجزای اصلی هنگام استفاده از مجموعه داده کاهش ابعاد برای ایجاد مدل‌های پیش‌بینی، لازم است داده‌های جدید در مرحله پیش‌بینی به همان نمایشی که بر اساس داده‌های آموزشی تعیین می‌شود، با ضرب در ماتریس پیش‌بینی مربوطه تبدیل شود.

2.4. ارزیابی عملکرد پیش بینی کننده

متداول‌ترین معیارهای کیفیت طبقه‌بندی مانند خطای طبقه‌بندی اشتباه یا دقت طبقه‌بندی زمانی که کلاس‌ها نامتعادل هستند یا احتمالاً قابلیت پیش‌بینی متفاوتی دارند، بسیار مفید نیستند. آنها همچنین به اندازه کافی قدرت پیش‌بینی مدل‌های احتمالی را که می‌توانند در نقاط عملیاتی مختلف، مربوط به مقادیر قطع احتمال مختلف، استفاده کنند، دریافت نمی‌کنند. به همین دلیل است که در آزمایش‌های گزارش‌شده در این مقاله، کیفیت طبقه‌بندی با استفاده از منحنی‌های ROC تجسم می‌شود و نقاط مبادله احتمالی بین نرخ مثبت واقعی و نرخ مثبت کاذب را ارائه می‌دهد [ 58 , 59]. اولی نسبت تعداد تمام نقاط جرم و جنایت است که به درستی توسط مدل پیش‌بینی شده است به تعداد همه کانون‌های جرم واقعی، و دومی نسبت تعداد سلول‌های شبکه غیرهت‌اسپات است که مدل به‌طور اشتباه پیش‌بینی کرده است به‌عنوان کانون به تعداد سلول‌های شبکه غیرهت‌اسپت. نقاط عملیاتی مدل که توسط منحنی‌های ROC تجسم می‌شوند با استفاده از ناحیه زیر منحنی ROC (AUC) خلاصه می‌شوند. این به عنوان یک معیار کلی برای قدرت پیش بینی عمل می کند و می تواند به عنوان احتمال دستیابی سلول شبکه هات اسپات به پیش بینی خطر جرم بالاتر نسبت به سلول شبکه غیر هات اسپات تفسیر شود. متناسب با مقدار آماره Mann-Whitney U برای آزمایش این فرضیه است که نقاط داغ، پیش‌بینی‌های ریسک بالاتری نسبت به نقاط غیر کانونی دریافت می‌کنند.
برای دستیابی به تخمین‌های عملکرد پیش‌بینی‌کننده قابل اعتماد، کم سوگیری و کم واریانس، روش اعتبارسنجی متقاطع 10 برابری که 10 بار تکرار شده است، اعمال می‌شود [ 60 ]. از داده های موجود برای ایجاد و ارزیابی با تقسیم تصادفی آن به 10 زیرمجموعه با اندازه مساوی که هر کدام به عنوان یک مجموعه آزمایشی برای ارزیابی مدل ایجاد شده بر روی زیر مجموعه های ترکیبی باقی مانده عمل می کند و این فرآیند را 10 بار تکرار می کند، از داده های موجود برای ایجاد و ارزیابی استفاده موثر می کند. واریانس را بیشتر کاهش دهد. برچسب‌ها و پیش‌بینی‌های کلاس واقعی برای همه 10 × 1010×10سپس تکرارها برای تعیین منحنی های ROC و مقادیر AUC ترکیب می شوند.

2.5. پیاده سازی و راه اندازی الگوریتم

از پیاده سازی الگوریتم های زیر در آزمایش ها استفاده می شود:
  • رگرسیون لجستیک: پیاده سازی ارائه شده توسط تابع استاندارد glm R [ 61 ]،
  • SVM: پیاده سازی ارائه شده توسط بسته e1071 R [ 62 ]،
  • درختان تصمیم: پیاده سازی ارائه شده توسط بسته rpart R [ 63 ].
  • جنگل تصادفی: پیاده سازی ارائه شده توسط بسته randomForest R [ 64 ].
برای رگرسیون لجستیک و الگوریتم های SVM پارامترهای کنترل کننده فرآیند بهینه سازی اساسی در مقادیر پیش فرض باقی مانده اند. پارامترهای SVM که مسئله بهینه‌سازی را مشخص می‌کنند به صورت زیر تنظیم شدند:
  • هزینه نقض محدودیت ( هزینه ): 1،
  • نوع هسته ( هسته ): شعاعی ،
  • پارامتر هسته ( گاما ): معکوس تعداد صفات (بعد ورودی)،
  • وزن کلاس در جریمه نقض محدودیت ( Class.weights ): 3 برای کلاس پرخطر ، 1 برای کلاس کم خطر.
برای الگوریتم درخت تصمیم، معیارهای توقف پیش‌فرض استفاده شد، از جمله minsplit (حداقل تعداد نمونه‌های مورد نیاز برای تقسیم) روی 20 و cp (پارامتر پیچیدگی) تنظیم شده بر روی 0.010.01. قرار است از این کار جلوگیری شود و بررسی شود که آیا روابط بین خطر جرم و ویژگی‌های POI به اندازه کافی ساده هستند تا بتوانند پیش‌بینی موفق با درختان نسبتاً کوچک را فراهم کنند. احتمالات قبلی یکنواخت برای دو کلاس از طریق پارامتر قبلی تنظیم شد.
برای الگوریتم جنگل تصادفی، از تنظیمات زیر استفاده شد:
  • تعداد درخت ( ntree ): 500،
  • تعداد مشخصه‌ها برای انتخاب تقسیم در هر گره ( mtry ): جذر تعداد کل ویژگی‌های موجود،
  • اندازه نمونه راه‌انداز طبقه‌ای ( sampsize ): تعداد نمونه‌های کلاس پرخطر (طبقه اقلیت).
شایان ذکر است که تنظیمات پارامتر برای SVM، درخت تصمیم، و الگوریتم جنگل تصادفی شامل تنظیماتی هستند که مسئول مدیریت صحیح کلاس‌های نامتعادل هستند (تضمین حساسیت کافی به کلاس اقلیت). این امر با تعیین وزن کلاس برای SVM (تخصیص وزن بالاتر به کلاس اقلیت هنگام محاسبه مجازات نقض محدودیت در هدف بهینه‌سازی)، تنظیم اولویت‌های کلاس یکنواخت برای درخت‌های تصمیم، و تعیین اندازه نمونه راه‌انداز طبقه‌ای برای الگوریتم جنگل تصادفی به دست می‌آید. (رسم حداکثر تعداد ممکن نمونه های کلاس اقلیت و همان تعداد نمونه های کلاس اکثریت). این تنظیمات برای بهبود کیفیت مدل در واقع تأیید شد. هیچ شکلی از تعادل مجدد کلاس برای الگوریتم رگرسیون لجستیک لازم نیست، از آنجایی که هر وزن یا پیشین کلاس فقط نقطه برش احتمال پیش فرض کلاس را که برای تخصیص برچسب کلاس پیش بینی شده استفاده می شود، تغییر می دهد. با توجه به این واقعیت که تحلیل ROC که برای ارزیابی عملکرد پیش‌بینی‌کننده استفاده می‌شود، به‌هرحال به جای برچسب‌های کلاس، بر اساس احتمالات کلاس پیش‌بینی‌شده است، هیچ هدف مفیدی نخواهد داشت.

3. نتایج

ارزیابی تجربی کاربرد داده‌های POI برای پیش‌بینی خطر جرم بر اساس ارزیابی کیفیت مدل‌های طبقه‌بندی است که شاخص‌های خطر را برای انواع جرم انتخاب‌شده بر اساس ویژگی‌های POI پیش‌بینی می‌کنند. آزمایش ها در سه مطالعه زیر سازماندهی شده اند:
  • کیفیت پیش‌بینی: ارزیابی سطح کیفیت پیش‌بینی خطر جرم به دست آمده توسط الگوریتم‌های خاص با استفاده از تمام ویژگی‌های POI،
  • ابزار پیش بینی ویژگی: ارزیابی کاربرد پیش بینی ویژگی های خاص POI،
  • کاهش ابعاد: بررسی اثرات کاهش ابعاد با انتخاب ویژگی و تجزیه و تحلیل مولفه اصلی،
  • انتقال مدل: تأیید امکان به کارگیری مدل آموزش دیده بر روی داده های یک منطقه شهری برای پیش بینی خطر جرم در منطقه شهری دیگر.

3.1. کیفیت پیش بینی

منحنی های ROC که کیفیت پیش بینی را برای مدل های رگرسیون لجستیک (LR)، SVM، درخت تصمیم (DT) و جنگل تصادفی (RF) تجسم می کنند در شکل 6 ، شکل 7 ، شکل 8 و شکل 9 ارائه شده است. مساحت زیر مقادیر منحنی در افسانه های نمودار ارائه شده است. خط مورب چین دار خاکستری عملکرد حدس تصادفی را با AUC نشان می دهد 0.50.5.
مشاهدات زیر را می توان انجام داد:
  • پیش‌بینی خطر با کیفیت خوب برای هر یک از شش نوع جرم انتخاب شده با استفاده از ویژگی‌های POI، با نزدیک یا بیشتر شدن مقادیر AUC امکان‌پذیر است. 0.80.8برای اکثر مناطق شهری و انواع جرم،
  • نقاط عملیاتی معقول با نرخ مثبت واقعی در حدود 0.80.8و نرخ مثبت کاذب حداکثر 0.20.2معمولاً قابل دستیابی هستند (و می توان آنها را شناسایی کرد، به عنوان مثال، با انتخاب مقادیر برش احتمال کلاس که حداکثر نرخ مثبت واقعی را به دست می دهد و نرخ مثبت کاذب از آن تجاوز نمی کند. 0.20.2)
  • الگوریتم جنگل تصادفی بدون در نظر گرفتن منطقه شهری و نوع جرم، بهترین عملکرد پیش بینی را به دست می آورد.
  • الگوریتم SVM در اکثر موارد به طور مشابه موفق است،
  • رگرسیون لجستیک و مدل‌های درخت تصمیم کیفیت پیش‌بینی به وضوح پایین‌تری ارائه می‌دهند، که نشان می‌دهد رابطه بین خطر جرم و ویژگی‌های POI ممکن است به اندازه کافی ساده نباشد که به اندازه کافی توسط یک تابع خطی یا یک درخت کوچک نمایش داده شود.
  • به نظر می رسد قابلیت پیش بینی جرم و جنایت برای ویکفیلد بهتر از سایر مناطق شهری است، با مقادیر AUC نزدیک یا فراتر از آن 0.90.9،
  • به نظر می رسد دزدی از مغازه بهترین نوع جرم قابل پیش بینی بر اساس ویژگی های POI باشد، که با توجه به ارتباط آشکار آن با مکان های فروشگاه، تعجب آور نیست.
برای بررسی اینکه آیا تفاوت‌های مشاهده‌شده در عملکرد الگوریتم از نظر آماری معنی‌دار هستند، از آزمون ناپارامتری DeLong [ 65 ] برای مقایسه AUC استفاده شد. برای هر یک از چهار منطقه شهری و شش نوع جرم و برای هر جفت الگوریتم، p-value برای فرضیه جایگزین تعیین شد که مقدار AUC به دست آمده توسط الگوریتم اول بیشتر از مقدار بدست آمده توسط الگوریتم دیگر است. جدول 3 نتایج آزمون به دست آمده را با ارائه هر جفت الگوریتم خلاصه می کند a l g1،a l g2alg1،alg2، جایی که a l g1alg1یک برچسب ردیف جدول است و a l g2alg2یک برچسب ستون جدول است که تعداد دفعات آن (یعنی جفت منطقه شهری-جنایت) برای آن است a l g1alg1عملکرد قابل توجهی داشت a l g2alg2در 0.010.01سطح اهمیت
بلافاصله می توان مشاهده کرد که جنگل تصادفی بهتر از هر دو رگرسیون لجستیک و درخت تصمیم در تمام 24 مورد و بهتر از SVM در 14 مورد از 24 مورد بود. دومی همیشه بهتر از رگرسیون لجستیک و تقریباً همیشه بهتر از درخت تصمیم بود. رگرسیون لجستیک عمدتاً به‌عنوان درخت‌های تصمیم مشابه عمل می‌کند، که در 10 مورد از 24 مورد به طور قابل‌توجهی بهتر و در 4 مورد از 24 مورد بدتر بود. الگوریتم درخت تصمیم بدترین عملکرد کلی را نشان می دهد.

3.2. ابزار پیش بینی ویژگی

برای بررسی کاربرد پیش‌بینی ویژگی‌های POI برای انواع جرم خاص، از معیار اهمیت متغیر دقت میانگین کاهش تصادفی جنگل استفاده شد. مقادیر MDA مربوطه از مدل‌های جنگل تصادفی که قبلاً برای ارزیابی کیفیت پیش‌بینی ایجاد شده بودند، در تمام تکرارهای اعتبارسنجی متقاطع و انواع جرم به طور میانگین محاسبه شدند. نتایج در شکل 10 ارائه شده است. در هر طرح، 30 ویژگی برتر ارائه شده است که از مفیدترین تا کم سودمندترین آنها رتبه بندی شده اند.
رتبه بندی ابزارهای پیش بینی کننده در مناطق شهری تفاوت چندانی ندارد. موارد زیر از جمله مفیدترین دسته بندی های پیش بینی کننده اشیاء POI هستند: bus_stop ، سوپرمارکت ، صندوق پستی ، میخانه ، مدرسه ، کافه ، راحتی ، فست فود ، رستوران ، تلفن . در حالی که bus_stop ، post_box ، میخانه ، کافه و فست فود به متداول‌ترین دسته‌های POI تعلق دارند (همانطور که می‌توان در آن مشاهده کرد شکل 3 مشاهده می شود)، این کاملاً صادق نیست. سوپرمارکت ، راحتی ، یا تلفن. بنابراین نمی توان اهمیت دسته های POI را فقط به فراوانی وقوع آنها نسبت داد.

3.3. کاهش ابعاد

برای بررسی اثر کاهش ابعاد، آزمایش‌های حاصل از مطالعه کیفیت پیش‌بینی در دو نوع اصلاح‌شده زیر تکرار شد:
  • با انتخاب ویژگی: با استفاده از 5، 10 و 25 ویژگی برتر با توجه به رتبه بندی اهمیت متغیر جنگل تصادفی،
  • با PCA: با استفاده از 5، 10 و 25 جزء اصلی اولیه.
برای صرفه جویی در فضا، تنها مقادیر AUC، به طور میانگین در همه انواع جرم، برای این مطالعه کاهش ابعاد ارائه شده است: در جدول 4 برای انتخاب ویژگی و در جدول 5 برای PCA. برای مقایسه آسانتر با نتایج به‌دست‌آمده با استفاده از ابعاد اصلی، برای هر الگوریتم یک ردیف اضافی مربوط به اندازه زیرمجموعه ویژگی یا تعداد مؤلفه‌های اصلی برابر با 97 وجود دارد، یعنی تعداد تمام ویژگی‌های POI مورد استفاده در آزمایش‌های ارائه‌شده قبلی.
مشاهدات زیر را می توان انجام داد:
  • کاهش ابعاد به الگوریتم‌های رگرسیون لجستیک و درخت تصمیم کمک می‌کند تا کیفیت پیش‌بینی بهتری را به دست آورند (فقط PCA باعث بهبود دومی می‌شود)،
  • کیفیت SVM و پیش‌بینی‌های تصادفی جنگل به دلیل کاهش ابعاد بهبود نمی‌یابد،
  • کاهش ابعاد توسط PCA موثرتر از انتخاب ویژگی است (این مورد بهبود کمتری را برای رگرسیون لجستیک و بدون بهبود برای درختان تصمیم‌گیری می‌کند).
  • 25 ویژگی برتر معمولاً برای دستیابی به بهترین سطح ممکن از کیفیت پیش‌بینی کافی هستند،
  • پنج جزء اصلی اول معمولاً برای دستیابی به بهترین سطح ممکن از کیفیت پیش‌بینی کافی هستند.

3.4. انتقال مدل

در آزمایش‌های انتقال مدل، تمام جفت‌های مناطق مختلف شهری در نظر گرفته شد. برای هر جفت، مجموعه داده برای یک منطقه شهری برای ایجاد مدل‌های پیش‌بینی برای همه انواع جرم استفاده شد. سپس مدل‌های به‌دست‌آمده برای ایجاد پیش‌بینی خطر جرم برای سایر مناطق شهری اعمال شد. کیفیت این پیش بینی ها مانند قبل با استفاده از ناحیه زیر منحنی ROC مورد ارزیابی قرار گرفت. توجه داشته باشید که برخلاف دو مطالعه قبلی، 10 × 1010×10روش اعتبار سنجی متقاطع برابر استفاده نشد. این به این دلیل است که مجموعه داده ها برای ایجاد مدل و ارزیابی مدل به طور طبیعی از هم جدا هستند، زیرا از دو منطقه شهری متفاوت می آیند.
از آنجایی که ویژگی‌های ورودی مورد استفاده توسط مدل‌های پیش‌بینی، تعداد POI در سلول‌های شبکه با وضوح یکنواخت ثابت هستند، در واقع چگالی‌ها را نشان می‌دهند و بنابراین برای فعال کردن انتقال مدل نیازی به نرمال‌سازی بر اساس ناحیه ندارند. سایر اشکال عادی سازی – به عنوان مثال، بر اساس جمعیت یا تعداد کلی اشیاء POI در یک منطقه شهری معین – ممکن است برای جبران تفاوت بین مناطق شهری با توسعه متراکم و کم توسعه یافته مفید باشد، اما بررسی تأثیر چنین تکنیک هایی بر مدل عملکرد انتقال برای کارهای آینده به تعویق افتاده است.
مقادیر AUC به دست آمده در مطالعه انتقال مدل در جدول 6 ارائه شده است. بخش جداگانه ای از این جدول مربوط به هر نوع جرم است و شامل ردیف ها و ستون های مربوط به چهار منطقه شهری است. ردیف ها مربوط به مناطق شهری مورد استفاده برای ایجاد مدل (آموزش) و ستون ها مربوط به مناطق شهری مورد استفاده برای کاربرد مدل (پیش بینی) است. با این حال، مقادیر مورب با آموزش و ارزیابی روی یک مجموعه داده به دست نمی‌آیند. اینها AUC متقاطع به دست آمده در مطالعه کیفیت پیش بینی هستند ( شکل 6 ، شکل 7 ، شکل 8 و شکل 9). این امکان مقایسه کیفیت پیش‌بینی مدل‌های منتقل‌شده به یک منطقه شهری متفاوت و مدل‌های مورد استفاده در همان منطقه شهری که در آن آموزش دیده‌اند (اگرچه بر اساس داده‌های دیده نشده قبلی) امکان‌پذیر است.
مشاهدات را می توان به صورت زیر خلاصه کرد:
  • انتقال مدل به طور کلی می تواند موفقیت آمیز در نظر گرفته شود، با تفاوت مقادیر AUC بین مدل های “خارجی” و “بومی” بیش از این نیست. 0.050.05– 0.10.1در بیشتر موارد،
  • مدل های آموزش دیده بر روی داده های منچستر و لیورپول عملکرد انتقال بهتری نسبت به مدل های آموزش دیده بر روی داده های بورنموث و ویکفیلد دارند،
  • وقتی برای پیش‌بینی در بورنموث و ویکفیلد اعمال می‌شود، مدل‌های «خارجی» به خوبی مدل‌های «بومی» هستند.

4. بحث

این مقاله به طور تجربی کاربرد داده های نقطه مورد علاقه را برای پیش بینی خطر جرم بررسی می کند. این مطالعه با استفاده از سوابق جرم پلیس برای لایه‌های POI OpenStreetMap منتخب مناطق شهری بریتانیا انجام شد. یک روش جمع‌بندی شبکه‌ای ساده برای ترکیب رویدادهای جرم دارای برچسب جغرافیایی با مکان‌های نقطه‌نظر استفاده شد. نتایج نشان می‌دهد که ویژگی‌های POI برای پیش‌بینی جرم بسیار مفید هستند و تشخیص دقیق بین مناطق پرخطر و کم خطر را ممکن می‌سازند. مدل‌های با کیفیت بالا برای پیش‌بینی کانون جرم بر اساس ویژگی‌های POI ممکن است به اجزای اساسی سیستم‌های پلیس پیش‌بینی تبدیل شوند و به سازمان‌های مجری قانون اجازه می‌دهند تا با استفاده از منابع محدود به طور مؤثرتری از جرم جلوگیری کنند [ 9 ].
شایان ذکر است که پیش‌بینی خطر جرم با استفاده از شمارش POI هر دسته به عنوان تنها نوع توصیف منطقه، بدون هیچ شناسه یا مختصات منطقه انجام می‌شود. مدل‌های ایجاد شده روابط بین خطر جرم و تراکم POI مشاهده شده در داده‌های تاریخی را ثبت می‌کنند و از آنها برای پیش‌بینی خطر جرم در آینده استفاده می‌کنند، بدون اینکه به توپوگرافی شهر خاصی گره بخورند.
الگوهای رابطه بین ریسک جرم و ویژگی‌های POI بی‌اهمیت نیستند، زیرا رگرسیون لجستیک و درخت‌های تصمیم توسط SVM و مدل‌های جنگل تصادفی با حاشیه قابل‌توجهی بهتر عمل می‌کنند. برتری دو الگوریتم اخیر که از نظر آماری معنی دار هستند، با توجه به این واقعیت که آنها به موفق ترین الگوریتم های طبقه بندی تعلق دارند، غیرمنتظره نیست. به طور خاص، هر دو نسبتاً در برابر بیش از حد مقاوم هستند، که به نظر می رسد یک مزیت قابل توجه در این برنامه است، با نزدیک به صد ویژگی POI و بیش از چند هزار سلول شبکه برای یادگیری. این همچنین با این مشاهدات مطابقت دارد که عملکرد آنها پس از اعمال کاهش ابعاد بهبود نیافته است.
کیفیت طبقه بندی به دست آمده توسط هر دو درخت تصمیم و رگرسیون لجستیک به دلیل کاهش ابعاد توسط PCA بهبود یافته است. مؤثرتر از انتخاب ویژگی بود: هیچ زیرمجموعه کوچکی از دسته‌های POI برای پیش‌بینی جرم با کیفیت بالا کافی نبود، اما فرافکنی در فضایی از تنها چند مؤلفه اصلی امکان دستیابی به عملکرد پیش‌بینی‌کننده تقریباً مشابه مجموعه کامل ویژگی‌ها را فراهم کرد. این تأیید می کند که روابط بین خطر جرم و ویژگی های POI نمی تواند به اندازه کافی توسط فرمول ها یا شرایط ویژگی-ارزش بر اساس تعداد کمی از رایج ترین یا مشخص ترین دسته های POI بدست آید.
کار بیشتری برای تأیید سودمندی ویژگی‌های POI برای پیش‌بینی جرم برای شهرهای مختلف مورد نیاز است. همچنین بررسی تأثیر وضوح شبکه بر کیفیت پیش‌بینی و کاربرد روش‌های تصفیه‌شده‌تر تجمع فضایی و شناسایی نقطه‌های مهم، از جمله شبکه‌های با وضوح متغیر و تخمین چگالی هسته، جالب خواهد بود. با مقایسه سوابق جرم و پیش‌بینی‌های به‌دست‌آمده با استفاده از داده‌های POI برچسب‌گذاری‌شده با زمان (مثلاً از عصاره‌های نقشه جمع‌آوری‌شده در یک دوره چند ماهه یا چند ساله)، ممکن است بتوان مشاهده کرد که چگونه توسعه ناحیه شهری جدید با تغییر تعداد POI مربوط به ظهور جدید منعکس می‌شود. مناطق خطر آزمایشات انتقال مدل گسترده تر، غنی شده توسط تجزیه و تحلیل تفاوت های منطقه شهری با توجه به ویژگی های جمعیت و سطح توسعه و تکنیک های عادی سازی جبران کننده این تفاوت ها، می تواند به شناسایی شرایطی کمک کند که تحت آن انتقال مدل موفق امکان پذیر است. همچنین ممکن است جالب و مفید باشد که روابط شناسایی شده بین دسته های خاص POI و انواع جرم توسط کارشناسان جرم شناسی بررسی شود.
نتایج امیدوارکننده به‌دست‌آمده با مدل‌های طبقه‌بندی، تشویقی برای در نظر گرفتن انواع دیگر مدل‌سازی با استفاده از سوابق جرم و ویژگی‌های POI، مانند رگرسیون برای پیش‌بینی تعداد جرم یا خوشه‌بندی برای شناسایی الگوهای شباهت بین مناطق خرد با توجه به POI و وقوع جرم است. همچنین بررسی سودمندی سایر منابع داده ای که می توان از آنها ویژگی های توصیف کننده مناطق شهر استخراج کرد، مانند داده های رسانه های اجتماعی دارای برچسب جغرافیایی و داده های شبکه تلفن همراه، ارزشمند است.
در حالی که این تحقیق فقط رابطه خطر جرم و جنایت را با ویژگی‌های منطقه در نظر می‌گیرد، یک گسترش طبیعی می‌تواند علاوه بر در نظر گرفتن ویژگی‌های توصیف کننده زمان باشد. اینها می توانند به طور خاص شامل ساعت، روز هفته، ماه سال، و شاخص تعطیلات و همچنین ویژگی هایی باشند که شرایط آب و هوایی واقعی یا پیش بینی شده را توصیف می کنند. این جهت کار را می توان با اتخاذ برخی روش های شناسایی نقطه کانونی مکانی-زمانی [ 14 ، 36 ] و روش های ارزیابی پیش بینی مکانی- زمانی مناسب [ 66 ] گسترش داد.

منابع

  1. Goodchild، MF سیستم های اطلاعات جغرافیایی و علم: امروز و فردا. ان GIS 2009 ، 15 ، 3-9. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  2. لانگلی، پی. Goodchild، MF; مگوایر، دی جی; Rhind، DW سیستم های اطلاعات جغرافیایی و علوم ، ویرایش 4. Wiley: نیویورک، نیویورک، ایالات متحده آمریکا، 2015. [ Google Scholar ]
  3. فیض، س. محمودی ، ک . IGI Global: Hershey، PA، ایالات متحده آمریکا، 2017. [ Google Scholar ]
  4. اسمیت، TR هوش مصنوعی و کاربرد آن در حل مسائل جغرافیایی. پروفسور Geogr. 1984 ، 36 ، 147-158. [ Google Scholar ] [ CrossRef ]
  5. لئونگ، ی. Leung، KS یک پوسته سیستم خبره هوشمند برای سیستم های اطلاعات جغرافیایی مبتنی بر دانش: 1. ابزارها. بین المللی جی. جئوگر. Inf. سیستم 1993 ، 7 ، 189-199. [ Google Scholar ] [ CrossRef ]
  6. لئونگ، ی. Leung, KS یک پوسته سیستم خبره هوشمند برای سیستم های اطلاعات جغرافیایی مبتنی بر دانش: 2. برخی کاربردها. بین المللی جی. جئوگر. Inf. سیستم 1993 ، 7 ، 201-213. [ Google Scholar ] [ CrossRef ]
  7. هاگناور، جی. Helbich، M. استخراج الگوهای کاربری زمین شهری از اطلاعات جغرافیایی داوطلبانه با استفاده از الگوریتم‌های ژنتیک و شبکه‌های عصبی مصنوعی. بین المللی جی. جئوگر. Inf. علمی 2012 ، 26 ، 963-982. [ Google Scholar ] [ CrossRef ]
  8. یانوویچ، ک. گائو، اس. مک کنزی، جی. هو، ی. Bhaduri، B. GeoAI: تکنیک‌های هوش مصنوعی صریح فضایی برای کشف دانش جغرافیایی و فراتر از آن. بین المللی جی. جئوگر. Inf. علمی 2019 . [ Google Scholar ] [ CrossRef ]
  9. پری، WL; مک اینیس، بی. قیمت، سی سی; اسمیت، اس. هالیوود، JS نقش پیش‌بینی جرم در عملیات اجرای قانون ؛ گزارش فنی RR-233-NJ; RAND Corporation: سانتا مونیکا، کالیفرنیا، ایالات متحده آمریکا، 2013. [ Google Scholar ]
  10. چن، اچ. چانگ، دبلیو. خو، جی جی. وانگ، جی. Qin، Y. Chau, M. Crime Data Mining: A Framework General and Some Examps. کامپیوتر 2004 ، 37 ، 50-56. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  11. برناسکو، دبلیو. Nieuwbeerta, P. چگونه سارقان مسکونی مناطق هدف را انتخاب می کنند؟ رویکردی جدید برای تحلیل انتخاب مکان مجرمانه.برادر J. Criminol. 2005 ، 45 ، 296-315. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  12. Bowers، KJ; جانسون، SD; Pease, K. Hot-Spoting: آینده نقشه برداری جنایت؟ برادر J. Criminol. 2004 ، 44 ، 641-658. [ Google Scholar ] [ CrossRef ]
  13. کوتاه، مگابایت؛ D’Orsogna، MR; برانتینگهام، پی جی. Tita، GE Measuring and Modeling Repeat and Near-Repeat Burglarry Effects. جی. کوانت. Criminol. 2009 ، 25 ، 325-339. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  14. مولر، برو؛ کوتاه، مگابایت؛ برانتینگهام، پی جی. شوئنبرگ، FP; تیتا، مدلسازی جرم و جنایت در فرآیند نقطه هیجان انگیز جنرال الکتریک. مربا. آمار دانشیار 2011 ، 106 ، 100-108. [ Google Scholar ] [ CrossRef ]
  15. مالسون، ن. هپنستال، ا. ببینید، L. Evans, A. استفاده از یک شبیه‌سازی جنایت مبتنی بر عامل برای پیش‌بینی اثرات بازآفرینی شهری بر خطر سرقت خانگی فردی. محیط زیست طرح. طرح. دس 2013 ، 40 ، 405-426. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  16. تراونمولر، ام. کواترون، جی. کاپرا، ال. داده‌های تلفن همراه ماینینگ برای بررسی نظریه‌های جرم شهری در مقیاس. در مجموعه مقالات ششمین کنفرانس بین المللی انفورماتیک اجتماعی، بارسلون، اسپانیا، 10 تا 13 نوامبر 2014. [ Google Scholar ]
  17. مالسون، ن. اندرسن، MA در حال بررسی تأثیر اقدامات جمعیتی محیطی بر کانون‌های جرم و جنایت لندن. جی. جنایت. عدالت 2016 ، 46 ، 52-63. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  18. بوگومولوف، آ. لپری، بی. استایانو، جی. الیور، ن. پیانسی، اف. Pentland، A. Once Upon a Crime: Towards Crime Prediction from Demographics and Mobile Data. در مجموعه مقالات شانزدهمین کنفرانس بین المللی تعامل چندوجهی، استانبول، ترکیه، 12-16 نوامبر 2014. [ Google Scholar ]
  19. بوگومولوف، آ. لپری، بی. استایانو، جی. لتوزه، ای. الیور، ن. پیانسی، اف. Pentland, A. Moves on the Street: Classifying Crime Hotspots با استفاده از داده‌های ناشناس انبوه در پویایی افراد. کلان داده 2015 ، 3 ، 148-158. [ Google Scholar ] [ CrossRef ] [ PubMed ]
  20. Lin، YL; ین، MF; Yu, LC پیش‌بینی جرم مبتنی بر شبکه با استفاده از ویژگی‌های جغرافیایی. ISPRS Int. J. Geo Inf. 2018 ، 7 ، 298. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  21. داش، SK; سافرو، آی. Srinivasamurthy، RS پیش‌بینی فضایی-زمانی جرایم با استفاده از رویکرد تحلیلی شبکه. arXiv 2018 , arXiv:1808.06241. [ Google Scholar ]
  22. یی، اف. یو، ز. ژوانگ، اف. ژانگ، ایکس. Xiong, H. یک مدل یکپارچه برای پیش بینی جرم با استفاده از عوامل زمانی و مکانی. در مجموعه مقالات هجدهمین کنفرانس بین المللی IEEE در مورد داده کاوی، سنگاپور، 17 تا 20 نوامبر 2018. [ Google Scholar ]
  23. باپی، FK; پتری، LM; سوآرس، آ. متوین، اس. تجزیه و تحلیل تأثیر داده های چهار ضلعی و روشنایی خیابان با جمعیت شناسی انسانی بر پیش بینی جنایت در آینده. arXiv 2020 ، arXiv:2006.07516. [ Google Scholar ]
  24. وانگ، اچ. کیفر، دی. گرایف، سی. لی، زی. استنتاج نرخ جرم با داده های بزرگ. در مجموعه مقالات بیست و دومین کنفرانس بین المللی ACM SIGKDD در مورد کشف دانش و داده کاوی، سانفرانسیسکو، کالیفرنیا، ایالات متحده آمریکا، 13 تا 17 اوت 2016. [ Google Scholar ]
  25. یانگ، دی. هینی، تی. تونن، ا. وانگ، ال. Cudré-Mauroux، P. Crime Telescope: Crime Hotspot Prediction بر اساس ادغام داده های شهری و رسانه های اجتماعی. شبکه جهانی وب 2017 ، 21 ، 1323-1347. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  26. Ramm, F. OpenStreetMap داده ها در قالب لایه ای GIS. در دسترس آنلاین: https://www.geofabrik.de/data/geofabrik-osm-gis-standard-0.6.pdf (در تاریخ 22 مه 2018 قابل دسترسی است).
  27. بیوند، ر. کیت، تی. Rowlingson, B. rgdal: Bindings for the ‘Geospatial’ Data Abstraction Library. بسته R نسخه 1.3-4. 2018. در دسترس آنلاین: https://cran.r-project.org/web/packages/rgdal/index.html (در 26 ژوئن 2020 قابل دسترسی است).
  28. Pebesma، EJ; بیوند، کلاس‌ها و روش‌های RS برای داده‌های فضایی در R: بسته sp. R News 2005 ، 5 ، 9-13. [ Google Scholar ]
  29. اک، ج. چینی، اس. کامرون، جی جی. لایتنر ویلسون، RE Mapping Crime: Understanding Hot Spots ; گزارش ویژه موسسه ملی دادگستری; ویژه موسسه ملی دادگستری: راکویل، MD، ایالات متحده آمریکا، 2005.
  30. راسر، تی. Bowers، KJ; جانسون، SD; چنگ، تی. نقشه برداری جنایت پیش بینی کننده: شبکه های خودسرانه یا شبکه های خیابانی؟ جی. کوانت. Criminol. 2017 ، 33 ، 569-594. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  31. عصا، نماینده مجلس؛ جونز، MC صاف کردن هسته ; چپمن و هال: لندن، بریتانیا، 1995. [ Google Scholar ]
  32. هیرشفیلد، ا. Bowers, K. (Eds.) Mapping and Analysing Crime Data: Lessons from Research and Practice ; CRC Press: لندن، انگلستان، 2001. [ Google Scholar ]
  33. Chainey، SP; Ratcliffe، JH GIS و Crime Mapping ; جان وایلی و پسران: چیچستر، بریتانیا، 2005. [ Google Scholar ]
  34. چینی، اس. تامپسون، ال. Uhlig, S. Utility of Hotspot Mapping برای پیش بینی الگوهای فضایی جرم. امن J. 2008 , 21 , 4-28. [ Google Scholar ] [ CrossRef ]
  35. گربر، ام اس پیش بینی جرم با استفاده از توئیتر و تخمین تراکم هسته. تصمیم می گیرد. سیستم پشتیبانی 2014 ، 61 ، 115-125. [ Google Scholar ] [ CrossRef ]
  36. شیود، اس. Shiode، N. مبتنی بر شبکه مبتنی بر فضا-زمان جستجوی-پنجره تکنیک برای تشخیص نقطه کانونی حوادث جرم در سطح خیابان.بین المللی جی. جئوگر. Inf. علمی 2013 ، 27 ، 866-882. [ Google Scholar ] [ CrossRef ]
  37. Cichosz, P. الگوریتم های داده کاوی: توضیح داده شده با استفاده از R ; Wiley: Chichester، UK، 2015. [ Google Scholar ]
  38. مدل های رگرسیون لجستیک هیلب، JM ; چپمن و هال: لندن، انگلستان، 2009. [ Google Scholar ]
  39. کورتس، سی. Vapnik، شبکه های پشتیبان VN-Vector. ماخ فرا گرفتن. 1995 ، 20 ، 273-297. [ Google Scholar ] [ CrossRef ]
  40. Platt, JC Fast Training Machines Vector Support with Sequential Minimal Optimization. در پیشرفت در روش‌های هسته: آموزش بردار پشتیبانی ؛ Schölkopf, B., Burges, CJC, Smola, AJ, Eds. انتشارات MIT: کمبریج، MA، ایالات متحده آمریکا، 1998. [ Google Scholar ]
  41. همل، کشف دانش LH با ماشین‌های بردار پشتیبانی ؛ وایلی: نیویورک، نیویورک، ایالات متحده آمریکا، 2009. [ Google Scholar ]
  42. کریستیانینی، ن. Shawe-Taylor, J. مقدمه‌ای بر پشتیبانی از ماشین‌های برداری و سایر روش‌های یادگیری مبتنی بر هسته . انتشارات دانشگاه کمبریج: کمبریج، انگلستان، 2000. [ Google Scholar ]
  43. شولکوپف، بی. Smola، AJ یادگیری با هسته ; مطبوعات MIT: کمبریج، MA، ایالات متحده آمریکا، 2001. [ Google Scholar ]
  44. خروجی های احتمالی پلات، JC برای ماشین های بردار پشتیبان و مقایسه با روش های درستنمایی منظم. در پیشرفت در طبقه بندی کننده های حاشیه بزرگ ; اسمولا، ای جی، بارلت، پی.، شولکوپف، بی.، شورمنز، دی.، ویرایش. مطبوعات MIT: کمبریج، MA، ایالات متحده آمریکا، 2000. [ Google Scholar ]
  45. بریمن، ال. فریدمن، جی اچ. اولشن، RA; سنگ، CJ طبقه بندی و رگرسیون درختان ; چپمن و هال: لندن، بریتانیا، 1984. [ Google Scholar ]
  46. Quinlan، JR القای درختان تصمیم. ماخ فرا گرفتن. 1986 ، 1 ، 81-106. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  47. دیتریش، روش‌های گروه TG در یادگیری ماشینی. در مجموعه مقالات اولین کارگاه بین المللی در مورد سیستم های طبقه بندی کننده چندگانه، کالیاری، ایتالیا، 21 تا 23 ژوئن 2000. [ Google Scholar ]
  48. بریمن، ال. جنگل های تصادفی. ماخ فرا گرفتن. 2001 ، 45 ، 5-32. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  49. بریمن، ال. پیش بینی کننده های بگینگ. ماخ فرا گرفتن. 1996 ، 24 ، 123-140. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  50. میچل، تی. یادگیری ماشینی ; McGraw-Hill: نیویورک، نیویورک، ایالات متحده آمریکا، 1997. [ Google Scholar ]
  51. لیو، اچ. Motoda, H. انتخاب ویژگی برای کشف دانش و داده کاوی . Springer: نیویورک، نیویورک، ایالات متحده آمریکا، 1998. [ Google Scholar ]
  52. کهوی، ر. جان، GH Wrappers برای انتخاب زیر مجموعه ویژگی. آرتیف. هوشمند 1997 ، 97 ، 273-324. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  53. استروبل، سی. Boulesteix، AL; زیلیس، ع. Hothorn، T. Bias in Random Forest Variable Importance Measures: Illustrations, Sources and a Solution. BMC Bioinform. 2007 ، 8 ، 25. [ Google Scholar ] [ CrossRef ] نسخه سبز ] ]
  54. Kursa، MB انتخاب ویژگی با بسته Boruta. J. Stat. نرم افزار 2010 ، 36 ، 1-13. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  55. Jolliffe ، IT Pricipal Component Analysis ; Springer: نیویورک، نیویورک، ایالات متحده آمریکا، 2002. [ Google Scholar ]
  56. عبدی، ح. ویلیامز، LJ تجزیه و تحلیل مؤلفه اصلی. WIREs Comput. آمار 2010 ، 2 ، 433-459. [ Google Scholar ] [ CrossRef ]
  57. Trefethen، LN; باو، دی.، III. جبر خطی عددی ; SIAM: Philadelphia, PA, USA, 1997. [ Google Scholar ]
  58. ایگان، نظریه تشخیص سیگنال JP و تجزیه و تحلیل ROC و تجزیه و تحلیل ROC . انتشارات آکادمیک: نیویورک، نیویورک، ایالات متحده آمریکا، 1975. [ Google Scholar ]
  59. Fawcett, T. مقدمه ای بر تجزیه و تحلیل ROC. تشخیص الگو Lett. 2006 ، 27 ، 861-874. [ Google Scholar ] [ CrossRef ]
  60. آرلوت، اس. سلیس، الف. بررسی رویه‌های اعتبارسنجی متقابل برای انتخاب مدل. آمار Surv. 2010 ، 4 ، 40-79. [ Google Scholar ] [ CrossRef ]
  61. تیم اصلی توسعه R. R: زبان و محیطی برای محاسبات آماری . بنیاد R برای محاسبات آماری: وین، اتریش، 2018. [ Google Scholar ]
  62. مایر، دی. دیمیتریادو، ای. هورنیک، ک. وینگسل، آ. Leisch, F. e1071: توابع متفرقه وزارت آمار ; بسته R نسخه 1.7-0; گروه نظریه احتمال (قبلاً: E1071)، TU Wien: وین، اتریش، 2018. [ Google Scholar ]
  63. ترنو، تی. اتکینسون، بی. Ripley, B. rpart: Recursive Partitioning and Regression Trees. بسته R نسخه 2017 ، 4 ، 1-9. [ Google Scholar ]
  64. لیاو، ا. وینر، ام. طبقه بندی و رگرسیون توسط جنگل تصادفی.R News 2002 , 2 , 18-22. [ Google Scholar ]
  65. دلانگ، ای آر. DeLong، DM; Clarke-Pearson، DL مقایسه نواحی زیر دو یا چند منحنی مشخصه عملکرد گیرنده همبسته: یک رویکرد ناپارامتریک. بیومتریک 1988 ، 44 ، 837-845. [ Google Scholar ] [ CrossRef ]
  66. ادپژو، م. راسر، جی. چنگ، تی. معیارهای ارزیابی رمان برای پیش‌بینی‌های نقطه کانونی فرآیند پراکنده مکانی-زمانی – مطالعه موردی جرم.بین المللی جی. جئوگر. Inf. علمی 2016 ، 30 ، 2133-2154. [ Google Scholar ] [ CrossRef ]
شکل 1. شمارش جرم برای هر نوع جرم در هر منطقه شهری.
شکل 2. محل وقوع جرم در هر منطقه شهری.
شکل 3. POI متداول ترین 30 دسته در هر منطقه شهری را شامل می شود.
شکل 4. مکان های نقطه مورد علاقه (POI) در هر منطقه شهری.
شکل 5 300 ×300300×300شبکه متر برای تجمع جغرافیایی.
شکل 6. منحنی های ROC برای پیش بینی خطر جرم در منچستر.
شکل 7. منحنی های ROC برای پیش بینی خطر جرم در لیورپول.
شکل 8. منحنی های ROC برای پیش بینی خطر جرم در بورنموث.
شکل 9. منحنی های ROC برای پیش بینی خطر جرم در Wakefield.
شکل 10. نمودارهای میانگین اهمیت متغیر برای پیش بینی خطر جرم.

بدون دیدگاه

دیدگاهتان را بنویسید