1. مقدمه
مهاجرت بین المللی پدیده ای پیچیده است که به شدت با جامعه مدرن مرتبط است. از یک سو، تغییرات تکنولوژیکی و جهانی شدن، نقل مکان به کشوری دیگر را آسان تر از همیشه می کند. از سوی دیگر، مهاجرت علاوه بر تاثیرات مثبت، ممکن است تنش های اجتماعی و سیاسی قابل توجهی نیز ایجاد کند. به منظور درک بهتر، اندازه گیری و مدیریت جنبش های مهاجرت، داده های دقیق و به روز لازم است [ 1 ]. دادههای فضایی در مورد مهاجران، مانند محل تولد آنها، میتواند بینشهای مهمی را در مورد پسزمینههای مادی، اجتماعی و رفتاری آنها نشان دهد (به عنوان مثال، مناطق شهری در مقابل مناطق روستایی، شهرهای بزرگ در مقابل سایرین، مناطق فقیر در مقابل مناطق ثروتمند، و غیره) و به ما امکان میدهد بهتر عمل کنیم. ارزیابی نیازها و نیات آنها در مقاصد جدید [ 2].
با این حال، دادههای مهاجرت اغلب فقط به شکل غیرمکانی در دسترس هستند، که فقط حاوی توضیحات متنی آزاد در مورد مکانها هستند، که برای به دست آوردن یک پایگاه داده جغرافیایی نیاز به کدگذاری جغرافیایی دارند. در چک، شناسایی فضایی مهاجران در فیلدهای متنی به شکل آزاد با نظم ضعیف ذخیره می شود، که استخراج هر گونه بینش مستقیماً از آنها را بسیار چالش برانگیز و اغلب غیرممکن می کند. ژئوکدگذاری این فیلدها – تبدیل توضیحات متنی به مختصات مکانی – به بهبود وضعیت کمک می کند.
ژئوکدینگ فرآیند تبدیل توضیحات متنی یک مکان به یک موقعیت جغرافیایی است که به عنوان یک نقطه مشخص شده است [ 3 ]. در این راستا، پرس و جو برای یک مکان نیازمند رویکردهای متفاوتی برای بازیابی اطلاعات رایج است [ 4 ]. علاوه بر این، علیرغم فراوانی آنها، اتکا به خدمات رمزگذاری جغرافیایی آنلاین به عنوان منابع خارجی، غیرعملی و گاهی غیرممکن است که در نتیجه شرایط استفاده از آنها [ 5 ]، به ویژه سهمیه های تحمیلی وجود دارد. با توجه به اینکه مجموعه داده ما در مقایسه با بودجه اختصاص داده شده بزرگ است، استفاده از خدمات آنلاین یک گزینه نبود.
رویکرد بی اهمیت به geocoding یک جستجوی ساده در لیستی از نام مکان هایی است که با مکان های جغرافیایی تطبیق داده شده اند – gazetteer [ 6 ]. سپس دقت ژئوکدینگ توسط دو عامل تعیین می شود:
نارسایی در عامل دوم معمولاً با استفاده از الگوریتمهای پیچیدهتر ژئوکدینگ جبران میشود. اینها معمولاً به قیمت عملکرد و سرعت geocoding هستند که می تواند نگران کننده باشد.
ژئوکدینگ اغلب به عنوان یک مشکل فرعی خاص از پیوند موجودیت با نام فضایی (NEL) در نظر گرفته می شود. NEL وظیفه تعیین هویت منحصربهفرد موجودیتهایی است که در یک متن ذکر شده است [ 8 ، 9 ]، یعنی زیردامنه تفکیک موجودیت آنها، که علاوه بر خود متن (در مورد ما، gazetteer) از منابع دیگر پایگاه دانش استفاده میکند [ 10 ]. رویکردهای NEL معمولاً شامل بررسی برچسبهای پایگاه دانش و/یا متن پیوند شده به منظور به حداکثر رساندن شانس یافتن مطابقتهای صحیح است (به [ 11 ، 12 ، 13 ، 14 ] مراجعه کنید). این اغلب، اما نه همیشه، با گسترش برچسب های پایگاه دانش به دست می آید [ 15]. در Spatial NEL به طور خاص، استفاده از معیارهای اضافی مانند جمعیت، مساحت یا محبوبیت برای افزایش دقت تطبیق رایج است، [ 12 ] یا [ 16 ، 17 ] را ببینید.
متداول ترین روزنامه مورد استفاده پایگاه داده GeoNames است که بطور رایگان در دسترس است [ 18 ]. این به طور گسترده ای برای داده های جغرافیایی در سطح استقرار [ 19 ] استفاده می شود. Ahlers (2013) [ 20 ] بسیاری از مسائل را در روزنامه گزارش می دهد، مانند الگوهای شبکه، مختصات نادقیق، همپوشانی ها و تکرارها، و طبقه بندی های اشتباه، که در برخی موارد سیستماتیک هستند اما به نظر می رسد از داده های صحیح قابل تشخیص نیستند. با وجود این خطاهای شناسایی شده، به نظر می رسد که برای استفاده عمومی از کیفیت کافی برخوردار باشد. برای ایجاد یک موتور جستجوی مکانی در آمریکای لاتین، با دادههای برچسبگذاری شده جغرافیایی از مقالات ویکیپدیا با استفاده از ترکیب دادهها بر اساس ادغام موجودیتها و ترکیب جغرافیایی تکمیل شد [ 21 ]. والکاناس و گونوپولوس (2012) [5 ] GeoNames را با مجموعه داده مکان های Flickr ادغام کرد. OpenStreetMap، علاوه بر سرویس کدگذاری جغرافیایی Nominatim منبع باز، میتواند به عنوان منبع ارزشمند اطلاعات مکانی، قابل مقایسه با روزنامههای اختصاصی [ 22 ] باشد.
یک رویکرد رایج برای بهبود کیفیت کدگذاری جغرافیایی این است که به ژئوکدگذار اجازه میدهیم تا در نام مکانها مطابقتهای نادرست ایجاد کند، و بر مشکلاتی مانند یک خطای تایپی که در غیر این صورت جستجو را خراب میکند، غلبه کند. لیائو و وانگ [ 23 ] این کار را برای دادههای دپارتمان در چین با استفاده از الگوریتم فیلتر BPM-BM، که بهویژه برای چینیها به خوبی شکل گرفته است، انجام دادند و به دقت 94.2 درصد بالاتر از یک جستجوی ساده مبتنی بر SQL دست یافتند. الگوریتم Intiendo از تطبیق بر اساس فاصله ویرایش (Levenshtein) [ 24 ] استفاده می کند، همانطور که Lan و Longley هنگام کدگذاری جغرافیایی آدرس های سرشماری تاریخی بریتانیا [ 25 ] استفاده کردند. بسته تطبیق فازی مبتنی بر فاصله ویرایشی برای کدگذاری جغرافیایی آدرسهای تاریخی در اسکاتلند از سال 1855 تا 1974 استفاده شد [ 26 ]].
یک رویکرد ساده تر از تطبیق فازی، استفاده از جایگزینی رشته در موارد خطای مکرر انتخاب شده است [ 27 ]. هنگامی که نیاز به تغییر اسکریپت است، روشهای درگیرتری مورد نیاز است (مورد مورد مطالعه در اینجا) زیرا نویسهگردانیهای احتمالی زیادی وجود دارد. یک سیستم رونویسی از عربی به انگلیسی با استفاده از یک شبکه عصبی همراه با یک سیستم مبتنی بر دانش برای صدادار کردن خط عربی صامت و سپس فیلتر کردن انواع رونویسی نامحتمل ایجاد شد [ 28 ].
برخی از مطالعاتی که خدمات کدگذاری جغرافیایی آنلاین را بررسی میکنند، فراتر از ارزیابی خدمات هستند و سعی میکنند استراتژیهای پیش یا پس از پردازش را برای افزایش دقت و در عین حال حداقل نگه داشتن تعداد پرسوجوها به حداقل برسانند [ 29 ]. Ahlers و Boll [ 30 ] APIهای گوگل و یاهو را که بر اساس روزنامههای اختصاصی متفاوتی هستند، تجزیه و تحلیل کردند و یک روش اصلاحی برای جمعآوری نتیجهشان ارائه کردند. کریمی، شاکر و رونگ پیبونسوپیت [ 31 ] یک الگوریتم توصیهکننده ژئوکدینگ ارائه کردند که میتواند خدمات کدگذاری جغرافیایی آنلاین بهینه را با توجه به نوع نام مکان جستجو شده و دقت آنها توصیه کند. هدف دیگر رویکردها استفاده از بعد فضایی مسئله است. پینگ و یونگ [ 32] از یک هستی شناسی نام مکان برای ذخیره داده های روزنامه استفاده می کند که همچنین به ژئوکدگذار اجازه می دهد تا داده های پیچیده تری مانند فواصل، توپولوژی ها و ردپای هندسی را در نظر بگیرد. Coetzee و Rademeyer [ 24 ] روشی را برای تطبیق نتیجه ژئوکدینگ خام از طریق مجاورت فضایی آن با نتیجه مناسب تر ارائه کردند.
هدف این مقاله ارائه و آزمایش یک روش جدید کدگذاری جغرافیایی است که به منظور کدگذاری جغرافیایی پایگاه داده مهاجران بر اساس محل تولد آنها ابداع شده است. این روش ما را قادر میسازد تا مجموعه دادههای مهاجرتی سیستم اطلاعات خارجی پر سر و صدا را با دقت و کاملی بیش از خدمات مرسوم، جغرافیایی کنیم. هدف این مقاله بررسی این موضوع با استفاده از نویسهگردانی مبتنی بر قاعده و کدگذاری جغرافیایی دستهای محلی است. روش بر اساس دو معیار کامل بودن و صحت آزمایش و ارزیابی شد. نتایج منتخب پایگاه داده جغرافیایی کد شده مهاجران در این مطالعه ارائه شده است. سودمندی روش بر روی چندین مثال انتخاب شده از داده های داده شده نشان داده شده است، و این ما را قادر می سازد تا شاهد توسعه جریان های مهاجرت در طول زمان باشیم.
مجموعه داده منبع و روش توسعهیافته در بخش 2 توضیح داده شده است، سپس نتایج محاسبات و ارزیابی دقت آنها در بخش 3.1 شرح داده شده است. نتایج جغرافیایی کدگذاری شده در نقشه ها ارائه شده و به طور خلاصه در قسمت 3.2 توضیح داده شده است. بخش 4 شامل بحث در مورد استفاده بالقوه و کاستی های مجموعه داده به دست آمده است. نتیجه گیری در قسمت 5 آورده شده است.
2. مواد و روشها
2.1. داده ها
ما یک پایگاه داده منحصربفرد را در اختیار داشتیم و پردازش کردیم که از سیستم اطلاعات خارجیان (Cizinecký informační system-CIS) که توسط اداره کل پلیس بیگانگان جمهوری چک مدیریت می شود، مشتق شده بود. این اداره اطلاعات مربوط به خارجیهای ثبتشده در قلمرو چک، از 10 کشور منتخب را در اختیار ما قرار داد که در دستههای سالانه دورهای از 2008 تا 2017 طبقهبندی شدهاند. نگران. آنها حاوی فیلدهای زیر هستند:
-
نوع اجازه اقامت درخواستی – موقت یا دائم. در حالی که مورد اول عمدتاً با اقامت در چک بر اساس ویزای طولانی مدت، اجازه اقامت طولانی مدت، یا (در مورد شهروندان اتحادیه اروپا) وضعیت حمایت موقت است، دومی عمدتاً مجوزهای اقامت دائم و وضعیت های حمایت بین المللی را در نظر می گیرد. در درجه اول پناهندگی و حفاظت فرعی). با توجه به ماهیت حاشیه ای دسته دوم در چک، داده ها عمدتاً تصویری کلی از مهاجرت کاری و خانوادگی مستند به این کشور، هم از اتباع کشورهای ثالث و هم شهروندان اتحادیه اروپا به ارمغان می آورد.
-
تابعیت، سال تولد و جنسیت.
-
محل و کشور تولد، هر دو در متن آزاد. این شامل اطلاعات ضروری برای ژئوکدگذاری رکورد است.
-
کشور محل اقامت قبلی اگر مهاجر قبل از آمدن به چک به خارج از کشور مهاجرت کرده باشد، اغلب با کشور محل تولد مطابقت نداشت.
-
وضعیت تصمیم درخواست: اعطا شده، رد شده، در حال انتظار است، یا موارد دیگر. برای تجزیه و تحلیل خود، ما فقط برنامه های اعطایی را فیلتر کردیم.
جدای از مکان و کشور تولد، ویژگی ها به اندازه کافی مشخص نیستند تا بتوانند از طریق ترکیب ویژگی ها، به افراد مرتبط با یکدیگر را فعال کنند، همانطور که توسط مقررات عمومی حفاظت از داده اتحادیه اروپا الزامی است. مجموعه داده، به جز یک نمونه تصادفی کاملاً ناشناس از رشتههای محل تولد که به سرویس کدگذاری جغرافیایی خارجی همانطور که در بخش 3.1 توضیح داده شده است، با اشخاص ثالث به اشتراک گذاشته نشد تا حریم خصوصی دادهها بیشتر شود.
داده ها از فرم های درخواستی است که مستقیماً توسط متقاضیان مهاجرت پر شده است، یا به صورت الکترونیکی در قالب های ارائه شده در وب سایت وزارت کشور، یا به صورت کاغذی در دفاتر مربوطه وزارت امور پناهندگی و سیاست مهاجرت وزارت کشور. جمهوری چک فرم ها برای شهروندان اتحادیه اروپا [ 33 ] و شهروندان غیر اتحادیه اروپا [ 34 ] متفاوت است]. درخواست ها باید ارسال شوند و تمام داده ها همراه با درخواست اجازه اقامت یا تمدید آن ارائه شوند. در مورد شهروندان غیر اتحادیه اروپا، داده های درخواست ویزای مهاجر، همانطور که به سفارت یا دفتر کنسولی چک ارسال می شود، اغلب دوباره استفاده می شود. مسئولان قرار است قبل از پذیرش فرم ها و داده ها را بررسی کنند و از متقاضی بخواهند تا آنها را بهبود بخشد، اما در واقع به ندرت این کار را انجام می دهند، مگر اینکه از خط لاتین استفاده شود. آنها به ویژه تمایل دارند به داده های درخواست های ویزا احترام بگذارند.
دستورالعمل های مربوط به پر کردن فرم به وضوح تصریح می کند که “پاسخ های این فرم درخواست باید با حروف اصلی به زبان چک تایپ یا نوشته شوند” [ 34 ]. هیچ دستورالعملی در مورد املا یا نویسهگردانی نام مکان (به ویژه از سیریلیک که بسیار متداول است) ارائه نشده است، همچنین مشخصات سطح اداری که باید به عنوان محل تولد ذکر شود (محل، شهرداری، منطقه یا ترکیب آنها) ارائه نشده است. این، همراه با رویکرد نسبتاً سست (و حتی گاهی اوقات سواد جغرافیایی محدود) مهاجران و مقامات، به کیفیت پایین دادههای CIS کمک میکند. این یک دور باطل ایجاد می کند که در آن پلیس بیگانه از اطلاعات موجود استفاده نمی کند و بدون استفاده از داده ها، هیچ انگیزه ای برای بهبود کیفیت آن وجود ندارد.
مسائل فوق عمدتاً بر داده های محل تولد تأثیر می گذارد. آنها از مسائل متعددی رنج می برند که کدگذاری جغرافیایی آنها را دشوار می کند.
○ رونویسی به زبان چکی و انگلیسی هم در بین کلمات و هم در کلمات جداگانه مخلوط می شود.
○ گاهی اوقات، از رونویسی بنویسید که می شنوید، با مقدار ناچیز خطا استفاده می شود.
○ وقتی از رونویسی چک استفاده میشود، علامتهای دیاکریتیک اغلب حذف میشوند.
○ این موضوع با این واقعیت تشدید میشود که روزنامهای که برای کدگذاری جغرافیایی استفاده میشود نیز ممکن است حاوی همه رونویسیهای صحیح نباشد.
-
نام های مستعار در چک، انگلیسی و از زبان مبدأ متداول است. ژئوکدگذاری نام های مستعار دشوار است زیرا معمولاً هیچ روش سیستماتیکی برای استخراج آنها از نام های متداول وجود ندارد. آنها باید در روزنامه نیز حضور داشته باشند. موضوع مشابهی با استفاده از نام مکان های تاریخی (مثلاً نام شهرهای دوران شوروی در اوکراین) ارائه می شود.
-
اشتباهات تایپی در تعداد قابل توجهی از موارد وجود دارد.
-
کشور مشخص شده و نام محل تولد مطابقت ندارند (به عنوان مثال، کشور به عنوان چک داده شده است اما نام مکان مسکو است).
-
نام مکان های سطوح سلسله مراتبی مختلف مخلوط شده اند. این بیشتر در نامهای محلی اوکراینی و ایالات متحده اتفاق میافتد، جایی که گاهی از یک نام مکان خاص استفاده میشود، گاهی اوقات فقط نام بخش اداری (ایالت ایالات متحده یا استان اوکراین)، و گاهی اوقات آنها با هم بدون ترتیب خاصی استفاده میشوند.
این به این معنی است که یک مکان واحد معمولاً با استفاده از چندین نام مکان مشخص می شود. به عنوان مثال، برای شهر وینیچا اوکراین، ما 30 نوع را شمردیم: وینیکا، وینیسیا، وینیچا، وینیتسا، وینچجا، وینیکا، وینیتس، وینیسیا، وینیچا، وینیسیا، وینیکا، وینیتسا، وینیتسیا، وینیتسیا، وینینسیا، وینینسیا ، Vinnycka، Vinnycya، Vinnytsa، Vinnytsia، Vinnytsja، Vinnytsya، Vinycya، Vynnycja، Vinyca، Vinycja، Vinycla و Vinita . (دو نوع آخر – تاکید شده – از نظر آوایی مطابقت ندارند و بنابراین به احتمال زیاد یک اشتباه تایپی هستند.)
با این وجود، علیرغم محدودیت های آنها، ارزش بالقوه داده های ارائه شده قابل توجه است. با این حال، زمانی که ما سعی کردیم داده ها را با استفاده از ابزارهای استاندارد مانند خدمات کدگذاری آنلاین برخط جغرافیایی کنیم، نتوانستیم به سطوح قابل قبولی از کامل بودن و دقت دست یابیم. بنابراین، ما سعی کردیم یک روش کدگذاری جغرافیایی سفارشی ابداع کنیم که به مسائل مربوط به داده های معیوب مانند ما رسیدگی کند.
ما دادههای مربوط به تمام مراحل منعقد شده در مورد اقامت دائم یا موقت اعطایی بین سالهای 2008 و 2017 برای شهروندان هشت کشور مبدا مهاجرت به چک را مورد تجزیه و تحلیل قرار دادیم: اوکراین، ویتنام، روسیه، لهستان، ایالات متحده آمریکا، مولداوی، بلاروس و گرجستان. . به جز گرجستان، همه این کشورها منابع مهم مهاجرت برای چک هستند [ 35 ]. گرجستان به منظور گسترش تنوع زبان ها و سیستم های نوشتاری گنجانده شد.
مجموعه داده تقریباً 500000 رکورد داشت. برخی از سوابق ناقص بودند، و بنابراین هنگام مرتب سازی اطلاعات ما توسط پلیس بیگانه حذف شدند. به همین دلیل، مجموعه داده ما دقیقاً با منابع داده در دسترس عموم مطابقت ندارد، به عنوان مثال، ارقام کل دقیقاً مطابقت ندارند [ 36 ].
2.2. مواد و روش ها
برای اهداف این مطالعه، از آنجایی که ما عمدتاً با مقدار کمی از زبانهای مبدأ و بسیاری از مسائل خاص منبع سروکار داشتیم، تصمیم گرفتیم از یک سیستم مبتنی بر دانش متشکل از قوانین رونویسی ابداع شده سفارشی و متناسب با ترکیب آنها استفاده کنیم.
اول، ما مجموعه ای از قوانین رونویسی را به رشته محل تولد با حروف کوچک به منظور تولید یک یا چند نوع رونویسی اعمال می کنیم. برخلاف برخی رویکردها [ 11 ]، ما رشته پیوندی را گسترش میدهیم، نه برچسبهای gazetteer. سپس، ما به طور متوالی از هر یک از انواع رونویسی شده در برابر روزنامه (با استفاده از تطبیق فازی) پرس و جو می کنیم تا زمانی که یکی از آنها مطابقت ایجاد کند. اگر چندین تطابق وجود داشته باشد، با استفاده از یک تابع هدف که شباهت رشته و اهمیت مکان را ترکیب می کند، از بین آنها انتخاب می کنیم. در ادامه هر یک از این مراحل با جزئیات بیشتر توضیح داده شده است.
کد برای انجام geocoding در پایتون به عنوان مجموعهای از اسکریپتها با استفاده از پایگاه داده PostgreSQL توسعه داده شد (به مواد تکمیلی مراجعه کنید ). این نرمافزار منبع باز از یک مخزن در https://github.com/simberaj/migration-geocode/ (در 1 مه 2021 قابل دسترسی است) [ 37 ] در دسترس است.
2.2.1. رونویسی
هر قانون رونویسی به عنوان یک عبارت منظم برای ارزیابی در برابر رشته منبع مشخص شد. سپس هر تطابق با یک یا چند نوع جایگزین می شود که همه آنها با جستجو در روزنامه GeoNames بررسی می شوند.
قوانین از منابع زیر استخراج شده است:
-
مطابقت بین املای آوایی چک (که اغلب در ورودی استفاده می شود) و املای استاندارد لاتین زبان کشور مورد بررسی قرار گرفت. در مورد کشورهایی که از سیستم های نوشتاری غیر لاتین استفاده می کنند، از رونویسی استاندارد انگلیسی که در روزنامه غالب است، استفاده شد. در بسیاری از موارد، این قواعد غیر متغیر ساده ای را ایجاد می کند که رشته ها را از یک املاء به دیگری تبدیل می کند.
-
در فرآیند توسعه موتور geocoding بر روی دادههای ورودی، قوانین تجربی بیشتری را ابداع کردیم که دقت آن را در رونویسیهای غیر استاندارد مکرر یا اشتباهات تایپی بهبود بخشید. این با استفاده از یک نمونه نگهدارنده، که از نمونه اعتبار سنجی متمایز بود، به دست آمد. نمونه به طور مکرر با استفاده از موتور جغرافیایی کدگذاری شد و اشتباهات و رکوردهای بی همتا با کمک جستجوهای اینترنتی آنلاین برای تولید قوانین جدید به صورت دستی بررسی شد. عملکرد این قوانین در تکرارهای زیر مورد آزمایش قرار گرفت. نمونهای از قاعدهای که به این روش ابداع شده است، قاعدهای است که بین یک و دو «N» در زبان اوکراینی تبدیل میشود، همانطور که در شکل 1 نشان داده شده است.
قوانین به صورت سلسله مراتبی در مجموعه قوانینی که برای یک زبان خاص اعمال می شوند، گروه بندی می شوند تا رونویسی های مختلف، به عنوان مثال، اوکراینی و رومانیایی را در نظر بگیرند. مجموعه قوانین به نام مکان بر اساس کشور مشخص شده اختصاص داده می شود. جدول 1 مجموعه کامل قوانین مجارستانی را نشان می دهد. قوانین دیگر را می توان در پیکربندی موتور جغرافیایی در مخزن کد آن یافت.
قوانین بر روی نام مکان ورودی به ترتیب مشخص اعمال می شوند. نمونه ای از چنین کاربرد پیشرونده ای از قوانین از مجموعه قوانین اوکراینی برای یکی از اشکال Vinnycja در شکل 1 نشان داده شده است . همانطور که در بالا ذکر شد، حجم بالای داده، که با تعداد گونه های تولید شده بیشتر می شود، به این معنی است که ما نمی توانیم به راحتی از خدمات استاندارد ژئوکدینگ وب به دلیل افزایش هزینه یا سهمیه های تمام شده استفاده کنیم. در عوض، ما از یک باطن کدگذاری محلی سفارشی استفاده کردیم.
2.2.2. تطبیق روزنامه
باطن gazetteer در قالب یک پایگاه داده PostgreSQL با پسوند pg_trgm ساخته شد که تطبیق فازی را امکان پذیر می کند. این بدان معناست که حتی پس از رونویسی، رشتههای نام مکان باید دقیقاً مطابقت نداشته باشند، اما باید به اندازه کافی مشابه باشند. به طور خاص، ماژول pg_trgm تطبیق سه ضلعی را انجام می دهد. کسری از سه دنباله حرف مشترک بین دو رشته را محاسبه می کند [ 38 ]. این رویکرد در برابر جایگزین رایج، تطبیق فاصله ویرایش (به عنوان مثال، در [add1]) انتخاب شد. در حالی که تطبیق فاصله ویرایش نتایج نسبتاً دقیقی ایجاد کرد، تقریباً یک مرتبه قدر کندتر بود.
برای یک مکان واحد، پایگاه داده GeoNames معمولاً شامل چندین نام جایگزین، مانند رونویسیهای ملی مختلف، نامهای متعارف و نامهای تاریخی است. ما از همه اینها برای جستجو استفاده کردیم. نامهای متعارف و تاریخی بسیار مفید هستند، زیرا اغلب در دادههای منبع ما وجود دارند و هیچ راهی کلی برای رسیدن به آنها با استفاده از تطبیق فازی وجود ندارد.
2.2.3. انتخاب نتیجه
روش تطبیق فازی معمولاً چندین نتیجه را برای یک مکان واحد، مرتبشده بر اساس شباهت (کسری از سهگرامهای مشترک بین عبارت جستجو و نتیجه) برمیگرداند. برای اینکه تصمیم بگیریم کدام نتیجه را انتخاب کنیم، از تابع هدف زیر استفاده می کنیم:
که در آن s شباهت سه گانه و است پجمعیت محل تطبیق است. این به مکانهایی با جمعیت بزرگتر ترجیح میدهد (که عمدتاً فقط اثرات تساوی را دارد) که طبیعتاً بیشتر اتفاق میافتد تا از تخصیص مقادیر زیادی رکورد به مکانهای کوچکتری که اتفاقاً نام مشترک دارند، جلوگیری شود. از همتای بزرگتر خود
انواع دیگری از ویژگی ها به جز مکان های پرجمعیت نیز در پایگاه داده GeoNames وجود دارد. ما با استفاده از کد ویژگی تک حرفی آنها را از هم متمایز می کنیم. به واحدهای اداری جمعیت ساختگی 100 نفر داده می شود تا به آنها نسبت به سکونتگاه های بسیار کوچکی که ممکن است نام واحد را به اشتراک بگذارند ترجیح دهند. انواع دیگر کمتر ارجحیت دارند و به ترتیب زیر به یک عدد جمعیت ساختگی نزدیک به صفر داده می شود: ساختمان ها، جاده ها، محلات، ویژگی های طبیعی و موارد دیگر.
سپس مختصات نقطه ای نتیجه با بالاترین مقدار تابع هدف به ژئوکد نام مکان برگردانده می شود.
2.2.4. مقایسه
ما نتایج خود را با نتایج خدمات کدگذاری جغرافیایی آنلاین Nominatim [ 39 ] و Geoapify [ 40 ] بر روی نمونه ای از پایگاه داده ورودی مقایسه کردیم تا عملکرد رویکرد خود را تقریباً اندازه گیری کنیم. Nominatim یک ژئوکدگذار منبع باز استاندارد صنعتی مبتنی بر OpenStreetMap است، در حالی که Geoapify به عنوان نمونه ای از خدمات ژئوکدینگ تجاری با سطح قیمت گذاری آزادانه در دسترس انتخاب شد.
3. نتایج
3.1. الگوریتم
عملکرد موتور geocoding ایجاد شده با استفاده از یک نمونه از 1000 ردیف که در صورت امکان با کمک جستجوی وب برچسبگذاری شده بودند، ارزیابی شد. 692 رکورد بی نظیر بود. نمونه با نمونهگیری تصادفی از کل مجموعه داده ورودی ایجاد شد، به طوری که نسبت نمونههای کشور تقریباً با نمونههای مجموعه داده کامل مطابقت داشت. نمونه برداری تعدادی ردیف تکراری تولید کرد. اینها به منظور حفظ تفاوت در اهمیت مکان های فردی در نمونه نگهداری شدند. از 1000 ردیف، 9 رشته قابل رمزگذاری جغرافیایی نبودند و اطلاعات مکانی معنیداری نداشتند.
ما همچنین موتور خود را با خدمات کدگذاری جغرافیایی آنلاین Nominatimand Geoapify با اجرای همان نمونه از طریق آن مقایسه کردیم.
از آنجایی که موتور ما نتایج نقطه ای را تولید می کند، آستانه مسافت 10 کیلومتر را انتخاب کردیم. نتیجه در این فاصله از مکان برچسبگذاری شده، مطابقت در نظر گرفته شد. این آستانه به منظور به حداقل رساندن مثبت کاذب و منفی کاذب به صورت دستی بررسی شد. خدمات Nominatim و Geoapify جعبههای مرزی را به همراه نقاط برمیگردانند. بنابراین، زمانی که مکان برچسبگذاری شده در جعبه مرزی قرار میگیرد، مطابقت در نظر گرفته میشود.
معیارهای دقت زیر با الهام از معیارهای پیوند دهنده موجودیت نامگذاری شده از [ 41 ] اندازه گیری شد:
-
دقت کدگذاری جغرافیایی: کسری از منطبقات صحیح از همه مکانهای بازیابی شده،
-
یادآوری کدگذاری جغرافیایی: کسری از منطبقات صحیح از همه مکانهای قابل کدگذاری جغرافیایی،
-
ژئوکدینگ امتیاز F: یک میانگین هارمونیک از دقت و یادآوری ژئوکدینگ، که به عنوان معیار کیفیت اولیه در نظر گرفته می شود.
-
دقت صفر: کسری از رکوردهای رمزگذاری نشده که واقعاً حاوی اطلاعات مکان نیستند،
-
nil recall: کسری از رکوردهایی که اطلاعات موقعیت مکانی را حمل نمیکنند که جغرافیایی کدگذاری نشده است (هرچه نتیجه کمتر باشد، این مجموعه بیشتر توسط مثبت کاذب “آلوده” میشود)
-
کامل بودن: کسری از رکوردهایی که یک مکان برای آنها بازیابی شده است (اگرچه این به معنای واقعی یک متریک دقت نیست، با این وجود معیار مهمی برای سودمندی نتیجه است).
انواع موتور ژئوکدینگ ما با قوانین رونویسی یا تطبیق فازی خاموش نیز به منظور نشان دادن اثر این اجزا مورد ارزیابی قرار گرفت. از جدول 2 ، مشخص است که هر دو مؤلفه به طور قابل توجهی راه حل را در تمام معیارهای اندازه گیری شده بهبود می بخشند. به نظر میرسد سهم قوانین رونویسی بیشتر از تطابق فازی است، که وقتی به تنهایی استفاده میشود، دقت جغرافیایی کدگذاری را در مقایسه با گونهای که هر دو مؤلفه خاموش است کاهش میدهد (که در آن ژئوکدگذاری اساساً به پرس و جوی برابری کاهش مییابد. پایگاه داده GeoNames).
در مقایسه با ژئوکدگذار استاندارد صنعتی Nominatim، تنها پرس و جوی برابری خام پایگاه داده GeoNames در نمونه آزمایشی بدتر عمل کرد، در حالی که سایر گزینه ها بهبودی در دقت و کامل بودن داشتند. ژئوکدر Geoapify در مقایسه بدتر بود و به کیفیت برتر روزنامه GeoNames برای کشورهای مورد مطالعه اشاره کرد.
در روش اصلی (با استفاده از قوانین تطبیق فازی و رونویسی)، خطاهای کدگذاری جغرافیایی در حدود نیمی از موارد به دلیل رونویسی ناقص (رونویسی نام مکان به نام مکان دیگری) و در نیمی دیگر با نفوذ نام ایجاد می شود. یک نهاد دیگر (معمولاً یک واحد اداری بالاتر). اینها همچنین یکی از رایجترین دلایلی است که موتور در کد ژئوکد کردن مکان، همراه با عدم تطابق بین نام مکان و کشور، و نامهای مکان به شدت کوتاه شده است. فقط یک نام مکان از نمونه در روزنامه GeoNames وجود نداشت اما در منابع دیگر موجود است.
جدول 3ارقام را بر اساس کشورهای داده شده تجزیه می کند. در حالی که برای ژئوکددرهای Nominatim و Geoapify، کشورهایی که از خط لاتین استفاده می کنند بهتر از همتایان سیریلیک خود هستند، تفاوت ها با موتور ما ناچیز است. عملکرد بد موتور ما در نامهای مکان ایالات متحده ناشی از تمایل آن به ترجیح مکانهای کمتر جمعیت به قیمت نامهای تقسیمبندی (ایالت) اداری است. تفاوت بین دادههای روسی و اوکراینی عمدتاً ناشی از سهم بیشتر سکونتگاههای کوچکتر در میان سوابق اوکراین است، که روزنامه معمولاً حاوی نامهای جایگزین زیادی نیست. برخی از سوابق نیز با چک به عنوان کشور مبدا وجود دارد. این مربوط به مواردی است که کشور با محل تولد مطابقت ندارد، همانطور که در بالا ذکر شد،قانون تابعیت ius sanguinis با این وجود باید برای اجازه اقامت درخواست می داد.
3.2. تجزیه و تحلیل مهاجرانی که به چک می آیند
ما بر محل تولد مهاجرانی تمرکز کردیم که قبلاً به چک مهاجرت کرده اند. نتایج ژئوکدینگ در چندین نقشه ارائه شده است که بر اساس کشور مبدا متمایز شده است. برای اهداف ارائه، دادهها در مناطق – یا به شبکههای معمولی (در مورد اوکراین و مولداوی، که تراکم کافی دادهها این اجازه را میدهد) یا به بخشهای اداری (در کشورهای دیگر که ورودی کافی وجود ندارد) تجمیع شدند. رکوردهایی برای نشان دادن نتایج در یک شبکه با وضوح معنیدار؛ این مزیت دیگری برای پنهان کردن موارد مشکلساز دارد که در آن نام واحد اداری بهطور غیرقابل کشف در نام مکان گنجانده شده است، همانطور که در بخش 2.2 بحث شد.). از آنجایی که هدف اصلی این مقاله روشن کردن جنبههای روششناختی و روششناختی است، هنگام تفسیر نتایج تحلیل، خود را به یک توصیف ساده محدود میکنیم.
نقشه ایالات متحده آمریکا ( شکل 2 ) به ما می گوید که مهاجرانی که در سال های معین به چک می آیند عمدتاً در سواحل شرقی یا در بخش های مرکزی- شرقی ایالات متحده به دنیا آمده اند تا در غرب. اهمیت تجمعات بسیار شهری مانند نیویورک، فیلادلفیا، واشنگتن، شیکاگو در شرق، میامی در جنوب، و مناطق لس آنجلس و سانفرانسیسکو در غرب برجسته است. با این وجود، برخی از منابع دیگر مهاجرت به چک توسط مناطق روستایی بیشتر در لوئیزیانا، تگزاس، یا غرب میانه ارائه شده است. در مجموع، به نظر می رسد که هیچ خوشه بندی قابل توجهی از محل تولد مهاجران مشخص وجود ندارد، به ویژه با توجه به این واقعیت که داده ها حاوی مقدار زیادی خطا هستند، همانطور که در جدول 3 بیان شده است.
در مورد ویتنام (نگاه کنید به شکل 3 )، یک الگوی فضایی واضح به راحتی قابل تشخیص است. به طور قابل توجهی، این الگو تعداد بیشتری از مهاجران از ویتنام شمالی (بخش کمونیستی سابق کشور کنونی متحد) را نسبت به ویتنام جنوبی نشان می دهد. این مربوط به اولین موج مهاجرت دانشجویان و کارآموزان ویتنامی است که با برنامه کمک های بین المللی در میان کشورهای کمونیست بلوک شوروی طی دهه های 1970 و 1980 به چکسلواکی سابق آمدند. زادگاه اصلی مهاجران ویتنامی به چک مناطق شهری هانوی و هایفونگ به همراه تجمعات آنها و استان های شمالی اطراف آن، ها تین و کوانگ بین است.
از سوی دیگر، مولداوی یک مورد مخالف را نشان می دهد، که در آن یک الگوی فضایی همگن به وضوح قابل مشاهده است ( شکل 4 را ببینید ). در واقع، کل کشور – هم شهری (از جمله کیشینوف، بالتی، کاهول، دوناساری، و همچنین تیراسپول، در جمهوری دنیستر مولداوی) و مناطق روستایی در سراسر کشور- مهاجرانی را ایجاد می کنند که به سمت چک می روند. در مقایسه با اوکراین، مهاجران از مولداوی به چک بیشتر تمایل به درخواست اقامت موقت دارند ( شکل 5 )، و کسری از زنان به طور قابل توجهی کمتر است ( شکل 6)). این نشان دهنده تسلط مشاغل معمولی مردانه در بازار کار چک (عمدتاً در ساخت و ساز و صنعت) برای آن مهاجران است، اگرچه اخیراً مهاجرت زنان مولداوی (به دست آوردن شغل، به عنوان مثال، در خدمات، به عنوان مراقب) افزایش یافته است. یا پاک کننده ها و غیره).
افراد متولد در غرب اوکراین در میان مهاجران اوکراینی به چک غالب هستند ( شکل 4 را ببینید ). جدای از مزیت آشکار مجاورت فضایی، پیوندهای فرهنگی غیر قابل چشم پوشی وجود دارد، به عنوان مثال، در استان جنوب غربی، به عنوان مثال، برای ماوراء کارپات اوکراین، که بخشی از چکسلواکی سابق در طول دهه های 1920 و 1930 بود [ 42 ]. به عنوان نتیجه، پیوندهای قوی تاریخی، فرهنگی و روانی جریان خروجی فعلی به مقاصدی را همراهی می کند که زمانی در یک حالت مشترک قرار داشتند. اگرچه آنها اهمیت مهاجرتی کمتری نسبت به منطقه غربی دارند، برخی منابع فردی دیگر، عمدتاً گره های اداری و صنعتی مانند کیف، خارکف، دنیپرو، دونتسک و اودسا نیز قابل ذکر هستند.
کاهش تعداد اوکراینیها و مولداویها در چک پس از بحران اقتصادی جهانی اتفاق افتاد که اقتصاد چک را نیز تحت تأثیر قرار داد (عمدتاً در سالهای 2011-2013) و به طور همزمان فرصتهای اقتصادی کمتری برای خارجیها فراهم کرد و باعث اعمال محدودیتهای بیشتری شد. سیاست مهاجرت (نگاه کنید به شکل 7 ). افزایش فعلی تقاضا برای نیروی کار خارجی هنوز (تا سال 2017) زیان های قبلی را جبران نکرده است.
برای مثال در [ 43 ، 44 ، 45 ، 46 ] اطلاعات بیشتر در مورد جنبه های مختلف مهاجرت و ادغام گروه های مهاجرتی مربوطه در چک را مشاهده کنید.
4. بحث
در حالی که روش ما قادر است با بسیاری از اشکالات ذکر شده در بخش 2.2 مقابله کند که به دلیل مهاجرانی که از کشورهایی با زبانها، املا و سیستمهای نوشتاری متفاوت میآیند، و در نتیجه یک مجموعه داده جامع مهاجرت چک ایجاد میشود، همچنان از مشکلات متعددی رنج میبرد. که باید در تفسیر آن مورد توجه قرار گیرد.
در بسیاری از موارد، نام منطقه اداری بدون هیچ گونه جداکننده در نام مکان اصلی گنجانده شده است (به عنوان مثال، ” UzinBelocerkovsky”، جایی که ” Belocerkovsky” یک استان اوکراین را تعیین می کند). تقریباً غیرممکن است که این را فیلتر کنید، زیرا ممکن است به خوبی صفت خود نام مکان باشد. این اغلب منجر به این می شود که نام مکان به پایتخت منطقه اداری ژئوکد می شود، به گونه ای که گویی فقط قسمت منطقه اداری داده شده است. تطبیق با لیستی از کلمات کلیدی برای رایج ترین موارد می تواند مشکل را کاهش دهد.
کامل بودن مجموعه داده GeoNames به طور کلی برای این هدف رضایت بخش بود. با این حال، نتایج محکمتر و کاملتر، بهویژه در مناطق روستایی، میتواند با ادغام دادهها با منابع باز دیگر، مانند Wikipedia [ 21 ] یا OpenStreetMap [ 22 ] به دست آید.
در مقایسه با فاصله ویرایش، که برای تطبیق فازی [ 47 ] نیز استفاده میشود، سیستم تطبیق شباهت سهگانهای که استفاده میشد با نامهای کوتاهتر بدتر است. این امر با نامهای مکان ویتنامی، که فضاها اغلب به اشتباه درج میشوند، مضر بود. از طرف دیگر، می تواند کلمات را به ترتیب معکوس مطابقت دهد، که برای داده های ویتنامی ما نیز رایج است.
عملکرد تطبیق سه گرام با جداول بسیار بزرگ، همانطور که مطابق با [ 46 ] است، کاهش می یابد. بنابراین، ما مجبور شدیم جستجوی فازی را بر اساس کشور محل تولد محدود کنیم. این محدودیت روند را به میزان قابل توجهی سرعت بخشید، اما در مواردی که کشور و محل تولد مورد نظر مطابقت نداشتند، مواردی را ایجاد کرد که احتمالاً به دلیل سوء تفاهم در ورودی داده ها بود. یک جایگزین می تواند استفاده از یک موتور جستجوی قدرتمندتر مانند Apache Lucene [ 5 ، 19 ] باشد. با توجه به منابع کافی، پسزمینه PostgreSQL میتواند با هر سرویس استاندارد جغرافیایی جایگزین شود. با این حال، تعداد بالای انواع تولید شده توسط موتور رونویسی به این معنی است که فرآیند احتمالاً از نظر محاسباتی بسیار سخت خواهد بود.
در تعداد قابل توجهی از موارد، تنها نام منطقه اداری در قسمت نام مکان ثبت شده است. هدف این بود که چنین مواردی را در مکان پایتخت منطقه ژئوکدگذاری کنیم تا حداقل حس تداعی ایجاد شود، و نه ایجاد سکونتگاه های جعلی که ناشی از استفاده از مرکز منطقه اداری باشد. متأسفانه، زیرا این ردیف ها اغلب نشان دهنده سکونتگاه های بسیار کوچکی هستند که نمی توان آنها را به طور دقیق نام برد. این شکاف درک شده شهری/روستایی جمعیت مهاجر را به نفع مهاجران شهری منحرف می کند. این موضوع به شدت ایالات متحده را تحت تأثیر قرار می دهد، جایی که گردش مهاجرت و ارتباط با سطح ایالت قوی است، اما اوکراین و تا حدی دیگر کشورهای مورد مطالعه را نیز تحت تأثیر قرار می دهد.
اشکال اصلی مفهوم روش، نیاز به ارائه قوانین رونویسی خاص داده است. در حالی که برخی از آنها ممکن است کار کنند، برای ورودیهایی که بر اساس زبان و/یا کشور طبقهبندی نشدهاند، روشهای عمومیتر و غیر پارامتریکتر مانند شبکههای عصبی ممکن است مناسبتر باشند [ 28 ]. یک موتور شبکه عصبی که به طور خاص بر پیوند نهادهای نامگذاری شده متمرکز شده است، مانند DeezyMatch [ 15 ]]، یک رقیب قوی خواهد بود. از سوی دیگر، قوانین رونویسی به ما این امکان را می دهد که خطاهای کدگذاری جغرافیایی را به صورت دقیق جبران کنیم، و همچنین فرآیند را کاملاً قابل تفسیر می کند، که در مورد موتورهای شبکه عصبی صدق نمی کند. این قوانین همچنین میتوانند حداقل تا حدی بهطور خودکار با استفاده از ثباتهای واجشناختی تولید شوند و به زمانهای راهاندازی قابل مقایسه با زمانهای آموزش موتورهای شبکه عصبی دست یابند.
اگرچه جدول 1 و جدول 2 برخی از معیارهای دقت را نشان می دهند، اما مقایسه مستقیم آنها با ارقام گزارش شده توسط سایر محققان گمراه کننده خواهد بود، زیرا دقت نه تنها با روش کدگذاری جغرافیایی بلکه توسط داده ها و روزنامه استفاده شده نیز تعیین می شود. بنابراین، مقایسه عددی با سایر مطالعات انجام نشد. به طور بالقوه، مقایسه بهتری را می توان با استقرار یک نمونه سفارشی از موتور جستجوی OpenStreetMap Nominatim به صورت محلی و درهم آمیختن آن با قوانین رونویسی به دست آورد. با این حال، این یک کار بسیار پر زحمت است که به دلیل مشکلات فنی انجام نشد. علاوه بر این، خدمات کدگذاری جغرافیایی آنلاین بیشتری را می توان در مقایسه گنجاند.
بدون استفاده از روش ما، الگوهای فضایی نشاندهنده محل تولد افراد (در کشورهای منتخب منتخب) که به چک مهاجرت کردهاند، همچنان قابل مشاهده است. با این وجود، استفاده از روش ما به تصویر دقیق تری کمک کرد. مهمتر از همه، بدون تلاش ما برای بهبود دقت اطلاعات، این داده ها ممکن است هرگز استفاده نمی شد. با توجه به مسائل مهاجرت، اهمیت روش ما ممکن است پتانسیل بزرگی به ویژه در حل وظایف ظریف تر، مانند مطالعه شبکه های اجتماعی خانواده و/یا جامعه/محله در فرآیندهای مهاجرت (از طریق ارتباط بین مبدا و مقصد) داشته باشد.
استفاده از زادگاه مهاجران برای شناسایی فضایی آنها دارای محدودیت هایی است. این نشان دهنده نوع محیطی است که مهاجر در آن متولد شده است، اما نه مدت زمانی که او در آن مکان خاص گذرانده است، و نه چیزی در مورد سابقه مهاجرت او قبل از آمدن به چک نشان می دهد. با این حال، نتیجه هنوز یک پیشرفت آشکار نسبت به ارائه نتایج فقط در سطح ملی است.
5. نتیجه گیری ها
با استفاده از روش کدگذاری جغرافیایی، ما توانستیم مجموعه داده های مهاجرتی پر سر و صدا CIS را با کامل و دقت فراتر از خدمات مرسوم که با داده های کم نویز هماهنگ شده اند، جغرافیایی کنیم [ 19 ]. نتایج غیرژئوکد شده را می توان با خیال راحت دور انداخت، زیرا هیچ ارتباط فضایی قابل توجهی را نشان نمی دهد. مقایسه با geocoder آنلاین Geoapify نشان می دهد که موتور مزیت کلی دارد، به خصوص در کشورهایی که از خط لاتین استفاده نمی کنند.
نگرانی این بود که GeoNames ممکن است حاوی نام برخی از سکونتگاه های بسیار کوچک نباشد. این یک مسئله نبود بنابراین میتوانیم نتیجه بگیریم که GeoNames منبع پربار نامهای مکان برای کدگذاری جغرافیایی پر سر و صدا است که مطالعه قبلی را تأیید میکند [ 20 ].
ما چندین نمونه از مجموعه داده های داده شده را انتخاب کردیم که از طریق آنها سودمندی روش کدگذاری جغرافیایی خود را نشان دادیم. به طور خاص، ما به تصویری دقیقتر کمک کردیم که به ما در مورد مکانهایی که مهاجران به چک (در دوره زمانی معین) متولد شدهاند، اطلاع داد. در ایالات متحده آمریکا، بخشهای شرقی و مرکزی شرقی به همراه مناطق بزرگ شهری منابع اصلی هستند. در مورد ویتنام، بخش شمالی با چندین استان شمالی – از جمله هانوی و هایفونگ، همراه با همسایگیهای آنها – بر آن تسلط داشت. در مولداوی الگوی فضایی در شدت بالا یکنواخت است و نرها بیشتر از ماده ها مهاجرت می کنند. مهاجرت اوکراینی ها به چک الگوی فضایی خاصی را ایجاد کرد که در آن عمدتاً مهاجرانی که در غرب کشور متولد شده اند (و زندگی می کنند) به ویژه اوکراین ماورای کارپات،
دیدگاه تحلیلی ما همچنین ما را قادر ساخت تا شاهد توسعه جریان های مهاجرتی مربوطه در طول زمان (بین سال های 2008 و 2017) باشیم که منعکس کننده تغییرات مهم در نرخ مهاجرت به دلیل بحران اقتصادی جهانی و پیامدهای آن در چک (فرصت های کاری کمتر برای خارجی ها و سیاست های محدودکننده تر). برای اطلاعات بیشتر در مورد مهاجرت و الگوهای مهاجرت در چک، [ 34 ، 48 ] را ببینید.
ما از مجموعه داده به دست آمده در چندین نمونه استفاده کردیم تا نشان دهیم که روش کدگذاری جغرافیایی کاربردهای بالقوه زیادی برای تحقیقات بیشتر دارد و ممکن است چندین سوال در محل پرسیده شود:
-
چرا از نظر زادگاه مهاجران، الگوهای فضایی مواجهه شده (یا عدم وجود آنها) به وجود آمده است؟
-
نقش شبکه های مهاجرت در شکل گیری آنها چیست؟
-
چه تفاوت هایی برای فرهنگ ها، سنین و جنسیت های مختلف محلی وجود دارد؟
از سوی دیگر، مجموعه داده همچنین می تواند برای تأیید کمی سؤالات و فرضیه های مشابه ناشی از تحقیقات کیفی مهاجرت مورد استفاده قرار گیرد.
خود این روش، اگرچه یک توسعه موقت برای مشکل در دست است، ممکن است برای رمزگذاری جغرافیایی دادهها از منابع پر سر و صدای مشابه، بهویژه در مواردی که ورودی دستی از افراد با قراردادهای املایی و نویسهگردانی متفاوت مواجه میشود، استفاده شود. از این رو، می توان تصور کرد که از روش ما نه تنها برای تعیین دقیق زادگاه مهاجران، بلکه به عنوان مثال، هنگام تعیین آخرین، معمول یا اقامت دائم مهاجران قبل از مهاجرت به یک کشور مقصد خاص، یا برعکس، پتانسیل ترجیحی آنها استفاده کنیم. مقاصد خارج از کشور، و غیره. به عنوان مثال، در طول همهگیری کووید-19، میتوان از این روش برای استخراج خودکار مسیرهای مسافرتی استفاده کرد که در آن روشهای ثبت پیچیدهتر هنوز به کار گرفته نشده است. به خصوص اگر شرایط محدودیت سفرهای داخلی وضع شده باشد. یک مثال دیگر میتواند تصحیح خودکار و رمزگذاری جغرافیایی نامهای مکان استخراجشده توسط رونویسی خودکار گفتار به متن شهادتهای شفاهی باشد، که در آن نام مکانها به زبانی دیگر توسط سیستم تنظیمشده برای زبان مورد استفاده برای بقیه شهادت ضبط میشود. کاربردهای بیشتر ممکن است برای پایگاههای اطلاعاتی در حوزههای امنیت دولتی، اقتصاد، امور اجتماعی، بهداشت، حملونقل یا علم باشد، زیرا ممکن است حاوی دادههای پر سر و صدای مشابهی باشد، به عنوان مثال، نام افراد، سازمانها یا مکانهایی که میتوان با استفاده از این روش کد جغرافیایی کرد. . حتی میتوان کاربرد موتور رونویسی را روی دادههای غیرمکانی تصور کرد، هر جا که دادهها به صورت دستی توسط شخصی با استفاده از املایی متفاوت از زبانی که معمولاً استفاده میکنند، ثبت شود. یک مثال دیگر میتواند تصحیح خودکار و رمزگذاری جغرافیایی نامهای مکان استخراجشده توسط رونویسی خودکار گفتار به متن شهادتهای شفاهی باشد، که در آن نام مکانها به زبانی دیگر توسط سیستم تنظیمشده برای زبان مورد استفاده برای بقیه شهادت ضبط میشود. کاربردهای بیشتر ممکن است برای پایگاههای اطلاعاتی در حوزههای امنیت دولتی، اقتصاد، امور اجتماعی، بهداشت، حملونقل یا علم باشد، زیرا ممکن است حاوی دادههای پر سر و صدای مشابهی باشد، به عنوان مثال، نام افراد، سازمانها یا مکانهایی که میتوان با استفاده از این روش کد جغرافیایی کرد. . حتی میتوان کاربرد موتور رونویسی را روی دادههای غیرمکانی تصور کرد، هر جا که دادهها به صورت دستی توسط شخصی با استفاده از املایی متفاوت از زبانی که معمولاً استفاده میکنند، ثبت شود. یک مثال دیگر میتواند تصحیح خودکار و رمزگذاری جغرافیایی نامهای مکان استخراجشده توسط رونویسی خودکار گفتار به متن شهادتهای شفاهی باشد، که در آن نام مکانها به زبانی دیگر توسط سیستم تنظیمشده برای زبان مورد استفاده برای بقیه شهادت ضبط میشود. کاربردهای بیشتر ممکن است برای پایگاههای اطلاعاتی در حوزههای امنیت دولتی، اقتصاد، امور اجتماعی، بهداشت، حملونقل یا علم باشد، زیرا ممکن است حاوی دادههای پر سر و صدای مشابهی باشد، به عنوان مثال، نام افراد، سازمانها یا مکانهایی که میتوان با استفاده از این روش کد جغرافیایی کرد. . حتی میتوان کاربرد موتور رونویسی را روی دادههای غیرمکانی تصور کرد، هر جا که دادهها به صورت دستی توسط شخصی با استفاده از املایی متفاوت از زبانی که معمولاً استفاده میکنند، ثبت شود. جایی که نام مکان ها به زبانی دیگر توسط یک سیستم تنظیم شده برای زبان مورد استفاده برای بقیه شهادت ثبت می شود. کاربردهای بیشتر ممکن است برای پایگاههای اطلاعاتی در حوزههای امنیت دولتی، اقتصاد، امور اجتماعی، بهداشت، حملونقل یا علم باشد، زیرا ممکن است حاوی دادههای پر سر و صدای مشابهی باشد، به عنوان مثال، نام افراد، سازمانها یا مکانهایی که میتوان با استفاده از این روش کد جغرافیایی کرد. . حتی میتوان کاربرد موتور رونویسی را روی دادههای غیرمکانی تصور کرد، هر جا که دادهها به صورت دستی توسط شخصی با استفاده از املایی متفاوت از زبانی که معمولاً استفاده میکنند، ثبت شود. جایی که نام مکان ها به زبانی دیگر توسط یک سیستم تنظیم شده برای زبان مورد استفاده برای بقیه شهادت ثبت می شود. کاربردهای بیشتر ممکن است برای پایگاههای اطلاعاتی در حوزههای امنیت دولتی، اقتصاد، امور اجتماعی، بهداشت، حملونقل یا علم باشد، زیرا ممکن است حاوی دادههای پر سر و صدای مشابهی باشد، به عنوان مثال، نام افراد، سازمانها یا مکانهایی که میتوان با استفاده از این روش کد جغرافیایی کرد. . حتی میتوان کاربرد موتور رونویسی را روی دادههای غیرمکانی تصور کرد، هر جا که دادهها به صورت دستی توسط شخصی با استفاده از املایی متفاوت از زبانی که معمولاً استفاده میکنند، ثبت شود. به این ترتیب ممکن است دادههای پر سر و صدای مشابهی نیز داشته باشد، به عنوان مثال، نام افراد، سازمانها یا محلهایی که میتوان با استفاده از این روش کدگذاری جغرافیایی کرد. حتی میتوان کاربرد موتور رونویسی را روی دادههای غیرمکانی تصور کرد، هر جا که دادهها به صورت دستی توسط شخصی با استفاده از املایی متفاوت از زبانی که معمولاً استفاده میکنند، ثبت شود. به این ترتیب ممکن است دادههای پر سر و صدای مشابهی نیز داشته باشد، به عنوان مثال، نام افراد، سازمانها یا محلهایی که میتوان با استفاده از این روش کدگذاری جغرافیایی کرد. حتی میتوان کاربرد موتور رونویسی را روی دادههای غیرمکانی تصور کرد، هر جا که دادهها به صورت دستی توسط شخصی با استفاده از املایی متفاوت از زبانی که معمولاً استفاده میکنند، ثبت شود.
از آنجایی که راه حل به خدمات شخص ثالث یا نرم افزار تجاری متکی نیست و به راحتی بر روی سخت افزار کالا قابل استقرار است، راه حل هزینه کمتری نسبت به روش های مشابه دارد. به لطف اجرای متن باز آن، این روش می تواند به راحتی با زمینه های مختلف سازگار شود، که به ویژه با توجه به افزایش شدید محتوای تولید شده توسط کاربر مرتبط است [ 49 ]. موتور رونویسی یک رابط کاملاً مشخص دارد و بنابراین میتواند با یک باطن کدگذاری جغرافیایی متفاوت، مانند Nominatim یا موتورهای تجاری OpenStreetMap، در صورت فراهم کردن ظرفیت کافی، همراه شود.
در نهایت، بهبود دادهها نه تنها در استفاده از یک روش کدگذاری جغرافیایی جدید، بلکه در قرار دادن فرآیند فعلی ایجاد دادهها در تسکین شدید نهفته است. از کار ما مشخص است که اگر قرار است مهاجرت به چک به طور مؤثر مستند شود، مسئولان باید برنامه ها را به طور کامل بررسی کرده و بیشتر توضیح دهند. از طرف دیگر، متقاضیان باید تمایل بیشتری به همکاری داشته باشند و قوانین فرآیند (به ویژه در مورد پر کردن فرم) باید واضح تر و مشخص تر باشد. دیجیتالی شدن این فرآیند امکان استفاده از پیشنهاد خودکار مبتنی بر روزنامه را فراهم می کند، که می توان انتظار داشت که نرخ خطا را به میزان قابل توجهی کاهش دهد.
پس از وضعیت کنونی همهگیری، یک دوره جدید پس از همهگیری فرا خواهد رسید. با این وجود، دولتها در سراسر جهان، از طریق سیاستها و اقدامات خود، تلاش خواهند کرد تا خطر آسیبپذیری از سایر بیماریهای همهگیر احتمالی را کاهش دهند. همچنین با محدود کردن نسبی ورود به قلمرو آنها، و از طریق نظارت و کنترل فشرده تر جابجایی های جمعیت، چه سفرهای کاری به خارج از کشور و چه از خارج، انجام خواهد شد. مهاجرت بین المللی کوتاه مدت، بلند مدت و دائمی؛ یا گردشگری برای این منظور پایگاه های اطلاعاتی جدیدی (بیشتر در سطح ملی یا سایر سطوح منطقه ای- سلسله مراتبی) با توجه به نحوه ثبت و ثبت بهتر حرکات و به ویژه مربوط به مکان های بازدید شده ایجاد خواهد شد (یا پایگاه های موجود به تازگی طراحی خواهند شد). جمعیت داخلی و همچنین خارجی ها. به طور متناقض، جهانی زدایی جزئی از جهان از قبل بسیار متنوع با نظارت و ضبط فضایی فشرده تر آن همراه خواهد بود. این فرصتی است که ابزار ما ممکن است با موفقیت در آن اعمال شود.
بدون دیدگاه