نام مکان‌های آزاد شکل جغرافیایی: نمونه‌ای از رمزگشایی پایگاه داده ملی مهاجرت چک

چکیده

رشد مهاجرت بین المللی و تأثیرات اجتماعی و سیاسی آن نیاز بیشتری به داده های دقیق برای اندازه گیری، درک و کنترل جریان های مهاجرت ایجاد می کند. با این حال، در پایگاه داده مهاجرت چک، زادگاه مهاجران فقط در فیلدهای متنی آزاد نگهداری می شود که به دلیل اشتباهات متعدد در رونویسی و املایی، مانعی اساسی برای پردازش بیشتر آنهاست. این مطالعه با استقرار یک موتور geocoding سفارشی بر اساس GeoNames، قوانین رونویسی مناسب و تطبیق فازی به منظور دستیابی به دقت خوب حتی برای داده‌های پر سر و صدا، در حالی که به خدمات شخص ثالث وابسته نیست، بر این مانع غلبه می‌کند و در نتیجه هزینه‌های کمتری نسبت به روش‌های قابل مقایسه دارد. نتایج در سطح زیر ملی برای مهاجرانی که از ایالات متحده آمریکا، اوکراین، مولداوی و ویتنام به چک می آیند، ارائه شده است.

کلید واژه ها:

ژئوکدینگ ; آوانویسی ; رونویسی ; مهاجرت ; پایتون ؛ چک

1. مقدمه

مهاجرت بین المللی پدیده ای پیچیده است که به شدت با جامعه مدرن مرتبط است. از یک سو، تغییرات تکنولوژیکی و جهانی شدن، نقل مکان به کشوری دیگر را آسان تر از همیشه می کند. از سوی دیگر، مهاجرت علاوه بر تاثیرات مثبت، ممکن است تنش های اجتماعی و سیاسی قابل توجهی نیز ایجاد کند. به منظور درک بهتر، اندازه گیری و مدیریت جنبش های مهاجرت، داده های دقیق و به روز لازم است [ 1 ]. داده‌های فضایی در مورد مهاجران، مانند محل تولد آنها، می‌تواند بینش‌های مهمی را در مورد پس‌زمینه‌های مادی، اجتماعی و رفتاری آن‌ها نشان دهد (به عنوان مثال، مناطق شهری در مقابل مناطق روستایی، شهرهای بزرگ در مقابل سایرین، مناطق فقیر در مقابل مناطق ثروتمند، و غیره) و به ما امکان می‌دهد بهتر عمل کنیم. ارزیابی نیازها و نیات آنها در مقاصد جدید [ 2].

با این حال، داده‌های مهاجرت اغلب فقط به شکل غیرمکانی در دسترس هستند، که فقط حاوی توضیحات متنی آزاد در مورد مکان‌ها هستند، که برای به دست آوردن یک پایگاه داده جغرافیایی نیاز به کدگذاری جغرافیایی دارند. در چک، شناسایی فضایی مهاجران در فیلدهای متنی به شکل آزاد با نظم ضعیف ذخیره می شود، که استخراج هر گونه بینش مستقیماً از آنها را بسیار چالش برانگیز و اغلب غیرممکن می کند. ژئوکدگذاری این فیلدها – تبدیل توضیحات متنی به مختصات مکانی – به بهبود وضعیت کمک می کند.

ژئوکدینگ فرآیند تبدیل توضیحات متنی یک مکان به یک موقعیت جغرافیایی است که به عنوان یک نقطه مشخص شده است [ 3 ]. در این راستا، پرس و جو برای یک مکان نیازمند رویکردهای متفاوتی برای بازیابی اطلاعات رایج است [ 4 ]. علاوه بر این، علیرغم فراوانی آنها، اتکا به خدمات رمزگذاری جغرافیایی آنلاین به عنوان منابع خارجی، غیرعملی و گاهی غیرممکن است که در نتیجه شرایط استفاده از آنها [ 5 ]، به ویژه سهمیه های تحمیلی وجود دارد. با توجه به اینکه مجموعه داده ما در مقایسه با بودجه اختصاص داده شده بزرگ است، استفاده از خدمات آنلاین یک گزینه نبود.

رویکرد بی اهمیت به geocoding یک جستجوی ساده در لیستی از نام مکان هایی است که با مکان های جغرافیایی تطبیق داده شده اند – gazetteer [ 6 ]. سپس دقت ژئوکدینگ توسط دو عامل تعیین می شود:

کامل بودن روزنامه، هم از نظر نام و هم در سایر داده ها که می تواند ابهامات را برطرف کند [ 7 ].
دقت نام مکان های ورودی – یعنی وجود اشتباهات تایپی، قالب بندی بد یا غیر متعارف، یا املا.

نارسایی در عامل دوم معمولاً با استفاده از الگوریتم‌های پیچیده‌تر ژئوکدینگ جبران می‌شود. اینها معمولاً به قیمت عملکرد و سرعت geocoding هستند که می تواند نگران کننده باشد.

ژئوکدینگ اغلب به عنوان یک مشکل فرعی خاص از پیوند موجودیت با نام فضایی (NEL) در نظر گرفته می شود. NEL وظیفه تعیین هویت منحصربه‌فرد موجودیت‌هایی است که در یک متن ذکر شده است [ 8 ، 9 ]، یعنی زیردامنه تفکیک موجودیت آنها، که علاوه بر خود متن (در مورد ما، gazetteer) از منابع دیگر پایگاه دانش استفاده می‌کند [ 10 ]. رویکردهای NEL معمولاً شامل بررسی برچسب‌های پایگاه دانش و/یا متن پیوند شده به منظور به حداکثر رساندن شانس یافتن مطابقت‌های صحیح است (به [ 11 ، 12 ، 13 ، 14 ] مراجعه کنید). این اغلب، اما نه همیشه، با گسترش برچسب های پایگاه دانش به دست می آید [ 15]. در Spatial NEL به طور خاص، استفاده از معیارهای اضافی مانند جمعیت، مساحت یا محبوبیت برای افزایش دقت تطبیق رایج است، [ 12 ] یا [ 16 ، 17 ] را ببینید.

متداول ترین روزنامه مورد استفاده پایگاه داده GeoNames است که بطور رایگان در دسترس است [ 18 ]. این به طور گسترده ای برای داده های جغرافیایی در سطح استقرار [ 19 ] استفاده می شود. Ahlers (2013) [ 20 ] بسیاری از مسائل را در روزنامه گزارش می دهد، مانند الگوهای شبکه، مختصات نادقیق، همپوشانی ها و تکرارها، و طبقه بندی های اشتباه، که در برخی موارد سیستماتیک هستند اما به نظر می رسد از داده های صحیح قابل تشخیص نیستند. با وجود این خطاهای شناسایی شده، به نظر می رسد که برای استفاده عمومی از کیفیت کافی برخوردار باشد. برای ایجاد یک موتور جستجوی مکانی در آمریکای لاتین، با داده‌های برچسب‌گذاری شده جغرافیایی از مقالات ویکی‌پدیا با استفاده از ترکیب داده‌ها بر اساس ادغام موجودیت‌ها و ترکیب جغرافیایی تکمیل شد [ 21 ]. والکاناس و گونوپولوس (2012) [5 ] GeoNames را با مجموعه داده مکان های Flickr ادغام کرد. OpenStreetMap، علاوه بر سرویس کدگذاری جغرافیایی Nominatim منبع باز، می‌تواند به عنوان منبع ارزشمند اطلاعات مکانی، قابل مقایسه با روزنامه‌های اختصاصی [ 22 ] باشد.

یک رویکرد رایج برای بهبود کیفیت کدگذاری جغرافیایی این است که به ژئوکدگذار اجازه می‌دهیم تا در نام مکان‌ها مطابقت‌های نادرست ایجاد کند، و بر مشکلاتی مانند یک خطای تایپی که در غیر این صورت جستجو را خراب می‌کند، غلبه کند. لیائو و وانگ [ 23 ] این کار را برای داده‌های دپارتمان در چین با استفاده از الگوریتم فیلتر BPM-BM، که به‌ویژه برای چینی‌ها به خوبی شکل گرفته است، انجام دادند و به دقت 94.2 درصد بالاتر از یک جستجوی ساده مبتنی بر SQL دست یافتند. الگوریتم Intiendo از تطبیق بر اساس فاصله ویرایش (Levenshtein) [ 24 ] استفاده می کند، همانطور که Lan و Longley هنگام کدگذاری جغرافیایی آدرس های سرشماری تاریخی بریتانیا [ 25 ] استفاده کردند. بسته تطبیق فازی مبتنی بر فاصله ویرایشی برای کدگذاری جغرافیایی آدرس‌های تاریخی در اسکاتلند از سال 1855 تا 1974 استفاده شد [ 26 ]].

یک رویکرد ساده تر از تطبیق فازی، استفاده از جایگزینی رشته در موارد خطای مکرر انتخاب شده است [ 27 ]. هنگامی که نیاز به تغییر اسکریپت است، روش‌های درگیرتری مورد نیاز است (مورد مورد مطالعه در اینجا) زیرا نویسه‌گردانی‌های احتمالی زیادی وجود دارد. یک سیستم رونویسی از عربی به انگلیسی با استفاده از یک شبکه عصبی همراه با یک سیستم مبتنی بر دانش برای صدادار کردن خط عربی صامت و سپس فیلتر کردن انواع رونویسی نامحتمل ایجاد شد [ 28 ].

برخی از مطالعاتی که خدمات کدگذاری جغرافیایی آنلاین را بررسی می‌کنند، فراتر از ارزیابی خدمات هستند و سعی می‌کنند استراتژی‌های پیش یا پس از پردازش را برای افزایش دقت و در عین حال حداقل نگه داشتن تعداد پرس‌و‌جوها به حداقل برسانند [ 29 ]. Ahlers و Boll [ 30 ] APIهای گوگل و یاهو را که بر اساس روزنامه‌های اختصاصی متفاوتی هستند، تجزیه و تحلیل کردند و یک روش اصلاحی برای جمع‌آوری نتیجه‌شان ارائه کردند. کریمی، شاکر و رونگ پیبونسوپیت [ 31 ] یک الگوریتم توصیه‌کننده ژئوکدینگ ارائه کردند که می‌تواند خدمات کدگذاری جغرافیایی آنلاین بهینه را با توجه به نوع نام مکان جستجو شده و دقت آنها توصیه کند. هدف دیگر رویکردها استفاده از بعد فضایی مسئله است. پینگ و یونگ [ 32] از یک هستی شناسی نام مکان برای ذخیره داده های روزنامه استفاده می کند که همچنین به ژئوکدگذار اجازه می دهد تا داده های پیچیده تری مانند فواصل، توپولوژی ها و ردپای هندسی را در نظر بگیرد. Coetzee و Rademeyer [ 24 ] روشی را برای تطبیق نتیجه ژئوکدینگ خام از طریق مجاورت فضایی آن با نتیجه مناسب تر ارائه کردند.

هدف این مقاله ارائه و آزمایش یک روش جدید کدگذاری جغرافیایی است که به منظور کدگذاری جغرافیایی پایگاه داده مهاجران بر اساس محل تولد آنها ابداع شده است. این روش ما را قادر می‌سازد تا مجموعه داده‌های مهاجرتی سیستم اطلاعات خارجی پر سر و صدا را با دقت و کاملی بیش از خدمات مرسوم، جغرافیایی کنیم. هدف این مقاله بررسی این موضوع با استفاده از نویسه‌گردانی مبتنی بر قاعده و کدگذاری جغرافیایی دسته‌ای محلی است. روش بر اساس دو معیار کامل بودن و صحت آزمایش و ارزیابی شد. نتایج منتخب پایگاه داده جغرافیایی کد شده مهاجران در این مطالعه ارائه شده است. سودمندی روش بر روی چندین مثال انتخاب شده از داده های داده شده نشان داده شده است، و این ما را قادر می سازد تا شاهد توسعه جریان های مهاجرت در طول زمان باشیم.

مجموعه داده منبع و روش توسعه‌یافته در بخش 2 توضیح داده شده است، سپس نتایج محاسبات و ارزیابی دقت آنها در بخش 3.1 شرح داده شده است. نتایج جغرافیایی کدگذاری شده در نقشه ها ارائه شده و به طور خلاصه در قسمت 3.2 توضیح داده شده است. بخش 4 شامل بحث در مورد استفاده بالقوه و کاستی های مجموعه داده به دست آمده است. نتیجه گیری در قسمت 5 آورده شده است.

2. مواد و روشها

2.1. داده ها

ما یک پایگاه داده منحصربفرد را در اختیار داشتیم و پردازش کردیم که از سیستم اطلاعات خارجیان (Cizinecký informační system-CIS) که توسط اداره کل پلیس بیگانگان جمهوری چک مدیریت می شود، مشتق شده بود. این اداره اطلاعات مربوط به خارجی‌های ثبت‌شده در قلمرو چک، از 10 کشور منتخب را در اختیار ما قرار داد که در دسته‌های سالانه دوره‌ای از 2008 تا 2017 طبقه‌بندی شده‌اند. نگران. آنها حاوی فیلدهای زیر هستند:

نوع اجازه اقامت درخواستی – موقت یا دائم. در حالی که مورد اول عمدتاً با اقامت در چک بر اساس ویزای طولانی مدت، اجازه اقامت طولانی مدت، یا (در مورد شهروندان اتحادیه اروپا) وضعیت حمایت موقت است، دومی عمدتاً مجوزهای اقامت دائم و وضعیت های حمایت بین المللی را در نظر می گیرد. در درجه اول پناهندگی و حفاظت فرعی). با توجه به ماهیت حاشیه ای دسته دوم در چک، داده ها عمدتاً تصویری کلی از مهاجرت کاری و خانوادگی مستند به این کشور، هم از اتباع کشورهای ثالث و هم شهروندان اتحادیه اروپا به ارمغان می آورد.
تابعیت، سال تولد و جنسیت.
محل و کشور تولد، هر دو در متن آزاد. این شامل اطلاعات ضروری برای ژئوکدگذاری رکورد است.
کشور محل اقامت قبلی اگر مهاجر قبل از آمدن به چک به خارج از کشور مهاجرت کرده باشد، اغلب با کشور محل تولد مطابقت نداشت.
وضعیت تصمیم درخواست: اعطا شده، رد شده، در حال انتظار است، یا موارد دیگر. برای تجزیه و تحلیل خود، ما فقط برنامه های اعطایی را فیلتر کردیم.

جدای از مکان و کشور تولد، ویژگی ها به اندازه کافی مشخص نیستند تا بتوانند از طریق ترکیب ویژگی ها، به افراد مرتبط با یکدیگر را فعال کنند، همانطور که توسط مقررات عمومی حفاظت از داده اتحادیه اروپا الزامی است. مجموعه داده، به جز یک نمونه تصادفی کاملاً ناشناس از رشته‌های محل تولد که به سرویس کدگذاری جغرافیایی خارجی همانطور که در بخش 3.1 توضیح داده شده است، با اشخاص ثالث به اشتراک گذاشته نشد تا حریم خصوصی داده‌ها بیشتر شود.

داده ها از فرم های درخواستی است که مستقیماً توسط متقاضیان مهاجرت پر شده است، یا به صورت الکترونیکی در قالب های ارائه شده در وب سایت وزارت کشور، یا به صورت کاغذی در دفاتر مربوطه وزارت امور پناهندگی و سیاست مهاجرت وزارت کشور. جمهوری چک فرم ها برای شهروندان اتحادیه اروپا [ 33 ] و شهروندان غیر اتحادیه اروپا [ 34 ] متفاوت است]. درخواست ها باید ارسال شوند و تمام داده ها همراه با درخواست اجازه اقامت یا تمدید آن ارائه شوند. در مورد شهروندان غیر اتحادیه اروپا، داده های درخواست ویزای مهاجر، همانطور که به سفارت یا دفتر کنسولی چک ارسال می شود، اغلب دوباره استفاده می شود. مسئولان قرار است قبل از پذیرش فرم ها و داده ها را بررسی کنند و از متقاضی بخواهند تا آنها را بهبود بخشد، اما در واقع به ندرت این کار را انجام می دهند، مگر اینکه از خط لاتین استفاده شود. آنها به ویژه تمایل دارند به داده های درخواست های ویزا احترام بگذارند.

دستورالعمل های مربوط به پر کردن فرم به وضوح تصریح می کند که “پاسخ های این فرم درخواست باید با حروف اصلی به زبان چک تایپ یا نوشته شوند” [ 34 ]. هیچ دستورالعملی در مورد املا یا نویسه‌گردانی نام مکان (به ویژه از سیریلیک که بسیار متداول است) ارائه نشده است، همچنین مشخصات سطح اداری که باید به عنوان محل تولد ذکر شود (محل، شهرداری، منطقه یا ترکیب آنها) ارائه نشده است. این، همراه با رویکرد نسبتاً سست (و حتی گاهی اوقات سواد جغرافیایی محدود) مهاجران و مقامات، به کیفیت پایین داده‌های CIS کمک می‌کند. این یک دور باطل ایجاد می کند که در آن پلیس بیگانه از اطلاعات موجود استفاده نمی کند و بدون استفاده از داده ها، هیچ انگیزه ای برای بهبود کیفیت آن وجود ندارد.

مسائل فوق عمدتاً بر داده های محل تولد تأثیر می گذارد. آنها از مسائل متعددی رنج می برند که کدگذاری جغرافیایی آنها را دشوار می کند.

هنگامی که زبان مبدأ از الفبای لاتین استفاده نمی کند، رونویسی اغلب ناقص است:

○ رونویسی به زبان چکی و انگلیسی هم در بین کلمات و هم در کلمات جداگانه مخلوط می شود.

○ گاهی اوقات، از رونویسی بنویسید که می شنوید، با مقدار ناچیز خطا استفاده می شود.

○ وقتی از رونویسی چک استفاده می‌شود، علامت‌های دیاکریتیک اغلب حذف می‌شوند.

○ این موضوع با این واقعیت تشدید می‌شود که روزنامه‌ای که برای کدگذاری جغرافیایی استفاده می‌شود نیز ممکن است حاوی همه رونویسی‌های صحیح نباشد.

نام های مستعار در چک، انگلیسی و از زبان مبدأ متداول است. ژئوکدگذاری نام های مستعار دشوار است زیرا معمولاً هیچ روش سیستماتیکی برای استخراج آنها از نام های متداول وجود ندارد. آنها باید در روزنامه نیز حضور داشته باشند. موضوع مشابهی با استفاده از نام مکان های تاریخی (مثلاً نام شهرهای دوران شوروی در اوکراین) ارائه می شود.
اشتباهات تایپی در تعداد قابل توجهی از موارد وجود دارد.
کشور مشخص شده و نام محل تولد مطابقت ندارند (به عنوان مثال، کشور به عنوان چک داده شده است اما نام مکان مسکو است).
نام مکان های سطوح سلسله مراتبی مختلف مخلوط شده اند. این بیشتر در نام‌های محلی اوکراینی و ایالات متحده اتفاق می‌افتد، جایی که گاهی از یک نام مکان خاص استفاده می‌شود، گاهی اوقات فقط نام بخش اداری (ایالت ایالات متحده یا استان اوکراین)، و گاهی اوقات آنها با هم بدون ترتیب خاصی استفاده می‌شوند.

این به این معنی است که یک مکان واحد معمولاً با استفاده از چندین نام مکان مشخص می شود. به عنوان مثال، برای شهر وینیچا اوکراین، ما 30 نوع را شمردیم: وینیکا، وینیسیا، وینیچا، وینیتسا، وینچجا، وینیکا، وینیتس، وینیسیا، وینیچا، وینیسیا، وینیکا، وینیتسا، وینیتسیا، وینیتسیا، وینینسیا، وینینسیا ، Vinnycka، Vinnycya، Vinnytsa، Vinnytsia، Vinnytsja، Vinnytsya، Vinycya، Vynnycja، Vinyca، Vinycja، Vinycla و Vinita . (دو نوع آخر – تاکید شده – از نظر آوایی مطابقت ندارند و بنابراین به احتمال زیاد یک اشتباه تایپی هستند.)

با این وجود، علیرغم محدودیت های آنها، ارزش بالقوه داده های ارائه شده قابل توجه است. با این حال، زمانی که ما سعی کردیم داده ها را با استفاده از ابزارهای استاندارد مانند خدمات کدگذاری آنلاین برخط جغرافیایی کنیم، نتوانستیم به سطوح قابل قبولی از کامل بودن و دقت دست یابیم. بنابراین، ما سعی کردیم یک روش کدگذاری جغرافیایی سفارشی ابداع کنیم که به مسائل مربوط به داده های معیوب مانند ما رسیدگی کند.

ما داده‌های مربوط به تمام مراحل منعقد شده در مورد اقامت دائم یا موقت اعطایی بین سال‌های 2008 و 2017 برای شهروندان هشت کشور مبدا مهاجرت به چک را مورد تجزیه و تحلیل قرار دادیم: اوکراین، ویتنام، روسیه، لهستان، ایالات متحده آمریکا، مولداوی، بلاروس و گرجستان. . به جز گرجستان، همه این کشورها منابع مهم مهاجرت برای چک هستند [ 35 ]. گرجستان به منظور گسترش تنوع زبان ها و سیستم های نوشتاری گنجانده شد.

مجموعه داده تقریباً 500000 رکورد داشت. برخی از سوابق ناقص بودند، و بنابراین هنگام مرتب سازی اطلاعات ما توسط پلیس بیگانه حذف شدند. به همین دلیل، مجموعه داده ما دقیقاً با منابع داده در دسترس عموم مطابقت ندارد، به عنوان مثال، ارقام کل دقیقاً مطابقت ندارند [ 36 ].

2.2. مواد و روش ها

برای اهداف این مطالعه، از آنجایی که ما عمدتاً با مقدار کمی از زبان‌های مبدأ و بسیاری از مسائل خاص منبع سروکار داشتیم، تصمیم گرفتیم از یک سیستم مبتنی بر دانش متشکل از قوانین رونویسی ابداع شده سفارشی و متناسب با ترکیب آنها استفاده کنیم.

اول، ما مجموعه ای از قوانین رونویسی را به رشته محل تولد با حروف کوچک به منظور تولید یک یا چند نوع رونویسی اعمال می کنیم. برخلاف برخی رویکردها [ 11 ]، ما رشته پیوندی را گسترش می‌دهیم، نه برچسب‌های gazetteer. سپس، ما به طور متوالی از هر یک از انواع رونویسی شده در برابر روزنامه (با استفاده از تطبیق فازی) پرس و جو می کنیم تا زمانی که یکی از آنها مطابقت ایجاد کند. اگر چندین تطابق وجود داشته باشد، با استفاده از یک تابع هدف که شباهت رشته و اهمیت مکان را ترکیب می کند، از بین آنها انتخاب می کنیم. در ادامه هر یک از این مراحل با جزئیات بیشتر توضیح داده شده است.

کد برای انجام geocoding در پایتون به عنوان مجموعه‌ای از اسکریپت‌ها با استفاده از پایگاه داده PostgreSQL توسعه داده شد (به مواد تکمیلی مراجعه کنید ). این نرم‌افزار منبع باز از یک مخزن در https://github.com/simberaj/migration-geocode/ (در 1 مه 2021 قابل دسترسی است) [ 37 ] در دسترس است.

2.2.1. رونویسی

هر قانون رونویسی به عنوان یک عبارت منظم برای ارزیابی در برابر رشته منبع مشخص شد. سپس هر تطابق با یک یا چند نوع جایگزین می شود که همه آنها با جستجو در روزنامه GeoNames بررسی می شوند.

قوانین از منابع زیر استخراج شده است:

مطابقت بین املای آوایی چک (که اغلب در ورودی استفاده می شود) و املای استاندارد لاتین زبان کشور مورد بررسی قرار گرفت. در مورد کشورهایی که از سیستم های نوشتاری غیر لاتین استفاده می کنند، از رونویسی استاندارد انگلیسی که در روزنامه غالب است، استفاده شد. در بسیاری از موارد، این قواعد غیر متغیر ساده ای را ایجاد می کند که رشته ها را از یک املاء به دیگری تبدیل می کند.
در فرآیند توسعه موتور geocoding بر روی داده‌های ورودی، قوانین تجربی بیشتری را ابداع کردیم که دقت آن را در رونویسی‌های غیر استاندارد مکرر یا اشتباهات تایپی بهبود بخشید. این با استفاده از یک نمونه نگهدارنده، که از نمونه اعتبار سنجی متمایز بود، به دست آمد. نمونه به طور مکرر با استفاده از موتور جغرافیایی کدگذاری شد و اشتباهات و رکوردهای بی همتا با کمک جستجوهای اینترنتی آنلاین برای تولید قوانین جدید به صورت دستی بررسی شد. عملکرد این قوانین در تکرارهای زیر مورد آزمایش قرار گرفت. نمونه‌ای از قاعده‌ای که به این روش ابداع شده است، قاعده‌ای است که بین یک و دو «N» در زبان اوکراینی تبدیل می‌شود، همانطور که در شکل 1 نشان داده شده است.

قوانین به صورت سلسله مراتبی در مجموعه قوانینی که برای یک زبان خاص اعمال می شوند، گروه بندی می شوند تا رونویسی های مختلف، به عنوان مثال، اوکراینی و رومانیایی را در نظر بگیرند. مجموعه قوانین به نام مکان بر اساس کشور مشخص شده اختصاص داده می شود. جدول 1 مجموعه کامل قوانین مجارستانی را نشان می دهد. قوانین دیگر را می توان در پیکربندی موتور جغرافیایی در مخزن کد آن یافت.

قوانین بر روی نام مکان ورودی به ترتیب مشخص اعمال می شوند. نمونه ای از چنین کاربرد پیشرونده ای از قوانین از مجموعه قوانین اوکراینی برای یکی از اشکال Vinnycja در شکل 1 نشان داده شده است . همانطور که در بالا ذکر شد، حجم بالای داده، که با تعداد گونه های تولید شده بیشتر می شود، به این معنی است که ما نمی توانیم به راحتی از خدمات استاندارد ژئوکدینگ وب به دلیل افزایش هزینه یا سهمیه های تمام شده استفاده کنیم. در عوض، ما از یک باطن کدگذاری محلی سفارشی استفاده کردیم.

2.2.2. تطبیق روزنامه

باطن gazetteer در قالب یک پایگاه داده PostgreSQL با پسوند pg_trgm ساخته شد که تطبیق فازی را امکان پذیر می کند. این بدان معناست که حتی پس از رونویسی، رشته‌های نام مکان باید دقیقاً مطابقت نداشته باشند، اما باید به اندازه کافی مشابه باشند. به طور خاص، ماژول pg_trgm تطبیق سه ضلعی را انجام می دهد. کسری از سه دنباله حرف مشترک بین دو رشته را محاسبه می کند [ 38 ]. این رویکرد در برابر جایگزین رایج، تطبیق فاصله ویرایش (به عنوان مثال، در [add1]) انتخاب شد. در حالی که تطبیق فاصله ویرایش نتایج نسبتاً دقیقی ایجاد کرد، تقریباً یک مرتبه قدر کندتر بود.

برای یک مکان واحد، پایگاه داده GeoNames معمولاً شامل چندین نام جایگزین، مانند رونویسی‌های ملی مختلف، نام‌های متعارف و نام‌های تاریخی است. ما از همه اینها برای جستجو استفاده کردیم. نام‌های متعارف و تاریخی بسیار مفید هستند، زیرا اغلب در داده‌های منبع ما وجود دارند و هیچ راهی کلی برای رسیدن به آنها با استفاده از تطبیق فازی وجود ندارد.

2.2.3. انتخاب نتیجه

روش تطبیق فازی معمولاً چندین نتیجه را برای یک مکان واحد، مرتب‌شده بر اساس شباهت (کسری از سه‌گرام‌های مشترک بین عبارت جستجو و نتیجه) برمی‌گرداند. برای اینکه تصمیم بگیریم کدام نتیجه را انتخاب کنیم، از تابع هدف زیر استفاده می کنیم:

س+ورود به سیستمپ100

که در آن s شباهت سه گانه و است پجمعیت محل تطبیق است. این به مکان‌هایی با جمعیت بزرگ‌تر ترجیح می‌دهد (که عمدتاً فقط اثرات تساوی را دارد) که طبیعتاً بیشتر اتفاق می‌افتد تا از تخصیص مقادیر زیادی رکورد به مکان‌های کوچک‌تری که اتفاقاً نام مشترک دارند، جلوگیری شود. از همتای بزرگتر خود

انواع دیگری از ویژگی ها به جز مکان های پرجمعیت نیز در پایگاه داده GeoNames وجود دارد. ما با استفاده از کد ویژگی تک حرفی آنها را از هم متمایز می کنیم. به واحدهای اداری جمعیت ساختگی 100 نفر داده می شود تا به آنها نسبت به سکونتگاه های بسیار کوچکی که ممکن است نام واحد را به اشتراک بگذارند ترجیح دهند. انواع دیگر کمتر ارجحیت دارند و به ترتیب زیر به یک عدد جمعیت ساختگی نزدیک به صفر داده می شود: ساختمان ها، جاده ها، محلات، ویژگی های طبیعی و موارد دیگر.

سپس مختصات نقطه ای نتیجه با بالاترین مقدار تابع هدف به ژئوکد نام مکان برگردانده می شود.

2.2.4. مقایسه

ما نتایج خود را با نتایج خدمات کدگذاری جغرافیایی آنلاین Nominatim [ 39 ] و Geoapify [ 40 ] بر روی نمونه ای از پایگاه داده ورودی مقایسه کردیم تا عملکرد رویکرد خود را تقریباً اندازه گیری کنیم. Nominatim یک ژئوکدگذار منبع باز استاندارد صنعتی مبتنی بر OpenStreetMap است، در حالی که Geoapify به عنوان نمونه ای از خدمات ژئوکدینگ تجاری با سطح قیمت گذاری آزادانه در دسترس انتخاب شد.

3. نتایج

3.1. الگوریتم

عملکرد موتور geocoding ایجاد شده با استفاده از یک نمونه از 1000 ردیف که در صورت امکان با کمک جستجوی وب برچسب‌گذاری شده بودند، ارزیابی شد. 692 رکورد بی نظیر بود. نمونه با نمونه‌گیری تصادفی از کل مجموعه داده ورودی ایجاد شد، به طوری که نسبت نمونه‌های کشور تقریباً با نمونه‌های مجموعه داده کامل مطابقت داشت. نمونه برداری تعدادی ردیف تکراری تولید کرد. اینها به منظور حفظ تفاوت در اهمیت مکان های فردی در نمونه نگهداری شدند. از 1000 ردیف، 9 رشته قابل رمزگذاری جغرافیایی نبودند و اطلاعات مکانی معنی‌داری نداشتند.

ما همچنین موتور خود را با خدمات کدگذاری جغرافیایی آنلاین Nominatimand Geoapify با اجرای همان نمونه از طریق آن مقایسه کردیم.

از آنجایی که موتور ما نتایج نقطه ای را تولید می کند، آستانه مسافت 10 کیلومتر را انتخاب کردیم. نتیجه در این فاصله از مکان برچسب‌گذاری شده، مطابقت در نظر گرفته شد. این آستانه به منظور به حداقل رساندن مثبت کاذب و منفی کاذب به صورت دستی بررسی شد. خدمات Nominatim و Geoapify جعبه‌های مرزی را به همراه نقاط برمی‌گردانند. بنابراین، زمانی که مکان برچسب‌گذاری شده در جعبه مرزی قرار می‌گیرد، مطابقت در نظر گرفته می‌شود.

معیارهای دقت زیر با الهام از معیارهای پیوند دهنده موجودیت نامگذاری شده از [ 41 ] اندازه گیری شد:

دقت کدگذاری جغرافیایی: کسری از منطبقات صحیح از همه مکان‌های بازیابی شده،
یادآوری کدگذاری جغرافیایی: کسری از منطبقات صحیح از همه مکان‌های قابل کدگذاری جغرافیایی،
ژئوکدینگ امتیاز F: یک میانگین هارمونیک از دقت و یادآوری ژئوکدینگ، که به عنوان معیار کیفیت اولیه در نظر گرفته می شود.
دقت صفر: کسری از رکوردهای رمزگذاری نشده که واقعاً حاوی اطلاعات مکان نیستند،
nil recall: کسری از رکوردهایی که اطلاعات موقعیت مکانی را حمل نمی‌کنند که جغرافیایی کدگذاری نشده است (هرچه نتیجه کمتر باشد، این مجموعه بیشتر توسط مثبت کاذب “آلوده” می‌شود)
کامل بودن: کسری از رکوردهایی که یک مکان برای آنها بازیابی شده است (اگرچه این به معنای واقعی یک متریک دقت نیست، با این وجود معیار مهمی برای سودمندی نتیجه است).

انواع موتور ژئوکدینگ ما با قوانین رونویسی یا تطبیق فازی خاموش نیز به منظور نشان دادن اثر این اجزا مورد ارزیابی قرار گرفت. از جدول 2 ، مشخص است که هر دو مؤلفه به طور قابل توجهی راه حل را در تمام معیارهای اندازه گیری شده بهبود می بخشند. به نظر می‌رسد سهم قوانین رونویسی بیشتر از تطابق فازی است، که وقتی به تنهایی استفاده می‌شود، دقت جغرافیایی کدگذاری را در مقایسه با گونه‌ای که هر دو مؤلفه خاموش است کاهش می‌دهد (که در آن ژئوکدگذاری اساساً به پرس و جوی برابری کاهش می‌یابد. پایگاه داده GeoNames).

در مقایسه با ژئوکدگذار استاندارد صنعتی Nominatim، تنها پرس و جوی برابری خام پایگاه داده GeoNames در نمونه آزمایشی بدتر عمل کرد، در حالی که سایر گزینه ها بهبودی در دقت و کامل بودن داشتند. ژئوکدر Geoapify در مقایسه بدتر بود و به کیفیت برتر روزنامه GeoNames برای کشورهای مورد مطالعه اشاره کرد.

در روش اصلی (با استفاده از قوانین تطبیق فازی و رونویسی)، خطاهای کدگذاری جغرافیایی در حدود نیمی از موارد به دلیل رونویسی ناقص (رونویسی نام مکان به نام مکان دیگری) و در نیمی دیگر با نفوذ نام ایجاد می شود. یک نهاد دیگر (معمولاً یک واحد اداری بالاتر). اینها همچنین یکی از رایج‌ترین دلایلی است که موتور در کد ژئوکد کردن مکان، همراه با عدم تطابق بین نام مکان و کشور، و نام‌های مکان به شدت کوتاه شده است. فقط یک نام مکان از نمونه در روزنامه GeoNames وجود نداشت اما در منابع دیگر موجود است.

جدول 3ارقام را بر اساس کشورهای داده شده تجزیه می کند. در حالی که برای ژئوکددرهای Nominatim و Geoapify، کشورهایی که از خط لاتین استفاده می کنند بهتر از همتایان سیریلیک خود هستند، تفاوت ها با موتور ما ناچیز است. عملکرد بد موتور ما در نام‌های مکان ایالات متحده ناشی از تمایل آن به ترجیح مکان‌های کم‌تر جمعیت به قیمت نام‌های تقسیم‌بندی (ایالت) اداری است. تفاوت بین داده‌های روسی و اوکراینی عمدتاً ناشی از سهم بیشتر سکونتگاه‌های کوچک‌تر در میان سوابق اوکراین است، که روزنامه معمولاً حاوی نام‌های جایگزین زیادی نیست. برخی از سوابق نیز با چک به عنوان کشور مبدا وجود دارد. این مربوط به مواردی است که کشور با محل تولد مطابقت ندارد، همانطور که در بالا ذکر شد،قانون تابعیت ius sanguinis با این وجود باید برای اجازه اقامت درخواست می داد.

3.2. تجزیه و تحلیل مهاجرانی که به چک می آیند

ما بر محل تولد مهاجرانی تمرکز کردیم که قبلاً به چک مهاجرت کرده اند. نتایج ژئوکدینگ در چندین نقشه ارائه شده است که بر اساس کشور مبدا متمایز شده است. برای اهداف ارائه، داده‌ها در مناطق – یا به شبکه‌های معمولی (در مورد اوکراین و مولداوی، که تراکم کافی داده‌ها این اجازه را می‌دهد) یا به بخش‌های اداری (در کشورهای دیگر که ورودی کافی وجود ندارد) تجمیع شدند. رکوردهایی برای نشان دادن نتایج در یک شبکه با وضوح معنی‌دار؛ این مزیت دیگری برای پنهان کردن موارد مشکل‌ساز دارد که در آن نام واحد اداری به‌طور غیرقابل کشف در نام مکان گنجانده شده است، همانطور که در بخش 2.2 بحث شد.). از آنجایی که هدف اصلی این مقاله روشن کردن جنبه‌های روش‌شناختی و روش‌شناختی است، هنگام تفسیر نتایج تحلیل، خود را به یک توصیف ساده محدود می‌کنیم.

نقشه ایالات متحده آمریکا ( شکل 2 ) به ما می گوید که مهاجرانی که در سال های معین به چک می آیند عمدتاً در سواحل شرقی یا در بخش های مرکزی- شرقی ایالات متحده به دنیا آمده اند تا در غرب. اهمیت تجمعات بسیار شهری مانند نیویورک، فیلادلفیا، واشنگتن، شیکاگو در شرق، میامی در جنوب، و مناطق لس آنجلس و سانفرانسیسکو در غرب برجسته است. با این وجود، برخی از منابع دیگر مهاجرت به چک توسط مناطق روستایی بیشتر در لوئیزیانا، تگزاس، یا غرب میانه ارائه شده است. در مجموع، به نظر می رسد که هیچ خوشه بندی قابل توجهی از محل تولد مهاجران مشخص وجود ندارد، به ویژه با توجه به این واقعیت که داده ها حاوی مقدار زیادی خطا هستند، همانطور که در جدول 3 بیان شده است.

در مورد ویتنام (نگاه کنید به شکل 3 )، یک الگوی فضایی واضح به راحتی قابل تشخیص است. به طور قابل توجهی، این الگو تعداد بیشتری از مهاجران از ویتنام شمالی (بخش کمونیستی سابق کشور کنونی متحد) را نسبت به ویتنام جنوبی نشان می دهد. این مربوط به اولین موج مهاجرت دانشجویان و کارآموزان ویتنامی است که با برنامه کمک های بین المللی در میان کشورهای کمونیست بلوک شوروی طی دهه های 1970 و 1980 به چکسلواکی سابق آمدند. زادگاه اصلی مهاجران ویتنامی به چک مناطق شهری هانوی و هایفونگ به همراه تجمعات آنها و استان های شمالی اطراف آن، ها تین و کوانگ بین است.

از سوی دیگر، مولداوی یک مورد مخالف را نشان می دهد، که در آن یک الگوی فضایی همگن به وضوح قابل مشاهده است ( شکل 4 را ببینید ). در واقع، کل کشور – هم شهری (از جمله کیشینوف، بالتی، کاهول، دوناساری، و همچنین تیراسپول، در جمهوری دنیستر مولداوی) و مناطق روستایی در سراسر کشور- مهاجرانی را ایجاد می کنند که به سمت چک می روند. در مقایسه با اوکراین، مهاجران از مولداوی به چک بیشتر تمایل به درخواست اقامت موقت دارند ( شکل 5 )، و کسری از زنان به طور قابل توجهی کمتر است ( شکل 6)). این نشان دهنده تسلط مشاغل معمولی مردانه در بازار کار چک (عمدتاً در ساخت و ساز و صنعت) برای آن مهاجران است، اگرچه اخیراً مهاجرت زنان مولداوی (به دست آوردن شغل، به عنوان مثال، در خدمات، به عنوان مراقب) افزایش یافته است. یا پاک کننده ها و غیره).

افراد متولد در غرب اوکراین در میان مهاجران اوکراینی به چک غالب هستند ( شکل 4 را ببینید ). جدای از مزیت آشکار مجاورت فضایی، پیوندهای فرهنگی غیر قابل چشم پوشی وجود دارد، به عنوان مثال، در استان جنوب غربی، به عنوان مثال، برای ماوراء کارپات اوکراین، که بخشی از چکسلواکی سابق در طول دهه های 1920 و 1930 بود [ 42 ]. به عنوان نتیجه، پیوندهای قوی تاریخی، فرهنگی و روانی جریان خروجی فعلی به مقاصدی را همراهی می کند که زمانی در یک حالت مشترک قرار داشتند. اگرچه آنها اهمیت مهاجرتی کمتری نسبت به منطقه غربی دارند، برخی منابع فردی دیگر، عمدتاً گره های اداری و صنعتی مانند کیف، خارکف، دنیپرو، دونتسک و اودسا نیز قابل ذکر هستند.

کاهش تعداد اوکراینی‌ها و مولداوی‌ها در چک پس از بحران اقتصادی جهانی اتفاق افتاد که اقتصاد چک را نیز تحت تأثیر قرار داد (عمدتاً در سال‌های 2011-2013) و به طور همزمان فرصت‌های اقتصادی کمتری برای خارجی‌ها فراهم کرد و باعث اعمال محدودیت‌های بیشتری شد. سیاست مهاجرت (نگاه کنید به شکل 7 ). افزایش فعلی تقاضا برای نیروی کار خارجی هنوز (تا سال 2017) زیان های قبلی را جبران نکرده است.

برای مثال در [ 43 ، 44 ، 45 ، 46 ] اطلاعات بیشتر در مورد جنبه های مختلف مهاجرت و ادغام گروه های مهاجرتی مربوطه در چک را مشاهده کنید.

4. بحث

در حالی که روش ما قادر است با بسیاری از اشکالات ذکر شده در بخش 2.2 مقابله کند که به دلیل مهاجرانی که از کشورهایی با زبان‌ها، املا و سیستم‌های نوشتاری متفاوت می‌آیند، و در نتیجه یک مجموعه داده جامع مهاجرت چک ایجاد می‌شود، همچنان از مشکلات متعددی رنج می‌برد. که باید در تفسیر آن مورد توجه قرار گیرد.

در بسیاری از موارد، نام منطقه اداری بدون هیچ گونه جداکننده در نام مکان اصلی گنجانده شده است (به عنوان مثال، ” UzinBelocerkovsky”، جایی که ” Belocerkovsky” یک استان اوکراین را تعیین می کند). تقریباً غیرممکن است که این را فیلتر کنید، زیرا ممکن است به خوبی صفت خود نام مکان باشد. این اغلب منجر به این می شود که نام مکان به پایتخت منطقه اداری ژئوکد می شود، به گونه ای که گویی فقط قسمت منطقه اداری داده شده است. تطبیق با لیستی از کلمات کلیدی برای رایج ترین موارد می تواند مشکل را کاهش دهد.

کامل بودن مجموعه داده GeoNames به طور کلی برای این هدف رضایت بخش بود. با این حال، نتایج محکم‌تر و کامل‌تر، به‌ویژه در مناطق روستایی، می‌تواند با ادغام داده‌ها با منابع باز دیگر، مانند Wikipedia [ 21 ] یا OpenStreetMap [ 22 ] به دست آید.

در مقایسه با فاصله ویرایش، که برای تطبیق فازی [ 47 ] نیز استفاده می‌شود، سیستم تطبیق شباهت سه‌گانه‌ای که استفاده می‌شد با نام‌های کوتاه‌تر بدتر است. این امر با نام‌های مکان ویتنامی، که فضاها اغلب به اشتباه درج می‌شوند، مضر بود. از طرف دیگر، می تواند کلمات را به ترتیب معکوس مطابقت دهد، که برای داده های ویتنامی ما نیز رایج است.

عملکرد تطبیق سه گرام با جداول بسیار بزرگ، همانطور که مطابق با [ 46 ] است، کاهش می یابد. بنابراین، ما مجبور شدیم جستجوی فازی را بر اساس کشور محل تولد محدود کنیم. این محدودیت روند را به میزان قابل توجهی سرعت بخشید، اما در مواردی که کشور و محل تولد مورد نظر مطابقت نداشتند، مواردی را ایجاد کرد که احتمالاً به دلیل سوء تفاهم در ورودی داده ها بود. یک جایگزین می تواند استفاده از یک موتور جستجوی قدرتمندتر مانند Apache Lucene [ 5 ، 19 ] باشد. با توجه به منابع کافی، پس‌زمینه PostgreSQL می‌تواند با هر سرویس استاندارد جغرافیایی جایگزین شود. با این حال، تعداد بالای انواع تولید شده توسط موتور رونویسی به این معنی است که فرآیند احتمالاً از نظر محاسباتی بسیار سخت خواهد بود.

در تعداد قابل توجهی از موارد، تنها نام منطقه اداری در قسمت نام مکان ثبت شده است. هدف این بود که چنین مواردی را در مکان پایتخت منطقه ژئوکدگذاری کنیم تا حداقل حس تداعی ایجاد شود، و نه ایجاد سکونتگاه های جعلی که ناشی از استفاده از مرکز منطقه اداری باشد. متأسفانه، زیرا این ردیف ها اغلب نشان دهنده سکونتگاه های بسیار کوچکی هستند که نمی توان آنها را به طور دقیق نام برد. این شکاف درک شده شهری/روستایی جمعیت مهاجر را به نفع مهاجران شهری منحرف می کند. این موضوع به شدت ایالات متحده را تحت تأثیر قرار می دهد، جایی که گردش مهاجرت و ارتباط با سطح ایالت قوی است، اما اوکراین و تا حدی دیگر کشورهای مورد مطالعه را نیز تحت تأثیر قرار می دهد.

اشکال اصلی مفهوم روش، نیاز به ارائه قوانین رونویسی خاص داده است. در حالی که برخی از آنها ممکن است کار کنند، برای ورودی‌هایی که بر اساس زبان و/یا کشور طبقه‌بندی نشده‌اند، روش‌های عمومی‌تر و غیر پارامتریک‌تر مانند شبکه‌های عصبی ممکن است مناسب‌تر باشند [ 28 ]. یک موتور شبکه عصبی که به طور خاص بر پیوند نهادهای نامگذاری شده متمرکز شده است، مانند DeezyMatch [ 15 ]]، یک رقیب قوی خواهد بود. از سوی دیگر، قوانین رونویسی به ما این امکان را می دهد که خطاهای کدگذاری جغرافیایی را به صورت دقیق جبران کنیم، و همچنین فرآیند را کاملاً قابل تفسیر می کند، که در مورد موتورهای شبکه عصبی صدق نمی کند. این قوانین همچنین می‌توانند حداقل تا حدی به‌طور خودکار با استفاده از ثبات‌های واج‌شناختی تولید شوند و به زمان‌های راه‌اندازی قابل مقایسه با زمان‌های آموزش موتورهای شبکه عصبی دست یابند.

اگرچه جدول 1 و جدول 2 برخی از معیارهای دقت را نشان می دهند، اما مقایسه مستقیم آنها با ارقام گزارش شده توسط سایر محققان گمراه کننده خواهد بود، زیرا دقت نه تنها با روش کدگذاری جغرافیایی بلکه توسط داده ها و روزنامه استفاده شده نیز تعیین می شود. بنابراین، مقایسه عددی با سایر مطالعات انجام نشد. به طور بالقوه، مقایسه بهتری را می توان با استقرار یک نمونه سفارشی از موتور جستجوی OpenStreetMap Nominatim به صورت محلی و درهم آمیختن آن با قوانین رونویسی به دست آورد. با این حال، این یک کار بسیار پر زحمت است که به دلیل مشکلات فنی انجام نشد. علاوه بر این، خدمات کدگذاری جغرافیایی آنلاین بیشتری را می توان در مقایسه گنجاند.

بدون استفاده از روش ما، الگوهای فضایی نشان‌دهنده محل تولد افراد (در کشورهای منتخب منتخب) که به چک مهاجرت کرده‌اند، همچنان قابل مشاهده است. با این وجود، استفاده از روش ما به تصویر دقیق تری کمک کرد. مهمتر از همه، بدون تلاش ما برای بهبود دقت اطلاعات، این داده ها ممکن است هرگز استفاده نمی شد. با توجه به مسائل مهاجرت، اهمیت روش ما ممکن است پتانسیل بزرگی به ویژه در حل وظایف ظریف تر، مانند مطالعه شبکه های اجتماعی خانواده و/یا جامعه/محله در فرآیندهای مهاجرت (از طریق ارتباط بین مبدا و مقصد) داشته باشد.

استفاده از زادگاه مهاجران برای شناسایی فضایی آنها دارای محدودیت هایی است. این نشان دهنده نوع محیطی است که مهاجر در آن متولد شده است، اما نه مدت زمانی که او در آن مکان خاص گذرانده است، و نه چیزی در مورد سابقه مهاجرت او قبل از آمدن به چک نشان می دهد. با این حال، نتیجه هنوز یک پیشرفت آشکار نسبت به ارائه نتایج فقط در سطح ملی است.

5. نتیجه گیری ها

با استفاده از روش کدگذاری جغرافیایی، ما توانستیم مجموعه داده های مهاجرتی پر سر و صدا CIS را با کامل و دقت فراتر از خدمات مرسوم که با داده های کم نویز هماهنگ شده اند، جغرافیایی کنیم [ 19 ]. نتایج غیرژئوکد شده را می توان با خیال راحت دور انداخت، زیرا هیچ ارتباط فضایی قابل توجهی را نشان نمی دهد. مقایسه با geocoder آنلاین Geoapify نشان می دهد که موتور مزیت کلی دارد، به خصوص در کشورهایی که از خط لاتین استفاده نمی کنند.

نگرانی این بود که GeoNames ممکن است حاوی نام برخی از سکونتگاه های بسیار کوچک نباشد. این یک مسئله نبود بنابراین می‌توانیم نتیجه بگیریم که GeoNames منبع پربار نام‌های مکان برای کدگذاری جغرافیایی پر سر و صدا است که مطالعه قبلی را تأیید می‌کند [ 20 ].

ما چندین نمونه از مجموعه داده های داده شده را انتخاب کردیم که از طریق آنها سودمندی روش کدگذاری جغرافیایی خود را نشان دادیم. به طور خاص، ما به تصویری دقیق‌تر کمک کردیم که به ما در مورد مکان‌هایی که مهاجران به چک (در دوره زمانی معین) متولد شده‌اند، اطلاع داد. در ایالات متحده آمریکا، بخش‌های شرقی و مرکزی شرقی به همراه مناطق بزرگ شهری منابع اصلی هستند. در مورد ویتنام، بخش شمالی با چندین استان شمالی – از جمله هانوی و هایفونگ، همراه با همسایگی‌های آنها – بر آن تسلط داشت. در مولداوی الگوی فضایی در شدت بالا یکنواخت است و نرها بیشتر از ماده ها مهاجرت می کنند. مهاجرت اوکراینی ها به چک الگوی فضایی خاصی را ایجاد کرد که در آن عمدتاً مهاجرانی که در غرب کشور متولد شده اند (و زندگی می کنند) به ویژه اوکراین ماورای کارپات،

دیدگاه تحلیلی ما همچنین ما را قادر ساخت تا شاهد توسعه جریان های مهاجرتی مربوطه در طول زمان (بین سال های 2008 و 2017) باشیم که منعکس کننده تغییرات مهم در نرخ مهاجرت به دلیل بحران اقتصادی جهانی و پیامدهای آن در چک (فرصت های کاری کمتر برای خارجی ها و سیاست های محدودکننده تر). برای اطلاعات بیشتر در مورد مهاجرت و الگوهای مهاجرت در چک، [ 34 ، 48 ] را ببینید.

ما از مجموعه داده به دست آمده در چندین نمونه استفاده کردیم تا نشان دهیم که روش کدگذاری جغرافیایی کاربردهای بالقوه زیادی برای تحقیقات بیشتر دارد و ممکن است چندین سوال در محل پرسیده شود:

چرا از نظر زادگاه مهاجران، الگوهای فضایی مواجهه شده (یا عدم وجود آنها) به وجود آمده است؟
نقش شبکه های مهاجرت در شکل گیری آنها چیست؟
چه تفاوت هایی برای فرهنگ ها، سنین و جنسیت های مختلف محلی وجود دارد؟

از سوی دیگر، مجموعه داده همچنین می تواند برای تأیید کمی سؤالات و فرضیه های مشابه ناشی از تحقیقات کیفی مهاجرت مورد استفاده قرار گیرد.

خود این روش، اگرچه یک توسعه موقت برای مشکل در دست است، ممکن است برای رمزگذاری جغرافیایی داده‌ها از منابع پر سر و صدای مشابه، به‌ویژه در مواردی که ورودی دستی از افراد با قراردادهای املایی و نویسه‌گردانی متفاوت مواجه می‌شود، استفاده شود. از این رو، می توان تصور کرد که از روش ما نه تنها برای تعیین دقیق زادگاه مهاجران، بلکه به عنوان مثال، هنگام تعیین آخرین، معمول یا اقامت دائم مهاجران قبل از مهاجرت به یک کشور مقصد خاص، یا برعکس، پتانسیل ترجیحی آنها استفاده کنیم. مقاصد خارج از کشور، و غیره. به عنوان مثال، در طول همه‌گیری کووید-19، می‌توان از این روش برای استخراج خودکار مسیرهای مسافرتی استفاده کرد که در آن روش‌های ثبت پیچیده‌تر هنوز به کار گرفته نشده است. به خصوص اگر شرایط محدودیت سفرهای داخلی وضع شده باشد. یک مثال دیگر می‌تواند تصحیح خودکار و رمزگذاری جغرافیایی نام‌های مکان استخراج‌شده توسط رونویسی خودکار گفتار به متن شهادت‌های شفاهی باشد، که در آن نام مکان‌ها به زبانی دیگر توسط سیستم تنظیم‌شده برای زبان مورد استفاده برای بقیه شهادت ضبط می‌شود. کاربردهای بیشتر ممکن است برای پایگاه‌های اطلاعاتی در حوزه‌های امنیت دولتی، اقتصاد، امور اجتماعی، بهداشت، حمل‌ونقل یا علم باشد، زیرا ممکن است حاوی داده‌های پر سر و صدای مشابهی باشد، به عنوان مثال، نام افراد، سازمان‌ها یا مکان‌هایی که می‌توان با استفاده از این روش کد جغرافیایی کرد. . حتی می‌توان کاربرد موتور رونویسی را روی داده‌های غیرمکانی تصور کرد، هر جا که داده‌ها به صورت دستی توسط شخصی با استفاده از املایی متفاوت از زبانی که معمولاً استفاده می‌کنند، ثبت شود. یک مثال دیگر می‌تواند تصحیح خودکار و رمزگذاری جغرافیایی نام‌های مکان استخراج‌شده توسط رونویسی خودکار گفتار به متن شهادت‌های شفاهی باشد، که در آن نام مکان‌ها به زبانی دیگر توسط سیستم تنظیم‌شده برای زبان مورد استفاده برای بقیه شهادت ضبط می‌شود. کاربردهای بیشتر ممکن است برای پایگاه‌های اطلاعاتی در حوزه‌های امنیت دولتی، اقتصاد، امور اجتماعی، بهداشت، حمل‌ونقل یا علم باشد، زیرا ممکن است حاوی داده‌های پر سر و صدای مشابهی باشد، به عنوان مثال، نام افراد، سازمان‌ها یا مکان‌هایی که می‌توان با استفاده از این روش کد جغرافیایی کرد. . حتی می‌توان کاربرد موتور رونویسی را روی داده‌های غیرمکانی تصور کرد، هر جا که داده‌ها به صورت دستی توسط شخصی با استفاده از املایی متفاوت از زبانی که معمولاً استفاده می‌کنند، ثبت شود. یک مثال دیگر می‌تواند تصحیح خودکار و رمزگذاری جغرافیایی نام‌های مکان استخراج‌شده توسط رونویسی خودکار گفتار به متن شهادت‌های شفاهی باشد، که در آن نام مکان‌ها به زبانی دیگر توسط سیستم تنظیم‌شده برای زبان مورد استفاده برای بقیه شهادت ضبط می‌شود. کاربردهای بیشتر ممکن است برای پایگاه‌های اطلاعاتی در حوزه‌های امنیت دولتی، اقتصاد، امور اجتماعی، بهداشت، حمل‌ونقل یا علم باشد، زیرا ممکن است حاوی داده‌های پر سر و صدای مشابهی باشد، به عنوان مثال، نام افراد، سازمان‌ها یا مکان‌هایی که می‌توان با استفاده از این روش کد جغرافیایی کرد. . حتی می‌توان کاربرد موتور رونویسی را روی داده‌های غیرمکانی تصور کرد، هر جا که داده‌ها به صورت دستی توسط شخصی با استفاده از املایی متفاوت از زبانی که معمولاً استفاده می‌کنند، ثبت شود. جایی که نام مکان ها به زبانی دیگر توسط یک سیستم تنظیم شده برای زبان مورد استفاده برای بقیه شهادت ثبت می شود. کاربردهای بیشتر ممکن است برای پایگاه‌های اطلاعاتی در حوزه‌های امنیت دولتی، اقتصاد، امور اجتماعی، بهداشت، حمل‌ونقل یا علم باشد، زیرا ممکن است حاوی داده‌های پر سر و صدای مشابهی باشد، به عنوان مثال، نام افراد، سازمان‌ها یا مکان‌هایی که می‌توان با استفاده از این روش کد جغرافیایی کرد. . حتی می‌توان کاربرد موتور رونویسی را روی داده‌های غیرمکانی تصور کرد، هر جا که داده‌ها به صورت دستی توسط شخصی با استفاده از املایی متفاوت از زبانی که معمولاً استفاده می‌کنند، ثبت شود. جایی که نام مکان ها به زبانی دیگر توسط یک سیستم تنظیم شده برای زبان مورد استفاده برای بقیه شهادت ثبت می شود. کاربردهای بیشتر ممکن است برای پایگاه‌های اطلاعاتی در حوزه‌های امنیت دولتی، اقتصاد، امور اجتماعی، بهداشت، حمل‌ونقل یا علم باشد، زیرا ممکن است حاوی داده‌های پر سر و صدای مشابهی باشد، به عنوان مثال، نام افراد، سازمان‌ها یا مکان‌هایی که می‌توان با استفاده از این روش کد جغرافیایی کرد. . حتی می‌توان کاربرد موتور رونویسی را روی داده‌های غیرمکانی تصور کرد، هر جا که داده‌ها به صورت دستی توسط شخصی با استفاده از املایی متفاوت از زبانی که معمولاً استفاده می‌کنند، ثبت شود. به این ترتیب ممکن است داده‌های پر سر و صدای مشابهی نیز داشته باشد، به عنوان مثال، نام افراد، سازمان‌ها یا محل‌هایی که می‌توان با استفاده از این روش کدگذاری جغرافیایی کرد. حتی می‌توان کاربرد موتور رونویسی را روی داده‌های غیرمکانی تصور کرد، هر جا که داده‌ها به صورت دستی توسط شخصی با استفاده از املایی متفاوت از زبانی که معمولاً استفاده می‌کنند، ثبت شود. به این ترتیب ممکن است داده‌های پر سر و صدای مشابهی نیز داشته باشد، به عنوان مثال، نام افراد، سازمان‌ها یا محل‌هایی که می‌توان با استفاده از این روش کدگذاری جغرافیایی کرد. حتی می‌توان کاربرد موتور رونویسی را روی داده‌های غیرمکانی تصور کرد، هر جا که داده‌ها به صورت دستی توسط شخصی با استفاده از املایی متفاوت از زبانی که معمولاً استفاده می‌کنند، ثبت شود.

از آنجایی که راه حل به خدمات شخص ثالث یا نرم افزار تجاری متکی نیست و به راحتی بر روی سخت افزار کالا قابل استقرار است، راه حل هزینه کمتری نسبت به روش های مشابه دارد. به لطف اجرای متن باز آن، این روش می تواند به راحتی با زمینه های مختلف سازگار شود، که به ویژه با توجه به افزایش شدید محتوای تولید شده توسط کاربر مرتبط است [ 49 ]. موتور رونویسی یک رابط کاملاً مشخص دارد و بنابراین می‌تواند با یک باطن کدگذاری جغرافیایی متفاوت، مانند Nominatim یا موتورهای تجاری OpenStreetMap، در صورت فراهم کردن ظرفیت کافی، همراه شود.

در نهایت، بهبود داده‌ها نه تنها در استفاده از یک روش کدگذاری جغرافیایی جدید، بلکه در قرار دادن فرآیند فعلی ایجاد داده‌ها در تسکین شدید نهفته است. از کار ما مشخص است که اگر قرار است مهاجرت به چک به طور مؤثر مستند شود، مسئولان باید برنامه ها را به طور کامل بررسی کرده و بیشتر توضیح دهند. از طرف دیگر، متقاضیان باید تمایل بیشتری به همکاری داشته باشند و قوانین فرآیند (به ویژه در مورد پر کردن فرم) باید واضح تر و مشخص تر باشد. دیجیتالی شدن این فرآیند امکان استفاده از پیشنهاد خودکار مبتنی بر روزنامه را فراهم می کند، که می توان انتظار داشت که نرخ خطا را به میزان قابل توجهی کاهش دهد.

پس از وضعیت کنونی همه‌گیری، یک دوره جدید پس از همه‌گیری فرا خواهد رسید. با این وجود، دولت‌ها در سراسر جهان، از طریق سیاست‌ها و اقدامات خود، تلاش خواهند کرد تا خطر آسیب‌پذیری از سایر بیماری‌های همه‌گیر احتمالی را کاهش دهند. همچنین با محدود کردن نسبی ورود به قلمرو آنها، و از طریق نظارت و کنترل فشرده تر جابجایی های جمعیت، چه سفرهای کاری به خارج از کشور و چه از خارج، انجام خواهد شد. مهاجرت بین المللی کوتاه مدت، بلند مدت و دائمی؛ یا گردشگری برای این منظور پایگاه های اطلاعاتی جدیدی (بیشتر در سطح ملی یا سایر سطوح منطقه ای- سلسله مراتبی) با توجه به نحوه ثبت و ثبت بهتر حرکات و به ویژه مربوط به مکان های بازدید شده ایجاد خواهد شد (یا پایگاه های موجود به تازگی طراحی خواهند شد). جمعیت داخلی و همچنین خارجی ها. به طور متناقض، جهانی زدایی جزئی از جهان از قبل بسیار متنوع با نظارت و ضبط فضایی فشرده تر آن همراه خواهد بود. این فرصتی است که ابزار ما ممکن است با موفقیت در آن اعمال شود.

منابع

فاسمن، اچ. مهاجرت اروپایی: مروری تاریخی و مشکلات آماری. در آمار و واقعیت; مفاهیم و اندازه گیری های مهاجرت در اروپا ; Fassmann, H., Reeger, U., Sievers, W., Eds.; انتشارات دانشگاه: آمستردام، هلند، 2008; ص 21-43. [ Google Scholar ]
مک هیو، KE توضیح مقاصد مهاجرت و انتخاب مقصد. پروفسور Geogr. 1984 ، 36 ، 315-325. [ Google Scholar ] [ CrossRef ]
کنسرسیوم فضایی باز (OGC). مدل مرجع. نسخه 2.1. 2011. در دسترس آنلاین: https://www.opengis.net/doc/orm/2.1 (در 24 ژانویه 2021 قابل دسترسی است).
ساندرسون، ام. کوهلر، جی. تحلیل پرس و جوهای جغرافیایی. در مجموعه مقالات بیست و هفتمین کنفرانس بین المللی سالانه ACM SIGIR، شفیلد، انگلستان، 25 تا 29 ژوئیه 2004. صص 37-39. [ Google Scholar ]
والکاناس، جی. Gunopulos، D. استخراج موقعیت از شبکه های اجتماعی با نرم افزار کالا و داده های آنلاین. در مجموعه مقالات دوازدهمین کنفرانس بین المللی IEEE در کارگاه های آموزشی داده کاوی 2012، بروکسل، بلژیک، 10-13 دسامبر 2012. صص 827-834. [ Google Scholar ]
دنشم، آی. Reid, J. یک سرویس کدگذاری جغرافیایی شامل یک ابزار تجزیه و تحلیل جغرافیایی و یک سرویس روزنامه دیجیتال یکپارچه. در مجموعه مقالات کارگاه آموزشی HLT-NAACL 2003 در مورد تجزیه و تحلیل منابع جغرافیایی . انجمن زبانشناسی محاسباتی (ACL): Edmonton, AB, Canada, 2003; صص 79-80. [ Google Scholar ]
هاک، جی. وایات، دی. Coulton، P. چالش ها در geocoding داده های اجتماعی تولید شده. در مجموعه مقالات بیستمین کنفرانس سالانه GIS Research UK: جلد 1—Presentations ; Whyatt, D., Rowlingson, B., Eds. دانشگاه لنکستر: لنکستر، انگلستان، 2012; صص 39-45. [ Google Scholar ]
درچینسکی، ال. مینارد، دی. ریزو، جی. ون ارپ، ام. گورل، جی. ترونسی، آر. پتراک، جی. Bontcheva، K. تجزیه و تحلیل شناسایی موجودیت نامگذاری شده و پیوند دادن برای توییت ها. Inf. روند. مدیریت 2015 ، 51 ، 32-49. [ Google Scholar ] [ CrossRef ]
هیرشمن، ال. چینچور، N. MUC-7 coreference تعریف وظیفه. در مجموعه مقالات کنفرانس MUC-7، Fairfax، VA، ایالات متحده، 19 آوریل تا 1 مه 1997. [ Google Scholar ]
رائو، دی. مک نامی، پی. Dredze, M. Entity linking: یافتن موجودیت های استخراج شده در پایگاه دانش. در استخراج و خلاصه سازی اطلاعات چند منبعی، چند زبانه ؛ Springer: برلین/هایدلبرگ، آلمان، 2013; صص 93-115. [ Google Scholar ]
آمیتای، ای. هارئل، ن. سیوان، ر. Soffer، A. Web a where: برچسب گذاری جغرافیایی محتوای وب. در مجموعه مقالات بیست و هفتمین کنفرانس بین المللی سالانه ACM SIGIR در مورد تحقیق و توسعه در بازیابی اطلاعات ; ACM: نیویورک، نیویورک، ایالات متحده آمریکا، 2004; ص 273-280. [ Google Scholar ]
آردانوی، MC; اسپورلدر، سی. ابهام‌زدایی توپونی در اسناد تاریخی با استفاده از ویژگی‌های معنایی و جغرافیایی. در مجموعه مقالات دومین کنفرانس بین المللی دسترسی دیجیتالی به میراث فرهنگی متنی ; انجمن ماشین‌های محاسباتی (ACM): نیویورک، نیویورک، ایالات متحده آمریکا، 2017؛ صص 175-180. [ Google Scholar ]
براندو، سی. فرانتینی، اف. گاناسیا، جی.-جی. ابهام‌زدایی از موجودیت‌های نام‌گذاری شده در متون میراث فرهنگی با استفاده از مجموعه داده‌های پیوندی. در پیشرفت در خدمات گرا و رایانش ابری ؛ متزلر، جی بی، اد. Springer: Cham, Switzerland, 2015; ص 505-514. [ Google Scholar ]
کیم، جی. واسردانی، م. Winter, S. تطبیق شباهت برای یکپارچه سازی اطلاعات مکانی استخراج شده از توضیحات مکان. بین المللی جی. جئوگر. Inf. علمی 2016 ، 31 ، 56-80. [ Google Scholar ] [ CrossRef ]
آردانوی، MC; حسینی، ک. مک دونا، ک. کراوز، آ. ون استرین، دی. نانی، اف. رویکرد یادگیری عمیق برای انتخاب نامزد جغرافیایی از طریق تطبیق نام. در مجموعه مقالات بیست و هشتمین کنفرانس بین المللی پیشرفت در سیستم های اطلاعات جغرافیایی ; انجمن ماشین‌های محاسباتی (ACM): نیویورک، نیویورک، ایالات متحده آمریکا، 2020؛ صص 385-388. [ Google Scholar ]
لی، اچ. سریهاری، ر. نیو، سی. Li, W. InfoXtract نرمال سازی مکان: یک رویکرد ترکیبی به منابع جغرافیایی در استخراج اطلاعات. در مجموعه مقالات کارگاه آموزشی HLT-NAACL در مورد تجزیه و تحلیل منابع جغرافیایی، استرودزبورگ، PA، ایالات متحده آمریکا، 10-13 ژوئیه 2003. صص 39-44. [ Google Scholar ]
اورل، اس. Rüger, S. استفاده از مدل‌های همزمان برای ابهام‌زدایی نام مکان. بین المللی جی. جئوگر. Inf. علمی 2008 ، 22 ، 265-287. [ Google Scholar ] [ CrossRef ]
GeoNames. GeoNames. در دسترس به صورت آنلاین: https://geonames.org/ (در 28 فوریه 2019 قابل دسترسی است).
متمن، کالیفرنیا؛ شاران، ام. یک رویکرد خودکار برای کشف و کدگذاری مکان ها در داده های وب دامنه خاص (مقاله کاربردی). در مجموعه مقالات 2016 IEEE هفدهمین کنفرانس بین المللی استفاده مجدد و یکپارچه سازی اطلاعات (IRI)، پیتسبورگ، PA، ایالات متحده آمریکا، 28 تا 30 ژوئیه 2016؛ صص 87-93. [ Google Scholar ]
Ahlers, D. ارزیابی دقت داده‌های GeoNames gazetteer. Proc. پایتون با عملکرد بالا علمی محاسبه کنید. 2013 ، 74-81. [ Google Scholar ] [ CrossRef ]
Ahlers، D. کاربرد بازیابی اطلاعات جغرافیایی. Datenbank-Spektrum 2014 ، 14 ، 39-46. [ Google Scholar ] [ CrossRef ]
چاو، TE; دده بامفو، ن. Dahal، KR نابرابری جغرافیایی خطاهای موقعیت و نرخ تطبیق آدرس‌های مسکونی در میان راه‌حل‌های کدگذاری جغرافیایی. ان GIS 2015 ، 22 ، 29-42. [ Google Scholar ] [ CrossRef ]
لیائو، ی. وانگ، جی. روشی برای تطبیق داده‌های نام مکان چینی. در مجموعه مقالات ژئوانفورماتیک 2008 و کنفرانس مشترک GIS و محیط ساخته شده: مدل‌ها و تحلیل‌های داده‌های مکانی پیشرفته . انجمن بین المللی اپتیک و فوتونیک: واشنگتن، دی سی، ایالات متحده آمریکا، 2009; جلد 7146، ص. 71461. [ Google Scholar ]
کوتزی، اس. Rademeyer، M. تست تطابق مجاورت فضایی ابزار تطبیق آدرس Intiendo برای کدگذاری جغرافیایی آدرس‌ها با نام‌های حومه یا مکان گمراه‌کننده. در مجموعه مقالات بیست و چهارمین کنفرانس بین المللی کارتوگرافی، سانتیاگو، شیلی، 15 تا 21 نوامبر 2009. ص 10-18. [ Google Scholar ]
لان، تی. Longley, P. Lan Geo-Reference and Mapping آدرس های سرشماری 1901 برای انگلستان و ولز. ISPRS Int. J. Geo-Inf. 2019 ، 8 ، 320. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
داراس، ک. فنگ، ز. دیبن، سی. HAG-GIS: چارچوبی فضایی برای کدگذاری آدرس‌های تاریخی. در مجموعه مقالات بیست و سومین کنفرانس تحقیقات GIS انگلستان، لیدز، انگلستان، 15-17 آوریل 2015; صص 3-6. [ Google Scholar ]
سینگ، SK در حال ارزیابی دو ابزار رمزگذاری جغرافیایی رایگان در دسترس برای تناقضات جغرافیایی و خطاهای کدگذاری جغرافیایی. Geospat را باز کنید. نرم افزار داده ایستادن. 2017 ، 2 ، 11. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
اربابی، م. Fischthal, SM; چنگ، وی سی. بارت، ای. الگوریتم‌های آوانگاری نام عربی. IBM J. Res. توسعه دهنده 1994 ، 38 ، 183-194. [ Google Scholar ] [ CrossRef ]
Cui، Y. یک رویکرد سیستماتیک برای ارزیابی و اعتبارسنجی دقت فضایی مکان‌های بازار کشاورزان با استفاده از خدمات چند ژئوکدینگ. Appl. Geogr. 2013 ، 41 ، 87-95. [ Google Scholar ] [ CrossRef ]
اهلرز، دی. Boll, S. خزیدن با تمرکز جغرافیایی تطبیقی. در مجموعه مقالات هجدهمین کنفرانس ACM در مدیریت اطلاعات و دانش–CIKM ’09 ; ACM: نیویورک، نیویورک، ایالات متحده آمریکا، 2009; صص 445-454. [ Google Scholar ]
کریمی، ح. Sharker، MH; Roongpiboonsopit, D. Geocoding Recommender: الگوریتمی برای توصیه خدمات کدگذاری آنلاین بهینه برای برنامه ها. ترانس. GIS 2011 ، 15 ، 869-886. [ Google Scholar ] [ CrossRef ]
پینگ، دی. Yong, L. ساخت هستی شناسی نام مکان برای کمک به بازیابی اطلاعات جغرافیایی. در مجموعه مقالات فناوری و کاربردهای علوم کامپیوتر، IFCSTA’09، انجمن بین المللی، انجمن کامپیوتر IEEE، واشنگتن، دی سی، ایالات متحده آمریکا، 25-27 دسامبر 2009. جلد 3، ص 306-309. [ Google Scholar ]
MVČR. Formuláře a Žádosti. Praha: Odbor Azylové a Migrační Politiky, Ministrystvo Vnitra CR. در دسترس آنلاین: https://www.mvcr.cz/clanek/formulare-zadosti.aspx (در 28 دسامبر 2019 قابل دسترسی است).
MVČR. Některé Náležitosti Žádosti. Praha: Odbor Azylové a Migrační Politiky, Ministrystvo Vnitra CR. در دسترس آنلاین: https://www.mvcr.cz/clanek/obcane-tretich-zemi-nektere-nalezitosti-zadosti.aspx (در تاریخ 28 دسامبر 2019 قابل دسترسی است).
خارجی ها، مجموع بر اساس شهروندی در 31 دسامبر 2017. اداره خدمات پلیس خارجی، جمهوری چک. در دسترس آنلاین: https://www.czso.cz/documents/11292/27914491/1712_c01t01.pdf/ff9e9fee-08d3-4bdc-a11b-d0cc1e3ac184?version=1.0 (در 201 ژانویه در دسترس قرار گرفته است).
CZSO. خارجی ها: تعداد اتباع خارجی. در دسترس آنلاین: https://www.czso.cz/csu/cizinci/1-ciz_pocet_cizincu (در 28 دسامبر 2019 قابل دسترسی است).
شیمبرا، جی. رمزگذار نام مکان مبتنی بر پایتون برای داده های پر سر و صدا، رونویسی بد و اشتباه از پایگاه های ژئوداده مهاجرت. 2018. در دسترس آنلاین: https://github.com/simberaj/migration-geocode/ (در 28 دسامبر 2019 قابل دسترسی است).
کوروتکوف، آ. Zakirov، A. جستجوی زیر رشته فازی با پسوند pg_trgm. در دسترس آنلاین: https://dl.acm.org/citation.cfm?id=1463460 (در 15 نوامبر 2019 قابل دسترسی است).
خدمات کدگذاری جغرافیایی Nominatim: درباره و راهنما. در دسترس آنلاین: https://nominatim.openstreetmap.org/ui/about.html (در 2 آوریل 2021 قابل دسترسی است).
کدگذاری جغرافیایی Geoapify.com. در دسترس آنلاین: https://www.geoapify.com/ (در 1 فوریه 2021 قابل دسترسی است).
براندو، سی. فرانتینی، اف. گاناسیا، جی.-جی. REDEN: نهاد نام‌گذاری شده در نسخه‌های ادبی دیجیتال با استفاده از مجموعه داده‌های پیوندی پیوند می‌خورد. سیستم پیچیده Inf. مدل. Q. 2016 , 7 , 60-80. [ Google Scholar ] [ CrossRef ]
Halemba، A. از دریچه ملی نگاه نمی کنید؟ Rusyn-Transcarpathians به عنوان یک خودشناسی ملی در اوکراین معاصر. در Debatten um Polen und Polentum in Geschichte und Gegenwart، Polen: Kultur–Geschichte–Gesellschaft 1 ; بروکنر، ا.، ویرایش. Wallstein Verlag: گوتینگن، آلمان، 2015; صص 123-146. [ Google Scholar ]
شیمون، م. Křížková، I. Klsák، A. مهاجران در شهرهای بزرگ چک 2008-2015: تحلیل تغییر الگوهای مسکونی با استفاده از داده های شبکه جمعیت. Geografie 2020 , 125 , 343–374. [ Google Scholar ] [ CrossRef ]
ایگناتیوا، ای. سیکورا، ال. غریبه ها در میان خودشان: تعامل محلی، ادغام، و جداسازی مهاجران روسی در پراگ. Geografie 2019 ، 124 ، 341–364. [ Google Scholar ] [ CrossRef ]
Klvaňová، R. برادر دیگری. مهاجرت از بلاروس، روسیه و اوکراین به جمهوری چک ؛ سری انتشارات EDIS; دانشگاه ماساریک، انتشارات MUNI: برنو، جمهوری چک، 2017; 167p، جلد 16. [ Google Scholar ]
Freidengerová, T. Vietnamci v Česku a ve světě. Migrační a Adaptační Tendence. Praha، Sociologické Nakladatelství (SLON)، پراگ. 2014، ص. 232. موجود آنلاین: https://sreview.soc.cas.cz/artkey/csr-201604-0001_living-together-in-an-urban-neighbourhood-the-majority-and-vietnamese-immigrants-in-prague-libus php (در 1 مه 2021 قابل دسترسی است).
فرشته، ع. لونتو، سی. Pfoser، D.; افنتاکیس، الف. ژئوکدینگ کیفی صفحات وب پایدار. در مجموعه مقالات شانزدهمین کنفرانس بین المللی ACM SIGSPATIAL در مورد پیشرفت در سیستم های اطلاعات جغرافیایی – GIS ’08 ; ACM: نیویورک، نیویورک، ایالات متحده آمریکا، 2008; پ. 10. [ Google Scholar ]
دربوهلاو، د. مدوا، ال. Čermák، Z. جانسکا، ای. چرماکوا، دی. Dzúrová، D. Migrace a Migranti v Česku. Kdojsme، OdkudPřicházíme، KamJdeme؟ Sociologické nakladatelství (SLON): پراگ، جمهوری چک، 2010; پ. 184. [ Google Scholar ]
مک کنزی، جی. Slind، RT یک رویکرد مبتنی بر داده‌های کاربر برای افزایش پیش‌بینی مکان خدمات مالی در جنوب صحرای آفریقا. Appl. Geogr. 2019 ، 105 ، 25-36. [ Google Scholar ] [ CrossRef ] [ PubMed ]

شکل 1. رونویسی نام مکان نمونه با استفاده از سیستم توسعه یافته. قوانین رونویسی به ترتیب مشخص شده از چپ به راست اعمال می شود. فلش های سیاه و سفید نشان می دهد که کجا قانون خاص مطابقت دارد. اگر منجر به بسط های مختلف شود، فلش ها دوشاخه می شوند. انواع خروجی در سمت راست (پس از اعمال همه قوانین از مجموعه قوانین) از بالا به پایین امتحان می شوند تا زمانی که یکی از آنها – به رنگ قرمز – مطابقت با روزنامه را ایجاد کند. انواع تکراری از پایین لیست انواع حذف می شوند. منبع: تحقیق خودمان

شکل 2. محل تولد مهاجران بر اساس ایالت ها: کسانی که بین سال های 2008 تا 2017 از ایالات متحده آمریکا به چک مهاجرت کرده اند، شامل مجوزهای اقامت دائم و موقت. منبع: تحقیق خودمان

شکل 3. محل تولد مهاجران بر اساس استان ها – کسانی که بین سال های 2008 و 2017 از ویتنام به چک مهاجرت کرده اند، شامل مجوزهای اقامت دائم و موقت. منبع: تحقیق خودمان

شکل 4. توزیع فضایی مهاجران به چک از اوکراین و مولداوی بین سال های 2013 و 2017، شامل مجوزهای اقامت دائم و موقت. منبع: تحقیق خودمان

شکل 5. بخشی از درخواست های اقامت موقت در درخواست های مهاجر برای چک از اوکراین (بر اساس استان) و مولداوی (بر اساس منطقه). منبع: تحقیق خودمان

شکل 6. بخشی از مهاجران زن به چک از اوکراین (بر اساس استان) و مولداوی (بر اساس منطقه)، شامل مجوزهای اقامت دائم و موقت. منبع: تحقیق خودمان

شکل 7. تفاوت در تعداد مهاجران به چک از اوکراین (بر اساس استان) و مولداوی (بر اساس منطقه) در 2013-2017 در مقایسه با 2008-2012، شامل مجوزهای اقامت دائم و موقت. منبع: تحقیق خودمان

مقالات داخلی و بین المللی

بدون دیدگاه

دیدگاهتان را بنویسید لغو پاسخ

برای نوشتن دیدگاه باید وارد بشوید.

مشاورین هوش پیروزی

نام مکان‌های آزاد شکل جغرافیایی: نمونه‌ای از رمزگشایی پایگاه داده ملی مهاجرت چک

چکیده

کلید واژه ها:

1. مقدمه