سیستمی برای تراز کردن موجودات جغرافیایی از منابع بزرگ ناهمگن

توسط

آندره ملو

^1،*،

بتسام الرحمدی

¹و

جف زی پن

^1،2

مرکز تحقیقات ادینبورگ، تحقیق و توسعه فناوری هوآوی انگلستان، ادینبورگ EH3 8BL، انگلستان

موسسه زبان، شناخت و محاسبات، دانشکده انفورماتیک، دانشگاه ادینبورگ، ادینبورگ EH8 9AB، انگلستان

نویسنده ای که مسئول است باید ذکر شود.

ISPRS Int. J. Geo-Inf. 2022 , 11 (2), 96; https://doi.org/10.3390/ijgi11020096

دریافت: 18 دسامبر 2021/بازبینی شده: 20 ژانویه 2022/پذیرش: 25 ژانویه 2022/تاریخ انتشار: 28 ژانویه 2022

دانلود

ارقام را مرور کنید

نسخه ها یادداشت ها

چکیده

تراز کردن نقاط مورد علاقه (POI) از منابع داده های جغرافیایی ناهمگن یک کار مهم است که به گسترش داده های نقشه با اطلاعات مجموعه داده های مختلف کمک می کند. این وظیفه چندین چالش از جمله تفاوت در سلسله مراتب نوع، برچسب ها (فرمت های مختلف، زبان ها و سطوح جزئیات) و انحراف در مختصات را به همراه دارد. مقیاس پذیری یکی دیگر از مسائل مهم است، زیرا مجموعه داده های مقیاس جهانی ممکن است ده ها یا صدها میلیون موجودیت داشته باشند. در این مقاله، ما سیستم همترازی نهادهای جغرافیایی (GLEAN) را برای تطبیق کارآمد مجموعه داده‌های جغرافیایی بزرگ بر اساس پارتیشن بندی فضایی با حاشیه قابل تطبیق پیشنهاد می‌کنیم. به طور خاص، ما یک معیار تشابه متن را بر اساس ارتباط بافت محلی نشانه‌های مورد استفاده در ترکیب با جاسازی‌های جمله معرفی می‌کنیم. سپس به یک مدل تعبیه‌شده از نوع مقیاس‌پذیر می‌رسیم. در نهایت، ما نشان می‌دهیم که سیستم پیشنهادی ما می‌تواند به طور موثری هم‌ترازی مجموعه‌های داده بزرگ را مدیریت کند و در عین حال کیفیت هم‌ترازی‌ها را با استفاده از معیار تشابه موجودیت پیشنهادی بهبود بخشد.

کلید واژه ها:

سیستم های اطلاعات جغرافیایی ; یکپارچه سازی داده ها ؛ هم ترازی نهاد ; نقاط مورد علاقه ؛ تطبیق مبتنی بر ویژگی ها ; ناهمگن در مقیاس بزرگ

1. مقدمه

در سال‌های اخیر، تعداد زیادی از نقاط مورد علاقه (POI) در پایگاه‌های اطلاعاتی جغرافیایی گنجانده شده است [ 1 ]. شبکه های اجتماعی مانند فیس بوک میزبان صفحات بسیاری از مشاغل هستند و پست ها حاوی مجموعه ای از مشاغل هستند. شرکت های مسافرتی مانند تریپ ادوایزر میزبان مجموعه ای از جاذبه های گردشگری هستند. همه این POI ها با مکان های جغرافیایی خاصی مرتبط هستند. ارائه دهندگان خدمات نقشه (مانند Google Maps، Tomtom، Here Maps) مجموعه داده های خود را، اغلب با کمک جمع سپاری، گسترش و غنی می کنند (به عنوان مثال، ویژگی «افزودن مکان گمشده به Google Maps» گوگل ( https://support.google.com ‎/maps/answer/6320846(دسترسی در 10 دسامبر 2021)). با گسترش ویکی‌پدیا، تعداد مقالات مربوط به موجودات جغرافیایی که مختصات را جاسازی می‌کنند نیز افزایش می‌یابد. به طور مشابه، نمودارهای دانش (KGs) مانند Wikidata، DBpedia و YAGO نیز شامل تعداد فزاینده‌ای از موجودیت‌های جغرافیایی با مختصات هستند [ 2 ]. این KG ها همچنین حاوی اطلاعات تکمیلی هستند که ممکن است برای کاربردهای نقشه ها ارزشمند باشند.

تراز کردن نهادهای جغرافیایی از منابع مختلف به اطلاعات کامل تر در مورد یک نهاد جغرافیایی معین کمک می کند و با افزودن موجودیت های گمشده، مجموعه داده های موجود را به روز می کند. متأسفانه، تطبیق یک موجود جغرافیایی مشابه در مجموعه داده های منبع مختلف دشوار است زیرا هیچ شناسه جهانی وجود ندارد [ 3 ، 4 ].

یک چالش این است که مجموعه داده‌های جغرافیایی مختلف اغلب دارای ناسازگاری‌ها، افزونگی‌ها، ابهامات و تضادها هستند [ 5 ]، از جمله تفاوت در مجموعه ویژگی‌های موجودیت، قالب‌ها و مقادیر آن‌ها. اگرچه نهادهای جغرافیایی معمولاً دارای ویژگی‌هایی مانند برچسب ، دسته ( نوع )، آدرس و مختصات هستند.، این ویژگی ها می توانند در بین مجموعه داده ها تفاوت داشته باشند. به طور خاص، مختصات ممکن است سطوح مختلفی از دقت داشته باشند، آدرس‌ها را می‌توان در قالب‌های مختلف ذخیره کرد، برچسب‌ها می‌توانند به زبان‌های مختلف باشند و سطوح مشخصی متفاوتی داشته باشند، و ممکن است استفاده ناسازگاری از اختصارات و کلمات اختصاری وجود داشته باشد. به عنوان مثال، یک آدرس داده شده ممکن است ” 2 Semple St., Edinburgh, Midlothian, Scotland, UK ” در یک مجموعه داده و ” 2 Semple Street, Edinburgh, United Kingdom ” در دیگری باشد. یک برچسب ممکن است ” باغ وحش ادینبورگ ” یا به سادگی ” باغ وحش ” باشد، زیرا اطلاعات شهر ممکن است قبلاً در آدرس و مختصات ذخیره شده باشد. در این زمینه، نشانه « ادینبورگ” هنگام اندازه گیری شباهت برچسب ها مهم نیست. با این حال، هنگام اندازه گیری شباهت بین ” دوک ادینبورگ میخانه ” و ” دوک ولینگتون پاب “، همان نشانه بسیار مرتبط است.

یکی دیگر از منابع اصلی تضاد این واقعیت است که مجموعه داده های مختلف اغلب از دسته ها (انواع) متفاوتی از موجودیت های جغرافیایی استفاده می کنند. این انواع اغلب در سلسله مراتبی که می توانند بسیار متفاوت باشند، با درجات مختلفی از دانه بندی، ساختارهای سلسله مراتبی و نام انواع ساختار یافته اند. تطبیق سلسله مراتب نوع مجموعه داده های مختلف می تواند یک فرآیند چالش برانگیز باشد، به خصوص زمانی که برخی از سلسله مراتب ها بسیار بزرگ هستند. بازدارندگی دستی.

همه تفاوت های ذکر شده در بالا چالش های عمده ای را برای مشکل هم ترازی موجودیت جغرافیایی ایجاد می کند. به‌علاوه، مشکل هم‌ترازی موجودیت می‌تواند موارد استفاده آفلاین و آنلاین داشته باشد که چالش‌های بیشتری برای خود ایجاد می‌کند. در حالت آفلاین، دو مجموعه داده بزرگ باید در مقیاس جهانی با یکدیگر مطابقت داده شوند. یک مثال عملی خوب از چنین موردی زمانی است که یک ارائه‌دهنده خدمات مکان می‌خواهد مجموعه داده‌های POI خود را با ترکیب مجموعه داده‌ای که از یک ارائه‌دهنده نقشه خارجی به دست آمده است، گسترش دهد. در این راه‌اندازی، ممکن است بین دو مجموعه داده همپوشانی وجود داشته باشد و همه موجودیت‌های هر یک از مجموعه‌های داده قابل تطبیق نیستند. همچنین متداول است که مجموعه داده هایی که تراز می شوند ناهمگن هستند و دارای سطوح مختلف ناقصی هستند. برخی از تفاوت های اصلی بین مجموعه داده ها می تواند در سلسله مراتب نوع آنها، برچسب ها،

علاوه بر این، یافتن مسابقات در مقیاس جهانی می تواند چالش برانگیز باشد. در این سناریو، مجموعه داده‌ها ممکن است به راحتی ده‌ها یا صدها میلیون موجودیت داشته باشند، که منجر به چهار میلیارد جفت تطبیق احتمالی می‌شود. پارتیشن بندی فضایی یک راه مفید برای مقابله با این مشکل فراهم می کند، زیرا موجودیت ها را می توان از نظر جغرافیایی به پارتیشن هایی با اندازه های قابل مدیریت جدا کرد. با این حال، پارتیشن بندی فضایی با چالش هایی مواجه می شود، زیرا مختصات ممکن است وجود نداشته باشند یا دقیق نباشند، و جعبه های مرزی (bboxes) ممکن است در دسترس نباشند. بسته به نوع موجودیت، فاصله معمولی بین مختصات موجودیت های منطبق می تواند از چند متر (مثلاً رستوران ها) تا چند کیلومتر (مثلاً شهرها) متغیر باشد.

تراز نهادی نه تنها برای غنی سازی داده های آفلاین بلکه برای تطبیق آنلاین نیز مورد نیاز است. در این مورد، ما باید یک موجودیت جدید را با موجودیت های جغرافیایی موجود در یک مجموعه داده معین مطابقت دهیم. یک برنامه معمول برای این مورد استفاده، افزودن موجودیت‌های تولید شده توسط کاربر (مثلاً مالک کسب‌وکار) به مجموعه داده‌ها است، که در آن لازم است قبل از افزودن موجودیت جدید، بررسی شود که آیا موجودیت جدید قبلاً وجود دارد یا خیر، تا از تکراری شدن جلوگیری شود. یکی دیگر از برنامه‌های کاربردی جستجوی موجودیت‌های POI است که در آن کاربر ممکن است اطلاعاتی را ارائه کند که چهار ویژگی موجودیت جغرافیایی جستجو شده را پوشش می‌دهد. مورد دوم باید به POI های موجود در سرویس جستجو نگاشت شود تا بتواند درخواست کاربر را برآورده کند. در هر دو مورد، چالش‌های ایجاد شده توسط تفاوت‌های بین مقادیر ویژگی‌های تولید شده توسط کاربر و مجموعه‌ای از موجودیت‌های مورد جستجو مشابه چالش‌هایی است که از هم‌ترازی آفلاین مجموعه داده‌های جغرافیایی ناهمگن است. با این حال، تاخیر کم یک نیاز حیاتی در مورد آنلاین است، زیرا کاربران انتظار دارند نتایج در کسری از ثانیه برگردانده شوند.

در این مقاله، ما بر روی امتیازدهی تراز و اطمینان از مقیاس پذیری در مورد آفلاین تمرکز می کنیم. با این حال، همانطور که در بخش 5.3 مورد بحث قرار گرفت، این رویکرد همچنین می‌تواند برای پشتیبانی از پرونده آنلاین تطبیق داده شود . مشارکت های این مقاله به شرح زیر است.

ما یک سیستم هم‌ترازی جدید را طراحی کردیم که از ویژگی‌های اصلی موجودیت‌های جغرافیایی استفاده می‌کند: برچسب ، دسته (یا نوع )، آدرس و مختصات . GLEAN ابتدا معیارهای شباهت فردی را برای هر یک از ویژگی ها محاسبه می کند، سپس آنها را در یک معیار تشابه نهایی برای جفت موجودیت های بررسی شده ترکیب می کند. سپس این شباهت هم ترازی با یک آستانه برای تصمیم گیری در مورد تطابق مقایسه می شود.
ما استفاده از ارتباط بافت محلی نشانه ها را با رمزگذارهای جملات چند زبانه ترکیب کردیم تا شباهت مؤلفه برچسب را محاسبه کنیم.
ما از روش‌های جاسازی بدون نظارت و تنزل نوع برای امتیازدهی مولفه‌های نوع استفاده کردیم.
ما یک پارتیشن بندی حاشیه سازگار مقیاس پذیر در مجموعه داده های موجودیت های جغرافیایی در مقیاس بزرگ به منظور بهبود مقیاس پذیری سیستم تراز خود اعمال کردیم.
ما تأثیر مشارکت خود را در امتیاز شباهت هم‌ترازی و مقیاس‌پذیری رویکرد تطبیق آفلاین خود ارزیابی کردیم.

باقی مانده از مقاله به شرح زیر سازماندهی شده است. بخش 2 کارهای مرتبط را مورد بحث قرار می دهد. بخش 3 مسئله تحقیقی را که در این مقاله به دنبال حل آن هستیم، معرفی می کند. بخش 4 اجزای GLEAN را شرح می دهد. بخش 5 معماری کلی GLEAN را توصیف می کند که اجزای آن را در یک سیستم واحد جمع می کند. بخش 6 نتایج ارزیابی عملکرد را بر اساس اجرای فرسایش در رابطه با اجزای فردی پیشنهادی ما ارائه می‌کند. در نهایت، بخش 7 مشارکت های مقاله را جمع بندی می کند و آن را برای جهت گیری های تحقیقاتی آینده باز می کند.

2. کارهای مرتبط

آثار بسیار کمی در مورد همسویی نهادهای جغرافیایی از منابع ناهمگن وجود دارد. همانطور که توسط دنگ و همکاران توضیح داده شده است. [ 6 ]، مشکل هم ترازی موجودیت جغرافیایی به سه حوزه اصلی تقسیم شده است. حوزه اول بر ویژگی های هندسی یا مکانی داده ها تمرکز دارد [ 4 ]. ناحیه دوم ویژگی های توصیفی و سایر ویژگی های غیر مکانی را هدف قرار می دهد [ 7 ، 8 ]. ناحیه سوم، که این کار بخشی از آن است، هر دو چارچوب ویژگی فضایی و غیر مکانی را ترکیب می کند. در مورد ما، برچسب، آدرس و دسته (نوع) را به عنوان ویژگی های غیر مکانی و مختصات را به عنوان ویژگی های فضایی در نظر می گیریم.

صفرا و همکاران [ 9 ] یکی از اولین رویکردها را پیشنهاد کرد که روش‌های موجود را برای تطبیق فقط مکان برای ترکیب ویژگی‌های مکانی و غیرمکانی گسترش می‌دهد. شفلر و همکاران [ 3 ] از ویژگی‌های فضایی به‌عنوان یک فیلتر اساسی استفاده کرد و متعاقباً برچسب‌های موجودیت را برای مطابقت با POI از مجموعه داده‌های شبکه اجتماعی ترکیب کرد. مک کنزی و همکاران [ 10 ] از مدل‌های چند ویژگی وزن‌دار برای یافتن ترازهای موجودیت استفاده کرد: وزن‌ها با استفاده از رگرسیون لجستیک دو جمله‌ای تخصیص داده می‌شوند. لیو و همکاران [ 11 ] یک شباهت فضایی-متنی top-k را برای یافتن محتمل ترین جفت ترازهای نامزد پیشنهاد کرد. نواک و همکاران [ 12] یک نمودار با گره‌هایی که نشان‌دهنده POI هستند و یال‌هایی که هم‌ترازی‌های احتمالی را نشان می‌دهند، ایجاد کرد و استراتژی‌های تطبیق مبتنی بر نمودار را برای حل مشکل تطبیق تضاد داده‌های POI ابداع کرد. پورویس و همکاران رویکرد [ 13 ] با استفاده از ترکیب خطی از ویژگی‌های برچسب، نوع و مختصات از طریق آنتروپی اطلاعات، نمونه‌ها را مطابقت داد.

لو و همکاران [ 14 ] یک چارچوب کامل ترکیبی POI، از ارائه داده تا تأیید داده ها را پیشنهاد کرد. آنها همچنین از اطلاعات ویژگی های POI برای مطابقت با POI ها استفاده کردند. با این حال، این چارچوب ابتدا با نگاشت طبقه بندی انواع قبل از مقایسه POI آغاز شد. این با این فرض انجام می شود که طبقه بندی انواع از منابع داده های مختلف سازگار و بدون نویز هستند. علاوه بر این، اگرچه Low و همکاران. [ 14] ادعا کرد که در مقیاس بزرگ از چارچوب ترکیبی خود استفاده می کند، حداکثر مقیاس مجموعه داده استفاده شده از 12000 POI تجاوز نمی کند. محدودیت مقیاس پذیری عمدتاً به دلیل مداخله دستی متخصصان انسانی در مرحله تأیید است. در نهایت، این کار به مسائل مربوط به چند زبانه بودن برچسب ها یا ارتباط بافت محلی نشانه ها پرداخت.

همچنین تلاش هایی برای همسویی نهادهای جغرافیایی در جامعه داده های پیوندی صورت گرفته است. SLIPO [ 15 ] یک گردش کار یکپارچه سازی داده را پیشنهاد کرد، که شامل یک جزء ترکیبی بر اساس انطباق توابع شباهت خاص POI Fagi [ 16 ] است. این رویکرد بر داده‌های رابطه‌ای موجود متکی بود، اما جزئیاتی را در مورد تابع امتیازدهی هم‌ترازی ارائه نکرد و به چالش‌های خاص تراز کردن موجودیت‌های جغرافیایی از منابع داده ناهمگن اشاره نکرد.

یو و همکاران [ 17 ] هستی شناسی های مورد استفاده در زبان هستی شناسی وب 2 (OWL-2) ( https://www.w3.org/TR/owl2-overview/(در 10 دسامبر 2021 قابل دسترسی است)) و Description Logic (DL) برای ایجاد چارچوب ترکیبی داده های خود. هستی شناسی برای نمایش مجموعه داده های فضایی و هندسه ها و توپولوژی های مربوطه استفاده شد. DL برای اجرای قوانین خط مشی مورد استفاده قرار گرفت، که یا از داده ها و/یا اسناد پشتیبان استخراج شده بودند یا از کارشناسان آن منطقه تهیه شده بودند. یک مکانیسم استدلال پس از فیلتر کردن POI بر اساس پروکسی مکان و شباهت آدرس اعمال شد. مرحله استدلال هسته اصلی این چارچوب است و برای ساختن قوانین و ترتیب اجرای آنها به منابع زیادی تکیه کرده است. اگرچه این ترکیب خودکار داده ها را فراهم می کند، اما به شدت به انواع مختلف دانش به شرح زیر بستگی دارد. منشأ داده و پیش پردازش آن ایده ای در مورد صحت آن ارائه می دهد. قوانین کسب و کار نیازهای کاربر را از نظر طراحی پایگاه داده را در بر می گیرد. روش های آماری برای تصمیم گیری در مورد شباهت فضایی POI ها صرفا بر اساس مختصات آنها استفاده شد. قوانین اعتبار سنجی متنی از منابع اطلاعات مکانی (تصاویر ماهواره ای، نمای خیابان، و غیره) برای اعتبارسنجی اطلاعات POI استفاده می کنند. احتمال ترجیح ایده ای در مورد اینکه چقدر احتمال دارد که نتایج تولید شده نیازهای کاربران را برآورده کند، ارائه کرد. همه این دسته بندی قوانین به طور مستقل با استفاده از سه گانه مرتبط و ایجاد موارد جدید اجرا شد. این چارچوب همانطور که توضیح داده شد امیدوارکننده است، با این حال، روی هیچ مجموعه داده در مقیاس متوسط تا بزرگ آزمایش نشده است. علاوه بر این، یکی از انواع قوانین به در دسترس بودن اطلاعات مختصات برای انجام فیلترهای خاص متکی بود. قوانین اعتبار سنجی متنی از منابع اطلاعات مکانی (تصاویر ماهواره ای، نمای خیابان، و غیره) برای اعتبارسنجی اطلاعات POI استفاده می کنند. احتمال ترجیح ایده ای در مورد اینکه چقدر احتمال دارد که نتایج تولید شده نیازهای کاربران را برآورده کند، ارائه کرد. همه این دسته بندی قوانین به طور مستقل با استفاده از سه گانه مرتبط و ایجاد موارد جدید اجرا شد. این چارچوب همانطور که توضیح داده شد امیدوارکننده است، با این حال، روی هیچ مجموعه داده در مقیاس متوسط تا بزرگ آزمایش نشده است. علاوه بر این، یکی از انواع قوانین به در دسترس بودن اطلاعات مختصات برای انجام فیلترهای خاص متکی بود. قوانین اعتبار سنجی متنی از منابع اطلاعات مکانی (تصاویر ماهواره ای، نمای خیابان، و غیره) برای اعتبارسنجی اطلاعات POI استفاده می کنند. احتمال ترجیح ایده ای در مورد اینکه چقدر احتمال دارد که نتایج تولید شده نیازهای کاربران را برآورده کند، ارائه کرد. همه این دسته بندی قوانین به طور مستقل با استفاده از سه گانه مرتبط و ایجاد موارد جدید اجرا شد. این چارچوب همانطور که توضیح داده شد امیدوارکننده است، با این حال، روی هیچ مجموعه داده در مقیاس متوسط تا بزرگ آزمایش نشده است. علاوه بر این، یکی از انواع قوانین به در دسترس بودن اطلاعات مختصات برای انجام فیلترهای خاص متکی بود. همه این دسته بندی قوانین به طور مستقل با استفاده از سه گانه مرتبط و ایجاد موارد جدید اجرا شد. این چارچوب همانطور که توضیح داده شد امیدوارکننده است، با این حال، روی هیچ مجموعه داده در مقیاس متوسط تا بزرگ آزمایش نشده است. علاوه بر این، یکی از انواع قوانین به در دسترس بودن اطلاعات مختصات برای انجام فیلترهای خاص متکی بود. همه این دسته بندی قوانین به طور مستقل با استفاده از سه گانه مرتبط و ایجاد موارد جدید اجرا شد. این چارچوب همانطور که توضیح داده شد امیدوارکننده است، با این حال، روی هیچ مجموعه داده در مقیاس متوسط تا بزرگ آزمایش نشده است. علاوه بر این، یکی از انواع قوانین به در دسترس بودن اطلاعات مختصات برای انجام فیلترهای خاص متکی بود.

نهاری و همکاران [ 18 ] یک معیار تشابه برای تفکیک موجودیت فضایی بر اساس مدل دانه بندی داده ها پیشنهاد کرد. دانه بندی بر اساس تقسیمات اداری یا ویژگی های جغرافیای طبیعی بود. اندازه‌گیری تشابه و روش‌های مسدود کردن آنها بر روابط تقسیم اداری و ماهیت سلسله مراتبی مدل دانه‌بندی تکیه داشت. از سوی دیگر، رویکرد ما کاملاً مستقل از چنین ساختارهایی است و می‌تواند بر روی هر مجموعه داده اعمال شود، تا زمانی که شامل اجزای لازم (یعنی مختصات) باشد.

PlacERN [ 19 ] از یک رویکرد عصبی برای محاسبه شباهت بین یک جفت موجودیت جغرافیایی استفاده کرد که شامل همان چهار مؤلفه تحت پوشش در این مقاله بود. آنها از گسسته سازی استفاده کردند [ 20] فاصله بین یک جفت یا مختصات به عنوان جاسازی موقعیت جغرافیایی. برای رمزگذاری آدرس و برچسب، آنها از جاسازی کلمات و کاراکترهای جداگانه استفاده کردند. برای رمزگذاری دسته‌ها، آنها به سادگی از جاسازی‌های دسته‌بندی با مجموع جاسازی‌های کلمات که نام دسته را تشکیل می‌دهند، استفاده کردند. تمام تعبیه‌های رمزگذاری‌شده همه مؤلفه‌ها در نهایت با استفاده از یک ژنراتور به اصطلاح میل ترکیبی و به دنبال آن یک پرسپترون چند لایه، که امتیاز شباهت را به دست می‌دهد، ترکیب می‌شوند. در حالی که این رویکرد راه‌حل‌های جالبی را از نظر ترکیب اجزای مختلف با هم در یک معیار تشابه ارائه می‌دهد، به جفت‌های مشروح زیادی از موجودیت‌های منطبق و غیر منطبق برای آموزش مدل نیاز دارد. این یک محدودیت قوی در بسیاری از تنظیمات، از جمله تنظیمات ما است. از سوی دیگر، رویکرد ما می‌تواند با نظارت کم یا بدون نظارت، هم‌ترازی ایجاد کند. علاوه بر این، معیارهای برچسب و آدرس آنها، ارتباط محلی توکن‌ها را در نظر نمی‌گرفت، زیرا شبکه فقط فاصله جفتی بین موجودیت‌ها را به عنوان ورودی جغرافیایی در نظر گرفت. علاوه بر این، استفاده از جاسازی نام دسته به تنهایی برای شباهت نوع نمی تواند به اندازه کافی سلسله مراتب نوع بسیار ناهمگن را مدیریت کند، به ویژه در مواردی که دو سلسله مراتب دارای سطوح بسیار متفاوتی از دانه بندی هستند که نیاز به نگاشت های 1-N زیادی دارند.

سهگل و همکاران [ 21 ] روشی را برای حل و فصل نهادهای جغرافیایی پیشنهاد کرد که از ویژگی‌های برچسب، مختصات و نوع (اما بدون آدرس) استفاده می‌کرد. این ویژگی‌ها در یک معیار تشابه ترکیبی قرار گرفتند. رویکرد هر مؤلفه نسبتاً ساده است، با استفاده از: (1) شباهت‌های جاکارد و جارو-وینکلر برای برچسب، (2) فاصله معکوس برای مختصات، و (3) آمار در مورد همزمانی جفت‌های نوع در یک تمرین. داده برای نوع نمرات با یک طبقه بندی ترکیب شدند (لجستیک رگرسیون، پرسپترون رای، و SVM) که یک مقدار باینری تولید می کند که نشان می دهد موجودیت ها مطابقت دارند یا نه. یکی از محدودیت های این رویکرد این است که نیاز به وجود داده های آموزشی دارد که در بسیاری از موارد در دسترس نیستند و ساخت آن می تواند بسیار پرهزینه باشد.

اخیراً، ر. [ 6 ] رویکردی را پیشنهاد کرد که بر مؤلفه‌های مشخصه یکسانی متکی است، اما علاوه بر این از معیاری برای مؤلفه آدرس پشتیبانی می‌کند. به طور کلی، مؤلفه برچسب از فاصله ویرایش نرمال شده Levenshtein استفاده می کند. مولفه مختصات مشابه سهگل و همکاران بود. [ 21 ] اما از معکوس فاصله استفاده کرد که به یک تابع نمایی متصل شده بود تا اطمینان حاصل شود که در محدوده بین 0 و 1 قرار می گیرد. یک معیار تشابه بر اساس سطوح سلسله مراتبی گره های تطبیق ابداع شد. جزء آدرس شباهت کسینوس بین بردارهای TF-IDF هر آدرس را نشان می دهد.

کار اخیر دیگر [ 22 ] نیز بر همان چهار مؤلفه ویژگی [ 6 ] تکیه داشت. معیارهای شباهت اجزای برچسب، مختصات و آدرس مشابه هستند اما چند تفاوت وجود دارد. مؤلفه برچسب از برچسب گذاری نقش معنایی (SRL) برای فیلتر کردن نشانه های نامربوط قبل از محاسبه شباهت برچسب استفاده می کند. مانند [ 6 ]، مؤلفه مختصات نیز معیارهای ویژه ای برای اشیاء خط و ناحیه داشت. مؤلفه نوع نیز به نگاشت بین دو سلسله مراتب نوع متکی بود، اما امتیازها بر اساس حداقل تعداد مراحلی بود که هر دو سلسله مراتب را برای یافتن یک نگاشت طی می کردند. هرچه مراحل مورد نیاز بیشتر باشد، شباهت کمتری داشت. تفاوت مهم دیگر این است که [ 22] از محدودیت‌های تعیین چندگانه استفاده می‌کرد: اینها قوانینی بودند که در آن شرایط، ترکیب الزامات هستند. این الزامات به ارضای حداقل آستانه برای هر یک از اجزای ویژگی اشاره دارد.

شباهت اصلی بین رویکردهای مورد بحث در بالا و کار ما در این مقاله، استفاده از همان چهار مؤلفه ویژگی است. با این حال، هیچ یک از کارهای قبلی به مشکل بزرگ کردن فرآیند هم ترازی در مقیاس جهانی پرداختند. آنها سلسله مراتب نوع پیچیده را نیز در نظر نگرفتند، با همه رویکردها متکی بر نگاشت های دستی ساخته شده از قبل موجود. در رویکردمان، ما یک معیار تشابه برچسب پیچیده‌تر داریم که می‌تواند برچسب‌های مشابه را در زبان‌های مختلف شناسایی کند و از زمینه مرتبط محلی نشانه‌ها استفاده کند. برای اصلاح بیشتر نمرات تراز محاسبه شده قبلی، رویکرد ما همچنین از مجموعه ای از قوانین پس از پردازش در آخرین مرحله ترازسازی استفاده می کند. بخش پس پردازش از همان ایده رویکردهای تطبیق مبتنی بر ویژگی که قبلا ذکر شد پیروی می کند ([6 ، 22 ])، اما در معیارهای در نظر گرفته شده، شرایط تصمیم گیری آنها و ترکیبات نهایی متفاوت است.

به طور خلاصه، تمام این جنبه ها توسط آثار قبلی که در بالا مورد بحث قرار گرفت در نظر گرفته نشد. علاوه بر این، ما مشکل تطبیق موجودیت‌های ناقص (آدرس از دست رفته یا داده‌های مختصات) را بررسی می‌کنیم و از آمار نوع برای تنظیم امتیازهای مختصات به اندازه موجودیت‌ها استفاده می‌کنیم.

3. بیان مشکل

مشکل تحقیقی که در این مقاله به دنبال آن هستیم در این بخش معرفی شده است. اجازه دهید

E_{1}

E_{2}

مجموعه داده های دو نهاد جغرافیایی باشد.

E_{1}

E_{2}

در مقیاس بزرگ فرض می شوند: هر یک از آنها حداقل ده ها میلیون موجودیت دارد. هر موجود جغرافیایی

e_{i} \in E_{1}

e_{j} \in E_{2}

با ویژگی های زیر مشخص می شود. اول، ویژگی های برچسب

l_{i}

l_{j}

از نهادها

e_{i}

e_{j}

به ترتیب از یک نام و/یا مجموعه ای از نام مستعار ساخته می شوند. اینها می توانند به هر زبانی باشند. دوم، صفات نوع

t_{i}

t_{j}

از نهادها

e_{i}

e_{j}

به ترتیب، نام و سطح طبقه بندی را نشان می دهد که نهادهای مربوطه در آن قرار دارند

e_{i}

e_{j}

متعلق به در

E_{1}

E_{2}

سلسله مراتب نوع مربوطه

E_{1}

E_{2}

سلسله مراتب انواع ذکر شده است

T_{1}

T_{2}

، به ترتیب. سوم، صفات آدرس

a_{i}

a_{j}

حاوی اطلاعات آدرس کامل نهادها باشد

e_{i}

e_{j}

، به ترتیب، به عنوان یک سند متنی واحد. با این حال، بیشتر از

E_{1}

E_{2}

نهادها اطلاعات بیشتری در مورد مختصات خود دارند. ویژگی های مجموعه مختصات

c_{i}

c_{j}

از نهادها

e_{i}

e_{j}

به ترتیب از عرض و طول جغرافیایی ساخته می شوند. آنها ممکن است به صورت اختیاری شامل اطلاعات جعبه محدود شوند.

ما این را فرض می کنیم

E_{1}

E_{2}

ناهمگن هستند. این بدان معنی است که برای هر

e_{i} \in E_{1}

e_{j} \in E_{2}

$l_{i}$ و $l_{j}$ ممکن است ساختارهای متفاوتی داشته باشند (یعنی برچسب ها ممکن است به روش های مختلف نوشته شوند، به طور بالقوه شامل بخش های عمومی تر هستند، و قطعات ممکن است به طور متفاوتی مرتب شوند). $l_{i}$ و $l_{j}$ همچنین ممکن است به زبان های مختلف موجود باشد (گاهی اوقات، هیچ زبانی با هم تداخل دارند).
$T_{1}$ و $T_{2}$ ممکن است درجات مختلفی از دانه بندی، ساختارهای سلسله مراتبی و نام انواع داشته باشد.
$a_{i}$ و $a_{j}$ ممکن است فرمت های متفاوتی داشته باشد و با سطوح مختلف ناقصی همراه باشد. علاوه بر این، آنها ممکن است حاوی اطلاعات بیشتر/کمتر مرتبط باشند.
$c_{i}$ و $c_{j}$ ممکن است مقداری از یکدیگر دور باشند و یکی از آنها نیز ممکن است در دسترس نباشد. تعداد کمی از نهادهایی که دارند $c_{i}$ / $c_{j}$ موجود شامل اطلاعات جعبه مرزی است.

برای جمع بندی مشکل تحقیق خود، با توجه به دو نهاد

e_{i} \in E_{1}

e_{j} \in E_{2}

، ما قصد داریم بررسی کنیم که آیا آنها همان موجودیت جغرافیایی دنیای واقعی را نشان می دهند:

e_{i} \equiv e_{j}

. برای رسیدگی به این مشکل، نمرات شباهت فردی را استخراج می کنیم که از اطلاعات موجود در هر ویژگی استفاده می کند. سپس امتیازهای به دست آمده را در یک نمره هم ترازی وزنی ترکیب می کنیم که با یک آستانه مقایسه می شود تا تصمیم بگیریم که آیا

e_{i}

e_{j}

همخوانی داشتن. بخش 4 روش‌ها/مکانیسم‌های دقیق را برای استخراج امتیازات اجزای جداگانه ارائه می‌کند، در حالی که بخش 5 همه این مؤلفه‌ها را در سیستم یکپارچه GLEAN، که در سناریوی هم‌ترازی آفلاین اعمال می‌شود، جمع‌آوری می‌کند.

4. اجزای GLEAN

در این قسمت اجزای GLEAN را به تفصیل شرح می دهیم. ما ابتدا معیار مربوط به توکن بافت محلی را در بخش 4.1 ارائه می کنیم. این به این دلیل است که ما از این اندازه گیری هم در برچسب ها و هم در محاسبه شباهت های اجزاء استفاده می کنیم. سپس امتیاز کلی شباهت POI و نمرات ترکیب آن را در بخش 4.2 شرح می دهیم . در بخش 4.3 ، قوانین پس از پردازش مورد استفاده برای پالایش امتیازهای جفت لبه را مورد بحث قرار می دهیم.

4.1. ارتباط رمز زمینه محلی

در رویکرد هم‌ترازی ما، ارتباط بافت محلی هنگام محاسبه شباهت‌های برچسب بسیار مهم است، زیرا نشانه‌های مشابه ممکن است سطوح مختلفی از ارتباط را در زمینه‌های جغرافیایی مختلف داشته باشند. یک بافت جغرافیایی توسط یک منطقه جغرافیایی معین تعریف می شود و شامل موجودیت های موجود در منطقه می شود. این کار با در نظر گرفتن الحاق ویژگی های متنی موجودیت در نظر گرفته شده (مثلاً برچسب/نام مستعار یا آدرس) به عنوان یک سند واحد انجام می شود.

d \in D

، که در آن D مجموعه ای از اسناد (موجودات) موجود در یک زمینه جغرافیایی است.

سپس ارتباط محلی یک نشانه را به عنوان فرکانس سند معکوس آن (IDF) در زمینه محلی همانطور که در معادله ( 1 ) تعریف شده است، تعریف می کنیم.

IDF (t, D) = log (| D | | d \in D : t \in d |)

(1)

سپس می توان از این مقادیر مربوط محلی برای محاسبه شباهت بین ویژگی های متن استفاده کرد. در رویکرد خود، ما دو معیار مرتبط محلی را اتخاذ می‌کنیم: (1) شباهت محلی جاکارد با وزن IDF (LIDFJ) (معادله ( 2 )) و (2) میانگین گنجاندن کلمه با وزن IDF (معادله ( 3 )). A و B دو مجموعه از نشانه های پیش پردازش شده را از یک ویژگی متنی معین (مثلاً برچسب، آدرس) نشان می دهند که به ترتیب متعلق به دو موجودیت مقایسه شده است.

J D (A, B) = (\sum t \in A \cap B IDF ( t , D ) \sum t \in A \cup B IDF ( t , D )) ψ

(2)

E D (A, B) = \sum t \in A e ( t ) IDF ( t , D ) \sum t \in A IDF ( t , D ) \times \sum t \in B e ( t ) IDF ( t , D ) \sum t \in B IDF ( t , D )

(3)

همانطور که در رابطه ( 2 ) اشاره شد، یک ثابت اضافه می کنیم

ψ

که امتیاز نهایی را در اندازه گیری LIDFJ تنظیم می کند. در عمل، توزیع امتیاز خام LIDFJ معمولاً پایین‌تر از روش‌های تعبیه‌شده است، بنابراین ممکن است استفاده از برخی موارد ضروری باشد.

0 < ψ < 1

برای افزایش نمرات

شکل 1 نشان می دهد که چگونه یک نشانه ” کنیسه ” بسته به بافت جغرافیایی آن می تواند ارتباط متفاوتی داشته باشد. در مناطقی که تقریباً اندازه آنها یکسان است، ادینبورگ (تصویر سمت راست) در مقایسه با اورشلیم غربی ، دارای موجودیت های بسیار کمتری با نماد ” کنیسه " است. این بدان معناست که این نشانه زمانی که در صفت(های) متنی وجود دارد، برای موجودیت‌های واقع در ادینبورگ بیشتر از آنهایی که در اورشلیم غربی قرار دارند، مرتبط است. از این رو، این فرکانس پایین به معنای LIDF بالاتر و ارتباط بیشتر است. به عبارت دیگر، اگر دو نهاد در ادینبورگ نماد ” کنیسه ” را به اشتراک بگذارند، احتمال اینکه آنها با یکدیگر مطابقت داشته باشند بسیار بیشتر از این است که در غرب اورشلیم نیز همین اتفاق بیفتد.

4.2. نمرات تراز

امتیاز هم ترازی

ϕ

از یک جفت موجودیت

e_{i} \in E_{1}

e_{j} \in E_{2}

، از چهار جزء تشکیل شده است: برچسب (

λ

، نوع (

θ

)، نشانی (

α

) و فاصله جغرافیایی (

γ

). امتیاز نهایی به صورت مجموع وزنی نمرات شباهت هر یک از مؤلفه ها محاسبه می شود. برای یک جفت موجودیت معین

e_{i}

e_{j}

نمره نهایی آن در رابطه ( 4 ) تعریف شده است.

ϕ (e i, e j) = w λ λ (e i, e j) + w θ θ (e i, e j) + w α α (e i, e j) + w γ γ (e i, e j) + b

(4)

وزنه ها

w_{λ}

w_{θ}

w_{α}

w_{γ}

و بایاس b را می توان با رگرسیون خطی یاد گرفت اگر داده های برچسب دار کافی ارائه شود. روش دیگر، دیگر روش های رگرسیون پیچیده تر نیز می تواند استفاده شود. در تنظیم مشکل ما، داده‌های برچسب‌گذاری شده در دسترس نیستند و رویکردهای پیچیده‌تر یادگیری ماشینی امکان‌پذیر نیستند. بنابراین، در این مقاله، ما به مشکل ترکیب بهینه امتیازات مؤلفه‌ها نمی‌پردازیم، و در عوض بر روی خود معیارهای تشابه مؤلفه‌ها تمرکز می‌کنیم. این توابع امتیازدهی شباهت مؤلفه ها

λ

θ

α

γ

در بخش 4.2.1 ، بخش 4.2.2 ، بخش 4.2.3 و بخش 4.2.4 ارائه شده است.

4.2.1. مولفه برچسب

جزء برچسب متکی بر دو بخش مختلف است که مکمل یکدیگر هستند. یکی رمزگذار جملات چند زبانه است که می تواند تطبیق بین زبانی را انجام دهد. به عنوان یک مدل توالی، می‌تواند تفاوت‌های معنایی ناشی از توالی‌های مختلف را توضیح دهد. بخش دیگر شباهت محلی IDF-Jacard است که می تواند از ارتباط توکن ها در یک زمینه جغرافیایی خاص استفاده کند.

امتیاز نهایی بازگردانده شده برای مؤلفه برچسب، حداکثر دو جزء فرعی آن است. جزئیات نحوه محاسبه هر دو امتیاز در بخش 4.2.1.3 و بخش 4.2.1.4 توضیح داده شده است. قبل از محاسبه این امتیازات، ابتدا پیش پردازش برچسب و ترتیب قطعات برچسب را به ترتیب در بخش 4.2.1.1 و بخش 4.2.1.2 انجام می دهیم.

4.2.1.1. پیش پردازش برچسب

همه برچسب‌ها و نام‌های مستعار از تکنیک‌های پیش‌پردازش استاندارد استفاده می‌کنند که شامل کاهش کاراکترها و حذف علائم نگارشی است. کاهش کاراکترها مهم است زیرا منابع داده مختلف ممکن است از حروف متفاوت برای برخی کلمات استفاده کنند. با این حال، رمزگذارهای جملات مانند MUSE به حروف کوچک و بزرگ حساس هستند و نمرات شباهت بین جفت‌های جملات کوچک‌تر می‌تواند تفاوت‌های ظریف کمتری داشته باشد، زیرا گاهی اوقات کلمات در موارد مختلف ممکن است معنای متفاوتی داشته باشند. بنابراین، برای برخی از جفت برچسب‌ها (به عنوان مثال، برچسب‌های اصلی و برچسب‌های انگلیسی اصلی، در صورتی که زبان اصلی نباشد)، ما انتخاب می‌کنیم تا شباهت بین برچسب‌ها را با پوشش اصلی محاسبه کنیم.

ما همچنین حداکثر تعداد نام مستعار داریم که باید در نظر گرفته شوند (

η

)، به منظور اطمینان از اینکه محاسبه امتیاز شباهت برچسب خیلی طول نمی کشد. علاوه بر این، برای جلوگیری از پیچیدگی درجه دوم هنگام محاسبه شباهت، شباهت بین همه جفت‌های نام مستعار از دو موجودیت را محاسبه نمی‌کنیم. در عوض، ما یک برچسب اصلی (به طور کلی به زبان محلی) برای هر موجودیت داریم و فقط شباهت نام مستعار را با برچسب اصلی موجودیت دیگر محاسبه می کنیم. به‌طور استثنایی، ما شباهت‌های نام مستعار را برای برچسب‌های انگلیسی (اگر انگلیسی زبان اصلی نباشد) محاسبه می‌کنیم. شایان ذکر است که در مورد ما، برچسب های اصلی قبلاً در HuaweiPD تعریف شده اند و در ویکی پدیا اولین برچسب rdfs: یک موجودیت به زبان مادری کشور (یا یکی از زبان های مادری آن) به عنوان برچسب اصلی استفاده می شود.

علاوه بر این، برخی از برچسب ها نه تنها حاوی نام نهاد بلکه اطلاعات اضافی در مورد محلی سازی آن نیز هستند. این اطلاعات اغلب پس از کاما (“)، خط تیره (یعنی “-“) یا بین پرانتز در انتهای برچسب اضافه می شود. این می تواند اندازه گیری شباهت بین برچسب های نشان داده شده در زیر را بسیار دشوار کند.

فواره راس ، باغ های خیابان پرینس وست، ادینبورگ → فواره راس

فواره راس ( ادینبورگ) → فواره راس

برای در نظر گرفتن این مبادله هنگام پیش پردازش برچسب ها، ما برچسب اصلی را نگه می داریم، اما همچنین یک رشته حذف شده اضافه می کنیم، جایی که قسمت های عمومی تر شناسایی شده توسط کاراکترهای ویژه که قبلا توضیح داده شد را حذف می کنیم. مرحله پیش پردازش برچسب در GLEAN به عنوان توکن مجموعه تابع زمانی که ورودی ها برچسب هستند، و به عنوان توکنیز تابع زمانی که آنها آدرس هستند ، ادغام می شود. در مقایسه با tokenset ، tokenize ممکن است شامل پیش پردازش خاص آدرس، مانند مدیریت اختصارات باشد. برای برچسب نهاد

l_{i}

، تابع tokenset مجموعه ای از توکن های نوشتن را خروجی می دهد.

یکی از مشکلات در این رویکرد این است که فرض می‌کند قسمت‌های خاص‌تر برچسب قبل از عمومی‌تر قرار می‌گیرند. این همیشه درست نیست، و ما به راهی برای شناسایی این موارد و مرتب کردن مجدد قطعات برچسب نیاز داریم تا اطمینان حاصل کنیم که آنها همیشه سازگار هستند. این همان چیزی است که در پاراگراف زیر توضیح می دهیم (به عنوان مثال، بخش 4.2.1.2 ).

4.2.1.2. لیبل سفارش قطعات

برای اطمینان از اینکه اشتباهاً شباهت را برای بخش‌های کلی‌تر برچسب محاسبه نمی‌کنیم، مرتب کردن قطعات برچسب بسیار مهم است. ما قسمت‌های یک برچسب را به‌عنوان رشته‌های فرعی تعریف می‌کنیم که می‌توان آن را با تقسیم کردن برچسب به «» یا «-» به دست آورد (از جمله فاصله قبل و بعد از «-» برای جلوگیری از تقسیم کلمات خط فاصله). در مثال زیر، قطعات برچسب از کمتر به خاص تر مرتب شده اند. اگر روش strip down را که قبلا توضیح داده شد به کار ببریم، در نهایت به اشتباه آن را به جای ” بنای یادبود جورج بوکانان " به " ادینبورگ ” تبدیل می کنیم . به همین دلیل است که مثال زیر باید به یک نمایش استاندارد بازآرایی شود، که در مورد ما از بیشتر به کمتر خاص است.

برچسب اصلی : ادینبورگ، ردیف کندل میکر، کلیسای گریفریرز، بنای یادبود جورج بوکانان
برچسب دوباره سفارش داده شده : بنای یادبود جورج بوکانان، کلیسای گریفریرز، کندل میکر رو، ادینبورگ

یکی از راه‌های تشخیص اینکه قسمت‌های مختلف برچسب چقدر خاص هستند، بررسی آن‌ها با آدرس نهاد است. احتمال ظاهر شدن قسمت های عمومی تر در آدرس بیشتر از قسمت های خاص تر است. برای مثال قبلی ما، آدرس ” 26A Candlemaker Row, Edinburgh EH1 2QQ, United Kingdom ” نشان می دهد که ” Edinburgh ” و ” Candlemaker Row ” بخش های کلی تری هستند. از آنجایی که اینها در ابتدای برچسب هستند، می‌توانیم ترتیب را معکوس کنیم تا از سازگاری لازم اطمینان حاصل کنیم. این به عنوان اولین مرحله از ترتیب مجدد برچسب انجام می شود. اگر هیچ قسمت برچسبی در آدرس موجود نباشد یا بیش از یک قسمت در آدرس موجود نباشد، ترتیب مجدد برچسب آماری اعمال می شود.

مرتب سازی مجدد برچسب آماری فرکانس های قطعات برچسب را در یک زمینه جغرافیایی معین، مانند پارتیشن استخراج می کند و از آن فرکانس ها برای مشاوره در مورد ویژگی قطعه استفاده می کند. قسمت‌های کم‌تکرار به احتمال زیاد خاص‌تر هستند. در مثال ما، می‌توانیم POIهای دیگری را با برچسب‌هایی که حاوی « کلیسای گریفریرز » هستند، مانند نمونه‌های زیر، پیدا کنیم، اما هیچ POI دیگری با « بنای یادبود جورج بوکانان » وجود ندارد.

« ادینبورگ، ردیف کندل میکر، کلیسای گریفریرز »

« ادینبورگ، ردیف کندل میکر، کلیسای گریفریرز، زندان کوونانترز »

“ ادینبورگ، ردیف کندل میکر، کلیسای گریفریرز، لج به علاوه، اسکله دروازه ”

سپس به هر قسمت از برچسب یک مقدار فرکانس قسمت معکوس محلی (LIPF) اختصاص داده می شود. این ایده تا حدودی شبیه به ارتباط محلی نشانه‌ها است که در بخش 4.1 بحث شد ، جایی که یک منطقه جغرافیایی تعریف شده است. با این حال، در این مورد، فرکانس ها برای کل قسمت های برچسب به جای توکن های جداگانه محاسبه می شوند.

اگر برچسبی با قطعات خاص تری شروع شود، انتظار می رود که LIPF قطعات به ترتیب کاهشی باشد. این بدان معناست که اگر یک برچسب مقادیر LIPF افزایشی برای قطعات خود داشته باشد، احتمالاً در جهت معکوس است. حداقل آستانه نرخ افزایش LIPF به منظور اطمینان از اینکه افزایش LIPF قابل توجه است و تصادفی رخ نداده است استفاده می شود. برچسب فقط در صورتی معکوس می شود که قطعات برچسب دارای مقادیر LIPF یکنواخت در حال افزایش باشند که آستانه نرخ افزایش را برآورده کند. آستانه نرخ افزایش LIPF بالاتر محافظه‌کارانه‌تر است و می‌تواند تعداد برچسب‌هایی را که به اشتباه مرتب شده‌اند کاهش دهد، اما تعداد برچسب‌های معکوس‌شده را نیز افزایش می‌دهد.

4.2.1.3. رمزگذار جملات چند زبانه

همسویی نهادهای جغرافیایی در مقیاس جهانی نه تنها به دلیل اندازه بالقوه بزرگ مجموعه داده ها، بلکه به دلیل زبان های مختلف مورد استفاده، چالش هایی را ایجاد می کند. بسیاری از کشورها چندین زبان رسمی دارند و مجموعه داده‌های مختلف ممکن است همیشه دارای برچسب‌هایی به یک زبان نباشند. بنابراین استفاده از معیارهای شباهت که می تواند شباهت ها را در زبان های مختلف شناسایی کند، مهم است. به همین دلیل است که سیستم ما از قدرت رمزگذارهای جملات چند زبانه از پیش آموزش دیده استفاده می کند.

در سیستم ما، ما از رمزگذار جملات جهانی گوگل استفاده می‌کنیم، زیرا بسیار مقیاس‌پذیر است و در کار شباهت متن بسیار خوب عمل می‌کند. دارای نسخه چند زبانه (MUSE) [ 23 ، 24 ] است که در حال حاضر از 16 زبان پشتیبانی می کند ( https://tfhub.dev/google/universal-sentence-encoder-multilingual/3 (در 6 اکتبر 2021 در دسترس قرار گرفته است)). این تقریباً به تعداد زبان‌های موجود در مجموعه داده‌های ما نیست ( جدول 1 را ببینید)، اما برخی از رایج‌ترین زبان‌ها را پوشش می‌دهد. ما همچنین سعی کردیم از LaBSE [ 25 ] استفاده کنیم که از زبان های بسیار بیشتری پشتیبانی می کند (109 ( https://tfhub.dev/google/LaBSE/1(دسترسی در 6 اکتبر 2021))). با این حال، به طور قابل توجهی کندتر از MUSE است و در معیار تشابه متنی معنایی [ 25 ] به خوبی عمل نمی کند (دارای حدود 10٪ کمتر از پیرسون

ρ

در مورد وظیفه).

ما هر یک از برچسب‌ها/نام مستعار هر موجودیت را از دو منبع داده برای تراز کردن از قبل پردازش می‌کنیم و از MUSE برای کدگذاری جاسازی‌های جمله آنها استفاده می‌کنیم که دو ماتریس جاسازی را ایجاد می‌کنند. شباهت موجودیت های زوجی بین موجودیت های دو مجموعه داده با انجام یک ضرب ماتریس بین دو ماتریس تعبیه شده محاسبه می شود. محاسبه این مقدار بسیار کمتر از سایر بخش‌های امتیاز تراز است و همراه با شباهت جاسازی نوع برای فیلتر اولیه تعداد نامزدها استفاده می‌شود. این در بخش 5 مورد بحث قرار گرفته است .

ما شباهت جاسازی جمله برچسب را تعریف می کنیم

λ_{e m b} (e_{i}, e_{j})

بین نهادها

e_{i}

e_{j}

و نشان دهنده تعبیه جمله MUSE موجودیت است

e_{i}

برچسب

l_{i}

مانند

e_{M U S E} (l_{i})

(ر.ک معادله ( 5 )).

λ e m b (e i, e j) = e M U S E (l i) \cdot e M U S E (l j)

(5)

4.2.1.4. شباهت وزنی ارتش اسرائیل

اگرچه استفاده از مدل های از پیش آموزش دیده به ما امکان می دهد از مجموعه بزرگ و منابع محاسباتی مورد استفاده برای آموزش آنها بهره مند شویم، اما آنها از ارتباط محلی کلمات آگاهی ندارند. بسیار مهم است که ارتباط محلی یک کلمه معین را در زمینه جغرافیایی در نظر بگیریم. این ارتباط محلی ممکن است به طور چشمگیری متفاوت باشد. به عنوان مثال، کلمه ” ادینبورگ ” ممکن است در متن لندن هنگام تطبیق ” میخانه دوک ادینبورگ” بسیار مرتبط باشد زیرا یک کلمه نادر است، در حالی که در بافت شهر ادینبورگ، نشانه ” ادینبورگ ” ظاهر می شود. اغلب اوقات و باید هنگام مطابقت با ” گالری ملی اسکاتلند ادینبورگ ” ارتباط کمی داشته باشد.

به عنوان مثال، اگر شباهت LIDFJ را بین « گالری ملی » و « گالری ملی اسکاتلند ادینبورگ » در زمینه مرکز ادینبورگ محاسبه کنیم، شباهت زیاد است (917/0) زیرا « اسکاتلندی » و « ادینبورگ » ارتباط محلی پایینی دارند. با این حال، اگر از رمزگذارهای جملات استفاده کنیم که در زمینه کلی گسترده آموزش داده شده اند، شباهت بسیار کم خواهد بود (در MUSE 0.539 است).

بنابراین، در رویکرد خود، ما از LIDFJ برای تکمیل شباهت جاسازی‌های جمله با اتخاذ یک معیار تشابه بر اساس رویکرد ارتباط بافت محلی شرح داده شده در بخش 4.1 استفاده می‌کنیم. امتیاز نهایی برچسب

λ (e_{i}, e_{j})

با در نظر گرفتن نمره تعبیه جمله (

λ_{e m b}

) و امتیاز LIDFJ (

λ_{L I D F J}

). در این کار، همانطور که در رابطه ( 6 ) نشان داده شده است، به سادگی از حداکثر بین این دو استفاده کردیم:

λ (e i, e j) = max (λ e m b (e i, e j), λ L I D F J (e i, e j)),

(6)

که در آن مولفه امتیاز LIDFJ در معادله ( 7 ) تعریف شده است:

λ L I D F J (e i, e j) = J D (tokenset (l i), tokenset (l j)) .

(7)

به یاد می آوریم که تابع tokenset برچسب ها را همانطور که در بخش 4.2.1.1 توضیح داده شده از قبل پردازش می کند و مجموعه ای از نشانه های ترکیبی خود را خروجی می دهد.

4.2.2. کامپوننت را تایپ کنید

برای یک جفت موجودیت

e_{i}

e_{j}

، نمره جزء نوع

θ (e_{i}, e_{j})

با ترکیب نمره تعبیه نوع محاسبه می شود

θ_{e m b} (e_{i}, e_{j})

و یک جزء تنزل نوع

θ_{t d} (e_{i}, e_{j})

همانطور که در معادله ( 8 ) تعریف شده است. امتیاز جزء نوع

θ

نمره جزء نوع است

θ_{e m b}

منهای نمره تنزل نوع

θ_{t d}

θ (e i, e j) = θ e m b (e i, e j) - θ t d (e i, e j)

(8)

θ_{e m b} (e_{i}, e_{j})

بدون نظارت آموخته می شود و می تواند نمرات شباهت ظریف را محاسبه کند. در حالی که

θ_{t d}

برای کاهش کاستی ناشی از اندازه گیری تعبیه با ایجاد جفت های گسست سطح بالا استفاده می شود. این دو امتیاز شباهت به ترتیب در بخش 4.2.2.1 و بخش 4.2.2.2 مورد بحث قرار گرفته است.

4.2.2.1. Embeddings را تایپ کنید

ایجاد نقشه برای دو سلسله مراتب بسیار متفاوت و بالقوه پیچیده و پر سر و صدا می تواند یک کار بسیار چالش برانگیز باشد. در بسیاری از موارد، مانند مجموعه داده‌های شرح داده شده در جدول 1 ، یافتن هم‌ترازی‌ها به صورت دستی می‌تواند غیرممکن باشد، زیرا کلاس‌ها و انواع متعددی از یک منبع وجود دارد که می‌توانند به چندین نوع دیگر در بخش‌های مختلف سلسله مراتب منبع دیگر نگاشت شوند. علاوه بر این، در بسیاری از موارد، نگاشت های مختلف ممکن است سطح اطمینان یکسانی نداشته باشند، و تولید آنها به صورت دستی بسیار دشوار است.

بنابراین، در رویکرد خود، یک روش بدون نظارت را برای یادگیری تعبیه‌های نوع پیشنهاد می‌کنیم. مزایای نمایش انواع به عنوان جاسازی بسیار زیاد است. اولاً، محاسبه شباهت‌های بین انواع را می‌توان به راحتی با محصول نقطه‌ای و هنگام مقایسه انجام داد

M_{1} \times M_{2}

انواع از منابع مختلف شباهت بین هر جفت ممکن از انواع را می توان به راحتی با ضرب ماتریس محاسبه کرد. علاوه بر این، تعبیه‌ها می‌توانند سطوح اطمینان متفاوتی را در نگاشت‌ها نشان دهند، زیرا شباهت‌ها به عنوان نزدیکی بین نمایش‌های انواع در فضای جاسازی کدگذاری می‌شوند. این همچنین امکان محاسبه شباهت بین جفت های نامرئی از انواع را فراهم می کند.

برای یادگیری تعبیه‌ها، به داده‌های آموزشی نیاز داریم. تولید داده‌های با کیفیت بالا احتمالاً نیازمند نظارت انسانی است و این می‌تواند بسیار پرهزینه باشد. در رویکرد ما، استفاده از جفت‌های هم‌ترازی با اطمینان بالا را از یک اجرای تراز قبلی پیشنهاد می‌کنیم که در آن جزء نوع خاموش است. سپس جفت‌های نوع از آن هم‌ترازی‌های با اطمینان بالا به عنوان مثال‌های مثبت استفاده می‌شوند و نمونه‌های منفی با خراب کردن موارد مثبت ایجاد می‌شوند.

مجموعه مثال های مثبت را به این صورت تعریف می کنیم

D^{+}

و منفی ها به عنوان

D^{-}

. سپس داده های آموزشی به صورت تعریف می شوند

D = {(1, (t_{1}, t_{2})) | t_{1}, t_{2} \in D^{+}} \cup {(0, (t_{1}, t_{2})) | t_{1}, t_{2} \in D^{-}}

، جایی که موارد مثبت دارای برچسب هستند

y = 1

و منفی ها

y = 0

مدل تعبیه نوع معادل DistMult [ 26 ] بدون تعبیه رابطه است. نوع امتیاز تعبیه

θ_{e m b}

(ر.ک. معادله ( 9 )) حاصل ضرب نقطه ای از نوع بردارهای تعبیه شده است.

e (t_{i})

e (t_{j})

، جایی که

t_{i}

t_{j}

انواع موجودیت ها هستند

e_{i}

e_{j}

، به ترتیب.

θ e m b (e i, e j) = e (t i) \cdot e (t j)

(9)

این مدل به گونه ای آموزش داده شده است که امتیاز را برای مثال های مثبت به حداکثر برساند و برای نمونه های منفی آن را به حداقل برساند. این کار با به حداقل رساندن تابع ضرر L (ر.ک معادله ( 10 )) که از آنتروپی متقاطع باینری استفاده می کند، انجام می شود. به عنوان محدودیت، بردارهای embeddings هستند

L^{2}

-نرمال شده، یعنی

{| e (t) |}_{2} = 1, \forall t \in T_{1} \cup T_{2}

L (D) = \sum y, (t 1, t 2) i n D y log (s (t 1, t 2)) + (1 - y) log (1 - s (t 1, t 2))

(10)

این روش بدون نظارت برای تولید داده های آموزشی می تواند به راحتی تعداد زیادی نمونه مثبت با کیفیت نسبتا بالا ایجاد کند. ممکن است مثبت کاذب وجود داشته باشد، زیرا در بیشتر مجموعه‌های داده می‌تواند موجودیت‌هایی از انواع مختلف وجود داشته باشد که نباید تراز شوند، اما از آنجایی که آنها بسیار نزدیک به یکدیگر قرار دارند و برچسب‌ها و آدرس‌های مشابهی دارند، در نهایت در ترازهای با اطمینان بالا قرار می‌گیرند.

نمونه هایی از این موارد عبارتند از: ایستگاه اتوبوس و خیابان ، شهر و ایستگاه راه آهن . ایستگاه‌های اتوبوس اغلب به نام خیابان‌ها نام‌گذاری می‌شوند و مکان بسیار مشابهی دارند و تنها چیزی که اشاره می‌کند نباید با نوع آن‌ها مطابقت داشته باشند. با توجه به اینکه فرآیند تولید داده های آموزشی انواع را نادیده می گیرد و این نوع مثبت کاذب تکراری است، مدل تعبیه نوع در نهایت به یادگیری اختصاص شباهت زیاد بین آنها می پردازد.

برای رسیدگی به این مشکل، یک مکانیسم تنزل نوع را شامل می‌کنیم که هدف آن کاهش امتیاز نوع برای آن موارد است.

4.2.2.2. Demotion را تایپ کنید

تنزل نوع متکی بر فهرستی از جفت‌های ناهمگونی است که شامل انواعی از سلسله مراتب دو منبع و استدلال فرعی بر سلسله مراتب است. این استدلال اجازه می دهد تا از عدم پیوستگی بین جفت انواع سطح بالا استفاده شود، که از آن می توان جدایی زوجی همه اجداد آنها را استنباط کرد. این فرآیند ایجاد جفت های تنزل سطح بالا را ساده می کند

P_{d e m}

و آنها را قابل درک تر و مدیریت آسان تر می کند. با آنها می توانیم نتیجه بگیریم

P_{d e m}^{+}

حاوی

P_{d e m}

به علاوه همه بدیهیات عدم پیوستگی استنباط شده بر اساس سلسله مراتب.

یکی از مشکلات این نوع رویکرد این است که نمی توان از آن در سلسله مراتب اشتباه استفاده کرد. این می تواند هنگام تراز کردن مجموعه داده ها با بدیهیات نادرست subClassOf ، مانند Wikidata، مشکل ساز باشد. مثال شکل 2 مسائلی را که ممکن است باعث این امر شود را نشان می دهد. اصل پارک ⊑ ArchitecturalStructure اشتباه است و اگر یک جفت عدم پیوستگی ArchitecturalStructure ∩ AdministrativeRegion = ∅ اضافه شود، به استنتاج های اشتباه منجر می شود. در این صورت، نوادگان هر دو کلاس نیز از هم گسسته خواهند شد، که شامل بدیهیات نادرست Park ∩ NationalPark = ∅ و NationalPark ∩ می شود.پارک ملی = ∅.

برای توضیح چنین مشکلی، و همچنان اجازه دادن به ساده سازی ارائه شده با استفاده از استدلال، امکان افزودن جفت های تبلیغاتی سطح بالا را در نظر می گیریم.

P_{p r o}

(که از آن مجموعه جفت استنباط شده است

P_{p r o}^{+}

را می توان مشتق کرد) که تنزل ها را خنثی می کند. علاوه بر آن، از رمزگذارهای جملات نیز برای محاسبه شباهت برچسب نوع و خنثی سازی تنزل جفت هایی با شباهت بالای یک آستانه معین استفاده می کنیم.

t_{λ}

هر زمان که یک موجودیت با انواع جفت شود

t_{i}, t_{j}

شامل هر گونه جفت ناپیوستگی انواع استنباط شده و هیچ جفت تبلیغاتی انواع استنباط شده ای نیست (به عنوان مثال،

(t_{i}, t_{j}) \in P_{d e m}^{+} - P_{p r o}^{+}

) سپس نمره شباهت نوع آن کاهش می یابد

ρ

. تابع تنزل نوع

θ_{t d} (e_{i}, e_{j})

در معادله ( 11 ) تعریف شده است.

θ t d (e i, e j) = {ρ 0, if (t i, t j) \in P + d e m - P + p r o otherwise .

(11)

4.2.3. جزء آدرس

یکی از چالش‌های اصلی هنگام تطبیق آدرس‌ها، فرمت‌های مختلفی است که ممکن است وارد شوند. علاوه بر این، برخی از آدرس‌ها ممکن است کامل‌تر از بقیه باشند و برخی از آنها مانند استان و کدپستی فاقد بخش‌هایی مانند استان و کد پستی باشند، مانند مثال‌های زیر.

“ 2 Semple St., EH3 8BL, Edinburgh, Midlothian, Scotland, UK ”

“ 2 Semple Street, EH3 8BL Edinburgh, United Kingdom ”

در رویکرد خود، ما از شباهت محلی ژاکارد با وزن IDF (LIDFJ) برای تطبیق آدرس ها استفاده می کنیم. مزیت LIDFJ این است که می تواند ارتباط بخش های مختلف آدرس را در نظر بگیرد. به‌عنوان مثال، به سیستم هم‌ترازی اجازه می‌دهد تا تشخیص دهد که « Midlothian »، « Scotland »، « UK »، « بریتانیا »، « خیابان » و « St » نشانه‌های چندان مرتبطی در زمینه محلی نیستند، زیرا اغلب اتفاق می‌افتند. از سوی دیگر، کدپستی و نام خیابان اهمیت بیشتری دارند. در نتیجه، تا زمانی که این قطعات کمتر با هم مطابقت داشته باشند، امتیاز شباهت بالا باقی خواهد ماند. امتیاز جزء آدرس

α (e_{i}, e_{j})

در معادله ( 12 ) تعریف شده است، به طوری که

a_{i}

a_{j}

آدرس نهادها هستند

e_{i}

e_{j}

، به ترتیب.

α (e_{i}, e_{j})

شبیه است به

λ_{L I D F J}

اما از یک تابع متفاوت برای به دست آوردن مجموعه نشانه ها استفاده می کند. به طور خاص، تابع tokenize ممکن است شامل پیش پردازش خاص آدرس، مانند مدیریت اختصارات، در مقایسه با مجموعه نشانه‌های تابع باشد .

α (e i, e j) = J D (tokenize (a i), tokenize (a j))

(12)

محدودیت این رویکرد این است که بر موجودیت هایی متکی است که مختصاتی دارند تا سیستم هم ترازی بتواند تشخیص دهد که آنها به یک بافت جغرافیایی تعلق دارند. اگر موجودیت ها در یک زمینه جغرافیایی شناخته نشده باشند، نمی توان از این رویکرد استفاده کرد.

4.2.4. مولفه فاصله جغرافیایی

هدف مولفه فاصله جغرافیایی تبدیل فاصله واقعی بین موجودیت ها به یک معیار تشابه است.

γ \in [0, 1]

. را

γ

امتیاز باید نشان دهد که یک جفت موجودیت با توجه به نوع آنها چقدر نسبتا نزدیک است. به عنوان مثال، فرودگاه های با فاصله 1 کیلومتر باید امتیاز بالایی داشته باشند، در حالی که رستوران هایی که در فاصله 1 کیلومتری از یکدیگر قرار دارند باید امتیاز پایینی داشته باشند. در یک سیستم هم ترازی جغرافیایی که شامل انواع موجودات جغرافیایی (از ایستگاه های اتوبوس تا کشورها) می شود، فاصله قابل قبول بین موجودیت های منطبق می تواند از چند متر تا صدها کیلومتر متغیر باشد.

این بدان معناست که ما نمی‌توانیم به طور یکسان با همه نهادها با اندازه‌های جغرافیایی متفاوت رفتار کنیم و باید امتیاز فاصله را با توجه به ویژگی‌های موجودیت‌ها تطبیق دهیم. جعبه های محدود کننده دقیقاً نوع اطلاعات مورد نیاز ما را ارائه می دهند. هر چه موجودیت بزرگتر باشد (از این رو جعبه مرزی آن)، تحمل فاصله باید بزرگتر باشد. مشکل، همانطور که در بخش 5 توضیح داده شد ، این است که بسیاری از نهادها فاقد اطلاعات جعبه مرزی هستند. بنابراین، برای حدس زدن اندازه یک موجودیت بر اساس نوع آن، مجدداً به آمار اندازه جعبه محدود تکیه می کنیم. امتیاز فاصله

γ

سپس همانطور که در معادله ( 13 ) توضیح داده شده است، محاسبه می شود

d (c_{i}, c_{j})

فاصله ژئودزیکی بین مختصات است

c_{i}

c_{j}

از نهادها

e_{i}

e_{j}

، به ترتیب.

Δ_{i}^{b b o x}

اندازه جعبه مرزی مورب از است

e_{i}

. پارامتر m حداکثر فاصله ای است که برای آن

γ

می تواند مقدار غیر صفر داشته باشد. پارامتر p تعیین می کند که چقدر سختگیرانه است

γ

اندازه گیری باید این باشد: یک p بزرگتر منجر به همگرایی سریعتر می شود

γ

به صفر در آزمایشات خود استفاده می کنیم

m = 100

p = 25

γ (e i, e j) = (1 - d ( c i , c j ) m Δ b b o x i) p

(13)

4.3. قوانین پس پردازش

مجموعه ای از قوانین اصلاح ممکن است در مرحله نهایی تراز به منظور بهبود عملکرد کلی ترازها استفاده شود. این برای پرداختن به موارد لبه ای است که حل آنها دشوار است و با تنظیم امتیازهای تراز انجام می شود. ایده این است که قوانینی با مجموعه ای از شرایط منطقی ایجاد کنیم که بتواند امتیاز مثبت های کاذب لبه را کاهش دهد و امتیاز منفی های کاذب را ارتقا دهد. این کار با اعمال مجموعه ای از بررسی ها بر روی سه ویژگی (یعنی برچسب، نوع و فاصله) یک جفت انجام می شود. مرحله پس پردازش پس از دریافت امتیازهای ترازهای ترکیبی از مؤلفه‌های Fallback و Partition انجام می‌شود و تصمیم می‌گیرد که آیا یک امتیاز هم‌ترازی تنزل رتبه، ارتقا یا حفظ شود.

اگر موارد لبه طبقه‌بندی‌شده اشتباه برچسب‌گذاری‌شده در دسترس باشد، می‌توان یک طبقه‌بندی کننده را بر روی ویژگی‌هایی مانند امتیاز ویژگی یا معیارهای سفارشی آموزش داد. با این حال، در مورد ما، چنین داده‌هایی در دسترس نبود و تصمیم گرفتیم از شرایط قوانین دستی ساخته شده برای ارزیابی مستقل ویژگی‌های برچسب، نوع و فاصله جغرافیایی استفاده کنیم. قوانین می‌توانند از امتیازات مؤلفه‌ها مجدداً استفاده کنند و آستانه‌های خاصی را نسبت دهند یا معیارهای سفارشی ایجاد کنند تا جنبه‌هایی را که توسط امتیازهای هم‌ترازی پوشش نمی‌دهند، ثبت کنند.

شرط برچسب بررسی می کند که آیا شباهت جاکارد مبتنی بر توکن دو موجودیت حداقل آستانه معینی را برآورده می کند یا خیر. شرط نوع بررسی می کند که آیا عمیق ترین سطح سلسله مراتبی که در آن انواع از دو نهاد جفت می شود، حداقل آستانه عمق آن را برآورده می کند یا خیر. شرایط فاصله جغرافیایی بررسی می کند که آیا فاصله ژئودزیکی بین آنها حداقل آستانه فاصله را برآورده می کند یا خیر.

در صورتی که هیچ یک از این شرایط برآورده نشود، با کم کردن یک مقدار معین، امتیاز هم ترازی کاهش می یابد. برعکس، اگر همه شرایط برآورده شود، آنگاه امتیاز با محاسبه مجدد و جایگزینی امتیاز همترازی جفت ارتقا می‌یابد. آستانه سه ویژگی، و همچنین ارزش تنزل، به منظور تکمیل بهترین نقاط ضعف بالقوه معیار امتیاز هم ترازی و به حداکثر رساندن بهبود عملکرد، بهینه سازی شده است.

در عمل، ما مقادیری را آزمایش می‌کنیم که احتمال بیشتری برای افزایش عملکرد کلی GLEAN در استاندارد طلایی ما دارند. آستانه برچسب ها در محدوده 0.5 تا 1 با یک مرحله 0.1 تغییر می یابد. آستانه فاصله در این مجموعه انتخاب می شود

{0.1, 0.2, 0.5, 1.0, 2.0}

، که بر حسب کیلومتر اندازه گیری می شوند. تطبیق ویژگی نوع Boolean است و تنها در صورتی تطابق نوع را در نظر می‌گیرد که انواع در عمیق‌ترین یا دومین سطح عمیق‌ترین سطح کم‌عمق‌ترین سلسله مراتب نوع بین منابع مطابقت داشته باشند. با این حال، نمرات تطبیق نوع متفاوت است:

1

. برای تطبیق عمیق ترین سطح و

2 / 3

برای دومین سطح تطبیق عمیق. مقدار تنزل نوع در مجموعه انتخاب شده است

{0.001, 0.005, 0.01, 0.02, 0.05, 0.1}

. ما تمام ترکیب‌های ممکن این آستانه‌ها را آزمایش می‌کنیم و ترکیبی را انتخاب می‌کنیم که بهترین مبادله را از نظر دقت و یادآوری فراهم می‌کند. عملکرد بر روی داده های استاندارد طلا آزمایش می شود (لطفاً برای جزئیات بیشتر در مورد ارزیابی عملکرد به بخش 6 مراجعه کنید).

5. معماری سیستم تراز نهادهای جغرافیایی (GLEAN).

هدف GLEAN تراز کردن دو مجموعه داده بزرگ تا حد امکان کارآمد است. از آنجایی که مجموعه داده‌ها ممکن است فاقد اطلاعات مختصات باشند، ما دو رویکرد اصلی را طراحی می‌کنیم، یکی برای رسیدگی به موجودیت‌ها با مختصات و دیگری برای رسیدگی به موجودیت‌های بدون مختصات. ما هر دو را به ترتیب در بخش 5.1 و بخش 5.2 با جزئیات بیشتر مورد بحث قرار می دهیم . معماری کلی گردش کار آفلاین GLEAN در شکل 3 نشان داده شده است .

5.1. تطبیق مبتنی بر پارتیشن

رویکرد تطبیق مبتنی بر پارتیشن از مختصات موجودیت‌ها برای دسته‌بندی آن‌ها به پارتیشن‌های جغرافیایی استفاده می‌کند که حداکثر تعداد موجودیت‌ها را شامل می‌شود. ایده این است که موجودیت هایی که باید مطابقت داده شوند باید در یک پارتیشن قرار گیرند. علاوه بر این، تطبیق موجودیت‌ها از دو منبع در برابر یکدیگر توسط دسته‌ای در پارتیشن‌های جداگانه بسیار کارآمدتر از تطبیق کل مجموعه موجودیت‌ها به طور همزمان است.

پارتیشن بندی را می توان با استفاده از هر روش پارتیشن بندی فضایی پیشرفته انجام داد. در مورد ما، از ساختار چهار درختی استفاده می کنیم. اجازه دهید

P_{1}

P_{2}

مجموعه ای از موجودیت ها از

E_{1}

E_{2}

به ترتیب موجود در پارتیشن:

P_{1} \subset E_{1}

P_{2} \subset E_{2}

. ما تعداد موجودیت های موجود در هر پارتیشن را به محدود می کنیم

N_{W}

، مانند

| P_{1} | \times | P_{2} | < = N_{W}

. پارتیشن ها به صورت بازگشتی تقسیم می شوند تا زمانی که همه پارتیشن ها این شرایط را برآورده کنند.

ما روش پارتیشن بندی چهاردرختی کلاسیک را تغییر می دهیم تا یک حاشیه m قابل تطبیق را شامل شود تا اطمینان حاصل شود که جفت موجودیت های منطبق در پارتیشن های مختلف قرار ندارند. هنگام انتخاب حاشیه m یک معاوضه وجود دارد زیرا حاشیه های کوچک ممکن است منجر به جفت های تطبیق بیشتر از دست رفته شود، اما m بزرگتر همپوشانی بزرگی بین پارتیشن ها ایجاد می کند که روند هم ترازی را کند می کند. وجود واحدهای بزرگ (مانند کشورها، شهرها) که موقعیت مختصات ممکن است بسیار متفاوت باشد، به متر بزرگ نیاز دارد.(به ده ها یا صدها کیلومتر می رسد). چنین حاشیه های بزرگی امکان پذیر نیست، به ویژه در مناطق متراکم (مانند منهتن) زیرا ممکن است موجودیت های زیادی در چنین حاشیه بزرگی وجود داشته باشد. به همین دلیل، روش پارتیشن بندی ما حاشیه های بزرگتری را در مناطق پراکنده اجازه می دهد، در حالی که به تدریج آن را با یک نرخ کاهش می دهد.

R_{m} < 1

در مناطق متراکم تر، به منظور اطمینان از رسیدن به آستانه در حداکثر تعداد موجودیت ها. کاهش حاشیه زمانی آغاز می شود که حداکثر تعداد مورد نیاز موجودیت ها باشد

N_{W}

نمی تواند برآورده شود و نسبت بین حاشیه و مورب پارتیشن از یک آستانه خاص فراتر می رود.

راه دیگر برای به حداقل رساندن موضوع مورد بحث در بالا، انجام یک پارتیشن بندی جداگانه برای موجودیت های بزرگی است که به حاشیه های بزرگتر نیاز دارند. از آنجایی که این نهادها نیز نادرتر هستند (به طور کلی مناطق اداری بسیار کمتری نسبت به POI وجود دارد)، اطمینان از آن آسان تر است.

| P_{1} | \times | P_{2} | \leq N_{W}

اگر نهادها را فقط به مناطق اداری محدود کنیم.

پس از انجام پارتیشن بندی، تطبیق برای هر پارتیشن به طور جداگانه انجام می شود. از آنجایی که ممکن است بین آنها همپوشانی وجود داشته باشد، برای ادغام نتایج حاصل از پارتیشن‌های مختلف در یک خروجی تراز منفرد، به یک مرحله اضافی در پایان نیاز داریم. انتخاب نامزدها برای فرآیند تطبیق در هر پارتیشن همانطور که در شکل 4 نشان داده شده است انجام می شود . هر موجودیتی که مختصات نقطه‌ای در جعبه کراندار قرار گرفته یا ناحیه پارتیشن را قطع می‌کند (از جمله حاشیه) انتخاب می‌شود.

هنگامی که مجموعه ای از نهادهای نامزد از

P_{1}

P_{2}

انتخاب می شوند، تطبیق بین موجودیت های دو منبع شروع می شود، به دنبال فرآیندی که در شکل 5 نشان داده شده است. ایده این است که یک پیش فیلتر کردن نهادهای نامزد انجام شود. ابتدا، شباهت‌های جاسازی نوع و جاسازی برچسب محاسبه می‌شوند، زیرا نسبتاً ارزان هستند. این امتیازات سپس برای فیلتر کردن جفت‌های با امتیاز پایین استفاده می‌شوند و فقط موجودیت‌های کاندید برتر را حفظ می‌کنند .

P_{2}

برای هر موجودیت از

P_{1}

. متعاقباً، بخش‌های باقی‌مانده امتیازات مؤلفه‌های دیگر را می‌توان برای آن محاسبه کرد

| P_{1} | \times k

جفت نهاد نامزد این تضمین می‌کند که محاسبات گران‌تر، مانند LIDFJ، فقط انجام می‌شوند

| P_{1} | \times k

بجای

| P_{1} | \times | P_{2} |

. این به طور قابل توجهی روند امتیاز دهی را به طور معمول سرعت می بخشد

| P_{2} | ≫ k

پس از محاسبه امتیاز نهایی، k

P_{2}

نامزدهای هر کدام

P_{1}

موجودیت مجدداً رتبه بندی می شوند و زوج ها با امتیاز تراز نهایی

ϕ > t_{ϕ}

بازگردانده می شوند؛ جایی که

t_{ϕ}

یک آستانه تراز است.

5.2. تطبیق بازگشتی

تطبیق مبتنی بر پارتیشن فقط به هم‌ترازی موجودیت‌هایی می‌پردازد که حاوی مختصات جغرافیایی هستند. رویکرد تطبیق بازگشتی از آن نهادها بدون هیچ نوع اطلاعات مختصاتی مراقبت می کند. این رویکرد عمدتاً به اطلاعات برچسب و آدرس برای بازیابی نامزدها متکی است و هنگام محاسبه نمره نهایی مؤلفه های مختصات را نادیده می گیرد.

w_{γ}

= 0).

بازیابی نامزدها شامل یک بازیابی فازی به تدریج محدود کننده در هر دو فیلد آدرس و برچسب است. عبارات جستجو برای ویژگی‌های برچسب و آدرس به ترتیب از ترکیب همه برچسب‌ها و نام‌های مستعار موجود و اتحاد همه آدرس‌های مختلف تشکیل شده‌اند. سختی تطابق با حداقل درصد نشانه‌های جستجویی که باید توسط یک نهاد جغرافیایی مطابقت داده شوند، تعریف می‌شود. مهم است که با الزامات تطبیق دقیق شروع کنید تا اطمینان حاصل شود که تعداد نامزدها کم است. اگر هیچ نامزدی برگردانده نشود، الزامات تطابق فازی به تدریج کاهش می‌یابد تا زمانی که تعداد کافی کاندید برگردانده شوند.

5.3. بحث در مورد سناریوی تراز آنلاین

سیستم ما همچنین می تواند برای پرونده آنلاین، که در آن یک نیاز اضافی مربوط به تأخیر سرویس وجود دارد، سازگار شود. برای برآوردن الزامات تاخیر کم، چند مرحله وجود دارد که می توان از قبل محاسبه کرد و برخی از فیلترها را می توان برای هرس زودهنگام نامزدها معرفی کرد. می‌توان مختصات موجودیت‌های نامزد را در کادر محدود کننده موجودیت درخواست‌شده (یا اندازه متوسط جعبه مرزی نوع آن در صورتی که نهاد یک مورد ندارد) به اضافه تحمل افزایش حاشیه مورد نیاز باشد. وزن های LIDF را می توان برای پارتیشن های از پیش تعریف شده از پیش محاسبه کرد و تعداد جفت های نامزد را می توان با استفاده از محدودیت های نوع و مختصات محدود کرد.

6. آزمایشات

در آزمایش‌های خود، ما یک مطالعه فرسایشی را برای تجزیه و تحلیل تأثیر مؤلفه‌های مختلف امتیاز همترازی پیشنهاد شده در این مقاله انجام می‌دهیم. ما همچنین آزمایش‌هایی را در زمان اجرا آفلاین در برنامه هم‌ترازی مجموعه داده‌های ناهمگن خود اجرا می‌کنیم.

6.1. مجموعه داده ها

در آزمایش‌های خود، از دو مجموعه داده برای فرآیند هم‌ترازی استفاده می‌کنیم: مجموعه داده‌های خصوصی Huawei (یعنی HuaweiPD) و Wikidata. آمار مربوط به آنها در جدول 1 توضیح داده شده است. هر دو مجموعه داده بسیار بزرگ هستند و تعداد کل موجودیت ها به ترتیب صدها و ده ها میلیون است. سلسله مراتب بسیار متفاوت است. HuaweiPD فقط 744 نوع دارد که در یک درخت سازماندهی شده اند، در حالی که Wikidata دارای یک سلسله مراتب پیچیده تر و ریزدانه انبوه گراف غیر چرخه مستقیم (DAG) با بیش از دو میلیون نوع است. در این تنظیمات خاص، می‌توان نگاشت‌های 1:N و N:M بین دو سلسله مراتب وجود داشته باشد که یک نوع در یک سلسله مراتب اغلب به چندین نوع در بخش‌های مختلف سلسله مراتب دیگر نگاشت می‌شود. در اصل، نهادهای ویکی داده اطلاعات آدرس ندارند، اما یک آدرس را می توان به صورت پویا بر اساس روابط P281 ( کدپستی )، P131 ( مکان ) و P17 ساخت.( کشور ). با این حال، این ویژگی ها بسیار ناقص هستند و کیفیت آدرس های ساخته شده پایین است. بنابراین، برای ترازهای Wikidata-HuaweiPD، ما ترجیح دادیم از مؤلفه آدرس استفاده نکنیم.

تعداد بسیار کمی اطلاعات جعبه محدود دارند: 1.0402٪ در HuaweiPD و 0.1084٪ در Wikidata. در هر دو مجموعه داده، بیشتر موجودیت ها دارای مختصات نقطه هستند: 100٪ HuaweiPD و 95.338٪ از Wikidata. فقدان اطلاعات مختصات برای تقریباً 5 درصد از نهادهای ویکی داده، اهمیت استراتژی پیشنهادی ما را آشکار می کند.

ما از یک استاندارد طلایی مشروح برای بازیابی نتایج عملکرد استفاده می کنیم. ما به‌طور تصادفی مجموعه‌ای از 1942 را از Wikidata انتخاب کردیم و به‌صورت دستی هر موجودیت را با 0 تا N موجودیت HuaweiPD مشابه حاشیه‌نویسی کردیم. ما دقت، دقت، یادآوری و امتیاز F1 را برای هر مجموعه محاسبه می‌کنیم و نتایج را با توجه به نسبت آنها با مجموعه داده اصلی ترکیب می‌کنیم.

6.2. نتایج و بحث

6.2.1. مطالعه ابلیشن

دو تا از بیشتر سیستم‌های هم‌ترازی موجودیت‌های جغرافیایی مرتبط [ 6 ، 22 ] پیاده‌سازی و مجموعه داده‌های خود را به‌طور عمومی به اشتراک نمی‌گذارند. بنابراین نمی توان مقایسه مستقیم با آنها انجام داد. با این حال، همانطور که در کار مرتبط (به عنوان مثال، بخش 2 ) مورد بحث قرار گرفت، رویکرد ما یک معیار تشابه برچسب بسیار پیچیده‌تر دارد، که می‌تواند برچسب‌های چندزبانه را مدیریت کند و همچنین ارتباط محلی نشانه‌ها را در نظر بگیرد. علاوه بر این، رویکردهای قبلی بر نگاشت های دستی بین سلسله مراتب نوع تکیه می کنند، که در مورد ما در دسترس نیست و با توجه به اندازه سلسله مراتب، ایجاد آنها غیرممکن است ( جدول 1 را ببینید). لو و همکاران، 2021 [ 14] کد موجود را دارد، اما برای اجرای آن در مجموعه داده های ما (که بسیار بزرگتر از مجموعه داده های حاوی چند هزار موجودیت مورد استفاده در کارشان هستند) برخی از ویژگی های پیشنهاد شده در مقاله ما را می طلبد. علاوه بر این، سه اثر مرتبط نیز به مسائل اصلی تحت پوشش کار ما، یعنی مشکل مقیاس‌پذیری و استفاده از ارتباط محلی نشانه‌ها برای بهبود معیارهای تشابه متن، و چند زبانه بودن برچسب‌ها، توجه نمی‌کنند. بنابراین، ما یک مطالعه فرسایشی را انتخاب کردیم، که در آن تأثیر هر ویژگی پیشنهادی را می توان به صورت جداگانه با اجرای نسخه های مختلف سیستم با ویژگی های حذف شده و مقایسه نتایج اندازه گیری کرد. جدول 2نتایج حاصل از مطالعه فرسایش را نشان می دهد و شرح نسخه های ارزیابی شده و قطعات تراشیده شده در زیر نشان داده شده است:

GLEAN : سیستم کامل بدون قطعات فرسوده.
LIDFJ : شباهت محلی-IDF Jaccard با امتیاز برچسب که منحصراً بر رمزگذار جملات چند زبانه تکیه دارد حذف می شود.
MLSE : رمزگذار جملات چند زبانه با استفاده از LIDFJ به عنوان نمره برچسب حذف می شود.
TypeComp : کل مؤلفه نمره نوع حذف می شود (هر دو مؤلفه جاسازی و کاهش). این به این معنی است که تراز به دست آمده به طور کامل انواع را نادیده می گیرد.
TypeDem : تنزل نوع با امتیازات نوع که منحصراً بر تعبیه‌ها تکیه دارد حذف می‌شود.
TypeGD : امتیاز فاصله جغرافیایی مبتنی بر نوع حذف می شود و امتیازات مؤلفه دیگر وابسته به نوع نیستند.

شایان ذکر است که هنگام حذف MLSE، امتیاز به کمترین میزان کاهش می یابد. یکی از دلایل این امر این است که LIDFJ می تواند کاملاً محدود کننده باشد زیرا برای تطابق کامل به توکن ها نیاز دارد. دلیل مهم دیگر این است که همراه با شباهت تعبیه‌شده نوع، تنها معیار محاسبه‌شده برای همه جفت‌های تطبیق ممکن است، و حذف آن به این معنی است که رتبه‌بندی مجدد k ممکن است شامل بسیاری از امیدوارکننده‌ترین منطبق‌ها نباشد. در نتایج، ما همچنین می‌توانیم ببینیم که معرفی LIDFJ به طور قابل‌توجهی یادآوری را بهبود می‌بخشد. این باعث می‌شود که سیستم قادر به تطبیق نهادهایی باشد که برچسب‌های آن‌ها فقط تا حدی مطابقت دارند، در حالی که فقط کمی دقت را کاهش می‌دهد.

ما همچنین می توانیم اهمیت مولفه تنزل نوع را مشاهده کنیم. جزء تعبیه‌های نوع به خودی خود نتایج را در مقایسه با عدم استفاده از امتیاز نوع بهبود نمی‌بخشد، اما در ترکیب با تنزل نوع، می‌تواند دقت و یادآوری را به طور قابل ملاحظه‌ای بهبود بخشد.

زمان اجرا برای GLEAN همانطور که در ردیف اول جدول 2 گزارش شده است حدود یک روز (23 ساعت) بود، با فرآیند هم ترازی مبتنی بر پارتیشن در مجموع 403,453 پارتیشن اجرا شد و در مجموع 3,979,183 تراز ایجاد کرد. این سیستم در پایتون پیاده سازی شد و بر روی دستگاه 72 هسته ای Intel Xeon Gold 6154 3.00 گیگاهرتز با 128 گیگابایت رم اجرا شد.

6.2.2. نمونه هایی از تراز GLEAN

شکل 6 دو مثال برای جفت های منطبق و غیر منطبق از POI، به عنوان خروجی تراز GLEAN، همراه با امتیازات برچسب، نوع و مختصات مربوطه آنها را نشان می دهد. این جفت ها به ترتیب از Wikidata و HuaweiPD هستند. از آنجایی که موجودیت های ویکی داده اطلاعات آدرس دقیقی ندارند، شباهت ویژگی آدرس در تراز جفت ها در نظر گرفته نمی شود. مثال سمت چپ یک POI Wikidata و یک HuaweiPD POI را نشان می‌دهد که یک نهاد جغرافیایی را نشان می‌دهند. امتیاز تراز نهایی بیانگر اطمینان بالای GLEAN در مورد شباهت “Q1427870” و “HuaweiID-X” است. مولفه تشابه برچسب شباهت برچسب ها را به دست آورده است، حتی اگر 100٪ مطابقت نداشته باشند. به طور خاص، سخت است که با ” Stadtbibliothek Leverkusen” و ” Stadtbibliothek ” به عنوان اولی دارای یک نشانه اضافی ” Leverkusen ” است که نشان دهنده شهری است که این POI در آن واقع شده است. رمزگذار جملات چند زبانه 0.714 را به عنوان شباهت برچسب خروجی می دهد. از سوی دیگر، مؤلفه LIDFJ وزن کم را به نشانه « Leverkusen » و وزن بالاتری را به « Stadtbibliothek » اختصاص می‌دهد که منجر به امتیاز بالاتر برچسب می‌شود. علاوه بر این، POI “HuaweiID-X” یک “کتابخانه” است اما طبقه بندی نوع HuaweiPD انواع آن را به عنوان Business , Company , Business Services مشخص می کند.. اگرچه طبقه بندی نوع HuaweiPD گیج کننده است، شباهت تعبیه نوع بالا 0.9862 است. این بدان معنی است که GLEAN به لطف رویکرد تعبیه نوع بدون نظارت، علیرغم اینکه برچسب‌های نوع بسیار متفاوت هستند، می‌تواند تطابق نوع را تشخیص دهد.

مثال سمت راست در شکل 6 یک POI Wikidata و یک HuaweiPD POI را نشان می‌دهد که شبیه به هم هستند (با در نظر گرفتن برچسب‌ها و فاصله آنها)، اما به موجودیت‌های جغرافیایی مختلف در دنیای واقعی اشاره دارند. حتی با وجود اینکه امتیاز همترازی GLEAN برای این جفت بالا است (به دلیل سهم امتیازهای برچسب و فاصله)، هنوز از آستانه پایین‌تر است. تعبیه نوع GLEAN اجازه می دهد تا امتیازات کمتری را برای انواع بی همتا تعیین کنید: شهرداری پرتغال ، شهر پرتغال و حمل و نقل ، ایستگاه راه آهن ، حومه یا شهری. علاوه بر این، تنزل نوع فعال می شود و امتیاز همترازی جفت کاهش می یابد (0.05) تا شباهت کلی کاهش یابد. تنزل رتبه به دلیل جفت گسست در سطح بالا بین حمل و نقل و نهاد قلمرو اداری (Q56061) (که توسط هر دو شهرداری پرتغال ، شهر پرتغال شمرده می شود) فعال می شود. این مثال مزایای کاهش نوع و رویکرد تعبیه نوع را نشان می دهد.

6.2.3. مقیاس پذیری GLEAN

در آزمایش‌های مقیاس‌پذیری، تأثیر پارامترهای سیستم (به عنوان مثال، رتبه‌بندی k ، تعداد نام‌های مستعار ) را ارزیابی می‌کنیم.

η

، حداکثر تعداد موجودیت های ویکی داده در هر پارتیشن

N_{W}

و حاشیه پارتیشن m ) در زمان اجرا تراز. ما همچنین تأثیر این پارامترها را بر تعداد هم‌ترازی‌ها با شباهت بیشتر یا مساوی 0.950 اندازه‌گیری می‌کنیم که آن را «هم‌ترازی‌های بالقوه خوب» می‌نامیم. تعداد «هم‌ترازی‌های بالقوه خوب» برای تخمین تعداد هم‌ترازی‌های واقعاً خوب استفاده می‌شود، زیرا حاشیه‌نویسی دستی همه هم‌ترازی‌های تولید شده کار دشواری است، و برای نشان دادن مبادله بین زمان اجرا و پوشش ترازها عمل می‌کند.

به یاد می‌آوریم که k تعداد موجودیت‌های نامزد از پیش فیلتر شده پس از اعمال شباهت‌های تعبیه‌شده برچسب و نوع ارزان است ( شکل 5 را ببینید). پارامتر

η

حداکثر تعداد نام مستعار برچسب موجودیت است که در فرآیند هم ترازی در نظر گرفته شده است. حاشیه پارتیشن m ( شکل 4 ) حاشیه بر حسب متر است که بین پارتیشن ها همپوشانی ایجاد می کند. برای این آزمایش ها یک پارامتر جدید تعریف می کنیم

N_{W}

، که به حداکثر تعداد موجودات ویکی داده در یک پارتیشن معین اشاره دارد. این به طور مستقیم بر تعداد پارتیشن های تولید شده با بزرگتر تأثیر می گذارد

N_{W}

در نتیجه پارتیشن های بزرگتر کمتری ایجاد می شود.

اجرای سیستم با تنظیمات پارامترهای متعدد در کل مجموعه داده امکان پذیر نیست زیرا این کار خیلی طول می کشد. بنابراین، ما تأثیر پارامترهای k را ارزیابی می کنیم ،

η

، م ، و

N_{W}

در مقیاس پذیری برای زیر مجموعه های مجموعه داده ما. ما آزمایش‌ها را روی جعبه مرزی تعریف‌شده با مختصات جنوب غربی و شمال شرقی (54،-1) (58،7) برای k اجرا می‌کنیم ،

η

و m که شامل 6509 Wikidata و 21451 موجودیت HuaweiPD است. برای تعداد موجودیت ها در هر پارتیشن (

N_{W}

) آزمایش، زیرمجموعه بزرگتری از داده ها مورد نیاز است، و کادر محدود (53،-3) (59،9) حاوی 233300 Wikidata و 1،471،205 موجودیت HuaweiPD استفاده می شود.

شکل 7 تاثیر چهار پارامتر k را نشان می دهد ،

η

، م و

N_{W}

در زمان اجرا تراز نمودارها نشان می دهد که مقادیر بالای k و

N_{W}

می تواند بسیار گران باشد نمودار k رتبه بندی مجدد (بالا به چپ) اهمیت فرآیند امتیازدهی نشان داده شده در شکل 5 را در کاهش تعداد جفت های نامزد برای هر یک از اجزای گران تر امتیاز تراز (مانند LIDFJ) نشان می دهد. این نقش مهمی در بهبود مقیاس پذیری کلی سیستم ایفا می کند. به طور مشابه، تعداد موجودیت‌ها در هر پارتیشن (پایین-راست) برای اطمینان از اینکه فرآیند هم‌ترازی کلی می‌تواند در مدت زمان معقولی اجرا شود، با محدود کردن تعداد موجودیت‌هایی که در یک زمان معین با یکدیگر مطابقت دارند، بسیار مهم است.

تعداد نمودار نام مستعار نشان می دهد که

η

محدودیت نیز برای کنترل زمان اجرا مهم است. با این حال، تاثیر آن بر زمان اجرا به شدت k و نیست

N_{W}

از آنجایی که اکثریت قریب به اتفاق موجودیت ها چندین نام مستعار ندارند (HuaweiPD به طور متوسط 0.086 نام مستعار در هر نهاد و Wikidata 3.58 است). این امکان استفاده از بزرگتر را فراهم می کند

η

مقادیر، که می تواند به ویژه در مواردی که مجموعه داده ها دارای برچسب ها و نام مستعار زیادی در چندین زبان هستند، همانطور که در جدول 1 مشاهده می شود، مهم باشد.

نمودار حاشیه پارتیشن m (پایین-چپ) تأثیر متوسطی بر زمان اجرا دارد تا زمانی که به مساحت کلی پارتیشن اضافه نکند. این را می توان با مرحله کاهش حاشیه توضیح داده شده در بخش 5.1 کنترل کرد. در این آزمایش، حداکثر نسبت بین حاشیه و مورب پارتیشن به بی نهایت تنظیم شد تا اطمینان حاصل شود که مقادیر حاشیه انتخاب شده در فرآیند پارتیشن بندی کاهش نمی یابد.

شکل 8 تأثیر همان چهار متغیر را در تعداد “هم ترازهای بالقوه خوب” شناسایی شده نشان می دهد. قابل توجه است که حتی برای مقادیر k rerank کوچک ، تعداد جفت ترازها بسیار کمتر از مقادیر بالاتر نیست. افزایش k از 5 به 640 تعداد جفت ها را حدود 6.9٪ افزایش می دهد در حالی که زمان اجرا حدود 8 برابر بیشتر است.

تعداد نمودار نام مستعار (بالا سمت راست) نشان می دهد که مزایای افزایش

η

برای بزرگتر کاهش می یابد

η

ارزش های. این به این دلیل است که تعداد نهادهایی با تعداد زیادی نام مستعار نسبتاً کم است و بیشتر آنها جاذبه های گردشگری محبوب یا مناطق اداری سطح بالا مانند شهرها و کشورها هستند. نمودار حاشیه پارتیشن (پایین-چپ) اهمیت اضافه کردن حاشیه به پارتیشن را نشان می دهد. تعداد “ترازهای بالقوه خوب” در ابتدا با شروع به اضافه شدن حاشیه شامل موجودیت های واقع در پارتیشن های همسایه افزایش می یابد، اما قبل از اینکه حاشیه به 10 کیلومتر برسد شروع به افزایش می کند. این نشان‌دهنده اهمیت افزودن حاشیه به منظور از دست ندادن جفت‌های موجودات منطبق است که در طرف مقابل مرزهای پارتیشن قرار دارند، اما مزایای حاشیه‌های بسیار بزرگ کاهش می‌یابد زیرا تعداد بسیار کمی از جفت‌های موجودیت منطبق می‌توانند از یکدیگر بسیار دور باشند. . تغییر حاشیه از 100 به 3200 نتیجه افزایش بیش از 13 درصدی در تعداد جفت‌های «هم‌ترازی بالقوه خوب» و افزایش 38 درصدی در زمان اجرا است. از طرف دیگر، هنگام تغییر حاشیه از 3200 به 12800، زمان اجرا 154٪ افزایش می یابد در حالی که تعداد ترازها تنها 3.4٪ بیشتر است.

تعداد موجودیت ها در هر نمودار پارتیشن (پایین-راست) نشان می دهد که افزایش تعداد پارتیشن ها (کاهش

N_{W}

) تأثیر قابل توجهی در افزایش تعداد “هم ترازهای بالقوه خوب” تولید شده دارد. زیرا با پارتیشن‌های بیشتر، طول کل حاشیه افزایش می‌یابد و در نتیجه تعداد جفت‌های منطبق واقع در پارتیشن‌های مختلف نیز افزایش می‌یابد. علاوه بر این، در مناطق متراکم، حاشیه باید کاهش یابد، که همچنین تعداد ترازهای از دست رفته را افزایش می دهد. هنگام کاهش

N_{W}

از 65536 به 512، تعداد ترازهای ایجاد شده 18 درصد کاهش می یابد. با این حال، همان کاهش در

N_{W}

زمان اجرا را به حدود 10 درصد از زمان اجرا اولیه کاهش می دهد.

به طور کلی، نتایج این آزمایش‌ها نشان می‌دهد که GLEAN می‌تواند به‌طور چشمگیری مقیاس‌پذیری را بهبود بخشد، و هم‌ترازی مجموعه‌های داده بزرگ را در مقیاس جهانی امکان‌پذیر می‌کند. با این حال، این به قیمت یادآوری است، زیرا سیستم جفت ترازهای بیشتری را از دست می دهد زیرا پارامترها برای کاهش زمان اجرا تغییر می کنند. با این حال، همانطور که قبلا بحث شد، از دست دادن یادآوری در مقایسه با بهبود زمان اجرا جزئی است. GLEAN هنوز یک مبادله جذاب بین عملکرد و مقیاس پذیری ارائه می دهد.

7. نتیجه گیری

در این مقاله، ما GLEAN را پیشنهاد کردیم، یک رویکرد مقیاس‌پذیر برای تراز کردن نهادهای جغرافیایی (یعنی POI) از منابع مختلف بر اساس چهار ویژگی (برچسب، مختصات، نوع و آدرس). رویکرد ما می‌تواند منابع ناقص و سلسله‌مراتب نوع پیچیده را مدیریت کند و از ارتباط بافت محلی نشانه‌ها و برچسب‌های چند زبانه استفاده کند. روش آفلاین از پارتیشن بندی حاشیه تطبیقی برای فعال کردن ترازهای مقیاس پذیر مجموعه داده های بزرگ در مقیاس جهانی استفاده می کند.

مطالعه فرسایشی ما نقش مهم رمزگذار جملات چندزبانه را در افزایش کیفیت تراز، به ویژه یادآوری نشان می‌دهد. این مطالعه همچنین اهمیت شباهت محلی-IDF Jaccard (LIDFJ) را در بهبود یادآوری GLEAN نشان داده است. از طریق این مطالعه، ما همچنین مزایای تعبیه نوع و تنزل نوع را در بهبود دقت و یادآوری شناسایی کردیم.

علاوه بر این، ما مقیاس پذیری GLEAN را از نظر زمان اجرا هم ترازی ارزیابی کردیم. نتایج نشان می‌دهد که پارتیشن‌بندی برای بهبود مقیاس‌پذیری و امکان تراز کردن در مقیاس جهانی بسیار مهم است، با افزودن حاشیه پارتیشن به کاهش تعداد ترازهای از دست رفته با تأثیر جزئی بر زمان اجرا کمک می‌کند. نشان داده شد که استفاده از نوع جاسازی و شباهت جاسازی برچسب به نامزدهای تراز هرس اولیه در کاهش زمان اجرا بسیار موثر است. سیستم پیشنهادی ما برای هم ترازی نهادهای جغرافیایی از منابع ناهمگن در مقیاس بزرگ با موفقیت در عمل برای تراز کردن داده های مورد استفاده در تولید استفاده شد.

یکی از جهت‌گیری‌های کاری بالقوه در آینده، اعمال مفهوم ارتباط نشانه بافت محلی در یک شبکه ترانسفورماتور برای رمزگذاری متن (مثلاً برچسب‌ها و آدرس‌ها) در ترکیب با مختصات موجودات جغرافیایی است. این به نمایش توکن اجازه می دهد تا به مختصات رمزگذاری شده نیز توجه کند. یکی دیگر از جهت‌گیری‌های تحقیقاتی جالب، یادگیری بدون نظارت یا با نظارت ضعیف بازنمایی نهادهای جغرافیایی است. ایده این است که بتوانیم مدلی را یاد بگیریم که بتواند برچسب، نوع، آدرس و اطلاعات مختصات موجود را رمزگذاری کند، بدون اینکه نیاز به مقادیر زیادی داده برچسب‌گذاری شده باشد.

مشارکت های نویسنده

مفهوم سازی، آندره ملو; روش شناسی، آندره ملو، بتیسام ار-رحمدی و جف زی. نرم افزار، آندره ملو; اعتبار سنجی، آندره ملو و بتیسام ار رحمدی. تحلیل رسمی، آندره ملو; تحقیق، آندره ملو؛ سرپرستی داده ها، آندره ملو و بتیسام الرحمدی. نوشتن – آماده سازی پیش نویس اصلی، آندره ملو و بتیسام الرحمدی. نوشتن-بررسی و ویرایش، آندره ملو، بتیسام ار-رحمدی و جف زی. تجسم، آندره ملو و بتسام الرحمدی. نظارت، آندره ملو و جف زی پان. مدیریت پروژه، جف زد. تامین مالی، جف زی پان. همه نویسندگان نسخه منتشر شده نسخه خطی را خوانده و با آن موافقت کرده اند.

منابع مالی

این تحقیق هیچ بودجه خارجی دریافت نکرد.

بیانیه هیئت بررسی نهادی

قابل اجرا نیست.

بیانیه رضایت آگاهانه

قابل اجرا نیست.

بیانیه در دسترس بودن داده ها

داده ها به دلیل محدودیت های تجاری در دسترس نیست.

تضاد علاقه

نویسندگان هیچ تضاد منافع را اعلام نمی کنند.

منابع

Goodchild، M. شهروندان به عنوان حسگرها: دنیای جغرافیای داوطلبانه. ژئوژورنال 2007 ، 69 ، 211-221. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
ویمن، اس. Bernard, L. ادغام داده های مکانی در زیرساخت های داده های مکانی با استفاده از داده های پیوندی. بین المللی جی. جئوگر. Inf. علمی 2016 ، 30 ، 613-636. [ Google Scholar ] [ CrossRef ]
شفلر، تی. شیرو، آر. Lehmann, P. Matching Points of Interest از سایت های مختلف شبکه های اجتماعی. در مجموعه مقالات سی و پنجمین کنفرانس سالانه آلمان در مورد پیشرفت در هوش مصنوعی، زاربروکن، آلمان، 24-27 سپتامبر 2012. Springer: برلین/هایدلبرگ، آلمان، 2012; ص 245-248. [ Google Scholar ] [ CrossRef ]
بیری، سی. دویتشر، ی. کانزا، ی. صفرا، ای. Sagiv، Y. یافتن اشیاء متناظر هنگام ادغام چندین مجموعه داده جغرافیایی-مکانی. در مجموعه مقالات سیزدهمین کارگاه بین المللی سالانه ACM در سیستم های اطلاعات جغرافیایی، نیویورک، نیویورک، ایالات متحده آمریکا، 3 تا 6 نوامبر 2005. صص 87-96. [ Google Scholar ] [ CrossRef ]
سمال، ع. ست، SC; Cueto، K. یک رویکرد مبتنی بر ویژگی برای ترکیب منابع جغرافیایی. بین المللی جی. جئوگر. Inf. علمی 2004 ، 18 ، 459-489. [ Google Scholar ] [ CrossRef ]
دنگ، ی. لو، ا. لیو، جی. Wang, Y. تطبیق نقطه مورد علاقه بین مجموعه داده های مختلف جغرافیایی. ISPRS Int. J. Geo-Inf. 2019 ، 8 ، 435. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
کیم، جی. واسردانی، م. Winter, S. تطبیق شباهت برای یکپارچه سازی اطلاعات مکانی استخراج شده از توضیحات مکان. بین المللی جی. جئوگر. Inf. علمی 2017 ، 31 ، 56-80. [ Google Scholar ] [ CrossRef ]
لی، ایکس. موری، پی. راث، دی. ادغام معنایی در متن: از نام های مبهم تا موجودیت های قابل شناسایی. AI Mag. 2005 ، 26 ، 45-58. [ Google Scholar ] [ CrossRef ]
صفرا، ای. کانزا، ی. ساگیو، ی. Doytsher, Y. یکپارچه سازی داده ها از نقشه ها در وب جهانی. در مجموعه مقالات وب و سیستم های اطلاعات جغرافیایی بی سیم، ششمین سمپوزیوم بین المللی، W2GIS 2006، هنگ کنگ، چین، 4-5 دسامبر 2006. Carswell, JD, Tezuka, T., Eds. Springer: برلین/هایدلبرگ، آلمان، 2006; جلد 4295، ص 180–191. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
مک کنزی، جی. یانوویچ، ک. آدامز، ب. تطبیق چند ویژگی وزنی نقاط مورد علاقه تولید شده توسط کاربر. در مجموعه مقالات بیست و یکمین کنفرانس بین المللی ACM SIGSPATIAL در مورد پیشرفت در سیستم های اطلاعات جغرافیایی، نیویورک، نیویورک، ایالات متحده آمریکا، 5-8 نوامبر 2013. صص 440-443. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
لیو، اس. چو، ی. متعجب.؛ فنگ، جی. Zhu, X. جستجوی تشابه فضایی-متنی Top-k. در مجموعه مقالات مدیریت اطلاعات عصر وب – پانزدهمین کنفرانس بین المللی، WAIM 2014، ماکائو، چین، 16-18 ژوئن 2014; Li, F., Li, G., Hwang, S., Yao, B., Zhang, Z., Eds. Springer: برلین/هایدلبرگ، آلمان، 2014; جلد 8485، ص 602–614. [ Google Scholar ] [ CrossRef ]
نواک، تی. پیترز، آر. Zipf، A. تطبیق نقاط مورد علاقه مبتنی بر نمودار از مجموعه داده‌های جغرافیایی مشترک. ISPRS Int. J. Geo-Inf. 2018 ، 7 ، 117. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
پورویس، بی. مائو، ی. رابینسون، دی. آنتروپی و کاربرد آن در سیستم های شهری. Entropy 2019 ، 21 ، 56. [ Google Scholar ] [ CrossRef ] [ PubMed ] [ نسخه سبز ]
کم، آر. تکلر، زد. Cheah, L. چارچوب تلفیقی نقطه مورد علاقه (POI) پایان به پایان. ISPRS Int. J. Geo-Inf. 2021 ، 10 ، 779. [ Google Scholar ] [ CrossRef ]
الکساکیس، م. آتاناسیو، اس. کوواراس، ی. پاترومپاس، ک. Skoutas، D. SLIPO: یکپارچه سازی داده های مقیاس پذیر برای نقاط مورد علاقه. در مجموعه مقالات دومین کارگاه بین المللی ACM SIGSPATIAL در مورد دسترسی به داده های جغرافیایی و API های پردازش، سیاتل، WA، ایالات متحده آمریکا، 3 نوامبر 2020. [ Google Scholar ] [ CrossRef ]
جیانوپولوس، جی. اسکوتاس، دی. مارولیس، تی. کاراگیاناکیس، ن. Athanasiou، S. FAGI: چارچوبی برای ترکیب داده های RDF جغرافیایی. در مجموعه مقالات حرکت به سوی سیستم‌های اینترنتی معنادار: کنفرانس‌های OTM 2014، آمانتیا، ایتالیا، 27 تا 31 اکتبر 2014. Meersman, R., Panetto, H., Dillon, T., Missikoff, M., Liu, L., Pastor, O., Cuzzocrea, A., Sellis, T., Eds. Springer: برلین/هایدلبرگ، آلمان، 2014; صص 553-561. [ Google Scholar ]
یو، اف. غرب، جی. آرنولد، ال. مک میکین، دی. Moncrieff, S. ادغام خودکار داده های مکانی با استفاده از فناوری های وب معنایی. در مجموعه مقالات کنفرانس چند کنفرانسی هفته علوم کامپیوتر استرالیا، کانبرا، استرالیا، 1 تا 6 فوریه 2016. انجمن ماشین‌های محاسباتی: نیویورک، نیویورک، ایالات متحده آمریکا، 2016. صص 1-10. [ Google Scholar ] [ CrossRef ]
نهاری، م.ک. قدیری، ن. برائانی دستجردی، ع. Sack, J. یک معیار تشابه جدید برای وضوح موجودیت فضایی بر اساس مدل دانه بندی داده ها: مدیریت ناسازگاری ها در توضیحات مکان. Appl. هوشمند 2021 ، 51 ، 6104-6123. [ Google Scholar ] [ CrossRef ]
کوسو، وی. Barbosa, L. پیوند دادن رکوردهای مکان با استفاده از رمزگذارهای چند نمای. محاسبات عصبی Appl. 2021 ، 33 ، 12103-12119. [ Google Scholar ] [ CrossRef ]
جیانگ، ایکس. د سوزا، EN; پسرانقادر، ع. هو، بی. نقره، DL; Matwin, S. TrajectoryNet: یک نمایش مسیر GPS جاسازی شده برای طبقه بندی مبتنی بر نقطه با استفاده از شبکه های عصبی مکرر. در مجموعه مقالات بیست و هفتمین کنفرانس بین المللی سالانه علوم کامپیوتر و مهندسی نرم افزار، مارکهام، ON، کانادا، 6 تا 8 نوامبر 2017؛ IBM Corp.: Foster City، CA، USA، 2017; صص 192-200. [ Google Scholar ]
سهگل، وی. گتور، ال. Viechnicki، PD Entity Resolution در یکپارچه سازی داده های مکانی. در مجموعه مقالات چهاردهمین سمپوزیوم بین‌المللی سالانه ACM در زمینه پیشرفت‌ها در سیستم‌های اطلاعات جغرافیایی، آرلینگتون، ویرجینیا، ایالات متحده آمریکا، 10–11 نوامبر 2016. انجمن ماشین های محاسباتی: نیویورک، نیویورک، ایالات متحده آمریکا، 2006; صص 83-90. [ Google Scholar ] [ CrossRef ]
لی، سی. لیو، ال. دای، ز. لیو، ایکس. روش تطبیق نقطه مورد نظر منبع‌یابی متفاوت با در نظر گرفتن محدودیت‌های متعدد. ISPRS Int. J. Geo-Inf. 2020 ، 9 ، 214. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
یانگ، ی. سر، دی. احمد، ع. گو، ام. قانون، ج. ثابت، ن. Ábrego، GH; یوان، اس. تار، سی. سانگ، ی. و همکاران رمزگذار جملات جهانی چند زبانه برای بازیابی معنایی. arXiv 2019 ، arXiv:1907.04307. [ Google Scholar ]
چیدامبارام، م. یانگ، ی. سر، دی. یوان، اس. سانگ، ی. استروپ، بی. Kurzweil, R. یادگیری بازنمایی جملات چندزبانی از طریق یک مدل رمزگذار دوگانه چند کاره. arXiv 2018 , arXiv:1810.12836. [ Google Scholar ]
فنگ، اف. یانگ، ی. سر، دی. آریواژگان، ن. وانگ، دبلیو. تعبیه جملات BERT زبانی. arXiv 2020 ، arXiv:2007.01852. [ Google Scholar ]
یانگ، بی. Yih، SWt; او، X. گائو، جی. دنگ، ال. تعبیه نهادها و روابط برای یادگیری و استنتاج در پایگاه های دانش. در مجموعه مقالات کنفرانس بین‌المللی نمایش‌های یادگیری (ICLR) 2015، سن دیگو، کالیفرنیا، ایالات متحده آمریکا، 7 تا 9 مه 2015. [ Google Scholar ]

شکل 1. فراوانی ” کنیسه ” در زمینه های جغرافیایی اورشلیم غربی ( سمت چپ ) و ادینبورگ ( راست ).

شکل 2. مثالی از بدیهیات زیر کلاس اشتباه در یک سلسله مراتب که منجر به استدلال اشتباه می شود.

شکل 3. معماری GLEAN در سناریوی تطبیق آفلاین.

شکل 4. نمونه ای از انتخاب موجودیت های کاندید برای تطبیق مبتنی بر پارتیشن.

شکل 5. فرآیند امتیازدهی با استفاده از برچسب و جاسازی نوع برای هرس زودهنگام نامزدهای تراز.

شکل 6. نمونه هایی از جفت های POI منطبق ( سمت چپ ) و غیر منطبق ( راست ) که از اجرای GLEAN به دست آمده است.

شکل 7. ارزیابی تأثیر متغیرهای k ( بالا سمت چپ )، تعداد نام مستعار

η

( بالا سمت راست )، حاشیه پارتیشن m ( پایین-چپ ) و حداکثر تعداد موجودات در هر پارتیشن

N_{W}

( پایین سمت راست ) در زمان اجرا تراز.

شکل 8. ارزیابی تاثیر رتبه مجدد k ( بالا سمت چپ )، تعداد نام های مستعار

η

( بالا سمت راست )، حاشیه پارتیشن m ( پایین-چپ ) و حداکثر تعداد موجودات در هر پارتیشن

N_{W}

( پایین سمت راست ) روی کیفیت ترازها.

دسته‌بندی نشده

بدون دیدگاه

دیدگاهتان را بنویسید لغو پاسخ

برای نوشتن دیدگاه باید وارد بشوید.

مشاورین هوش پیروزی

سیستمی برای تراز کردن موجودات جغرافیایی از منابع بزرگ ناهمگن

سیستمی برای تراز کردن موجودات جغرافیایی از منابع بزرگ ناهمگن

چکیده

1. مقدمه

2. کارهای مرتبط

3. بیان مشکل

4. اجزای GLEAN

4.1. ارتباط رمز زمینه محلی

4.2. نمرات تراز

4.2.1. مولفه برچسب

4.2.1.1. پیش پردازش برچسب

4.2.1.2. لیبل سفارش قطعات

4.2.1.3. رمزگذار جملات چند زبانه

4.2.1.4. شباهت وزنی ارتش اسرائیل

4.2.2. کامپوننت را تایپ کنید

4.2.2.1. Embeddings را تایپ کنید

4.2.2.2. Demotion را تایپ کنید

4.2.3. جزء آدرس

4.2.4. مولفه فاصله جغرافیایی

4.3. قوانین پس پردازش

5. معماری سیستم تراز نهادهای جغرافیایی (GLEAN).

5.1. تطبیق مبتنی بر پارتیشن

5.2. تطبیق بازگشتی

5.3. بحث در مورد سناریوی تراز آنلاین

6. آزمایشات

6.1. مجموعه داده ها

6.2. نتایج و بحث

6.2.1. مطالعه ابلیشن

6.2.2. نمونه هایی از تراز GLEAN

6.2.3. مقیاس پذیری GLEAN

7. نتیجه گیری

مشارکت های نویسنده

منابع مالی

بیانیه هیئت بررسی نهادی

بیانیه رضایت آگاهانه

بیانیه در دسترس بودن داده ها

تضاد علاقه

منابع

قبلیGisGCN: چارچوبی مبتنی بر نمودار بصری برای تطبیق مناطق جغرافیایی در طول زمان

بعدیVINS-Dimc: یک سیستم ناوبری بصری-اینرسی برای محیط پویا که چندین محدودیت را یکپارچه می کند

مطالب مرتبط ...

🚀 برنامه ۱۲ هفته‌ای فشرده: متخصص هوش مصنوعی مکانی (GeoAI)

Elementor #248353

سیستم اطلاعات جغرافیایی (GIS): ستون فقرات فضایی مدیریت داده‌ها و تصمیم‌گیری در صنعت نفت و گاز

دوره آموزشی نقشه برداری با پهپاد: اصول، فناوری‌ها و کاربردها

دوره آموزشی چرخه رشد: آگاهی → انتخاب → تغییر

دوره جامع و کاربردی ArcGIS: از مفاهیم پایه تا تحلیل‌های پیشرفته و پیاده‌سازی سازمانی

بدون دیدگاه

دیدگاهتان را بنویسید لغو پاسخ

درباره سرزمین فناوری مکانی GISLAND

دسترسی سریع

اطلاعات

خبرنامه

خبرنامه

درباره سرزمین فناوری مکانی GISLAND

دسترسی سریع

اطلاعات

دسترسی سریع