تطبیق آدرس همچنان نقش اصلی را در سطوح مختلف، از طریق کدگذاری جغرافیایی و یکپارچه سازی داده ها از منابع مختلف، با هدف ارتقای فعالیت هایی مانند برنامه ریزی شهری، خدمات مبتنی بر مکان، و ساخت پایگاه های داده مانند موارد مورد استفاده در عملیات سرشماری، ایفا می کند. با این حال، وظیفه تطبیق آدرس همچنان با چالش های متعددی مانند سوابق آدرس غیر استاندارد یا ناقص یا آدرس هایی که به زبان های پیچیده تر نوشته شده اند، مواجه است. به منظور درک بهتر اینکه چگونه می‌توان بر محدودیت‌های فعلی غلبه کرد، این مقاله یک مرور ادبیات سیستماتیک متمرکز بر رویکردهای خودکار برای پرداختن به تطابق و تکامل آنها در طول زمان انجام داد. دستورالعمل‌های گزارش‌دهی ترجیحی برای بررسی‌های سیستماتیک و متاآنالیز (PRISMA) دنبال شد، در نتیجه مجموعه نهایی 41 مقاله بین سال‌های 2002 و 2021 منتشر شد که اکثریت آن‌ها بعد از سال 2017 هستند و نویسندگان چینی پیشتاز هستند. یافته‌های اصلی حرکت ثابتی را از رویکردهای سنتی‌تر به روش‌های یادگیری عمیق مبتنی بر معناشناسی، معماری‌های رمزگذار-رمزگشا، و مکانیسم‌های توجه و همچنین پذیرش اخیر رویکردهای ترکیبی که استفاده فزاینده‌ای از محدودیت‌ها و موجودیت‌های فضایی را نشان می‌دهد، نشان داد. اتخاذ رویکردهای مبتنی بر تکامل و روش‌های حفظ حریم خصوصی به عنوان برخی از شکاف‌های تحقیقاتی برای بررسی در مطالعات آینده است. و مکانیسم‌های توجه، و همچنین اتخاذ رویکردهای ترکیبی اخیر که استفاده فزاینده‌ای از محدودیت‌ها و موجودیت‌های فضایی را ایجاد می‌کند. اتخاذ رویکردهای مبتنی بر تکامل و روش‌های حفظ حریم خصوصی به عنوان برخی از شکاف‌های تحقیقاتی برای بررسی در مطالعات آینده است. و مکانیسم‌های توجه، و همچنین اتخاذ رویکردهای ترکیبی اخیر که استفاده فزاینده‌ای از محدودیت‌ها و موجودیت‌های فضایی را ایجاد می‌کند. اتخاذ رویکردهای مبتنی بر تکامل و روش‌های حفظ حریم خصوصی به عنوان برخی از شکاف‌های تحقیقاتی برای بررسی در مطالعات آینده است.

کلید واژه ها:

تطبیق آدرس ؛ تجزیه آدرس ; یادگیری ماشینی ؛ یادگیری عمیق ؛ پردازش زبان طبیعی ; کدگذاری جغرافیایی آدرس

1. مقدمه

آدرس اشاره ای به یک مکان منحصر به فرد روی زمین است و معمولاً بر اساس یک سیستم آدرس دهی خاص (ترکیبی از اجزایی مانند نام خیابان ها، شماره ساختمان ها، واحدها، سطوح، جهت واحدها، کدهای پستی و غیره) بیان می شود. بر اساس ساختار آن و همچنین بر اساس انواع اجزای مورد استفاده از سایرین متمایز شود [ 1 ]. با توجه به ماهیت سلسله مراتبی فیلدهایی که یک آدرس را تشکیل می دهند، ارتباط بین آدرس ها و فیلدهای آدرس را می توان به طور رسمی مدل کرد، بنابراین ویژگی های معنایی فیلدهای آدرس را در نظر گرفت [ 2 ].
به طور کلی، تطبیق آدرس شامل فرآیند شناسایی جفت رکوردها از طریق مقایسه آدرس های کامل یا فیلدهای آدرس، با هدف به دست آوردن بهترین نتیجه تطبیق در رابطه با آدرس جستجو شده است [ 3 ]. تطبیق آدرس همچنین به عنوان فرآیند مرتبط کردن توصیف تحت اللفظی یک آدرس به مکان متناظر آن روی نقشه [ 4 ] توصیف می شود. در این فرآیند که به نام ژئوکدینگ شناخته می‌شود، آدرس‌ها (تا نام خیابان یا نام خیابان و شماره در، همراه با کد پستی و/یا یک بخش اداری) با یک پایگاه داده مرجع تطبیق داده می‌شوند تا مختصات جغرافیایی مکانی مربوطه را به دست آورند. 5]. در غیاب یک شناسه منحصر به فرد (مانند شماره تامین اجتماعی، برای مثال)، آدرس ها همچنین می توانند به عنوان شبه شناسه در پیوند دادن سوابق مربوط به یک نهاد در یک یا چند مجموعه داده استفاده شوند [ 6 ]. به این ترتیب، حوزه‌های اصلی کاربرد تطبیق آدرس شامل، از جمله، غنی‌سازی کیفیت داده‌ها [ 3 ]، شناسایی موجودیت نام‌گذاری شده [ 6 ]، و تحلیل‌های مبتنی بر مکان به طور کلی [ 7 ] است که برای بیان تحویل و گرفتن اهمیت دارند. ارائه خدمات، مدیریت ریسک بلایا و واکنش، و همچنین در ساخت پایگاه های داده مانند موارد مورد استفاده در عملیات سرشماری [ 3 ].
ارتباط نزدیک با تطبیق آدرس، وظیفه تجزیه آدرس یا بخش بندی آدرس است، که شامل تجزیه یک آدرس به اجزای مختلف آن، مانند نام خیابان یا کد پستی است. اساساً، از طریق تجزیه، امکان تبدیل آدرس های ورودی بدون ساختار یا نیمه ساختار یافته به آدرس های ساخت یافته وجود دارد که به غلبه بر آدرس های مبهم یا مبهم کمک می کند [ 5 ].
با توجه به تطبیق فیلدها یا آدرس‌ها، سه نوع شباهت باید در نظر گرفته شود: شباهت رشته‌ای، شباهت معنایی و شباهت فضایی [ 2 ]. شباهت رشته ها عمدتاً بر یافتن زیررشته ها یا کاراکترهای مشترک بین رکوردهای آدرس یا عناصر متمرکز است، در حالی که شباهت معنایی سعی می کند روابط زبانی بین کلمات مانند مترادف ها را نشان دهد (به عنوان مثال، “خیابان” و “جاده” هر دو از انواع خیابان تشکیل شده اند اما بر اساس رویکرد تشابه رشته ای بسیار متفاوت در نظر گرفته شود). در نهایت، شباهت فضایی را می توان بر اساس شماره خیابان ها، در صورت وجود، اندازه گیری کرد. ترکیبی از شباهت‌های متعدد عموماً دقت تطبیق آدرس را افزایش می‌دهد، حتی اگر تمایل به نادیده گرفتن ویژگی‌های معنایی و مجاورت‌های فضایی وجود داشته باشد.2 ].
روش‌های تطبیق آدرس سنتی به دو دسته اصلی سازمان‌دهی می‌شوند: روش‌های مبتنی بر شباهت رشته‌ای (محاسبه شباهت متن بین دو آدرس) و روش‌های مبتنی بر عنصر آدرس (مقایسه نتایج سلسله مراتبی و نرخ تطبیق بین هر عنصر آدرس) [ 8 ]. ]. با این حال، این روش‌ها همیشه موفق به مقابله با سوابق آدرس غیراستاندارد، با عناصر آدرس اضافی یا گمشده و همپوشانی‌های تحت اللفظی کمی یا نوشته‌شده در زبان‌های پیچیده‌تر نمی‌شوند [ 9 ].
به منظور درک بهتر این که چگونه می توان بر این محدودیت ها غلبه کرد و چگونه بر این محدودیت ها غلبه کرد، این مقاله یک مرور ادبیات سیستماتیک (SLR) با تمرکز بر رویکردهای خودکار برای پرداختن به تطابق و تکامل آنها در طول زمان انجام داد. تجزیه و تحلیل کتاب سنجی روشی بسیار مفید برای کشف موضوعات داغ، روندها، شکاف های تحقیقاتی، نویسندگان و مؤسسات برتر [ 10 ] است و تا آنجا که ما می دانیم، هیچ مطالعه مشابهی قبلاً در زمینه مورد تجزیه و تحلیل منتشر نشده است. با این حال، باید اشاره مختصری به بررسی‌های مرتبط، یعنی در زمینه استخراج اطلاعات جغرافیایی از اسناد متنی [ 11 ] و داده‌های بدون ساختار و متنوع، مانند آدرس‌های موجود در وب [ 12 ] کرد. اولین مطالعه [ 11] عمدتاً به پیش‌بینی مختصات جغرافیایی کل اسناد بر اساس محتوای متنی آن‌ها، با بررسی تحقیقات قبلی در این زمینه می‌پردازد که به دلیل تفاوت معنادار در روش‌های مورد استفاده، ژئوکدینگ آدرس به صراحت از محدوده آن مستثنی شده است. در مورد دوم از مطالعات ذکر شده [ 12 ]، مروری بر رویکردهای مختلف استخراج آدرس پستی از وب با دو هدف انجام می‌شود: اول، تحلیل کیفیت داده‌های روزنامه‌نگاران (فرهنگ‌های جغرافیایی) مانند اطلاعات جغرافیایی داوطلبانه. GeoNames مبتنی بر VGI ( https://www.geonames.org/ (دسترسی در 9 نوامبر 2021)) و OpenStreetMap ( https://www.openstreetmap.org (دسترسی در 9 نوامبر 2021)) [ 13]؛ دوم، شناسایی عواملی که بیشتر مانع عملکرد استخراج آدرس پستی می شوند، از جمله تنوع سبک ها و منابع آدرس ها در وب و همچنین ماهیت مبهم و پویا آنها. نتیجه گیری اصلی به پوشش صفحات وب واقعی و شبکه های اجتماعی با در نظر گرفتن افزایش دانش جغرافیایی در مورد نقاط مورد علاقه (رستوران ها، مدارس، بیمارستان ها و غیره) در کنار استفاده از مدل های یادگیری عمیق در این زمینه اشاره دارد. بنابراین می توان بیان کرد که، اگرچه مربوط به تطبیق آدرس است، دامنه استخراج آدرس پستی در ابعاد اصلی زیر با موارد قبلی متفاوت است: روش های مورد استفاده (به شدت وابسته به روزنامه ها و شامل پیش پردازش اسناد html حاوی موجودیت های بسیار متنوع) است. منبع اطلاعات (وب، به جای پایگاه داده های نیمه ساختاریافته)، و اجزای آدرس (که تا نام خیابان و در برخی موارد به شماره خیابان نیز می رسد). در رابطه با این جنبه آخر، همچنین باید توجه داشت که در ساختارهای آدرس مانند آنچه در پرتغال و چندین کشور دیگر استفاده می شود [14 ]، شماره خیابان بعد از نام خیابان درج می شود، که می تواند شامل اعدادی نیز باشد، مانند خیابان هایی که به عنوان مثال از تعطیلات مهم نامگذاری شده اند. در مورد آدرس‌های مربوط به ساختمان‌های آپارتمانی و سایر انواع خانه‌های چند خانواری، شماره خیابان با شناسایی عناصر آدرس مانند واحد، سطح و جهت واحد که با استفاده از واژه‌نامه‌ها به سختی می‌توان به آنها پرداخت. یا حتی رویکردهای سنتی‌تر یادگیری ماشینی، به دلیل تنوع نوشتاری و استفاده از اختصارات غیر استاندارد، همراه با عناصر گمشده.
برای اجرای SLR پیشنهادی، ساختار مقاله به شرح زیر است: بخش 2 منابع داده اصلی، استراتژی‌های جستجو، روش‌های غربالگری و ابزار را ارائه می‌کند. بخش 3 شامل نتایج اصلی، بحث آنها و شکاف های تحقیقاتی شناسایی شده است. و در نهایت، در بخش 4 ، ما نتایج اصلی خود را ارائه می‌کنیم، از جمله برخی توصیه‌ها برای تحقیقات آینده.

2. مواد و روشها

2.1. منابع داده و استراتژی های جستجو

به منظور انتخاب مرتبط ترین مجموعه مقالات، پرس و جو زیر در آوریل 2021 و دسامبر 2021 (به منظور بازیابی مقالات جدیدتر) در مخازن الکترونیکی Scopus و Web of Science اجرا شد:
(“تطابق آدرس” یا “تطابق نام” یا “آدرس پارس*” یا “استانداردسازی آدرس” یا “پایگاه داده آدرس*” یا “رشته آدرس*” یا “داده های آدرس پستی” یا “آدرس های غیر استاندارد” یا “عنصر آدرس” بخش بندی» یا «نام و آدرس داده» یا «ژئوکدینگ آدرس» یا «آدرس های کدگذاری جغرافیایی» یا «آدرس جغرافیایی کد شده*») و («یادگیری ماشینی» یا «یادگیری عمیق» یا «شبکه عصبی*» یا «بازنمایی برداری» یا معنایی * یا احتمالی یا خودکار* یا «اندازه‌گیری تشابه*») و نه («آدرس IP*» یا «آدرس مک*» یا URL یا ایمیل*).
عبارات بولی OR/AND به این معناست که هر مقاله باید حداقل یک کلمه کلیدی از اولین زیرپرسوی درون براکت های منحنی و یک کلمه کلیدی از دومی داشته باشد. هدف عبارت بولی “AND NOT” حذف بیشتر هر مقاله ای است که حاوی یکی از کلمات کلیدی در آخرین پرس و جو است. کلمات کلیدی موجود در پرس و جو نهایی ناشی از یک فرآیند تنظیم دقیق ترکیب کلمات کلیدی جایگزین بر اساس مقالات اخیراً منتشر شده در این زمینه، مانند مقالات Comber و Arribas-Bel [ 3 ] و Lin et al. [ 9 ]، و همچنین در مورد برخی از آثار قبلی، یعنی توسط Churches و همکاران. [ 6]. کلمات کلیدی “داده آدرس” به دلیل استفاده مبهم آدرس به عنوان اسم و فعل و وجود تعداد قابل توجهی از مقالات مرتبط با مطالعه مسائل عدم تعادل داده ها، به صراحت از پرس و جو حذف شدند. کلمه کلیدی “ژئوکدینگ”، اگرچه مرتبط است، اما به دلیل ماهیت کلی تر و “فاضگی” مفهومی آن (به این معنا که بسته به درک و تجربه کاربر می تواند معانی متفاوتی داشته باشد)، با آدرس های پستی متشکل از یکی از موارد حذف شد. ورودی های احتمالی که می توان به آنها یک کد جغرافیایی اختصاص داد [ 15]. ترکیبی از کلمات کلیدی “geocoding” یا “geocoded” و “آدرس” در نظر گرفته شد. در نهایت، یک دوره زمانی 20 ساله در نظر گرفته شد، زیرا کار اصلی در مورد موضوع تحقیق بر اساس رویکردهای یادگیری ماشین برای اولین بار در سال 2002 منتشر شد [ 6 ].

2.2. مراحل غربالگری

در مجموع 122 سند متمایز از پایگاه‌های اطلاعاتی ذکر شده قبلی پس از کپی برداری از مقالات رایج بازیابی شد. برای انتخاب مقالات مرتبط، معیارهای خروج زیر در نظر گرفته شد:
  • حذف نقدها، فصل‌های کتاب، گزارش‌ها و سایر موارد تکراری (مثلاً: مقالاتی که به عنوان فصل‌های کتاب در مجموعه‌های Springer “مطالعات در هوش محاسباتی” منتشر شده‌اند).
  • طبق رتبه‌بندی کنفرانس ارائه‌شده در https://www.conferenceranks.com/ (در 9 نوامبر 2021) (به عنوان مثال: کنفرانس بین‌المللی محاسبات طبیعی) حذف کنفرانس‌هایی که به عنوان «A» رتبه‌بندی نشده‌اند (از آوریل 2021)، ;
  • طبق شاخص رتبه مجله SCImago ( https://www.scimagojr.com/ (دسترسی در 9 نوامبر 2021)) به عنوان Q1 یا Q2 رتبه بندی نشده است (از آوریل 2021) (به عنوان مثال: مجله جنگل روسیه علوم پایه)؛
  • حذف مقالاتی که در حیطه تحقیق نبوده اند (مثلاً: مقالاتی که با ورودی های غیر مرتبط با آدرس ها سروکار دارند).
با توجه به روش‌های غربالگری، دستورالعمل‌های موارد گزارشگری ترجیحی برای بررسی‌های سیستماتیک و متاآنالیز (PRISMA) [ 16 ] دنبال شد که منجر به گنجاندن نهایی 41 مقاله همانطور که در شکل 1 نشان داده شده است.

2.3. ابزار

Excel 2010 (Microsoft Corp)، VOSviewer 1.6.16 ( https://www.VOSviewer.com (دسترسی در 9 نوامبر 2021)) و Gephi 0.9.2 ( https://gephi.org/ (دسترسی در 9 نوامبر 2021) ) برای تجزیه و تحلیل کیفی و کمی کلمات کلیدی و هم‌روی نویسنده و همچنین گرایش‌های انتشار، کشورهای برتر، شکاف‌های پژوهشی، حوزه‌های کاربردی و روش‌ها استفاده شد. VOSviewer از یک ابزار تجزیه و تحلیل کتاب سنجی برای تجزیه و تحلیل شبکه بر اساس تکنیک های خوشه بندی و متن کاوی تشکیل شده است [ 17 ]. این سه نوع تجسم را فعال می کند: تجسم شبکه، تجسم همپوشانی و تجسم چگالی. در این تحلیل، برای سادگی، فقط از دو مورد اول استفاده شد. Gephi متشکل از یک نرم افزار متن باز برای تجزیه و تحلیل شبکه [18 ] در طیف وسیع تری از موضوعات، استخراج معیارهای تئوری گراف را علاوه بر موارد ارائه شده توسط VOSviewer امکان پذیر می کند. به این ترتیب، در این مقاله، جفی بیشتر به صورت فرعی، هر زمان که لازم بداند، استفاده شده است.

3. نتایج و بحث

3.1. نتایج

3.1.1. محل انتشار مقالات برگزیده

از 41 مقاله ای که معیارهای ورود را داشتند، 17 مقاله در مجلات Q1، 10 در مجلات Q2، 6 در یک سری کتاب Q2 و 8 مابقی در مجموعه مقالات کنفرانس منتشر شدند، همانطور که در شکل 2 نشان داده شده است :
در جدول 1 و جدول 2 به ترتیب مجلات اصلی و مجموعه مقالات کنفرانس ارائه شده است.
از نظر تعداد مقالات، مجلات برتر عبارتند از: ISPRS International Journal of Geo-Information (با 4 مقاله)، مجله Applied Sciences (سوئیس) (با 2 مقاله)، مجله International Journal of Geographical Information Science (با 2 مقاله)، مجله Transactions in GIS (با 2 مقاله) و Wuhan Daxue Xuebao (Xinxi Kexue Ban)/Geomatics and Information Science از دانشگاه ووهان (با 2 مقاله) که چهار مقاله اول در رتبه Q1 قرار دارند. در میان ناشران برتر مجلات می‌توان به MDPI AG (سوئیس)، موسسه انتشارات دیجیتال چند رشته‌ای MDPI (سوئیس)، Taylor and Francis Ltd. (بریتانیا)، Wiley-Blackwell Publishing Ltd. (بریتانیا) و دانشگاه ووهان (چین) اشاره کرد. تأثیرگذارترین مجلات از نظر تعداد استناد نیز در رتبه Q1 قرار دارند (جدول 3 ) همانطور که انتظار می رفت. بیشتر مقالات کنفرانس از مجموعه کتاب یادداشت‌های سخنرانی در علوم کامپیوتر (با 6 مقاله) و پس از آن کنفرانس بین‌المللی تجزیه و تحلیل و شناسایی اسناد (با 3 مقاله) می‌آید که این مقاله از نظر تعداد استنادها تأثیرگذارتر است. نگران است.
به طور کلی، زمینه های تحقیقاتی اصلی شناسایی شده در تجزیه و تحلیل عبارتند از: علوم کامپیوتر (34%)، علوم زمین و سیاره شناسی (16%)، علوم اجتماعی (15%)، ریاضیات (9%)، مهندسی (5%)، پزشکی (4%). ) و فیزیک و نجوم (4٪)، با حوزه های باقیمانده مربوط به علوم تصمیم گیری، علم مواد، تجارت، مدیریت و حسابداری، مهندسی شیمی، اقتصاد، اقتصاد سنجی و مالی، و علوم محیطی است. کشورهای برتر منتشر کننده شامل بریتانیا (27%)، ایالات متحده (24%)، آلمان (15%) و سوئیس (15%) هستند. با در نظر گرفتن وابستگی نویسندگان، چین (با 38 درصد) در رتبه اول و پس از آن ایالات متحده (12 درصد)، بریتانیا (10 درصد) و هند (8 درصد) قرار دارند.
در دوره زمانی در نظر گرفته شده، از سال 2002 تا 2021، تعداد مقالات منتشر شده از سال 2017 به طور پیوسته در حال افزایش بوده است ( شکل 3 ). این روند را می توان با حجم زیادی از داده های آدرس بدون ساختار توضیح داد که با توسعه سریع اینترنت موبایل و خدمات مبتنی بر مکان و نیاز روزافزون به روش های تطبیق آدرس موثر، به منظور تسهیل کدگذاری جغرافیایی و ارتقای مدیریت مکانی، ایجاد شده است [ 2 ]. ، 9 ]. در کشورهایی مانند چین، گسترش سریع شهری همچنین منجر به افزایش نگرانی در مورد بهبود کیفیت آدرس و بازیابی داده‌های آدرس استاندارد شده است [ 19 ].
3.1.2. تجزیه و تحلیل وقوع کلمه کلیدی
تجزیه و تحلیل همزمانی کلمه کلیدی با استفاده از VOSviewer انجام شد، همانطور که در شکل 4 الف نشان داده شده است. یک کلمه کلیدی با یک دایره و اهمیت آن با اندازه دایره نشان داده می شود، با دایره هایی همرنگ متعلق به یک خوشه. تعداد دفعاتی که دو گره متصل به هم ارجاع می شوند با ضخامت پیوندی که دایره ها را به هم متصل می کند نشان داده می شود. به طور خاص، یک روش شمارش کامل، شامل 55 کلمه کلیدی غربال شده، با حداقل آستانه 2 وقوع استفاده شد. در شکل 4ب، یک تجسم همپوشانی نیز برای آشکار کردن روندهای در حال تغییر در کلمات کلیدی گنجانده شده است. رخدادهای قبلی با رنگ آبی و موارد اخیر با رنگ زرد نشان داده شده اند. زبان‌شناسی محاسباتی، مکانیسم‌های توجه، LSTM و خدمات مبتنی بر مکان به عنوان برخی از جدیدترین موضوعات تحقیقاتی ظاهر می‌شوند.
همانطور که در جدول 4 نشان داده شده است، بر اساس تکنیک خوشه بندی پیش فرض VOSviewer [ 17 ]، چهار خوشه شناسایی شدند: تطبیق آدرس و NLP، به رنگ سبز (به عنوان مثال: Xu و همکاران [ 20 ])، GIS/geocoding و یادگیری ماشین، به رنگ آبی (به عنوان مثال: Peng et al. [ 21 ])، استانداردسازی آدرس، به رنگ زرد (به عنوان مثال: Churches et al. [ 6 ]) و تشخیص و تجزیه آدرس، به رنگ قرمز (به عنوان مثال: Wei et al. [ 22 ]) .
3.1.3. تحلیل هم نویسندگی
همچنین از VOSviewer برای انجام تجزیه و تحلیل در مورد هم نویسندگی استفاده شد. روش شمارش کامل و حداقل 2 سند و 2 استناد انتخاب شد که در مجموع 23 نویسنده به دست آمد. همانطور که در جدول 5 و شکل 5 نشان داده شده استa،b، 9 خوشه پیدا شد، که به نظر می رسد حول کشورهای مبدأ نویسندگان همکار (و در بیشتر موارد، ساختارهای مدل آدرس مربوطه و زبانی که آدرس ها در آن نوشته شده است)، میزان همکاری بین محققان ( قدرت پیوند)، و میانگین سال انتشار: خوشه 1 مربوط به نویسندگانی از هند است (2010). خوشه‌های 2، 3 و 6 به محققان چینی که مقالاتی را به ترتیب در سال‌های 2020، 2021 و 2018-2019 منتشر کردند، که دومی قدرت پیوند ضعیف‌تری نسبت به اولی نشان می‌دهد. خوشه 4 شامل نویسندگان پرتغالی (2018) است. خوشه 5 شامل محققان استرالیایی است (2004). خوشه 7 فقط به یک نویسنده انگلیسی اشاره دارد (2019). و در نهایت، خوشه های 8 و 9 پژوهشگران چینی را درگیر انتشار در سال های مختلف (2006 و 2010) می کنند. با توجه به این که کارهای قبلی بر روی رویکردهای سنتی تر برای پرداختن به تطبیق و تجزیه متمرکز شده اند. به طور کلی، نویسندگان چینی با 19 مقاله که 46 درصد از مقالات منتشر شده را نشان می‌دهند، پیشتاز هستند که نیمی از آنها بین سال‌های 2019 تا 2021 پس از اوج‌گیری در سال 2016 (11 درصد) منتشر شده‌اند. با این وجود، بیشترین استناد نویسندگان استرالیایی پیتر کریستن و تیم چرچز هستند که ممکن است تحت تأثیر سال و زمینه تحقیق مقالات مربوطه قرار گیرند، زیرا فرهنگ های مختلف انتشار و استناد ممکن است در مقالات نامطلوب دوره های زمانی جدیدتر و زمینه های فرعی خاص قرار بگیرند. [23 ].
به منظور درک بهتر ارتباط بین نویسندگان مختلف و تحقیقات آنها، تحلیلی بر اساس مراجع هر مقاله نیز انجام شد. از بین سه نوع مختلف رویکرد مبتنی بر استناد موجود در VOSviewer، جفت کتابشناختی [ 24 ] انتخاب شد که شباهت بین مقالات را بر اساس تعداد مراجعی که به اشتراک می گذارند می سنجد [ 25 ]. این رویکرد کمتر تحت تأثیر تغییرات در طول زمان قرار می‌گیرد زیرا مراجع ثابت می‌مانند [ 25 ] و در مطالعه مقایسه‌ای توسط X. Liu [ 26 ] از روش‌های جایگزین بهتر عمل کرد. در شکل 6تجزیه و تحلیل جفت کتابشناختی نویسندگان، بر اساس روش شمارش کامل و حداقل 2 سند و 2 استناد به تصویر کشیده شده است که به وجود روابط پیوندی کتابشناختی بین تقریباً همه محققین در دست اشاره دارد، علیرغم انزوای نسبی آنها در شرایط تجزیه و تحلیل هم نویسندگی، خارج از هر خوشه.
3.1.4. تحلیل کاربرد و روشها
ارزیابی حوزه‌های کاربردی اصلی، روش‌ها و الگوریتم‌های مورد استفاده در مقالات مورد مطالعه نیز با استفاده از VOSviewer انجام شد. دو تجزیه و تحلیل کلمات کلیدی جداگانه با استفاده از روش شمارش کامل و حداقل آستانه 1 وقوع انجام شد. در هر یک از تحلیل‌ها، تنها کلمات کلیدی مرتبط با کاربردها یا روش‌ها/الگوریتم‌ها در نظر گرفته شد.
شکل 7 نشان می دهد که 5 حوزه کاربردی برتر شامل سیستم های اطلاعات جغرافیایی (GIS)/سرشماری [ 27 ]، POIs/تحلیل فضایی [ 2 ]، GIS/برنامه ریزی شهری [ 9 ]، GIS/مراقبت های بهداشتی [ 28 ]، و مبتنی بر مکان خدمات [ 29 ]. با در نظر گرفتن میانگین سال انتشار ( شکل 8 )، می‌توان مشاهده کرد که جدیدترین حوزه‌های کاربردی شامل کنترل بیماری (کووید-19)، خدمات مبتنی بر مکان، و GIS/سرشماری/برنامه‌ریزی شهری است که در آن کدگذاری جغرافیایی، با اهمیت روزافزون در زندگی روزمره مردم، به عنوان یک ویژگی مشترک است.
تا آنجا که به روش‌ها/الگوریتم‌ها مربوط می‌شود، شکل 9 اهمیت رو به رشد الگوریتم‌های یادگیری عمیق را در زمینه تطبیق آدرس از سال 2018 نشان می‌دهد، مانند شبکه‌های عصبی مکرر [ 30 ]، شبکه‌های حافظه کوتاه‌مدت بلند مدت [ 31 ]، واحدهای بازگشتی دروازه‌دار. [ 30 ]، نمایش رمزگذار دو طرفه از ترانسفورماتورها [ 32 ، 33 ]، و شبکه های کانولوشن گراف [ 34 ]. شبکه‌های عصبی بازگشتی (RNN) در ابتدا برای شناسایی الگوها در توالی داده‌ها مانند رشته‌های کاراکتر، از طریق «یک حالت پنهان مکرر که فعال‌سازی در هر مرحله زمانی وابسته به مرحله زمانی قبلی است» طراحی شدند [ 35 ]] (ص 331). شبکه‌های حافظه کوتاه‌مدت (LSTM) و واحدهای بازگشتی دروازه‌ای (GRU) از دو پسوند معروف RNN تشکیل شده‌اند که می‌توانند مشکلات RNN در مدل‌سازی وابستگی‌های بلندمدت (یعنی توالی‌های طولانی) را مدیریت کنند. شبکه های کانولوشن گراف (GCN) مورد خاصی از شبکه های عصبی گراف (GNN) هستند که در ابتدا به عنوان پسوند RNN ها معرفی شدند [ 36 ]. نمایش رمزگذار دو طرفه از ترانسفورماتورها (BERT) [ 32 ، 33 ] شامل یک معماری شبکه ساده‌تر است که صرفاً بر اساس مکانیسم‌های توجه است (که وزن‌های بالاتری را به مهم‌ترین ویژگی‌ها اختصاص می‌دهد)، بدون نیاز به پردازش متوالی داده‌ها.
رویکردهای مبتنی بر احتمال برای تقسیم‌بندی و برچسب‌گذاری داده‌های توالی، مانند مدل‌های پنهان مارکوف (HMMs) و میدان‌های تصادفی شرطی (CRFs) [ 3 ]، به نوبه خود، بیشتر قبل از سال 2015 مورد استفاده قرار گرفته‌اند (البته باید توجه داشت که CRFs در ترکیب با سایر رویکردهای پیشرفته تر مورد استفاده قرار می گیرند [ 37 ]). یک مدل مارکوف پنهان [ 38 ، 39 ، 40] شامل مجموعه ای متناهی از حالت های مشاهده نشده (پنهان)، ماتریسی از احتمالات انتقال بین آن حالت ها، مجموعه ای از حقایق قابل مشاهده، و ماتریس مشاهده (یا گسیل) است که شامل احتمالاتی است که هر حالت پنهان با آن یک مشاهده منتشر می کند. میدان‌های تصادفی شرطی (CRF) ذاتاً مشروط هستند و فرض می‌کنند که برچسب‌های خروجی مستقل نیستند [ 41 ، 42 ].
معناشناسی، که هدف آن درک محتوای زبان طبیعی مانند آدرس‌ها [ 9 ] است، از مهمترین گره شبکه که در شکل 9 نشان داده شده است ، تشکیل شده است که نقش مرکزی و ارتباط رو به رشد آن را در این زمینه تحقیقاتی منعکس می‌کند. برای درک بهتر اهمیت نسبی هر گره و تعاملات بین آنها، دو معیار مرکزی نیز در نظر گرفته شد: مرکزیت بردار ویژه، که مرکزیت جهانی یک گره را در یک شبکه مشخص می کند، و مرکزیت میانی، که می توان آن را به صورت توصیف کرد. تعداد دفعاتی که یک گره خاص به گره دیگری نیاز دارد تا از طریق کوتاه ترین مسیر به گره سوم برسد [ 43]. برای این اثر، یک فایل Pajek (*.net) حاوی شبکه ای از رخدادهای کلیدواژه مربوط به روش ها/الگوریتم ها از VOSviewer استخراج شد و به عنوان ورودی Gephi استفاده شد. نتایج به‌دست‌آمده در جدول 6 آمده است که مرکزیت جهانی معناشناسی را تأیید می‌کند.

3.2. بحث و پژوهش آینده

3.2.1. بررسی مفصل ادبیات

هدف این بخش، انجام یک بحث مفصل تر در مورد الگوریتم های مختلف تطبیق آدرس بر اساس متن کامل مقالات انتخاب شده (همچنین در ضمیمه A خلاصه شده است )، با هدف گسترش تجزیه و تحلیل مبتنی بر کلمه کلیدی ارائه شده قبلی است. این بررسی ادبیات مفصل‌تر حول سه روش اصلی که مرتبط‌ترین روش‌ها هستند سازمان‌دهی می‌شود: روش‌های مبتنی بر شباهت رشته‌ای، روش‌های مبتنی بر عنصر آدرس، و روش‌های یادگیری عمیق [ 9 ].
روش‌های مبتنی بر شباهت رشته‌ای از یک رویکرد استاندارد برای تطبیق آدرس تشکیل شده‌اند و عموماً شامل محاسبه یک متریک شباهت بین آدرس‌های مورد مقایسه می‌شوند. سه روش اصلی را می توان شناسایی کرد: رویکردهای مبتنی بر کاراکتر، مبتنی بر فضای برداری و رویکردهای ترکیبی [ 44 ]. روش‌های مبتنی بر کاراکتر عملیات ویرایش مانند مقایسه‌های زیر دنباله‌ای، حذف‌ها، درج‌ها و جایگزینی‌ها را درک می‌کنند. یکی از شناخته‌شده‌ترین روش‌های مبتنی بر کاراکتر، متریک فاصله ویرایشی Levenshtein است [ 45]، متشکل از حداقل تعداد درج، جایگزینی یا حذفی است که برای تبدیل یک رشته به رشته دیگر مورد نیاز است (به عنوان مثال، فاصله ویرایش بین نام های Lisboa و Lisbonne سه است، زیرا به دو درج و یک جایگزین نیاز دارد) [ 44 ]. نمونه دیگری از یک روش مبتنی بر کاراکتر، متریک Jaro [ 46 ] است، که به طور خاص برای تطبیق رشته های کوتاه، مانند نام افراد، با نسخه پیشرفته تر پیشنهاد شده است (شباهت جارو-وینکلر) [ 47 ].]، به منظور دادن امتیازهای بالاتر به رشته هایی که از ابتدا تا یک طول پیشوند معین مطابقت دارند. با توجه به رویکردهای فضای برداری، محاسبه شباهت کسینوس بین نمایش‌های مبتنی بر n-گرم کاراکتر (یعنی دنباله‌های n کاراکتر متوالی) از یک رویکرد مشترک، در کنار ضریب شباهت جاکارد [ 44 ] تشکیل شده است. در نهایت، معیارهای ترکیبی، در حالی که مزایای دو رویکرد قبلی را با هم ترکیب می‌کنند، تفاوت‌های کوچکی را در نشانه‌های کلمه نیز امکان‌پذیر می‌کنند و در موارد مربوط به ترتیب کلمات و موقعیت انعطاف‌پذیرتر هستند [ 44 ]. با این وجود، از نظر عملکرد، بهترین تکنیک وجود ندارد. معیارهای موجود وابسته به وظیفه هستند و طبق مطالعه توسعه یافته توسط سانتوس و همکاران. [ 44]، که شامل مقایسه سیزده معیار مشابهت رشته های مختلف می شود، تفاوت ها از نظر عملکرد قابل توجه نیست، حتی در صورت ترکیب با روش های نظارت شده، برای جلوگیری از تنظیم دستی آستانه تصمیم (یکی از مهم ترین عوامل برای به دست آوردن نتایج خوب) .
روش‌های مبتنی بر عنصر آدرس، به نوبه خود، بر تجزیه آدرس تکیه می‌کنند، یک کار برچسب‌گذاری دنباله‌ای که به طور سنتی با استفاده از روش‌های احتمالاتی عمدتاً مبتنی بر مدل‌های مارکوف پنهان (HMM) و میدان‌های تصادفی شرطی (CRF) [ 3 ]، در کنار سایر موارد کمتر مورد بررسی قرار می‌گیرد. رویکردهای رایج همیشه شامل روش های یادگیری ماشینی نمی شود.

در مورد استفاده از HMM در زمینه آدرس‌های مسکونی، حالت‌های پنهان مربوط به هر بخش از آدرس است و مشاهدات شامل نشانه‌هایی است که به هر کلمه از رشته آدرس ورودی اختصاص داده شده است (پس از اعمال برخی روش‌های تمیز کردن)، که ممکن است بر اساس جداول جستجو و قوانین سخت کد شده [ 6 ] باشد. به عنوان مثال، آدرس “17 Epping St Smithfield New South Wales 2987″، پس از تمیز کردن و نشانه گذاری، به موارد زیر تبدیل می شود:

“17” (NU)، “epping” (LN)، “خیابان” (WT)، “smithfield” (LN)، “nsw” (TR)، “2987” (PC)

که در آن «NU» برای اعداد دیگر، «LN» برای نام‌های محل (شهر، حومه)، «WT» برای نوع مسیر (خیابان، جاده، خیابان، و غیره)، «TR» برای قلمرو (ایالت، منطقه)، و ‘رایانه’ برای کد پستی (پستی) [ 6 ] (ص. 6). به منظور تعیین، با استقرای آماری، محتمل‌ترین ترتیب «گسترش‌کنندگان» فرضی در پشت دنباله مشاهده‌شده، از مجموعه‌ای از مثال‌های آموزشی برای یادگیری هم ماتریس انتقال و هم ماتریس مشاهده، از طریق رویکرد حداکثر احتمال استفاده می‌شود. از آنجایی که ارزیابی احتمال هر مسیر ممکن از نظر محاسباتی غیرممکن است (برای N حالت و مشاهدات T ، T مسیرهای مختلف وجود دارد)، از الگوریتم Viterbi برای یافتن محتمل ترین مسیر از طریق مدل استفاده می شود.48 ]. به این ترتیب، محتمل‌ترین توالی حالت‌ها، بر اساس ماتریس‌های انتقال و انتشار آموزش‌دیده قبلی، بالاترین احتمال وقوع را نشان می‌دهد، همانطور که در زیر نشان داده شده است، که در آن نمادهای مشاهده در پرانتز قرار دارند و احتمالات انتشار زیر خط کشیده شده‌اند [ 6 ] (ص. 7):

شروع -> شماره راه‌اندازی (NU) -> نام مسیر (LN) -> نوع مسیر (WT) -> محل (LN) -> قلمرو (TR) -> کد پستی (PC) -> پایان
0.9 × 0.9 × 0.95 × 0.1 × 0.95 × 0.92 × 0.95 × 0.8 × 0.4 × 0.94 × 0.8 × 0.85 × 0.9 = 1.18 × 10−2
یکی از اشکالات اصلی HMM های سنتی این واقعیت است که آنها از چندین مشاهدات همزمان برای یک توکن پشتیبانی نمی کنند. حتی در نسخه‌های پیشرفته‌تر HMM مانند مدل‌های مارکوف آنتروپی [ 49 ]، که در آن حالت فعلی هم به وضعیت قبلی و هم به مشاهدات موجود بستگی دارد، نقطه ضعفی به نام مشکل سوگیری برچسب [ 50 ] وجود دارد: «انتقال‌ها یک داده را ترک می‌کنند. دولت باید فقط با یکدیگر رقابت کند، نه با همه انتقال‌ها در مدل.» [ 41 ] (ص. 2). در بررسی ادبیات حاضر، چهار مقاله در نظر گرفته شده روش‌های مبتنی بر HMM را پیشنهاد می‌کنند: موردی که قبلاً توسط چرچس و همکاران ذکر شد. al. [ 6]، با هدف آماده‌سازی داده‌های نام و آدرس برای اهداف پیوند رکورد، از طریق یک رویکرد ترکیبی با استفاده از توکن‌سازی مبتنی بر واژگان و HMM، با نتایج تجربی به‌دست‌آمده که آن را به عنوان جایگزینی برای سیستم‌های مبتنی بر قاعده تایید می‌کند که هم امکان‌پذیر و هم مقرون به صرفه است. تاثیر گذار؛ مقاله دوم توسط همان نویسندگان [ 51 ]، که در آن یک سیستم ژئوکدینگ مبتنی بر HMM و یک موتور تطبیق مبتنی بر قانون ( Febrl ) برای تجزیه و تحلیل داده‌های مکانی پیشنهاد شده و روی مجموعه داده‌های کوچکی از آدرس‌های به‌طور تصادفی انتخاب شده از منابع مختلف، با تجربی آزمایش شده است. نتایج به نرخ تطابق دقیق بین 89% و 94% بسته به منبع و در نظر گرفتن مجموع تطابق دقیق به دست آمده در سطوح مختلف (سطح آدرس، سطح خیابان و سطح محل) اشاره دارد. مقاله X. Li و همکاران. [40 ]، که در آن یک تجزیه کننده آدرس در مقیاس بزرگ مبتنی بر HMM پیشنهاد شده است که پس از آزمایش بر روی داده ها از منابع مختلف با درجات مختلف کیفیت و حاوی میلیاردها رجیستر، که 20 مورد از آنها، دقت 95.6٪ (F-Measure) را به دست می آورد. % به منظور بازتولید تغییرات آدرس عادی به صورت مصنوعی بازآرایی شدند. و در نهایت مقاله فو و همکاران. [ 52 ]، که در آن یک الگوریتم تقسیم‌بندی و تشخیص مبتنی بر HMM برای توسعه سیستم‌های مرتب‌سازی ایمیل خودکار شامل نویسه‌های چینی دست‌نویس (مشکلی که در بررسی ادبیات حاضر بیشتر به آن پرداخته خواهد شد) پیشنهاد شده است، با نتایج تجربی که اثربخشی آن را تأیید می‌کند. .
فیلدهای تصادفی شرطی (CRF) از یک نوآوری اخیر در زمینه تقسیم بندی متن تشکیل شده است. CRF ها طبیعتاً مشروط هستند و هیچ استقلالی بین برچسب های خروجی فرض نمی کنند، آدرس های دنیای واقعی را نشان می دهند، که در آن کدهای پستی، به عنوان مثال، به نام شهرها، محلات و حتی خیابان ها مربوط می شوند [ 3 ]. با داشتن تمام مزایای مدل‌های مارکوف حداکثر آنتروپی (MEMM)، CRFها همچنین مشکل سوگیری برچسب را با اجازه دادن به احتمال انتقال بین برچسب‌ها به عناصر گذشته و آینده و نه تنها به عنصر آدرس فعلی، حل می‌کنند [ 3 ]. “تفاوت اساسی بین CRF ها و MEMM ها این است که ساختار مدل گرافیکی زیربنایی CRF ها بدون جهت است، در حالی که ساختار MEMM ها جهت دار است” [ 41] (ص 2). به عنوان مثال، آدرس “3B Records, 5 Slater Street, Liverpool L1 4BW” را در نظر بگیرید، یک تجزیه کننده HMM به اشتباه برچسب های اول و دوم را به ترتیب برای عدد (‘3B’) و خیابان (‘Records’) پیش بینی می کند. ، در حالی که تجزیه کننده CRF، هنگام رسیدن به شماره دارایی واقعی (5)، امتیاز بالاتری به برچسب فعلی می دهد تا آن را به شماره دارایی و برچسب قبلی (سوابق 3B) را به یک نام تجاری اصلاح کند [ 3 ]. یکی دیگر از رویکردهای اخیر برای تجزیه آدرس مبتنی بر اصطلاح «جاسازی‌های کلمه» است، نامی که به نمایش برداری کلمات داده شده است [ 3 ]. پیاده سازی چنین روشی word2vec [ 53]، یک زبان شبکه عصبی بدون نظارت است که هدف آن پیش بینی کلمات بعدی با مدل سازی روابط بین یک کلمه داده شده و کلمات موجود در متن آن، بر اساس دو معماری ممکن است: مدل پرش گرام پیوسته (Skip-Gram) و مدل کیسه کلمات پیوسته (CBOW) [ 53 ]. دومی معمولاً بر اولی انتخاب می شود، زیرا با استنتاج معنای یک کلمه خاص از بافت آن آموزش داده می شود [ 9 ].
مقایسه عملی بین HMMها، CRFها و تقویت CRF با word2vec در Comber و Arribas-Bel [ 3 ] انجام شده است. کتابخانه Libpostal مبتنی بر VGI ( https://github.com/openvenues/libpostal (دسترسی در 9 نوامبر 2021))، که یک مدل CRF را بر روی 1 میلیارد آدرس خیابان از داده‌های OSM آموزش می‌دهد، برای وظیفه تقسیم‌بندی استفاده شد. اگرچه نتایج به‌دست‌آمده از نظر دقت به طور کلی سازگار هستند، طبقه‌بندی‌کننده‌هایی که از تکنیک HMM استفاده می‌کنند، مقادیر یادآوری کمتری نسبت به نتایج به‌دست‌آمده توسط CRF ارائه می‌کنند، به این معنی که هر دو روش قادر به تشخیص مثبت‌های واقعی از مثبت کاذب هستند، اما CRF قادر به تشخیص طبقه بندی نسبت بیشتری از مسابقات [ 3]. نسخه تقویت‌شده مدل CRF از نتایج به‌دست‌آمده توسط مدل اصلی بهتر عمل نمی‌کند، اما مزیت عدم تعهد کاربر به فاصله رشته‌ای خاص و سوگیری‌های آن را نشان می‌دهد [ 3 ]. در کار اخیر دیگری توسط همین نویسنده [ 54 ]، یک مدل پیش‌بینی برای تطبیق آدرس پیشنهاد شده است، بر اساس نوآوری‌های اخیر در یادگیری ماشین و بر اساس یک تجزیه‌کننده CRF برای تقسیم‌بندی رشته‌های آدرس. با این حال، بزرگترین سهم مقاله در دست، مستندسازی کامل تمام مراحل مورد نیاز برای اجرای گردش کار مدل پیشنهادی است. در سایر مقالات موجود در بررسی ادبیات حاضر، CRF ها به عنوان یک مدل معیار استفاده می شوند، به عنوان مثال: Dani et al. [ 55 ] یا در ترکیب با روش‌های دیگر، که بیشتر به آن پرداخته می‌شود [56 ، 57 ، 58 ].
روش‌های کمتر جدید دیگری برای تجزیه/بخش‌بندی آدرس پیشنهاد شده‌اند، یعنی در مطالعات استانداردسازی آدرس با هدف به حداقل رساندن اندازه داده‌های آموزشی برچسب‌گذاری‌شده. یکی از این نمونه ها کار کوتاری و همکاران است. [ 59 ]، که در آن یک رویکرد بیزی ناپارامتریک برای خوشه‌بندی داده‌های گروه‌بندی‌شده، معروف به فرآیند دیریکله سلسله مراتبی (HDP) [ 60 ]، با هدف کشف مفاهیم پنهان که عناصر معنایی مشترک را در منابع مختلف نشان می‌دهند و امکان انتقال خودکار نظارت را فراهم می‌کند، استفاده می‌شود. از منبع برچسب دار به منبع بدون برچسب. خوشه‌های پنهان به‌دست‌آمده برای بخش‌بندی و برچسب‌گذاری رجیسترهای آدرس در یک طبقه‌بندی‌کننده CRF سازگار استفاده می‌شوند، با نتایج تجربی که به بهبود قابل توجهی در دقت طبقه‌بندی اشاره می‌کند [59 ]. رویکرد مشابهی توسط Guo و همکاران پیشنهاد شده است. [ 61 ]، که در آن مقاله یک روش استانداردسازی آدرس نظارت شده با ارتباط معنایی پنهان (LaSA) ارائه شده است، با این دیدگاه که ارتباط معنایی نهفته در میان کلمات در همان حوزه به تصویر کشیده می‌شود. نتایج تجربی به‌دست‌آمده نشان می‌دهد که عملکرد استانداردسازی با روش پیشنهادی به طور قابل‌توجهی بهبود یافته است. سیستم های خبره نیز توسط دانی و همکاران پیشنهاد شده است. [ 55]، که در آن یک چارچوب قوانین Ripple Down (RDR) با هدف امکان مهاجرت مقرون‌به‌صرفه الگوریتم‌های پاکسازی داده‌ها بین مجموعه‌های داده مختلف پیشنهاد شده است. RDR اجازه می دهد تا اصلاح تدریجی قوانین و اضافه کردن استثناها بدون عوارض جانبی ناخواسته، بر اساس یک رویکرد مبتنی بر شکست که در آن یک قانون تنها زمانی اضافه می شود که سیستم موجود نتواند یک نمونه را طبقه بندی کند [ 55 ]. پس از مقایسه با الگوریتم‌های یادگیری ماشین سنتی و یک سیستم تجاری، نتایج تجربی نشان می‌دهد که رویکرد RDR به قواعد و نمونه‌های آموزشی بسیار کمتری نیاز دارد تا به همان دقت روش‌های قبلی برسد [ 55 ].
مدل‌های مبتنی بر درخت برای کنترل خودکار تشخیص آدرس دست‌نویس پیشنهاد شده‌اند که شامل یک کار تجزیه/تقسیم‌بندی آدرس خاص است که بیشتر توسط محققان چینی مورد مطالعه قرار گرفته است، به دلیل پیچیدگی بیشتر زبان چینی (مجموعه کاراکترهای بزرگ‌تر، سبک‌های نوشتاری متفاوت، شباهت زیاد. بین بسیاری از شخصیت ها) [ 62 ]. در مقاله جیانگ و همکاران. [ 62]، یک درخت پسوند برای ذخیره و دسترسی به آدرس های هر کاراکتری پیشنهاد شده است. در رابطه با رویکردهای قبلی نیز بر اساس ساختار داده درختی، درخت پسوند پیشنهادی قادر به مقابله با نویز و تغییرات قالب آدرس است. اساساً، ابتدا یک فهرست زیررشته سلسله مراتبی ساخته می‌شود، پس از آن رادیکال‌های ورودی به‌دست‌آمده با آدرس‌های نامزد (فیلتر شده توسط کد پستی) با هدف بهینه‌سازی یک تابع هزینه، ترکیبی از تشخیص و دقت تطبیق مقایسه می‌شوند [ 62 ]. نرخ طبقه بندی صحیح 85.3٪ در نتایج تجربی به دست آمده است. با این حال، به گفته وی و همکاران. [ 22]، دقت تشخیص مدل‌های درختی در سطح کاراکتر (CLT) به کامل بودن فهرست آدرسی که بر اساس آن‌ها ساخته شده‌اند، بستگی دارد. به منظور غلبه بر این محدودیت، نویسندگان یک درخت ساختاری را پیشنهاد می‌کنند که در سطح کلمه (WLT) ساخته شده است، که در آن هر گره از یک کلمه آدرس تشکیل شده است و مسیر از سقف تا برگ مطابق با یک قالب آدرس استاندارد است. پس از شناسایی اولیه توسط یک طبقه‌بندی کاراکتر، الگوهای کاندید بخش بر اساس پایگاه داده WLT به کلمات آدرس نامزد نگاشت می‌شوند. در مرحله نهایی (تطابق مسیر)، نمرات کلمات آدرس نامزد برای به دست آوردن نتیجه تشخیص آدرس [ 22 ] جمع می شود.]. نتایج تجربی به‌دست‌آمده نشان می‌دهد که روش پیشنهادی از چهار روش معیار، از جمله درخت پسوندی که قبلا ذکر شد، بهتر عمل می‌کند. مدل‌های درخت آدرس برای تجزیه آدرس و استانداردسازی نیز در مقالات Tian و همکاران پیشنهاد شده‌اند. [ 63 ]، لیو و همکاران. [ 64 ] و لی و همکاران. [ 65 ]. در دو مورد اول، مدل درخت آدرس عمدتاً برای اعتبار سنجی مبتنی بر قانون و تشخیص خطا، با ارائه اطلاعاتی در مورد سلسله مراتب آدرس‌های چینی و در مورد مقاله لی و همکاران، استفاده می‌شود. [ 65 ]، ساختارهای درختی پنهان با این منظر طراحی می‌شوند که وابستگی‌های غنی بین بخش‌های نهایی یک آدرس را که همیشه از یک ترتیب پیروی نمی‌کنند، به دست آورند.
در روش‌های مبتنی بر عنصر آدرس، همچنین ارزش دارد که رمزگذاری جغرافیایی را به عنوان وسیله‌ای برای افزایش استانداردسازی آدرس، از طریق تصحیح غلط‌های املایی و پر کردن ویژگی‌های گمشده، که برخی از رایج‌ترین خطاهای موجود در آدرس‌های پستی هستند، برجسته کنیم [ 66 ]. پس از تطبیق موفقیت آمیز با یک رکورد از یک پایگاه داده مرجع استاندارد (مانند نقشه های گوگل یا OSM)، می توان برای به دست آوردن یک نمایش معتبر و کامل از آدرس مورد نظر، ژئوکدینگ معکوس انجام داد. برای مثال، در مورد پایگاه‌های اطلاعاتی جغرافیایی کد شده مانند GNAF [ 51]، مختصات جغرافیایی را می توان برای محاسبه مجاورت فضایی بین رکوردهای مختلف برای انجام تحلیل های فضایی مبتنی بر فاصله و برای اهداف پیوند رکورد بین پایگاه های داده مختلف (تا شماره خانه) استفاده کرد. یکی دیگر از کاربردهای مهم ژئوکدینگ آدرس مربوط به تطبیق سوابق آدرس تاریخی (مانند سوابق سرشماری) با داده های معاصر، با پیوست کردن ارجاعات شبکه ای به اولی به منظور انجام تحلیل های جمعیتی فضایی طولی [ 27 ] است. با این حال، رمزگذاری خودکار خودکار جغرافیایی آدرس‌های مسکونی به عوامل متعددی بستگی دارد، یعنی تراکم جمعیت (با افزایش خطای موقعیت با کاهش تراکم جمعیت) [ 27 ، 67 ]]، کامل بودن یک آدرس (وجود یا عدم وجود شماره و نام خیابان)، و تغییر در نام خیابان ها، از جمله [ 27 ]. این محدودیت ها را می توان با استانداردسازی قبلی و غنی سازی آدرس ها [ 68 ] و انتخاب مناسب ترین روش کدگذاری جغرافیایی، از جمله استفاده از داده های دارایی [ 67 ] یا استفاده از رویکردهای کدگذاری جغرافیایی ترکیبی [ 28 ] رفع کرد.
با پیشرفت روش‌های یادگیری عمیق، نویسندگان مختلف اخیراً به منظور مقابله بهتر با سوابق آدرس غیراستاندارد و نام‌های بسیار متفاوت، استفاده از پسوندهای ذکر شده قبلی را برای RNNها (یعنی LSTMs، GRUs و GCN) پیشنهاد کرده‌اند. LSTM و GRU هر دو از دروازه‌ها تشکیل شده‌اند که از شبکه‌های عصبی تشکیل شده‌اند که جریان اطلاعات را از یک مرحله به مرحله دیگر تنظیم می‌کنند و در نتیجه به حل مشکل حافظه کوتاه کمک می‌کنند. به طور خاص، GRU ها دارای دو گیت – گیت های به روز رسانی و تنظیم مجدد – و LSTM، سه گیت – ورودی، فراموشی و گیت خروجی هستند [ 30]. مقدار اطلاعات تازه ای که از طریق دروازه ورودی در LSTM ها اضافه می شود، با مقدار اطلاعاتی که از طریق دروازه فراموشی نگهداری می شود، ارتباطی ندارد. در GRU ها، حفظ حافظه گذشته و ورود اطلاعات جدید به حافظه متقابل نیستند. GRU هم وابستگی طولانی مدت و هم حافظه های کوتاه مدت را در یک حالت پنهان ذخیره می کند، در حالی که LSTM اولی را در حالت سلولی و دومی را در حالت پنهان ذخیره می کند. از آنجایی که وزن ها و پارامترهای کمتری برای به روز رسانی در طول آموزش وجود دارد، GRU ها سریعتر از LSTM ها آموزش می بینند [ 30 ].
در بررسی ادبیات حاضر، چندین مقاله در نظر گرفته شده این نوع روش‌ها را پیشنهاد می‌کنند، به‌عنوان نمونه‌های سانتوس و همکاران. [ 35 ]، لین و همکاران. [ 9 ]، J. Liu و همکاران. [ 58 ]، شان و همکاران. [ 7 ، 29 ]، پی لی و همکاران. [ 69 ] و چن و همکاران. [ 70 ]. برای در نظر گرفتن اطلاعات متنی از نشانه‌های قبلی و آینده، با پردازش دنباله در دو جهت، لایه‌های دو طرفه LSTM (BiLSTM) یا GRU نیز در اکثر این مطالعات استفاده می‌شوند. بهترین مدل‌ها، رمزگذار و رمزگشا را از طریق مکانیزم توجه به یکدیگر متصل می‌کنند تا وزن‌های بالاتری را به مهم‌ترین ویژگی‌ها اختصاص دهند.7 ، 9 ، 29 ]. با هدف کاهش بیش‌برازش و افزایش توانایی‌های تعمیم مدل‌های طبقه‌بندی، یک لایه منظم‌سازی حذف نیز معمولاً اضافه می‌شود [ 9 ، 35 ، 58 ]. مدل ESIM [ 71 ] شامل یک نمونه گویا از معماری یادگیری عمیق بر اساس اصولی است که قبلاً توضیح داده شد. پس از توکن‌سازی آدرس (با کمک روزنامه‌ها و دیکشنری‌ها، در مورد زبان‌های پیچیده‌تر، بدون جداکننده‌های طبیعی) و به دست آوردن نمایش‌های برداری از جفت‌های آدرس مختلف (برچسب‌شده) (بر اساس word2vec)، مدل ESIM استفاده می‌شود. از طریق چهار لایه زیر [ 9 ]:
  • یک لایه رمزگذاری ورودی، که بردارهای آدرس ورودی را رمزگذاری می کند و نمایش های سطح بالاتر را با استفاده از مدل حافظه کوتاه مدت دو طرفه (BiLSTM) استخراج می کند.
  • یک لایه مدل‌سازی استنتاج محلی، که استنتاج محلی یک جفت آدرس را با استفاده از یک مدل توجه تجزیه‌پذیر اصلاح‌شده انجام می‌دهد [ 72 ].
  • یک لایه ترکیب استنتاج، مسئول استنتاج سراسری بین دو رکورد آدرس مقایسه شده بر اساس استنتاج محلی آنها، که در آن از میانگین و حداکثر ادغام برای خلاصه کردن استنتاج محلی و خروجی یک بردار نهایی با طول ثابت استفاده می شود.
  • در نهایت، یک لایه پیش‌بینی، بر اساس یک پرسپترون چند لایه (MLP) متشکل از سه لایه کاملاً متصل با واحد خطی اصلاح‌شده (ReLU)، tanh و توابع فعال‌سازی softmax، برای خروجی نتایج پیش‌بینی جفت‌های آدرس (یعنی اینکه آیا وجود دارد یا خیر) استفاده می‌شود. مطابقت دارد یا نه).
از نظر عملکرد، همه روش‌های یادگیری عمیق ارائه‌شده قبلی به دقت تطبیق بیشتری نسبت به مدل‌های تطبیق متن سنتی دست می‌یابند. در مورد مدل BiLSTM پیشنهاد شده توسط لین و همکاران. [ 9 ]، دقت، یادآوری، و امتیاز F1 در مجموعه آزمون همگی به 0.97 رسید، در مقابل امتیاز 0.92 به دست آمده توسط دومین مدل بهترین عملکرد (ضریب شباهت جاکارد + روش RF). شبکه عصبی عمیق مبتنی بر GRU، برای دسته‌بندی جفت نام‌ها به عنوان منطبق یا غیر منطبق، پیشنهاد شده توسط سانتوس و همکاران. [ 35 ]، همچنین از روش‌های تطبیق متن سنتی بهتر عمل می‌کند و به افزایش تقریباً 10 امتیازی در بیشتر معیارهای ارزیابی (یعنی دقت، دقت و F1) دست می‌یابد. مدل شبکه های عصبی LM-LSTM-CRF+BP ارائه شده توسط J. Liu و همکاران. [58 ] دقت و امتیاز F1 87 درصد را در مقایسه با میانگین نمرات 70 درصدی با روش های معیار (word2vec و فاصله ویرایش) به دست می آورد. روش GCN آدرس پیشنهاد شده توسط شان و همکاران. [ 7 ] همچنین نتایج بهتری را هم در دقت (تا 8٪) و هم در یادآوری (تا 12٪) نسبت به روش های موجود ارائه می دهد که شامل مدل DeepAM است که قبلاً توسط همان نویسنده پیشنهاد شده بود، بر اساس معماری رمزگذار-رمزگشا. با دو شبکه LSTM [ 29 ]. شبکه عصبی Bi-GRU پیشنهاد شده توسط P. Li و همکاران. [ 69] عملکردی مشابه با آنچه که توسط شبکه عصبی Bi-LSTM نشان داده شده است (امتیاز F1 99٪) و عملکرد بالاتری نسبت به شبکه های عصبی یک طرفه GRU و LSTM (امتیاز F1 93٪) ارائه می دهد، همانطور که انتظار می رود. در نهایت، شبکه توجه-Bi-LSTM-CNN (ABLC) پیشنهاد شده توسط چن و همکاران. [ 70 ] به بهبود دقت 4 تا 10 درصدی بیشتری نسبت به مدل‌های پایه دست می‌یابد که شامل مدل ESIM قبلا ذکر شده می‌شود و دومین عملکرد کلی را ارائه می‌دهد.
در دو مورد از جدیدترین مطالعاتی که در بررسی ادبیات حاضر نیز بر اساس روش‌های یادگیری عمیق گنجانده شده‌اند، نمایش‌های رمزگذار دو طرفه از ترانسفورماتورها (BERT) به جای آن پیشنهاد شده‌اند. اولین مورد مطالعه Xu و همکاران است. [ 20 ]، که روشی را برای ادغام آدرس‌ها و داده‌های مکانی مبتنی بر BERT (در مورد یادگیری معنایی آدرس‌ها) و یک الگوریتم خوشه‌بندی با ابعاد بالا K-Means پیشنهاد می‌کند که با تکنیک‌های تنظیم دقیق نوآورانه بهبود یافته است. مدل آدرس جغرافیایی- معنایی (GSAM). سپس نمایش محاسباتی استخراج‌شده از GSAM برای پیش‌بینی مکان آدرس، بر اساس معماری شبکه عصبی برای به حداقل رساندن فاصله اقلیدسی بین مختصات پیش‌بینی‌شده و واقعی، استفاده می‌شود. در مطالعه دوم [ 37]، یک روش جدید تشخیص عنصر آدرس پیشنهاد شده است، برای برخورد با عناصر آدرس با دوره های کوتاه (خیابان ها، خطوط، نشانه ها، نام نقاط مورد علاقه، و غیره) که هنوز در فرهنگ لغت تقسیم بندی گنجانده نشده اند. یک مدل مبتنی بر BERT ابتدا برای به دست آوردن نمایش های برداری از مجموعه داده و یادگیری اطلاعات متنی و ویژگی های آدرس مدل استفاده می شود، به دنبال آن از یک CRF برای پیش بینی برچسب ها استفاده می شود، با عناصر آدرس جدید که طبق برچسب شناسایی می شوند [ 37 ]. ].
از نظر عملکرد، مدل GSAM [ 20 ] به دقت طبقه‌بندی بالاتر از 0.97، در مقابل حداقل دقت مورد انتظار 0.91 با روش‌های دیگر، دست می‌یابد. مدل BERT-CRF [ 37 ] در مقایسه با مدل‌های معیار ترکیبی از روش‌های word2vec، BiLSTM و CRF (با میانگین امتیاز F1 0.41) به بالاترین امتیاز F1 در توانایی تعمیم (0.78) و همچنین F1 به همان اندازه بالا می‌رسد. امتیاز در مجموعه داده تست (0.95).
اگرچه مربوط به مکان‌ها و توضیحات POI است، اما دو مقاله نهایی (هر دو در سال 2021 منتشر شده‌اند) به دلیل استفاده ترکیبی از رویکردهای ارائه‌شده قبلی و روش‌های همبستگی/استدلال فضایی قابل ذکر است. اولین مورد از این مطالعات [ 2] روشی را برای شناسایی POI در مجموعه داده های POI بزرگ به روشی سریع و دقیق، بر اساس: الگوریتم تطبیق آدرس پیشرفته، ترکیب رشته، شباهت معنایی و فضایی، در یک مدل هستی شناسی که مکان ها و روابط POI را به ترتیب توصیف می کند، ارائه می کند. برای حمایت از انتقال از معنایی به فضایی؛ یک الگوریتم مبتنی بر شبکه که قادر به دستیابی به نمایش های فشرده از تعاملات جهت کیفی گسترده بین POI و انجام استدلال فضایی سریع، از طریق بازیابی سریع روابط جهت و محاسبات کمی است. دومین مورد از مطالعات [ 8] روشی بدون نظارت را برای بخش‌بندی و استاندارد کردن آدرس‌های POI پیشنهاد می‌کند، بر اساس یک شبکه عصبی GRU ترکیب شده با همبستگی فضایی بین عناصر آدرس برای وظیفه تقسیم‌بندی خودکار، و یک تطبیق فازی مبتنی بر درخت از عناصر آدرس برای کار استانداردسازی، با تجربی. نتایج حاکی از دقت نسبتاً بالایی است.
3.2.2. شکاف های تحقیقاتی
در مقالاتی که اخیراً منتشر شده است که در بررسی ادبیات حاضر در نظر گرفته شده‌اند، مرتبط‌ترین فرصت‌ها برای کار بیشتر را می‌توان به صورت زیر خلاصه کرد: استفاده از مجموعه داده‌های معرف و به اندازه کافی بزرگ [ 20 ]. گنجاندن نام مکان های تکراری، به منظور فعال کردن کاربرد روش پیشنهادی در پایگاه داده آدرس ملی [ 9 ]. برای بهبود دقت، وزن های متفاوتی ممکن است به بردارهای عنصر آدرس بسته به سلسله مراتب آنها اختصاص داده شود [ 9 ]. نیاز به تنظیم دقیق نسبت وزن ویژگی های ترکیب شده، مانند مختصات و نمایش معنایی آدرس ها، در کنار بهبود روش الحاق زیربنایی و معیارهای اندازه گیری [ 20 ]]؛ اتخاذ رویکردهای سیستماتیک برای تنظیم فراپارامترها و آزمایش با معماری های مختلف [ 35 ]. نیاز به درگیر کردن اشیاء و روابط فضایی پیچیده تر [ 2 ، 8 ]. با این حال، برخی از محدودیت‌های برجسته‌شده در مطالعات کمتر اخیر، باید در استفاده از جدیدترین روش‌ها نیز در نظر گرفته شوند، مانند نیاز به رسیدگی به مسائل مربوط به حریم خصوصی و محرمانگی [ 51 ] هنگام استفاده از شبه شناسه‌های شخصی مانند آدرس‌ها (به ویژه ، مسکونی). نگرانی دیگری که باید مورد توجه قرار گیرد و در برخی از مطالعات قبلی مورد بررسی قرار گرفت [ 55 , 59 , 61] مربوط به به حداقل رساندن برچسب گذاری انسانی در هنگام تولید داده های آموزشی و آزمایشی است. در نهایت، هیچ مرجعی در مورد استفاده از برنامه ریزی ژنتیکی (GP) [ 73 ] در زمینه تطبیق آدرس معنایی یافت نشد. GP دارای چندین مزیت نسبت به سایر روش‌های یادگیری ماشینی است، از جمله توانایی ارائه نتایجی که به راحتی قابل تفسیر باشد، بر اساس برنامه‌ها، قوانین یا توابع، و همچنین توانایی ترکیب آسان دانش خاص در مورد یک مشکل، علی‌رغم مسائل مربوط به کارایی آن، که در درجه اول به دلیل محاسبه تابع تناسب زمان بر است [ 74 ]. در شکل 10 ، شکاف های اصلی تحقیق نشان داده شده است.

4. نتیجه گیری

در این مطالعه، یک مرور متون سیستماتیک بر اساس Scopus و Web of Science، که یک بازه زمانی 20 ساله را پوشش می‌دهد، به منظور درک بهتر چگونگی غلبه بر محدودیت‌های گذشته و فعلی برای پرداختن به تطابق از طریق اتخاذ رویکردهای خودکار انجام شد. برای رسیدگی به تطابق. برای غربالگری مقالاتی که در ابتدا یافت شد، دستورالعمل‌های PRISMA دنبال شد که منجر به مجموعه نهایی 41 مقاله مرتبط از مجلات و مجموعه مقالات کنفرانس‌های با رتبه بالا شد. VOSviewer، یک ابزار تجزیه و تحلیل کتاب سنجی، برای انجام تجزیه و تحلیل خوشه ای در مورد روابط بین نویسندگان و موضوعات تحقیقاتی رایج استفاده شد. تعداد مقالات منتشر شده از سال 2017 در حال افزایش بوده است، روندی که ممکن است ارتباط نزدیکی با کاربرد روش های یادگیری عمیق در این زمینه داشته باشد. نویسندگان چینی پیشتاز هستند، با 19 مقاله که 46٪ از مقالات منتشر شده را نشان می دهد، نیمی از آنها بین سال های 2019 و 2021 منتشر شده اند، پس از اوج در سال 2016 (11٪). کنترل بیماری (کووید-19)، خدمات مبتنی بر مکان، و GIS/سرشماری/برنامه ریزی شهری به عنوان برخی از جدیدترین حوزه های کاربردی در زمینه مورد مطالعه قرار دارند. به نظر می‌رسد این تحقیق تأیید می‌کند که روش‌های احتمالی (مانند HMM و CRF) جای خود را به روش‌های NLP مبتنی بر معناشناسی، معماری‌های رمزگذار-رمزگشا، و مکانیسم‌های توجه داده‌اند. همچنین به نظر می‌رسد شواهدی وجود دارد که به پذیرش اخیر رویکردهای ترکیبی با افزایش استفاده از محدودیت‌ها و موجودیت‌های فضایی اشاره می‌کند. با این حال، باید توجه داشت که این بررسی دارای محدودیت هایی مانند ذهنی بودن پرس و جو جستجو و روش های غربالگری است. همینطور، یک پرس و جو جستجوی مؤثرتر باید در تحقیقات آینده در نظر گرفته شود تا از حذف مقالات بالقوه مرتبط جلوگیری شود. علیرغم محدودیت‌های آن، بررسی حاضر مروری مختصر و مفصل از تحقیقات در حال تولید در زمینه تطبیق آدرس خودکار، در یک بازه زمانی قابل توجهی طولانی، از 20 سال ارائه کرد. مطالعات آینده می‌تواند بر اساس یافته‌های اصلی آن، عمدتاً در مواردی که به استفاده بهتر از الگوریتم‌های یادگیری عمیق شناسایی‌شده مربوط می‌شود، از نظر اتخاذ تنظیمات بدون نظارت یا نیمه‌نظارت‌شده، استراتژی‌های بهینه‌سازی برای آموزش شبکه‌های عصبی عمیق و/یا رویکردهای سیستماتیک برای فراگیر توسعه یابد. -تنظیم پارامترها و همچنین روش های حفظ حریم خصوصی، به ویژه در هنگام برخورد با آدرس های مسکونی که به عنوان شبه شناسه در فرآیندهای پیوند رکورد عمل می کنند. استفاده از اشیاء و روابط فضایی پیچیده تر، به عنوان ابزاری برای افزایش تطابق آدرس و استانداردسازی، شامل شکاف مهم دیگری برای رسیدگی است، یعنی در حوزه هایی که به بازیابی POI محدود نمی شود. در نهایت، هیچ مرجعی به رویکردهای مبتنی بر تکامل در زمینه تطبیق آدرس معنایی یافت نشد، که ممکن است یک شکاف پژوهشی بالقوه برای بررسی در مطالعات آینده باشد.

ضمیمه الف. تحلیل کاربرد و روشها

شناسه. [مرجع.] نویسندگان، انتشارات سال کاربرد مواد و روش ها
1 [ 9 ] لین و همکاران، 2019 ژئوکدینگ Word2vec; LSTM دو جهته (مدل ESIM)
2 [ 52 ] فو و همکاران، 2005 بخش بندی و تشخیص رشته کاراکتر آدرس دست نویس مدل پنهان مارکوف (HMM)
3 [ 55 ] دانی و همکاران، 2010 استاندارد سازی آدرس بهبود کیفیت داده ها قوانین Ripple Down (RDR)؛ میدان تصادفی شرطی (CRF)
4 [ 51 ] کریستن و همکاران، 2006 ژئوکدینگ یادگیری تجزیه کننده آدرس بر اساس مدل های پنهان مارکوف و موتور تطبیق مبتنی بر قانون
5 [ 62 ] جیانگ و همکاران، 2007 سیستم تشخیص آدرس سیستم مبتنی بر درخت پسوند
6 [ 75 ] آهنگ، 2013 خدمات مبتنی بر مکان درک زبان طبیعی
7 [ 61 ] گوو و همکاران، 2009 استاندارد سازی آدرس روش استانداردسازی آدرس متن آزاد با ارتباط معنایی پنهان (LaSA).
8 [ 69 ] پی لی و همکاران، 2020 ژئوکدینگ شبکه عصبی دو طرفه واحد بازگشتی (GRU).
9 [ 27 ] والفورد، 2019 ژئوکدینگ سوابق سرشماری تاریخی روش چهار مرحله‌ای نیمه خودکار برای ژئوکد کردن آدرس‌های سرشماری تاریخی
10 [ 76 ] ورما و کائور، 2015 تشخیص کاراکتر از سند دست نویس شبکه های عصبی
11 [ 58 ] جی لیو و همکاران، 2019 مبارزه با کلاهبرداری مالی LM-LSTM-CRF
12 [ 77 ] چوی و همکاران، 2017 پیوند رکورد احتمالی؛ وضوح موجودیت توابع شباهت (مثلاً Jaro-Winkler)؛ مدل Fellegi-Sunter
13 [ 29 ] شان و همکاران، 2019 خدمات مبتنی بر مکان معماری رمزگشای رمزگشا با دو شبکه LSTM و مکانیزم توجه
14 [ 54 ] کامبر، 2019 کاربردهای فضایی اجتماعی-اقتصادی CRF; توابع تشابه رشته; جنگل تصادفی
15 [ 28 ] شاه و همکاران، 2014 کدگذاری جغرافیایی برای تحقیقات بهداشت عمومی روش های ژئوکدینگ
16 [ 57 ] واینمن، 2017 تراز نقشه تاریخی و تشخیص نام نامی شناسه متن CRF نیمه مارکوف. CNN مبتنی بر کافه
17 [ 7 ] شان و همکاران، 2020 خدمات مبتنی بر مکان معماری رمزگشای رمزگشا با دو شبکه LSTM و مکانیزم توجه. GCN
18 [ 20 ] خو و همکاران، 2020 مدیریت و استفاده از آدرس های غیر استاندارد نمایش رمزگذار دو طرفه از ترانسفورماتورها (BERT). الگوریتم خوشه‌بندی با ابعاد بالا برای ترکیب اطلاعات معنایی و مکانی
19 [ 64 ] Q. Liu و همکاران، 2018 تشخیص رشته کاراکتر آدرس دست نویس شبکه عصبی عمیق برای تشخیص کاراکتر (CNN)؛ دانش خاص دامنه برای تشخیص آدرس
20 [ 40 ] X. Li و همکاران، 2014 ثبت پیوند HMM
21 [ 1 ] جاویدانه و همکاران، 2020 ارزیابی تاثیر سیستم های آدرس دهی رسمی بر کسب دانش فضایی شبیه سازی مبتنی بر عامل اکتساب دانش فضایی
22 [ 5 ] لی و همکاران، 2020 ژئوکدینگ Regex برای تجزیه آدرس. ماشین بردار پشتیبانی (SVM)، جنگل تصادفی (RF)، تقویت گرادیان شدید (XGB) برای تطبیق آدرس
23 [ 44 ] سانتوس و همکاران، 2017 بازیابی اطلاعات جغرافیایی 13 معیار شباهت رشته های مختلف. روش‌های یادگیری ماشینی نظارت شده برای ترکیب امتیازات (ماشین‌های بردار پشتیبانی، جنگل‌های تصادفی، درختان بسیار تصادفی، درختان افزایش یافته گرادیان)
24 [ 3 ] کامبر و آریباس بل، 2019 ثبت پیوند word2vec; CRF ها
25 [ 65 ] H. Li و همکاران، 2019 تجزیه آدرس های غیر استاندارد مدل‌های پیش‌بینی ساختار عصبی با متغیرهای پنهان (ساختارهای درختی پنهان و ساختارهای زنجیره‌ای منظم)
26 [ 6 ] کلیساها و همکاران، 2002 ثبت پیوند HMM
27 [ 37 ] ژانگ و همکاران، 2020 خدمات مبتنی بر مکان برت; CRF
28 [ 22 ] وی و همکاران، 2016 تشخیص آدرس دست نویس غیر استاندارد روش مبتنی بر درخت در سطح کلمه (WLT).
29 [ 56 ] تانگ و همکاران، 2010 وضوح نام نامی رویکرد تجزیه جغرافیایی مبتنی بر CRF. رویکرد کدگذاری جغرافیایی بر اساس تطبیق فازی جزئی
30 [ 78 ] Nagabhushan و همکاران، 2005 اتوماسیون پستی پایگاه دانش نمادین سیستم اعتبارسنجی آدرس را پشتیبانی می کند
31 [ 35 ] سانتوس و همکاران، 2018 تشخیص نام نامی GRU های دو طرفه
32 [ 59 ] کوثری و همکاران، 2010 پاکسازی آدرس (با انتقال نظارت) فرآیند دیریکله سلسله مراتبی
33 [ 63 ] تیان و همکاران، 2016 ژئوکدینگ مدل درخت آدرس; تطبیق فازی لوسن
34 [ 21 ] پنگ و همکاران، 2020 پیشگیری و کنترل همه گیر COVID-19 الگوریتم تطبیق آدرس وزنی تقسیم بندی کلمه با در نظر
گرفتن انواع معناشناسی
35 [ 8 ] لو و همکاران، 2021 آدرس استاندارد سازی POI GRU; همبستگی فضایی
36 [ 70 ] چن و همکاران، 2021 تطبیق معنایی آدرس توجه-Bi-LSTM-CNN
37 [ 66 ] کومارلاس و همکاران، 2018 افزایش تطابق آدرس CRF; ژئوکدینگ؛ اقدامات شباهت
38 [ 68 ] کورتس و همکاران، 2021 بهبود نرخ تطبیق کدگذاری جغرافیایی آدرس‌های ساخت‌یافته عبارات منظم و روش‌های مبتنی بر فرهنگ لغت برای استانداردسازی و غنی‌سازی آدرس. ژئوکدینگ
39 [ 67 ] کایو و تالبوت، 2003 ارزیابی خطای موقعیت در ژئوکدینگ خودکار آدرس‌های مسکونی GIS
40 [ 2 ] چنگ و همکاران، 2021 مکان یابی POI در مجموعه داده های بزرگ ترکیبی از شباهت های متعدد (رشته ای، معنایی و فضایی). الگوریتم استدلال فضایی مبتنی بر شبکه
41 [ 79 ] فلورچیک و همکاران، 2010 مدیریت شهری معماری ژئوکدینگ مرکب، بر اساس روزنامه‌ها، خدمات کاداستر و خدمات کدگذاری آدرس

منابع

  1. جاویدانه، ع. کریمی پور، ف. علینقی، ن. چقدر از آدرس ها یاد می گیریم؟ در نحو، معناشناسی و عمل شناسی سیستم های آدرس دهی. ISPRS Int. J. Geo-Inf. 2020 ، 9 ، 317. [ Google Scholar ] [ CrossRef ]
  2. چنگ، آر. لیائو، جی. Chen, J. مکان یابی سریع POI در مجموعه داده های بزرگ از توضیحات بر اساس تطبیق آدرس بهبود یافته و نمایش های کیفی فشرده. ترانس. GIS 2021 ، 1-26. [ Google Scholar ] [ CrossRef ]
  3. کامبر، اس. Arribas-Bel، D. نوآوری های یادگیری ماشین در تطبیق آدرس: مقایسه عملی Word2vec و CRFs. ترانس. GIS 2019 ، 23 ، 334-348. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  4. سان، ی. جی، م. جین، اف. وانگ، اچ. پاسخ‌های عمومی به آلودگی هوا در استان شاندونگ با استفاده از داده‌های شکایت آنلاین. ISPRS Int. J. Geo-Inf. 2021 ، 10 ، 126. [ Google Scholar ] [ CrossRef ]
  5. تره فرنگی.؛ Claridades، ARC; لی، جی. بهبود الگوریتم ژئوکدینگ مبتنی بر خیابان با استفاده از تکنیک های یادگیری ماشین. Appl. علمی 2020 ، 10 ، 5628. [ Google Scholar ] [ CrossRef ]
  6. کلیساها، تی. کریستن، پی. لیم، ک. Zhu، JX آماده سازی داده های نام و آدرس برای پیوند رکورد با استفاده از مدل های پنهان مارکوف. BMC Med. آگاه کردن. تصمیم می گیرد. ماک 2002 ، 2 ، 9. [ Google Scholar ] [ CrossRef ] [ PubMed ] [ نسخه سبز ]
  7. شان، اس. لی، ز. یانگ، کیو. لیو، آ. ژائو، ال. لیو، جی. Chen, Z. آموزش نمایش نشانی جغرافیایی برای تطبیق آدرس. شبکه جهانی وب. 2020 ، 23 ، 2005–2022. [ Google Scholar ] [ CrossRef ]
  8. لو، ا. لیو، جی. لی، پی. وانگ، ی. Xu، S. استاندارد آدرس چینی POI بر اساس GRU و همبستگی فضایی و در ترکیب رویدادهای اضطراری چند منبعی اعمال می شود. بین المللی J. Image Data Fusion 2021 ، 12 ، 319-334. [ Google Scholar ] [ CrossRef ]
  9. لین، ی. کانگ، م. وو، ی. دو، س. لیو، تی. معماری یادگیری عمیق برای تطبیق آدرس معنایی. بین المللی جی. جئوگر. Inf. علمی 2019 ، 34 ، 559-576. [ Google Scholar ] [ CrossRef ]
  10. وانگ، جی. دنگ، اچ. لیو، بی. هو، ا. لیانگ، جی. فن، ال. ژنگ، ایکس. وانگ، تی. لی، جی. ارزیابی سیستماتیک پیشرفت تحقیق در مورد پردازش زبان طبیعی در پزشکی در 20 سال گذشته: مطالعه کتاب سنجی در Pubmed. جی. مد. Internet Res. 2020 ، 22 ، e16816. [ Google Scholar ] [ CrossRef ] [ PubMed ]
  11. ملو، اف. مارتینز، بی. ژئوکدینگ خودکار اسناد متنی: بررسی رویکردهای فعلی. ترانس. GIS 2017 ، 21 ، 3-38. [ Google Scholar ] [ CrossRef ]
  12. کاید، م. داکوری، س. علی، AA استخراج آدرس پستی از وب: یک نظرسنجی جامع . Springer: Dordrecht, The Netherlands, 2021. [ Google Scholar ] [ CrossRef ]
  13. بارینگتون-لی، سی. Millard-Ball، A. نقشه راه تولید شده توسط کاربر جهان بیش از 80٪ کامل شده است. PLoS ONE 2017 , 12 , e0180698. [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
  14. یاسین، م. بوشمین، دی. لاویولت، اف. Lamontagne، L. استفاده از جاسازی زیرکلمه برای تجزیه آدرس چند ملیتی. در مجموعه مقالات ششمین کنگره IEEE در علم و فناوری اطلاعات 2020 (CiSt)، اگادیر-اسائویرا، مراکش، 5 تا 12 ژوئن 2021. [ Google Scholar ]
  15. گلدبرگ، DW; ویلسون، جی پی؛ Knoblock، CA از متن به مختصات جغرافیایی: وضعیت فعلی ژئوکدینگ. URISA J. 2007 ، 19 ، 33-46. [ Google Scholar ]
  16. صفحه، MJ; مک کنزی، جی. Bossuyt، PM; بوترون، آی. هافمن، تی سی؛ مالرو، سی دی; شمسیر، ال. تتزلاف، جی.ام. آکل، EA; برنان، SE; و همکاران بیانیه PRISMA 2020: دستورالعمل به روز شده برای گزارش بررسی های سیستماتیک. PLoS Med. 2021 ، 18 ، 372. [ Google Scholar ] [ CrossRef ]
  17. ون اک، نیوجرسی؛ Waltman, L. Software Survey: VOSviewer، یک برنامه کامپیوتری برای نقشه برداری کتابسنجی. Scientometrics 2010 ، 84 ، 523-538. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  18. باستیان، م. هیمن، اس. Jacomy, M. Gephi: یک نرم افزار منبع باز برای کاوش و دستکاری شبکه ها. Icwsm 2009 ، 361-362. [ Google Scholar ]
  19. لین، ی. کانگ، م. او، ب. تحلیل الگوی فضایی کیفیت آدرس: مطالعه ای بر تأثیر گسترش سریع شهری در چین. محیط زیست طرح. ب مقعد شهری. علوم شهر 2019 ، 48 ، 728-740. [ Google Scholar ] [ CrossRef ]
  20. خو، ال. دو، ز. مائو، آر. ژانگ، اف. لیو، R. GSAM: یک مدل شبکه عصبی عمیق برای استخراج بازنمایی محاسباتی آدرس‌های چینی با ویژگی جغرافیایی. محاسبه کنید. محیط زیست سیستم شهری 2020 ، 81 ، 101473. [ Google Scholar ] [ CrossRef ]
  21. پنگ، ام. لی، ز. لیو، اچ. منگ، سی. Li, Y. روش ژئوکدینگ وزنی بر اساس تقسیم بندی کلمات چینی و کاربرد آن در مکان یابی فضایی پیشگیری و کنترل همه گیر COVID-19. Wuhan Daxue Xuebao (Xinxi Kexue Ban)/Geomat. Inf. علمی دانشگاه ووهان 2020 ، 46 ، 808-815. [ Google Scholar ]
  22. وی، ایکس. لو، اس. ون، ی. Lu, Y. تشخیص آدرس چینی دست‌نویس با تغییرات نوشتاری. تشخیص الگو Lett. 2016 ، 73 ، 68-75. [ Google Scholar ] [ CrossRef ]
  23. بورنمن، ال. Wohlrabe, K. Normalization of Citation Impact in Economics ; انتشارات بین المللی Springer: برلین/هایدلبرگ، آلمان، 2019؛ جلد 120. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  24. بابالولا، ا. موسی، س. آکینلولو، ام تی؛ Haupt، TC بررسی کتاب‌سنجی پیشرفت‌ها در تحقیقات مدل‌سازی اطلاعات ساختمان (BIM). J. Eng. دس تکنولوژی 2021 . [ Google Scholar ] [ CrossRef ]
  25. برایبار دیز، ای. لونا، م. اودریوزولا، دکتر Llorente، I. تاثیر اجتماعی نقشه برداری: تحلیل کتاب سنجی. پایداری 2020 ، 12 ، 9389. [ Google Scholar ] [ CrossRef ]
  26. لیو، ایکس. تحلیل استنادی، جفت کتابشناختی و استناد مستقیم: کدام رویکرد استنادی جبهه پژوهش را دقیق‌تر نشان می‌دهد؟ مربا. Soc. Inf. علمی تکنولوژی 2013 ، 64 ، 1852-1863. [ Google Scholar ] [ CrossRef ]
  27. والفورد، NS، سوابق تاریخی سرشماری جمعیت بریتانیا را به قرن بیست و یکم می آورد: روشی برای کدگذاری جغرافیایی خانوارها و افراد در آدرس های اولیه قرن بیستم. مردمی Space Place 2019 , 25 , e2227. [ Google Scholar ] [ CrossRef ]
  28. شاه، تی. بل، اس. ویلسون، ک. ژئوکدینگ برای تحقیقات بهداشت عمومی: مقایسه تجربی دو سرویس کدگذاری جغرافیایی اعمال شده در شهرهای کانادا. می توان. Geogr. 2014 ، 58 ، 400-417. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  29. شان، اس. لی، ز. کیانگ، ی. لیو، ا. Xu, J. DeepAM: نمایش آدرس معنایی عمیق برای تطبیق آدرس . انتشارات بین المللی Springer: برلین/هایدلبرگ، آلمان، 2019؛ جلد 3. [ Google Scholar ] [ CrossRef ]
  30. چانگ، جی. گلچهره، سی. چو، ک. Bengio، Y. ارزیابی تجربی شبکه‌های عصبی بازگشتی دروازه‌ای در مدل‌سازی توالی. arXiv 2014 ، arXiv:1412.3555. [ Google Scholar ]
  31. هوکرایتر، اس. اورگن اشمیدهابر، جی. حافظه کوتاه مدت بلند. محاسبات عصبی 1997 , 9 , 17351780. [ Google Scholar ] [ CrossRef ]
  32. واسوانی، ع. Shazeer، N. پارمار، ن. Uszkoreit، J. جونز، ال. گومز، AN; قیصر، ال. Polosukhin، I. توجه تمام چیزی است که شما نیاز دارید. در مجموعه مقالات سی و یکمین کنفرانس سیستم های پردازش اطلاعات عصبی (NIPS 2017)، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 4 تا 9 دسامبر 2017؛ صفحات 5998-6008. [ Google Scholar ]
  33. دولین، جی. چانگ، مگاوات؛ تره فرنگی.؛ Toutanova، K. BERT: پیش آموزش ترانسفورماتورهای عمیق دو جهته برای درک زبان. در مجموعه مقالات NAACL-HLT 2019، مینیاپولیس، MN، ایالات متحده آمریکا، 2-7 ژوئن 2019؛ جلد 1، ص 4171–4186. [ Google Scholar ]
  34. Thekumparampil، KK; وانگ، سی. اوه، اس. شبکه عصبی گراف مبتنی بر توجه لی، LJ برای یادگیری نیمه نظارتی. arXiv 2018 , arXiv:1803.03735. [ Google Scholar ]
  35. سانتوس، آر. موریتا-فلورس، پی. کالادو، پی. مارتینز، بی. تطبیق نام از طریق شبکه های عصبی عمیق. بین المللی جی. جئوگر. Inf. علمی 2018 ، 32 ، 324-348. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  36. گوری، م. منفردینی، جی. اسکارسلی، اف. مدلی جدید برای یادگیری در حوزه های گراف. Proc. بین المللی Jt. Conf. شبکه عصبی 2005 ، 2 ، 729-734. [ Google Scholar ] [ CrossRef ]
  37. ژانگ، اچ. رن، اف. لی، اچ. یانگ، آر. ژانگ، اس. Du، Q. روش شناسایی عناصر آدرس جدید در تطبیق آدرس چینی بر اساس یادگیری عمیق. ISPRS Int. J. Geo-Inf. 2020 ، 9 ، 745. [ Google Scholar ] [ CrossRef ]
  38. Rabiner, LR A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. Proc. IEEE 1989 ، 77 ، 257-286. [ Google Scholar ] [ CrossRef ]
  39. قهرمانی، ز. مقدمه ای بر مدل های پنهان مارکوف و شبکه های بیزی. بین المللی ج. تشخیص الگو. آرتیف. هوشمند 2001 ، 15 ، 9-42. [ Google Scholar ] [ CrossRef ]
  40. لی، ایکس. کاردس، اچ. وانگ، ایکس. Sun، A. تجزیه آدرس مبتنی بر HMM با تولید داده‌های آموزشی مصنوعی عظیم. بین المللی Conf. Inf. بدانید. مدیریت Proc. 2014 ، 33-36. [ Google Scholar ] [ CrossRef ]
  41. لافرتی، جی. مک کالوم، ا. Pereira، F. میدان های تصادفی شرطی: مدل های احتمالی برای قطعه بندی و برچسب گذاری داده های توالی چکیده. در مجموعه مقالات هجدهمین کنفرانس بین المللی یادگیری ماشین 2001، سانفرانسیسکو، کالیفرنیا، ایالات متحده آمریکا، 28 ژوئن تا 1 ژوئیه 2001. ص 282-289. [ Google Scholar ]
  42. Blei، DM; Ng، AY؛ جردن، MI; والاچ، اچ ام. هینتون، جنرال الکتریک؛ اوسیندرو، اس. Teh، Y.-W. فیلدهای تصادفی شرطی: مقدمه. محاسبات عصبی 2004 ، 18 ، 1-9. [ Google Scholar ] [ CrossRef ]
  43. بورگاتی، SP مرکزیت و جریان شبکه. Soc. شبکه 2005 ، 27 ، 55-71. [ Google Scholar ] [ CrossRef ]
  44. سانتوس، آر. موریتا-فلورس، پی. مارتینز، بی. آموزش ترکیب معیارهای تشابه رشته‌های متعدد برای تطبیق مؤثر نامهای. بین المللی جی دیجیت. زمین 2017 ، 11 ، 913-938. [ Google Scholar ] [ CrossRef ]
  45. Levenshtein، کدهای باینری VI که قادر به تصحیح حذف، درج و معکوس هستند. Sov. فیزیک دوکل. 1966 ، 10 ، 707-710. [ Google Scholar ] [ CrossRef ]
  46. Jaro، MA پیشرفت در روش ثبت-پیوند به عنوان تطبیق سرشماری 1985 تمپا، فلوریدا. مربا. آمار دانشیار 1989 ، 84 ، 414-420. [ Google Scholar ] [ CrossRef ]
  47. وینکلر، معیارهای مقایسه‌کننده رشته‌های WE و قوانین تصمیم‌گیری پیشرفته در مدل پیوند رکورد Fellegi-Sunter. Proc. فرقه Surv. Res. صبح. آمار دانشیار 1990 ، 354-359. [ Google Scholar ]
  48. Forney، GD الگوریتم ویتربی. Proc. IEEE 1973 ، 61 ، 268-278. [ Google Scholar ] [ CrossRef ]
  49. مک کالوم، ا. فرایتاگ، دی. Pereira، F. مدل‌های مارکوف حداکثر آنتروپی برای استخراج و بخش‌بندی اطلاعات. در مجموعه مقالات هفدهمین کنفرانس بین المللی یادگیری ماشین، 2000، سانفرانسیسکو، کالیفرنیا، ایالات متحده آمریکا، 29 ژوئن تا 2 ژوئیه 2000. [ Google Scholar ]
  50. وانگ، ام. هابرلند، وی. یو، آ. مارتین، ای. هاروید، جی. Bishop, JM تجزیه کننده آدرس احتمالی با استفاده از فیلدهای تصادفی شرطی و دستور زبان منظم تصادفی. در مجموعه مقالات شانزدهمین کنفرانس بین المللی IEEE 2016 در کارگاه های داده کاوی (ICDMW)، بارسلون، اسپانیا، 12 تا 15 دسامبر 2016. [ Google Scholar ] [ CrossRef ]
  51. کریستن، پی. ویلمور، آ. کلیساها، T. یک سیستم جغرافیایی کدگذاری احتمالی با استفاده از یک فایل آدرس مبتنی بر بسته. در داده کاوی ؛ Springer: برلین/هایدلبرگ، آلمان، 2006; جلد 3755، صص 130–145. [ Google Scholar ] [ CrossRef ]
  52. فو، س. دینگ، XQ; لیو، سی اس; Jiang, Y. الگوریتم تقسیم بندی و تشخیص مبتنی بر مدل مارکوف پنهان برای رشته های کاراکتر آدرس دست نوشته چینی. Proc. بین المللی Conf. Doc. مقعدی تشخیص دهد. ICDAR 2005 ، 2005 ، 590-594. [ Google Scholar ] [ CrossRef ]
  53. میکولوف، تی. چن، ک. کورادو، جی. Dean, J. برآورد کارآمد بازنمایی کلمات در فضای برداری. arXiv 2013 , arXiv:1301.3781. [ Google Scholar ]
  54. Comber, S. نشان دادن سودمندی نوآوری های یادگیری ماشین در تطبیق آدرس با کاربردهای اجتماعی-اقتصادی فضایی. منطقه 2019 ، 6 ، 17–37. [ Google Scholar ] [ CrossRef ]
  55. دانی، MN; فاروکی، TA; گارگ، آر. کوثری، جی. موهانیا، MK; پراساد، خ. Subramaniam، LV; Swamy، VN یک روش کسب دانش برای بهبود کیفیت داده در تعاملات خدمات. در مجموعه مقالات کنفرانس بین المللی IEEE در سال 2010 در محاسبات خدمات، میامی، FL، ایالات متحده آمریکا، 5 تا 10 ژوئیه 2010. صص 346-353. [ Google Scholar ] [ CrossRef ]
  56. تانگ، ایکس. چن، ایکس. ژانگ، ایکس. تحقیق در مورد تفکیک نام های نامی در متن چینی. Wuhan Daxue Xuebao (Xinxi Kexue Ban)/Geomat. Inf. علمی دانشگاه ووهان 2010 ، 35 ، 930-935. [ Google Scholar ]
  57. واینمن، جی. مدل‌های جغرافیایی و سبک برای چینش نقشه‌های تاریخی و تشخیص نام نامی. در مجموعه مقالات چهاردهمین کنفرانس بین المللی IAPR در سال 2017 در تجزیه و تحلیل و شناسایی اسناد (ICDAR)، کیوتو، ژاپن، 9 تا 15 نوامبر 2017؛ ص 957-964. [ Google Scholar ] [ CrossRef ]
  58. لیو، جی. وانگ، جی. ژانگ، سی. یانگ، ایکس. دنگ، ج. زو، آر. نان، ایکس. Chen, Q. محاسبه شباهت آدرس چینی بر اساس برچسب گذاری خودکار سطح زمین شناسی Jing ; انتشارات بین المللی Springer: چم، سوئیس، 2019; جلد 2. [ Google Scholar ] [ CrossRef ]
  59. کوثری، جی. فاروکی، TA; Subramaniam، LV; پراساد، خ. Mohania، MK انتقال نظارت برای بهبود استانداردسازی آدرس. در مجموعه مقالات بیستمین کنفرانس بین المللی شناسایی الگوی 2010، استانبول، ترکیه، 23 تا 26 اوت 2010. صص 2178–2181. [ Google Scholar ] [ CrossRef ]
  60. Teh، YW; جردن، MI; بیل، ام جی. Blei، DM فرآیندهای دیریکله سلسله مراتبی. مربا. آمار دانشیار 2006 ، 101 ، 1566-1581. [ Google Scholar ] [ CrossRef ]
  61. گوا، اچ. زو، اچ. گوا، ز. ژانگ، XX; سو، زی. استانداردسازی آدرس با انجمن معنایی پنهان. در مجموعه مقالات پانزدهمین کنفرانس بین المللی ACM SIGKDD در مورد کشف دانش و داده کاوی، پاریس، فرانسه، 28 ژوئن تا 1 ژوئیه 2009. صص 1155-1163. [ Google Scholar ] [ CrossRef ]
  62. جیانگ، ی. دینگ، ایکس. Ren, Z. سیستم تشخیص آدرس چینی دست‌نویس مبتنی بر درخت پسوند. در مجموعه مقالات نهمین کنفرانس بین المللی تجزیه و تحلیل و شناسایی اسناد (ICDAR 2007)، کوریتیبا، برزیل، 23 تا 26 سپتامبر 2007. جلد 1، ص 292-296. [ Google Scholar ] [ CrossRef ]
  63. تیان، کیو. رن، اف. هو، تی. لیو، جی. لی، آر. Du، Q. استفاده از روش تطبیق آدرس چینی بهینه برای توسعه یک سرویس کدگذاری جغرافیایی: مطالعه موردی شنژن، چین. ISPRS Int. J. Geo-Inf. 2016 ، 5 ، 65. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  64. لیو، کیو. وانگ، دی. لو، اچ. لی، سی. تشخیص نویسه چینی دست‌نویس بر اساس دانش خاص دامنه . انتشارات بین المللی Springer: برلین/هایدلبرگ، آلمان، 2018; جلد 2، ص 221-231. [ Google Scholar ] [ CrossRef ]
  65. لی، اچ. لو، دبلیو. زی، پی. Li, L. تجزیه آدرس عصبی چینی. در مجموعه مقالات کنفرانس 2019 بخش آمریکای شمالی انجمن زبان‌شناسی محاسباتی: فناوری‌های زبان انسانی، مینیاپولیس، MN، ایالات متحده آمریکا، 2 تا 7 ژوئن 2019؛ جلد 1، ص 3421–3431. [ Google Scholar ]
  66. کومارلاس، آی. کروشک، آ. موزلی، سی. Naumann, F. Experience: Enhancing Address Match with Geocoding and Similarity Measure Selection. J. Data Inf. کیفیت 2018 ، 10 ، 1-16. [ Google Scholar ] [ CrossRef ]
  67. کایو، MR; تالبوت، خطای موقعیتی در رمزگذاری خودکار آدرس‌های مسکونی. بین المللی J. Health Geogr. 2003 ، 2 ، 1-12. [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
  68. Cortes، TR; دا سیلویرا، IH; Junger، WL بهبود نرخ تطبیق کدگذاری جغرافیایی آدرس‌های ساختاریافته در ریودوژانیرو، برزیل. Cad. Saude Publica 2021 , 37 , e00039321. [ Google Scholar ] [ CrossRef ]
  69. لی، پی. لو، ا. لیو، جی. وانگ، ی. ژو، جی. دنگ، ی. Zhang, J. شبکه عصبی واحد بازگشتی دردار دوطرفه برای بخش بندی عناصر آدرس چینی. ISPRS Int. J. Geo-Inf. 2020 ، 9 ، 635. [ Google Scholar ] [ CrossRef ]
  70. چن، جی. چن، جی. او، X. مائو، جی. چن، جی. رویکرد یادگیری تضاد عمیق برای تطبیق معنایی آدرس. Appl. علمی 2021 ، 11 ، 7608. [ Google Scholar ] [ CrossRef ]
  71. چن، کیو. لینگ، ز. جیانگ، اچ. زو، ایکس. وی، اس. Inkpen، D. Enhanced LSTM for Natural Language Inference. در مجموعه مقالات پنجاه و پنجمین نشست سالانه انجمن زبانشناسی محاسباتی، ونکوور، بریتیش کلمبیا، کانادا، 30 ژوئیه تا 4 اوت 2017؛ جلد 1، ص 1657–1668. [ Google Scholar ] [ CrossRef ]
  72. پریخ، AP; تاکستروم، او. داس، دی. Uszkoreit, J. یک مدل توجه تجزیه پذیر برای استنتاج زبان طبیعی. arXiv 2016 , arXiv:1606.01933. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  73. Koza, JR برنامه نویسی ژنتیکی: در مورد برنامه ریزی کامپیوترها با استفاده از انتخاب طبیعی . مطبوعات MIT: کمبریج، MA، ایالات متحده آمریکا، 1992. [ Google Scholar ]
  74. Araujo، L. برنامه ریزی ژنتیکی برای پردازش زبان طبیعی. ژنت برنامه. ماخ تکامل پذیر. 2020 ، 21 ، 11-32. [ Google Scholar ] [ CrossRef ]
  75. آهنگ، Z. الگوریتم تطبیق آدرس بر اساس درک زبان طبیعی چینی. J. Remote Sens. 2013 ، 17 ، 788-801. [ Google Scholar ]
  76. ورما، ا. Kaur, G. شناسایی شخصیت از سند دست‌نویس با استفاده از شبکه‌های عصبی. بین المللی J. Appl. مهندس Res. 2015 ، 10 ، 37574–37579. [ Google Scholar ]
  77. چوی، SCT; لین، ی. Mulrow، E. مقایسه نرم افزار و خدمات دامنه عمومی برای پیوند رکورد احتمالی و استانداردسازی آدرس. لکت. یادداشت ها محاسبه. علمی 2017 ، 10344 ، 51-66. [ Google Scholar ] [ CrossRef ]
  78. نگابوشان، پ. انگادی، س. آنامی، ساختار داده نمادین BS برای نمایش آدرس پستی و اعتبارسنجی آدرس از طریق پایگاه دانش نمادین. لکت. یادداشت ها محاسبه. علمی 2005 ، 3776 ، 388-394. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  79. فلورچیک، ای جی؛ لوپز-پلیسر، FJ; مورو مدرانو، پی. نوگراس-ایسو، جی. Zarazaga-Soria، FJ Semantic Selection of Georeferencing Services for Urban Management. الکترون. J. Inf. تکنولوژی ساخت و ساز 2010 ، 15 ، 111-121. [ Google Scholar ]
شکل 1. نمودار جریان PRISMA از روش های غربالگری دنبال شده.
شکل 2. نوع و رتبه بندی مقالات انتخاب شده، بر اساس شاخص رتبه مجله SCImago و https://www.conferenceranks.com (دسترسی در 9 نوامبر 2021).
شکل 3. تعداد مقالات منتشر شده در طول زمان.
شکل 4. ( الف ) تجسم شبکه وقوع کلمه کلیدی. ( ب ) پوشش شبکه وقوع کلمه کلیدی. توجه: دایره ها بیانگر کلمات کلیدی و اندازه آنها نشان دهنده اهمیت کلمات کلیدی است. خوشه‌ها با دایره‌هایی که همرنگ هستند شناسایی می‌شوند و ضخامت پیوندی که دایره‌ها را به هم متصل می‌کند با تعداد دفعاتی که دو گره متصل با هم ذکر شده‌اند، مطابقت دارد. زمان قبلی با رنگی نزدیک به آبی و سال اخیر با رنگی نزدیک به زرد نشان داده می شود.
شکل 5. ( الف ) تجسم شبکه ای از تحلیل هم نویسندگی نویسنده. ( ب ) تحلیل همکاری نویسنده بر اساس تجسم همپوشانی سال. توجه: نام نویسنده با یک دایره و اهمیت آن با اندازه دایره نشان داده می شود، با دایره هایی همرنگ متعلق به یک خوشه. ضخامت پیوند اتصال دایره ها نشان دهنده تعداد دفعاتی است که دو گره متصل با هم ذکر شده اند. زمان قبلی با رنگی نزدیک به آبی و سال اخیر با رنگی نزدیک به زرد نشان داده می شود.
شکل 6. شبکه تجسم جفت کتابشناختی نویسنده. توجه: هر حلقه نشان دهنده یک نویسنده است و حلقه های بزرگتر نشان دهنده محققانی است که انتشارات بیشتری دارند. قدرت نسبی روابط بین نویسندگان با رنگ خوشه ها و میزان نزدیکی آنها به یکدیگر در تجسم نشان داده می شود.
شکل 7. وقوع کلمات کلیدی بر اساس منطقه کاربردی (%).
شکل 8. دامنه های کاربردی بر اساس میانگین سال انتشار.
شکل 9. پوشش شبکه ای از رخدادهای کلیدواژه مربوط به روش ها/الگوریتم ها.
شکل 10. شکاف های تحقیقاتی اصلی شناسایی شده در SLR حاضر.

بدون دیدگاه

دیدگاهتان را بنویسید