این مقاله یک رویکرد جدید برای تفکیک نام نام‌ها با شبکه‌های عصبی عمیق را توصیف می‌کند. رویکرد پیشنهادی شامل تطبیق ارجاعات در متن در برابر مدخل‌های یک روزنامه نیست، در عوض مستقیما مختصات جغرافیایی- فضایی را پیش‌بینی می‌کند. ورودی‌های چندگانه در معماری شبکه عصبی در نظر گرفته می‌شوند (به عنوان مثال، کلمات اطراف در ترکیب با نام نامی برای رفع ابهام در نظر گرفته می‌شوند)، با استفاده از جاسازی‌های متنی از پیش آموزش‌دیده‌شده (به عنوان مثال، ELMo یا BERT) و همچنین کوتاه‌مدت دو جهته واحدهای حافظه، که هر دو به طور منظم برای مدل سازی داده های متنی استفاده می شوند. سپس نمایش‌های میانی برای پیش‌بینی توزیع احتمال بر روی مناطق جغرافیایی فضایی ممکن، و در نهایت برای پیش‌بینی مختصات برای نام ورودی استفاده می‌شوند.جنگ شورش ، (2) واژگان محلی-جهانی ، و (iii) مجموعه فضایی ام ال . علاوه بر این، ما تأثیر استفاده از (i) ویژگی‌های زمین ژئوفیزیکی را به عنوان اطلاعات خارجی، از جمله اطلاعات مربوط به ارتفاع یا توسعه زمین، و (ii) داده‌های اضافی جمع‌آوری‌شده از مقالات ویکی‌پدیا، برای کمک بیشتر به آموزش مدل، ارزیابی کردیم. نتایج به‌دست‌آمده، بهبودهایی را با استفاده از روش پیشنهادی، در مقایسه با رویکردهای قبلی، و به‌ویژه زمانی که تعبیه‌های BERT و داده‌های اضافی درگیر هستند، نشان می‌دهد.

کلید واژه ها:

تحلیل متون جغرافیایی ; حل و فصل نام های نامی در اسناد متنی ; یادگیری عمیق برای NLP ؛ تعبیه کلمه متنی ; یادگیری ماشین با شبکه های عصبی

1. مقدمه

تفکیک نام‌های محلی به ابهام‌زدایی از نام مکان‌ها مربوط می‌شود و در برخی موارد، ارجاعات دیگری به مکان‌ها مانند اشکال صفت و اهریمنی که در اسناد متنی آورده شده است را نیز در نظر می‌گیرد. نام مکان ها ابتدا از طریق یک مدل شناسایی نهاد نامگذاری شده (NER) شناسایی می شوند و سپس ابهام زدایی با مرتبط کردن یک موقعیت منحصر به فرد در سطح زمین به هر یک از مراجع مکان، به عنوان مثال، با اختصاص مختصات جغرافیایی به دست می آید. از آنجایی که مراجع مکان بسیار مبهم هستند، وظایف حل متضاد به طور قابل توجهی چالش برانگیز هستند. هنگام حل نام های نامی در اسناد متنی، سه نوع ابهام خاص باید حل شود [ 1 ، 2 ]:
  • ابهام جغرافیایی/جغرافیایی زمانی اتفاق می‌افتد که یک نام مکان توسط مکان‌های مختلف به اشتراک گذاشته شود. به عنوان مثال، نام کنت می تواند مربوط به شهرستان کنت ، دلاور ، ایالات متحده ، یا کنت نیو کنت ، ویرجینیا ، ایالات متحده باشد.
  • ابهام جغرافیایی/غیر جغرافیایی زمانی اتفاق می‌افتد که از واژه‌های زبان رایج برای شناسایی نام مکان‌ها استفاده می‌شود، یعنی زمانی که همان نام توسط یک مکان و همچنین توسط یک غیرمکان به اشتراک گذاشته می‌شود. به عنوان مثال، کلمه شارلوت می تواند به مکان خاص شهرستان شارلوت ، ویرجینیا ، ایالات متحده یا به نام یک شخص اشاره داشته باشد. کلمه منهتن همچنین می تواند به یک نوشیدنی کوکتل یا مکان خاص منهتن ، نیویورک ، ایالات متحده اشاره کند .
  • ابهام مرجع، که زمانی به وجود می‌آید که یک مکان را می‌توان با چندین نام ارجاع داد. به عنوان مثال، موتور سیتی نامی است که معمولاً برای اشاره به دیترویت ، میشیگان ، ایالات متحده استفاده می شود.
مشکل (2) باید توسط مدل NER که ارجاعات مکان را در اسناد متنی شناسایی می‌کند، حل شود، در حالی که مشکلات (1) و (3) باید در هنگام تلاش برای مرتبط کردن مکان‌های فیزیکی بدون ابهام به مراجع شناسایی شده در متن حل شوند (مثلاً ، با استفاده از مختصات ژئوفضایی به صورت طول و عرض جغرافیایی).
چندین برنامه می توانند از نتایج روش های تفکیک نام نامی استفاده کنند. اینها شامل سازماندهی و تجسم اسناد بر اساس معیارهای فضایی است، به عنوان مثال با گروه بندی اسناد در خوشه های مربوطه و/یا نقشه برداری از اطلاعات کدگذاری شده متنی [ 2 ]. مثال دیگر به بهبود ارائه نتایج در موتورهای جستجو مربوط می شود، به عنوان مثال از طریق نمایه سازی جغرافیایی، رتبه بندی، و/یا خوشه بندی نتایج جستجو [ 3 ، 4 ، 5 ، 6 ]. یکی دیگر از کاربردهای احتمالی مربوط به حمایت از مطالعات در زمینه هایی مانند علوم اجتماعی محاسباتی یا علوم انسانی دیجیتال است [ 7 ]]، به عنوان مثال تجزیه و تحلیل و پردازش داده های جغرافیایی استخراج شده از مجموعه اسناد متنی. علاوه بر این، وضوح مراجع مکان می تواند به عنوان یک جزء کمکی برای موقعیت جغرافیایی اسناد کامل استفاده شود [ 8 ]، با توجه به اینکه نام های موجود در اسناد متنی می توانند سرنخ هایی را در مورد منطقه جغرافیایی کلی مورد بحث ارائه دهند.
بیشتر سیستم‌های توسعه‌یافته قبلی برای تفکیک نام نام‌ها در متن مبتنی بر اکتشافی هستند (مثلاً مکان‌هایی با تراکم جمعیت بالا را ترجیح می‌دهند، یا فاصله جغرافیایی – فضایی بین مکان‌های مختلف ارجاع‌شده در یک واحد متنی را به حداقل می‌رسانند)، همچنین با تکیه بر پایگاه‌های دانش خارجی (یعنی روزنامه‌نگاران) برای تصمیم‌گیری مکانی که برای ارتباط با هر مرجع مناسب‌تر است. ارجاع‌های مکان‌هایی که در متن با آن مواجه می‌شوند، ابتدا با مدخل‌های مشابه موجود در روزنامه [ 9 ، 10 ] مقایسه می‌شوند و برای مثال، ورودی‌های تطبیقی ​​مربوط به مکان‌های پرجمعیت را می‌توان مورد پسند قرار داد، زیرا مستعد استفاده در توصیف‌های متنی هستند. [ 11 ، 12]. روش‌هایی که از اکتشافی‌های چندگانه به‌عنوان ویژگی‌های ادغام‌شده در تکنیک‌های یادگیری ماشین نظارت شده استاندارد استفاده می‌کنند نیز در برخی از مطالعات [ 13 ، 14 ، 15 ، 16 ] در نظر گرفته می‌شوند ، در حالی که مطالعات جدیدتر کاربرد روش‌های مدل‌سازی زبان را در نظر می‌گیرند [ 17،18 ] . اخیراً، استفاده از تکنیک‌های یادگیری عمیق نتایج پیشرفته‌ای را برای تکلیف تفکیک نام‌ها به همراه داشت [ 19 ، 20 ، 21 ، 22 ].
این مقاله یک روش جدید را برای تفکیک نام نام‌ها معرفی می‌کند که از یادگیری عمیق برای مدل‌سازی عناصر متنی استفاده می‌کند، با ترکیب واحدهای حافظه کوتاه‌مدت دو طرفه (LSTM) با جاسازی‌های متنی از پیش آموزش‌دیده شده (یعنی ویژگی‌های استاتیک استخراج‌شده با استفاده از تعبیه‌ها از زبان). مدل‌ها (ELMo) [ 23 ] یا روش‌های نمایش رمزگذار دوطرفه از ترانسفورماتورها (BERT) [ 24 ]. ما بر روی ابهام‌زدایی از مراجع مکان‌هایی که قبلاً شناسایی شده‌اند، تمرکز کردیم، و اشاره کردیم که بسیاری از رویکردهای NER وجود دارد که به راحتی می‌توان برای شناسایی دقیق نام مکان‌ها در متن استفاده کرد (به عنوان مثال، بسته‌های نرم‌افزاری مانند spacy.io دارای مدل‌های قوی برای شناسایی موجودیت هستند).
مدلی که ما پیشنهاد می کنیم چندین ورودی متنی، به طور خاص تر مرجع نام مکان، جمله ای که مرجع در آن رخ می دهد و پاراگراف مربوطه را ترکیب می کند. این مدل همچنین خروجی‌های متعددی را که به یکدیگر متصل هستند، به ویژه یک خروجی اولیه مربوط به مختصات جغرافیایی، همراه با یک خروجی طبقه‌بندی جایگزین مربوط به مناطق درشت روی سطح زمین در نظر می‌گیرد (یعنی مدل یک هدف طبقه‌بندی چند کلاسه را با پیش‌بینی ترکیب می‌کند. مناطق، همراه با یک هدف رگرسیون مرتبط با پیش‌بینی مختصات طول و عرض جغرافیایی). مناطق طبقه‌بندی با استفاده از یک پیکسل‌سازی isoLatitude مساحت سلسله مراتبی (HEALPix) [ 25 ] ایجاد می‌شوند.] روشی که سلول‌های مساحت مساوی را تولید می‌کند که با تقسیم یک سطح کروی که سطح زمین را به صورت بازگشتی نشان می‌دهد به دست می‌آید. خروجی شبکه مربوط به مختصات جغرافیایی فضایی، که مقادیر خود را از توزیع احتمال مرتبط با خروجی طبقه‌بندی می‌گیرد، به یک تابع تلفات مربوط به فاصله دایره بزرگ متصل می‌شود. این مقدار با از دست دادن آنتروپی متقابل برای خروجی طبقه‌بندی چند طبقه ترکیب می‌شود، و به طور مشترک هر دو بخش را بهینه می‌کند تا امیدواریم پیش‌بینی مختصات جغرافیایی برای هر مرجع مکان بهبود یابد. علاوه بر این، ما با استفاده از اطلاعات مربوط به خواص ژئوفیزیکی (به عنوان مثال، ارتفاع، توسعه زمین، حداقل فاصله از مناطق آبی، و درصد پوشش گیاهی)، در تلاش برای بهبود بیشتر عملکرد، آزمایش کردیم.
مدل پیشنهادی با استفاده از سه مجموعه داده معروف که به طور گسترده در مطالعات قبلی مورد استفاده قرار می‌گرفتند، به‌ویژه Local-Global Lexicon ، جنگ شورش ، و بدنه SpatialML مورد آزمایش قرار گرفت . کد منبع پشتیبانی از آزمایش‌ها نیز در یک مخزن Github در دسترس عموم قرار گرفت ( https://github.com/barbarainacioc/toponym-resolution(دسترسی در 10 نوامبر 2021)). در مجموع، نتایج تجربی ما نشان می‌دهد که رویکرد پیشنهادی می‌تواند از نتایج به‌دست‌آمده در مطالعات قبلی در مجموعه داده‌های مشابه پیشی بگیرد. علاوه بر این، ما انواع مختلف رویکرد پیشنهادی را آزمایش کردیم (به عنوان مثال، مقایسه تعبیه‌های ELMo و BERT) و برای درک تأثیر اندازه داده‌های آموزشی بر نتایج، سناریویی را نیز انتخاب کردیم که در آن نمونه داده‌ای بزرگ‌تر برای مدل استفاده می‌شود. آموزش. نمونه‌های جدید اضافه شده به مجموعه اصلی از نمونه‌ای تصادفی از مقالات ویکی‌پدیا انگلیسی استخراج شده‌اند، با بهره‌گیری از ساختار پیوند ویکی‌پدیا برای جمع‌آوری گستره‌هایی از متن مربوط به مراجع مکان (یعنی با در نظر گرفتن گستره‌های متنی که به صفحات ویکی‌پدیا مرتبط با جغرافیا پیوند داده می‌شوند. مختصات مکانی). نتایج نشان می‌دهد که افزایش داده‌های آموزشی تنها نتایج را به طور جزئی بهبود می‌بخشد.
بقیه مقاله به شرح زیر سازماندهی شده است: بخش 2 کارهای مرتبط را توصیف می کند و مجموعه های مورد استفاده در این پروژه را ارائه می دهد. بخش 3 مدل پیشنهادی را شرح می دهد. بخش 4 ارزیابی تجربی دنبال شده، شامل روش ارزیابی و همچنین نتایج به دست آمده را نشان می دهد. در نهایت، بخش 5 نتیجه گیری های ما را نشان می دهد و ایده هایی را برای کار آینده ترسیم می کند.

2. کارهای مرتبط

این بخش مطالعات قبلی مرتبط را ارائه می‌کند که به تفکیک نام نام‌ها با تکنیک‌های مختلف، به‌ویژه روش‌های مبتنی بر اکتشاف ( بخش 2.1 )، روش‌های ترکیب اکتشافی با یادگیری نظارت‌شده ( بخش 2.2 )، روش‌های با استفاده از شبکه‌های ژئودزیکی همراه با مدل‌های زبانی ( بخش 2.3 )، و در نهایت ارائه می‌شود. روش های اعمال نفوذ یادگیری عمیق ( بخش 2.4 ). در نهایت، بخش 2.5 بدنه‌هایی را که در آزمایش‌های توصیف‌شده در این کار مورد استفاده قرار گرفتند، توصیف می‌کند.

2.1. روش های اکتشافی برای تفکیک نام های نامی

اکثر سیستم‌هایی که قبلاً برای تفکیک نام نام‌ها توسعه داده شده‌اند، مبتنی بر اکتشاف هستند و از منابع دانش خارجی برای دسترسی به مجموعه‌ای از داده‌ها در مورد مکان‌های روی سطح زمین (مثلاً انواع مکان‌ها، نام‌های جایگزین، ردپای جغرافیایی-فضایی، یا تراکم جمعیت) استفاده می‌کنند. ، درمیان دیگران). سیستم‌های مبتنی بر اکتشافی معمولاً از انواع داده‌های ذکر شده استفاده می‌کنند تا تصمیم بگیرند که کدام یک از مکان‌های ممکن، در مجموعه‌ای از نامزدهای بازیابی شده از روزنامه، با نام مکان ارائه‌شده در متن مطابقت دارد [ 11 ، 12 ، 14 ، 26 ، 27 ].
علاوه بر اطلاعات خارجی، همچنین می‌توان جنبه‌های زبانی را در شکل‌گیری اکتشافات ابهام‌زدایی نام‌ها در نظر گرفت [ 12 ، 27 ]. در کار اصلی در این منطقه، لایدنر [ 12 ] هم از اکتشافات زبانی (یعنی استنباط قواعد و الگوها از محتوای متنی) و هم از اکتشافات فرازبانی (یعنی استفاده از منبع خارجی دانش) استفاده کرد. به عنوان مثال، یکی از اکتشافی های در نظر گرفته شده توسط لایدنر مبتنی بر یک واجد شرایط است که الگوهایی مانند ( ) یا که در و محدودیت جغرافیایی را برای مکان‌های نامزد احتمالی (یعنی مکان‌هایی با همان نامی که در حال حل شدن است) با توجه به هر دو نام نامی ارزیابی می‌کند، مختصات جغرافیایی را بر اساس مهار جغرافیایی-مکانی تعریف می‌کند (به عنوان مثال، اختصاص دادن به لندن مختصات پایتخت انگلستان در صورتی که الگوی شناسایی شده مربوط به لندن (بریتانیا) باشد، یا مختصات شهر در انتاریو اگر الگوی شناسایی شده به لندن ، انتاریو ، کانادا اشاره دارد.). لیدنر همچنین از اکتشافات فرازبانی مانند اکتشاف مبتنی بر اختصاص دادن نام نامی به مکان نامزد با تراکم جمعیت بالاتر استفاده کرد. مثال دیگر اکتشافی یک حس در هر گفتمان است که در نظر می‌گیرد اگر یک نام مفروض چندین بار در متن بدون سرنخ‌های زمینه‌ای اضافی وجود داشته باشد، و اگر یک مکان نامزد بسیار برجسته باشد (مثلاً مربوط به یک شهر پایتخت باشد) احتمال بالاتری وجود دارد که همان نام نامبرده اشاره به آن نامزد داشته باشد (به عنوان مثال، اگر پاریس در متن وجود دارد، همیشه مختصات پاریس، پایتخت فرانسه را در نظر بگیرید، و مکان های دیگری به نام پاریس را تعیین نکنید).
Leidner [ 12 ] همچنین در مورد ترکیبات ترکیبی از هر دو نوع اکتشافی گزارش داد، به عنوان مثال، با در نظر گرفتن همبستگی متنی-فضایی و با فرض اینکه شباهت متنی در زمینه‌های وقوع باید به شدت با مجاورت فضایی مرتبط باشد. برای مثال، اگر نام‌های پاریس و ورسای در یک گستره متنی کوچک (یعنی در مجاورت متنی) وجود داشته باشند، احتمالاً نام پاریس با پاریس، پایتخت فرانسه مرتبط است.
یک روش اکتشافی اخیر که در زمینه ژئوکدگذار GeoTxt توسعه یافته است (یعنی یک رابط برنامه نویسی کاربردی انعطاف پذیر که برای استخراج و ابهام زدایی نام های نامی در اسناد متنی کوچک استفاده می شود)، توسط کریم زاده و همکاران گزارش شده است. [ 14]. این سیستم با تمرکز انحصاری بر ابهام‌زدایی از مراجع مکان شناسایی شده، از منابع موجود برای تشخیص نام‌های نامی در متن استفاده می‌کند. در طول تفکیک نام نام‌ها، برای هر ذکر، سیستم از یک فهرست سفارشی روی روزنامه GeoNames استفاده می‌کند تا مجموعه‌ای از مکان‌های نامزد را بازیابی کند و به هر یک از آنها امتیاز خاصی اختصاص دهد. این امتیاز از ترکیبی از ویژگی‌های متعدد حاصل می‌شود که شامل افزایش تراکم جمعیت یا شاخص‌های نوع مکان خاص (مانند تقسیمات اداری، مناطق، قاره‌ها، نهادهای سیاسی مستقل، مکان‌های پرجمعیت، یا انواع تأسیسات (مانند استادیوم، ایستگاه قطار، کالج) می‌شود. )، درمیان دیگران). علاوه بر این، GeoTxt همچنین اکتشافات ابهام‌زدایی اضافی را براساس هم‌روی نام‌های نامی در متن در نظر می‌گیرد و از ایده حداقلی فضایی استفاده می‌کند.قبلا توسط Leidner [ 12 ] نیز گزارش شده بود. دو مورد از این اکتشافی‌ها به روابط سلسله مراتبی بین نام‌ها مربوط می‌شوند (به عنوان مثال، اگر یک رابطه مهاری نسبت به یک فضای جغرافیایی یکسان توسط دو نام محلی مشترک باشد، یا به نام‌های مکان بلافاصله متوالی (مثلاً ترکیبی از ایالت، شهر) و یا مربوط به نام‌ها باشد. به طور جداگانه در متن نشان داده شده است). سومین اکتشافی مربوط به مجاورت فضایی است و هدف آن به حداقل رساندن فاصله متوسط ​​بین مکان پیش‌بینی‌شده یک نام و مکان دیگر نام‌های هم‌زمان در متن است.

2.2. ترکیب اکتشافی از طریق یادگیری نظارت شده

چندین مطالعه قبلی از رویکردهای نظارت شده استفاده کرده‌اند که اکتشافی‌ها را، مانند مواردی که در بخش قبل به آنها اشاره شد، به‌عنوان ویژگی‌های تکنیک‌های یادگیری ماشین استاندارد در نظر می‌گیرند [ 13 ، 15 ، 16 ].
به عنوان مثال، الهام گرفتن از مطالعات قبلی مرتبط با موجودیت کلی، سانتوس و همکاران. [ 16] ترکیبی از ویژگی‌های چندگانه، مانند برجستگی مکان، شباهت‌های بین مکان‌های نامزد احتمالی و زمینه مرتبط با مرجع مکان (مثلاً مقایسه توصیف‌های نامزدها در برابر متن اطراف ذکر) و شباهت‌های نامزدها به نام‌های دیگر موجود را بررسی کرد. در متن. یک مدل یادگیری رتبه‌بندی از مجموعه‌ای از نمونه‌های مرتبط با ابهام‌زدایی صحیح آموزش داده می‌شود و، هنگام پردازش مراجع مکان در متن‌های دیده نشده قبلی، از مدل برای تخصیص یک رتبه به هر مکان نامزد، با توجه به احتمال مطابقت آن با ابهام زدایی صحیح مکان با بالاترین رتبه در نهایت با ذکر مکان حل می شود.
روش هایی مانند روش های لیبرمن و سامت [ 15 ] یا سانتوس و همکاران. [ 16 ] به طور طبیعی می تواند انواع مختلفی از ویژگی ها را در خود جای دهد، و از نیاز به تنظیم دستی پارامتر اجتناب می کند. همچنین می‌توان ویژگی‌ها را با روش‌های یادگیری بازنمایی مبتنی بر یادگیری عمیق ترکیب کرد (به عنوان مثال، Canwen و همکاران اخیراً استفاده از شبکه‌های LSTM را برای نشان دادن ذکر مکان همراه با زمینه‌های چپ و راست آن‌ها توصیف کرده‌اند، و این نمایش‌ها را با ویژگی‌های دیگر در یک موجودیت پیوند دهنده ترکیب می‌کنند. روشی برای مرتبط کردن نام‌های مکان در توییت‌ها به ورودی‌های یک پایگاه داده نقاط مورد علاقه [ 28]). با این حال، همانطور که در مورد مطالعات بررسی شده در بخش قبل، این روش ها به در دسترس بودن منابع خارجی مانند روزنامه ها بستگی دارد [ 9 ، 10 ]. یکی از معایب استفاده از روزنامه‌ها این است که این منابع معمولاً ناقص و قدیمی هستند، بنابراین تأثیر مستقیمی بر نتایج سیستم‌هایی که از آن‌ها استفاده می‌کنند می‌گذارد و باعث می‌شود آنها نتوانند با نام‌های مکان جدید و بومی سروکار داشته باشند.

2.3. روش‌های ترکیب شبکه‌های ژئودزیکی و مدل‌های زبان

برخی از مطالعات قبلی روش‌های تفکیک نام نامی را پیشنهاد کرده‌اند که از نیاز به اطلاعات خارجی در قالب روزنامه‌ها اجتناب می‌کنند، در عوض از مدل‌های زبانی مرتبط با مناطق مختلف استفاده می‌کنند تا پیش‌بینی کنند که کدام منطقه بیشتر با مرجع مکان مورد تجزیه و تحلیل مطابقت دارد [ 7 ، 17 ]. ، 18 ]. اکثر این روش‌ها از شبکه‌های ژئودزیکی برای تقسیم فضای جغرافیایی به چندین منطقه استفاده می‌کنند و فرض می‌کنند که حتی کلمات زبان رایج (و نه فقط نام مکان‌ها) اغلب می‌توانند از نظر جغرافیایی نشان‌دهنده باشند.
مجموعه ای از گفته های متنی، که مختصات جغرافیایی- فضایی مربوطه برای آنها مشخص است، با هر یک از مناطق در یک شبکه ژئودزیکی مرتبط است. این عبارات متنی برای آموزش یک مدل زبان برای هر یک از مناطق استفاده می شود (به عنوان مثال، یک مدل زبان مولد n- gram، یا در عوض یک مدل تمایز بر اساس رگرسیون لجستیک یا برخی روش های یادگیری ماشین دیگر). وضوح شبکه معمولاً با توجه به تعداد گفته های متنی موجود نیز تطبیق داده می شود و می توان از شبکه های چند وضوحی نیز استفاده کرد. با توجه به مرجع مکان و بافت اطراف آن، می توان با انتخاب منطقه ای که مدل زبانی آن با متن مرجع به اضافه بافت مطابقت دارد، پیش بینی کرد و سپس مختصات مرکز منطقه را در نظر گرفت.
وینگ و بالدریج [ 29 ] در یک مطالعه اساسی به دنبال روش‌شناسی فوق‌الذکر، استفاده از شبکه‌های ژئودزیکی را برای مکان‌یابی کل اسناد متنی بررسی کردند. نویسندگان سطح زمین را گسسته کردند سلول‌های شبکه درجه، که واگرایی‌های Kullback–Liebler را به هر سلولی که یک سند داده می‌شود، بر اساس مدل‌های زبان یونی گرام که برای هر سلول از مقالات ویکی‌پدیا در موقعیت جغرافیایی آن‌ها آموخته شده است، اختصاص می‌دهد. اسپریوسو و بالدریج [ 18 ] این ایده را بیشتر تصحیح کردند و یک روش تفکیک نام نامی مبتنی بر متن را پیشنهاد کردند که به عنوان ورودی مدل زبان، از پنجره‌های بافتی متشکل از بیست کلمه از هر طرف هر کلمه در متن استفاده می‌کند. در ادامه این خط از تحقیقات، Wing [ 7 ] در مورد آزمایش‌هایی با استفاده از شبکه‌های ژئودزیکی با وضوح چندگانه (به عنوان مثال، بر اساس پارتیشن‌بندی درخت kd)، همراه با مدل‌های رگرسیون لجستیک متمایز به جای مدل‌های زبان یونی گرم تولیدی، برای هر دو سند جغرافیایی گزارش کرد. کدگذاری و تفکیک نام های نامی.
اخیراً، DeLozier و همکاران. [ 17 و 30 ] سیستم TopoCluster را توصیف کرد که از مدل های زبانی به روشی کمی متفاوت استفاده می کند. به طور خاص، نویسندگان از آمار مکانی استفاده کردند [ 31] برای استخراج هر کلمه در واژگان یک احتمال هموار جغرافیایی. سپس با یافتن نقاط قوی‌ترین هم‌پوشانی برای یک نام و کلمات اطراف آن، تفکیک نام نام‌ها انجام شد. با جزئیات بیشتر، با توجه به مجموعه مرجعی از اسناد موقعیت جغرافیایی، یک مدل زبان محلی غیر هموار برای اندازه گیری ارتباط هر کلمه با هر سند استفاده می شود. این روش می‌تواند مستقیماً از مکان‌های اسناد مرجع استفاده کند یا به‌طور اختیاری، این مکان‌ها را می‌توان در سلول‌های شبکه ژئودزیکی ادغام کرد. Getis محلی – Ord Gi آمار [ 31 ]، همراه با هسته Epanichnikov که فواصل زیاد بین جفت مکان ها را جریمه می کند، برای اندازه گیری قدرت ارتباط بین کلمات و مناطق جغرافیایی استفاده می شود، که در نتیجه ماتریسی از آمار با سلول های شبکه به عنوان ستون و هر کلمه به عنوان یک بردار ردیف (یعنی Gi آمار را می‌توان به‌عنوان احتمال تجمیع و هموار شده جغرافیایی مشاهده هر کلمه در نقاط خاصی از فضای جغرافیایی مشاهده کرد. برای ابهام‌زدایی از یک نام، نویسندگان کلمات نام نامی را از کلمات غیر نامی در یک پنجره بافت اطراف جدا می‌کنند (یعنی 15 کلمه در هر طرف، فیلتر کردن کلمات تابع)، و در نهایت مجموع وزنی تمام Gi را محاسبه می‌کنند. ارزش برای همه کلمات مرکز از سلول با بالاترین مقدار را می توان به عنوان ابهام زدایی برای نام ورودی برگرداند.
مطالعات فوق نشان داد که رویکردهای مبتنی بر متن می‌توانند نتایج برتر را بدون مراجعه مجدد به روزنامه‌نگاران به دست آورند و نتایج خوبی را نسبت به مجموعه‌های متشکل از مقالات خبری بین‌المللی و متون تاریخی گزارش کنند.

2.4. تکنیک های یادگیری عمیق برای تفکیک نام های نامی

مطالعات اخیر روش‌های یادگیری عمیق را برای تفکیک نام‌ها، فرمول‌بندی تکلیف به‌عنوان یک مسئله پیوند دهنده موجودیت خاص [ 28 ]، یا گسترش روش‌های مبتنی بر شبکه‌های ژئودزیکی، مانند مواردی که در بخش 2.3 به آنها اشاره شد ، در جهت جایگزینی مدل‌های زبان ساده‌تر با رویکردهای مبتنی بر شبکه های عصبی عمیق [ 19 ، 20 ، 22 ].
به عنوان مثال، آدامز و مک کنزی [ 19] یک رویکرد در سطح کاراکتر مبتنی بر شبکه های عصبی کانولوشن برای متن چند زبانه کدگذاری جغرافیایی را تشریح کرد. این مدل دنباله ای از کاراکترهای UTF-8 را به عنوان ورودی دریافت می کند که هر کدام به صورت یک بردار یک داغ کدگذاری می شوند و یک سری عملیات کانولوشن زمانی و حداکثر ادغام روی آن اعمال می شود. این عملیات منجر به یک نمایش برداری برای متن ورودی می شود که سپس تبدیل های متعددی برای آن اعمال می شود. در نهایت، لایه خروجی یک طبقه بندی منطقه را پیش بینی می کند، به عنوان مثال، بر اساس یک شبکه ژئودزیکی درشت. استفاده از شبکه‌های عصبی کانولوشنال در سطح کاراکتر به نویسندگان این امکان را می‌دهد که از نیاز به قوانین نشانه‌سازی خاص زبان اجتناب کنند. با این حال، آزمایش‌ها نشان داد که مدل مبتنی بر کاراکتر همیشه بهترین نتایج را به دست نمی‌آورد (یعنی، نتایج بهتری را می‌توان اغلب با مدل‌های SVM با استفاده از n به دست آورد.ویژگی های گرم). نویسندگان به این نتیجه رسیدند که کلمات فردی گاهی اوقات می توانند شاخص های جغرافیایی خوبی باشند.
در مطالعه اخیر دیگری، Gritta و همکاران. [ 20 ] سیستم CamCoder را ارائه کرد ، که سعی می‌کند با شناسایی سرنخ‌های واژگانی با توسل به واژه‌های زمینه اطراف ذکر، ارجاعات مکانی را ابهام کند. یک نمایش برداری پراکنده توسط نویسندگان پیشنهاد شده است، با عنوان MapVec ، که یک توزیع برای احتمالات جغرافیایی قبلی مرتبط با مکان ها (به عنوان مثال، بر اساس مختصات مکان و تعداد جمعیت) رمزگذاری می کند. به طور خاص، داده‌های ژئومکانی خارجی بر روی یک شبکه ژئودزیکی با وضوح تصویر پیش‌بینی می‌شوند. درجه (به عنوان مثال، برای هر مکان ذکر شده در یک پنجره زمینه، و برای هر یک از نامزدهای مبهم آن در روزنامه، نویسندگان از شمارش جمعیت برای تخمین احتمال قبلی استفاده می‌کنند و آن را به سلول شبکه مربوطه اضافه می‌کنند)، که در مرحله بعدی به شکل یک بردار ویژگی 1 بعدی (یعنی MapVec ). سیستم CamCoder اطلاعات واژگانی و جغرافیایی متناظر با ورودی های زیر را ترکیب می کند: موجودیت هدف برای ابهام زدایی، هرگونه اشاره به مکان ها (به استثنای کلمات متن)، هر کلمه متنی (به استثنای اشاره به مکان)، و MapVecبردار ویژگی ورودی‌های متنی (یعنی سه ورودی اول از شمارش قبلی) به لایه‌های جداگانه‌ای وارد می‌شوند که کانولوشن‌ها را با عملیات جمع‌بندی حداکثر جهانی ترکیب می‌کنند تا کلماتی را که نشان‌دهنده مکان‌های خاص هستند، شناسایی کنند. بردار ویژگی MapVec به نوبه خود به یک لایه کاملاً متصل ارائه می شود. پس از آن، چهار بردار به‌دست‌آمده به صورت جداگانه به لایه متراکم دیگری منتقل می‌شوند و به دنبال آن نتایج آنها ترکیب می‌شوند. این نمایش در نهایت به یک لایه خروجی تحویل داده می شود، که با آن مدل یک مکان را بر اساس طبقه بندی به مناطق تعریف شده توسط یک شبکه ژئودزیکی پیش بینی می کند. نویسندگان مجموعه گسترده‌ای از آزمایش‌ها را با مجموعه‌های متعدد گزارش کردند که نشان می‌دهد رویکرد کامل از CNNs+ MapVec استفاده می‌کند.در آن زمان به بهترین نتایج دست یافت. ویژگی‌های MapVec زمانی که در سایر رویکردهای یادگیری ماشینی (مثلاً جنگل‌های تصادفی) استفاده می‌شوند، مؤثر باقی می‌مانند، و همچنین وقتی با مدل‌های مبتنی بر شبکه‌های عصبی مکرر ترکیب می‌شوند، عملکرد را بهبود می‌بخشند.

2.5. مجموعه هایی از مطالعات قبلی که در کار ما به کار گرفته شده اند

این بخش مجموعه داده‌های پیشنهادی قبلی را توصیف می‌کند که برای ارزیابی روش ما نیز استفاده شده‌اند، به‌ویژه جنگ شورش [ 30 ]، واژگان محلی-جهانی [ 32 ]، و پیکره‌های SpatialML [ 33 ]. این سه مجموعه داده مجزا تا حد زیادی در زمینه مطالعات قبلی در این منطقه مورد استفاده قرار گرفته‌اند [ 11 ، 16 ، 17 ، 20 ، 30 ، 34 ] که حوزه‌های متمایز را پوشش می‌دهند.
لیبرمن و همکاران [ 32 ] مجموعه Local-Global Lexicon (LGL) را ارائه کرد که از 588 مقاله استخراج شده از روزنامه هایی که کوچک و از نظر جغرافیایی توزیع شده اند، تشکیل شده است. این مجموعه عمداً برای به چالش کشیدن سیستم‌های تفکیک نام نام‌ها ساخته شده است، زیرا از مقالات خبری محلی، به‌ویژه از شهرهای کوچک با نام‌های مبهم تشکیل شده است. به عنوان مثال، پاریس یک نام نامی بسیار مبهم است و این مجموعه داده خاص حاوی مقالات استخراج شده از روزنامه های محلی مانند The Paris Post-Intelligencer ( پاریس ، تنسی )، The Paris News ( پاریس، تگزاس )، و The Paris Beacon-News ( پاریس ، ایلینوی). این مجموعه اکنون ( https://raw.githubusercontent.com/geoai-lab/EUPEG/master/corpora/lgl.xml (دسترسی در 10 نوامبر 2021)) در پلت فرم معیار EUPEG [ 35 ، 36 ] برای تفکیک نام نام‌ها در دسترس است. .
به نوبه خود، مجموعه جنگ شورش (WOTR) ( https://github.com/utcompling/WarOfTheRebellion (دسترسی در 10 نوامبر 2021)) حاوی 1644 متن تاریخی است که از آرشیوهای نظامی مرتبط با جنگ داخلی آمریکا استخراج شده است، که در آن گزارش ها، دستورات نظامی و مکاتبات دولتی غالب است. فرآیند حاشیه نویسی مربوط به این اسناد تاریخی توسط DeLozier و همکاران شرح داده شده است. [ 30]، که همچنین ارزیابی دیگری از سیستم‌های تفکیک نام نام‌های موجود در مجموعه را ارائه کرد، و علاوه بر این، روش‌های مشابه را نسبت به سایر مجموعه‌ها برای مقایسه نتایج ارزیابی کرد. نویسندگان به این نتیجه رسیدند که WOTR با چالش برانگیزترین پیکره مورد بررسی مطابقت دارد، به عنوان مثال، سیستم هایی که به نتایج عملکرد کلی پایین تری نسبت به مجموعه واژگان محلی-جهانی دست می یابند ، که تا آن زمان چالش برانگیزترین مورد در نظر گرفته می شد.
سرانجام، مجموعه SpatialML ( https://catalog.ldc.upenn.edu/LDC2011T02 (دسترسی در 10 نوامبر 2021)) از کنسرسیوم داده های زبانی، متشکل از 428 سند انگلیسی از کمپین ارزیابی ACE 2005، از جمله اخبار مجله، در دسترس است. ، پخش اخبار، پخش گفتگوها، ورودی های وبلاگ وب و پست های گروه های خبری. علاوه بر پیکره، SpatialML همچنین به طرح مبتنی بر XML اشاره دارد که در حاشیه نویسی داده ها استفاده می شود، جایی که مراجع مکان ظاهر شده در متن با یک برچسب PLACE همراه با یک ویژگی LATLONG ترکیب می شوند که مختصات جغرافیایی طول و عرض جغرافیایی را در بر می گیرد.
اکثر روش های بررسی شده در بخش های قبلی حداقل یکی از این سه مجموعه داده را برای ارزیابی استفاده کردند. بخش 4 مقاله حاضر یک توصیف آماری برای مجموعه داده های مختلف ارائه می دهد (به عنوان مثال، جدول 1 را ببینید )، همچنین روش ما را در مقابل نتایج گزارش شده قبلی قرار می دهد.

3. روش پیشنهادی تفکیک نام های نامی

بخش های زیر شرح مفصلی از تکنیک های به کار گرفته شده در روش پیشنهادی ارائه می دهد. بخش 3.1 شبکه های عصبی مکرر، یعنی واحدهای حافظه کوتاه مدت (LSTM) مورد استفاده در مدل ما را مرور می کند، و همچنین از جاسازی کلمه ELMo پشتیبانی می کند. بخش 3.2 رویکردهای خاصی را برای نمایش متن از طریق جاسازی کلمه، یعنی ELMo و BERT در نظر می گیرد. در نهایت، بخش 3.3 رویکرد تفکیک نام نام‌های ما را توصیف می‌کند، که مشکل را به عنوان یک کار پیش‌بینی مدل‌سازی می‌کند که توسط یک شبکه عصبی عمیق، که معماری آن به تفصیل توضیح داده شده است، پرداخته می‌شود.

3.1. شبکه های عصبی مکرر

یک شبکه عصبی بازگشتی (RNN) از مدل‌سازی توالی‌ها پشتیبانی می‌کند، بنابراین به طور طبیعی برای وظایف پردازش زبان طبیعی (NLP) که شامل دنباله‌ای از کاراکترها یا کلمات است، اعمال می‌شود [ 37 ].
نمایش دنباله‌های ورودی با طول اختیاری (مثلاً دنباله‌هایی از بردارها که عبارات متنی را کد می‌کنند) توسط یک RNN مجاز است، برای مثال تبدیل آنها به یک نمایش برداری با اندازه ثابت که ویژگی‌های دنباله ورودی را حفظ می‌کند. به طور کلی، یک RNN را می توان به صورت بازگشتی از طریق یک تابع تعریف کرد که بردار حالت را می پذیرد به عنوان ورودی (یعنی یک بردار متناظر با حالت قبلی)، همراه با یک بردار ورودی برای وضعیت فعلی ، یک بردار حالت جدید را برمی گرداند . بردار حالت بعد توسط یک تابع نگاشت می شود به بردار که شبیه بردار خروجی حالت فعلی است . ساختار فوق مجموعه تاریخ مربوط به تمام حالات قبلی را در نظر می گیرد . پس از پردازش آخرین بردار ورودی، یک نمایش فراگیر برای کل دنباله ورودی را می توان از بردار خروجی نهایی، یا با یک عملیات ادغام (مثلا، حداکثر ادغام) اعمال شده بر روی دنباله بردارهای خروجی به دست آورد.
یک RNN دو جهته نیز می تواند تعریف شود، به دنبال ایده هایی که قبلا ذکر شد، اما در این مورد، اتصال دو واحد RNN (به عنوان مثال، الحاق بردارهای خروجی) است که ورودی ها را در جهات مخالف پردازش می کند (یعنی از چپ به راست و از راست-). به سمت چپ). بنابراین، خروجی هر موقعیت می تواند اطلاعاتی را با ترکیب حالت های گذشته (عقب) و آینده (به جلو) رمزگذاری کند. چندین واحد RNN یا دو جهته RNN نیز می‌توانند در شبکه‌های عصبی عمیق، با استفاده از خروجی‌های تولید شده توسط یک RNN به عنوان ورودی به لایه RNN بعدی دیگر، کنار هم قرار گیرند.

ایده‌های کلی فوق‌الذکر را می‌توان در عمل از طریق معماری‌های مختلف پیاده‌سازی کرد، در بسیاری از موارد با تکیه بر مکانیزم‌های دروازه‌ای که یادگیری تحت نظارت را با تنظیم به‌روزرسانی‌های گرادیان تسهیل می‌کنند. واحدهای حافظه کوتاه مدت بلند مدت (LSTM) شاید رایج ترین نمونه از معماری RNN بتنی باشد [ 38 ]. در این حالت، هنگام پردازش هر بردار ورودی، یک مکانیسم دروازه ای تصمیم می گیرد که سلول حافظه چه مقدار از ورودی جدید را دریافت کند و چه مقدار از محتوای سلول حافظه فعلی را سلول حافظه فراموش کند. به دنبال نماد گلدبرگ [ 37 ]، واحدهای LSTM را می توان به طور رسمی همانطور که در معادله ( 1 ) نشان داده شده است، تعریف کرد.

هنگام در نظر گرفتن هر موقعیت ورودی j ، حالت مربوط به الحاق دو بردار است و ، به ترتیب یک جزء حافظه و یک جزء حالت پنهان (معادله ( 1a )). سه مولفه دروازه‌ای مسئول تنظیم جریان اطلاعات، به‌ویژه دروازه‌های ورودی، فراموشی و خروجی هستند که به ترتیب با متغیرهای i ، f و o نمایش داده می‌شوند (معادله ( 1d – 1f )، که در آن پارامترهای W مختلف مطابقت دارند. ماتریس وزن قابل یادگیری). مقادیر گیت از ترکیب خطی ورودی جریان جمع آوری می شود و حالت قبلی و از یک تابع فعال سازی سیگموئید عبور کرد. ترکیبی خطی از و یک کاندید به‌روزرسانی z را تعیین می‌کند که تابع فعال‌سازی مماس هذلولی (معادله ( 1g )) برای آن اعمال می‌شود. بعد، جزء حافظه با در نظر گرفتن دروازه فراموشی، که مقدار حافظه قبلی را که باید حفظ شود، و گیت ورودی، که کنترل می کند چه مقدار از به روز رسانی پیشنهادی باید حفظ شود، کنترل می کند، به روز می شود (معادله ( 1b )). در نهایت، ارزش ، در مورد خروجی (معادله ( 1h ))، با در نظر گرفتن محتوای حافظه محاسبه می شود ، از یک تابع مماس هذلولی عبور می کند و توسط دروازه خروجی کنترل می شود (معادله ( 1c ) ، که در آن نماد ⊙ نشان دهنده یک محصول از نظر عنصر است.
امروزه LSTMها بلوک اصلی بسیاری از مدل‌های مختلف برای NLP هستند و خواننده برای توضیح دقیق‌تر به آموزش گلدبرگ [ 37 ] ارجاع داده می‌شود.

3.2. بازنمایی متن از طریق جاسازی های متنی کلمه

هنگام استفاده از یادگیری ماشینی در وظایف NLP، نمایش کلمات و قطعات طولانی‌تر متن یک جنبه ضروری است. یک رویکرد رایج شامل استفاده از روش‌های جاسازی کلمه برای نشان دادن عناصر متنی است، به گونه‌ای که اطلاعات زبانی/معنای را به دست می‌آورد. خواننده برای معرفی این روش ها به اسمیت [ 39 ] و به لیو و همکاران ارجاع داده می شود. [ 40 ] یا کیو و همکاران. [ 41 ] برای توضیحات عمیق تر.
بیشتر رویکردهای جاسازی کلمه (به عنوان مثال، الگوریتم های درون بسته محبوب word2vec [ 42]) از شبکه های عصبی ساده برای نگاشت کلمات به بردارهای اعداد واقعی متراکم استفاده کنید، که در آن هر کلمه واژگانی با یک بردار نشان داده می شود و کلماتی که در زمینه های مشابه ظاهر می شوند احتمالاً بردارهای مشابهی دارند (یعنی فاصله بین کلمات جاسازی شده با آنها مرتبط است. شباهت معنایی). جاسازی کلمات متنی فراتر از ایده فوق الذکر نگاشت ورودی های واژگان به بردارهای متراکم است، و بازنمایی هایی را در نظر می گیرد که به بافت اطراف بستگی دارد (یعنی بازنمایی های پویا کلمه، در تقابل با نگاشت ایستا از کلمات به بردارها)، و بنابراین بهتر می توانند کلمات چند معنایی را مدیریت کنند. در مطالعه خود، ما از دو مورد از این روش‌ها استفاده کردیم، به‌ویژه Embeddings from Language Models (ELMo) و Representations Encoder Bidirectional from Transformers (BERT).
به طور خلاصه، پیترز و همکاران. [ 23 ] تعبیه‌هایی از مدل‌های زبانی (ELMo) را به‌عنوان رویکردی برای ایجاد جاسازی‌های متنی از پیش آموزش‌دیده‌شده برای کلمات ارائه کرد. برای متنی کردن بازنمودهای کلمه، ELMo کل جملات را با استفاده از یک مدل زبان عصبی (یعنی مدلی که می‌تواند توزیع‌های احتمال را به دنباله‌های کلمات اختصاص دهد) بررسی می‌کند که برای پیش‌بینی محتمل‌ترین کلمه بعدی با توجه به دنباله‌ای از کلمات آموزش داده شده است. مدل زبانی که توسط ELMo استفاده می‌شود با نمایش کلمات بر اساس کاراکترهایی که آنها را تشکیل می‌دهند (یعنی از طریق یک شبکه عصبی کانولوشنال ساده) شروع می‌شود و سپس بر پشته‌ای چند لایه از LSTM‌های دو جهته تکیه می‌کند، همانطور که قبلا در بخش 3.1 توضیح داده شد.، برای تولید بازنمایی کلمه متنی. بنابراین، هنگام ایجاد تعبیه‌های کلمه، ELMo از کلمات قبلی و زیر به عنوان اطلاعات متنی استفاده می‌کند. برای به دست آوردن نمایشی برای هر کلمه، ELMo حالت پنهان هر لایه LSTM دو طرفه را در پشته محاسبه می کند و سپس مجموع وزنی این بردارها را محاسبه می کند.
با الهام گرفتن از ELMo، Devlin و همکاران. [ 24 ] بازنمایی رمزگذار دو جهته از ترانسفورماتورها (BERT) را با استفاده از یک مدل زبان مبتنی بر معماری عصبی ترانسفورماتور [ 43 ] به جای تکیه بر LSTMs (یعنی مدل‌سازی متن از طریق رمزگذارهای ترانسفورماتور، که از لایه‌های توجه به جای تکرار متوالی استفاده می‌کنند) پیشنهاد کرد. در تقابل با مدل های RNN جهت دار همانطور که در بخش 3.1 توضیح داده شد ، که ورودی متن را به صورت متوالی می خواند، رمزگذارهای ترانسفورماتور کل دنباله کلمات را یکجا می خوانند. بنابراین، این مدل‌ها را می‌توان دو جهته در نظر گرفت، هرچند می‌توان گفت که آنها غیر جهته هستند.
بلوک ساختمانی اساسی مدل ترانسفورماتور مورد استفاده در BERT از دو لایه فرعی تشکیل شده است، یعنی یک لایه خود توجه و یک لایه متراکم پیش‌خور. این بلوک ها در یک معماری عمیق در کنار هم چیده شده اند. مدل به عنوان ورودی دنباله ای از قطعات کلمه را دریافت می کند (یعنی BERT واژگانی متشکل از چند کلمه کامل همراه با قطعات فرعی را در نظر می گیرد که می تواند در نمایش کلمات کمیاب استفاده شود) و هر یک از آنها به عنوان یک بردار نشان داده می شود. ، کلمه قطعه را همراه با موقعیت آن در دنباله نشان می دهد. هر لایه رمزگذار یک مکانیسم توجه به خود را روی ورودی اعمال می‌کند (یعنی رمزگذار را قادر می‌سازد تا کلمات دیگر موجود در دنباله ورودی را هنگام رمزگذاری یک کلمه خاص در نظر بگیرد)، نتیجه را از طریق یک لایه پیش‌خور پردازش می‌کند، و خروجی را به لایه رمزگذار بعدی این مدل از طریق یک هدف مدل‌سازی زبان پوشانده آموزش داده می‌شود، که در آن یک ماسک به 15 درصد از نشانه‌های ورودی اعمال می‌شود، پس از آن خروجی موقعیت کلمات پوشانده شده برای پیش‌بینی کلمات مربوطه استفاده می‌شود. این هدف آموزشی با یک کار پیش‌بینی جمله بعدی تکمیل می‌شود، جایی که به مدل یک جفت جمله داده می‌شود و آموزش داده می‌شود تا تشخیص دهد که چه زمانی مورد دوم از جمله اول پیروی می‌کند. هدف دوم این است که اطلاعات بلندمدت یا عملگرایانه بیشتری به دست آورد. که در آن به مدل یک جفت جمله داده می شود و آموزش داده می شود تا تشخیص دهد که چه زمانی مورد دوم از جمله اول پیروی می کند. هدف دوم این است که اطلاعات بلندمدت یا عملگرایانه بیشتری به دست آورد. که در آن به مدل یک جفت جمله داده می شود و آموزش داده می شود تا تشخیص دهد که چه زمانی مورد دوم از جمله اول پیروی می کند. هدف دوم این است که اطلاعات بلندمدت یا عملگرایانه بیشتری به دست آورد.
در عمل، ELMo و BERT کمی مفصل تر هستند و خواننده برای توضیح عمیق تر به انتشارات اصلی ارجاع داده می شود [ 23 ، 24 ]. در آزمایش‌های خود، از مدل‌های انگلیسی از پیش آموزش‌دیده در دسترس عموم استفاده کردیم، یعنی (i) مدل اصلی ELMo با در نظر گرفتن حالت‌های پنهان LSTM با ابعاد 4096 و اندازه خروجی 512، و (ii) نسخه محفظه‌ای از BERT اصلی. .

3.3. معماری عصبی برای تفکیک نام های نامی

مدل تشخیص نام نامی ما نمایشی از نام نامی ایجاد می‌کند که باید ابهام‌زدایی شود (یعنی هر مرجع مکانی را که قبلاً در یک سند متنی شناسایی شده بود پردازش می‌کند) همراه با بافت اطراف آن، و از آن برای ایجاد یک طبقه‌بندی منطقه بر اساس یک شبکه ژئودزیکی استفاده می‌کند. سپس توزیع احتمال از خروجی دسته بندی چند کلاسه برای بدست آوردن مختصات جغرافیایی (یعنی طول و عرض جغرافیایی) برای نام نام استفاده می شود.
سه توالی مختلف از کلمات به عنوان ورودی مدل ارائه شده است، به طور خاص (i) مکان ذکر شده، (ii) مجموعه کلمات اطراف ذکر (یعنی یک پنجره ثابت، در سمت چپ و راست دهانه متن). ، شامل 50 نشانه کلمه است و اغلب برای ثبت جملات و مرتبط ترین زمینه کافی است، و (iii) یک متن پاراگراف، که همچنین با یک پنجره ثابت از 512 نشانه تعریف شده است (یعنی حداکثر اندازه دنباله در نظر گرفته شده در BERT). هر دو ورودی جمله و پاراگراف، زمینه اطراف ذکر را در جهت های راست و چپ در نظر می گیرند. هر یک از سه ورودی ابتدا از طریق مکانیزم جاسازی کلمه متنی (یعنی با استفاده از ELMo یا BERT) به دنباله ای از بردارها تبدیل می شوند و سپس این بردارها توسط یک LSTM دو جهته پردازش می شوند.
ما به ترتیب با ارائه پاراگراف ذکر شده به شبکه عصبی (یعنی ارائه زمینه کلی سند) و یک پنجره متنی کوچکتر حاوی ذکر (به عنوان مثال) کلی و نزدیکترین زمینه اطراف موجودیت را در نظر می گیریم. ، گستره ای از متن که تقریباً با یک جمله مطابقت دارد). در هر دو مورد، زمینه ممکن است سرنخ هایی در مورد مکان ذکر ارائه دهد، به عنوان مثال، از طریق نام های دیگر. حتی کلمات رایج زبان موجود در متن اطراف ممکن است ویژگی های مناطق جغرافیایی خاص را به تصویر بکشند.

شبکه ژئودزیکی مورد استفاده برای پشتیبانی از هدف طبقه‌بندی چند کلاسه از طریق طرح پیکسل‌سازی isoLatitude منطقه مساوی سلسله مراتبی (HEALPix ( https://healpix.sourceforge.io (دسترسی در 10 نوامبر 2021)) ساخته شده است، پیشنهاد شده توسط Górski و همکاران. [ 25 ] و در مطالعات قبلی مربوط به کدگذاری جغرافیایی اسناد استفاده شده است [ 44 ]. به طور خلاصه، الگوریتم HEALPix یک نمایش کروی از سطح زمین را تقسیم بندی می کند و سلول هایی با مساحت مساوی مربوط به مناطق مجزا تولید می کند. پارتیشن ها به صورت سلسله مراتبی از بخش های بازگشتی جمع آوری می شوند و تعداد بخش های بازگشتی برای اجرا (یعنی وضوح مورد نظر) می تواند توسط کاربر تعریف شود. طرح پارتیشن بندی در شکل 1 نشان داده شده است، که شبکه حاصل از تقسیمات مربوط به پارامترهای وضوح چندگانه را با تفاوت در تعداد سلول های تولید شده نشان می دهد. تعداد نواحی تولید شده (یعنی سلول ها در شبکه ژئودزیکی) طبق رابطه ( 2 ) تعریف می شود، که در آن مربوط به قطعنامه مورد نظر است.

در زمینه این کار، پارامتر وضوح به ثابت شد ، که مربوط به در نظر گرفتن حداکثر 786432 منطقه است ( ). این وضوح به گونه‌ای انتخاب شده است که اندازه منطقه به اندازه کافی بزرگ باشد تا نمونه‌های کافی از نام‌های نام‌گذاری در برخی مناطق را در خود جای دهد. در عمل، با توجه به اینکه اکثر مناطق ممکن است با هیچ نمونه ای در مجموعه آموزشی مرتبط نباشند، تعداد کلاس ها بسیار کمتر خواهد بود.

مروری بر روش پیشنهادی در شکل 2 آورده شده است. سه ورودی متنی ابتدا از طریق جاسازی‌های متنی ELMo یا BERT نشان داده می‌شوند (یعنی هر یک از این گزینه‌ها را در آزمایش‌های جداگانه آزمایش کردیم)، و دنباله‌های بردارها توسط واحدهای LSTM دو جهته سفارشی، با ابعاد 512 پردازش می‌شوند. بردارهای حالت پنهان (یعنی 1024 مقدار، با توجه به استفاده از LSTM های دو جهته) و که از توابع فعال سازی مماس هذلولی جریمه شده، به جای توابع تانژانت سیگموئیدی لجستیک یا تانژانت هذلولی منظم استفاده می کنند (یعنی معادله ( 3 ) را ببینید). استفاده از تانژانت هذلولی جریمه شده، همانطور که در رابطه ( 3 ) نشان داده شده است، برای اولین بار توسط ایگر و همکاران پیشنهاد شد. [ 45]، که نتایج بهبود یافته را در سراسر انواع وظایف پردازش زبان طبیعی مشاهده کرد.

دنباله ای از حالات تولید شده توسط هر LSTM دو جهته از طریق عملیات max-pooling خلاصه می شود و سپس سه بردار حاصل به هم متصل می شوند تا یک نمایش فراگیر برای ورودی ها تشکیل دهند. سپس این نمایش توسط یک لایه کاملاً متصل پردازش می‌شود، که نواحی HEALPix را پیش‌بینی می‌کند (یعنی توزیع احتمال را بر روی مناطق احتمالی HEALPix ایجاد می‌کند) از طریق یک تابع فعال‌سازی soft-max. این بردار احتمال کلاس HEALPix یکی از خروجی های مدل است (یعنی یک تابع تلفات متقابل آنتروپی طبقه ای بر روی این نتیجه محاسبه می شود)، و به طور همزمان برای تخمین مختصات جغرافیایی مربوطه نیز استفاده می شود. به طور خاص، مقادیر احتمال به توان سوم افزایش یافته و مجدداً عادی می شوند (یعنی توزیع اوج بیشتری از نتایج Soft-max ساخته می شود، با تاکید بر محتمل ترین ناحیه)، و سپس نتایج به عنوان وزن توسط یک طرح درون یابی استفاده می شود که یک ماتریس مختصات مرکز را در نظر می گیرد (یعنی یک ماتریس ثابت که حاوی مختصات مرکز هر کلاس HEALPix است، که در آن هر ردیف مربوط به یک متمایز است. کلاس). از نظر عملی، ما حاصل ضرب را بین بردار احتمال تنظیم شده مجدد و ماتریس مختصات مرکز برای تخمین مختصات محاسبه می کنیم و نتیجه به دست آمده به تابع تلف دوم متصل می شود که فاصله دایره بزرگ بین پیش بینی شده و زمین را محاسبه می کند. مختصات حقیقت بنابراین، آموزش مدل شامل به حداقل رساندن توابع از دست دادن ترکیبی مرتبط با هر یک از خروجی ها است، که هر یک به طور متقابل فرآیند یادگیری را هدایت می کنند و امیدواریم به نتایج کلی بهتر کمک کنند. و سپس نتایج به عنوان وزن توسط یک طرح درون یابی که یک ماتریس مختصات مرکز را در نظر می گیرد (یعنی یک ماتریس ثابت که شامل مختصات مرکز هر کلاس HEALPix است، که در آن هر ردیف مربوط به یک کلاس مجزا است) استفاده می شود. از نظر عملی، ما حاصل ضرب را بین بردار احتمال تنظیم شده مجدد و ماتریس مختصات مرکز برای تخمین مختصات محاسبه می کنیم و نتیجه به دست آمده به تابع تلف دوم متصل می شود که فاصله دایره بزرگ بین پیش بینی شده و زمین را محاسبه می کند. مختصات حقیقت بنابراین، آموزش مدل شامل به حداقل رساندن توابع از دست دادن ترکیبی مرتبط با هر یک از خروجی ها است، که هر یک به طور متقابل فرآیند یادگیری را هدایت می کنند و امیدواریم به نتایج کلی بهتر کمک کنند. و سپس نتایج به عنوان وزن توسط یک طرح درون یابی که یک ماتریس مختصات مرکز را در نظر می گیرد (یعنی یک ماتریس ثابت که شامل مختصات مرکز هر کلاس HEALPix است، که در آن هر ردیف مربوط به یک کلاس مجزا است) استفاده می شود. از نظر عملی، ما حاصل ضرب را بین بردار احتمال تنظیم شده مجدد و ماتریس مختصات مرکز برای تخمین مختصات محاسبه می کنیم و نتیجه به دست آمده به تابع تلف دوم متصل می شود که فاصله دایره بزرگ بین پیش بینی شده و زمین را محاسبه می کند. مختصات حقیقت بنابراین، آموزش مدل شامل به حداقل رساندن توابع از دست دادن ترکیبی مرتبط با هر یک از خروجی ها است، که هر یک به طور متقابل فرآیند یادگیری را هدایت می کنند و امیدواریم به نتایج کلی بهتر کمک کنند. یک ماتریس ثابت که شامل مختصات مرکز هر کلاس HEALPix است که در آن هر ردیف مربوط به یک کلاس مجزا است. از نظر عملی، ما حاصل ضرب را بین بردار احتمال تنظیم شده مجدد و ماتریس مختصات مرکز برای تخمین مختصات محاسبه می کنیم و نتیجه به دست آمده به تابع تلف دوم متصل می شود که فاصله دایره بزرگ بین پیش بینی شده و زمین را محاسبه می کند. مختصات حقیقت بنابراین، آموزش مدل شامل به حداقل رساندن توابع از دست دادن ترکیبی مرتبط با هر یک از خروجی ها است، که هر یک به طور متقابل فرآیند یادگیری را هدایت می کنند و امیدواریم به نتایج کلی بهتر کمک کنند. یک ماتریس ثابت که شامل مختصات مرکز هر کلاس HEALPix است که در آن هر ردیف مربوط به یک کلاس مجزا است. از نظر عملی، ما حاصل ضرب را بین بردار احتمال تنظیم شده مجدد و ماتریس مختصات مرکز برای تخمین مختصات محاسبه می کنیم و نتیجه به دست آمده به تابع تلف دوم متصل می شود که فاصله دایره بزرگ بین پیش بینی شده و زمین را محاسبه می کند. مختصات حقیقت بنابراین، آموزش مدل شامل به حداقل رساندن توابع از دست دادن ترکیبی مرتبط با هر یک از خروجی ها است، که هر یک به طور متقابل فرآیند یادگیری را هدایت می کنند و امیدواریم به نتایج کلی بهتر کمک کنند. ما حاصلضرب بین بردار احتمال تنظیم شده مجدد و ماتریس مختصات مرکز را محاسبه می کنیم تا مختصات را تخمین بزنیم، و نتیجه به دست آمده سپس به تابع ضرر دوم متصل می شود که فاصله دایره بزرگ بین مختصات پیش بینی شده و حقیقت زمین را محاسبه می کند. بنابراین، آموزش مدل شامل به حداقل رساندن توابع از دست دادن ترکیبی مرتبط با هر یک از خروجی ها است، که هر یک به طور متقابل فرآیند یادگیری را هدایت می کنند و امیدواریم به نتایج کلی بهتر کمک کنند. ما حاصلضرب بین بردار احتمال تنظیم شده مجدد و ماتریس مختصات مرکز را محاسبه می کنیم تا مختصات را تخمین بزنیم، و نتیجه به دست آمده سپس به تابع ضرر دوم متصل می شود که فاصله دایره بزرگ بین مختصات پیش بینی شده و حقیقت زمین را محاسبه می کند. بنابراین، آموزش مدل شامل به حداقل رساندن توابع از دست دادن ترکیبی مرتبط با هر یک از خروجی ها است، که هر یک به طور متقابل فرآیند یادگیری را هدایت می کنند و امیدواریم به نتایج کلی بهتر کمک کنند.
علاوه بر مناطق HEALPix و مختصات ژئوفضایی، ما سعی کردیم ویژگی‌های زمین ژئوفیزیکی مرتبط با مناطق پیش‌بینی‌شده HEALPix را تخمین بزنیم، به این امید که مدل را بیشتر به سمت پیش‌بینی‌های مکان صحیح هدایت کنیم. مشابه آنچه برای پیش‌بینی مختصات ژئوفضایی ساخته شد، از مقادیر احتمال کلاس تنظیم‌شده به عنوان وزن‌های درون‌یابی، همراه با ماتریسی که ویژگی‌های زمین ژئوفیزیکی را در مختصات مرکز هر سلول HEALPix کد می‌کند، استفاده کردیم. مجموعه ای از بردارهای ستونی، یکی برای هر ویژگی، با مقادیر عددی برای هر یک از مناطق مختلف HEALPix ایجاد شد. سپس خواص ژئوفیزیکی پیش‌بینی‌شده با ارزش‌های دارایی واقعی مرتبط با مکان واقعی نام، با استفاده از توابع تلفات اضافی مربوط به تفاوت مطلق مقایسه شد.
ما از الگوریتم بهینه‌سازی آدام برای آموزش مدل از طریق انتشار مجدد استفاده کردیم، با یک خط‌مشی نرخ یادگیری چرخه‌ای که نرخ یادگیری را در طول آموزش تنظیم می‌کند [ 46 ]، بر اساس چرخه‌ای بین یک مرز پایین‌تر از و یک کران بالایی از . با توجه به این واقعیت که توابع آنتروپی متقاطع، فاصله دایره بزرگ و توابع از دست دادن خطای مطلق مقادیری را در محدوده های مختلف تولید می کنند، ما سهم هر تابع را در تلفات ترکیبی وزن کردیم (یعنی وزن 100 به یک به آن داده شد. آنتروپی متقاطع طبقه‌ای در رابطه با مقادیر دیگر، از طریق مجموعه‌ای از آزمایش‌های اولیه که تأثیر این پارامتر را ارزیابی می‌کند، و همچنین نتایج بهتری را هنگام ترکیب آنتروپی متقاطع و توابع کاهش فاصله دایره بزرگ تأیید می‌کند. یک استراتژی توقف زودهنگام (یعنی راهی برای منظم‌سازی که برای غلبه بر تناسب بیش از حد مورد استفاده قرار می‌گیرد، که در آن فرآیند آموزش زمانی که عملکرد مدل بهبود نمی‌یابد متوقف می‌شود) نیز به کار گرفته شد، که آموزش را مجبور می‌کند زمانی که از دست دادن ترکیبی در داده‌های آموزشی متوقف شد، متوقف شود. برای پنج دوره متوالی بهبود نیافته است.

4. ارزیابی تجربی

این بخش در مورد ارزیابی تجربی مدل ارائه شده در این کار گزارش می دهد. بخش 4.1 هم روش ارزیابی و هم مجموعه کامل آزمایش‌هایی را که انجام شده است شرح می‌دهد. به نوبه خود، بخش 4.2 نتایج به دست آمده و تجزیه و تحلیل آنها را ارائه می دهد، در حالی که بخش 4.3 یک بحث خلاصه در مورد یافته های کلیدی و محدودیت های اصلی ارائه می دهد.

4.1. روش ارزیابی تجربی

با استفاده از معماری عصبی عصبی و روش کلی شرح داده شده در بخش 3.3 ، که در شکل 2 نیز نشان داده شده است، آزمایش هایی را با چندین رویکرد جایگزین انجام دادیم، یعنی شامل استفاده از (i) ELMo، (ii) BERT، (ii) داده های ویکی پدیا برای تقویت نمونه های آموزشی، و (iii) اطلاعات خارجی مربوط به خواص ژئوفیزیکی. در ادامه توضیح کوتاهی برای هر یک از این گزینه ها ارائه می شود.
  • مدل‌های ELMo – این با رویکرد پایه ما مطابقت دارد، از شبکه‌های عصبی بازگشتی همانطور که در بخش 3.2 توضیح داده شد ، و از روش ELMo برای ایجاد تعبیه‌های متنی هنگام نمایش ورودی‌های متنی استفاده می‌کند.
  • مدل‌های BERT – برای مشاهده تأثیر استفاده از روش‌های مختلف نمایش متن، ELMo را با تعبیه‌های متنی کلمه BERT جایگزین کردیم. این رویکرد خاص، بر اساس معماری عصبی ترانسفورماتور و همچنین در بخش 3.2 شرح داده شده است، قبلا نشان داده شده است که نتایج برتر را در طیف وسیعی از وظایف NLP ارائه می دهد.
  • مدل های ویکی پدیا— برای درک تأثیر اندازه مجموعه داده آموزشی، مجموعه جدیدی شامل مقالات تصادفی جمع آوری شده از ویکی پدیای انگلیسی ایجاد کردیم. ما پیوندهای موجود به سمت صفحات مرتبط با مختصات جغرافیایی را شناسایی کردیم و متن مقاله منبع، متن ابرپیوند (یعنی مرجع مکان تولید شده به طور خودکار)، و مختصات جغرافیایی هدف را جمع آوری کردیم. این داده‌ها برای ایجاد نمونه‌های آموزشی اضافی مورد استفاده قرار گرفتند، که سپس برای مطابقت با مناطق HEALPix موجود در مجموعه اصلی فیلتر شدند. بنابراین، ویکی‌پدیا برای تقویت نمونه‌های آموزشی موجود، بدون تغییر فضای طبقه‌بندی منطقه هر مجموعه استفاده شد. آزمایش‌ها با جاسازی‌های ELMo یا BERT، در تنظیماتی که شامل داده‌های ویکی‌پدیا بود، انجام شد. در مجموع 15،
  • مدل‌هایی که ویژگی‌های ژئوفیزیکی را ادغام می‌کنندما همچنین با استفاده از اطلاعات اضافی مربوط به ویژگی‌های زمین ژئوفیزیکی مرتبط با هر یک از مناطق HEALPix، یعنی توسعه زمین (به عنوان مثال، کمی سازی میزان نفوذناپذیر/توسعه یافته در مقابل زمین طبیعی، استنتاج شده از مجموعه داده‌های پوشش زمین تاریخی در مورد آزمایشات با پیکره WOTR، و از منابع مدرن در موارد باقی مانده)، درصد پوشش گیاهی، ارتفاع زمین، و حداقل فاصله از مناطق آبی. ما این اطلاعات را از مجموعه داده‌های شطرنجی عمومی جمع‌آوری کردیم، و آن را با استفاده از تکنیکی مشابه با درونیابی مختصات جغرافیایی در مدل گنجاندیم. به طور خاص، ما هر یک از چهار ویژگی ژئوفیزیکی را به عنوان مقادیر واقعی رمزگذاری کردیم، و سپس بردارهای ستونی با مقادیر مربوط به اندازه گیری های مربوط به مختصات مرکز هر کلاس HEALPix ایجاد کرد. سپس ما یک محصول نقطه‌ای را بین هر یک از بردارهای ستون و بردار احتمال کلاس HEALPix تنظیم‌شده محاسبه کردیم، که منجر به تخمین‌هایی برای خواص ژئوفیزیکی شد. توابع تلفات اضافی در مدل گنجانده شد که مربوط به تفاوت مطلق بین مقادیر پیش‌بینی‌شده و ارزش‌های واقعی است. شهود اصلی پشت این مجموعه آزمایش‌ها به این موضوع مربوط می‌شود که ببینیم آیا ویژگی‌های ژئوفیزیکی زمین، که احتمالاً در متن پیرامون منابع مکان توصیف شده‌اند، می‌تواند وظیفه پیش‌بینی مختصات جغرافیایی را هدایت کند یا خیر. مانند مورد قبلی، آزمایش‌ها تحت این تنظیم با جاسازی‌های کلمه متنی ELMo یا BERT انجام شد. سپس ما یک محصول نقطه‌ای را بین هر یک از بردارهای ستون و بردار احتمال کلاس HEALPix تنظیم‌شده محاسبه کردیم، که منجر به تخمین‌هایی برای خواص ژئوفیزیکی شد. توابع تلفات اضافی در مدل گنجانده شد که مربوط به تفاوت مطلق بین مقادیر پیش‌بینی‌شده و ارزش‌های واقعی است. شهود اصلی پشت این مجموعه آزمایش‌ها به این موضوع مربوط می‌شود که ببینیم آیا ویژگی‌های ژئوفیزیکی زمین، که احتمالاً در متن پیرامون منابع مکان توصیف شده‌اند، می‌تواند وظیفه پیش‌بینی مختصات جغرافیایی را هدایت کند یا خیر. مانند مورد قبلی، آزمایش‌ها تحت این تنظیم با جاسازی‌های کلمه متنی ELMo یا BERT انجام شد. سپس ما یک محصول نقطه‌ای را بین هر یک از بردارهای ستون و بردار احتمال کلاس HEALPix تنظیم‌شده محاسبه کردیم، که منجر به تخمین‌هایی برای خواص ژئوفیزیکی شد. توابع تلفات اضافی در مدل گنجانده شد که مربوط به تفاوت مطلق بین مقادیر پیش‌بینی‌شده و ارزش‌های واقعی است. شهود اصلی پشت این مجموعه آزمایش‌ها به این موضوع مربوط می‌شود که ببینیم آیا ویژگی‌های ژئوفیزیکی زمین، که احتمالاً در متن پیرامون منابع مکان توصیف شده‌اند، می‌تواند وظیفه پیش‌بینی مختصات جغرافیایی را هدایت کند یا خیر. مانند مورد قبلی، آزمایش‌ها تحت این تنظیم با جاسازی‌های کلمه متنی ELMo یا BERT انجام شد. توابع تلفات اضافی در مدل گنجانده شد که مربوط به تفاوت مطلق بین مقادیر پیش‌بینی‌شده و ارزش‌های واقعی است. شهود اصلی پشت این مجموعه آزمایش‌ها به این موضوع مربوط می‌شود که ببینیم آیا ویژگی‌های ژئوفیزیکی زمین، که احتمالاً در متن پیرامون منابع مکان توصیف شده‌اند، می‌تواند وظیفه پیش‌بینی مختصات جغرافیایی را هدایت کند یا خیر. مانند مورد قبلی، آزمایش‌ها تحت این تنظیم با جاسازی‌های کلمه متنی ELMo یا BERT انجام شد. توابع تلفات اضافی در مدل گنجانده شد که مربوط به تفاوت مطلق بین مقادیر پیش‌بینی‌شده و ارزش‌های واقعی است. شهود اصلی پشت این مجموعه آزمایش‌ها به این موضوع مربوط می‌شود که ببینیم آیا ویژگی‌های ژئوفیزیکی زمین، که احتمالاً در متن پیرامون منابع مکان توصیف شده‌اند، می‌تواند وظیفه پیش‌بینی مختصات جغرافیایی را هدایت کند یا خیر. مانند مورد قبلی، آزمایش‌ها تحت این تنظیم با جاسازی‌های کلمه متنی ELMo یا BERT انجام شد. که احتمالاً در متن پیرامون مراجع مکان توضیح داده شده است، می تواند وظیفه پیش بینی مختصات جغرافیایی را هدایت کند. مانند مورد قبلی، آزمایش‌ها تحت این تنظیم با جاسازی‌های کلمه متنی ELMo یا BERT انجام شد. که احتمالاً در متن پیرامون مراجع مکان توضیح داده شده است، می تواند وظیفه پیش بینی مختصات جغرافیایی را هدایت کند. مانند مورد قبلی، آزمایش‌ها تحت این تنظیم با جاسازی‌های کلمه متنی ELMo یا BERT انجام شد.
سه مجموعه داده معروف، که قبلاً در بخش 2.5 توضیح داده شد ، برای حمایت از ارزیابی مقایسه ای جایگزین های مدل سازی مختلف، به ویژه (i) مجموعه واژگان محلی-جهانی (LGL) [ 32 ]، (ii) پیکره SpatialML [ 33 ] استفاده شد. ]، و (iii) مجموعه جنگ شورش (WOTR) [ 30]. اسناد درون این مجموعه‌ها منابع متفاوتی دارند (یعنی گزارش‌های تاریخی، مقالات خبری از روزنامه‌های محلی و اخبار بین‌المللی)، که طبیعتاً با ویژگی‌های اسناد کمی متفاوت نیز مطابقت دارند. به عنوان مثال، SpatialML عمدتاً بر اساس مقالات خبری بین‌المللی است که احتمالاً گسترده‌تر و با ارجاعات نام عمومی‌تر از سایر مجموعه‌های داده است. جدول 1 یک توصیف آماری از مجموعه داده های مختلف، از جمله جنبه هایی مانند طول متوسط ​​سند یا تعداد نام های نامی در هر سند را ارائه می دهد.
ما سعی کردیم شرایط تجربی مطالعات قبلی را شبیه‌سازی کنیم، که امکان مقایسه عملکرد و نتایج مدل را فراهم کرد. دقیقاً همان تقسیم‌بندی داده‌هایی که توسط نویسندگان به اشتراک گذاشته شد در آزمایش‌ها با مجموعه WOTR استفاده شد (یعنی همان تقسیم اسناد به مجموعه‌های داده آموزشی و آزمایشی). در مورد LGL و SpatialML، داده ها به طور تصادفی با در نظر گرفتن 90٪ از اسناد برای آموزش، و 10٪ اضافی برای آزمایش تقسیم شدند (یعنی مجموعه داده های آموزشی و آزمایشی فقط حاوی مراجع مکان ارائه شده در اسناد مختلف بودند). نتایج اندازه گیری شده روی مجموعه داده های LGL و SpatialML به طور مستقیم با نتایج گزارش شده در مطالعات قبلی قابل مقایسه نیستند، اگرچه تفاوت های بزرگ با این وجود باید نشان دهنده باشد.
برای محاسبه مناطق HEALPix بر روی سطح زمین، همانطور که در بخش 3.3 توضیح داده شد ، و برای تبدیل بین مختصات طول و عرض جغرافیایی و مناطق HEALPix، از کتابخانه هلپی پایتون ( https://pypi.org/project/healpy/ ) استفاده کردیم. مشاهده شده در 10 نوامبر 2021)). بازنمایی محتوای متن از طریق جاسازی‌های متنی کلمه متکی بر ELMo از پیش آموزش‌دیده ( https://allennlp.org/elmo (دسترسی در 10 نوامبر 2021)) و BERT ( https://github.com/google-research/bert ( مشاهده شده در 10 نوامبر 2021)) مدل ها. مدل یادگیری عمیق پیشنهادی به نوبه خود از طریق کتابخانه keras Python ( https://keras.io (دسترسی در 10 نوامبر 2021) اجرا شد.
برای ارزیابی عملکرد پیش‌بینی مختصات جغرافیایی مربوط به هر نام، فاصله بین مختصات ژئوفضایی پیش‌بینی‌شده و حقیقت زمین با استفاده از فرمول‌های ژئودزیکی وینسنتی محاسبه شد [ 47 ].] (یعنی یک روش شناخته شده برای محاسبه کوتاه ترین فواصل جغرافیایی بین جفت نقاط روی سطح زمین، با دستیابی به دقت در 0.5 میلی متر). از اندازه‌گیری‌های خطای فردی (یعنی از فواصل بین تخمین‌ها و حقیقت زمین)، میانگین و میانه فاصله بر حسب کیلومتر و همچنین دقت (یعنی درصد نتایج صحیح) در آستانه‌ای در فاصله محاسبه شد. مقادیر مربوط به 161 کیلومتر. تمام معیارهای ذکر شده معمولاً در مطالعات قبلی مربوط به کدگذاری جغرافیایی اسناد یا تفکیک نام های نامی مورد استفاده قرار گرفته اند.

4.2. نتایج به دست آمده

جدول 2 نتایج به‌دست‌آمده توسط مدل پایه ما (یعنی مدل با استفاده از ELMo) را خلاصه می‌کند، و آنها را با نتایج گزارش‌شده در نشریات قبلی که از مجموعه داده‌های یکسان و معیارهای ارزیابی استفاده کرده‌اند مقایسه می‌کند (یعنی مطالعات قبلی مانند مطالعات لیبرمن و همکاران همکاران [ 32] از مجموعه داده‌های LGL و SpatialML نیز استفاده کرده‌اند، اما این نویسندگان در عوض عملکرد را از طریق معیارهای دقیق و یادآوری، از نظر یافتن مطابقت صحیح با ورودی‌های روزنامه اندازه‌گیری کرده‌اند. مدل پیشنهادی به نتایج بسیار جالبی دست یافت که در بیشتر موارد از وضعیت قبلی پیشی گرفت. ما به طور خاص فاصله‌های خطای متوسط ​​بسیار کم را در مجموعه داده‌های WOTR و LGL، با اختلاف منفی 281 و 463 کیلومتر، در مقایسه با بهترین نتایج قبلی، اندازه‌گیری کردیم. در پیکره SpatialML، یادگیری رتبه بندی سیستم از Santos و همکاران. هنوز هم بهترین خطای میانگین فاصله را ثبت می کند، اگرچه مدل ما به خطای میانگین فاصله بسیار بهتری رسیده است. توجه به این نکته مهم است که منابعی مانند ویکی‌پدیا یا روزنامه‌های تحت پوشش جهانی مانند GeoNames ( https://www.geonames.org(دسترسی در 10 نوامبر 2021))، در حاشیه نویسی مجموعه های تفکیک نامی استفاده شده است. از این رو، مختصات جغرافیایی-مکانی داده شده در حقیقت زمین اغلب دقیقاً با مختصات مرتبط با ورودی های خاص در این منابع مطابقت دارد. سیستم‌هایی که به تطابق روزنامه‌ها متکی هستند، مانند سیستم یادگیری رتبه‌بندی از سانتوس و همکاران. می تواند تا حدودی از تنظیمات آزمایشی که در نظر گرفته شد، اندازه گیری فواصل به سمت مختصات ژئو فضایی حقیقت زمینی بهره مند شود. با این حال، بدون درگیر کردن تطبیق روزنامه، رویکرد ما به طور متوسط ​​می تواند به نتایج بسیار دقیقی دست یابد.
جدول 3 نتایج به‌دست‌آمده در مجموعه دوم آزمایش‌ها را نشان می‌دهد که در آن ما جایگزین‌های مدل‌سازی مختلف را آزمایش کردیم (به عنوان مثال، استفاده از BERT به جای ELMo، و در نظر گرفتن داده‌های آموزشی اضافی یا ویژگی‌های ژئوفیزیکی). نتایج نشان می‌دهد که روش نمایش متنی تأثیر جدی بر نتایج دارد، با جاسازی‌های متنی BERT که نتایج بهتری را در تمام مجموعه‌های داده به دست می‌آورد (یعنی به طور متوسط، بهبود 41 کیلومتر برای میانگین خطا، 0.3 کیلومتر برای خطای متوسط. ، و افزایش 3.9٪ به میزان دقت@161 )، به جز در خطای میانه روی مجموعه داده SpatialML (یعنی جدول 3)نشان می‌دهد که همه گزینه‌های مختلف با در نظر گرفتن دقت عددی دو رقم اعشاری، فاصله خطای میانه‌ای را در مجموعه داده SpatialML به دست آوردند.
افزایش اندازه داده‌های آموزشی با نمونه‌های آموزشی بیشتر جمع‌آوری‌شده از ویکی‌پدیا، اگرچه به‌طور مداوم انجام نمی‌شود، اما اغلب منجر به بهبود جزئی در نتایج می‌شود. به عنوان مثال، در پیکره LGL و هر دو با تعبیه‌های ELMo یا BERT، افزایش میانگین خطا، افزایش در اندازه‌گیری دقت @161 و کاهش جزئی در خطای میانه مشاهده شد. لازم به ذکر است که داده‌های ویکی‌پدیا ویژگی‌های بسیار متفاوتی با اسناد مرتبط با مجموعه‌های مختلف (مثلاً گزارش‌های تاریخی یا مقالات خبری) دارند، که شاید مانع از نتایج شوند. آزمایش‌های آینده احتمالاً می‌توانند به جای افزایش مجموعه نمونه‌های آموزشی، پیش‌آموزش مدل را با داده‌های ویکی‌پدیا و به دنبال آن تنظیم دقیق در مجموعه‌های خاص دامنه در نظر بگیرند.
در مورد آزمایش‌های مربوط به اطلاعات ژئوفیزیکی، هم با تعبیه‌های ELMo یا BERT، ما فقط پیشرفت‌های جزئی و ناسازگاری را نسبت به نتایج ثبت کردیم. در مجموعه داده‌های WOTR و SpatialML، به نظر می‌رسد که مدل از افزودن اطلاعات ژئوفیزیکی سود می‌برد، در حالی که در مجموعه LGL مدل ادغام اطلاعات ژئوفیزیک بدتر عمل می‌کند. در کار آینده، ما قصد داریم یک ارزیابی عمیق تر در مورد سهم خواص ژئوفیزیکی مختلف انجام دهیم، همچنین تخصیص خواص ژئوفیزیکی حقیقت زمین به مناطق HEALPix را بهبود ببخشیم.
علاوه بر ارزیابی‌های سطح بالا از نظر خطاهای فاصله کلی، ما همچنین سعی کردیم موارد خاصی را که در آن مدل‌ها به درستی یا نادرست انجام شده‌اند، در تلاش برای شناسایی الگوها در نتایج تجزیه و تحلیل کنیم. جدول 4 ارجاعات نام مکان را نشان می دهد که از هر یک از مجموعه داده ها گرفته شده است، که برای آن مدل پایه (یعنی مدلی که از جاسازی های ELMo استفاده می کند، بدون داده های آموزشی ویکی پدیا و استفاده از ویژگی های زمین فیزیکی) کمترین یا بالاترین فاصله را ایجاد کرده است. مکان‌هایی که خطای پیش‌بینی پایینی داشتند شامل نام‌های شیطانی (به عنوان مثال، انگلیسی در پیکره SpatialML، حل‌وفصل به انگلستان ، بریتانیامکان با خطای کوچک 2.44 کیلومتر)، یا مکان‌های کوچکی که از طریق نام‌های محلی مشخص شده‌اند (به عنوان مثال، مورد دریاچه بزرگ اوون در مجموعه WOTR). اینها احتمالاً در رویکردهایی که بر تطبیق روزنامه‌ها تکیه می‌کنند، به‌درستی ابهام‌زدایی می‌کنند. ارجاعات نامی با خطای فاصله زیاد شامل اسامی بسیار مبهم (مثلاً Capital در پیکره SpatialML)، یا ارجاع به مناطق بزرگ (مثلاً آمریکای شمالی در مجموعه LGL) است. اگرچه جدول 4 فقط نمونه هایی را برای مدل پایه نشان می دهد، نتایج مشابهی نیز با سایر گزینه های مدل سازی به دست می آید (یعنی بسیاری از نام مکان های مشابه همچنان در لیست هایی که دارای خطاهای کمتر/بالا هستند دیده می شوند).
جدول 5 نتایج به‌دست‌آمده با مدل پایه را نشان می‌دهد و نمونه‌هایی از گفته‌های متنی حاوی ارجاعات مکانی را به همراه مکان‌های جغرافیایی-مکانی مربوط به پیش‌بینی‌ها و حقیقت زمینی نشان می‌دهد. در هر مثال، نام‌ها برجسته می‌شوند، و نقشه مربوطه مکان واقعی (نقاط سبز) و مکان‌های پیش‌بینی‌شده (نقاط قرمز)، از جمله مطابقت بین این نقاط را نشان می‌دهد که با خطوط سیاه به تصویر کشیده شده‌اند. موارد متمایز که در آن خطا در بین نقاط پیش بینی شده و واقعی یا کوچک یا به طور قابل توجهی بزرگ است نشان داده شده است. توجه داشته باشید که برخی از مثال‌ها شامل نام‌هایی هستند که در مجاورت یکدیگر وجود دارند (مثلاً ممفیس ، تن.در مثال اول)، که می تواند سرنخ هایی در مورد مکان ها ارائه دهد. در مثال سوم، همه نام‌ها دارای مکان‌هایی با خطاهای کوچک هستند که با فاصله متوسط ​​نزدیک به 16.6 کیلومتر تعیین شده‌اند، که در میان آنها اشاره به مکان کوچکی به نام پاریس نشان داده شده است (یعنی یک نام مکان مبهم معمول که مدل به خوبی با استفاده از کمک از زمینه اطراف).

4.3. بحث در مورد نتایج کلی

به طور کلی، نتایج به‌دست‌آمده برتری روش پیشنهادی را نسبت به روش‌های قبلی تأیید می‌کند و به طور قابل‌توجهی بهتر از وضعیت قبلی هنر است.
قبلاً نشان داده شده بود که استفاده از جاسازی کلمات متنی برای طیف وسیعی از وظایف NLP مفید است، به ویژه هنگامی که شامل مقادیر نسبتاً کمی از داده های آموزشی مشروح شده است. نتایج ما بیشتر این مشاهدات را تأیید می‌کند، و به‌ویژه ما نتایج بهتری را با تعبیه‌های BERT در مقایسه با مدل پایه ما که از تعبیه‌های ELMo استفاده می‌کند، مشاهده کردیم. افزایش مجموعه داده‌های آموزشی با نمونه‌های خارج از دامنه جمع‌آوری‌شده از ویکی‌پدیا، یا افزودن اطلاعات در مورد ویژگی‌های زمین ژئوفیزیکی، نتایج را به میزان اندکی بهبود بخشید. با این حال، برای ارزیابی بیشتر سهم هر دوی این ایده‌ها، باید آزمایش‌های بیشتری در نظر گرفته شود. به عنوان مثال، نمونه های بسیار بزرگتری از نمونه های ویکی پدیا را می توان برای گسترش مجموعه داده های آموزشی در نظر گرفت.
استفاده از اطلاعات خارجی برای گرفتن ویژگی های زمین یک جهت تحقیقاتی جالب توجه است که مایلیم آن را با جزئیات بیشتری دنبال و ارزیابی کنیم. به عنوان مثال، می‌توانیم تخصیص اندازه‌گیری‌های حقیقت زمین را به سلول‌های HEALPix، با استفاده از آمار منطقه‌ای به جای جمع‌آوری داده‌ها برای مختصات مرکز هر سلول، بهبود ببخشیم. چهار ویژگی متفاوتی که در آزمایش‌های اولیه ما در نظر گرفته شده‌اند، ممکن است همه به یک اندازه آموزنده نباشند، و منابع اطلاعاتی اضافی (مثلاً شطرنجی‌هایی که تراکم جمعیت انسانی را رمزگذاری می‌کنند، که به عنوان پیشین در بسیاری از سیستم‌های تفکیک نام نامی استفاده می‌شود، یا اطلاعات مربوط به استفاده از زمین مشتق شده است. از OpenStreetMap) نیز می تواند در نظر گرفته شود. به جای محصولات سطح بالا که از سنجش از دور بدست می آیند،
همه آزمایش‌های ما روی سخت‌افزار نسبتاً متوسطی (مثلاً رایانه‌های شخصی استاندارد با پردازنده‌های گرافیکی Titan Xp، دارای 12 گیگابایت حافظه) انجام شد، همچنین زمان کوتاهی برای آموزش و ارزیابی مدل صرف شد (مثلاً، آموزش فقط چند ساعت طول می‌کشد، در هر یک از مجموعه داده های در نظر گرفته شده). این به این دلیل است که آموزش شامل به‌روزرسانی تعداد نسبتاً کمی از پارامترها است، با توجه به اینکه مدل‌هایی که تعبیه‌های ELMo یا BERT را محاسبه می‌کنند ثابت نگه داشته می‌شوند (یعنی فقط لایه‌های LSTM دو طرفه ما و لایه پیش‌خور مرتبط با پیش‌بینی‌های کلاس ، تنظیم می شوند). با این حال، برای کار آینده، آزمایش با تنظیم دقیق یک مدل BERT برای تفکیک نام نام‌ها (به‌عنوان مثال، به‌جای پردازش لایه‌های دو طرفه LSTM که جداگانه محاسبه می‌شوند، مستقیماً از BERT استفاده کنید) جالب خواهد بود.

5. نتیجه گیری و کار آینده

این مقاله به مشکل وضوح نام نامی پرداخته و یک معماری شبکه عصبی جدید را که به طور خاص برای این کار طراحی شده است، پیشنهاد می‌کند. شبکه ورودی‌های متنی متعددی را در نظر می‌گیرد که متناظر با نام نام ابهام‌زدایی به‌علاوه اطلاعات متنی مرتبط است، و از جاسازی‌های متنی از پیش آموزش‌دیده‌شده (ELMo یا BERT) برای نمایش متن استفاده می‌کند. علاوه بر این، شبکه عصبی همچنین خروجی‌های متعددی را در نظر می‌گیرد و توزیع احتمال را بر روی مناطق جغرافیایی-فضایی درشت دانه پیش‌بینی می‌کند و سپس از این توزیع احتمال برای هدایت پیش‌بینی مختصات جغرافیایی-مکانی عرض و طول جغرافیایی منطبق با نام ورودی استفاده می‌کند.
ما آزمایش‌های ارزیابی را با سه مجموعه داده که به‌طور گسترده در مطالعات قبلی مورد استفاده قرار می‌گرفت، انجام دادیم و تأثیر جایگزین‌های مدل‌سازی مختلف (به عنوان مثال، استفاده از BERT در مقابل تعبیه‌های ELMo، استفاده از داده‌های آموزشی اضافی جمع‌آوری‌شده از ویکی‌پدیا، یا استفاده از اطلاعات خارجی در مورد ویژگی‌های زمین ژئوفیزیکی برای هدایت آموزش مدل‌ها را ارزیابی کردیم. ). به طور کلی، نتایج تجربی نشان می‌دهد که رویکرد پیشنهادی می‌تواند به وضوح از روش‌های گزارش‌شده قبلی در مجموعه داده‌های مشابه پیشی بگیرد.
برای کار آینده، ممکن است جالب باشد که تعبیه‌های چند زبانه یا چند زبانه (مثلاً مدل‌های BERT چند زبانه منتشر شده توسط Google) را بررسی کنیم تا از ایده استفاده از داده‌های موجود در یک (مجموعه) زبان (مجموعه‌ای از) معین پشتیبانی شود. ) و رویکردی را طراحی کنید که قادر به کار بر روی متون از زبان های متمایز باشد. علاوه بر ELMo و BERT، مدل‌های متنی متعدد دیگری برای جاسازی کلمه وجود دارد که می‌توان آنها را بررسی کرد [ 40 ، 41 ، 48 ، 49 ]، از قبل با مجموعه داده‌های بزرگ‌تر آموزش دید و/یا اهداف مدل‌سازی زبان اضافی را در نظر گرفت. یک مثال RoBERTa [ 50]، یک نسخه بهینه از BERT (یعنی آموزش داده شده با مینی دسته های بزرگتر، داده های بیشتر و برای مدت زمان بیشتر، در نظر گرفتن یک سیاست متفاوت برای تنظیم نرخ یادگیری، و حذف هدف قبل از آموزش در مورد پیش بینی موارد بعدی. جمله) که نشان داده شده است موثرتر است و نتایج پیشرفته‌ای را در طیف وسیعی از وظایف ایجاد می‌کند. نمونه های دیگر عبارتند از مدل هایی مانند LUKE [ 51 ] یا ERICA [ 52]، برای به تصویر کشیدن بهتر موجودیت ها و روابط بین موجودات در متن، از قبل آموزش داده شده است، و از این رو شاید در کارهایی که شامل سر و کار با نام های نامی است نیز بهتر عمل کند. شاید جالب‌تر از آن، به‌جای استفاده از مدل‌های تعبیه متنی از پیش آموزش‌دیده به‌عنوان استخراج‌کننده ویژگی (یعنی در تولید نمایش‌های ثابت که سپس به عنوان ورودی به LSTM‌های دو جهته ارائه می‌شوند)، می‌توانیم مدل‌های تنظیم دقیق مستقیم مانند BERT را در نظر بگیریم. به وظیفه ابهام زدایی نام نامی. این جایگزین خاص از نظر محاسباتی سخت‌تر خواهد بود، اگرچه شاید بتواند به نتایج بهتری نیز منجر شود.
همچنین گسترش بیشتر اعتبار سنجی تجربی، به عنوان مثال، استفاده از مجموعه‌های دیگر از منابع مختلف (به عنوان مثال، اسناد علمی، همانطور که در رقابت بر روی تفکیک نام نام‌ها در چالش SemEval-2019 [ 21 ] استفاده می‌شود)، و مقایسه عملکرد رویکرد پیشنهادی در برابر مجموعه بزرگتری از سیستم های قبلی. یک امکان شامل ادغام رویکرد پیشنهادی در EUPEG [ 35 ، 36 ] است، یک پلتفرم معیار اخیر که برای ارزیابی سیستم‌های تشخیص و ابهام‌زدایی نام نام‌ها ایجاد شده است، که طیف وسیعی از مجموعه‌ها و سیستم‌های اسناد را ادغام می‌کند. با این حال، در نسخه فعلی، EUPEG از آموزش مدل با اطلاعاتی از مجموعه‌هایی که در پلتفرم ادغام شده‌اند، پشتیبانی نمی‌کند.

منابع

  1. آمیتای، ای. هارئل، ن. سیوان، ر. Soffer، A. Web-a-where: برچسب گذاری جغرافیایی محتوای وب. در مجموعه مقالات کنفرانس ACM SIGIR در مورد تحقیق و توسعه در بازیابی اطلاعات، شفیلد، انگلستان، 25-29 ژوئیه 2004. ص 273-280. [ Google Scholar ]
  2. مونتیرو، بی. دیویس، سی. Fonseca, F. نظرسنجی در مورد دامنه جغرافیایی اسناد متنی. محاسبه کنید. Geosci. 2016 ، 96 ، 23-34. [ Google Scholar ] [ CrossRef ]
  3. کاردوسو، ن. مارتینز، بی. چاوز، ام. آندراد، ال. Silva، MJ گروه XLDB در GeoCLEF 2005. در کارگاه انجمن ارزیابی بین زبانی برای زبان های اروپایی، مجموعه مقالات ششمین کارگاه انجمن ارزیابی بین زبانی، CLEF 2005، وین، اتریش، 21-23 سپتامبر 2005 . Springer: برلین/هایدلبرگ، آلمان، 2005. [ Google Scholar ]
  4. مارتینز، بی. Calado, P. یادگیری رتبه بندی برای بازیابی اطلاعات جغرافیایی. در مجموعه مقالات کارگاه ACM SIGSPATIAL در مورد بازیابی اطلاعات جغرافیایی، زوریخ، سوئیس، 18 تا 19 فوریه 2010. [ Google Scholar ]
  5. کوئلیو، جی. Magalhães، JA; مارتینز، بی. بهبود مدل‌های عصبی برای بازیابی گذرهای مربوط به جستارهای جغرافیایی. در مجموعه مقالات کنفرانس ACM SIGSPATIAL در مورد پیشرفت‌ها در سیستم‌های اطلاعات جغرافیایی، پکن، چین، 2 تا 5 نوامبر 2021. [ Google Scholar ]
  6. Purves، RS; کلاف، پی. جونز، CB; هال، MH; مرداک، وی. بازیابی اطلاعات جغرافیایی: پیشرفت و چالش در جستجوی فضایی متن. پیدا شد. Trends Inf. Retr. 2018 ، 12 ، 164-318. [ Google Scholar ] [ CrossRef ]
  7. Wing, B. موقعیت جغرافیایی اسناد مبتنی بر متن و کاربرد آن در علوم انسانی دیجیتال. Ph.D. پایان نامه، دانشگاه تگزاس در آستین، آستین، تگزاس، ایالات متحده آمریکا، 2015. [ Google Scholar ]
  8. ملو، اف. مارتینز، بی. ژئوکدگذاری خودکار اسناد متنی: بررسی رویکردهای فعلی. ترانس. GIS 2017 ، 21 ، 3-38. [ Google Scholar ] [ CrossRef ]
  9. برمن، م. موسترن، آر. Southall, H. Placing names: Enriching and Integrating Gazetteers ; انتشارات دانشگاه ایندیانا: بلومینگتون، IN، ایالات متحده آمریکا، 2016. [ Google Scholar ]
  10. منگوئینهاس، اچ. مارتینز، بی. بوربینها، جی. سیاباتو، دبلیو. سرویس وب روزنامه جغرافیایی-زمانی DIGMAP. E-Perimetron 2009 ، 4 ، 9-24. [ Google Scholar ]
  11. آردانوی، م. اسپورلدر، سی. ابهام‌زدایی توپونی در اسناد تاریخی با استفاده از ویژگی‌های معنایی و جغرافیایی. در مجموعه مقالات کنفرانس دسترسی دیجیتالی به میراث فرهنگی متنی، گوتینگن، آلمان، 1 تا 2 ژوئن 2017؛ صص 175-180. [ Google Scholar ]
  12. Leidner, J. Resolution Toponym in Text. Ph.D. پایان نامه، دانشگاه ادینبورگ، ادینبورگ، انگلستان، 2007. [ Google Scholar ]
  13. فریره، ن. بوربینها، جی. کالادو، پی. مارتینز، بی. یک سیستم تجزیه و تحلیل جغرافیایی فراداده برای تشخیص و تفکیک نام مکان در سوابق فراداده. در مجموعه مقالات کنفرانس مشترک سالانه بین المللی ACM/IEEE در کتابخانه های دیجیتال، اتاوا، ON، ایالات متحده آمریکا، 13-17 ژوئن 2011. صص 339-348. [ Google Scholar ]
  14. کریم زاده، م. پزانوفسکی، اس. MacEachren، A.; Wallgrün, J. GeoTxt: یک سیستم geoparsing مقیاس‌پذیر برای مکان‌یابی متن بدون ساختار. ترانس. GIS 2019 ، 23 ، 118-136. [ Google Scholar ] [ CrossRef ]
  15. لیبرمن، ام. Samet, H. ویژگی‌های بافت تطبیقی ​​برای تفکیک نام نامی در جریان اخبار. در مجموعه مقالات کنفرانس ACM SIGIR در مورد تحقیق و توسعه در بازیابی اطلاعات، پورتلند، OR، ایالات متحده آمریکا، 12-16 اوت 2012. ص 731-740. [ Google Scholar ]
  16. سانتوس، جی. آناستاسیو، آی. مارتینز، بی. استفاده از روش‌های یادگیری ماشین برای ابهام‌زدایی از مراجع مکان در اسناد متنی. GeoJournal 2015 ، 80 ، 375-392. [ Google Scholar ] [ CrossRef ]
  17. دلوزیر، جی. بالدریج، جی. لندن، L. تفکیک نام مستقل از Gazetteer با استفاده از نمایه‌های کلمه جغرافیایی. در مجموعه مقالات کنفرانس AAAI در مورد هوش مصنوعی، آستین، تگزاس، ایالات متحده آمریکا، 25 تا 30 ژانویه 2015. صص 2382–2388. [ Google Scholar ]
  18. اسپریوسو، ام. بالدریج، جی. تفکیک نام نام‌های متنی با استفاده از نظارت غیرمستقیم. در مجموعه مقالات نشست سالانه انجمن زبانشناسی محاسباتی، صوفیه، بلغارستان، 4 تا 9 اوت 2013. جلد 1، ص 1466–1476. [ Google Scholar ]
  19. آدامز، بی. McKenzie, G. جمع‌سپاری شخصیت یک مکان: شبکه‌های پیچیده در سطح شخصیت برای طبقه‌بندی متن جغرافیایی چندزبانه. ترانس. GIS 2018 ، 22 ، 394-408. [ Google Scholar ] [ CrossRef ]
  20. گریتا، م. پیله ور، م. Collier، N. کدام ملبورن؟ تقویت ژئوکدینگ با نقشه ها در مجموعه مقالات نشست سالانه انجمن زبانشناسی محاسباتی، ملبورن، استرالیا، 15 تا 20 ژوئیه 2018؛ جلد 1، ص 1285–1296. [ Google Scholar ]
  21. وایزنباخر، دی. مگ، ا. اوکانر، ک. اسکاچ، ام. Gonzalez-Hernandez, G. SemEval-2019 task 12: تفکیک نام های نامی در مقالات علمی. در مجموعه مقالات کارگاه ارزیابی معنایی، مینیاپولیس، MN، ایالات متحده، 6-7 ژوئن 2019؛ ص 907-916. [ Google Scholar ]
  22. یان، ز. یانگ، سی. هو، ال. ژائو، جی. جیانگ، ال. Gong, J. ادغام ویژگی های زبانی و مکانی با استفاده از جاسازی زمینه جهانی برای کدگذاری خودکار متن. ISPRS Int. J. Geo-Inf. 2021 ، 10 ، 572. [ Google Scholar ] [ CrossRef ]
  23. پیترز، ام. نویمان، ام. اییر، م. گاردنر، ام. کلارک، سی. تره فرنگی.؛ Zettlemoyer، L. بازنمودهای متنی کلمه عمیق. در مجموعه مقالات کنفرانس بخش آمریکای شمالی انجمن زبان‌شناسی محاسباتی: فناوری‌های زبان انسانی، نیواورلئان، لس‌آنجلس، ایالات متحده آمریکا، 1 تا 6 ژوئن 2018؛ جلد 1، ص 2227–2237. [ Google Scholar ]
  24. دولین، جی. چانگ، مگاوات؛ تره فرنگی.؛ Toutanova، K. BERT: پیش آموزش ترانسفورماتورهای عمیق دو جهته برای درک زبان. در مجموعه مقالات کنفرانس بخش آمریکای شمالی انجمن زبان‌شناسی محاسباتی: فناوری‌های زبان انسانی، مینیاپولیس، MN، ایالات متحده آمریکا، 6 تا 7 ژوئن 2019؛ جلد 1، ص 4171–4186. [ Google Scholar ]
  25. گورسکی، ک. هیوون، ای. باندی، ا. واندلت، بی. هانسن، اف. راینکه، ام. Bartelman، M. HEALPix: چارچوبی برای گسسته سازی با وضوح بالا و تجزیه و تحلیل سریع داده های توزیع شده در کره. اخترفیزیک. J. 2005 ، 622 ، 759-771. [ Google Scholar ] [ CrossRef ]
  26. بنسالم، آی. خلّادی، م.ک. ابهام زدایی با روابط درختی. جی. کامپیوتر. علمی 2010 ، 6 ، 653. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  27. Moncla, L. بازسازی خودکار برنامه های سفر از متون توصیفی. Ph.D. پایان نامه، دانشگاه Pau و Pays de l’Adour، Pau، فرانسه، 2015. [ Google Scholar ]
  28. خو، سی. لی، جی. لو، ایکس. پی، جی. لی، سی. Ji, D. DLocRL: یک خط لوله یادگیری عمیق برای شناسایی دقیق مکان و پیوند در توییت ها. در مجموعه مقالات کنفرانس جهانی وب، سانفرانسیسکو، کالیفرنیا، ایالات متحده آمریکا، 13 تا 17 مه 2019. [ Google Scholar ]
  29. وینگ، بی. بالدریج، جی. مکان یابی اسناد نظارت شده ساده با شبکه های ژئودزیکی. در مجموعه مقالات نشست سالانه انجمن زبان‌شناسی محاسباتی: فناوری‌های زبان انسانی، پورتلند، OR، ایالات متحده آمریکا، 19 تا 24 ژوئن 2011. ص 955-964. [ Google Scholar ]
  30. دلوزیر، جی. وینگ، بی. بالدریج، جی. Nesbit, S. ایجاد یک پیکره جغرافیایی جدید از متون تاریخی. در مجموعه مقالات کارگاه حاشیه نویسی زبانی ACL، برلین، آلمان، 11 اوت 2016. ص 188-198. [ Google Scholar ]
  31. Ord، JK; Getis، A. آمار خودهمبستگی فضایی محلی: مسائل توزیع و یک برنامه کاربردی. Geogr. مقعدی 1995 ، 27 ، 286-306. [ Google Scholar ] [ CrossRef ]
  32. لیبرمن، ام. صامت، ح. Sankaranarayanan، J. برچسب‌گذاری جغرافیایی با واژگان محلی برای ایجاد نمایه‌هایی برای داده‌های مکانی مشخص شده متنی. در مجموعه مقالات کنفرانس IEEE در مهندسی داده، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 1 تا 6 مارس 2010. ص 201-212. [ Google Scholar ]
  33. مانی، من. دوران، سی. هریس، دی. هیتزمن، جی. کویمبی، آر. ریچر، جی. ولنر، بی. مردیس، س. Clancy، S. SpatialML: طرح حاشیه نویسی، منابع و ارزیابی. لنگ منبع. ارزشیابی 2010 ، 44 ، 263-280. [ Google Scholar ] [ CrossRef ]
  34. گریتا، م. پیله ور، م. لیمسوپاتام، ن. Collier, N. چه چیزی در تجزیه جغرافیایی گم شده است؟ لنگ منبع. ارزشیابی 2018 ، 52 ، 603-623. [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
  35. وانگ، جی. Hu, Y. تقویت تحلیل فضایی و متنی با EUPEG: یک پلت فرم توسعه یافته و یکپارچه برای ارزیابی geoparers. ترانس. GIS 2019 , 23 , 1393–1419. [ Google Scholar ] [ CrossRef ]
  36. وانگ، جی. هو، ای. آیا ما هنوز آنجا هستیم؟ ارزیابی پیشرفته‌ترین شبکه‌های عصبی مبتنی بر شبکه‌های عصبی با استفاده از EUPEG به عنوان یک پلت فرم معیار. در مجموعه مقالات کارگاه ACM SIGSPATIAL در علوم انسانی زمین فضایی، شیکاگو، IL، ایالات متحده آمریکا، 5 نوامبر 2019؛ صص 1-6. [ Google Scholar ]
  37. گلدبرگ، Y. روش های شبکه عصبی در پردازش زبان طبیعی . مورگان و کلیپول: سن رافائل، کالیفرنیا، ایالات متحده آمریکا، 2017. [ Google Scholar ]
  38. اشمیدوبر، جی. Hochreiter, S. حافظه کوتاه مدت طولانی. محاسبات عصبی 1997 ، 9 ، 1735-1780. [ Google Scholar ]
  39. اسمیت، NA بازنمودهای متنی کلمه: مقدمه متنی. arXiv 2019 ، arXiv:1902.06006. [ Google Scholar ]
  40. لیو، کیو. کوسنر، ام جی. Blunsom, P. A Survey on Contextual Embeddings. arXiv 2020 ، arXiv:2003.07278. [ Google Scholar ]
  41. کیو، ایکس. سان، تی. خو، ی. شائو، ی. دای، ن. Huang, X. مدل های از پیش آموزش دیده برای پردازش زبان طبیعی: یک نظرسنجی. arXiv 2020 ، arXiv:2003.08271. [ Google Scholar ] [ CrossRef ]
  42. میکولوف، تی. چن، ک. کورادو، جی. Dean, J. برآورد کارآمد نمایش کلمات در فضای برداری. در مجموعه مقالات کنفرانس بین المللی در مورد بازنمایی یادگیری، اسکاتسدیل، AZ، ​​ایالات متحده آمریکا، 2 تا 4 مه 2013. [ Google Scholar ]
  43. واسوانی، ع. Shazeer, N. پارمار، ن. Uszkoreit، J. جونز، ال. گومز، آ. قیصر، ال. Polosukhin، I. توجه شما تمام چیزی است که نیاز دارید. در مجموعه مقالات کنفرانس سیستم های پردازش اطلاعات عصبی، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 4 تا 9 دسامبر 2017. صفحات 5998–6008. [ Google Scholar ]
  44. ملو، اف. مارتینز، بی. ژئوکدینگ اسناد متنی با استفاده از طبقه‌بندی‌های سلسله مراتبی. در مجموعه مقالات کارگاه بازیابی اطلاعات جغرافیایی، پاریس، فرانسه، 26-27 نوامبر 2015. صفحات 1-9. [ Google Scholar ]
  45. ایگر، اس. یوسف، پ. گورویچ، من. آیا وقت آن است که بچرخیم؟ مقایسه عملکردهای فعال سازی یادگیری عمیق در سراسر وظایف NLP. در مجموعه مقالات کنفرانس روشهای تجربی در پردازش زبان طبیعی، بروکسل، بلژیک، 31 اکتبر تا 4 نوامبر 2018؛ صص 4415-4424. [ Google Scholar ]
  46. اسمیت، L. نرخ یادگیری چرخه ای برای آموزش شبکه های عصبی. در مجموعه مقالات کنفرانس زمستانی IEEE در مورد کاربردهای بینایی کامپیوتری، سانتا روزا، کالیفرنیا، ایالات متحده آمریکا، 24 تا 31 مارس 2017؛ صص 464-472. [ Google Scholar ]
  47. وینسنتی، تی. راه‌حل‌های مستقیم و معکوس ژئودزیک روی بیضی با کاربرد معادلات تو در تو. Surv. Rev. 1975 , 23 , 88-93. [ Google Scholar ] [ CrossRef ]
  48. ولف، تی. اولین، ال. Sanh، V. چاوموند، جی. دلانگ، سی. موی، ا. سیستاک، پی. راولت، تی. لوف، آر. فونتوویچ، ام. و همکاران ترانسفورماتورها: پیشرفته ترین پردازش زبان طبیعی. در مجموعه مقالات کنفرانس 2020 درباره روش‌های تجربی در پردازش زبان طبیعی: نمایش‌های سیستمی، آنلاین، 16 تا 20 نوامبر 2020. [ Google Scholar ]
  49. راجرز، ا. کووالوا، او. رومشیسکی، الف. یک آغازگر در برتولوژی: آنچه ما در مورد نحوه عملکرد BERT می دانیم. ترانس. دانشیار محاسبه کنید. زبانشناس. 2020 ، 8 ، 842-866. [ Google Scholar ] [ CrossRef ]
  50. لیو، ی. اوت، ام. گویال، ن. دو، ج. جوشی، م. چن، دی. لوی، او. لوئیس، ام. زتلمویر، ال. Stoyanov, V. RoBERTa: یک رویکرد پیش‌آموزشی BERT به‌طور قوی. arXiv 2019 ، arXiv:1907.11692. [ Google Scholar ]
  51. یامادا، آی. آسایی، ع. شیندو، اچ. تاکدا، اچ. ماتسوموتو، ی. لوک: بازنمایی نهادی عمیق با توجه به موجودیت. arXiv 2020 ، arXiv:2010.01057. [ Google Scholar ]
  52. Qin، Y. لین، ی. تاکانوبو، آر. لیو، ز. لی، پی. جی، اچ. هوانگ، ام. سان، م. ژو، جی. اریکا: بهبود درک موجودیت و رابطه برای مدل های زبانی از پیش آموزش دیده از طریق یادگیری متضاد. arXiv 2020 ، arXiv:2012.15022. [ Google Scholar ]
شکل 1. نماهای املایی برای نتایج تولید شده توسط طرح پارتیشن بندی HEALPix. این تصویر برگرفته از نمایشی است که در اصل از وب سایت HEALPix در دسترس است.
شکل 2. گردش کار کلی برای روش تفکیک نام نامی پیشنهادی.

بدون دیدگاه

دیدگاهتان را بنویسید