خلاصه

ساختن یک نمودار دانش از ادبیات خطرات زمین‌شناسی می‌تواند استفاده مجدد از ادبیات خطرات زمین‌شناسی را تسهیل کند و مرجعی برای مدیریت خطرات زمین‌شناسی فراهم کند. شناسایی موجودیت نام‌گذاری شده (NER)، به‌عنوان یک فناوری اصلی برای ساخت نمودار دانش خطرات زمین‌شناسی، باید با چالش‌هایی روبرو شود که موجودیت‌های نام‌گذاری شده در ادبیات خطرات زمین‌شناسی از نظر شکل متنوع، از نظر معنایی مبهم و در زمینه نامشخص هستند. این می تواند مشکلاتی را در طراحی ویژگی های عملی در طول طبقه بندی NER ایجاد کند. برای پرداختن به مشکل فوق، این مقاله یک مدل NER مبتنی بر یادگیری عمیق را پیشنهاد می‌کند. یعنی، مدل عمیق، چند شاخه ای BiGRU-CRF، که ترکیبی از یک لایه واحد بازگشتی دروازه دو طرفه چند شاخه ای (BiGRU) و یک مدل میدان تصادفی شرطی (CRF) است. در یک فرآیند سرتاسر و تحت نظارت، مدل پیشنهادی به طور خودکار ویژگی ها را توسط یک لایه GRU دو طرفه چند شاخه ای یاد می گیرد و تبدیل می کند و خروجی را با یک لایه CRF افزایش می دهد. علاوه بر مدل عمیق و چند شاخه ای BiGRU-CRF، ما همچنین یک روش ساخت پیکره مبتنی بر الگو را برای ساخت پیکره مورد نیاز برای مدل عمیق و چند شاخه ای BiGRU-CRF پیشنهاد کردیم. نتایج تجربی نشان داد که مدل عمیق و چند شاخه ای پیشنهادی BiGRU-CRF از مدل های پیشرفته بهتر عمل می کند. مدل BiGRU-CRF عمیق و چند شاخه ای پیشنهادی یک نمودار دانش ادبیات خطرات زمین شناسی در مقیاس بزرگ شامل 34457 گره موجودیت و 84561 رابطه ایجاد کرد. ما همچنین یک روش ساخت پیکره مبتنی بر الگو را برای ساخت پیکره مورد نیاز برای مدل عمیق و چند شاخه ای BiGRU-CRF پیشنهاد کردیم. نتایج تجربی نشان داد که مدل عمیق و چند شاخه ای پیشنهادی BiGRU-CRF از مدل های پیشرفته بهتر عمل می کند. مدل BiGRU-CRF عمیق و چند شاخه ای پیشنهادی یک نمودار دانش ادبیات خطرات زمین شناسی در مقیاس بزرگ شامل 34457 گره موجودیت و 84561 رابطه ایجاد کرد. ما همچنین یک روش ساخت پیکره مبتنی بر الگو را برای ساخت پیکره مورد نیاز برای مدل عمیق و چند شاخه ای BiGRU-CRF پیشنهاد کردیم. نتایج تجربی نشان داد که مدل عمیق و چند شاخه ای پیشنهادی BiGRU-CRF از مدل های پیشرفته بهتر عمل می کند. مدل BiGRU-CRF عمیق و چند شاخه ای پیشنهادی یک نمودار دانش ادبیات خطرات زمین شناسی در مقیاس بزرگ شامل 34457 گره موجودیت و 84561 رابطه ایجاد کرد.

کلید واژه ها:

شناسایی نهاد نامگذاری شده نمودار دانش ; یادگیری عمیق ؛ خطرات زمین شناسی

1. معرفی

نمودارهای دانش ادبیات خطرات زمین شناسی می تواند استفاده مجدد از ادبیات خطرات زمین شناسی را تسهیل کند و مرجعی برای کاهش خطرات زمین شناسی ارائه دهد. ادبیات قابل توجهی در رابطه با تحقیقات خطرات زمین شناسی در پلت فرم دانشگاهی Wanfang (پایگاه داده Wanfang) وجود دارد و خواندن همه این مقالات برای محققان برای یافتن اطلاعات مورد نیاز دشوار است. استفاده از روش‌های یادگیری ماشین برای شناسایی موجودیت‌های نام‌برده از ادبیات مرتبط با خطرات زمین‌شناسی و ساخت یک نمودار دانش می‌تواند استفاده مجدد از ادبیات را تا حد زیادی افزایش دهد و کارایی و راحتی را در تحقیق و مدیریت خطرات زمین‌شناسی افزایش دهد.
شناسایی موجودیت نامگذاری شده (NER) یک فناوری برای طبقه بندی ذکر موجودیت ها در متن بدون ساختار به دسته های از پیش تعریف شده است. موجودیت‌های نام‌گذاری شده در ادبیات خطرات زمین‌شناسی از نظر شکل متنوع، از نظر معنایی مبهم و در زمینه نامشخص هستند. موجودات نامگذاری شده در ادبیات خطرات زمین شناسی اشکال متنوعی دارند. به عنوان مثال، لس آنجلس، شهر لس آنجلس و لس آنجلس، عبارات مختلفی از نام مکان یکسان هستند. موجودات نامگذاری شده در ادبیات خطرات زمین شناسی معنایی مبهم دارند. به عنوان مثال، اردن یک کشور عربی به نام پادشاهی هاشمی اردن در غرب آسیا است، اما به یک بسکتبالیست معروف به نام مایکل جردن نیز بسته به زمینه اشاره دارد. علاوه بر این، موجودیت‌های نام‌گذاری شده در ادبیات خطرات زمین‌شناسی زمینه نامشخصی دارند. زمینه همان موجودیت یکسان نیست. مثلا، عبارت قبل از “لس آنجلس” می تواند عبارت “واقع در” یا “نزدیک” باشد. بنابراین، طراحی ویژگی‌ها با دقت کامل چالش برانگیز است، که تشخیص موجودیت‌های نام‌گذاری شده را دشوار و به طور بالقوه بی‌اثر می‌کند.
با تمرکز بر مشکلات فوق، در این مقاله، ما یک روش مبتنی بر یادگیری عمیق را پیشنهاد می‌کنیم. یعنی، مدل عمیق، چند شاخه ای BiGRU-CRF، برای NER از ادبیات خطر زمین شناسی موجودات نامگذاری شده است. مدل BiGRU-CRF عمیق و چند شاخه ای پیشنهادی یک لایه BiGRU چند شاخه و یک مدل CRF را ترکیب می کند. با توجه به اینکه موجودات نام‌گذاری‌شده در ادبیات خطرات زمین‌شناسی از نظر شکل متنوع هستند، ما از اطلاعات بافت موجودات نام‌برده در کل جمله برای کمک به پیش‌بینی موجودات نام‌برده استفاده کردیم. با توجه به اینکه موجودیت‌های نام‌گذاری شده در ادبیات خطر زمین‌شناسی در معناشناسی مبهم هستند، ما یک ساختار چند شاخه‌ای را برای استخراج سطوح مختلف اطلاعات معنایی و استفاده از مکانیسم توجه [ 1 ] و ساختار باقی‌مانده [ 2 ] پیشنهاد می‌کنیم.] برای افزایش ویژگی از هر شاخه با اعماق مختلف. با توجه به اینکه موجودیت‌های نام‌گذاری‌شده در ادبیات خطر زمین‌شناسی در زمینه نامشخص هستند، ما از لایه‌های BiGRU برای استخراج ویژگی‌های زمینه‌ای موجودیت‌های نام‌برده در هر دو جهت رو به جلو و معکوس استفاده می‌کنیم. با این حال، از آنجایی که خود توالی تگ ها نیز محدود هستند، لایه BiGRU چند شاخه ای این وابستگی ها را به خوبی یاد نمی گیرد. بنابراین، یک لایه CRF در بالای لایه GRU چند طرفه اضافه کردیم. مدل CRF برای محدود کردن بیشتر برچسب‌ها با اطلاعات زمینه در مراحل مختلف زمانی و در نهایت برای خروجی برچسب‌های بهینه شده از نویسه‌های چینی مشاهده شده در حال حاضر استفاده می‌شود.
علاوه بر مدل عمیق و چند شاخه ای BiGRU-CRF، ما یک روش ساخت پیکره مبتنی بر الگو را برای ساخت پیکره مورد نیاز برای مدل عمیق و چند شاخه ای BiGRU-CRF پیشنهاد کردیم. در روش ساخت پیکره مبتنی بر الگو، ابتدا تعداد زیادی بذر را به‌طور خودکار توسط برخی از الگوهای طراحی شده به‌صورت دستی به‌دست آوردیم و سپس از دانه‌ها در حجم زیادی از ادبیات تحقیقاتی خطرات زمین‌شناسی برای ساخت یک پیکره خطر زمین‌شناسی در مقیاس بزرگ NER با استفاده از نسخه پشتیبان تهیه کردیم. یک روش تطبیق حداکثر رو به جلو (MFM).
مدل NER پیشنهادی به دقت متوسط ​​0.9413، میانگین نرخ فراخوان 0.9425 و میانگین امتیاز F1 94.19 دست یافت. مدل BiGRU-CRF عمیق و چند شاخه ای پیشنهادی یک نمودار دانش ادبیات خطرات زمین شناسی در مقیاس بزرگ شامل 34457 گره موجودیت و 84561 رابطه ایجاد کرد.
سهم اصلی روش پیشنهادی به شرح زیر است:
  • تا جایی که ما می دانیم، این اولین کاری است که از تکنیک NER برای استخراج موجودیت های نامگذاری شده و ایجاد یک نمودار دانش برای ادبیات خطرات زمین شناسی استفاده می کند.
  • این مقاله یک مدل NER مبتنی بر یادگیری عمیق را پیشنهاد می‌کند که یک لایه BiGRU چند شاخه و یک مدل CRF را برای خطر زمین‌شناسی NER ترکیب می‌کند. این مدل از ساختار چند شاخه ای استفاده می کند. هر شاخه شامل یک لایه BiGRU با اعماق مختلف برای استخراج سطوح مختلف ویژگی‌ها است و سپس ویژگی‌های اولیه را با استفاده از مکانیسم توجه و ساختار باقیمانده افزایش می‌دهد.
  • این مقاله یک روش مبتنی بر الگو را برای ساخت یک مجموعه خطرات زمین‌شناسی در مقیاس بزرگ NER با هزینه‌های دستی کم پیشنهاد می‌کند.
بقیه این مقاله به شرح زیر سازماندهی شده است. بخش 2 کارهای مرتبط را نشان می دهد. بخش 3 مقدمات را نشان می دهد. بخش 4 رویکرد ما را معرفی می کند و بخش 5 پیاده سازی را ارائه می دهد. بخش 6 نتایج تجربی را خلاصه می کند. بخش 7 مقاله را مورد بحث قرار می دهد و بخش 8 مقاله را به پایان می رساند.

2. کارهای مرتبط

با توسعه روش‌های آماری یادگیری ماشینی و فناوری پردازش زبان طبیعی، در سال‌های اخیر، بسیاری از محققان و مؤسسات شروع به مطالعه نحوه استفاده از فناوری پردازش زبان طبیعی (NLP) برای استخراج دانش و ساخت نمودار دانش از علوم زمین‌شناسی کرده‌اند. ادبیات.
زو و همکاران [ 4 ] استخراج دانش را بر روی تعداد زیادی از متون خطرات زمین‌شناسی و داده‌های باز مرتبط (LOD) [ 5 ] انجام داد و یک نمودار دانش ساخت. به طور خاص، TextRank [ 6الگوریتم ] ابتدا برای استخراج کلمات کلیدی ادبیات استفاده شد و موجودیت های حوزه زمین شناسی با ترکیب ورودی داده های پیوند باز (مانند دایره المعارف بایدو، دایره المعارف تعاملی و ویکی پدیا) و کلمات کلیدی استخراج شده به دست آمد. بر این اساس از الگوریتم قانون کلید برای به دست آوردن رابطه و ساخت نقشه دانش زمین شناسی استفاده شد. این روش استفاده از کاتالوگ ورودی LOD (دانشنامه بایدو، دایره المعارف تعاملی، و ویکی پدیا) برای به دست آوردن موجودیت های حوزه زمین شناسی مرتبط، راهگشا بود. با این حال، این روش فقط می تواند موجودیت هایی را دریافت کند که قبلاً در پایگاه دانش دایره المعارف و LOD گنجانده شده اند. پوشش دانش زمین شناسی موجود در دایره المعارف های عمومی فعلی (دانشنامه بایدو، دایره المعارف تعاملی و ویکی پدیا) اندک است. از این رو،
به منظور استخراج بهتر دانش از ادبیات بدون ساختار علم زمین، وانگ و همکاران. [ 7 ] یک گردش کار برای استخراج دانش و ساخت نمودار دانش برای ادبیات علوم زمین طراحی کرد. ابتدا یک پیکره حاوی پیکره دامنه و پیکره دامنه عمومی برای تقسیم بندی کلمات ساخته شد. ثانیاً، بر اساس این پیکره، یک مدل تقسیم‌بندی کلمه با استفاده از میدان تصادفی شرطی (CRF) آموزش داده شد [ 8 ]. سپس از این مدل برای تقسیم بندی ادبیات استفاده کردند. در نهایت، از روش TF-IDF [ 9 ، 10 ] برای استخراج کلمات کلیدی ادبیات استفاده شد و کلمات کلیدی با روابط همزمانی نسبتاً بزرگ برای تشکیل یک نمودار دانش به هم متصل شدند. شی و همکاران [ 11] همچنین از TF-IDF برای استخراج کلمات کلیدی برای ساخت یک نمودار دانش استفاده کرد. با این حال، بر خلاف وانگ و همکاران. [ 7 ]، شی و همکاران. [ 11 ] یک طبقه‌بندی‌کننده مبتنی بر CNN را آموزش داد که به‌طور خودکار ادبیات علوم زمین را به چهار دسته (ژئوفیزیک، زمین‌شناسی، سنجش از دور، و ژئوشیمی) تقسیم می‌کند و سپس نمودار دانش مربوطه را می‌سازد.
این روش‌ها الهام‌بخش زیادی برای استخراج دانش و ساخت نمودار دانش در ادبیات زمین‌شناسی به ارمغان آورده‌اند، اما کاستی‌هایی نیز وجود دارد که ارزش بهبود دارد. این روش ها از روش های تجزیه و تحلیل آماری برای استخراج کلمات کلیدی، کلمات با بسامد بالا و غیره به جای موجودیت ها به عنوان گره در نمودار دانش خود استفاده می کنند. با این وجود، اغلب، برای تجزیه و تحلیل و درک بهتر ادبیات بلایای زمین شناسی، ما باید موجوداتی را در ادبیات استخراج کنیم که مقوله ها و معانی خاصی مانند روش ها، داده ها و غیره را نشان می دهند.
NER وظیفه شناسایی یک موجودیت نامگذاری شده در متن و طبقه بندی آن به یک دسته مشخص است [ 12 ]. NER اولین بار در ماموریت MUC [ 12 ] در دهه 1980 پیشنهاد شد و موضوع داغ در تحقیقات پردازش زبان طبیعی بوده است.
برخی از مطالعات با روش های متن کاوی شروع می شوند و قوانین خاصی را برای NER ایجاد می کنند. این روش ها استراتژی بوت استرپینگ را برای استخراج موجودیت های دسته های مشخص شده از وب اتخاذ می کنند. کار نماینده شامل سیستم TextRunner [ 13 ]، سیستم Snowball [ 14 ] و سیستم CasSys [ 15 ] است. نقطه ضعف این روش ها این است که تکرار بوت استرپینگ، نمونه های نویز و الگوهای نویز را معرفی می کند و در نتیجه نتایج ضعیفی به همراه دارد.
از دهه 1990، مدل های آماری روش اصلی برای NER بوده است. تعدادی روش آماری [ 16 ، 17 ] برای استخراج موجودیت ها از متن استفاده می شود، مانند مدل حداکثر آنتروپی (ME) [ 18 ، 19 ، 20 ]، ماشین های بردار پشتیبان (SVM) [ 21 ، 22 ، 23 ، 24 ]، مدل مارکوف پنهان (HMM) [ 25 ، 26 ، 27 ]، مدل CRF [ 28 ، 29 ، 30] و غیره. روش‌های مبتنی بر مدل آماری معمولاً وظایف شناسایی موجودیت را از متن ورودی برای پیش‌بینی ساختارهای هدف خاص رسمی می‌کنند، از مدل‌های آماری برای مدل‌سازی ارتباط بین ورودی و خروجی استفاده می‌کنند و از روش‌های یادگیری ماشین برای یادگیری پارامترهای مدل استفاده می‌کنند.
با عملکرد عالی یادگیری عمیق در زمینه های مختلف، مدل های یادگیری عمیق بیشتری برای حل مشکل NER ارائه شده است. در حال حاضر، دو معماری یادگیری عمیق معمولی برای NER وجود دارد. اولین مورد، معماری NN-CRF [ 31 ، 32 ، 33 ، 34 ] است که در آن از CNN/RNN ها برای یادگیری نمایش برداری در هر موقعیت کلمه استفاده می شود. بر اساس نمایش برداری، لایه CRF بهترین برچسب را در آن مکان رمزگشایی می کند. دومی ایده طبقه‌بندی پنجره‌های کشویی را اتخاذ می‌کند، از شبکه‌های عصبی برای یادگیری نمایش هر n-گرم در جمله استفاده می‌کند، و سپس پیش‌بینی می‌کند که آیا n-gram یک موجودیت هدف است [ 35 ، 36 ، 37 ]]. در مقایسه با مدل آماری سنتی، مزیت اصلی روش یادگیری عمیق این است که آموزش آن یک فرآیند پایان به پایان است، بدون نیاز به طراحی دستی ویژگی‌های مرتبط. علاوه بر این، یادگیری عمیق یادگیری یک نمایش خاص از کار را تسهیل می کند. با یادگیری همبستگی اطلاعات بین روش‌های مختلف، انواع مختلف و محیط‌های زبانی، می‌توان به عملکرد بهتری در تشخیص موجودیت دست یافت.
این روش‌های NER مرجع مفیدی برای وظایف NER در علوم زمین فراهم می‌کنند. سبحنا و همکاران [ 38 ] ابتدا از مدل CRF ترکیب شده با برخی ویژگی های طراحی شده دستی (مانند پیشوندها و پسوندهای کلمات) برای استخراج 17 نوع موجودیت مرتبط با علم زمین از متون علم زمین استفاده کرد. با توجه به اینکه موجودیت‌های نام‌گذاری شده در ادبیات خطرات زمین‌شناسی از نظر شکل متنوع و در زمینه پیچیده هستند، طراحی ویژگی‌های عملی چالش برانگیز است که در نتیجه عملکرد ضعیف مدل‌های CRF که بر ویژگی‌های طراحی دستی تکیه دارند، می‌شود.
با الهام از معماری NN-CRF بالا [ 31 ، 32 ، 33 ، 34 ]، در این مقاله، ما یک روش مبتنی بر یادگیری عمیق را پیشنهاد می کنیم. یعنی، مدل عمیق، چند شاخه ای BiGRU-CRF، برای NER از ادبیات خطر زمین شناسی موجودات نامگذاری شده است. مدل BiGRU-CRF عمیق و چند شاخه ای پیشنهادی یک لایه BiGRU چند شاخه و یک مدل CRF را ترکیب می کند. ساختار چند شاخه ای مکانیزم توجه و ساختار باقیمانده را ترکیب می کند که می تواند اعماق و سطوح مختلف ویژگی ها را بیاموزد. شبکه BiGRU می تواند اطلاعات زمینه موجودیت های نامگذاری شده را از هر دو جهت رو به جلو و معکوس بدست آورد. مدل CRF می‌تواند نتایج پیش‌بینی را بر اساس وابستگی‌های بین برچسب‌ها بیشتر بهینه کند.

3. مقدمات

در مدل عمیق و چند شاخه ای BiGRU-CRF برای خطر زمین شناسی NER، از دو مدل پرکاربرد GRU و CRF استفاده می کنیم. آنها در بخش مقدماتی معرفی می شوند.

3.1. GRU

از آنجایی که یک شبکه عصبی بازگشتی (RNN) [ 39 ، 40 ] وابستگی های دوربرد را به خوبی مدیریت نمی کند، یک شبکه حافظه کوتاه مدت بلند مدت (LSTM) [ 41 ، 42 ، 43 ] پیشنهاد شده است. GRU [ 44 ]، که در شکل 1 دیده می شود  ، نوعی از LSTM است. GRU اثرات LSTM را حفظ می‌کند و در عین حال ساختار را ساده‌تر می‌کند، و در بسیاری از وظایف پردازش زبان طبیعی، تجزیه و تحلیل توالی، پردازش تصویر و غیره کاربردهای گسترده‌ای دارد [ 45 ، 46 ، 47 ].
مدل GRU فقط دو گیت دارد، گیت آپدیت و گیت ریست. برای مثال، zتیو rتیدر شکل 1 . دروازه به روز رسانی برای کنترل درجه ای که اطلاعات وضعیت لحظه قبل به وضعیت فعلی آورده می شود استفاده می شود. هرچه مقدار گیت به‌روزرسانی بزرگ‌تر باشد، اطلاعات وضعیت لحظه قبلی بیشتر وارد می‌شود. دروازه تنظیم مجدد برای کنترل میزان نادیده گرفتن یا فراموش شدن اطلاعات وضعیت لحظه قبلی استفاده می‌شود. هر چه مقدار گیت تنظیم مجدد کمتر باشد، اطلاعات لحظه قبل بیشتر نادیده گرفته می شود. گیت بازنشانی به گرفتن وابستگی های کوتاه مدت در داده های سری زمانی کمک می کند، در حالی که گیت به روز رسانی به گرفتن وابستگی های بلند مدت در داده های سری زمانی کمک می کند [ 42 ، 45 ، 48 ، 49 ، 50 ].

گیت ریست rتیو گیت آپدیت zتیبه صورت زیر تعریف می شوند:

rتی=σدبلیوایکسrایکستی+دبلیوساعتrساعتتی-1+بr
zتی=σدبلیوایکسzایکستی+دبلیوساعتzساعتتی-1+بz،

جایی که σتابع فعال سازی سیگموئید [ 51 ] است. ساعتتیحالت ضمنی را نشان می دهد و به صورت زیر تعریف می شود:

ساعتتی=zتی⊙ساعتتی-1+1-zتی⊙ساعت˜تی

که در آن ⊙ عملگر محصول عنصر دو بردار و ساعت˜تیحالت ضمنی نامزد را نشان می دهد و به صورت زیر تعریف می شود:

ساعت˜تی=tanhدبلیوایکسساعتایکستی+دبلیوساعتساعتrتی⊙ساعتتی-1+بساعت.
کاندیدا به حالت ضمنی اشاره کرد ساعت˜تیاز گیت ریست استفاده می کند rتیبرای کنترل جریان آخرین حالت ضمنی ساعت˜تی-1حاوی اطلاعات زمان گذشته اگر مقدار گیت ریست rتیبه یک مقدار بسته به 0، آخرین حالت ضمنی همگرا می شود ساعت˜تی-1دور انداخته خواهد شد. بنابراین، گیت تنظیم مجدد rتیمکانیزمی را برای کنار گذاشتن حالت های ضمنی گذشته که به آینده مرتبط نیستند، ارائه می دهد. یعنی گیت ریست rتیتعیین می کند چه مقدار اطلاعات در گذشته باقی مانده است. حالت ضمنی ساعتتیاز گیت آپدیت استفاده می کند zتیبرای به روز رسانی آخرین حالت ضمنی ساعتتی-1و نامزد ضمنی حالت. به روز رسانی گیت می تواند اهمیت حالت ضمنی گذشته را در لحظه فعلی کنترل کند. اگر مقدار گیت به‌روزرسانی همیشه به مقدار بسته به 1 همگرا شود، حالت ضمنی گذشته در طول زمان ذخیره می‌شود و به زمان فعلی منتقل می‌شود. این طرح می‌تواند با مشکل گرادیان ناپدید شدن [ 52 ، 53 ] در شبکه عصبی بازگشتی مقابله کند و وابستگی‌های بازه‌ای بزرگ در داده‌های سری زمانی را بهتر به تصویر بکشد.

3.2. CRF

مدل CRF یک مدل یادگیری گراف با احتمال متمایز و بدون جهت است که توسط لافرتی [ 8 ] بر اساس مدل حداکثر آنتروپی [ 54 ] و مدل مارکوف پنهان [ 55 ] پیشنهاد شده است. CRF برای اولین بار برای تجزیه و تحلیل داده های توالی پیشنهاد شد و با موفقیت در زمینه های پردازش زبان طبیعی (NLP)، بیوانفورماتیک، بینایی ماشین و هوش شبکه استفاده شد [ 56 ، 57 ، 58 ، 59 ].

اجازه دهید جی=(V،E)یک گراف بدون جهت باشد، که در آن V مجموعه گره ها و E مجموعه یال ها است، و اجازه دهید Y=Yv|v∈Vمجموعه ای از متغیرهای تصادفی باشد Yvایندکس شده توسط گره v در V. با توجه به شرط X ، اگر هر متغیر تصادفی باشد Yvاز ویژگی مارکوف پیروی می کند:

پ(Yv|ایکس،Yتو،تو≠v)=پ(Yv|ایکس،Yتو،تو∼v)،

سپس (ایکس،Y)یک CRF را تشکیل می دهد که X نشان دهنده دنباله مشاهده شده و تو∼vنشان دهنده تمام گره های همسایه u است که توسط گره v در نمودار G متصل شده اند .

زنجیره خطی-CRF

زنجیره خطی-CRF [ 60 ]، همانطور که در شکل 2 نشان داده شده است، شکل رایج مدل CRF هستند. اجازه دهید  ایکس=ایکس1،ایکس2،⋯،ایکسnتوالی مشاهده را نشان می دهد و y=y1،y2،⋯،ynمجموعه ای از حالات متناهی باشد، طبق نظریه پایه میدان تصادفی:

پ(Y=y|ایکس)=1ز(ایکس)انقضا∑کλک∑من=1n-1تیک(yمن+1،yمن،ایکس،من)+∑لμل∑من=1nسل(yمن،ایکس،من)
ز(ایکس)=∑yانقضا∑کλک∑من=1n-1تیک(yمن+1،yمن،ایکس،من)+∑لμل∑من=1nسل(yمن،ایکس،من)

که در آن اصطلاحات به شرح زیر تعریف می شوند:

تیکyمن+1،yمن،ایکس،من: انتقال تابع مشخصه بین موقعیت های علامت گذاری شده i و من+1از دنباله مشاهده شده برای مشخص کردن همبستگی بین حالات محدود مجاور و تأثیر دنباله‌های مشاهده بر روی آنها استفاده می‌شود.
λک: وزن تابع مشخصه انتقال تیکyمن+1،yمن،ایکس،من.
سلyمن،ایکس،من: تابع ویژگی دنباله مشاهده شده را در موقعیت i بیان کنید. برای مشخص کردن تأثیر دنباله‌های مشاهده بر حالت‌های محدود استفاده می‌شود.
μل: وزن تابع ویژگی حالت سلyمن،ایکس،من.
ز(ایکس): یک عامل عادی سازی که برای اطمینان از اینکه فرمول ( 6 ) یک احتمال به درستی تعریف شده است استفاده می شود.

4. روش های پیشنهادی

در این بخش روش پیشنهادی به تفصیل معرفی شده است. هدف روش پیشنهادی استخراج موجودیت‌های با نام خطر زمین‌شناسی از بدنه قابل‌توجهی از ادبیات خطرات زمین‌شناسی و ساخت یک نمودار دانش خطرات زمین‌شناسی است.
در این مقاله، ما یک مدل NER خطر زمین‌شناسی را بر اساس روش یادگیری عمیق پیشنهاد می‌کنیم. یعنی مدل عمیق و چند شاخه ای BiGRU-CRF، برای استخراج مخاطرات زمین شناسی موجودات نامگذاری شده و ساخت یک نمودار دانش. از آنجایی که مدل پیشنهادی یک مدل نظارت شده است که به یک پیکره مشروح نیاز دارد، ما یک روش ساخت پیکره مبتنی بر الگو را برای ارائه یک پیکره برای مدل عمیق و چند شاخه‌ای BiGRU-CRF پیشنهاد می‌کنیم. روش پیشنهادی در دو بخش ارائه شده است: ساخت پیکره مبتنی بر الگو و مدل عمیق و چند شاخه ای BiGRU-CRF برای NER.
  • ساخت پیکره مبتنی بر الگو. با توجه به اسناد ادبی اف={f1،f2،…،fن}جایی که fnn∈1،نسند n-ام است و پآتیتیهrnس پ={پمتر،پل،پد}جایی که پمتر، پل، پدالگوهایی برای مترهتیساعتoدس، لoجآتیمنon، و دآتیآ، به ترتیب. هدف روش ساخت پیکره مبتنی بر الگو ساختن یک نهاد با نام پیکره C است.
  • مدل عمیق و چند شاخه ای BiGRU-CRF برای NER. با توجه به اسناد ادبی اف={f1،f2،…،fن}جایی که fnn∈1،ننهمین سند و نهاد نامگذاری شده C است، مدل عمیق و چند شاخه ای BiGRU-CRF پیشنهادی با هدف استخراج مترهتیساعتoدس لoجآتیمنon، و دآتیآموجودیت هایی از F و یک نمودار دانش G می سازد.

4.1. ساخت بدنه مبتنی بر الگو

ساخت بدنه مبتنی بر الگو را می توان به سه مرحله تقسیم کرد. ابتدا سه موجودیت نامگذاری شده را که می خواهیم استخراج کنیم تعریف می کنیم. سپس پآتیتیهrnس پ={پمتر،پل،و پد}برای بدست آوردن بذر موجودیت نامگذاری شده از ادبیات خطرات زمین شناسی استفاده می شود اف={f1،f2،…،fن}. در نهایت، از حداکثر روش تطبیق رو به جلو (MFM) برای نقشه برداری از دانه ها استفاده می شود مهتیساعتoدساسههدس م={متر1،متر2،…،مترمن}، Loجآتیمنonاسههدس L={ل1،ل2،…،لجی}، Dآتیآاسههدس D={د1،د2،…،دک}به ادبیات برای برچسب زدن. تا آن زمان یک خطر زمین شناسی به نام نهاد C ساخته می شود. در ادامه این سه قسمت را به تفصیل معرفی می کنیم.

4.1.1. تعریف موجودات نامگذاری شده در ادبیات خطر زمین شناسی

وظایف NER در MUC-7 تعریف شده‌اند، که در آن موجودیت‌های نام‌گذاری‌شده به عنوان نام‌های مناسب و کمیت‌های مورد علاقه تعریف می‌شوند [ 12 ، 17 ]. نهادهای نامگذاری شده شامل نام افراد، نام مکان، و نام سازمان، و زمان، تاریخ، مبالغ و درصد است. در میان آنها، متداول‌ترین موجودیت‌های نام‌گذاری شده، نام افراد، نام مکان، و نام سازمان هستند [ 17 ، 61 ].
برای تحقیقات ادبیات خطرات زمین‌شناسی، سه نهاد نام‌گذاری شده در ادبیات پیشنهاد شده عبارتند از روش‌ها، داده‌های مورد استفاده، و توصیف مناطق و مکان‌ها. هنگام مطالعه ادبیات خطرات زمین‌شناسی، محققان معمولاً به منطقه مورد مطالعه، روش‌های پیشنهادی و داده‌های مورد استفاده اهمیت می‌دهند. اکثر مقالات به طور کلی دارای سه بخش (روش شناسی، داده ها و حوزه مطالعه) هستند که با سه نهاد نام برده شده در بالا مطابقت دارند. این موجودات مهمترین نقش را در درک، تحقیق و استفاده مجدد از ادبیات خطرات زمین شناسی دارند. این مقاله بر استخراج سه نوع موجودیت نامگذاری شده فوق تمرکز دارد: مترهتیساعتoدس، دآتیآ، و لoجآتیمنon. جدول 1 جزئیات این موجودیت ها را نشان می دهد.
4.1.2. اکتساب بذر مبتنی بر الگو
با توجه به سه موجودیت نامگذاری شده در بالا ( مترهتیساعتoدس، لoجآتیمنon، و دآتیآ)، این موجودیت ها را در این قسمت استخراج می کنیم و مجموعه seed موجودیت را می سازیم مهتیساعتoدساسههدس م={متر1،متر2،…،مترمن}، Loجآتیمنonاسههدس L={ل1،ل2،…،لجی}و Dآتیآاسههدس D={د1،د2،…،دک}.
با توجه به اینکه اغلب قوانین خاصی در بین موجودات نامگذاری شده مخاطرات زمین شناسی وجود دارد، کشف این قوانین و طراحی الگوهای مرتبط می تواند به ما در استخراج این موجودات نام برده کمک کند. بنابراین، ما یک روش اکتساب بذر مبتنی بر الگو را برای به دست آوردن این دانه های موجودیت نامگذاری شده طراحی کرده ایم. به صورت دستی تعریف شده است پآتیتیهrnس پ={پمتر،پل،و پد}، جایی که پمتر، پل، پدالگوهایی برای مترهتیساعتoدس، لoجآتیمنon، و دآتیآبه ترتیب در جدول 2 نشان داده شده است :

ما از این الگوها (عبارات منظم) برای مطابقت با جملات استفاده می کنیم اس={س1،س2،…،ساچ}در ادبیات F از مقالات در پایگاه داده Wanfang ( https://www.wanfangdata.com.cn ). کلماتی که با آن الگوها مطابقت دارند (عبارات منظم) P دانه های موجودیتی هستند که می خواهیم استخراج کنیم. پس از آن، به طور تصادفی 2000 دانه موجودیت را انتخاب می کنیم و به صورت دستی دانه های موجودیت را بررسی می کنیم تا دقت را با معادله زیر محاسبه کنیم:

آججتوrآجy=nجn،

جایی که nجتعداد دانه‌های موجودیت صحیح و n نشان‌دهنده تعداد کل دانه‌های موجودیت است. نتایج در جدول 3 نشان داده شده است. پس از بررسی دستی، همه موجودیت‌های صحیح مجموعه‌های دانه موجودیت را تشکیل می‌دهند م={متر1،متر2،…،مترمن}، L={ل1،ل2،…،لجی}، و D={د1،د2،…،دک}.

4.1.3. MFM برای ساخت و ساز بدنه
با توجه به سه نوع مجموعه بذر موجودیت در بالا ( م={متر1،متر2،…،مترمن}، L={ل1،ل2،…،لجی}، و D={د1،د2،…،دک}) و جملات اس={س1،س2،…،ساچ}، روش MFM نشان داده شده در الگوریتم 1 برای ساخت خودکار خطرات زمین شناسی به نام موجودیت C در قالبی مبتنی بر کاراکتر به نام قالب IOB [ 31 ] استفاده می شود، که در آن “B” کاراکتر شروع یک موجودیت را نشان می دهد، “I” نشان دهنده کاراکترهای میانی و کاراکتر پایانی یک موجودیت، و “O” نشان می دهد که کاراکتر بخشی از موجودیت نیست [ 62 ]. جدول 4 تصویری از فرمت IOB را نشان می دهد. ما هفت نوع تگ را تعریف کردیم (“O”، “B-MED”، “I-MED”، “B-DAT”، “I-DAT”، “B-LDS” و “I-LDS”). جدول 1 را ببینید .
روش MFM نشان داده شده در الگوریتم 1 شامل شش مرحله است:
(1)
عناصر موجود در مجموعه seed موجودیت را مرتب کنید م={متر1،متر2،…،مترمن}، L={ل1،ل2،…،لجی}و D={د1،د2،…،دک}به طور جداگانه به ترتیب کاهش با توجه به طول.
(2)
مجموعه بدنه C را به یک مجموعه خالی مقدار دهی اولیه کنید.
(3)
برای هر جمله اسساعتساعت∈1،اچکه در اس={س1،س2،…،ساچ}، دانه ها را در مجموعه دانه های M ، L و D جستجو کنید. اگر دانه ای وجود دارد که توسط اسساعتو بدون برچسب است، سپس کلمات حاوی دانه را در برچسب گذاری کنید اسساعتبا تگ های موجودیت مربوطه
(4)
پس از عبور از تمام مجموعه های دانه M ، L ، و D ، کلمات بدون برچسب باقی مانده در اسساعتبه عنوان “O” برچسب گذاری شده اند.
(5)
برچسب را اضافه کنید اسساعتبه مجموعه پیکره C.
(6)
وقتی بدون برچسب وجود ندارد اسساعتدر S ، برنامه به پایان می رسد و مجموعه مجموعه C را برمی گرداند .
الگوریتم 1 MFM
ورودی: اسهnتیهnجهس اس={س1،س2،…،ساچ}، مهتیساعتoدساسههدس م={متر1،متر2،…،مترمن}، Loجآتیمنonاسههدس L={ل1،ل2،…،لجی}، Dآتیآاسههدس D={د1،د2،…،دک}
خروجی: سیorپتوساسهتیسی

1:
عملکرد MFM ( اس،م،L،D)
2:
  سی←⌀
3:
 عناصر را در M، L، D به ترتیب کاهش بر اساس طول به طور جداگانه مرتب کنید.
4:
برای ساعت=1به انجام دهید
5:
  برای من=1به من انجام دهم
6:
   اگر ممنکه در اسساعت، و شخصیت های ممنپس بدون برچسب هستند
7:
    برچسب “B-MED” در کاراکتر اول و “I-MED” در کاراکترهای باقی مانده از ممنکه در اسساعت.
8:
   پایان اگر
9:
  پایان برای
10:
  برای j=1به انجام دهید
11:
   اگر Ljکه در اسساعت، و شخصیت های Ljپس بدون برچسب هستند
12:
    برچسب “B-LDS” در کاراکتر اول و “I-LDS” در کاراکترهای باقی مانده از Ljکه در اسساعت.
13:
   پایان اگر
14:
  پایان برای
15:
  برای ک=1به انجام دهید
16:
   اگر Dککه در اسساعت، و شخصیت های Dکپس بدون برچسب هستند
17:
    برچسب “B-DAT” در اولین کاراکتر و “I-DAT” در کاراکترهای باقی مانده از Dککه در اسساعت.
18:
   پایان اگر
19:
  پایان برای
20:
  برچسب زدن کاراکترهای بدون برچسب در اسساعتبه عنوان “O.”
21:
   سی←اسساعت+سی
22:
پایان برای
23:
بازگشت C
24:
عملکرد پایانی

4.2. مدل BiGRU-CRF چند شاخه ای عمیق

با توجه به پیکره C ساخته شده در بالا، ما یک مدل مبتنی بر یادگیری عمیق به نام مدل عمیق و چند شاخه ای BiGRU-CRF پیشنهاد کردیم که شبکه های عصبی و CRF را برای خطر زمین شناسی NER ترکیب می کند. مدل در شکل 3 نشان داده شده استاز سه جزء تشکیل شده است که عبارتند از: لایه تعبیه، لایه BiGRU چند شاخه و لایه CRF. لایه embedding اولین لایه مدل است که کاراکترهای چینی را به بردارهای متراکم تبدیل کرده و به لایه BiGRU چند شاخه ای منتقل می کند. لایه BiGRU چند شاخه ای سطوح مختلف ویژگی ها را از طریق یک لایه BiGRU چند شاخه ای یاد می گیرد و این ویژگی ها را به لایه CRF منتقل می کند. لایه CRF نگاشت کاراکترها به برچسب ها و احتمال انتقال بین برچسب ها را بیشتر می کند و تگ های بهینه شده را به عنوان خروجی نهایی مدل پیشنهادی خروجی می دهد. در ادامه این سه لایه را به تفصیل معرفی می کنیم.

4.2.1. لایه جاسازی

با توجه به حروف چینی w1،w2،…،wnدر جمله اسمنبه عنوان ورودی، کجا اسمن∈اس={س1،س2،…،ساچ}اولین گام شبکه های عصبی عمیق اغلب اشاره به کلمات چینی گسسته در جملات به عنوان بردارهای پیوسته یا ماتریس است. به این مرحله embedding می گویند. ما از بردارهای تصادفی 100 بعدی استفاده می کنیم v1،v2،…،vnبه عنوان نمایش اولیه کاراکتر w1،w2،…،wn. v1،v2،…،vnرا می توان برای به دست آوردن نمایندگی بهتر آموزش داد.
به این ترتیب کاراکترهای ورودی w1،w2،…،wnبه عنوان بردارهای 100 بعدی تعبیه شده اند v1،v2،…،vn.
4.2.2. لایه BiGRU چند شاخه ای
خروجی v1،v2،…،vnلایه تعبیه شده از یک لایه BiGRU چند شاخه ای عبور می کند. برای هر شاخه تی∈1،2،⋯،n، n تعداد شاخه ها، خروجی است ساعتتی=ساعتتی→;ساعتتی←الحاق است ساعتتی→و ساعتتی←جایی که ساعتتی→و ساعتتی←نمایش جلو و معکوس از v1،v2،…،vnو با معادله ( 3 ) از دو جهت مختلف GRU قابل محاسبه است. از طریق این ترکیب از نمایش جلو و معکوس از v1،v2،…،vn، می‌توانیم محتوای متن شخصیت‌ها را کاملاً در نظر بگیریم و استخراج ویژگی را فراوان‌تر کنیم. در آزمایش، لایه BiGRU چند شاخه ما شامل سه شاخه با عمق های 1، 2 و 3 بود. تعداد زیادی از شاخه ها بار محاسباتی زیادی را به همراه دارند. تعداد بسیار کمی از شاخه ها نمی توانند به طور کامل چندین سطح از ویژگی ها را استخراج کنند. ما از سه شاخه با عمق های 1، 2 و 3 برای استخراج ویژگی های سطح پایین، متوسط ​​و سطح بالا استفاده می کنیم. ساعت1، ساعت2، و ساعت3. سپس از مکانیسم توجه برای وزن دادن به عناصر مربوطه استفاده می کنیم ساعت1، ساعت2، ساعت3برای به دست آوردن ماتریس ویژگی وزنی ساعت123=ساعت1⊗ساعت2⊗ساعت3، که در آن ⊗ نشان دهنده ضرب عناصر مربوطه ماتریس ویژگی است. سپس، ساختار باقیمانده برای اضافه کردن ماتریس ویژگی وزنی استفاده می شود ساعت123و ویژگی های سطح پایین ساعت1، به این معنا که، ساعت1⊕ساعت123، برای حل مشکل از بین رفتن گرادیان و مشکل در تمرین ناشی از افزایش تعداد لایه ها. ساعت=ساعت1⊕ساعت123=ساعت1⊕(ساعت1⊗ساعت2⊗ساعت3)خروجی لایه BiGRU چند شاخه ای است.
4.2.3. لایه CRF

المانها ساعتتیکه در ساعت، جایی که t نشان دهنده t-امین عنصر در است ساعت، کاملا مستقل نیستند. مثلاً وقتی ساعتتی”B-MED” است، احتمال ساعتتی+1بدیهی است که “I-MED” بودن بسیار بیشتر از احتمال “B-DAT” بودن است. بنابراین، به جای درمان ساعتبه طور مستقل، ما از یک لایه CRF برای مدل سازی رابطه بین استفاده می کنیم ساعتو نتایج بهبود یافته را دریافت کنید. لایه CRF برای محاسبه احتمال شرطی اضافه می شود پ(y|ساعت)با معادله ( 9 )، که در آن y=y1،y2،⋯yتینشان دهنده دنباله های برچسب است.

پ(y|ساعت;تی،س)=∏من=1تیهایکسپ(∑من=1تیتی(yمن-1،yمن،ساعت)+س(yمن،ساعت))∑y”∈γ(ساعت)∏من=1تیهایکسپ(∑من=1تیتی(yمن-1″،yمن”،ساعت)+س(yمن”،ساعت))

جایی که γنشان دهنده دنباله های همه برچسب های ممکن است، t نشان دهنده احتمال انتقال برای یک دنباله ورودی داده شده است. ساعتاز جانب yمن-1به yمنو s امتیاز انتشار انتقال از خروجی لایه BiGRU به yمندر مرحله زمانی I.

در نهایت، مدل با برآورد احتمال شرطی حداکثر [ 63 ] توسط معادله ( 10 ) آموزش داده می شود. دنباله ای که احتمال شرطی را فعال می کند پ(y|ساعت;تی،س)برای بدست آوردن حداکثر مقدار خروجی مدل است.

Loسستی،س=∑منتیورود به سیستمپ(y|ساعت;تی،س).

5. اجرا

در این مقاله، مدل چند شاخه ای BiGRU-CRF پیشنهادی از زبان برنامه نویسی پایتون (نسخه 3.6.3) استفاده کرد. کتابخانه یادگیری عمیق مورد استفاده TensorFlow-GPU (نسخه 1.13.1) بود. یک پردازنده گرافیکی NVIDIA Titan RTX استفاده شد. ما در هنگام به دست آوردن ادبیات تحقیقاتی خطرات زمین شناسی در پایگاه داده Wanfang از هیچ API باز استفاده نکردیم. ما از فناوری خزنده وب برای خزیدن عنوان و بخش انتزاعی پایان نامه های مربوط به بلایای زمین شناسی استفاده کردیم. خزنده از کتابخانه Scrapy استفاده کرد و یک فایل متنی را برگرداند که هر خط فقط حاوی عنوان و چکیده مقاله بود. نمودار دانش در پایگاه داده Neo4j ذخیره و تجسم شد.

6. نتایج تجربی

این بخش آمار پیکره ساخته شده با روش های مبتنی بر الگو، تنظیمات پارامترهای آموزش، نتایج مدل عمیق و چند شاخه ای BiGRU-CRF پیشنهادی و نمودار دانش ساخته شده در چهار قسمت زیر را نشان می دهد.

6.1. بدنه ساخته شده است

مجموعه به طور خودکار با روش ذکر شده در بخش 4.1 ساخته شده است که شامل 536426 کاراکتر، 4548 جمله و هفت نوع برچسب است که آمار دقیق آنها در جدول 5 نشان داده شده است. ما داده ها را به طور تصادفی به یک مجموعه آموزشی، یک مجموعه اعتبار سنجی و یک مجموعه آزمایشی با نسبت 8:1:1 تقسیم کردیم.

6.2. آموزش

برای همه مدل‌های ذکر شده، پارامترها را با استفاده از الگوریتم پس انتشار به‌روزرسانی می‌کنیم و از شیب نزولی تصادفی (SGD) برای بهینه‌سازی مدل خود استفاده می‌کنیم. مدل ما از سه لایه BiGRU پشته‌ای استفاده می‌کند که هر لایه حاوی یک GRU رو به جلو و یک GRU معکوس است، و تعداد نورون‌ها در هر GRU روی 100 تنظیم شده است. ما یک Dropout [ 64 ] بین لایه BiGRU و لایه CRF اضافه کردیم تا وضعیت را بهبود ببخشیم. اثربخشی مدل و جلوگیری از برازش بیش از حد. نرخ ترک تحصیل روی 0.5 تنظیم شد، زیرا نرخ‌های بالاتر تأثیر منفی بر نتایج ما داشت و نرخ‌های پایین‌تر منجر به زمان طولانی‌تر تمرین شد.

6.3. نتایج

ما از P (دقت)، R (نرخ یادآوری)، و F (امتیاز F1)، که معیارهای ارزیابی پرکاربرد [ 31 ، 32 ، 33 ، 34 ، 65 ] در NER هستند، برای ارزیابی سه مدل ذکر شده استفاده کردیم. هرچه سه معیار ارزیابی بزرگتر باشد، تأثیر مدل بهتر است. P، R و F را می توان با سه فرمول زیر محاسبه کرد:

پ=nپnتی
آر=nپnج
اف=2∗پrهجمنسمنon∗rهجآللپrهجمنسمنon+rهجآلل،

جایی که nپتعداد پیش بینی های مثبت واقعی را نشان می دهد. nتیکل پیش‌بینی‌های مثبت، از جمله درست و نادرست را نشان می‌دهد. و nجتعداد کل پیش‌بینی‌ها، اعم از مثبت و منفی را نشان می‌دهد.

نتیجه مدل NER ما در جدول 6 نشان داده شده است .
  • مدل CRF مدلی است که توسط سبحانا و همکاران ارائه شده است. [ 38 ]، با استفاده از CRF برای NER در علوم زمین. ما از روش CRF به عنوان معیار خود استفاده کردیم. همانطور که در جدول 6 مشاهده می شود ، مدل CRF در ابتدا می تواند این مخاطرات زمین شناسی را شناسایی کند و به دقت متوسط ​​0.8210، نرخ فراخوان 0.7765 و امتیاز F1 79.81 دست یابد.
  • مدل BiLSTM-CRF مدلی پیشرفته در وظایف فعلی NER است [ 31 ]. این یک لایه LSTM دو طرفه و یک لایه CRF در بالا دارد. همانطور که در جدول 6 مشاهده می شود ، مدل BiLSTM-CRF در مقایسه با مدل CRF با میانگین دقت 0.9205، میانگین نرخ فراخوان 0.9419 و میانگین امتیاز F1 93.10 دارای برتری قابل توجهی در همه شاخص ها است. این به طور کامل نشان داد که مدل BiLSTM-CRF پس از افزودن یک لایه LSTM دو طرفه قبل از لایه CRF، استخراج ویژگی کارآمدتر و توانایی تشخیص دقیق‌تری دارد.
  • مدل عمیق و چند شاخه ای BiGRU-CRF مدل پیشنهادی با یک لایه BiGRU سه شاخه بود که از سه شاخه لایه های BiGRU انباشته با عمق های 1، 2 و 3 به ترتیب و یک لایه CRF در بالای آن تشکیل شده بود. همانطور که در جدول 6 مشاهده می شود ، مدل عمیق و چند شاخه ای BiGRU-CRF تقریباً در همه شاخص ها (به جز نرخ فراخوانی روش ها) در مقایسه با مدل CRF و مدل BiLSTM-CRF در بالا، با میانگین، برتری قابل توجهی داشت. دقت 0.9413، میانگین نرخ فراخوان 0.9425 و میانگین امتیاز F1 94.19. این به طور کامل نشان داد که مدل پیشنهادی پس از افزودن سه شاخه از BiGRU با عمق‌های 1، 2 و 3، استخراج ویژگی کارآمدتر و توانایی تشخیص دقیق‌تری دارد.

6.4. ساخت نمودار دانش

ما از مدل BiGRU-CRF عمیق و چند شاخه ای آموزش دیده برای انجام NER بر روی مقالات مرتبط با خطرات زمین شناسی در پایگاه دانش Wanfang و به دست آوردن سه نوع موجودیت نامگذاری شده استفاده کردیم. لoجآتیمنon، مترهتیساعتoدس، و دآتیآ) ذکر شده در این مقاله، و برای ساخت یک نمودار دانش. جدول 7 موجودیت های نامگذاری شده استخراج شده از مقالات به طور تصادفی انتخاب شده را نشان می دهد. مشاهده می شود که روش پیشنهادی به درستی توصیفات مکان و منطقه مربوطه، داده های مورد استفاده و مدل ها و روش های مورد استفاده در این مقالات تحقیقاتی خطرات زمین شناسی را استخراج کرده است. این برای تحقیق، استفاده مجدد و ارجاع به ادبیات خطرات زمین شناسی بسیار مفید است.
ما از مدل پیشنهادی برای استخراج سه نوع موجودیت نام‌گذاری شده از 14630 مقاله تحقیقاتی مرتبط با خطر زمین‌شناسی که در پایگاه دانش Wanfang خزیده شده‌اند، استفاده کردیم و یک نمودار دانش شامل 34457 گره موجودیت و 84561 رابطه ایجاد کردیم. برای روابط («در مکان»، «استفاده از روش‌ها» و «استفاده از داده‌ها») که در نمودار دانش ظاهر می‌شوند، در مقاله ما از هیچ مدل استخراج رابطه پیچیده استفاده نکردیم. هنگام ساخت نمودار دانش، ما به سادگی فکر می کنیم که اگر مقاله حاوی یک موجودیت باشد، یک رابطه متناظر با آن دارد. به عنوان مثال، اگر مقاله A حاوی داده B باشد، یک سه گانه (A-> “use data”-> B) ایجاد می کنیم و آن را به نمودار دانش اضافه می کنیم. جدول 8 آمار دقیق موجودیت های نمودار دانش ادبیات خطرات زمین شناسی وجدول 9آمار دقیق روابط نمودار دانش ادبیات خطرات زمین شناسی را نشان می دهد. شکل 4 یک نمای کلی از نمودار دانش ادبیات خطرات زمین شناسی را نشان می دهد. برای راحتی، ما فقط 100 گره را در نمودار دانش نشان می دهیم و در یکی از قسمت های آن در شکل 5 بزرگنمایی می کنیم . بدیهی است که نمودار دانش ساخته شده می تواند به وضوح رابطه بین ادبیات و موجودیت ها (روش ها، مکان ها و داده ها) را منعکس کند.
در همان زمان، ما 15 موجودیت برتر را که بیشترین فراوانی را دارند، شمارش کردیم مترهتیساعتoدس، دآتیآ، و لoجآتیمنon، در نمودار دانش، که در شکل 6 ، شکل 7 و شکل 8 با نسخه های انگلیسی مربوطه نشان داده شده است. مشاهده می شود که در مترهتیساعتoدسروش شبیه سازی عددی پرکاربردترین روش تحقیق با فراوانی 4542 بار است و تعداد روش های دیگر روند نزولی همواری را نشان می دهد. که در دآتیآموجودیت ها، یک پدیده مشابه نیز وجود داشت. داده های بارندگی و داده های پوشش گیاهی به ترتیب با فراوانی 14539 و 13114 بار پرکاربردترین داده های پژوهشی هستند. انواع دیگر داده ها تفاوت چندانی با هم ندارند و روند کاهشی هموار را نشان می دهند. که در لoجآتیمنonواحدها، مناطق کوهستانی، مناطق معدنی و کوهستانی با فراوانی های 5172، 4354 و 4023 بیشترین مناطق مورد مطالعه را تشکیل می دهند که نشان می دهد این سه نوع منطقه مهم ترین مناطق مخاطرات زمین شناسی هستند.

7. بحث

7.1. بحث های تعمیم پذیری

در این بخش فرعی، نتایج قابل تعمیم به زمینه های دیگر (به عنوان مثال، استفاده از مقالات نوشته شده به زبان انگلیسی) در دو جنبه زیر مورد بحث قرار می گیرد.
  • ساختار کاغذی در تمرین خود، بخش‌های انتزاعی مقاله‌ها را با نام شناسایی نهاد بررسی کردیم. بنابراین، روش ما هیچ الزام خاصی برای ساختار مقاله ندارد، تا زمانی که مقاله شامل یک بخش خلاصه کامل باشد.
  • زبان کاغذی از نظر زبان (مثلاً به زبان انگلیسی)، مدل باید به صورت زیر تنظیم شود: اولاً، چینی بر اساس کاراکترها است، در حالی که انگلیسی بر اساس کلمات است. بنابراین، برای گسترش روش خود به مقالات انگلیسی، باید الگوهای اکتساب بذر (در بخش 4.1.2 ) را بازسازی کنیم تا یک مجموعه آموزشی برای مدل بسازیم. ثانیاً، هنگام انجام وظایف NER به زبان چینی، یک کاراکتر مربوط به یک برچسب است، اما در انگلیسی، یک کلمه با یک برچسب مطابقت دارد. بنابراین، برای گسترش روش خود به مقالات انگلیسی، باید بردارهای حروف چینی را به واژه انگلیسی vectors در لایه جاسازی (در بخش 4.2.1 ) مدل عمیق و چند شاخه ای BiGRU-CRF تغییر دهیم.

7.2. بحث های توسعه پذیری

در این بخش، توسعه پذیری روش های پیشنهادی در دو جنبه زیر مورد بحث قرار می گیرد: انعطاف پذیری برای تطبیق نمونه های جدید و توسعه پذیری نوع موجودیت های استخراج شده از مقاله.
  • انعطاف پذیری برای تطبیق نمونه های جدید. هنگامی که یک مقاله جدید به پایگاه داده Wanfang اضافه می شود، مقالات جدید اضافه شده را می توان در سه مرحله زیر به گره ها و لبه ها پردازش کرد. مرحله اول: خزیدن بخش انتزاعی مقالات جدید از پایگاه داده Wanfang از طریق فناوری خزنده وب. مرحله دوم: استفاده از مدل عمیق و چند شاخه ای BiGRU-CRF برای شناسایی روش، داده ها و موجودیت های مکان. مرحله سوم: موجودیت به عنوان یک گره عمل می کند و اتصالات بین موجودیت ها و مقالات به عنوان لبه های نمودار دانش عمل می کند.
  • توسعه پذیری انواع موجودیت. در همان زمان، ما همچنین در مورد اینکه در صورت اضافه شدن انواع موجودیت جدید (مثلاً تئوری) روش‌های ما باید چه تنظیماتی انجام دهند، بحث کردیم. اگر نوع موجودیت جدیدی اضافه شود، مدل عمیق و چند شاخه ای BiGRU-CRF باید به صورت زیر تنظیم شود: ابتدا باید الگوهای اکتساب بذر (مانند A) را به صورت دستی طراحی کنیم و مجموعه آموزشی را با استفاده از روش های ذکر شده بسازیم. در بخش 4.1.2 . دوم، به دلیل اضافه شدن انواع موجودیت های جدید، مقدار احتمال خروجی softmax آخرین لایه مدل ما باید از 7 تغییر کند (“O”، “I-LDS”، “I-MED”، “B” -LDS، «I-DAT»، «B-MED» و «B-DAT») تا 9 («O»، «I-LDS»، «I-MED»، «B-LDS»، «I -DAT، «B-MED»، «B-DAT»، «B-THE» و «I-THE») که در آن «THE» نهاد نظریه را نشان می‌دهد.

7.3. بحث محدودیت ها و کار آینده

با این حال، این تحقیق دارای محدودیت‌های متعددی است. در این بخش، برخی از محدودیت های احتمالی در دو جنبه زیر مورد بحث قرار می گیرد. اولین محدودیت این است که روش پیشنهادی شامل مقداری کار دستی است. اول از همه، رویکرد ما نیاز به تعریف برخی الگوها برای به دست آوردن seed موجودیت اولیه به صورت دستی دارد. و همچنین باید به صورت دستی seed موجودیت اولیه را بررسی کنیم تا مجموعه‌های دانه موجودیت صحیح را در بخش 4.1.2 بدست آوریم. بدست آوریم . محدودیت دوم این است که ما فقط از ساده ترین روش برای به دست آوردن روابط در نمودار دانش خود استفاده می کنیم. یعنی اگر مقاله A حاوی داده B باشد، یک سه گانه (A-> “use data”-> B) ایجاد می کنیم و آن را به نمودار دانش اضافه می کنیم.
بنابراین، در کار آینده، ما معتقدیم که چگونگی کاهش هزینه‌های دستی هنوز یک موضوع تحقیقاتی مهم برای ساخت نمودار دانش بلایای زمین‌شناسی است. این یک روش عملی برای کاهش هزینه های دستی بر اساس نظارت ضعیف و استراتژی های نظارت از راه دور خواهد بود. در عین حال، چگونگی استخراج روابط دقیق تر و متنوع تر و حتی استخراج مشترک موجودیت ها و روابط نیز از موضوعات مهم پژوهشی است.

8. نتیجه گیری

هدف کار ما استخراج موجودات با نام خطرات زمین شناسی از مجموعه قابل توجهی از ادبیات خطرات زمین شناسی و ساخت یک نمودار دانش خطرات زمین شناسی است. در این مقاله، یک مدل NER مبتنی بر یادگیری عمیق، مدل عمیق و چند شاخه‌ای BiGRU-CRF، برای استخراج سه نوع موجودیت پیشنهاد شد. لoجآتیمنon، مترهتیساعتoدس، و دآتیآ) در ادبیات زمین شناسی و به بالاترین میانگین دقت 0.9413، میانگین نرخ یادآوری 0.9425 و میانگین امتیاز F1 94.19 دست یافت. علاوه بر این، از آنجایی که مدل پیشنهادی یک مدل نظارت شده است که به یک پیکره نیاز دارد، ما یک روش مبتنی بر الگو را برای ساخت یک پیکره خطر زمین‌شناسی در مقیاس بزرگ پیشنهاد کردیم. در نهایت، ما از مدل پیشنهادی برای شناسایی موجودیت‌ها در 14630 مقاله تحقیقاتی مرتبط با خطر زمین‌شناسی استفاده کردیم که در پایگاه دانش Wanfang خزیده شدند و یک نمودار دانش ادبیات خطرات زمین‌شناسی در مقیاس بزرگ شامل 34457 گره موجودیت و 84561 رابطه ایجاد کردیم. نتایج زیر را می توان گرفت: (1) روش مبتنی بر الگو که از برخی الگوهای طراحی شده به صورت دستی همراه با روش MFM استفاده می کند، می تواند یک مجموعه موثر با هزینه های دستی کمی ایجاد کند. (2) مدل NER مبتنی بر یادگیری عمیق پیشنهادی که یک لایه BiGRU چند شاخه و یک مدل CRF را ترکیب می‌کند، بهترین نتایج را در NER ادبیات خطرات زمین‌شناسی دارد. (3) فناوری نمودار دانش می تواند رابطه بین مقاله ها و روش ها، مکان ها و داده ها را نشان دهد. این می تواند تجزیه و تحلیل و استفاده مجدد از ادبیات خطرات زمین شناسی را تسهیل کند.

پیوست اول

از آنجایی که داده های مورد استفاده در این مقاله همه از پایگاه داده ادبیات چینی هستند، عبارات جدول 2 در بخش 4.1 و جدول 7 در بخش 6.4 همه به زبان چینی هستند. برای سهولت بیان، ما این عبارات را به انگلیسی ترجمه می کنیم. در این ضمائم، عبارات اصلی به زبان چینی مرتبط با جدول 2 در بخش 4.1 ، جدول 7 در بخش 6.4 در این مقاله را ارائه می کنیم.
جدول A1 الگوهای اصلی (عبارات منظم) را به زبان چینی نشان می دهد که در این کار در بخش 4.1 استفاده شده است. از آنجایی که به زبان چینی طراحی شده است، برای خواندن بهتر در جدول A2 آن را به انگلیسی ترجمه می کنیم .
جدول A1. الگوهای اصلی (عبارات منظم) استفاده شده است.
جدول A2. ترجمه انگلیسی الگو (عبارات منظم) استفاده شده.

ضمیمه B

جدول A3 ترجمه چینی موجودات استخراج شده از مقالات تحقیقاتی خطرات زمین شناسی در جدول A4 در بخش 6.4 را نشان می دهد.
جدول A3. موجودیت های استخراج شده از مقالات تحقیقاتی خطرات زمین شناسی به زبان چینی.
جدول A4. نهادهای استخراج شده از مقالات تحقیقاتی خطرات زمین شناسی.

منابع

  1. واسوانی، ع. Shazeer، N. پارمار، ن. Uszkoreit، J. جونز، ال. گومز، AN; قیصر، Ł. Polosukhin، I. توجه شما تمام چیزی است که نیاز دارید. در مجموعه مقالات پیشرفت‌ها در سیستم‌های پردازش اطلاعات عصبی، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 4 تا 9 دسامبر 2017؛ صفحات 5998-6008. [ Google Scholar ]
  2. او، ک. ژانگ، ایکس. رن، اس. Sun, J. یادگیری باقیمانده عمیق برای تشخیص تصویر. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، لاس وگاس، NV، ایالات متحده، 26 ژوئن تا 1 ژوئیه 2016. صص 770-778. [ Google Scholar ]
  3. Chowdhury، GG ​​پردازش زبان طبیعی. آنو. Rev. Inf. علمی تکنولوژی 2003 ، 37 ، 51-89. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  4. زو، ی. ژو، دبلیو. خو، ی. لیو، جی. Tan, Y. یادگیری هوشمند برای نمودار دانش نسبت به داده های زمین شناسی. علمی برنامه. 2017 ، 2017 ، 5072427:1–5072427:13. [ Google Scholar ] [ CrossRef ]
  5. بائر، اف. Kaltenböck, M. داده های باز پیوندی: ملزومات ; اد. تک رنگ/تک رنگ: وین، اتریش، 2011. [ Google Scholar ]
  6. Mihalcea، R. Tarau, P. Textrank: ایجاد نظم در متن. در مجموعه مقالات کنفرانس 2004 در مورد روشهای تجربی در پردازش زبان طبیعی، بارسلون، اسپانیا، 25-26 ژوئیه 2004. [ Google Scholar ]
  7. وانگ، سی. ما، ایکس. چن، جی. چن، جی. استخراج اطلاعات و ساخت نمودار دانش از ادبیات علم زمین. محاسبه کنید. Geosci. 2018 ، 112 ، 112-120. [ Google Scholar ] [ CrossRef ]
  8. لافرتی، جی. مک کالوم، ا. Pereira، FC زمینه های تصادفی شرطی: مدل های احتمالی برای تقسیم بندی و برچسب گذاری داده های توالی. در مجموعه مقالات هجدهمین کنفرانس بین المللی یادگیری ماشین (ICML 2001)، ویلیامزتاون، MA، ایالات متحده آمریکا، 28 ژوئن تا 1 ژوئیه 2001. ص 282-289. [ Google Scholar ]
  9. قدرت ها، DM کاربردها و توضیحات قانون Zipf. در مجموعه مقالات کنفرانس های مشترک در مورد روش های جدید در پردازش زبان و یادگیری زبان طبیعی محاسباتی، سیدنی، استرالیا، 11-17 ژانویه 1998. انجمن زبانشناسی محاسباتی: استرودزبورگ، PA، ایالات متحده آمریکا، 1998; صص 151-160. [ Google Scholar ]
  10. راموس، جی. استفاده از tf-idf برای تعیین ارتباط کلمه در جستارهای سند. در مجموعه مقالات اولین کنفرانس آموزشی در مورد یادگیری ماشین، Piscataway، NJ، ایالات متحده، 3-8 دسامبر 2003. جلد 242، صص 133–142. [ Google Scholar ]
  11. شی، ال. جیان پینگ، سی. جی، ایکس. استخراج اطلاعات اکتشافی توسط متن کاوی بر اساس شبکه های عصبی کانولوشنال-مطالعه موردی سپرده مس لالا، چین. دسترسی IEEE 2018 ، 6 ، 52286–52297. [ Google Scholar ] [ CrossRef ]
  12. چینچر، ن. رابینسون، P. MUC-7 تعریف وظیفه نهاد را نامگذاری کرد. در مجموعه مقالات هفتمین کنفرانس درک پیام، فراسکاتی، ایتالیا، 16 ژوئیه 1997; جلد 29. [ Google Scholar ]
  13. یتس، ای. کافرلا، م. بانکو، م. اتزیونی، او. برادهد، ام. Soderland, S. Textrunner: باز کردن استخراج اطلاعات در وب. در مجموعه مقالات فن آوری های زبان انسانی: کنفرانس سالانه بخش آمریکای شمالی انجمن زبان شناسی محاسباتی: تظاهرات، نیویورک، نیویورک، ایالات متحده آمریکا، 23 تا 25 آوریل 2007. انجمن زبانشناسی محاسباتی: استرودزبورگ، PA، ایالات متحده آمریکا، 2007; صص 25-26. [ Google Scholar ]
  14. آگیشتاین، ای. گراوانو، ال. پاول، جی. سوکولووا، وی. Voskoboynik، A. Snowball: یک سیستم نمونه اولیه برای استخراج روابط از مجموعه های متنی بزرگ. در مجموعه مقالات کنفرانس بین المللی کتابخانه های دیجیتال، کیوتو، ژاپن، 13 تا 16 نوامبر 2000. [ Google Scholar ]
  15. فریبرگر، ن. Maurel, D. مبدل حالت محدود آبشار می کند تا موجودیت های نامگذاری شده را در متون استخراج کند. نظریه. محاسبه کنید. علمی 2004 ، 313 ، 93-104. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  16. Sundheim، BM مروری بر نتایج ارزیابی MUC-6. در مجموعه مقالات ششمین کنفرانس درک پیام، کلمبیا، MD، ایالات متحده آمریکا، 6-8 نوامبر 1995; انجمن زبانشناسی محاسباتی: استرودزبورگ، PA، ایالات متحده آمریکا، 1995; صص 13-31. [ Google Scholar ]
  17. چینچور، ن. بررسی اجمالی MUC-7. در مجموعه مقالات هفتمین کنفرانس درک پیام (MUC-7)، فیرفکس، VA، ایالات متحده آمریکا، 29 آوریل تا 1 مه 1998. [ Google Scholar ]
  18. Chieu، HL; Ng، HT شناسایی موجودیت نامگذاری شده: یک رویکرد آنتروپی حداکثر با استفاده از اطلاعات جهانی. در مجموعه مقالات نوزدهمین کنفرانس بین المللی زبان شناسی محاسباتی، تایپه، تایوان، 24 اوت تا 1 سپتامبر 2002. انجمن زبانشناسی محاسباتی: استرودزبورگ، PA، ایالات متحده آمریکا، 2002; جلد 1، ص 1-7. [ Google Scholar ]
  19. بورثویک، ا. گریشمن، آر. رویکرد آنتروپی حداکثر برای شناسایی موجودیت نامگذاری شده. Ph.D. پایان نامه، دانشگاه نیویورک، نیویورک، نیویورک، ایالات متحده آمریکا، 1999. [ Google Scholar ]
  20. کوران، جی آر. کلارک، اس. NER مستقل از زبان با استفاده از یک برچسب آنتروپی حداکثر. در مجموعه مقالات هفتمین کنفرانس یادگیری زبان طبیعی در HLT-NAACL 2003، ادمونتون، AB، کانادا، 31 مه تا 1 ژوئن 2003. انجمن زبانشناسی محاسباتی: استرودزبورگ، PA، ایالات متحده آمریکا، 2003; جلد 4، ص 164-167. [ Google Scholar ]
  21. هرست، MA; دومایس، ST; اوسونا، ای. پلات، جی. Scholkopf, B. ماشین‌های بردار پشتیبانی. IEEE Intell. سیستم برنامه آنها 1998 ، 13 ، 18-28. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  22. ایزوزاکی، اچ. Kazawa، H. طبقه‌بندی‌کننده‌های بردار پشتیبانی کارآمد برای شناسایی موجودیت نام‌گذاری‌شده. در مجموعه مقالات نوزدهمین کنفرانس بین المللی زبان شناسی محاسباتی، تایپه، تایوان، 24 اوت تا 1 سپتامبر 2002. انجمن زبانشناسی محاسباتی: استرودزبورگ، PA، ایالات متحده آمریکا، 2002; جلد 1، ص 1-7. [ Google Scholar ]
  23. کازاما، ج. ماکینو، تی. اوتا، ی. Tsujii, J. ماشین‌های بردار پشتیبان تنظیم برای تشخیص موجودیت با نام زیست پزشکی. در مجموعه مقالات کارگاه ACL-02 در مورد پردازش زبان طبیعی در حوزه زیست پزشکی، فیلدادلفیا، PA، ایالات متحده، 11 ژوئیه 2002. انجمن زبانشناسی محاسباتی: استرودزبورگ، PA، ایالات متحده آمریکا، 2002; جلد 3، صص 1-8. [ Google Scholar ]
  24. اکبال، ع. Bandyopadhyay, S. شناسایی موجودیت نامگذاری شده با استفاده از ماشین بردار پشتیبان: یک رویکرد مستقل از زبان. بین المللی جی الکتر. محاسبه کنید. سیستم مهندس 2010 ، 4 ، 155-170. [ Google Scholar ]
  25. ژو، جی. Su, J. شناسایی موجودیت نامگذاری شده با استفاده از برچسب تکه مبتنی بر HMM. در مجموعه مقالات چهلمین نشست سالانه انجمن زبانشناسی محاسباتی، فیلادلفیا، PA، ایالات متحده آمریکا، 7 تا 12 ژوئیه 2002. انجمن زبانشناسی محاسباتی: استرودزبورگ، PA، ایالات متحده آمریکا، 2002; صص 473-480. [ Google Scholar ]
  26. ژائو، اس. شناسایی موجودیت نامگذاری شده در متون زیست پزشکی با استفاده از مدل HMM. در مجموعه مقالات کارگاه مشترک بین المللی در مورد پردازش زبان طبیعی در زیست پزشکی و کاربردهای آن. انجمن زبانشناسی محاسباتی، ژنو، سوئیس، 28-29 اوت 2004. صص 84-87. [ Google Scholar ]
  27. ژانگ، جی. شن، دی. ژو، جی. سو، جی. قهوهای مایل به زرد، CL افزایش تشخیص موجودیت با نام زیست پزشکی مبتنی بر HMM با مطالعه پدیده های خاص. جی. بیومد. آگاه کردن. 2004 ، 37 ، 411-422. [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
  28. مک کالوم، ا. لی، دبلیو. نتایج اولیه برای شناسایی موجودیت نامگذاری شده با فیلدهای تصادفی شرطی، القاء ویژگی و واژگان پیشرفته وب. در مجموعه مقالات هفتمین کنفرانس یادگیری زبان طبیعی در HLT-NAACL 2003، ادمونتون، AB، کانادا، 31 مه تا 1 ژوئن 2003. انجمن زبانشناسی محاسباتی: استرودزبورگ، PA، ایالات متحده آمریکا، 2003; جلد 4، ص 188-191. [ Google Scholar ]
  29. Settles، B. شناسایی موجودیت با نام زیست پزشکی با استفاده از فیلدهای تصادفی شرطی و مجموعه ویژگی های غنی. در مجموعه مقالات کارگاه مشترک بین المللی در مورد پردازش زبان طبیعی در زیست پزشکی و کاربردهای آن، ژنو، سوئیس، 28-29 اوت 2004. انجمن زبانشناسی محاسباتی: استرودزبورگ، PA، ایالات متحده آمریکا، 2004; صص 104-107. [ Google Scholar ]
  30. لی، دی. کیپر-شولر، ک. Savova، G. زمینه‌های تصادفی شرطی و ماشین‌های بردار پشتیبان برای اختلال با نام شناسایی موجودیت در متون بالینی. در مجموعه مقالات کارگاه در مورد روندهای فعلی در پردازش زبان طبیعی زیست پزشکی، کلمبوس، OH، ایالات متحده، 19 ژوئن 2008; انجمن زبانشناسی محاسباتی: استرودزبورگ، PA، ایالات متحده آمریکا، 2008; ص 94-95. [ Google Scholar ]
  31. لامپ، جی. بالستروس، ام. سوبرامانیان، اس. کاواکامی، ک. Dyer, C. معماری های عصبی برای شناسایی موجودیت نامگذاری شده. arXiv 2016 , arXiv:1603.01360. [ Google Scholar ]
  32. چیو، جی پی؛ Nichols، E. شناسایی موجودیت نامگذاری شده با LSTM-CNN دو طرفه. arXiv 2015 ، arXiv:1511.08308. [ Google Scholar ] [ CrossRef ]
  33. Hammerton, J. شناسایی موجودیت نامگذاری شده با حافظه کوتاه مدت. در مجموعه مقالات هفتمین کنفرانس یادگیری زبان طبیعی در HLT-NAACL 2003، ادمونتون، AB، کانادا، 27 مه تا 1 ژوئن 2003. انجمن زبانشناسی محاسباتی: استرودزبورگ، PA، ایالات متحده آمریکا، 2003; جلد 4، صص 172-175. [ Google Scholar ]
  34. ما، ایکس. Hovy، E. برچسب‌گذاری توالی انتها به انتها از طریق lstm-cnns-crf دو جهته. arXiv 2016 , arXiv:1603.01354. [ Google Scholar ]
  35. خو، ام. جیانگ، اچ. Watcharawittayakul, S. یک رویکرد تشخیص محلی برای شناسایی موجودیت نامگذاری شده و شناسایی ذکر. در مجموعه مقالات پنجاه و پنجمین نشست سالانه انجمن زبان‌شناسی محاسباتی (جلد 1: مقالات طولانی)، ونکوور، BC، کانادا، 30 ژوئیه تا 4 اوت 2017؛ جلد 1، ص 1237–1247. [ Google Scholar ]
  36. ژائو، دی. هوانگ، جی. لو، ی. Jia, Y. الگوریتم رمزگشایی مشترک برای شناسایی موجودیت نامگذاری شده. در مجموعه مقالات سومین کنفرانس بین المللی IEEE 2018 در مورد علم داده در فضای مجازی (DSC)، گوانگژو، چین، 18 تا 21 ژوئن 2018؛ ص 705-709. [ Google Scholar ]
  37. نگوین، TVT; موشیتی، آ. ریکاردی، جی. رتبه‌بندی مجدد مبتنی بر هسته برای استخراج موجودیت نام‌گذاری شده. در مجموعه مقالات بیست و سومین کنفرانس بین المللی زبانشناسی محاسباتی: پوسترها، پکن، چین، 23 تا 27 اوت 2010. انجمن زبانشناسی محاسباتی: استرودزبورگ، PA، ایالات متحده آمریکا، 2010; ص 901–909. [ Google Scholar ]
  38. سبحنا، ن. میترا، پ. Ghosh, S. تشخیص موجودیت نامگذاری شده بر اساس میدان تصادفی شرطی در متن زمین شناسی. بین المللی جی. کامپیوتر. Appl. 2010 ، 1 ، 143-147. [ Google Scholar ] [ CrossRef ]
  39. میکولوف، تی. کرفیات، م. بورگت، ال. چرنوک، جی. خودانپور، اس. مدل زبان مبتنی بر شبکه عصبی بازگشتی. در مجموعه مقالات یازدهمین کنفرانس سالانه انجمن بین المللی ارتباطات گفتار، ماکوهاری، چیبا، ژاپن، 26 تا 30 سپتامبر 2010. [ Google Scholar ]
  40. میکولوف، تی. کمبرینک، اس. بورگت، ال. چرنوک، جی. خودانپور، س. توسعه مدل زبان شبکه عصبی بازگشتی. در مجموعه مقالات کنفرانس بین المللی IEEE 2011 در مورد آکوستیک، گفتار و پردازش سیگنال (ICASSP)، پراگ، جمهوری چک، 22-27 مه 2011. صص 5528-5531. [ Google Scholar ]
  41. Gers، FA; اشمیدوبر، جی. کامینز، اف. یادگیری فراموش کردن: پیش بینی مستمر با LSTM. در مجموعه مقالات نهمین کنفرانس بین المللی شبکه های عصبی مصنوعی: ICANN’99، ادینبورگ، بریتانیا، 7 تا 10 سپتامبر 1999. [ Google Scholar ]
  42. ساک، اچ. ارشد، ا. Beaufays، F. معماری‌های شبکه عصبی بازگشتی حافظه کوتاه‌مدت برای مدل‌سازی آکوستیک در مقیاس بزرگ. در مجموعه مقالات پانزدهمین کنفرانس سالانه انجمن بین المللی ارتباطات گفتار، سنگاپور، 14 تا 18 سپتامبر 2014. [ Google Scholar ]
  43. ساندرمایر، ام. شلوتر، آر. Ney, H. LSTM شبکه های عصبی برای مدل سازی زبان. در مجموعه مقالات سیزدهمین کنفرانس سالانه انجمن بین المللی ارتباطات گفتار، پورتلند، OR، ایالات متحده آمریکا، 9 تا 13 سپتامبر 2012. [ Google Scholar ]
  44. چو، ک. ون مرینبور، بی. گلچهره، سی. بهداناو، د. بوگارس، اف. شونک، اچ. Bengio، Y. آموزش نمایش عبارات با استفاده از رمزگذار-رمزگشا RNN برای ترجمه ماشینی آماری. arXiv 2014 ، arXiv:1406.1078. [ Google Scholar ]
  45. چانگ، جی. گلچهره، سی. چو، ک. Bengio، Y. ارزیابی تجربی شبکه‌های عصبی بازگشتی دروازه‌ای در مدل‌سازی توالی. arXiv 2014 ، arXiv:1412.3555. [ Google Scholar ]
  46. چانگ، جی. گلچهره، سی. چو، ک. Bengio، Y. شبکه های عصبی بازگشتی بازخورد دروازه ای. در مجموعه مقالات کنفرانس بین المللی یادگیری ماشین، لیل، فرانسه، 6 تا 11 ژوئیه 2015؛ ص 2067–2075. [ Google Scholar ]
  47. دوبیدی، د. سرمانت، پ. تامپسون، جی. دیبا، ع. فیاض، م. شارما، وی. حسین کرمی، ع. مهدی ارزانی، م. یوسف زاده، ر. ون گول، ال. و همکاران استدلال زمانی در ویدیوها با استفاده از واحدهای تکراری دردار کانولوشن. در مجموعه مقالات کنفرانس IEEE در کارگاه های آموزشی بینایی کامپیوتری و تشخیص الگو، سالت لیک سیتی، UT، ایالات متحده آمریکا، 18 تا 22 ژوئن 2018؛ صص 1111-1116. [ Google Scholar ]
  48. LeCun، Y.; بنژیو، ی. هینتون، جی. یادگیری عمیق. Nature 2015 , 521 , 436. [ Google Scholar ] [ CrossRef ]
  49. Schmidhuber, J. یادگیری عمیق در شبکه های عصبی: یک مرور کلی. شبکه عصبی 2015 ، 61 ، 85-117. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  50. گریوز، ا. محمد، ع. هینتون، جی. تشخیص گفتار با شبکه های عصبی عود کننده عمیق. در مجموعه مقالات کنفرانس بین المللی IEEE 2013 در مورد آکوستیک، گفتار و پردازش سیگنال ونکوور، BC، کانادا، 26-31 مه 2013. ص 6645–6649. [ Google Scholar ]
  51. Hecht-Nielsen، R. نظریه شبکه عصبی پس انتشار. در شبکه های عصبی برای ادراک ; الزویر: آمستردام، هلند، 1992; صص 65-93. [ Google Scholar ]
  52. بنژیو، ی. سیمرد، پ. فراسکونی، پی. یادگیری وابستگی های طولانی مدت با نزول گرادیان دشوار است. IEEE Trans. شبکه عصبی 1994 ، 5 ، 157-166. [ Google Scholar ] [ CrossRef ]
  53. پاسکانو، آر. میکولوف، تی. Bengio، Y. در مورد دشواری آموزش شبکه های عصبی بازگشتی. در مجموعه مقالات کنفرانس بین المللی یادگیری ماشین، آتلانتا، GA، ایالات متحده آمریکا، 16-21 ژوئن 2013. ص 1310–1318. [ Google Scholar ]
  54. Ratnaparkhi، A. مدل حداکثر آنتروپی برای برچسب گذاری بخشی از گفتار. در مجموعه مقالات کنفرانس روشهای تجربی در پردازش زبان طبیعی، فیلادلفیا، PA، ایالات متحده آمریکا، 17-18 مه 1996. [ Google Scholar ]
  55. باوم، LE; پتری، تی. استنتاج آماری برای توابع احتمالی زنجیره های مارکوف حالت محدود. ان ریاضی. آمار 1966 ، 37 ، 1554-1563. [ Google Scholar ] [ CrossRef ]
  56. ژنگ، اس. جایاسومانا، اس. رومرا-پاردس، بی. واینیت، وی. سو، ز. دو، دی. هوانگ، سی. Torr، PH زمینه های تصادفی شرطی به عنوان شبکه های عصبی بازگشتی. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، سانتیاگو، شیلی، 7 تا 13 دسامبر 2015. صص 1529-1537. [ Google Scholar ]
  57. مسیح، PF; الشعیر، MEA; اتلینگر، اف. تاتاوارتی، اس. بیکل، ام. بیلیچ، پ. رمپفلر، ام. آرمبراستر، ام. هافمن، اف. D’Anastasi، M. و همکاران تقسیم‌بندی خودکار کبد و ضایعه در CT با استفاده از شبکه‌های عصبی کاملاً پیچیده و میدان‌های تصادفی شرطی سه‌بعدی. در مجموعه مقالات کنفرانس بین المللی محاسبات تصویر پزشکی و مداخله به کمک رایانه، آتن، یونان، 17 تا 21 اکتبر 2016. صص 415-423. [ Google Scholar ]
  58. هوبرگ، تی. روتنشتاینر، اف. فیتوسا، RQ; Heipke, C. زمینه های تصادفی شرطی برای طبقه بندی چند زمانی و چند مقیاسی تصاویر ماهواره ای نوری. IEEE Trans. Geosci. از راه دور. Sens. 2015 ، 53 ، 659-673. [ Google Scholar ] [ CrossRef ]
  59. لی، ک. آی، دبلیو. تانگ، ز. ژانگ، اف. جیانگ، ال. لی، ک. هوانگ، ک. هادوپ شناسایی موجودیت با نام زیست پزشکی با استفاده از فیلدهای تصادفی شرطی. IEEE Trans. توزیع موازی سیستم 2015 ، 26 ، 3040-3051. [ Google Scholar ] [ CrossRef ]
  60. ساتن، سی. McCallum، A. مقدمه ای بر زمینه های تصادفی شرطی. پیدا شد. Trends ® Mach. فرا گرفتن. 2012 ، 4 ، 267-373. [ Google Scholar ] [ CrossRef ]
  61. مارش، ای. Perzanowski، D. MUC-7 ارزیابی فناوری IE: مروری بر نتایج. در مجموعه مقالات هفتمین کنفرانس درک پیام (MUC-7)، فیرفکس، ویرجینیا، 29 آوریل تا 1 مه 1998. [ Google Scholar ]
  62. قدردانی، T. CRF++: یک جعبه ابزار CRF دیگر. در دسترس آنلاین: https://crfpp.sourceforge.net/ (در 22 دسامبر 2019 قابل دسترسی است).
  63. Elkan، C. مدل های لاگ خطی و زمینه های تصادفی شرطی. معلم خصوصی یادداشت‌های CIKM 2008 ، 8 ، 1-12. [ Google Scholar ]
  64. سریواستاوا، ن. هینتون، جی. کریژفسکی، آ. سوتسکور، آی. Salakhutdinov, R. Dropout: راهی ساده برای جلوگیری از برازش بیش از حد شبکه های عصبی. جی. ماخ. فرا گرفتن. Res. 2014 ، 15 ، 1929-1958. [ Google Scholar ]
  65. نادو، دی. Sekine, S. بررسی شناخت و طبقه بندی موجودیت نامگذاری شده. Lingvisticae Investig. 2007 ، 30 ، 3-26. [ Google Scholar ]
شکل 1. واحد بازگشتی دردار.
شکل 2. CRFs زنجیره ای خطی [ 8 ].
شکل 3. مدل BiGRU-CRF چند شاخه ای عمیق.
شکل 4. نمای کلی نمودار دانش ادبیات خطرات زمین شناسی. گره های رنگ های مختلف در شکل نشان دهنده انواع مختلفی از موجودیت ها هستند. (گره های آبی نشان دهنده نام کاغذ، گره های قرمز نشان دهنده موجودیت های روش، گره های سبز نشان دهنده موجودیت های مکان، و گره های نارنجی نشان دهنده موجودیت های داده ها هستند).
شکل 5. بزرگنمایی جزئی نمودار دانش ادبیات خطرات زمین شناسی. ( A ) 100 گره از نمودار دانش را نشان می دهد و ( B ) بزرگنمایی نسخه قرمز رنگ در ( A ) است.
شکل 6. 15 موجودیت برتر روش در نمودار دانش.
شکل 7. 15 موجودیت داده برتر در نمودار دانش.
شکل 8. 15 موجودیت مکان برتر در نمودار دانش.

بدون دیدگاه

دیدگاهتان را بنویسید