گسترش اطلاعات ویژگی موجودیت نمودارهای دانش جغرافیایی اساساً تلفیقی از دانش دایره المعارفی اینترنت است. با این حال، فاقد اطلاعات ویژگی ساختاری است و مترادف و چند معنایی همیشه وجود دارند. اینها کیفیت نمودار دانش را کاهش می دهند و باعث بازیابی معنایی ناقص و نادرست می شوند. بنابراین، ما ویژگی‌های یک نمودار دانش جغرافیایی را بر اساس خوشه‌بندی بهینه دانه‌بندی و تجزیه و تحلیل همزمان، عادی می‌کنیم و از ساختار و رابطه معنایی ویژگی‌های موجودیت برای شناسایی مترادف و همبستگی بین ویژگی‌ها استفاده می‌کنیم. به طور خاص: (1) ما یک سیستم طبقه بندی برای ویژگی های جغرافیایی طراحی می کنیم، یعنی با استفاده از یک الگوریتم کشف جامعه برای طبقه بندی نام ویژگی ها. دانه بندی بهینه خوشه بندی توسط الگوریتم تشخیص هدف نشانگر شناسایی می شود. (2) ما شناسایی دقیق روابط صفت را با تجزیه و تحلیل روابط همزمانی صفات و استنتاج قانون تکمیل می کنیم. (3) در نهایت، عملکرد سیستم با تبعیض دستی با استفاده از مورد “چشم انداز، جنگل، مزرعه، دریاچه و چمن” تأیید می شود. نتایج نشان دهنده موارد زیر است: (1) میانگین دقت روابط فضایی 0.974 و میانگین یادآوری 0.937 بود. میانگین دقت روابط داده ها 0.977 و میانگین یادآوری 0.998 بود. (2) میانگین F1 برای نتایج شباهت 0.473 است. میانگین F1 برای نتایج تجزیه و تحلیل همزمان 0.735 است. میانگین F1 برای نتایج اصلاح مبتنی بر قانون 0.934 است. نتایج نشان می دهد که دقت بیش از 90 درصد است. در مقایسه با روش‌های سنتی که فقط بر روی شباهت تمرکز می‌کنند، دقت تشخیص ویژگی مترادف سیستم را بهبود می‌بخشد و ما قادر به شناسایی ویژگی‌های حس نزدیک هستیم. یکپارچه سازی سیستم ما و نرمال سازی ویژگی ها می تواند کارایی و دقت پردازش را تا حد زیادی بهبود بخشد.

کلید واژه ها:

عادی سازی صفت ; نمودار دانش جغرافیایی ; تجزیه و تحلیل همزمانی ؛ دانه بندی خوشه بندی بهینه

1. مقدمه

در دهه‌های اخیر، خدمات اطلاعات جغرافیایی به یکی از مهم‌ترین خدمات اطلاعاتی تبدیل شده است [ 1 ] و قابلیت دسترسی سریع به اطلاعات جغرافیایی را دارد. با توسعه فناوری اطلاعات و ارتباطات، اطلاعات جغرافیایی دستخوش دگرگونی بزرگی شده است، از یک استاتیک به دینامیک چند منبعی، از ساختار دقیق به ناهمگنی فازی. به منظور دستیابی به یک سیستم خدمات دانش جغرافیایی برای عموم، خدمات اطلاعات جغرافیایی باید تحول هوشمندانه از «داده-اطلاعات-دانش-خرد» [ 2 ] را درک کنند. دانش جغرافیایی محصول تفکر و استدلال جغرافیایی در مورد پدیده های طبیعی و انسانی در جهان فیزیکی است [ 3 ].]. نحوه بیان، سازماندهی، ذخیره و تولید دانش جغرافیایی به صورت علمی همیشه موضوع اصلی مورد توجه محققان جغرافیا است [ 4 ]. با توسعه سریع “اینترنت پلاس”، داده های بزرگ، محاسبات ابری و هوش مصنوعی، خدمات دانش بیشتر توسط نمودارهای دانش جغرافیایی نشان داده می شوند [ 5 ]. سرویس دانش به سرویس اطلاعاتی استخراج دانش و محتوای اطلاعاتی از منابع مختلف صریح و ضمنی، ایجاد شبکه دانش و ارائه محتوای دانش یا راه حل برای کاربران اشاره دارد. نمودار دانش جغرافیایی یک نمایش اصلی است. KG (نمودار دانش) [ 6]، که در اصل از DB (پایه داده) توسعه یافته است، حاوی اطلاعات معنایی غنی است و دارای فرم انعطاف پذیر و همچنین مقیاس پذیری بالایی است. می تواند زمینه های دانش پیچیده و سیستم های دانش را با استفاده از روش هایی مانند داده کاوی، پردازش اطلاعات و اندازه گیری دانش و گرافیک به واقعیت تبدیل کند. به عنوان مثال، نمودارهای دانش جغرافیایی، به عنوان یکی از نمودارهای دانش اصلی، نقش بزرگی در زمینه استنتاج حوادث ترافیکی [ 7 ]، ساخت محیط فاجعه [ 8 ]، توصیه اطلاعات [ 9 ] و آموزش جغرافیا [ 10 ] ایفا می کنند.
امروزه معمولاً از مجموعه داده های ناهمگن چند منبعی برای ساخت نمودارهای دانش جغرافیایی استفاده می شود. داده های مکانی دارای اطلاعات مکان و روابط توپولوژیکی هستند. با ترکیب این داده ها، پایگاه های دانش دایره المعارف اینترنتی، مانند LinkedGeoData [ 11 ]، GeoNames Ontology [ 12 ]، و GeoWorldNet [ 13 ]، YAGO [ 14 ]، CrowdGeoKG [ 15 ] و CONCEPTNET [ 16 ]]، می تواند اطلاعات ویژگی را غنی کند. با این حال، این نمودارهای دانش جغرافیایی جستجوهای ناقص و نادرستی در بازیابی معنایی دارند، احتمالاً به این دلیل که پایگاه دانش دایره‌المعارفی جمع‌سپاری شده است. به ویژه، این مجموعه ای از منابع مختلف است و فاقد اطلاعات ساختار یافته از ویژگی ها است. مترادف و چندمعنی همیشه اتفاق می افتد و کیفیت نمودارهای دانش جغرافیایی را کاهش می دهد. به منظور بهبود کیفیت و ارتقای سرویس هوشمند [ 17 ]، لازم است اطلاعات ویژگی های موجودات جغرافیایی، یعنی نرمال سازی ویژگی ها، ترکیب شود.
ویژگی های جغرافیایی شامل ویژگی های معنایی و ویژگی های مکانی است. تحت تأثیر واژگان غنی جغرافیا، محققان اغلب هنگام توصیف روابط فضایی یکسان از کلمات مناسب برای سناریوهای مختلف استفاده می‌کنند، وضعیتی که چنین پرسش‌های مبتنی بر زبان را با زبان و شناخت انسان ناسازگار می‌کند. دو و همکاران [ 18] پیشنهاد کرد که روابط معنایی بین ویژگی‌های فضایی انواع هستی‌شناسی جغرافیایی مختلف و واژگان توصیف روابط فضایی متفاوت است. در این مقاله، ما بر روی هم‌ترازی ویژگی‌های جغرافیایی-معانی تمرکز می‌کنیم و واژگان توصیف معنایی روابط فضایی را برای تسهیل محاسبات فضایی و استنتاج دانش طبقه‌بندی می‌کنیم. در این زمینه، هم ترازی ویژگی های جغرافیایی معنایی به عادی سازی ویژگی های جغرافیایی با همان معنی بر اساس معناشناسی اشاره دارد، محاسبات فضایی [ 19 ] به یک مدل محاسباتی اشاره دارد که از اصول مکانی برای بهینه سازی عملکرد محاسبات توزیع شده و استنتاج دانش استفاده می کند [ 20 ]. ] فرآیند استفاده از دانش شناخته شده برای نتیجه گیری از طریق استنتاج است.
ساختار باقی مانده این مقاله به شرح زیر است: بخش 2 وضعیت هنر، مفاهیم مربوطه در این مقاله و تکنیک های مرتبط مورد استفاده را معرفی می کند. بخش 3 روش شناسی و مدل های مرتبط را در این مقاله معرفی می کند. آزمایش ها و نتایج در بخش 4 مورد بحث قرار گرفته است. در نهایت، نتیجه گیری در بخش 5 ارائه شده است.

2. کارهای مرتبط

روش‌های موجود برای عادی‌سازی ویژگی‌ها عبارتند از یادگیری بدون نظارت و یادگیری تحت نظارت [ 21 ]. یادگیری بدون نظارت معمولاً از منظر مورفولوژی متن با محاسبه شباهت متن یا با تطبیق واژگان رشته ای با مفاهیم پایه دانش موجود به نرمال می رسد. گوناراتنا و همکاران [ 22 ] و ژانگ و همکاران. [ 23 ] ویژگی های مترادف را در داده های باز پیوندی (LOD) [ 24 ] با استفاده از همپوشانی بین سه گانه شناسایی کرد. دومی یک چارچوب بدون نظارت برای عادی سازی ویژگی ارائه می دهد. ریستاد و همکاران [ 25 ] شباهت متن را با استفاده از فاصله ویرایش رشته برای دستیابی به عادی سازی ویژگی محاسبه کرد. تسوروکا و همکاران [ 26] از الگوریتم رگرسیون لجستیک برای محاسبه شباهت رشته برای عادی سازی ویژگی استفاده کرد که از رویکرد تطبیق قاعده بهتر بود. لیو و همکاران [ 27 ] تراز صفت را به یک مسئله محاسباتی شباهت برای توابع ویژگی تبدیل کرد. یادگیری نظارت شده با یادگیری ویژگی‌های متنی برای هر نمایش نام ویژگی‌های جغرافیایی به عنوان راهی برای پیش‌بینی طبقه‌بندی متن نام مشخصه هدف و در نتیجه رسیدن به عادی‌سازی، مشکل توصیف متن و تطابق پایگاه دانش را به عنوان یک کار برچسب‌گذاری متوالی در نظر می‌گیرد. نام ویژگی های جغرافیایی به عنوان مثال، هوانگ و همکاران. [ 28] یک روش هم‌ترازی ریزدانه مبتنی بر داده را پیشنهاد کرد که بسط ویژگی‌ها و حوزه‌های تعریف را ادغام می‌کند تا شناسایی روابط مترادف، شمول و همبستگی بین ویژگی‌ها را یکپارچه کند. جاکوب و همکاران [ 29 ] حداقل فاصله بین دو ویژگی را با مقایسه اطلاعات صفت جمع‌آوری شده و ویژگی‌های موجود در مجموعه داده و سپس تحقق هم‌ترازی ویژگی توسط الگوریتم KNN محاسبه کرد. این روش می‌تواند بدون از دست دادن اطلاعات مهم به هم‌ترازی صفت دست یابد و می‌تواند فاصله بین ویژگی‌های تراز شده و ویژگی‌های فردی را پیش‌بینی کند.
به طور کلی، یادگیری بدون نظارت در مقایسه با روش های یادگیری نظارت شده آسان تر است. با این حال، بر پایه های دانش و داده های آموزشی در مقیاس بزرگ متکی است. گاهی اوقات، مشکلی با داده های آموزشی در مقیاس بزرگ وجود دارد که به سختی به دست می آید. یادگیری نظارت شده به پایگاه دانش جغرافیایی متکی نیست و می تواند ویژگی های نام ویژگی های جغرافیایی را با یادگیری مداوم به روز کند. بنابراین، یادگیری تحت نظارت می تواند به نرمال سازی نام ویژگی های جغرافیایی در سطح معنایی انعطاف پذیرتر دست یابد.
با این حال، بیشتر مطالعات از شباهت معنایی نام‌های ویژگی و مقادیر ویژگی استفاده می‌کنند یا از انواع داده‌های مقادیر ویژگی به عنوان ویژگی‌هایی برای عادی‌سازی ویژگی استفاده می‌کنند، و ویژگی‌های ساختار ویژگی‌های موجودیت را نادیده می‌گیرند. موجودیت ها معمولاً در نمودار دانش به صورت سه گانه ظاهر می شوند و یک ویژگی فقط می تواند یک بار در سه گانه موجودیت ظاهر شود. برای پرداختن به این مشکلات، ما یک خوشه‌بندی بهینه دانه‌بندی و تجزیه و تحلیل هم‌وقوع مبتنی بر ویژگی-نرمال‌سازی-روش را پیشنهاد می‌کنیم. این روش ابتدا صفات را با استفاده از شباهت خوشه بندی می کند و در ابتدا همبستگی بین ویژگی ها را شناسایی می کند. دوم، تجزیه و تحلیل همزمان برای فیلتر کردن غیر مترادف از ساختار استفاده می شود. سرانجام،
در ادامه به معرفی مفاهیم مرتبط در این مقاله و تکنیک های مرتبط با آن می پردازیم.
عادی سازی صفت برای هر دسته در پایگاه دانش دایره المعارف وب، نام ویژگی های جغرافیایی با همان معنی عادی می شود. یعنی ویژگی هایی با نام های مختلف اما نمایش یکسان یکپارچه شده اند. به عنوان مثال، “ارتفاع” و “ارتفاع” به عنوان “ارتفاع” متحد می شوند، به عنوان مثال، pi={p1,p2,p3,pn}��={�1,�2,�3,…��}جایی که p1,p2,p3,pn�1,�2,�3,…��مترادف هستند و انتخاب نهایی از pi��برای توصیف ویژگی استفاده می شود.
رابطه صفت. در این مقاله، رابطه صفات جغرافیایی به صورت زیر تعریف می شود: (1) واژه های مرتبط به جفت کلمات با شباهت زیاد بین دو نام صفت اطلاق می شود. این یک اصطلاح جمعی برای مترادف و نزدیک به مترادف است. (2) مترادف ها به جفت کلمات با همان معنی مانند “ارتفاع” و “ارتفاع” اشاره دارند. (3) نزدیک به مترادف به جفت کلمات با شباهت زیاد اما معانی متفاوت اشاره دارد، به عنوان مثال، “شرق از” و “شرق به”.
وکتور کلمه. کلمه بردار به شکل یک بردار کم بعدی از اعداد واقعی برای نشان دادن یک کلمه [ 30 ] است. ایده اصلی این است که کلمات را در یک فضای برداری نگاشت کنیم و این فضای برداری بسیاری از معنای اصلی را حفظ می کند. هر مقدار نشان دهنده یک ویژگی با تفسیر معنایی و نحوی خاص است که با تحلیل زمینه ای به دست می آید. به عنوان مثال، (0.543، -0.242، -0.143، 0.435، …، -0.107) کلمه بردار را برای یک کلمه و 0.543 نشان دهنده یک ویژگی توضیحی کلمه بردار است. ارزش آن از مشارکت های مختلف هر کلمه در فرهنگ لغت گرفته شده است. بردارهای کلمات مختلف از مجموعه های مختلف آموزش داده می شوند و در اینجا، بردارهای کلمه را برای اطلاعات جغرافیایی آموزش می دهیم.
انجمن. یک جامعه زیرگرافی است حاوی گره‌هایی که نسبت به بقیه گراف‌ها به طور متراکم‌تری به یکدیگر پیوند دارند یا به طور معادل، اگر تعداد پیوندهای هر زیرگراف از تعداد پیوندهای بین آن زیرگراف‌ها بیشتر باشد، یک گراف ساختار جامعه دارد. [ 31 ].
مدولار بودن. مدولاریته برای سنجش اینکه آیا تقسیم یک جامعه نتیجه نسبتا خوبی است یا خیر استفاده می شود. این بدان معنی است که نتیجه شباهت بالایی از گره های داخل جامعه و شباهت کم گره های خارج از جامعه دارد [ 32 ].
شاخص ارزیابی. مقداری که منعکس کننده کیفیت نتایج تجربی است. آزمایش های مختلف شاخص های ارزیابی متفاوتی دارند.
محاسبه شباهت کلمات:

عادی سازی ویژگی های سنتی مترادف ها را فقط از نظر شباهت استخراج می کند. شباهت معمولاً با استفاده از روش بردار کلمه محاسبه می شود. بردارهای کلمه با استفاده از word2vector [ 33 ] آموزش داده می شوند. بردارهای کلمه به دست آمده با استفاده از شباهت کسینوس محاسبه می شوند.

sim(word1,word2)=k=1nwk(word1)×wk(word2)k=1nwk2(word1)−−−−−−−−−−−−√×k=1nwk2(word2)−−−−−−−−−−−−√���(����1,����2)=∑�=1���(����1)×��(����2)∑�=1���2(����1)×∑�=1���2(����2)
در حال حاضر، سه روش اصلی آموزش بردار کلمه وجود دارد: بر اساس پیکره [ 34 ]، شباهت متن [ 35 ] و تحلیل زمینه [ 36 ]]. اگرچه استفاده از پایگاه دانش برای استخراج مترادف ها ساده و آسان است، اما پوشش پایگاه دانش محدود است و برای هر دامنه ای که به پایگاه دانش خود نیاز دارد محدود است. مزیت روش استخراج مترادف مبتنی بر شباهت متن به شرح زیر است: محاسبه آن ساده است، نیازی به استفاده از پیکره بزرگ ندارد و تا زمانی که کلمه یک بار ظاهر شود، می تواند روابط مترادف را پیدا کند. عیب این روش این است که دقت بالا نیست و مترادف های اشتباه زیادی استخراج می شود، به خصوص زمانی که این دو کلمه نسبتا کوتاه باشند. بنابراین، این روش برای برخی از متون طولانی تر، به ویژه برای کلمات و اصطلاحات تخصصی مناسب است. مزیت روش استخراج مترادف با استفاده از ارتباط متنی این است که می تواند تعداد زیادی مترادف را در پیکره استخراج کند. و عیب آن این است که روش فراوانی کلمه را در متن تحلیل می کند، بنابراین تشابه کلمات مرتبط نیز زیاد است. به عنوان مثال، شباهت “شرق از” و “شرق به” 0.83 است، اما مترادف نیستند و نمی توان آنها را تراز کرد. بنابراین، ما روشی مبتنی بر تحلیل هم‌رویداد و استدلال مبتنی بر قاعده برای دستیابی به شناسایی دقیق ویژگی‌های مترادف در کلاس‌ها پیشنهاد می‌کنیم.
الگوریتم کشف جامعه:
الگوریتم کشف جامعه می‌تواند پارتیشن‌های بسیار مدولار را در شبکه‌های بزرگ در مدت زمان کوتاهی پیدا کند و ساختار جامعه سلسله مراتبی کامل را برای شبکه نشان دهد تا رزولوشن‌های تشخیص جامعه متفاوت را به دست آورد [ 32 ]. کل الگوریتم به دو بخش تقسیم می شود. در ابتدا، هر گره به طور مستقل یک کلاس است. بخش اول با هدف طبقه بندی و گروه بندی نقاط مشابه در یک کلاس با شناسایی خوب است. بخش دوم با هدف راه‌اندازی مجدد گراف جدید، یعنی همان کلاس یک گره است. سپس قسمت اول برای تکمیل تکرار تکرار می شود.

در این مقاله، ما از این روش برای مدولار کردن نام ویژگی‌ها، یعنی خوشه‌بندی ویژگی‌ها استفاده می‌کنیم تا راهی برای داشتن یک مدولاریت متوسط ​​برای دستیابی به بهترین اثر خوشه‌بندی پیدا کنیم. این روش بر مدل زیر متکی است. این به معنای نسبت تعداد کل یال‌های داخل جامعه به تعداد کل یال‌های شبکه منهای مقدار انتظاری است که اندازه نسبت تعداد کل یال‌های داخل جامعه به تعداد کل یال‌ها در شبکه است. هنگامی که شبکه به عنوان یک شبکه تصادفی تنظیم می شود، شبکه ای توسط همان تخصیص جامعه تشکیل می شود.

Q=12mvw[Avwkvkw2m]δ(cv,cw)�=12�∑��[���−����2�]�(��,��)

جایی که Avw���وزن لبه بین v و w را نشان می دهد ، kv=wAvw��=∑����مجموع وزن یال های متصل به راس v است، Cv��جامعه ای است که راس v به آن اختصاص داده شده است δعملکرد δ(i,j)�(�,�)1 است اگر i=j�=�و 0 در غیر این صورت و m=12vwAvw�=12∑�����[ 32 ].

این بخش به معرفی وضعیت هنر و معرفی مختصر مفاهیم و مبانی روش‌شناختی می‌پردازد که در زیر می‌توان به آنها اشاره کرد. درک روش شناسی مقاله بعدی برای خواننده راحت بود.

3. روش ها و مدل ها

در این بخش، نرمال سازی صفات پیشنهادی در این مقاله و همچنین دو مسئله اساسی و راه حل ها و مدل های آنها را معرفی می کنیم.

3.1. بررسی اجمالی

در این مقاله، واژه بردار با استفاده از ابزار word2vec با داده‌های پایگاه دانش دانشنامه آموزش داده می‌شود و از نام‌های صفت به‌عنوان فرهنگ لغت سفارشی در این فرآیند برای آموزش بهتر واژه‌های بردار نام ویژگی‌های جغرافیایی استفاده می‌شود. شباهت بین نام ویژگی ها با استفاده از بردارهای کلمه آموزش داده شده محاسبه می شود و سپس نام ویژگی ها بر اساس شباهت خوشه بندی می شود. نام ویژگی های هر کلاس به نوبه خود در مجموعه نام ویژگی های هر موجودیت برای هم رخ دادن جویا می شوند و در صورت وقوع مترادف نیستند و نرمال سازی نمی شوند و در نهایت نتایج همزمانی بر اساس امتیازدهی می شود. فرکانس. سپس، کلمات مرتبط باقی مانده بر اساس قوانینی که در بخش 3.3.2 معرفی خواهیم کرد، فیلتر می شوند. نتیجه نهایی به دست می آید. نمودار جریان فنی کلی در شکل 1 نشان داده شده است، که عمدتاً شامل چهار بخش است: پیش پردازش داده ها، خوشه بندی ویژگی دانه بندی بهینه بر اساس الگوریتم تشخیص هدف برچسب گذاری شده، امتیازدهی نتایج بر اساس تجزیه و تحلیل همزمان و بهینه سازی نتیجه بر اساس استنتاج قانون. در بخش پیش پردازش داده ها، منابع داده برای پرس و جوی بیشتر داده ها به پایگاه داده وارد می شوند و منابع داده به عنوان پیکره ای برای آموزش بردارهای کلمه استفاده می شوند. در خوشه بندی ویژگی دانه بندی بهینه بر اساس بخش الگوریتم تشخیص هدف برچسب دار، خوشه بندی بر اساس شباهت محاسبه شده از کلمه بردار است. در امتیازدهی نتایج بر اساس بخش تحلیل همزمانی، تحلیل هم‌رویایی بر اساس نتایج خوشه‌بندی فوق انجام شد و نتایج امتیازدهی شدند. در نهایت به سمت بهینه‌سازی نتیجه بر اساس بخش استنتاج قوانین رفتیم.
با توجه به ساختار داده های دایره المعارف وب، منابع موجود در یک دایره المعارف را می توان با مجموعه ای از سه گانه به شکل “نام کلمه، ویژگی کلمه، محتوای ویژگی کلمه” توصیف کرد که سه عنصر آنها با موجودیت، ویژگی و مقدار ویژگی مطابقت دارند. موجودات جغرافیایی را می توان بر اساس یک سیستم طبقه بندی خاص به دسته های مختلف طبقه بندی کرد.
فرض کنید 〈e , p , l〉 چنین سه گانه باشد. سپس، ‘ e ‘ موجودیت مربوطه است، ‘ p ‘ نشان دهنده ویژگی و ‘ l ‘ مخفف مقدار ویژگی است. مجموعه داده ویژگی جغرافیایی برای هر موجودیت به صورت مشخص شده است E={p1,p2,p3,pn}�={�1,�2,�3,…��}. هر مجموعه داده ویژگی دسته به عنوان نشان داده می شود C={E1,E2,E3,En}�={�1,�2,�3,…��}خوشه بندی به طور جداگانه در دسته های مختلف انجام می شود و مجموعه داده های مشخصه به دست آمده پس از خوشه بندی برای هر دسته به صورت G={P1,P2,P3,Pn}�={�1,�2,�3,…��}. پس از خوشه بندی، هر مجموعه داده ویژگی کلاس به عنوان نشان داده می شود V={G1,G2,G3,Gn}�={�1,�2,�3,…��}، n تعداد مجموعه داده ها را نشان می دهد.
به طور خاص، در مجموعه داده C ، شباهت بین ویژگی هایی مانند p1,p2�1,�2، p1,p3�1,�3و p1,pn�1,��به عنوان محاسبه می شود simi,j����,�. ویژگی هایی که بیشتر از یک آستانه خاص هستند برای به دست آوردن مجموعه داده G خوشه بندی می شوند . سپس، تجزیه و تحلیل همزمان و استدلال مبتنی بر قاعده بر روی مجموعه داده برای به دست آوردن مترادف ها انجام می شود. نمودار شماتیک خاص در شکل 2 نشان داده شده است .

3.2. مدل‌سازی روش: خوشه‌بندی مشخصه دانه‌بندی بهینه بر اساس الگوریتم تشخیص هدف برچسب‌دار

در این مقاله، ما از داده‌های دایره المعارف بایدو به عنوان پیکره اولیه استفاده می‌کنیم، و بردار کلمه را بر اساس مدل CBOW (کیف کلمه پیوسته) آموزش می‌دهیم [ 37 ].] از word2vec، از همه نام های ویژگی به عنوان فرهنگ لغت سفارشی استفاده کنید و از ابزار تقسیم کلمات jieba برای تقسیم بندی کلمات استفاده کنید. معرفی دیکشنری های سفارشی در تقسیم بندی کلمات می تواند نام ویژگی ها را با دقت بیشتری شناسایی کند، که باعث می شود بافت کلمه هر متن در پیکره تغییر کند. این به نوبه خود منجر به تغییر در موقعیت کلمات در فضای برداری با ابعاد بالا می شود که تأثیر بیشتری بر رابطه شباهت بین کلمات نام ویژگی های جغرافیایی دارد. همچنین تعداد زیادی از کلمات مربوط به نام ویژگی های جغرافیایی را اضافه می کند، که باعث می شود بردارهای کلمه ساخته شده بیشتر به منطقه موضوعی جغرافیایی تمایل پیدا کنند و بنابراین، پایه ای برای ویژگی جغرافیایی بعدی فراهم می کند. کلمه برداری بیشتر به حوزه رشته جغرافیایی گرایش دارد، بنابراین،
ماهیت نرمال‌سازی صفت یافتن جفت‌های کلمه با معنی یکسان در نام ویژگی‌ها و ادغام آنها برای اطمینان از اینکه ویژگی‌های مترادف موجودیت‌ها در هر دسته دارای نام ویژگی‌های یکسان هستند، است. اگر بتوانیم همه نام‌های صفت را به کلاس‌های مختلف تقسیم کنیم، جستجوی مترادف در هر کلاس نه تنها می‌تواند کارایی پرس و جو را بهبود بخشد، بلکه یک محدودیت شباهت برای حذف جفت‌های کلمه با شباهت زیاد اما معانی متفاوت اعمال می‌کند و در نتیجه دقت را بهبود می‌بخشد.
برای این منظور، سیستم طبقه بندی زیر را برای داده های ویژگی های جغرافیایی طراحی کردیم. در شکل 3 نشان داده شده است .
در فرآیند خوشه‌بندی، می‌توانیم با تنظیم مدولاریت معقول با استفاده از الگوریتم کشف جامعه برای کاهش تعداد عملیات داده، به خوشه‌بندی نام ویژگی‌ها دست یابیم. با این حال، انتخاب معقول برای مقدار آستانه، نکته کلیدی برای اثر خوشه‌بندی معقول است. تنظیم پارامترها برای بدست آوردن مجموعه داده های مختلف خوشه ای V1,V2,V3,Vn�1,�2,�3,…��، سه مورد زیر رخ خواهد داد.
مورد 1: همانطور که در شکل 4 الف نشان داده شده است، با فرض اینکه کلاس V2�2خیلی کوچک است، pr��و ps��، که باید متعلق به یک کلاس باشد، به کلاس های مختلف تقسیم می شود.
مورد 2: همانطور که در شکل 4 ب نشان داده شده است، یک نتیجه طبقه بندی استاندارد است.
حالت 3: همانطور که در شکل 4 ج نشان داده شده است، با فرض اینکه کلاس V1�1خیلی بزرگ است، pi��و pj��، که نباید متعلق به یک کلاس باشد، در یک کلاس خوشه می شود.
ما باید کلاس استاندارد را انتخاب کنیم. برای انتخاب مقدار آستانه، اکثر آنها از روش یک مقدار آستانه تجربی استفاده می کنند. با این حال، آستانه های خوشه بندی به دلیل منابع داده های مختلف باید متفاوت باشد و دقت آستانه های به دست آمده به دلیل سازگاری ضعیف پارامترهای آستانه های تجربی بالا نیست. بنابراین، ما یک دانه بندی بهینه از الگوریتم خوشه بندی ویژگی را بر اساس الگوریتم تشخیص هدف نشانگر با مداخله دستی پیشنهاد می کنیم.
ایده الگوریتم تقریباً به شرح زیر است: به صورت دستی مجموعه هدف را انتخاب کنید، سپس تعریف می کنیم Sp��به عنوان مجموعه نمونه مثبت، Sn��به عنوان مجموعه نمونه منفی، n به عنوان تعداد مجموعه های نمونه مثبت و m به عنوان تعداد مجموعه های نمونه منفی. بنابراین، مجموعه هدف مثبت به عنوان نشان داده می شود Sp={(p1,p2),(p3,p4),(p5,p6)(pn1,pn)}��={(�1,�2),(�3,�4),(�5,�6)…(��−1,��)}; مجموعه هدف منفی به عنوان نشان داده شده است Sn={(p1,p2),(p3,p4),(p5,p6)(pm1,pm)}��={(�1,�2),(�3,�4),(�5,�6)…(��−1,��)}. پارامترها برای به دست آوردن مجموعه داده های مختلف خوشه ای تنظیم می شوند V1,V2,V3,Vn�1,�2,�3,…��، و جفت های ویژگی را پیدا می کنیم Sp��و Sn��در مجموعه داده های خوشه ای V1,V2,V3,Vn�1,�2,�3,…��، به ترتیب. سپس، شاخص ارزیابی است N; یا اگر جفت ویژگی باشد Sp��در مجموعه داده های خوشه ای یافت می شود، آن است N+1�+1. اگر جفت صفت Sn��سپس در مجموعه داده های خوشه ای یافت می شود N1�−1، و در نهایت شاخص ارزیابی به دست می آید. دقت ارزیابی با فرمول تعیین می شود 2Nn+m2��+�.

فرمول الگوریتم به صورت زیر خلاصه می شود:

ن{ن   اسپVمن)ن−    اسnVمن)�={�+1   (∃S�⊂V�)�−1   (∃S�⊂V�)
y=Nm��������=2��+�
پارامتر با بالاترین دقت پارامتری است که دانه بندی بهینه را به دست می آورد.

3.3. مدل‌سازی روش: شناسایی دقیق ویژگی‌های مترادف بر اساس تحلیل هم‌رویداد و استدلال قاعده

ما از دو روش برای انجام شناسایی دقیق ویژگی‌های مترادف استفاده می‌کنیم، از جمله تجزیه و تحلیل همزمانی بخش 3.3.1 و استنتاج قانون بخش 3.3.2 .

3.3.1. استراتژی امتیازدهی به نتیجه بر اساس تحلیل همزمانی

کلماتی با شباهت بالاتر که از کلمه برداری محاسبه می‌شوند، کلمات مرتبط هستند و جفت‌های کلمه بعد از خوشه‌بندی نیز کلمات مرتبط هستند، اما لزوما مترادف نیستند (به عنوان مثال، “طول”، “عرض” و “ضخامت”). بنابراین، باید دوباره آنها را فیلتر کنیم. «هم‌روی» به پدیده‌ای اشاره دارد که در آن اطلاعات توصیف‌شده توسط آیتم‌های ویژگی یک موجودیت با هم ظاهر می‌شوند، و آیتم‌های ویژگی نام ویژگی‌های موجود در یک موجودیت هستند. “تحلیل همزمان” مطالعه پدیده همزمانی است که ارتباط محتوایی اطلاعات و دانش ضمنی توسط آیتم های ویژگی را آشکار می کند.

در این مقاله، ما نیاز به تجزیه و تحلیل نام های ویژگی های همزمان داریم تا پدیده های خطا در هر کلاس را که شبیه تر هستند و معانی متفاوتی دارند، پیدا کنیم. ایده استفاده شده این است که اگر دو یا چند نام ویژگی به طور همزمان برای توصیف یک موجودیت استفاده شود، این نام های ویژگی معانی متفاوتی را بیان می کنند و مترادف نیستند. یعنی متوجه می شویم که آیا جفت صفت در مجموعه ویژگی های یک موجودیت به طور همزمان ظاهر می شود یا خیر. مدل خاص در فرمول (5) نشان داده شده است.

{پمن=پj    پمن،پj∉ E   (پمن،پj∈ )پمنپj    پمن،پj∈ E   (پمن،پj∈ ){��=��    ��,��∉�   (��,��∈�)��≠��    ��,��∈�   (��,��∈�)
از آنجایی که مقدار داده موجودیت مورد استفاده در پرس و جوی همزمان و فراوانی نام ویژگی ها تأثیر زیادی بر نتیجه همزمانی خواهد داشت، یک امتیاز به نتیجه داده می شود و امتیاز نشان دهنده احتمال این است که هم معنی. هر چه امتیاز یک جفت ویژگی بالاتر باشد، احتمال مترادف بودن آن بیشتر است که مرجع بهتری برای عادی سازی ویژگی ارائه می دهد.

در این مقاله، مقدار داده برای موجودیت ها ثابت است، بنابراین فراوانی وقوع نام ویژگی است که مهمترین تأثیر را دارد. اگر فراوانی نام صفت برای هر دو کلمه کم باشد، عدم وقوع همزمان آن ممکن است به دلیل فراوانی کم باشد. هنگامی که بسامد نام ویژگی برای هر دو کلمه زیاد است، اما هنوز همزمان وجود ندارد، بعید است که برای توصیف یک موجودیت استفاده شود. یعنی به همین معناست و مترادف است. بنابراین، معیارهای امتیازدهی زیر آورده شده است. ابتدا تفاوت بین فراوانی کلمه برای اولین کلمه در جفت کلمه فعلی و میانگین فراوانی کلمه محاسبه می شود. مجموع نهایی نمرات دو کلمه با دادن امتیازهای مختلف با توجه به مقدار تفاوت به دست می آید. به عنوان معیاری برای تعداد تکرار صفت، میانگین فراوانی کلمه به عنوان نسبت تعداد تکرار صفت به ویژگی غیر تکراری تعریف می شود. این بدان معنی است که تعداد دفعاتی که ویژگی ها یکسان ظاهر می شوند، همانطور که در فرمول های زیر (6) – (8) نشان داده شده است:

تو _بمن=fمن1nfمنn����=��−∑�=1����
rهمن=⎧⎩⎨⎪⎪0.5  0.45  0.4  تو _بمن20تو _بمن0تو _بمن0، 2������={0.5  ����>200.45  ����>00.4  ����<0�=1,2
rه1rه2�����=�����1+�����2

جایی که fمن��فراوانی نام ویژگی را در هر جفت نام ویژگی نشان می دهد، fj��نشان دهنده فراوانی نام ویژگی در همه نام های ویژگی است، n نشان دهنده تعداد کل ویژگی های غیر تکراری است، subمن����نشان دهنده تفاوت فراوانی هر جفت نام ویژگی و scorei������امتیاز نام ویژگی را در هر جفت نام ویژگی نشان می دهد. ما نام ویژگی های هر موجودیت را به عنوان یک مجموعه در نظر می گیریم و همه نام های ویژگی در این مجموعه غیر مترادف هستند. پس از تکمیل خوشه بندی، کلمات هر کلاس در هر یک از مجموعه های بالا دو به دو مورد استعلام قرار می گیرند تا ببینند که آیا همزمان هستند یا خیر، و اگر همزمان هستند، این دو کلمه در یک رابطه مترادف نیستند. بنابراین، می توان به طور موثر کلماتی را که همبستگی بالایی دارند اما مترادف با ویژگی های خود ساختار داده نیستند، حذف کرد. یک مثال ملموس در نشان داده شده است شکل 5 نشان داده شده است، جایی که شکل سمت چپ مجموعه ای را که پس از خوشه بندی به دست می آید و شکل سمت راست مجموعه ای از نام های ویژگی مربوط به موجودیت ها را نشان می دهد. در شکل سمت راست، کلماتی که با رنگ قرمز مشخص شده‌اند در یک مجموعه خوشه‌بندی ظاهر می‌شوند، بنابراین آنها تقریباً مترادف هستند تا مترادف.

3.3.2. بهینه سازی نتایج بر اساس استدلال قاعده
از آنجایی که ویژگی‌های موجود در یک موجودیت منفرد جامع نیستند، روش هم‌روی به تنهایی می‌تواند برخی از کلمات مرتبط را حذف کند تا نرخ صحیح عادی‌سازی ویژگی را بهبود بخشد، اما نمی‌تواند کلمات مرتبط را به‌طور کامل حذف کند. بنابراین، لازم است از طریق قوانین چندین صفت طبقه‌بندی نشده، یک مجموعه قانون تشکیل شود و از طریق فیلتر مجموعه قوانین، نتایج تفسیر به دست آید.
ما ویژگی‌های ویژگی‌هایی را که به راحتی در نتایج تحلیل همزمانی طبقه‌بندی می‌شوند، تحلیل کردیم و دلایل چهار نکته زیر را تحلیل کردیم:
برای نام ویژگی‌های کلاس‌های زبان، ارتباط آنها زیاد است، اما گنجاندن یک موجودیت واحد برای کلاس‌های زبان ضعیف است، به عنوان مثال، «عربی» و «پرتغالی».
مانند کلاس زبان، برای نام‌های مشخصه در کلاس جهت‌یابی، همبستگی آنها زیاد است، اما گنجاندن یک موجودیت واحد نیز ضعیف است، به عنوان مثال، “طول شرقی-غربی” و “طول شمالی-جنوب”.
برای کلماتی که دارای کلاس کلمه یکسانی هستند، برخی از نام های صفت حاوی کلمات یکسان هستند و به یک کلمه مافوق یکسان تعلق دارند. شباهت معنایی آنها نیز مانند «جمعیت ساکن» و «جمعیت خانگی» زیاد است.
برخی از کلمات مبهم هستند، مانند “قله اصلی” که می تواند برای توصیف نام قله اصلی یا ارتفاع قله اصلی استفاده شود.
برای حل مشکلات فوق، ما سه نرمال سازی مختلف را برای ساخت یک مجموعه قوانین تنظیم کردیم (نشان داده شده در جدول 1 ). برای مقوله های زبان و گرایش، آنها به عنوان مترادف های تقریباً مترادف طبقه بندی می شوند. برای همان قسمت از کلاس، از همان قسمت حذف می شود و سپس شباهت قسمت باقی مانده محاسبه می شود. اگر بخش باقی مانده از شباهت نیز زیاد باشد، آنها به عنوان مترادف قضاوت می شوند و نتایج هر قانون برای اطمینان از درست و معتبر بودن هر یک مورد آزمایش قرار می گیرد.
پس از سری فرآیندهای فوق، عبارت مترادف را به دست آوردیم. در نهایت باید یکی از این نام های ویژگی را به عنوان معیار نام ویژگی کلاس انتخاب کنیم. ما از فراوانی وقوع به‌عنوان شاخصی برای انتخاب ویژگی استفاده می‌کنیم، با استفاده از مشخصه‌ای که بیشتر به‌عنوان نام ویژگی آن رخ می‌دهد.

4. آزمایش و بحث

برای اصول و روش های فوق، آزمایش ها را طراحی کرده و نتایج تجربی را مورد بحث قرار می دهیم. ابتدا، بخش 4.1 مجموعه داده را معرفی می کند. بخش 4.2 شرایط آزمایشی را معرفی می کند. و بخش 4.3 نتایج تجربی را ارائه و آنها را تجزیه و تحلیل می کند.

4.1. مقدمه ای بر DataSets

این مطالعه بر اساس داده های دایره المعارف بایدو است. داده‌های طبقه‌بندی‌شده «کوه، آب، جنگل، مزرعه، دریاچه و چمن» به‌عنوان مجموعه داده اصلی برای عادی‌سازی استفاده می‌شود که در آن ۶۳۳۸۶ داده سه‌گانه در مورد کوه‌ها، ۴۵،۶۳۰ داده سه‌گانه در مورد آب، ۳۶۹۳ داده سه‌گانه در مورد جنگل‌ها وجود دارد. 6150 داده سه تایی در مزارع، 14853 داده سه تایی در مورد دریاچه ها و 3971 داده سه تایی در مورد چمن.
برای مجموعه داده آموزش برداری کلمه، ما دو مجموعه داده داریم که باید انتخاب شوند: مجموعه داده سه گانه دایره المعارف و مجموعه داده سه گانه نمایه داده دایره المعارف. مجموعه داده سه گانه دایره المعارف یک نمودار دانش بزرگ متشکل از ابرداده است که تعداد زیادی از منابع را در وب ادغام می کند و در حال حاضر شامل 25,455,709 سه گانه و بیش از 2 میلیون موجودیت است. مجموعه داده “مقدمه” مجموعه ای از سه گانه است که از تمام منابع سه گانه از طریق پرس و جوهای اطلاعاتی و سایر تکنیک ها ساخته شده است. این مجموعه داده شامل 28196 سه و 27686 موجودیت است. به منظور مقایسه اثر آموزشی مقدار کمی از داده ها با ارتباط زمینه ای خوب و مقدار زیادی از داده ها با ارتباط ضعیف، مدل با استفاده از مجموعه داده با کل داده های سه گانه و مجموعه داده با نام ویژگی “مقدمه” در داده های دایره المعارف اعتبارسنجی شد. آزمایش‌ها نشان می‌دهند که مقدار زیادی از داده‌های سه تایی می‌تواند دقت آموزش بردار کلمه را در مقایسه با مقدار کمی از داده‌ها با ارتباط متنی بالا بهبود بخشد. مقایسه خاص در استجدول 2 .

4.2. شرایط آزمایشی

4.2.1. پارامترهای تجربی

(1)
تنظیم پارامتر Word2vec
در این مطالعه، ما عمدتاً از مدل CBOW در word2vec برای آموزش بردارهای کلمه استفاده می کنیم که پارامترهای زیادی برای پیکربندی دارد. ابتدا بعد برداری وجود دارد و از داده های 100 بعدی و داده های 200 بعدی برای آزمایش استفاده می کنیم. بردارهای کلمه به دست آمده به ترتیب 1,364,380,928 بایت و 2,728,761,728 بایت هستند. با استفاده از بردارهای کلمه به دست آمده، شباهت مجموعه داده “کوه” را محاسبه کرده و داده ها را با شباهت بیشتر از 0.8 متمایز می کنیم. میزان خطا برای داده های 100 بعدی 17.1 درصد و برای داده های 200 بعدی 4.6 درصد است. اگرچه زمان تولید بردار کلمه 200 بعدی طولانی تر است و داده ها بزرگتر هستند، اما بهتر از داده های 100 بعدی است. ما از 200 به عنوان بعد برداری کلمه استفاده می کنیم. علاوه بر این، فرکانس کلمه کمتر از تعداد Min Count حذف می شود.
(2)
تنظیم پارامتر آستانه تشابه
در یک محاسبه شباهت، جفت‌های کلمه زیر یک مقدار معین، ارتباط ضعیفی دارند و بنابراین، هیچ ارزشی در تحقیق ندارند. بنابراین، یک مقدار آستانه باید تعیین شود. جفت کلماتی که بیشتر از مقدار آستانه هستند به عنوان کلمات مرتبط شناسایی می شوند. بنابراین لازم است مقداری به گونه ای پیدا شود که نسبت کلمات نزدیک به مترادف در جفت های کلمه بزرگتر از این مقدار بیشتر و نسبت کلمات نزدیک به مترادف در جفت های کلمه کوچکتر از این مقدار کمتر باشد. بنابراین، مقدار آستانه θ را تغییر می‌دهیم و نسبت کلمات نزدیک به معنی را زمانی که بیشتر از 0.7، 0.75، 0.8، 0.85 و 0.9 باشد، و نسبت کلمات نزدیک‌معنا را زمانی که کمتر از 0.7، 0.75، 0.8 است محاسبه می‌کنیم. ، 0.85 و 0.9، با خواندن دستی. روند نرخ دقت (P) و میزان کامل بودن (R) در مقادیر آستانه از 0.7-0.شکل 6 .
وقتی مقدار آستانه 0.75 باشد، P در مقایسه با 0.7 افزایش می یابد، اگرچه مجموع و R اندکی کاهش می یابد ( شکل 6 ). ما از مقدار آستانه 0.75 استفاده می کنیم. مقدار آستانه بهینه θ = 0.75 است، که مقداری است که هم دقت (P) و هم کامل بودن (R) را بزرگتر می کند.
4.2.2. شاخص ارزیابی تجربی

اثربخشی شناسایی مترادف با مقادیر Precision، Recall و F 1 اندازه گیری می شود. TP ها (مثبت های واقعی) نشان می دهد که مترادف به درستی پیش بینی شده است، در حالی که FP ها (مثبت های کاذب) نشان می دهد که مترادف تقریباً به عنوان مترادف اشتباه ارزیابی شده است. FNs (False Negatives) نشان می دهد که مترادف تقریباً مترادف است. TNs (True Negatives) نشان می دهد که تقریباً مترادف به درستی پیش بینی شده است. سپس P ، R و F 1 توسط:

پ=تیپتیپافپپ=تیپتیپ+افپ
R=TPTP+FN�=����+��
F1=2×P×RP+R×100%�1=2×�×��+�×100%
هرچه F 1 بزرگتر باشد دقت و یادآوری مربوطه بیشتر است و نتایج بهتری حاصل می شود.

4.3. نتایج تجربی و تجزیه و تحلیل

4.3.1. خوشه بندی آزمایش های دانه بندی

برای پرداختن به مشکل دانه بندی خوشه بندی، ما یک الگوریتم خوشه بندی ویژگی دانه بندی بهینه را بر اساس یک الگوریتم تشخیص هدف نشانگر پیشنهاد می کنیم. برای آزمایش داده های «کوه، آب، جنگل، مزرعه، دریاچه، چمن» 100 نمونه «کوه، آب، جنگل، مزرعه، دریاچه، چمن» انتخاب شده که 50 نمونه مثبت و 50 نمونه منفی است. . تعداد نمونه های هدف و دقت به دست آمده توسط هر پارامتر در جدول 3 نشان داده شده است. به منظور اثبات موثر بودن الگوریتم برای تشخیص دانه بندی خوشه ها، میزان خطای هر کلاس تحت هر پارامتر با خواندن دستی به دست می آید و نتایج در جدول 3 نشان داده شده است. نشان داده شده است.
از جانب جدول 3برای هر دسته از “کوه، آب، جنگل، مزرعه، دریاچه، چمن”، پارامترهای با دقت بالاتر بر اساس الگوریتم نظارت بر هدف نشانگر، با پارامترهایی با کمترین میزان خطای به دست آمده توسط تفسیر دستی مطابقت دارند. برای داده های جغرافیایی “کوه، آب، جنگل، مزرعه، دریاچه، چمن”، هر دسته دارای نام ویژگی منحصر به فرد خود است. هنگام خوشه‌بندی، تشخیص این نام‌های ویژگی منحصربه‌فرد دشوار است، زیرا در بیان متن متمرکزتر به نظر می‌رسند، بنابراین اثر خوشه‌بندی این نام‌های ویژگی منحصربه‌فرد ضعیف بود. بنابراین، هنگام انتخاب نمونه هدف، داده های معرف بیشتری به عنوان نمونه هدف انتخاب می شود که منجر به انتخاب دانه بندی بهینه خوشه بندی می شود. از نتایج انتخاب پارامتر، نتایج هر دو روش سازگار است، بنابراین این روش می تواند به طور موثر برای تشخیص دانه بندی خوشه بندی استفاده شود. علاوه بر این، روش جهانی تر از روش آستانه تجربی سنتی است که قادر است بر اساس داده های مختلف، مناسب ترین دانه بندی خوشه بندی را انتخاب کند.
در این دانه بندی، نتایج طبقه بندی ویژگی های جغرافیایی را به صورت دستی شمارش می کنیم و نتایج زیر را در جدول 4 به دست می آوریم. به دست می آوریم .
به طور کلی، روابط فضایی دقت بالاتر اما یادآوری کمتری نسبت به ویژگی های داده دارد. این به دلیل این واقعیت است که روابط فضایی بیشتر برای توصیف دو یا چند موجودیت استفاده می شود، در حالی که ویژگی های داده بیشتر برای توصیف خود یک موجود خاص استفاده می شود. بنابراین، روابط فضایی نسبت به ویژگی های داده الزام آورتر است و تشخیص آن از سایر مقوله ها دشوارتر است. به عنوان مثال، “جاذبه های اطراف” معمولا به عنوان کلاس “جاذبه ها” طبقه بندی می شوند و به عنوان یک رابطه توپولوژیکی شناخته نمی شوند. این نیز تفاوت بین روابط فضایی و صفات مشترک است.
برای روابط فضایی، می توان دریافت که دقت و یادآوری روابط توپولوژیکی کمتر از دو نوع دیگر روابط فضایی است. همان دلیل بالا این است که روابط توپولوژیک ضعیف ترین پیوند در بین روابط فضایی است و علاوه بر این، انواع بیشتری از روابط توپولوژیکی با توصیف های معنایی متنوع و پیچیده وجود دارد.
4.3.2. نتایج تجربی شناسایی دقیق صفات مترادف
برای بررسی اثربخشی و برتری این روش تجربی، نتایج به‌دست‌آمده از این آزمایش را با نتایج به‌دست‌آمده از شباهت معنایی به تنهایی، نتایج پس از یافتن همزمان و نتایج پس از اصلاح مبتنی بر قاعده مقایسه کردیم. ما آزمایش هایی را با استفاده از هر دسته از “منظره، جنگل، مزرعه، دریاچه و چمن” انجام می دهیم. ابتدا از بردار کلمات آموزش‌دیده برای به دست آوردن شباهت بین جفت‌های کلمه استفاده می‌کنیم و جفت‌های با آستانه بزرگ‌تر از 0.7 را فیلتر می‌کنیم. سپس به صورت دستی جفت کلمات اشتباه و جفت کلمات گم شده را پیدا می کنیم و در نهایت مقادیر P، R و F1 آنها را بدست می آوریم. نتایج در جدول 5 و میانگین شاخص های سه روش در شکل 7 نشان داده شده است. جدول 6 نشان داده شده است. نمودار حاصل در نشان داده شده است
نتایج شباهت در جدول 5 و جدول 6 نتایجی هستند که با روش تشابه تنها زمانی به دست می آیند که مقدار آستانه 0.75 باشد که با نرخ تشخیص پایین همراه است. برای بهبود دقت، روش هم‌روندی در این مقاله پیشنهاد شده است تا زوج‌های کلمه با شباهت زیاد اما معانی متفاوت حذف شوند. دقت، دقت و نرخ یادآوری مترادف و تشخیص رابطه مربوط به “کوه، آب، جنگل، مزرعه، دریاچه و چمن” پس از روش وقوع همزمان نشان داده شده است. جدول 5 نشان داده شده است.. می توان فرض کرد که میزان دقت به طور قابل توجهی بالاتر و نرخ فراخوان کمی کمتر است. نتایج تجزیه و تحلیل و اصلاح می شوند تا دقت مترادف و تشخیص همبستگی “کوه، آب، جنگل، مزرعه، دریاچه، چمن” را بهبود بخشند. تجزیه و تحلیل نشان می دهد که عوامل مؤثر بر میزان دقت به این دلیل است که انواع ویژگی های موجود در یک موجودیت به اندازه کافی جامع نیستند و شباهت معنایی کلمات مرتبط زیاد است، بنابراین کلمات زیادی با معانی مشابه در مترادف ها وجود دارد. اما نمی توان آن را به یکی نسبت داد. نرخ فراخوان بالاست و دلیل اصلی خطا، ابهام نام ویژگی ها است. نتایج نشان می‌دهد که داده‌های جغرافیایی «کوه، آب، جنگل، مزرعه، دریاچه، چمن» منحصربه‌فرد است.
ویژگی های مکان همبستگی قوی داشتند و شباهت نمی توانست آنها را به خوبی تشخیص دهد، بنابراین نام این ویژگی ها توسط قوانین اصلاح می شود. دقت، دقت و یادآوری نتایج بر اساس قوانین اصلاح شده در جدول 5 نشان داده شده است. می توان فرض کرد که میزان دقت به طور قابل توجهی بالاتر است، بنابراین روش برای نرمال سازی ویژگی موثر است.
ما نتایج سه روش را در یک نمودار ترسیم کرده ایم و می توانیم مشاهده کنیم که روند کلی آنها مشابه است. دقت به تدریج افزایش می یابد و یادآوری به تدریج با افزایش های کوچک کوچکتر می شود، در حالی که یک بهبود واضح در F1 وجود دارد. بنابراین، روش در این مقاله قادر به بهبود دقت تراز صفات است و قابلیت تعمیم قوی دارد.

5. نتیجه گیری ها

در سال‌های اخیر، نمودارهای دانش مورد توجه فزاینده‌ای قرار گرفته‌اند. کارهای مرتبط شامل به اشتراک گذاری داده های مکانی و تجزیه و تحلیل استنتاج است. در این مقاله، با شروع از ویژگی‌های ویژگی داده‌های جغرافیایی و دایره‌المعارف بایدو، فرآیند عادی‌سازی ویژگی دایره‌المعارف را پیشنهاد کردیم که روش عادی سازی ویژگی مبتنی بر معنایی قبلی را بهبود می‌بخشد. ابتدا تشابه معنایی نام ویژگی ها به عنوان مبنایی برای خوشه بندی نام ویژگی ها برای به دست آوردن کلمات مرتبط استفاده می شود و الگوریتم دانه بندی بهینه برای خوشه بندی ویژگی ها در این فرآیند معرفی می شود. دوم، بر اساس نتایج خوشه‌بندی بهینه، تجزیه و تحلیل همزمانی با استفاده از ویژگی‌های ساختار نمودار دانش انجام می‌شود تا کلمات نزدیک به معنای در کلمات مرتبط حذف شوند. سپس، قوانین بر اساس ویژگی های داده های جغرافیایی ساخته می شوند و نتایج با اصلاح قوانین بیشتر بهینه می شوند. در نهایت، مجموعه داده تجربی “کوه، آب، جنگل، مزرعه، دریاچه و چمن” برای تجزیه و تحلیل نتایج استفاده شده است. این آزمایش نشان می‌دهد که این روش می‌تواند به طور موثری دقت، دقت و نرخ یادآوری شناسایی ویژگی مترادف را بهبود بخشد و به عادی‌سازی ویژگی‌های جغرافیایی دایره‌المعارفی دست یابد. بنابراین، این فرآیند نرمال بودن نام ویژگی‌ها را بهبود می‌بخشد و پیامدهای مهمی برای حوزه‌های کاربردی نمودار دانش، مانند جستجوی هوشمند دارد. این روش نه تنها ویژگی‌های مترادف را شناسایی می‌کند، بلکه ویژگی‌های تقریباً مترادف را نیز شناسایی می‌کند، به این معنی که می‌تواند بین عباراتی که دقیقاً از ویژگی‌های مشابهی استفاده نمی‌کنند، ارتباط برقرار کند. در این صفحه، مطالعه نرمال سازی برای تمام داده های ویژگی های جغرافیایی دانشنامه، بدون طبقه بندی دقیق ویژگی های فضایی آن انجام شد. هم ترازی ریزدانه برای ویژگی های جغرافیایی جهت تحقیقات بعدی خواهد بود.

منابع

  1. Deren، LI از Geomatics تا Geospatial Intelligent Service Science. Acta Geod. کارتوگر. گناه 2017 ، 46 ، 1207-1212. [ Google Scholar ] [ CrossRef ]
  2. رولی، جی. سلسله مراتب خرد: بازنمایی های سلسله مراتب DIKW. J. Inf. علمی 2007 ، 33 ، 163-180. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  3. گولج، RG ماهیت اندیشه جغرافیایی. ان دانشیار صبح. Geogr. 2002 ، 92 ، 1-14. [ Google Scholar ] [ CrossRef ]
  4. استولتمن، جی. لیدستون، جی. کیدمن، جی. منشور بین المللی آموزش جغرافیایی 2016. بین المللی Res. Geogr. محیط زیست آموزش. 2017 ، 26 ، 1-2. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  5. دونگ، ایکس. گابریلوویچ، ای. هایتس، جی. هورن، دبلیو. لائو، ن. مورفی، ک. استرومن، تی. سان، اس. ژانگ، دبلیو. خزانه دانش: رویکرد مقیاس وب به آمیختگی دانش احتمالی. در مجموعه مقالات بیستمین کنفرانس بین المللی ACM SIGKDD در مورد کشف دانش و داده کاوی، نیویورک، نیویورک، ایالات متحده آمریکا، 24 تا 27 اوت 2014. ص 601-610. [ Google Scholar ] [ CrossRef ]
  6. جی، اس. پان، اس. کامبریا، ای. مارتینن، پی. فیلیپ، SY بررسی نمودارهای دانش: بازنمایی، اکتساب و کاربردها. IEEE Trans. شبکه عصبی فرا گرفتن. سیستم 2021 ، 33 ، 494-514. [ Google Scholar ] [ CrossRef ]
  7. ژانگ، ن. دنگ، س. چن، اچ. چن، ایکس. چن، جی. لی، ایکس. Zhang، Y. پایگاه دانش ساختاریافته به عنوان دانش قبلی برای بهبود تجزیه و تحلیل داده های شهری. ISPRS Int. J. Geo-Inf. 2018 ، 7 ، 264. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  8. ژانگ، ی. ژو، جی. زو، س. زی، ی. لی، دبلیو. فو، ال. ژانگ، جی. Tan, J. ساخت محیط های فاجعه زمین لغزش مجازی شخصی سازی شده بر اساس نمودارهای دانش و شبکه های عصبی عمیق. بین المللی جی دیجیت. زمین 2020 ، 13 ، 1637-1655. [ Google Scholar ] [ CrossRef ]
  9. سان، ک. هو، ی. آهنگ، جی. Zhu, Y. تراز کردن موجودیت های جغرافیایی از نقشه های تاریخی برای ساختن نمودارهای دانش. بین المللی جی. جئوگر. Inf. علمی 2021 ، 35 ، 2078-2107. [ Google Scholar ] [ CrossRef ]
  10. شن، ی. چن، ز. چنگ، جی. Qu, Y. CKGG: نمودار دانش چینی برای آموزش جغرافیا در دبیرستان و فراتر از آن. در مجموعه مقالات کنفرانس بین المللی وب معنایی، TBA، رویداد مجازی، 24 تا 28 اکتبر 2021؛ Springer: برلین/هایدلبرگ، آلمان، 2021؛ صص 429-445. [ Google Scholar ]
  11. اور، اس. لمان، جی. Hellmann, S. LinkedGeoData: افزودن یک بعد فضایی به وب داده ها. در مجموعه مقالات هشتمین کنفرانس بین المللی وب معنایی (ISWC ’09)، مرکز کنفرانس Westfields، واشنگتن، دی سی، ایالات متحده آمریکا، 25-29 اکتبر 2009. Springer: برلین/هایدلبرگ، آلمان، 2009; صص 731-746. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  12. مالتیز، وی. Farazi, F. A Semantic Schema for GeoNames ; Università Di Trento: ترنتو، ایتالیا، 2013. [ Google Scholar ]
  13. بالاتوره، آ. ویلسون، دی سی؛ برتولتو، ام. بررسی پایگاه‌های دانش جغرافیایی باز داوطلبانه در وب معنایی. در مسائل کیفیت در مدیریت اطلاعات وب ; Springer: برلین/هایدلبرگ، آلمان، 2013; صص 93-120. [ Google Scholar ]
  14. سوشانک، اف.ام. کسنسی، جی. ویکوم، جی. یاگو: هسته ای از دانش معنایی. در مجموعه مقالات شانزدهمین کنفرانس بین المللی وب جهانی، Banff، AB، کانادا، 8 تا 12 مه 2007. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  15. Deng, S. CrowdGeoKG: Crowdsourced Geo-Knowledge Graph. در مجموعه مقالات کنفرانس چین درباره نمودار دانش و محاسبات معنایی، چنگدو، چین، 26 تا 29 اوت 2017. [ Google Scholar ] [ CrossRef ]
  16. اسپیر، آر. حواسی، سی. ConceptNet 5: یک شبکه معنایی بزرگ برای دانش رابطه ای. در The People’s Web Meets NLP ; Springer: برلین/هایدلبرگ، آلمان، 2013; صص 161-176. [ Google Scholar ] [ CrossRef ]
  17. چن، ج. لیو، دبلیو. وو، اچ. مسائل اساسی و دستور کار تحقیقاتی خدمات دانش مکانی. ژئوماتیک و علم اطلاعات دانشگاه ووهان. Geomat. Inf. علمی دانشگاه ووهان 2019 ، 44 ، 38-47. [ Google Scholar ]
  18. دو، سی. سی، دبلیو. Xu, J. Querying and Reasoning of Spatial Relations based on Geographic Semantics. J. Geo-Inf. علمی 2010 ، 12 ، 48-55. [ Google Scholar ] [ CrossRef ]
  19. یانگ، سی. وو، اچ. هوانگ، Q. لی، ز. Jing, L. استفاده از اصول فضایی برای بهینه سازی محاسبات توزیع شده برای فعال کردن اکتشافات علوم فیزیکی. Proc. Natl. آکادمی علمی ایالات متحده آمریکا 2011 ، 108 ، 5498-5503. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  20. چن، ایکس. جیا، اس. Xiang، Y. بررسی: استدلال دانش بر نمودار دانش. سیستم خبره Appl. 2020 , 141 , 112948. [ Google Scholar ] [ CrossRef ]
  21. هایهونگ، ای. چنگ، آر. آهنگ، م. زو، پی. وانگ، زی. روش تعبیه مشترک روابط و صفات برای همسویی موجودیت. بین المللی جی. ماخ. فرا گرفتن. محاسبه کنید. 2020 ، 10 ، 605-611. [ Google Scholar ]
  22. گوناراتنا، ک. تیرونارایان، ک. جین، پی. شث، ا. Wijeratne، S. یک رویکرد مستقل آماری و طرحواره ای برای شناسایی ویژگی های معادل در داده های پیوندی. در مجموعه مقالات نهمین کنفرانس بین المللی سیستم های معنایی، گراتس، اتریش، 4 تا 6 سپتامبر. 2013; صص 33-40. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  23. ژانگ، ز. Gentile, AL; بلومکویست، ای. آگنشتاین، آی. Ciravegna، F. روشی مبتنی بر داده بدون نظارت برای کشف روابط معادل در مجموعه داده‌های مرتبط بزرگ. سمنت. وب 2017 ، 8 ، 197-223. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  24. بائر، اف. Kaltenböck, M. داده های باز پیوندی: ملزومات ; تک رنگ / تک رنگ: وین، اتریش، 2011; جلد 710. [ Google Scholar ]
  25. ریستاد، ES; Yianilos، PN آموزش فاصله ویرایش رشته. IEEE Trans. الگوی مقعدی Mach.-Intell. 1998 ، 20 ، 522-532. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  26. تسوروکا، ی. مکنات، جی. تسوجی، جی. Ananiadou، S. سنجش تشابه رشته یادگیری برای جستجوی فرهنگ لغت نام ژن/پروتئین با استفاده از رگرسیون لجستیک. بیوانفورماتیک 2007 ، 23 ، 2768-2774. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  27. لیو، ی. چن، S.-H.; چن، J.-GG ویژگی همراستایی داده های پیوندی بر اساس شباهت بین توابع. بین المللی J. Database Theory Appl. 2015 ، 8 ، 191-206. [ Google Scholar ] [ CrossRef ]
  28. هوانگ، تی. ژانگ، دبلیو. لیانگ، ایکس. Fu، K. روش مبتنی بر داده برای هم ترازی ویژگی های ریز دانه بین مجموعه داده های باز چینی. J. دانشگاه جنوب شرقی (Nat. Sci. Ed.) 2017 ، 47 ، 660-666. [ Google Scholar ] [ CrossRef ]
  29. اسمید، جی. نرودا، آر. مقایسه مجموعه داده ها بر اساس تراز صفات. در مجموعه مقالات سمپوزیوم IEEE 2014 در زمینه هوش محاسباتی و داده کاوی (CIDM)، اورلاندو، فلوریدا، ایالات متحده آمریکا، 9 تا 12 دسامبر 2014؛ صص 56-62. [ Google Scholar ] [ CrossRef ]
  30. هینتون، GE Learning بازنمایی مفاهیم را توزیع کردند. در مجموعه مقالات هشتمین کنفرانس انجمن علوم شناختی، Amherst، MA، ایالات متحده، 15-17 اوت 1986. [ Google Scholar ]
  31. نیومن، من؛ گیروان، م. یافتن و ارزیابی ساختار جامعه در شبکه ها. فیزیک Rev. E 2004 , 69 , 026113. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  32. بلوندل، وی دی. گیوم، جی. لامبیوت، آر. لوفور، ای. آشکار شدن سریع جوامع در شبکه های بزرگ. J. Stat. مکانیک. تئوری Exp. 2008 ، 2008 ، P10008. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  33. میکولوف، تی. چن، ک. کورادو، جی. Dean, J. برآورد کارآمد نمایش کلمات در فضای برداری. arXiv 2013 , arXiv:1301.3781. [ Google Scholar ]
  34. Chen, Z. رویکردی به اندازه گیری ارتباط معنایی اصطلاحات جغرافیایی با استفاده از اصطلاحنامه و منابع پایگاه داده واژگانی. ISPRS Int. J. Geo-Inf. 2018 ، 7 ، 98. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  35. ژانگ، اس. هو، ی. Bian, G. تحقیق در مورد الگوریتم تشابه رشته ها بر اساس فاصله لونشتاین. در مجموعه مقالات دومین کنفرانس فناوری اطلاعات پیشرفته، کنترل الکترونیک و اتوماسیون IEEE 2017 (IAEAC)، چونگ کینگ، چین، 25 تا 26 مارس 2017؛ IEEE: نیویورک، نیویورک، ایالات متحده آمریکا، 2017؛ ص 2247–2251. [ Google Scholar ]
  36. رن، ایکس. Han, J. کشف مترادف خودکار با پایگاه های دانش. در مجموعه مقالات بیست و سومین کنفرانس بین المللی ACM SIGKDD در مورد کشف دانش و داده کاوی، هالیفاکس، NS، کانادا، 13 تا 17 اوت 2017. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  37. لی، کیو. میکولوف، تی. Com، TG بازنمایی جملات و اسناد را توزیع کرد. در مجموعه مقالات کنفرانس بین المللی یادگیری ماشین، دیترویت، MI، ایالات متحده آمریکا، 3 تا 6 دسامبر 2014. جلد 32، ص 1188–1196. [ Google Scholar ]
شکل 1. نمودار جریان تکنیک عادی سازی ویژگی.
شکل 2. شماتیک تراز خواص.
شکل 3. سیستم طبقه بندی برای داده های ویژگی جغرافیایی.
شکل 4. نمودار دانه بندی خوشه بندی. هر رنگ نشان دهنده یک کلاس و هر دایره نشان دهنده یک گره ویژگی است. ( الف ) طبقه بندی خیلی ریزدانه، اعضایی که باید در A باشند به کلاس های دیگر تقسیم می شوند. ( ب ) طبقه بندی استاندارد، دانه بندی مناسب طبقه بندی. ج ) طبقه بندی خیلی درشت، اعضایی که نباید در A باشند به A تقسیم می شوند.
شکل 5. نمودار جریان تکنیک عادی سازی ویژگی.
شکل 6. نمودار آستانه تشابه 0.7-0.9.
شکل 7. نمودار مقایسه سه روش و نتایج میانگین.

بدون دیدگاه

دیدگاهتان را بنویسید