1. مقدمه
پرس و جوی کلیدواژه مکانی (SKQ) راه اساسی برای برآورده کردن خواسته های مربوط به مکان کاربران و کشف مقادیر بالقوه عظیم داده های بزرگ متنی مکانی است. معمولاً برای توصیه چندین اشیاء فضایی ارزشمند که الزامات مکان و محتوا را به کاربران ارائه می دهند، استفاده می شود. با ظهور مداوم دادههای عظیم مکانی-زمانی و استفاده گسترده از LBS (سرویسهای مبتنی بر مکان)، SKQ به انواع تحقیقات [ 1 ، 2 ، 3 ، 4 ، 5 ] برای رفع نیازهای مختلف کاربران گسترش یافته است. . به عنوان مثال، یک پرس و جو کلمه کلیدی گروه فضایی [ 6 ، 7 ، 8 ]، پرس و جو خط افق کلید واژه فضایی [ 9 ، 10 ]، 11 ]، پرس و جوی کلیدواژه مکانی زمانی [ 12 ، 13 ، 14 ] و غیره. با این حال، حجم عظیم داده و ویژگی های متنی مختلف داده های بزرگ متنی فضایی هنوز چالش هایی را برای کارایی و اثربخشی SKQ، به ویژه در چند متنی ایجاد می کند. پرس و جوهای کلمات کلیدی
با نشان دادن کارایی SKQ، بیشتر ساختارهای شاخص موجود از جدول معکوس [ 1 ، 5 ، 15 ، 16 ]، امضا [ 3 ، 17 ، 18 ] و بیت مپ [ 19 ] تکامل یافته اند.] و غیره برای ویژگی های متنی داده های مکانی. با این حال، آنها نمی توانند مستقیماً روابط شبکه مانند چند به چند بین اشیاء فضایی و کلمات کلیدی متنی را حفظ کنند و پیمایش های پیچیده متعددی برای مقابله با پرس و جوهای چند کلمه کلیدی فضایی در داده های بزرگ متنی فضایی مورد نیاز است. از سوی دیگر، کلمات کلیدی متنی زیاد اغلب ممکن است برای کاربران در تنظیم شرایط پرس و جو مشکل ایجاد کنند. کاربران اغلب فقط ایده های پرس و جوی فازی را بر اساس تجربه و دانش شخصی مغرضانه خود ارائه می دهند که منجر به نتایج نادرست یا ناقص SKQ می شود [ 20 ].
یک مثال ساده که در شکل 1 نشان داده شده است ، تأثیر انتخاب کلمه کلیدی متنی را بر SKQ توضیح می دهد. در آن، هفت شی فضایی آورده شده است، و ویژگی های متنی و موقعیت مکانی آنها در شکل 1 a,b نشان داده شده است. تلاش کاربر برای یافتن چیزی شبیه به “وال مارت” در محدوده فضایی محدود قرار می گیرد، یعنی دایره نقطه چین در شکل 1 ب. به دلیل درک ناکافی “وال مارت” با بسیاری از ویژگی های متنی در این زمینه داده، شرایط پرس و جو 1 و 2 به طور دقیق “وال مارت” را مشخص نمی کند. بنابراین، نتایج پرس و جو آنها نادرست است. فقط پرس و جو 3 دریافت که “وال مارت” “سوپرمارکت” “باز” است و “Costco” (d7) بازیابی شده است.
به طور کلی، داده های بزرگ متنی فضایی حاوی ویژگی های متنی چند بعدی است. این داده ها نه تنها ویژگی های دقیق اشیاء فضایی را غنی می کند، بلکه ارتباطات پیچیده بین اشیاء فضایی را نیز نشان می دهد و SKQ دشوار و کارآمد را ارائه می دهد. اکثر الگوریتم های سنتی SKQ معمولاً از مکان مکانی و کلمات کلیدی متنی به عنوان شرایط پرس و جو برای بازیابی اشیاء فضایی مشابه در مجاورت فضایی و ارتباط متنی استفاده می کنند. با این حال، عدم آگاهی از بافت متنی اغلب رخ می دهد. در این حالت، کاربران ترجیح میدهند قصد پرس و جو خود را با اشیاء مشابه ارائه کنند و اشیاء فضایی مشابه را بیابند [ 6 ، 8 ، 9]، به ویژه در شرایط بسیاری از ویژگی های متنی. بنابراین، کلید SKQ کارآمد، شناسایی سریع اشیاء فضایی مشابه است.
برای روشن شدن شباهت اشیاء فضایی، ما یک مفهوم متنی فضایی (STC) برای رسمی کردن گروهی از اشیاء فضایی مشابه با چندین ویژگی متنی یکسان در یک محدوده فضایی معین پیشنهاد میکنیم. یک STC را می توان با چهار تاپل نشان داد ، یک منطقه فضایی است، مجموعه ای از اشیاء فضایی است، مجموعه ای از ویژگی های متنی است و روابط بین است و . ما همچنین SKQ خاصی را که STC را به عنوان پرسوجو مفهوم فضایی (SCQ) هدف قرار میدهد نام میگذاریم تا به اشیاء متنی فضایی مشابه پاسخ دهد. در مثال نشان داده شده در شکل 1 ، نشان دهنده آن است که در محدوده فضایی ، مفهوم شامل دو شی d3 و d7 است. ویژگی متنی “سوپرمارکت” در یک منطقه فضایی از ; و نشان می دهد که مفهوم “باز” ”سوپرمارکت” است ، “کاستکو”. رابطه چند به چند بین اشیاء فضایی و ویژگی های متنی نیز می تواند ارائه شود. مهمتر از آن، قصد پرس و جو واقعی کاربران ممکن است مستقیماً به عنوان STC شناسایی شود توسط SCQ “Query 3”.
برای نگهداری از STCها در دادههای بزرگ متنی فضایی، یک طرح شاخص جدید و الگوریتمهای top-k SCQ آن باید ایجاد شود. این مقاله یک ساختار شاخص ترکیبی، یک شبکه-درخت، با تعبیه مفهوم شبکه [ 21 ] پیشنهاد می کند.] به گرههای یک ساختار شاخص فضایی مانند درخت R، به منظور ساخت ساختار شاخص STC دادههای بزرگ متنی فضایی، مدل کنید. شبکه مفهومی، که توسط ویل در سال 1982 ارائه شد، به عنوان یک ابزار کاوی دانش شناخته میشود که در آن گرههای مفهومی مجموعهای از اشیاء را با ویژگیهای یکسان توصیف میکنند و پیوندهای بین گرههای مفهومی بیانگر رابطه سلسله مراتبی بین آنهاست. با توجه به روابط چند به چند بین اشیا و ویژگیها که میتوان مستقیماً توسط گرههای مفهومی یک شبکه مفهومی انتزاع کرد، مدل شبکه مفهومی توسط برخی از محققان برای توصیف روابط فضایی [ 22 ]، قوانین تداعی فضایی استخراج [ 23 ] استفاده شده است. ]، و تجزیه و تحلیل انبارهای داده مکانی [ 24] و غیره. در اصل، درخت مشبک هنوز هم نوعی ساختار شاخص درختی است. در آن، با تعبیه شبکه مفهومی در گره های درختی، STC ها در ناحیه فضایی یک گره درختی توسط گره های مفهومی شبکه مفهومی مربوطه نمایه می شوند.
علاوه بر این، این مقاله همچنین الگوریتم top-k SCQ (TkSCQ) را توسعه میدهد تا به طور موثر به STC پاسخ دهد. ورودیهای الگوریتم TkSCQ شامل یک محدوده فضایی و یک شی فضایی است و خروجیها k نزدیکترین شی فضایی مشابه هستند که متعلق به همان STC با شی ورودی هستند. با توجه به تطابق بین STC و گره مفهومی، TkSCQ کارآمد را می توان تنها با یک بار عبور از گره های درختی و گره های مفهومی به دست آورد.
برای ارائه نتایج قابل دسترس و قابل ارزیابی، دو الگوریتم پایه مبتنی بر IR-tree [ 1 ، 2 ] و FP-tree [ 25 ] استفاده می شود و یک سری آزمایش در مورد عملکرد و کارایی انجام می شود. نتایج تجربی کارایی و کارایی روش های پیشنهادی را نشان می دهد.
به طور خلاصه، مشارکت های اصلی به شرح زیر است:
- (1)
-
ما مفهوم متنی فضایی (STC) را برای رسمی کردن مجموعهای از اشیاء فضایی مشابه و توسعه یک ساختار شاخص ترکیبی، یک درخت شبکه، برای نمایهسازی STCها در دادههای بزرگ متنی فضایی تعریف میکنیم. با تعبیه ساختارهای شبکه مفهومی در گرههای R-tree، نه تنها میتواند یک شاخص مکان مکانی درخت مانند را ارائه کند، بلکه روابط چند به چند بین اشیاء فضایی و ویژگیهای متنی را نیز ارائه میکند.
- (2)
-
بر اساس STC، ما همچنین یک الگوریتم پرس و جو مفهوم فضایی top-k (TkSCQ) را برای بازیابی مجموعه ای از اشیاء فضایی مشابه از داده های بزرگ متنی فضایی ایجاد می کنیم. الگوریتم TkSCQ درخواست پرس و جو کاربر را به یک STC تبدیل می کند و اشیاء فضایی مشابه را توسط درخت شبکه بازیابی می کند.
- (3)
-
ما یک سری آزمایش های عملکردی و آزمایش های مقایسه ای را با دو الگوریتم پایه انجام می دهیم. نتایج نشاندهنده کاربرد STC برای دادههای بزرگ متنی فضایی و کارایی درخت شبکه پیشنهادی و TkSCQ است.
ادامه این مقاله به شرح زیر سازماندهی شده است. در بخش 2 ، کار مرتبط را شرح می دهیم. بخش 3 مدل و مشکلی را که میخواهیم حل کنیم رسمیت میدهد. نتایج تجربی در بخش 4 توضیح داده شده است. در نهایت، مقاله کامل را در بخش 5 خلاصه می کنیم .
2. کارهای مرتبط
با توجه به توسعه سریع فناوری اطلاعات، داده های متنی مکانی به راحتی قابل دسترسی هستند و سرویس مبتنی بر مکان به طور گسترده در فعالیت های مختلف انسانی مورد استفاده قرار گرفته است. برخی از روش های پرس و جو توسعه یافته از روش SKQ پایه پیشنهاد شده است. به عنوان مثال، جستجوی کلمه کلیدی گروه فضایی [ 6 ، 7 ، 8 ]، SKQ مبتنی بر پرستیژ [ 26 ]، پرس و جو خط افق کلیدواژه مکانی [ 9 ، 10 ، 11 ]، SKQ جمعی آگاه از سطح [ 27 ]، تطبیق الگوی فضایی [ 28 ] ، SKQ آگاه اجتماعی [ 29 ، 30 ، 31] و غیره بر اساس جستجوی فضایی، این روش ها بیشتر به دقت و کارایی یک جستار ویژگی های متنی توجه می کنند.
با افزایش دادههای بزرگ متنی فضایی، نه تنها حجم دادههای آن، بلکه ساختار آن پیچیدهتر میشود، به این معنی که یک شی فضایی دارای ویژگیهای متنی غیرمکانی بیشتری است. اگرچه این فرصتهای متنوعی را برای غنیسازی برنامههای کاربردی فراهم میکند، اما بازیابی کارآمد و دادهکاوی را نیز دشوار میکند [ 32 ، 33 ]. برای این کار، برخی تلاشها امیدوارند که اشیاء فضایی مشابه با ویژگیهای متنی مشابه برای پاسخ به SKQ شناسایی شوند. جستجوی کلیدواژه گروه فضایی [ 6 ، 7 ، 8 ] سعی میکند یک گروه شی فضایی را بیابد تا به پرسش کلیدواژههای چند متنی به طور جمعی با حداقل هزینه فاصله پاسخ دهد. SKQ مبتنی بر پرستیژ [ 26] محبوب ترین اشیاء را با اعتبار شرایط متنی داده شده بازیابی می کند. علاوه بر این، SKQ جمعی آگاه از سطح [ 27 ] یک الگوی امتیازدهی کلمه کلیدی آگاه به سطح را برای درخواست گروهی از اشیاء مشابه که کلمات کلیدی پرس و جو را به طور جمعی پوشش می دهند، پیشنهاد می کند. اهداف پرس و جو آنها گروهی از اشیاء فضایی مشابه هستند که با کلمات کلیدی پرس و جو مطابقت دارند، اگرچه روند حل آنها متفاوت است.
با انگیزه این، ما سعی می کنیم گروهی از اشیاء فضایی مشابه با ویژگی های متنی مشابه مفهوم متنی فضایی (STC) را رسمی کنیم و پرس و جو آن را به عنوان پرس و جو مفهوم فضایی (SCQ) نشان دهیم.
علاوه بر این، از منظر ساختار شاخص فضایی، اغلب طرح های شاخص فضایی موجود را می توان به عنوان ساختار شاخص ترکیبی در نظر گرفت. آنها از ساختارهای درخت مانند، مانند R-tree [ 1 ، 2 ، 17 ، 34 ، 35 ]، Quadtree [ 3 ، 15 ] و غیره یا ساختارهای غیر درختی، مانند Grid [ 5 ، 36 ]، فضا استفاده می کنند. منحنی پر کردن [ 16 ، 37 ]، و غیره، برای حفظ ویژگی های مکان مکانی. فایل وارونه [ 1 ، 5 ، 15 ، 16 ]، درخت Fp [ 25 ، 38]، امضای [ 3 ، 17 ، 18 ]، بیت مپ [ 19 ] و غیره نیز برای حفظ ویژگیهای متنی غیرمکانی استفاده میشوند. با این حال، با در نظر گرفتن تعداد زیادی از ویژگیهای دقیق ویژگیهای متنی و تداعیهای شیء فراوان آنها، چگونگی یافتن و فهرستبندی کارآمد اشیاء فضایی مشابه از دادههای بزرگ متنی فضایی، موضوع تحقیقاتی داغ باقی مانده است.
از آنجایی که ویژگیهای متنی اشیاء فضایی به راحتی به دادههای ساختاریافته تبدیل میشوند یا میتوانند به راحتی تبدیل شوند، برخی از ساختارهای شاخص کلاسیک ساختار یافته به طور گسترده برای مقابله با بازیابی کلمات کلیدی متنی استفاده شدهاند. برخی از تلاشها [ 2 ، 16 ، 35 ] ساختار مبتنی بر فایل معکوس را در ساختار شاخص فضایی ادغام کردند تا به کلمه کلیدی SKQ پاسخ دهند. آنها برای هر کلمه کلیدی نمایه های مستقل ایجاد می کنند و فقط روابط یک به چند بین ویژگی های متنی و اشیاء فضایی را حفظ می کنند. برای چند کلمه کلیدی SKQ، چندین دور پیمایش کلمه کلیدی و تعداد زیادی عملیات مجموعه توسط ساختار فایل معکوس، به ویژه در داده های بزرگ متنی فضایی مورد نیاز است [ 32 ]. علاوه بر این، بر اساس امضا [ 3] و ساختارهای مبتنی بر bitmap [ 19 ] را می توان به عنوان نسخه گسترده فایل معکوس در نظر گرفت. آنها فقط روابط چند به چند را در چندین کلمه کلیدی خاص حفظ می کنند و بسیاری از عملیات زمان بر مجموعه هنوز برای مقابله با داده های بزرگ متنی فضایی اجتناب ناپذیر است [ 33 ].
در مطالعه شبکههای اجتماعی، روابط چند به چند بین دادههای شبکه اجتماعی معمولاً توسط یک ساختار شبکه برای حفظ چندگانگی [ 39 ] و ناهمگونی [ 40 ] دادههای شبکه اجتماعی نمایه میشوند، به طوری که SKQ آگاه اجتماعی [ 39] 29 ، 30 ، 31 ] قابل دستیابی است. علاوه بر این، برای درک ویژگی های متنی با ابعاد بالا، ایده طبقه بندی چند دانه بندی توسط S2R-tree [ 41 ] و CISK [ 20 ] اعمال شده است.] برای توصیف فضای معنایی با ابعاد بالا و نمودار دانش. S2R-tree اشیاء فضایی را با اطلاعات معنایی با ابعاد بالا بر اساس سلسله مراتب طبقه بندی می کند و CISK اشیاء فضایی مشابه را در مفهوم طبقه بندی می کند.
مفهوم متنی فضایی پیشنهادی همچنین وارث ایده طبقهبندی برای مدلسازی روابط چند به چند بین اشیا و ویژگیها است. بر اساس ساختار شبکه مفهومی، پرس و جو مفهوم فضایی پیشنهادی برای STC می تواند اشیاء فضایی مشابه را مستقیماً بازیابی کند.
شبکه مفهومی [ 21 ] یک ساختار شبکه ای است که روابط سلسله مراتبی بین مفاهیم را نشان می دهد. هر یک از گره های آن مفهومی است که شامل برخی از اشیاء با ویژگی های یکسان است. به طور گسترده ای در بازیابی اطلاعات [ 42 ]، کشف دانش [ 43 ]، تجزیه و تحلیل ارتباط [ 44 ]، سیستم های توصیه گر [ 45 ] و مهندسی نرم افزار [ 46 ] استفاده شده است. بدیهی است که شبکه مفهومی حامل کاملی برای STC برای حمل روابط چند به چند در داده های بزرگ متنی فضایی است.
بنابراین، این مقاله امیدوار است که مدل مفهومی شبکه را برای حفظ STC معرفی کند و یک ساختار شاخص ترکیبی جدید، یک درخت شبکه، برای کشف مکانیسم دستکاری شباهت جسم فضایی پیشنهاد میکند. با تعبیه یک شبکه مفهومی در برخی از گرههای شاخص R-tree، درخت شبکه اطلاعات مکانی و متنی را به روشی یکپارچه در STC ادغام میکند و همه روابط چند به چند در یک گره درختی به طور کامل به عنوان مفاهیم ارائه میشوند. ساختار شبکه مفهومی [ 43]. به جای نمایه سازی اشیاء فضایی، درخت شبکه STC را به عنوان شیء شاخص می گیرد تا بتوان به پرس و جوی کارآمد برای STC دست یافت. الگوریتم مفهوم فضایی Top-k (TkSCQ) برای بازیابی نزدیکترین k به اشیاء فضایی مشابه در یک STC توسعه یافته است. از لحاظ تئوری، به دلیل پوشش کامل شبکه مفهومی به STC [ 44 ]، درخت شبکه میتواند تمام روابط ارزشمند را در دادههای بزرگ متنی مکانی پیدا کند و برای درک دقیق مقاصد پرس و جو مفید است.
3. روش شناسی
3.1. اصول
به عنوان یک روش جدید برای کشف روابط پیچیده بین اشیاء فضایی، مفهوم متنی فضایی پیشنهادی STC برای ارائه گروهی از اشیاء فضایی مشابه با ویژگیهای متنی یکسان در یک منطقه فضایی خاص استفاده میشود. در این بخش، یک سری از تعاریف رسمی از STC ارائه شده است، و ساختار درخت شبکه و طرح بازیابی مفهوم فضایی Top-k (TkSCQ) برای STC پیشنهاد شده است.
Lattice-tree یک ساختار شاخص ترکیبی است که شامل ساختار شاخص درختی و برخی از ساختارهای شبکه مفهومی است. از یک ساختار R-tree برای حفظ اطلاعات مکانی اشیا استفاده می کند و یک ساختار شبکه مفهومی را در یک گره درختی تعبیه می کند تا اطلاعات متنی اشیاء در گره درختی را به عنوان STC سازماندهی کند. ساختار شبکه مفهومی مجموعه کاملی از روابط چند به چند است و حجم آن متناسب با کمیت و پیچیدگی ویژگیهای متنی است، بنابراین فقط برخی از گرههای درختی که دارای تعداد متوسطی از اشیاء هستند حاوی یک شبکه مفهومی هستند. TkSCQ یک الگوریتم بازیابی STC پیشنهادی است که بر اساس درخت شبکه برای دادههای بزرگ متنی فضایی است. با عبور از درخت مشبک،
3.2. فرمولاسیون STC
داده های بزرگ متنی فضایی را می توان به عنوان مجموعه ای از اشیاء فضایی نشان داد، ، جایی که هست شیء فضایی با اطلاعات مکانی و مجموعه ای از ویژگی های متنی . مجموعه کاملی از ویژگی های متنی را نشان می دهد. مجموعه ای از ویژگی های ممکن که یک مکان را نشان می دهد می تواند داشته باشد یا نه، که زیر مجموعه است ، . مجموعه ای از تمام مکان ها را نشان می دهد . به عنوان مثال، “وال مارت” در شکل 1 را می توان با نشان داد مفهوم متنی فضایی (STC) مجموعه ای از اشیاء فضایی را نشان می دهد و ویژگی های متنی مشترک آنها در یک منطقه فضایی در نظر گرفته شده . یک STC را می توان با یک تاپل تعریف کرد، ، جایی که
-
منطقه فضایی در نظر گرفته شده است،
-
، مجموعه ای از اشیاء فضایی است که در ،
-
نشان دهنده ویژگی های مشترک شی فضایی از .
-
جفت ها را نشان می دهد نشان می دهد که شی فضایی که در ویژگی را دارد که در .
علاوه بر این، برای ارائه روابط چند به چند بین اشیاء فضایی و ویژگی های متنی در یک STC، دو عملگر، و ، در زیر تعریف می شوند.
این عملیات نشان می دهد که هر شی فضایی از دارای ویژگی های متنی ، و عملیات نشان دهنده هر ویژگی متنی است از متعلق به مجموعه شی . سپس یک STC باید محدودیت های زیر را برآورده کند: و .
Concept Lattice را می توان برای نشان دادن رابطه سلسله مراتبی بین STC ها استفاده کرد. با توجه به دو STC و که همان منطقه فضایی را پوشش می دهد ، رابطه سفارش جزئی زیر به صورت زیر تعریف می شود:
و مفهوم فرعی نامیده می شود ، ابر مفهوم از نامیده می شود . بر این اساس شبکه مفهومی با توجه به مجموعه STC های موجود در منطقه فضایی را می توان به صورت رسمی به صورت زیر تعریف کرد
جایی که رابطه سفارش جزئی تعریف شده در بالا است.
برای نشان دادن شبکه مفهومی، نمونه ای از داده های موردی در شکل 1 در جدول 1 و شکل 2 نشان داده شده است . به منظور خوانایی، در شکل 2 ، هر STC گزارش شده در گره های شبکه تنها با فهرست کردن مجموعه اشیاء نشان داده می شود و ویژگی های مشترک . منطقه جستجو را می توان به عنوان ناحیه ای درک کرد که شرایط پرس و جو TkSCQ را برآورده می کند (به جزئیات بخش 3.3 مراجعه کنید ). زیرا شی فضایی خارج از منطقه جستجو است، نادیده گرفته می شود و اشیاء به باید در نظر گرفته شود. جدول 1 9 STC را نشان می دهد به : STC برتر است و مفهوم پایین است. ساختار شبکه مفهومی مربوطه در شکل 2 نشان داده شده است .
3.3. مشبک-درخت
شبکه درختی ساختار شاخص ترکیبی پیشنهادی است. ایده اصلی آن تعبیه ساختار شبکه مفهومی در گره های درخت R برای حفظ STC است. مشابه R-tree [ 47 ]، درخت شبکه همچنین از حداقل مستطیل مرزی (MBR) برای تقسیم مناطق فضایی و ساخت یک ساختار شاخص درختی برای نمایه سازی اطلاعات مکانی اشیاء فضایی استفاده می کند. برای ویژگیهای متنی اشیاء فضایی، درخت شبکه یک ساختار شبکه مفهومی را در برخی از گرههای درختی وارد میکند. سپس اطلاعات مکانی و ویژگی های متنی اشیاء فضایی را می توان به صورت یکپارچه در گره های درختی ادغام کرد.
اجازه دهید درخت مشبک باشد، که در آن مجموعه ای از گره های درختی است، و ساختار گره درختی حاوی شناسه گره است، ; گره والد، ; و گره های کودکان، ; سطح گره در درخت، ( گره برگ 0 است و ریشه درخت حداکثر مقدار است). حداقل مستطیل مرزی، ; و ساختار شبکه مفهومی، . محدوده ورودی های گره درخت است، به عنوان مثال، تعداد گره های فرزند گره درخت، و آستانه برای است از گره درختی، که تعیین می کند آیا گره درختی دارای ساختار شبکه مفهومی است یا خیر.
همانطور که در شکل 3 نشان داده شده است ، سه نوع گره درختی در درخت شبکه وجود دارد. وقتی که یک گره درختی در محدوده است ، گره درختی که گره درخت-شبکه نامیده می شود ، حاوی الف است ساختار، در غیر این صورت گره درختی فقط داده های خام اشیاء فضایی را نمایه می کند. دلیل این امر این است که شبکه مفهومی مجموعه کاملی از STC است و داده های بیش از حد، شبکه مفهومی را متورم و ناکارآمد می کند. بنابراین، ما امیدواریم که شبکه مفهومی را فقط در برخی از گرههای درختی با حجم دادههای کوچکتر و بزرگتر تعبیه کنیم. برای رسیدن به عملکرد خوب ارزیابی دقیق این موضوع در بخش 4.2 نشان داده شده است .
فرآیند اولیه سازی درخت شبکه در الگوریتم 1 نشان داده شده است. این یک الگوریتم پیشرو است که می تواند اشیاء فضایی را یک به یک با یک بار پیمایش مجموعه داده های بزرگ متنی فضایی به درخت شبکه وارد کند.
ورودی های آن مجموعه داده های بزرگ متنی فضایی هستند ، پارامتر ورودی های گره درختی، و پارامتر ساختمان شبکه مفهومی، . خروجی آن ساختار شاخص درخت شبکه است . فرآیند اولیه سازی شامل دو مرحله است. ابتدا در خطوط 1 تا 6 ساختار درختی را بر اساس اطلاعات مکانی اشیاء فضایی به صورت تدریجی ایجاد کنید. مشابه الگوریتم کلاسیک اولیه سازی R-tree [ 47 ]، الگوریتم 1 ساختار درختی را ایجاد می کند. با قرار دادن اشیاء فضایی به یک گره درختی که MBR آن را می پوشاند . سپس، در خطوط 7 تا 13، STC ها را تولید می کند و یک ساختار شبکه ای مفهومی ایجاد می کند. در یک گره درختی که هست در . روند ساخت شبکه مفهومی از [ 21 ] ارجاع شده است اما در این مقاله توضیح داده نشده است.
علاوه بر این، فرآیند بهروزرسانی درخت شبکه مشابه الگوریتم 1 است. برخی از اشیاء متنی فضایی جدید را در گرههای درختی وارد کنید و با بهروزرسانی الگوریتم درخت R، ساختار درختی را بهروزرسانی کنید. سپس، گره های شبکه درختی را طی کنید و اشیاء جدید را با فرآیندی که در خطوط 6 تا 10 در الگوریتم 1 شرح داده شده است، در ساختار شبکه مفهومی وارد کنید.
الگوریتم 1: مقدار دهی اولیه درخت شبکه |
ورودی: ، ، ;
خروجی: ;
1: برای هر کدام : //ایجاد ساختار درختی
2: درج به ;
3: اگر :
4: یک گره درختی جدید ایجاد کنید و به روز رسانی کنید ;
5: پایان برای;
6: برای هر کدام : //ایجاد ساختار شبکه مفهومی
7: اگر :
8: مجموعه STC را تولید کنید → ;
9:
10:
11: پایان برای
12: بازگشت |
3.4. پرس و جو مفهوم فضایی Top-k
SCQ را می توان به عنوان یک نسخه بهبود یافته از SKQ اصلی (پرس و جو کلمات کلیدی فضایی) در نظر گرفت. این اشیاء فضایی را یک به یک مطابق با شرایط پرس و جو کاربر مطابقت نمی دهد، اما با تطبیق STC، استنتاج مفهومی را از یک شی هدف انجام می دهد و مجموعه ای از اشیاء فضایی مشابه را برمی گرداند. برای انتخاب شرایط پرس و جو و یکپارچگی نتایج پرس و جو تحت شرایط بسیاری از ویژگی های متنی مفید است.
یک پرس و جو مفهوم فضایی Top-k (TkSKQ) توسط نمایش داده می شود ، جایی که تعداد مورد انتظار نتایج پرس و جو است، موقعیت مکانی پرس و جو است و شی فضایی هدف است. پرس و جو مجموعه ای را برمی گرداند از اشیاء فضایی شبیه به و ، به طوری که (1) ; (2) ، و متعلق به همان STC (3) ، ، و ، ; سپس .
در شکل 1 و شکل 2 ، در تعداد نتایج پرس و جو، ، 1 است، نقطه پرس و جو است که با ستاره در شکل 1 b مشخص شده است، و شی مورد انتظار است. TkSKQ “وال مارت” را می توان به عنوان نشان داد . برای رسیدن به این هدف، ابتدا ویژگیهای متنی «وال مارت» را از درخت شبکه، یعنی {Supermarket, Is Open} بازیابی میکنیم و گرههای شبکه درختی را با MBR کوچکتر، یعنی سطح بزرگتر ، از آن پیدا میکنیم. درخت شبکه، سپس مفهوم ساختار شبکه را برای دستیابی به آن بازیابی می کنیم ( = 1) شی متعلق به همان STC به عنوان “Wal-Mart”، یعنی d7.
نمودار جریان الگوریتم TkSCQ در شکل 4 نشان داده شده است . از پنج مرحله تشکیل شده است. مرحله 1 شرایط پرس و جو را بر اساس ورودی های پرس و جو استنباط می کند. از آنجایی که بسیاری از ویژگی های متنی برای انتخاب دقیق پارامترهای پرس و جو مشکل ایجاد می کنند، مانند مثال پرس و جو در شکل 1 ، ورودی های پرس و جو اغلب ناقص یا نادرست هستند. بنابراین، TkSCQ یک شی فضایی هدف را به عنوان یکی از ورودی های پرس و جو می گیرد و ویژگی های متنی آن را بازیابی می کند. ، و شرایط پرس و جو را تغییر می دهد به . مرحله 2 از درخت شبکه عبور می کند تا مجموعه گره های شبکه درختی را پیدا کند با حداکثر و ، . مرحله 3 مجموعه STC ها را به دست می آورد از جانب . اگر تعداد اشیاء فضایی در کمتر است از ، مرحله 4 “کوچکترین” گره شبکه درختی را با “نزدیکترین” گره شبکه درختی آن جایگزین می کند . میانگین “کوچکترین”، کمترین تعداد اشیاء فضایی و “نزدیکترین” به معنای نزدیکترین گره درخت-شبکه در امتداد ساختار شبکه-درخت است. در غیر این صورت، مرحله 5 همه اشیاء فضایی را بازیابی و مرتب می کند از شبکه درخت به عنوان و برمی گردد نتایج TkSCQ
الگوریتم 2 جزئیات اصلی TkSCQ پیشنهادی را ارائه می دهد. ورودی های آن تعداد مورد انتظار نتیجه پرس و جو هستند ، موقعیت مکانی ، شی فضایی هدف و ساختار شاخص درخت شبکه . خروجی آن مجموعه ای از اشیاء فضایی مرتب شده . مطابق با فرآیند فلوچارت نشان داده شده در شکل 4 ، اجرای هر مرحله شرح داده شده است. در مرحله 1، در خط 1، ویژگی های متنی شی فضایی مورد نظر با پیمایش گره های درختی بازیابی می شوند . مرحله 2، در خطوط 2 تا 8، گره های درخت شبکه را با ، موقعیت مکانی ، و ویژگی های متنی مجموعه . مرحله 3، در خطوط 9 تا 12، ساختار شبکه مفهومی هر گره را در برای بازیابی مجموعه STC ها . مرحله 4، در خطوط 13 تا 18، قضاوت می کند که آیا تعداد اشیاء فضایی موجود است یا خیر ملاقات . اگر نه، گره درختی را با کمترین تعداد اشیاء بازیابی کنید و نزدیکترین گره شبکه درختی آن را به آن اضافه کنید. و به روز رسانی کنید . مرحله 5، در خطوط 19 تا 20، اشیاء فضایی را در تمام STC های طبقه بندی می کند. با فاصله از و k اشیاء فضایی را پیدا می کند به . بالاخره برمی گردد .
از آنجا که دو جزء اصلی، ساختار درخت R و ساختار شبکه مفهومی درخت شبکه دارای کارایی بازیابی لگاریتمی هستند [ 21 ، 47 ]، پیچیدگی زمانی عبور از اشیاء از درخت شبکه را می توان به عنوان . علاوه بر این، مرحله 1 و 2 الگوریتم 2 ساختار درختی و ساختار شبکه را با ، مرحله 3 برخی از ساختارهای شبکه را با ، و مراحل 4 و 5 اشیاء را در ساختارهای شبکه ای مفهومی با . بنابراین، ما فکر می کنیم که پیچیدگی زمانی الگوریتم 2 است .
الگوریتم 2: TkSCQ |
ورودی: ;
خروجی: مجموعه ای از اشیاء فضایی مرتب شده ;
1: تراورس برای بازیابی شی فضایی و اجازه دهید ; //مرحله 1
2: //مرحله 2
3: در حالی که :
4: اگر و ، :
5:
6: اگر :
7: و حذف کنید از جانب
8: پایان در حالی که
9: برای هر کدام : //مرحله 3
10: اگر ،
11: ;
12: پایان برای
13: در حالی که : //مرحله 4
14: = دقیقه ( )
15: = نزدیکترین گره درخت-شبکه از ;
16: درج کنید به ;
17: به روز رسانی ;
18: پایان در حالی که
19: //مرحله 5
20:
21: بازگشت |
4. آزمایش کنید
در این بخش، آزمایشهای گستردهای را برای ارزیابی عملکرد درخت شبکه پیشنهادی و الگوریتم TkSCQ روی یک مجموعه داده واقعی انجام میدهیم. همه آزمایشها بر روی رایانهای با Intel core i5، CPU 3.0 گیگاهرتز، رم 24 گیگابایتی و ویندوز 10 64 بیتی اجرا شد و همه کدهای آزمایشی در پایتون 3.7 و چندین کتابخانه محبوب مانند NumPy، پانداها و غیره نوشته شدند. دادههای آزمایشی، کد و نتایج در https://gitee.com/xapGitee/lattice-tree.git منتشر شدهاند (در 17 آوریل 2022 قابل دسترسی است).
4.1. داده ها و پیش پردازش
برای ارزیابی اثربخشی روش های پیشنهادی، از دو نمونه STDB، yelp و amap استفاده شده است. مجموعه داده yelp مورد استفاده در این مقاله از yelp.com میآید، محبوبترین سایت بررسی در ایالات متحده، که یک مجموعه داده متنی فضایی معمولی “کسب و کار” شامل 192690 شی فضایی با 12 فیلد در ایالات متحده ارائه میکند. این مقاله از مجموعه داده “کسب و کار” به عنوان داده های بزرگ متنی فضایی برای ارزیابی درخت شبکه و TkSCQ استفاده می کند. مورد دیگر یک مجموعه داده POI (نقطه مورد علاقه) از amap.com است که ” amap ” نام دارد که شامل 483990 POI تجاری در شانگهای، چین است.
برای مدل سازی اشیاء فضایی مجموعه داده yelp ، برخی از فیلدها از “کسب و کار” استخراج می شوند. فیلدهای “طول و عرض جغرافیایی” و “طول جغرافیایی” برای اطلاعات مکانی به کار می روند و این 5 فیلد “ستاره ها”، “تعداد_بازبینی”، “باز_باز”، “رده ها” و “ویژگی ها” به 45 ویژگی متنی باینری تبدیل می شوند. آنها 3 ویژگی متنی هستند: S_low ، S_middle ، S_high از “ستاره”; 3 ویژگی، S_low ، S_middle ، S_high از “review_count”; 1 ویژگی Is_open از “Is_open”؛ 26 ویژگی، زیبایی و اسپا ، آموزش ، بهداشت و پزشکی ،خودرو ، بارها ، رسانههای جمعی ، برنامهریزی و خدمات ، خدمات مالی ، خدمات محلی ، طعم محلی ، سالنهای ورزشی ، پارکها ، خدمات خانگی ، تناسب اندام و آموزش ، حیوانات خانگی ، خرید ، سازمانهای مذهبی ، زندگی فعال ، معماران منظر ، خدمات عمومی ، خدمات عمومی رستوران ها ، هتل ها و مسافرت ها ، خدمات حرفه ای ،هنر و سرگرمی , زندگی شبانه , غذا از “دسته ها”؛ و 8 ویژگی، الکل ، سگ مجاز، GoodForDancing، HasTV ، موسیقی ، Open24Hours ، سیگار کشیدن ، WIFI ، RestaurantsTableService ، GoodForKids ، GoodForGroups ، سنین مجاز از “ ویژگی ها”. سپس، داده های بزرگ متنی فضایی ، و .
amap فقط اطلاعات مکان و چند کلمه کلیدی متنی دارد. برای اطمینان از تنوع صحنه های آزمایشی و مقایسه نتایج آزمایشی، ما 30 کلمه کلیدی متنی شبیه سازی شده شبیه به yelp را برای گسترش amap دوباره طراحی کردیم . سپس حجم داده amap با 483990 شی فضایی بیشتر از yelp با 192690 شی فضایی است و پیچیدگی داده amap با 30 کلمه کلیدی متنی کمتر از yelp 45 کلیدواژه است. ، و .
دارای پیچیدگی متنی بالاتر (کلیدواژه های بیشتر) و داده های کمتری نسبت به و مکانیسم نمایه سازی درخت شبکه را می توان با استفاده از آنها به طور جامع بررسی کرد.
4.2. راه اندازی شبکه درختی
در ساختار شاخص شبکه-درخت 2 پارامتر و باید برای مقداردهی اولیه آن در نظر گرفته شود. با توجه به طرح های بالغ موجود [ 1 ، 2 ، 17 ، 34 ، 35 ]، تعداد ورودی های گره درختی اغلب به عنوان [2،4] در نظر گرفته می شود. بنابراین، در این مقاله، Lattice-tree همچنان از این تنظیم استفاده می کند . توسط آن، درخت شبکه از شامل 291678 گره درختی (192609 گره برگ و 99069 گره غیربرگی) در 12 سطح و درخت شبکه از شامل 732340 گره درختی (483990 گره برگ و 248350 گره غیربرگی) در 14 سطح. گره های برگ آنها در سطح 0 قرار دارند و آمار توصیفی گره های درخت در Lattice-tree در جدول 2 نشان داده شده است.
پارامتر دیگر به سطح گره درختی مربوط می شود و تعیین می کند که گره های شبکه درختی در چه سطحی باید ایجاد شوند. برای ارزیابی اثربخشی ، زمان مصرف ساخت گره های شبکه درختی در هر سطح اندازه گیری شده و در شکل 5 نشان داده شده است. بدیهی است که زمان اولیه یک گره شبکه درختی به طور مثبت با تعداد اشیاء فضایی آن مرتبط است و عملکرد سطوح 1 تا 5 بهتر از سایرین است. علاوه بر این، اشیاء بسیار کمی در یک گره شبکه درختی برای بیان و بازیابی روابط پیچیده بین اشیا مساعد نیستند و این گره ها در سطح 1 تا 2 به عنوان گره شبکه درختی مناسب نیستند .
علاوه بر این، برای ارزیابی اثر در درخت شبکه، برخی نتایج مقایسه ای با متفاوت است ، به عنوان مثال، [3،5] یا [6،8]، در شکل 6 نشان داده شده است. چه زمانی ساختار شبکه مفهومی در گره های درختی سطح 3 تا 5 تعبیه می شود . به همین ترتیب، زمانی که ساختار شبکه مفهومی در گره های درختی سطح 6 تا 8 تعبیه می شود. شکل 6 زمان بازیابی را نشان می دهد. با متفاوت . عدد حاصل TkSCQ است. بدیهی است که چه زمانی ، عملکرد به طور قابل توجهی بهتر از آن است . بنابراین، این مجموعه کاغذ برای مقداردهی اولیه ساختار شاخص شبکه-درخت، به عنوان مثال، و .
بر اساس تنظیمات فوق از و ، تأثیر حجم داده بر زمان مقداردهی اولیه در شکل 7 نشان داده شده است . واضح است که زمان اولیه سازی ساختارهای شبکه مفهومی طولانی تر از ساختار درختی است و زمان اولیه سازی درخت شبکه به صورت خطی با حجم داده افزایش می یابد. در نهایت، زمان مقداردهی اولیه همه داده ها 249 ثانیه، ساختار درختی آن 74 ثانیه و ساختارهای شبکه مفهومی آن 175 ثانیه است. به همین ترتیب، زمان اولیه سازی 931 ثانیه، ساختار درختی آن 180 ثانیه و ساختارهای شبکه مفهومی آن 751 ثانیه است.
4.3. ارزیابی و مقایسه
برای ارزیابی عملکرد درخت شبکه، از دو رویکرد پایه به نامهای درخت معکوس و درخت Fpindex که از روشهای موجود اصلاح شدهاند، برای انجام مقایسه استفاده میشود. به طور خاص، درخت معکوس گونهای از IRtree [ 1 ، 2 ] است که ساختار شبکه مفهومی گرههای شبکه درختی در درخت شبکه را به ساختار فایل معکوس جایگزین میکند، و به طور مشابه، درخت Fpindex جایگزین ساختار شبکه مفهومی میشود. ساختار Fptree [ 25 ]. برای دستیابی به نتایج قابل مقایسه، دو رویکرد و درخت شبکه دارای پارامترهای اولیه یکسانی هستند، به عنوان مثال، و . به همین ترتیب، الگوریتم های بازیابی آنها نیز از الگوریتم 2 اصلاح شده و کدهای بازیابی شبکه مفهومی را به کدهای بازیابی درخت IR و Fp-tree جایگزین می کنند. برای جزئیات فایل معکوس و Fptree، که تکرار نخواهد شد، به [ 1 ، 2 ] و [ 25 ] مراجعه کنید.
اول، هزینه زمان اولیه و سربار ذخیره سازی آنها به شرح زیر است. شکل 8 اثر حجم داده را بر زمان مقداردهی اولیه نشان می دهد و . واضح است که درخت معکوس همیشه بهترین است، درخت مشبک از درخت معکوس عقب است و درخت Fpindex بیش از حد طولانی است. با توجه به اینکه درخت معکوس تنها هر ویژگی را در یک فایل معکوس فهرست می کند، کوتاه ترین زمان اولیه سازی 167 ثانیه در این فایل را دارد. و 345 ثانیه در . زمان هزینه اولیه سازی درخت شبکه 249 ثانیه است و 913 ثانیه در زیرا نمایهسازی روابط چند به چند توسط شبکه مفهومی کمی طولانیتر طول میکشد، در حالی که درخت Fpindex در 2304 ثانیه طولانیترین هزینه را صرف میکند. و 1527 ثانیه در برای نمایه سازی روابط همه ترکیبات ویژگی متنی موجود توسط Fptree. اگرچه حجم حدود 2.5 برابر است ، زمان اولیه سازی از تنها 0.7 برابر است . واضح است که زمان اولیه سازی درخت شبکه به پیچیدگی کلمه کلیدی STBD حساس تر است.
شکل 9 سربار ذخیره سازی سه رویکرد را نشان می دهد. به دلیل مکانیسم نمایه سازی آنها، برای هر دو و ، رتبه بندی عملکرد و تفاوت بین آنها مشابه آنچه در شکل 8 است. علاوه بر این، این ساختارهای شاخص درختی دارای همان فضای ذخیره سازی 46 مگابایتی هستند و 118 مگابایت در سربار با همین پارامتر ، و تفاوت ها در ساختار غیر درختی است. به عبارت دیگر، در شبکه مفهومی درخت شبکه 441 مگابایت، فایل وارونه درخت معکوس 33 مگابایت و Fptree درخت Fpindex 4520 مگابایت است. که در ، شبکه مفهومی 1075 مگابایت، فایل معکوس 63 مگابایت و Fptree 2088 مگابایت است. علاوه بر این، تفاوت های درخت شبکه و درخت وارونه بین و با اختلاف حجم داده ها بین و . با این حال، Fpindex-tree با دو مورد دیگر متفاوت است. سربار ذخیره سازی ساختار غیر درختی آن پیچیده تر است نسبت به. تا . این نشان می دهد که Fpindex-tree به پیچیدگی داده ها حساس تر است.
در مرحله بعد، عملکرد TkSCQ در سه جنبه حجم داده، تعداد نتایج پرس و جو k و تعداد کلمات کلیدی متنی اشیاء هدف مشاهده می شود. . توجه داشته باشید که برای نشان دادن اثربخشی بی طرفانه، مکان پرس و جو و ویژگی های متنی همه تصادفی هستند و همه نتایج پرس و جو به طور میانگین 100 بار با شرایط پرس و جو یکسان هستند.
تاثیر حجم داده بر زمان بازیابی با در شکل 10 نشان داده شده است . بدیهی است که درخت شبکه بهترین عملکرد را دارد (3.8 میلی ثانیه در ). درخت معکوس 5.3 میلی ثانیه و درخت Fpindex در 102.4 میلی ثانیه است و در ، آنها به ترتیب 11.5 میلی ثانیه، 14 میلی ثانیه و 129 میلی ثانیه هستند. زمان بازیابی درخت شبکه نسبتاً با حجم داده افزایش می یابد، در حالی که درخت معکوس کمی پشت درخت شبکه قرار دارد و درخت Fpindex بدترین است. این نتایج نشان می دهد که با عملکرد بازیابی درخت شبکه بهتر از سایرین است. زمان بازیابی از 3.8 میلی ثانیه است (حدود 72 درصد درخت معکوس و 4 درصد از درخت Fpindex). 11.5 میلی ثانیه است (حدود 82 درصد از درخت معکوس و 9 درصد از درخت Fpindex).
زمان بازیابی برای با متفاوت در شکل 11 نشان داده شده است . درخت مشبک هنوز هم همیشه بهترین است. علاوه بر این، با افزایش k ، گرههای بیشتری برای یافتن نامزدها باید طی شوند، زمان بازیابی این سه رویکرد تسریع میشود و شکاف بین درخت شبکه و دیگران بزرگتر میشود. چه زمانی ، زمان بازیابی از که در شکل 11 a نشان داده شده است، 12.3 میلی ثانیه است که 63 درصد درخت معکوس و 3 درصد درخت Fpindex است. زمان بازیابی از که در شکل 11 ب نشان داده شده است، 42 میلی ثانیه است که 48 درصد درخت معکوس و 10 درصد درخت Fpindex است.
شکل 12 اثر تعداد کلمه کلیدی شی هدف را نشان می دهد به زمان بازیابی متفاوت از الگوریتم عمومی TkSKQ، ورودی های TkSCQ نقطه مکان هستند. ، عدد نتیجه و شی مورد نظر . شماره کلمه کلیدی مربوط به پیچیدگی پرس و جو است زیرا کلمات کلیدی از باید بازیابی شود تا با ویژگی های متنی اشیاء فضایی مطابقت داشته باشد. در شکل 12 ، نشانگر در محدوده 3 تا 8 قرار دارد. هنگامی که مقدار آن کوچک است (3، 4، یا 5)، عملکرد درخت معکوس کمی بهتر از درخت شبکه است. یا . وقتی مقدار آن بین 5 تا 8 باشد، درخت مشبک به وضوح بهتر از درخت معکوس است و شکاف آنها با افزایش نشانگر افزایش می یابد، در حالی که درخت Fpindex بدترین است. در حالت پیچیده، زمانی که تعداد کلمه کلیدی شی مورد نظر 8 باشد، درخت شبکه بهترین عملکرد را دارد، زمان بازیابی 12 میلی ثانیه است (63 درصد درخت معکوس و 3 درصد درخت Fpindex)، و زمان بازیابی 34 میلی ثانیه است (56٪ درخت معکوس و 15٪ درخت Fpindex).
در این بخش، عملکرد درخت شبکه پیشنهادی در مقایسه با دو ساختار شاخص پایه، درخت معکوس و درخت Fpindex، از نظر هزینه اولیه و TkSCQ اعتبارسنجی میشود. برای یا ، زمان اولیه سازی و سربار ذخیره سازی درخت شبکه کمی بدتر از درخت معکوس است، زیرا درخت معکوس تنها ویژگی های متنی منفرد را نمایه می کند. این بسیار کمتر از Fpindex-tree است که ساختار درختی بزرگی برای نمایه سازی ترکیبی از ویژگی های اشیاء فضایی دارد. با توجه به زمان بازیابی، شکی نیست که ساختار شاخص شبکه-درخت همیشه بهترین عملکرد بازیابی را با حجم داده های مختلف دارد. و شماره کلمه کلیدی شی مورد نظر، به خصوص در مورد شرایط پرس و جو پیچیده. دلیل این امر این است که ساختار شبکه مفهومی می تواند روابط پیچیده بین اشیاء فضایی را در یک ساختار شبکه ای مختصر سازماندهی کند و یک روش جستجوی کارآمد برای بازیابی STC تنها با یک بار عبور از ساختار شبکه ارائه دهد. علاوه بر این، عملکرد بازیابی درخت شبکه نیز پایدارتر از سایرین است و ، در حالی که با افزایش حجم و پیچیدگی داده ها، عملکرد بازیابی درخت معکوس و درخت Fpindex به سرعت کاهش می یابد.
5. نتیجه گیری ها
با انگیزه این واقعیت که دادههای بزرگ متنی فضایی ابعاد بیشتری یافتهاند، حجم عظیم دادهها و پیچیدگی ویژگیهای متنی غیرمکانی، هر دو چالشهایی را برای بازیابی روابط چند به چند بین اشیاء فضایی و ویژگیهای متنی ایجاد کردهاند. استخراج روابط متنی فضایی غنی و استنتاج مقاصد پرس و جوی کاربر ممکن است نتایج رضایت بخش تری را برای کاربر فراهم کند. این مقاله امیدوار است که مفهوم متنی فضایی STC را قادر سازد تا روابط چند به چند را تشکیل دهد و ساختار درخت شبکهای شاخص خاص را برای حفظ آنها توسعه دهد. الگوریتم پرس و جو مفهوم فضایی Top-k (TkSCQ) نیز برای رسیدگی به قصد کاربر و پاسخ به اشیاء فضایی مشابه بر اساس STC توسعه یافته است. مجموعهای از آزمایشهای گسترده بر روی دو مجموعه داده بزرگ متنی فضایی برای ارزیابی درخت شبکه پیشنهادی و TkSCQ در مقایسه با دو رویکرد پایه، درخت معکوس و درخت Fpindex، مستقر شدهاند. نتایج تجربی روی درخت شبکه، عقلانیت ساختار آن را توضیح میدهد و نشان میدهد که وقتی شبکه مفهومی در گرههای درختی سطوح 3 تا 5 تعبیه شده است، عملکرد درخت شبکه بهتر است. نتایج تجربی روی TkSCQ همچنین نشان میدهد که درخت شبکه پیشنهادی به وضوح کارایی بازیابی بهتری دارد، به ویژه در دادههای بزرگ متنی فضایی. وقتی تعداد نتایج پرس و جو 500 باشد، عملکرد بازیابی درخت شبکه در نتایج تجربی روی درخت شبکه، عقلانیت ساختار آن را توضیح میدهد و نشان میدهد که وقتی شبکه مفهومی در گرههای درختی سطوح 3 تا 5 تعبیه شده است، عملکرد درخت شبکه بهتر است. نتایج تجربی روی TkSCQ همچنین نشان میدهد که درخت شبکه پیشنهادی به وضوح کارایی بازیابی بهتری دارد، به ویژه در دادههای بزرگ متنی فضایی. وقتی تعداد نتایج پرس و جو 500 باشد، عملکرد بازیابی درخت شبکه در نتایج تجربی روی درخت شبکه، عقلانیت ساختار آن را توضیح میدهد و نشان میدهد که وقتی شبکه مفهومی در گرههای درختی سطوح 3 تا 5 تعبیه شده است، عملکرد درخت شبکه بهتر است. نتایج تجربی روی TkSCQ همچنین نشان میدهد که درخت شبکه پیشنهادی به وضوح کارایی بازیابی بهتری دارد، به ویژه در دادههای بزرگ متنی فضایی. وقتی تعداد نتایج پرس و جو 500 باشد، عملکرد بازیابی درخت شبکه در حدود 1.6 برابر درخت معکوس و 35 برابر درخت Fpindex است و عملکرد بازیابی درخت شبکه در تقریباً دو برابر درخت معکوس و 10 برابر درخت Fpindex است. علاوه بر این، در و با حجم داده ها و پیچیدگی کلمات کلیدی متفاوت، درخت شبکه همیشه عملکرد بازیابی پایدارتری نسبت به دو روش دیگر نشان می دهد.
کارهای آینده در سه جهت زیر انجام خواهد شد. ابتدا، مقیاس پذیری درخت شبکه با مجموعه داده های بزرگتر مورد بررسی قرار می گیرد. دوم، اندازه درخت شبکه نمی تواند به طور نامحدود رشد کند. به این ترتیب، یک شاخص پارتیشن بندی شده انعطاف پذیرتر ممکن است یک جایگزین باشد. سوم، ساختار درختی درخت شبکه ممکن است برای کشف امکان بهبود بیشتر عملکرد آن بهینه شود.
بدون دیدگاه