به عنوان یک روش اساسی برای عملیات داده های مکانی، پرس و جو کلمه کلیدی مکانی می تواند اطلاعات معناداری را برای برآورده کردن خواسته های کاربر با جستجوی مجموعه داده های متنی مکانی ارائه دهد. چگونگی درک دقیق مقاصد کاربران و بازیابی کارآمد نتایج از داده‌های بزرگ متنی فضایی همیشه در کانون تحقیقات است. داده‌های بزرگ متنی فضایی و همبستگی پیچیده آنها بین ویژگی‌های متنی نه تنها مفهوم اشیاء فضایی را غنی می‌سازد، بلکه برای شناسایی و بازیابی کارآمد اشیاء فضایی مشابه نیز مشکلاتی ایجاد می‌کند. از آنجا که روابط بسیار زیادی بین اشیاء فضایی عظیم و ویژگی های متنی وجود دارد، اکثر نتایج تحقیقات موجود که از ساختارهای درخت مانند و جدول مانند برای نمایه سازی داده های مکانی و داده های متنی استفاده می کنند، در بازیابی اشیاء فضایی مشابه ناکارآمد هستند. . در این صفحه، در ابتدا، مفهوم متنی فضایی (STC) را به عنوان گروهی از اشیاء فضایی با کلمات کلیدی متنی یکسان در یک منطقه فضایی محدود تعریف می‌کنیم تا روابط چند به چند بین اشیاء فضایی و ویژگی‌های متنی را ارائه دهیم. سپس ما سعی می‌کنیم مدل شبکه مفهومی را برای حفظ گروهی از STCهای مرتبط معرفی کنیم و یک ساختار شاخص فضایی درخت‌مانند ترکیبی، درخت شبکه، برای داده‌های بزرگ متنی فضایی پیشنهاد کنیم. Lattice-tree از R-tree برای نمایه سازی مکان فضایی اشیا استفاده می کند و یک ساختار شبکه مفهومی را در گره های درختی خاص تعبیه می کند تا مجموعه STC را از تعداد زیادی از کلمات کلیدی متنی اشیا و روابط آنها سازماندهی کند. بر این اساس، ما همچنین یک پرس و جوی کلیدواژه فضایی جدید، به نام پرس و جو مفهوم فضایی Top-k (TkSCQ)، برای پاسخ به STC و بازیابی اشیاء فضایی مشابه با ویژگی های متنی متعدد پیشنهاد می کنیم. این مطالعه تجربی بر روی دو مجموعه داده های بزرگ متنی فضایی از Yelp و Amap انجام شده است. آزمایش‌ها بر روی درخت شبکه امکان‌سنجی آن را تأیید می‌کند و نشان می‌دهد که جاسازی ساختار شبکه مفهومی در گره‌های درختی 3 تا 5 سطح کارآمد است. آزمایش‌ها روی TkSCQ شبکه را از نتایج، کلمات کلیدی، حجم داده‌ها و غیره ارزیابی می‌کنند و دو ساختار شاخص پایه مبتنی بر IR-tree و Fp-tree، به نام‌های درخت معکوس و Fpindex-tree، برای مقایسه با شبکه توسعه داده شده‌اند. درخت روی مجموعه داده های Yelp و Amap. نتایج تجربی نشان می‌دهد که درخت شبکه در اکثر موارد کارایی بازیابی بهتری دارد، به‌ویژه در مورد مقادیر زیاد پرس‌و‌جوهای داده، که در آن عملکرد بازیابی درخت شبکه بسیار بهتر از درخت معکوس و درخت Fpindex است. آزمایش‌ها بر روی درخت شبکه امکان‌سنجی آن را تأیید می‌کند و نشان می‌دهد که جاسازی ساختار شبکه مفهومی در گره‌های درختی 3 تا 5 سطح کارآمد است. آزمایش‌ها روی TkSCQ شبکه را از نتایج، کلمات کلیدی، حجم داده‌ها و غیره ارزیابی می‌کنند و دو ساختار شاخص پایه مبتنی بر IR-tree و Fp-tree، به نام‌های درخت معکوس و Fpindex-tree، برای مقایسه با شبکه توسعه داده شده‌اند. درخت روی مجموعه داده های Yelp و Amap. نتایج تجربی نشان می‌دهد که درخت شبکه در اکثر موارد کارایی بازیابی بهتری دارد، به‌ویژه در مورد مقادیر زیاد پرس‌و‌جوهای داده، که در آن عملکرد بازیابی درخت شبکه بسیار بهتر از درخت معکوس و درخت Fpindex است. آزمایش‌ها بر روی درخت شبکه امکان‌سنجی آن را تأیید می‌کند و نشان می‌دهد که جاسازی ساختار شبکه مفهومی در گره‌های درختی 3 تا 5 سطح کارآمد است. آزمایش‌ها روی TkSCQ شبکه را از نتایج، کلمات کلیدی، حجم داده‌ها و غیره ارزیابی می‌کنند و دو ساختار شاخص پایه مبتنی بر IR-tree و Fp-tree، به نام‌های درخت معکوس و Fpindex-tree، برای مقایسه با شبکه توسعه داده شده‌اند. درخت روی مجموعه داده های Yelp و Amap. نتایج تجربی نشان می‌دهد که درخت شبکه در اکثر موارد کارایی بازیابی بهتری دارد، به‌ویژه در مورد مقادیر زیاد پرس‌و‌جوهای داده، که در آن عملکرد بازیابی درخت شبکه بسیار بهتر از درخت معکوس و درخت Fpindex است. آزمایش‌ها روی TkSCQ شبکه را از نتایج، کلمات کلیدی، حجم داده‌ها و غیره ارزیابی می‌کنند و دو ساختار شاخص پایه مبتنی بر IR-tree و Fp-tree، به نام‌های درخت معکوس و Fpindex-tree، برای مقایسه با شبکه توسعه داده شده‌اند. درخت روی مجموعه داده های Yelp و Amap. نتایج تجربی نشان می‌دهد که درخت شبکه در اکثر موارد کارایی بازیابی بهتری دارد، به‌ویژه در مورد مقادیر زیاد پرس‌و‌جوهای داده، که در آن عملکرد بازیابی درخت شبکه بسیار بهتر از درخت معکوس و درخت Fpindex است. آزمایش‌ها روی TkSCQ شبکه را از نتایج، کلمات کلیدی، حجم داده‌ها و غیره ارزیابی می‌کنند و دو ساختار شاخص پایه مبتنی بر IR-tree و Fp-tree، به نام‌های درخت معکوس و Fpindex-tree، برای مقایسه با شبکه توسعه داده شده‌اند. درخت روی مجموعه داده های Yelp و Amap. نتایج تجربی نشان می‌دهد که درخت شبکه در اکثر موارد کارایی بازیابی بهتری دارد، به‌ویژه در مورد مقادیر زیاد پرس‌و‌جوهای داده، که در آن عملکرد بازیابی درخت شبکه بسیار بهتر از درخت معکوس و درخت Fpindex است.

کلید واژه ها:

پرس و جو مفهوم فضایی Top-k ; مشبک درخت ; شبکه مفهومی ; داده های بزرگ متنی مکانی

1. مقدمه

پرس و جوی کلیدواژه مکانی (SKQ) راه اساسی برای برآورده کردن خواسته های مربوط به مکان کاربران و کشف مقادیر بالقوه عظیم داده های بزرگ متنی مکانی است. معمولاً برای توصیه چندین اشیاء فضایی ارزشمند که الزامات مکان و محتوا را به کاربران ارائه می دهند، استفاده می شود. با ظهور مداوم داده‌های عظیم مکانی-زمانی و استفاده گسترده از LBS (سرویس‌های مبتنی بر مکان)، SKQ به انواع تحقیقات [ 1 ، 2 ، 3 ، 4 ، 5 ] برای رفع نیازهای مختلف کاربران گسترش یافته است. . به عنوان مثال، یک پرس و جو کلمه کلیدی گروه فضایی [ 6 ، 7 ، 8 ]، پرس و جو خط افق کلید واژه فضایی [ 9 ، 10 ]، 11 ]، پرس و جوی کلیدواژه مکانی زمانی [ 12 ، 13 ، 14 ] و غیره. با این حال، حجم عظیم داده و ویژگی های متنی مختلف داده های بزرگ متنی فضایی هنوز چالش هایی را برای کارایی و اثربخشی SKQ، به ویژه در چند متنی ایجاد می کند. پرس و جوهای کلمات کلیدی
با نشان دادن کارایی SKQ، بیشتر ساختارهای شاخص موجود از جدول معکوس [ 1 ، 5 ، 15 ، 16 ]، امضا [ 3 ، 17 ، 18 ] و بیت مپ [ 19 ] تکامل یافته اند.] و غیره برای ویژگی های متنی داده های مکانی. با این حال، آنها نمی توانند مستقیماً روابط شبکه مانند چند به چند بین اشیاء فضایی و کلمات کلیدی متنی را حفظ کنند و پیمایش های پیچیده متعددی برای مقابله با پرس و جوهای چند کلمه کلیدی فضایی در داده های بزرگ متنی فضایی مورد نیاز است. از سوی دیگر، کلمات کلیدی متنی زیاد اغلب ممکن است برای کاربران در تنظیم شرایط پرس و جو مشکل ایجاد کنند. کاربران اغلب فقط ایده های پرس و جوی فازی را بر اساس تجربه و دانش شخصی مغرضانه خود ارائه می دهند که منجر به نتایج نادرست یا ناقص SKQ می شود [ 20 ].
یک مثال ساده که در شکل 1 نشان داده شده است ، تأثیر انتخاب کلمه کلیدی متنی را بر SKQ توضیح می دهد. در آن، هفت شی فضایی آورده شده است، و ویژگی های متنی و موقعیت مکانی آنها در شکل 1 a,b نشان داده شده است. تلاش کاربر برای یافتن چیزی شبیه به “وال مارت” در محدوده فضایی محدود قرار می گیرد، یعنی دایره نقطه چین در شکل 1 ب. به دلیل درک ناکافی “وال مارت” با بسیاری از ویژگی های متنی در این زمینه داده، شرایط پرس و جو 1 و 2 به طور دقیق “وال مارت” را مشخص نمی کند. بنابراین، نتایج پرس و جو آنها نادرست است. فقط پرس و جو 3 دریافت که “وال مارت” “سوپرمارکت” “باز” ​​است و “Costco” (d7) بازیابی شده است.
به طور کلی، داده های بزرگ متنی فضایی حاوی ویژگی های متنی چند بعدی است. این داده ها نه تنها ویژگی های دقیق اشیاء فضایی را غنی می کند، بلکه ارتباطات پیچیده بین اشیاء فضایی را نیز نشان می دهد و SKQ دشوار و کارآمد را ارائه می دهد. اکثر الگوریتم های سنتی SKQ معمولاً از مکان مکانی و کلمات کلیدی متنی به عنوان شرایط پرس و جو برای بازیابی اشیاء فضایی مشابه در مجاورت فضایی و ارتباط متنی استفاده می کنند. با این حال، عدم آگاهی از بافت متنی اغلب رخ می دهد. در این حالت، کاربران ترجیح می‌دهند قصد پرس و جو خود را با اشیاء مشابه ارائه کنند و اشیاء فضایی مشابه را بیابند [ 6 ، 8 ، 9]، به ویژه در شرایط بسیاری از ویژگی های متنی. بنابراین، کلید SKQ کارآمد، شناسایی سریع اشیاء فضایی مشابه است.
برای روشن شدن شباهت اشیاء فضایی، ما یک مفهوم متنی فضایی (STC) برای رسمی کردن گروهی از اشیاء فضایی مشابه با چندین ویژگی متنی یکسان در یک محدوده فضایی معین پیشنهاد می‌کنیم. یک STC را می توان با چهار تاپل نشان داد ، یک منطقه فضایی است، مجموعه ای از اشیاء فضایی است، مجموعه ای از ویژگی های متنی است و روابط بین است و . ما همچنین SKQ خاصی را که STC را به عنوان پرس‌وجو مفهوم فضایی (SCQ) هدف قرار می‌دهد نام می‌گذاریم تا به اشیاء متنی فضایی مشابه پاسخ دهد. در مثال نشان داده شده در شکل 1 ، نشان دهنده آن است که در محدوده فضایی ، مفهوم شامل دو شی d3 و d7 است. ویژگی متنی “سوپرمارکت” در یک منطقه فضایی از ; و نشان می دهد که مفهوم “باز” ​​”سوپرمارکت” است ، “کاستکو”. رابطه چند به چند بین اشیاء فضایی و ویژگی های متنی نیز می تواند ارائه شود. مهمتر از آن، قصد پرس و جو واقعی کاربران ممکن است مستقیماً به عنوان STC شناسایی شود توسط SCQ “Query 3”.
برای نگهداری از STCها در داده‌های بزرگ متنی فضایی، یک طرح شاخص جدید و الگوریتم‌های top-k SCQ آن باید ایجاد شود. این مقاله یک ساختار شاخص ترکیبی، یک شبکه-درخت، با تعبیه مفهوم شبکه [ 21 ] پیشنهاد می کند.] به گره‌های یک ساختار شاخص فضایی مانند درخت R، به منظور ساخت ساختار شاخص STC داده‌های بزرگ متنی فضایی، مدل کنید. شبکه مفهومی، که توسط ویل در سال 1982 ارائه شد، به عنوان یک ابزار کاوی دانش شناخته می‌شود که در آن گره‌های مفهومی مجموعه‌ای از اشیاء را با ویژگی‌های یکسان توصیف می‌کنند و پیوندهای بین گره‌های مفهومی بیانگر رابطه سلسله مراتبی بین آنهاست. با توجه به روابط چند به چند بین اشیا و ویژگی‌ها که می‌توان مستقیماً توسط گره‌های مفهومی یک شبکه مفهومی انتزاع کرد، مدل شبکه مفهومی توسط برخی از محققان برای توصیف روابط فضایی [ 22 ]، قوانین تداعی فضایی استخراج [ 23 ] استفاده شده است. ]، و تجزیه و تحلیل انبارهای داده مکانی [ 24] و غیره. در اصل، درخت مشبک هنوز هم نوعی ساختار شاخص درختی است. در آن، با تعبیه شبکه مفهومی در گره های درختی، STC ها در ناحیه فضایی یک گره درختی توسط گره های مفهومی شبکه مفهومی مربوطه نمایه می شوند.
علاوه بر این، این مقاله همچنین الگوریتم top-k SCQ (TkSCQ) را توسعه می‌دهد تا به طور موثر به STC پاسخ دهد. ورودی‌های الگوریتم TkSCQ شامل یک محدوده فضایی و یک شی فضایی است و خروجی‌ها k نزدیک‌ترین شی فضایی مشابه هستند که متعلق به همان STC با شی ورودی هستند. با توجه به تطابق بین STC و گره مفهومی، TkSCQ کارآمد را می توان تنها با یک بار عبور از گره های درختی و گره های مفهومی به دست آورد.
برای ارائه نتایج قابل دسترس و قابل ارزیابی، دو الگوریتم پایه مبتنی بر IR-tree [ 1 ، 2 ] و FP-tree [ 25 ] استفاده می شود و یک سری آزمایش در مورد عملکرد و کارایی انجام می شود. نتایج تجربی کارایی و کارایی روش های پیشنهادی را نشان می دهد.
به طور خلاصه، مشارکت های اصلی به شرح زیر است:
(1)
ما مفهوم متنی فضایی (STC) را برای رسمی کردن مجموعه‌ای از اشیاء فضایی مشابه و توسعه یک ساختار شاخص ترکیبی، یک درخت شبکه، برای نمایه‌سازی STCها در داده‌های بزرگ متنی فضایی تعریف می‌کنیم. با تعبیه ساختارهای شبکه مفهومی در گره‌های R-tree، نه تنها می‌تواند یک شاخص مکان مکانی درخت مانند را ارائه کند، بلکه روابط چند به چند بین اشیاء فضایی و ویژگی‌های متنی را نیز ارائه می‌کند.
(2)
بر اساس STC، ما همچنین یک الگوریتم پرس و جو مفهوم فضایی top-k (TkSCQ) را برای بازیابی مجموعه ای از اشیاء فضایی مشابه از داده های بزرگ متنی فضایی ایجاد می کنیم. الگوریتم TkSCQ درخواست پرس و جو کاربر را به یک STC تبدیل می کند و اشیاء فضایی مشابه را توسط درخت شبکه بازیابی می کند.
(3)
ما یک سری آزمایش های عملکردی و آزمایش های مقایسه ای را با دو الگوریتم پایه انجام می دهیم. نتایج نشان‌دهنده کاربرد STC برای داده‌های بزرگ متنی فضایی و کارایی درخت شبکه پیشنهادی و TkSCQ است.
ادامه این مقاله به شرح زیر سازماندهی شده است. در بخش 2 ، کار مرتبط را شرح می دهیم. بخش 3 مدل و مشکلی را که می‌خواهیم حل کنیم رسمیت می‌دهد. نتایج تجربی در بخش 4 توضیح داده شده است. در نهایت، مقاله کامل را در بخش 5 خلاصه می کنیم .

2. کارهای مرتبط

با توجه به توسعه سریع فناوری اطلاعات، داده های متنی مکانی به راحتی قابل دسترسی هستند و سرویس مبتنی بر مکان به طور گسترده در فعالیت های مختلف انسانی مورد استفاده قرار گرفته است. برخی از روش های پرس و جو توسعه یافته از روش SKQ پایه پیشنهاد شده است. به عنوان مثال، جستجوی کلمه کلیدی گروه فضایی [ 6 ، 7 ، 8 ]، SKQ مبتنی بر پرستیژ [ 26 ]، پرس و جو خط افق کلیدواژه مکانی [ 9 ، 10 ، 11 ]، SKQ جمعی آگاه از سطح [ 27 ]، تطبیق الگوی فضایی [ 28 ] ، SKQ آگاه اجتماعی [ 29 ، 30 ، 31] و غیره بر اساس جستجوی فضایی، این روش ها بیشتر به دقت و کارایی یک جستار ویژگی های متنی توجه می کنند.
با افزایش داده‌های بزرگ متنی فضایی، نه تنها حجم داده‌های آن، بلکه ساختار آن پیچیده‌تر می‌شود، به این معنی که یک شی فضایی دارای ویژگی‌های متنی غیرمکانی بیشتری است. اگرچه این فرصت‌های متنوعی را برای غنی‌سازی برنامه‌های کاربردی فراهم می‌کند، اما بازیابی کارآمد و داده‌کاوی را نیز دشوار می‌کند [ 32 ، 33 ]. برای این کار، برخی تلاش‌ها امیدوارند که اشیاء فضایی مشابه با ویژگی‌های متنی مشابه برای پاسخ به SKQ شناسایی شوند. جستجوی کلیدواژه گروه فضایی [ 6 ، 7 ، 8 ] سعی می‌کند یک گروه شی فضایی را بیابد تا به پرسش کلیدواژه‌های چند متنی به طور جمعی با حداقل هزینه فاصله پاسخ دهد. SKQ مبتنی بر پرستیژ [ 26] محبوب ترین اشیاء را با اعتبار شرایط متنی داده شده بازیابی می کند. علاوه بر این، SKQ جمعی آگاه از سطح [ 27 ] یک الگوی امتیازدهی کلمه کلیدی آگاه به سطح را برای درخواست گروهی از اشیاء مشابه که کلمات کلیدی پرس و جو را به طور جمعی پوشش می دهند، پیشنهاد می کند. اهداف پرس و جو آنها گروهی از اشیاء فضایی مشابه هستند که با کلمات کلیدی پرس و جو مطابقت دارند، اگرچه روند حل آنها متفاوت است.
با انگیزه این، ما سعی می کنیم گروهی از اشیاء فضایی مشابه با ویژگی های متنی مشابه مفهوم متنی فضایی (STC) را رسمی کنیم و پرس و جو آن را به عنوان پرس و جو مفهوم فضایی (SCQ) نشان دهیم.
علاوه بر این، از منظر ساختار شاخص فضایی، اغلب طرح های شاخص فضایی موجود را می توان به عنوان ساختار شاخص ترکیبی در نظر گرفت. آنها از ساختارهای درخت مانند، مانند R-tree [ 1 ، 2 ، 17 ، 34 ، 35 ]، Quadtree [ 3 ، 15 ] و غیره یا ساختارهای غیر درختی، مانند Grid [ 5 ، 36 ]، فضا استفاده می کنند. منحنی پر کردن [ 16 ، 37 ]، و غیره، برای حفظ ویژگی های مکان مکانی. فایل وارونه [ 1 ، 5 ، 15 ، 16 ]، درخت Fp [ 25 ، 38]، امضای [ 3 ، 17 ، 18 ]، بیت مپ [ 19 ] و غیره نیز برای حفظ ویژگی‌های متنی غیرمکانی استفاده می‌شوند. با این حال، با در نظر گرفتن تعداد زیادی از ویژگی‌های دقیق ویژگی‌های متنی و تداعی‌های شیء فراوان آن‌ها، چگونگی یافتن و فهرست‌بندی کارآمد اشیاء فضایی مشابه از داده‌های بزرگ متنی فضایی، موضوع تحقیقاتی داغ باقی مانده است.
از آنجایی که ویژگی‌های متنی اشیاء فضایی به راحتی به داده‌های ساختاریافته تبدیل می‌شوند یا می‌توانند به راحتی تبدیل شوند، برخی از ساختارهای شاخص کلاسیک ساختار یافته به طور گسترده برای مقابله با بازیابی کلمات کلیدی متنی استفاده شده‌اند. برخی از تلاش‌ها [ 2 ، 16 ، 35 ] ساختار مبتنی بر فایل معکوس را در ساختار شاخص فضایی ادغام کردند تا به کلمه کلیدی SKQ پاسخ دهند. آنها برای هر کلمه کلیدی نمایه های مستقل ایجاد می کنند و فقط روابط یک به چند بین ویژگی های متنی و اشیاء فضایی را حفظ می کنند. برای چند کلمه کلیدی SKQ، چندین دور پیمایش کلمه کلیدی و تعداد زیادی عملیات مجموعه توسط ساختار فایل معکوس، به ویژه در داده های بزرگ متنی فضایی مورد نیاز است [ 32 ]. علاوه بر این، بر اساس امضا [ 3] و ساختارهای مبتنی بر bitmap [ 19 ] را می توان به عنوان نسخه گسترده فایل معکوس در نظر گرفت. آنها فقط روابط چند به چند را در چندین کلمه کلیدی خاص حفظ می کنند و بسیاری از عملیات زمان بر مجموعه هنوز برای مقابله با داده های بزرگ متنی فضایی اجتناب ناپذیر است [ 33 ].
در مطالعه شبکه‌های اجتماعی، روابط چند به چند بین داده‌های شبکه اجتماعی معمولاً توسط یک ساختار شبکه برای حفظ چندگانگی [ 39 ] و ناهمگونی [ 40 ] داده‌های شبکه اجتماعی نمایه می‌شوند، به طوری که SKQ آگاه اجتماعی [ 39] 29 ، 30 ، 31 ] قابل دستیابی است. علاوه بر این، برای درک ویژگی های متنی با ابعاد بالا، ایده طبقه بندی چند دانه بندی توسط S2R-tree [ 41 ] و CISK [ 20 ] اعمال شده است.] برای توصیف فضای معنایی با ابعاد بالا و نمودار دانش. S2R-tree اشیاء فضایی را با اطلاعات معنایی با ابعاد بالا بر اساس سلسله مراتب طبقه بندی می کند و CISK اشیاء فضایی مشابه را در مفهوم طبقه بندی می کند.
مفهوم متنی فضایی پیشنهادی همچنین وارث ایده طبقه‌بندی برای مدل‌سازی روابط چند به چند بین اشیا و ویژگی‌ها است. بر اساس ساختار شبکه مفهومی، پرس و جو مفهوم فضایی پیشنهادی برای STC می تواند اشیاء فضایی مشابه را مستقیماً بازیابی کند.
شبکه مفهومی [ 21 ] یک ساختار شبکه ای است که روابط سلسله مراتبی بین مفاهیم را نشان می دهد. هر یک از گره های آن مفهومی است که شامل برخی از اشیاء با ویژگی های یکسان است. به طور گسترده ای در بازیابی اطلاعات [ 42 ]، کشف دانش [ 43 ]، تجزیه و تحلیل ارتباط [ 44 ]، سیستم های توصیه گر [ 45 ] و مهندسی نرم افزار [ 46 ] استفاده شده است. بدیهی است که شبکه مفهومی حامل کاملی برای STC برای حمل روابط چند به چند در داده های بزرگ متنی فضایی است.
بنابراین، این مقاله امیدوار است که مدل مفهومی شبکه را برای حفظ STC معرفی کند و یک ساختار شاخص ترکیبی جدید، یک درخت شبکه، برای کشف مکانیسم دستکاری شباهت جسم فضایی پیشنهاد می‌کند. با تعبیه یک شبکه مفهومی در برخی از گره‌های شاخص R-tree، درخت شبکه اطلاعات مکانی و متنی را به روشی یکپارچه در STC ادغام می‌کند و همه روابط چند به چند در یک گره درختی به طور کامل به عنوان مفاهیم ارائه می‌شوند. ساختار شبکه مفهومی [ 43]. به جای نمایه سازی اشیاء فضایی، درخت شبکه STC را به عنوان شیء شاخص می گیرد تا بتوان به پرس و جوی کارآمد برای STC دست یافت. الگوریتم مفهوم فضایی Top-k (TkSCQ) برای بازیابی نزدیکترین k به اشیاء فضایی مشابه در یک STC توسعه یافته است. از لحاظ تئوری، به دلیل پوشش کامل شبکه مفهومی به STC [ 44 ]، درخت شبکه می‌تواند تمام روابط ارزشمند را در داده‌های بزرگ متنی مکانی پیدا کند و برای درک دقیق مقاصد پرس و جو مفید است.

3. روش شناسی

3.1. اصول

به عنوان یک روش جدید برای کشف روابط پیچیده بین اشیاء فضایی، مفهوم متنی فضایی پیشنهادی STC برای ارائه گروهی از اشیاء فضایی مشابه با ویژگی‌های متنی یکسان در یک منطقه فضایی خاص استفاده می‌شود. در این بخش، یک سری از تعاریف رسمی از STC ارائه شده است، و ساختار درخت شبکه و طرح بازیابی مفهوم فضایی Top-k (TkSCQ) برای STC پیشنهاد شده است.
Lattice-tree یک ساختار شاخص ترکیبی است که شامل ساختار شاخص درختی و برخی از ساختارهای شبکه مفهومی است. از یک ساختار R-tree برای حفظ اطلاعات مکانی اشیا استفاده می کند و یک ساختار شبکه مفهومی را در یک گره درختی تعبیه می کند تا اطلاعات متنی اشیاء در گره درختی را به عنوان STC سازماندهی کند. ساختار شبکه مفهومی مجموعه کاملی از روابط چند به چند است و حجم آن متناسب با کمیت و پیچیدگی ویژگی‌های متنی است، بنابراین فقط برخی از گره‌های درختی که دارای تعداد متوسطی از اشیاء هستند حاوی یک شبکه مفهومی هستند. TkSCQ یک الگوریتم بازیابی STC پیشنهادی است که بر اساس درخت شبکه برای داده‌های بزرگ متنی فضایی است. با عبور از درخت مشبک،

3.2. فرمولاسیون STC

داده های بزرگ متنی فضایی را می توان به عنوان مجموعه ای از اشیاء فضایی نشان داد، ، جایی که هست شیء فضایی با اطلاعات مکانی و مجموعه ای از ویژگی های متنی . مجموعه کاملی از ویژگی های متنی را نشان می دهد. مجموعه ای از ویژگی های ممکن که یک مکان را نشان می دهد می تواند داشته باشد یا نه، که زیر مجموعه است ، . مجموعه ای از تمام مکان ها را نشان می دهد . به عنوان مثال، “وال مارت” در شکل 1 را می توان با نشان داد مفهوم متنی فضایی (STC) مجموعه ای از اشیاء فضایی را نشان می دهد و ویژگی های متنی مشترک آنها در یک منطقه فضایی در نظر گرفته شده . یک STC را می توان با یک تاپل تعریف کرد، ، جایی که
  • منطقه فضایی در نظر گرفته شده است،
  • ، مجموعه ای از اشیاء فضایی است که در ،
  • نشان دهنده ویژگی های مشترک شی فضایی از .
  • جفت ها را نشان می دهد نشان می دهد که شی فضایی که در ویژگی را دارد که در .

علاوه بر این، برای ارائه روابط چند به چند بین اشیاء فضایی و ویژگی های متنی در یک STC، دو عملگر، و ، در زیر تعریف می شوند.

این عملیات نشان می دهد که هر شی فضایی از دارای ویژگی های متنی ، و عملیات نشان دهنده هر ویژگی متنی است از متعلق به مجموعه شی . سپس یک STC باید محدودیت های زیر را برآورده کند: و .

Concept Lattice را می توان برای نشان دادن رابطه سلسله مراتبی بین STC ها استفاده کرد. با توجه به دو STC و که همان منطقه فضایی را پوشش می دهد ، رابطه سفارش جزئی زیر به صورت زیر تعریف می شود:

و مفهوم فرعی نامیده می شود ، ابر مفهوم از نامیده می شود . بر این اساس شبکه مفهومی  با توجه به مجموعه STC های موجود در منطقه فضایی را می توان به صورت رسمی به صورت زیر تعریف کرد

جایی که رابطه سفارش جزئی تعریف شده در بالا است.

برای نشان دادن شبکه مفهومی، نمونه ای از داده های موردی در شکل 1 در جدول 1 و شکل 2 نشان داده شده است . به منظور خوانایی، در شکل 2 ، هر STC گزارش شده در گره های شبکه تنها با فهرست کردن مجموعه اشیاء نشان داده می شود و ویژگی های مشترک . منطقه جستجو را می توان به عنوان ناحیه ای درک کرد که شرایط پرس و جو TkSCQ را برآورده می کند (به جزئیات بخش 3.3 مراجعه کنید ). زیرا شی فضایی خارج از منطقه جستجو است، نادیده گرفته می شود و اشیاء به باید در نظر گرفته شود. جدول 1 9 STC را نشان می دهد به : STC برتر است و مفهوم پایین است. ساختار شبکه مفهومی مربوطه در شکل 2 نشان داده شده است .

3.3. مشبک-درخت

شبکه درختی ساختار شاخص ترکیبی پیشنهادی است. ایده اصلی آن تعبیه ساختار شبکه مفهومی در گره های درخت R برای حفظ STC است. مشابه R-tree [ 47 ]، درخت شبکه همچنین از حداقل مستطیل مرزی (MBR) برای تقسیم مناطق فضایی و ساخت یک ساختار شاخص درختی برای نمایه سازی اطلاعات مکانی اشیاء فضایی استفاده می کند. برای ویژگی‌های متنی اشیاء فضایی، درخت شبکه یک ساختار شبکه مفهومی را در برخی از گره‌های درختی وارد می‌کند. سپس اطلاعات مکانی و ویژگی های متنی اشیاء فضایی را می توان به صورت یکپارچه در گره های درختی ادغام کرد.
اجازه دهید درخت مشبک باشد، که در آن مجموعه ای از گره های درختی است، و ساختار گره درختی حاوی شناسه گره است، ; گره والد، ; و گره های کودکان، ; سطح گره در درخت، ( گره برگ 0 است و ریشه درخت حداکثر مقدار است). حداقل مستطیل مرزی، ; و ساختار شبکه مفهومی، . محدوده ورودی های گره درخت است، به عنوان مثال، تعداد گره های فرزند گره درخت، و آستانه برای است از گره درختی، که تعیین می کند آیا گره درختی دارای ساختار شبکه مفهومی است یا خیر.
همانطور که در شکل 3 نشان داده شده است ، سه نوع گره درختی در درخت شبکه وجود دارد. وقتی که یک گره درختی در محدوده است ، گره درختی که گره درخت-شبکه نامیده می شود ، حاوی الف است ساختار، در غیر این صورت گره درختی فقط داده های خام اشیاء فضایی را نمایه می کند. دلیل این امر این است که شبکه مفهومی مجموعه کاملی از STC است و داده های بیش از حد، شبکه مفهومی را متورم و ناکارآمد می کند. بنابراین، ما امیدواریم که شبکه مفهومی را فقط در برخی از گره‌های درختی با حجم داده‌های کوچک‌تر و بزرگ‌تر تعبیه کنیم. برای رسیدن به عملکرد خوب ارزیابی دقیق این موضوع در بخش 4.2 نشان داده شده است .
فرآیند اولیه سازی درخت شبکه در الگوریتم 1 نشان داده شده است. این یک الگوریتم پیشرو است که می تواند اشیاء فضایی را یک به یک با یک بار پیمایش مجموعه داده های بزرگ متنی فضایی به درخت شبکه وارد کند.
ورودی های آن مجموعه داده های بزرگ متنی فضایی هستند ، پارامتر ورودی های گره درختی، و پارامتر ساختمان شبکه مفهومی، . خروجی آن ساختار شاخص درخت شبکه است . فرآیند اولیه سازی شامل دو مرحله است. ابتدا در خطوط 1 تا 6 ساختار درختی را بر اساس اطلاعات مکانی اشیاء فضایی به صورت تدریجی ایجاد کنید. مشابه الگوریتم کلاسیک اولیه سازی R-tree [ 47 ]، الگوریتم 1 ساختار درختی را ایجاد می کند. با قرار دادن اشیاء فضایی به یک گره درختی که MBR آن را می پوشاند . سپس، در خطوط 7 تا 13، STC ها را تولید می کند و یک ساختار شبکه ای مفهومی ایجاد می کند. در یک گره درختی که هست در . روند ساخت شبکه مفهومی از [ 21 ] ارجاع شده است اما در این مقاله توضیح داده نشده است.

علاوه بر این، فرآیند به‌روزرسانی درخت شبکه مشابه الگوریتم 1 است. برخی از اشیاء متنی فضایی جدید را در گره‌های درختی وارد کنید و با به‌روزرسانی الگوریتم درخت R، ساختار درختی را به‌روزرسانی کنید. سپس، گره های شبکه درختی را طی کنید و اشیاء جدید را با فرآیندی که در خطوط 6 تا 10 در الگوریتم 1 شرح داده شده است، در ساختار شبکه مفهومی وارد کنید.

الگوریتم 1: مقدار دهی اولیه درخت شبکه
ورودی: ، ، ;
خروجی: ;
1: برای هر کدام : //ایجاد ساختار درختی
2: درج به ;
3: اگر :
4: یک گره درختی جدید ایجاد کنید و به روز رسانی کنید ;
5: پایان برای;
6: برای هر کدام : //ایجاد ساختار شبکه مفهومی
7: اگر :
8: مجموعه STC را تولید کنید → ;
9:
10:
11: پایان برای
12: بازگشت

3.4. پرس و جو مفهوم فضایی Top-k

SCQ را می توان به عنوان یک نسخه بهبود یافته از SKQ اصلی (پرس و جو کلمات کلیدی فضایی) در نظر گرفت. این اشیاء فضایی را یک به یک مطابق با شرایط پرس و جو کاربر مطابقت نمی دهد، اما با تطبیق STC، استنتاج مفهومی را از یک شی هدف انجام می دهد و مجموعه ای از اشیاء فضایی مشابه را برمی گرداند. برای انتخاب شرایط پرس و جو و یکپارچگی نتایج پرس و جو تحت شرایط بسیاری از ویژگی های متنی مفید است.
یک پرس و جو مفهوم فضایی Top-k (TkSKQ) توسط نمایش داده می شود ، جایی که تعداد مورد انتظار نتایج پرس و جو است، موقعیت مکانی پرس و جو است و شی فضایی هدف است. پرس و جو مجموعه ای را برمی گرداند از اشیاء فضایی شبیه به و ، به طوری که (1) ; (2) ، و متعلق به همان STC (3) ، ، و ، ; سپس .
در شکل 1 و شکل 2 ، در تعداد نتایج پرس و جو، ، 1 است، نقطه پرس و جو است که با ستاره در شکل 1 b مشخص شده است، و شی مورد انتظار است. TkSKQ “وال مارت” را می توان به عنوان نشان داد . برای رسیدن به این هدف، ابتدا ویژگی‌های متنی «وال مارت» را از درخت شبکه، یعنی {Supermarket, Is Open} بازیابی می‌کنیم و گره‌های شبکه درختی را با MBR کوچک‌تر، یعنی سطح بزرگ‌تر ، از آن پیدا می‌کنیم. درخت شبکه، سپس مفهوم ساختار شبکه را برای دستیابی به آن بازیابی می کنیم ( = 1) شی متعلق به همان STC به عنوان “Wal-Mart”، یعنی d7.
نمودار جریان الگوریتم TkSCQ در شکل 4 نشان داده شده است . از پنج مرحله تشکیل شده است. مرحله 1 شرایط پرس و جو را بر اساس ورودی های پرس و جو استنباط می کند. از آنجایی که بسیاری از ویژگی های متنی برای انتخاب دقیق پارامترهای پرس و جو مشکل ایجاد می کنند، مانند مثال پرس و جو در شکل 1 ، ورودی های پرس و جو اغلب ناقص یا نادرست هستند. بنابراین، TkSCQ یک شی فضایی هدف را به عنوان یکی از ورودی های پرس و جو می گیرد و ویژگی های متنی آن را بازیابی می کند. ، و شرایط پرس و جو را تغییر می دهد به . مرحله 2 از درخت شبکه عبور می کند تا مجموعه گره های شبکه درختی را پیدا کند با حداکثر و ، . مرحله 3 مجموعه STC ها را به دست می آورد از جانب . اگر تعداد اشیاء فضایی در کمتر است از ، مرحله 4 “کوچکترین” گره شبکه درختی را با “نزدیکترین” گره شبکه درختی آن جایگزین می کند . میانگین “کوچکترین”، کمترین تعداد اشیاء فضایی و “نزدیکترین” به معنای نزدیکترین گره درخت-شبکه در امتداد ساختار شبکه-درخت است. در غیر این صورت، مرحله 5 همه اشیاء فضایی را بازیابی و مرتب می کند از شبکه درخت به عنوان و برمی گردد نتایج TkSCQ
الگوریتم 2 جزئیات اصلی TkSCQ پیشنهادی را ارائه می دهد. ورودی های آن تعداد مورد انتظار نتیجه پرس و جو هستند ، موقعیت مکانی ، شی فضایی هدف و ساختار شاخص درخت شبکه . خروجی آن مجموعه ای از اشیاء فضایی مرتب شده . مطابق با فرآیند فلوچارت نشان داده شده در شکل 4 ، اجرای هر مرحله شرح داده شده است. در مرحله 1، در خط 1، ویژگی های متنی شی فضایی مورد نظر با پیمایش گره های درختی بازیابی می شوند . مرحله 2، در خطوط 2 تا 8، گره های درخت شبکه را با ، موقعیت مکانی ، و ویژگی های متنی مجموعه . مرحله 3، در خطوط 9 تا 12، ساختار شبکه مفهومی هر گره را در برای بازیابی مجموعه STC ها . مرحله 4، در خطوط 13 تا 18، قضاوت می کند که آیا تعداد اشیاء فضایی موجود است یا خیر ملاقات . اگر نه، گره درختی را با کمترین تعداد اشیاء بازیابی کنید و نزدیکترین گره شبکه درختی آن را به آن اضافه کنید. و به روز رسانی کنید . مرحله 5، در خطوط 19 تا 20، اشیاء فضایی را در تمام STC های طبقه بندی می کند. با فاصله از و k اشیاء فضایی را پیدا می کند به . بالاخره برمی گردد .

از آنجا که دو جزء اصلی، ساختار درخت R و ساختار شبکه مفهومی درخت شبکه دارای کارایی بازیابی لگاریتمی هستند [ 21 ، 47 ]، پیچیدگی زمانی عبور از اشیاء از درخت شبکه را می توان به عنوان . علاوه بر این، مرحله 1 و 2 الگوریتم 2 ساختار درختی و ساختار شبکه را با ، مرحله 3 برخی از ساختارهای شبکه را با ، و مراحل 4 و 5 اشیاء را در ساختارهای شبکه ای مفهومی با . بنابراین، ما فکر می کنیم که پیچیدگی زمانی الگوریتم 2 است .

الگوریتم 2: TkSCQ
ورودی: ;
خروجی: مجموعه ای از اشیاء فضایی مرتب شده ;
1: تراورس برای بازیابی شی فضایی و اجازه دهید ; //مرحله 1
2:     //مرحله 2
3: در حالی که :
4: اگر و ، :
5:
6: اگر :
7:    و حذف کنید از جانب
8: پایان در حالی که
9: برای هر کدام : //مرحله 3
10: اگر ،
11:    ;
12: پایان برای
13: در حالی که : //مرحله 4
14:   = دقیقه ( )
15:   = نزدیکترین گره درخت-شبکه از ;
16: درج کنید به ;
17: به روز رسانی ;
18: پایان در حالی که
19:   //مرحله 5
20:
21: بازگشت

4. آزمایش کنید

در این بخش، آزمایش‌های گسترده‌ای را برای ارزیابی عملکرد درخت شبکه پیشنهادی و الگوریتم TkSCQ روی یک مجموعه داده واقعی انجام می‌دهیم. همه آزمایش‌ها بر روی رایانه‌ای با Intel core i5، CPU 3.0 گیگاهرتز، رم 24 گیگابایتی و ویندوز 10 64 بیتی اجرا شد و همه کدهای آزمایشی در پایتون 3.7 و چندین کتابخانه محبوب مانند NumPy، پانداها و غیره نوشته شدند. داده‌های آزمایشی، کد و نتایج در https://gitee.com/xapGitee/lattice-tree.git منتشر شده‌اند (در 17 آوریل 2022 قابل دسترسی است).

4.1. داده ها و پیش پردازش

برای ارزیابی اثربخشی روش های پیشنهادی، از دو نمونه STDB، yelp و amap استفاده شده است. مجموعه داده yelp مورد استفاده در این مقاله از yelp.com می‌آید، محبوب‌ترین سایت بررسی در ایالات متحده، که یک مجموعه داده متنی فضایی معمولی “کسب و کار” شامل 192690 شی فضایی با 12 فیلد در ایالات متحده ارائه می‌کند. این مقاله از مجموعه داده “کسب و کار” به عنوان داده های بزرگ متنی فضایی برای ارزیابی درخت شبکه و TkSCQ استفاده می کند. مورد دیگر یک مجموعه داده POI (نقطه مورد علاقه) از amap.com است که ” amap ” نام دارد که شامل 483990 POI تجاری در شانگهای، چین است.
برای مدل سازی اشیاء فضایی مجموعه داده yelp ، برخی از فیلدها از “کسب و کار” استخراج می شوند. فیلدهای “طول و عرض جغرافیایی” و “طول جغرافیایی” برای اطلاعات مکانی به کار می روند و این 5 فیلد “ستاره ها”، “تعداد_بازبینی”، “باز_باز”، “رده ها” و “ویژگی ها” به 45 ویژگی متنی باینری تبدیل می شوند. آنها 3 ویژگی متنی هستند: S_low ، S_middle ، S_high از “ستاره”; 3 ویژگی، S_low ، S_middle ، S_high از “review_count”; 1 ویژگی Is_open از “Is_open”؛ 26 ویژگی، زیبایی و اسپا ، آموزش ، بهداشت و پزشکی ،خودرو ، بارها ، رسانه‌های جمعی ، برنامه‌ریزی و خدمات ، خدمات مالی ، خدمات محلی ، طعم محلی ، سالن‌های ورزشی ، پارک‌ها ، خدمات خانگی ، تناسب اندام و آموزش ، حیوانات خانگی ، خرید ، سازمان‌های مذهبی ، زندگی فعال ، معماران منظر ، خدمات عمومی ، خدمات عمومی رستوران ها ، هتل ها و مسافرت ها ، خدمات حرفه ای ،هنر و سرگرمی , زندگی شبانه , غذا از “دسته ها”؛ و 8 ویژگی، الکل ، سگ مجاز، GoodForDancing، HasTV ، موسیقی ، Open24Hours ، سیگار کشیدن ، WIFI ، RestaurantsTableService ، GoodForKids ، GoodForGroups ، سنین مجاز از  ویژگی ها”. سپس، داده های بزرگ متنی فضایی ، و .
amap فقط اطلاعات مکان و چند کلمه کلیدی متنی دارد. برای اطمینان از تنوع صحنه های آزمایشی و مقایسه نتایج آزمایشی، ما 30 کلمه کلیدی متنی شبیه سازی شده شبیه به yelp را برای گسترش amap دوباره طراحی کردیم . سپس حجم داده amap با 483990 شی فضایی بیشتر از yelp با 192690 شی فضایی است و پیچیدگی داده amap با 30 کلمه کلیدی متنی کمتر از yelp 45 کلیدواژه است. ، و .
دارای پیچیدگی متنی بالاتر (کلیدواژه های بیشتر) و داده های کمتری نسبت به و مکانیسم نمایه سازی درخت شبکه را می توان با استفاده از آنها به طور جامع بررسی کرد.

4.2. راه اندازی شبکه درختی

در ساختار شاخص شبکه-درخت 2 پارامتر و باید برای مقداردهی اولیه آن در نظر گرفته شود. با توجه به طرح های بالغ موجود [ 1 ، 2 ، 17 ، 34 ، 35 ]، تعداد ورودی های گره درختی اغلب به عنوان [2،4] در نظر گرفته می شود. بنابراین، در این مقاله، Lattice-tree همچنان از این تنظیم استفاده می کند . توسط آن، درخت شبکه از شامل 291678 گره درختی (192609 گره برگ و 99069 گره غیربرگی) در 12 سطح و درخت شبکه از شامل 732340 گره درختی (483990 گره برگ و 248350 گره غیربرگی) در 14 سطح. گره های برگ آنها در سطح 0 قرار دارند و آمار توصیفی گره های درخت در Lattice-tree در جدول 2 نشان داده شده است.
پارامتر دیگر به سطح گره درختی مربوط می شود و تعیین می کند که گره های شبکه درختی در چه سطحی باید ایجاد شوند. برای ارزیابی اثربخشی ، زمان مصرف ساخت گره های شبکه درختی در هر سطح اندازه گیری شده و در شکل 5 نشان داده شده است. بدیهی است که زمان اولیه یک گره شبکه درختی به طور مثبت با تعداد اشیاء فضایی آن مرتبط است و عملکرد سطوح 1 تا 5 بهتر از سایرین است. علاوه بر این، اشیاء بسیار کمی در یک گره شبکه درختی برای بیان و بازیابی روابط پیچیده بین اشیا مساعد نیستند و این گره ها در سطح 1 تا 2 به عنوان گره شبکه درختی مناسب نیستند .
علاوه بر این، برای ارزیابی اثر در درخت شبکه، برخی نتایج مقایسه ای با متفاوت است ، به عنوان مثال، [3،5] یا [6،8]، در شکل 6 نشان داده شده است. چه زمانی ساختار شبکه مفهومی در گره های درختی سطح 3 تا 5 تعبیه می شود . به همین ترتیب، زمانی که ساختار شبکه مفهومی در گره های درختی سطح 6 تا 8 تعبیه می شود. شکل 6 زمان بازیابی را نشان می دهد. با متفاوت . عدد حاصل TkSCQ است. بدیهی است که چه زمانی ، عملکرد به طور قابل توجهی بهتر از آن است . بنابراین، این مجموعه کاغذ برای مقداردهی اولیه ساختار شاخص شبکه-درخت، به عنوان مثال، و .
بر اساس تنظیمات فوق از و ، تأثیر حجم داده بر زمان مقداردهی اولیه در شکل 7 نشان داده شده است . واضح است که زمان اولیه سازی ساختارهای شبکه مفهومی طولانی تر از ساختار درختی است و زمان اولیه سازی درخت شبکه به صورت خطی با حجم داده افزایش می یابد. در نهایت، زمان مقداردهی اولیه همه داده ها 249 ثانیه، ساختار درختی آن 74 ثانیه و ساختارهای شبکه مفهومی آن 175 ثانیه است. به همین ترتیب، زمان اولیه سازی 931 ثانیه، ساختار درختی آن 180 ثانیه و ساختارهای شبکه مفهومی آن 751 ثانیه است.

4.3. ارزیابی و مقایسه

برای ارزیابی عملکرد درخت شبکه، از دو رویکرد پایه به نام‌های درخت معکوس و درخت Fpindex که از روش‌های موجود اصلاح شده‌اند، برای انجام مقایسه استفاده می‌شود. به طور خاص، درخت معکوس گونه‌ای از IRtree [ 1 ، 2 ] است که ساختار شبکه مفهومی گره‌های شبکه درختی در درخت شبکه را به ساختار فایل معکوس جایگزین می‌کند، و به طور مشابه، درخت Fpindex جایگزین ساختار شبکه مفهومی می‌شود. ساختار Fptree [ 25 ]. برای دستیابی به نتایج قابل مقایسه، دو رویکرد و درخت شبکه دارای پارامترهای اولیه یکسانی هستند، به عنوان مثال، و . به همین ترتیب، الگوریتم های بازیابی آنها نیز از الگوریتم 2 اصلاح شده و کدهای بازیابی شبکه مفهومی را به کدهای بازیابی درخت IR و Fp-tree جایگزین می کنند. برای جزئیات فایل معکوس و Fptree، که تکرار نخواهد شد، به [ 1 ، 2 ] و [ 25 ] مراجعه کنید.
اول، هزینه زمان اولیه و سربار ذخیره سازی آنها به شرح زیر است. شکل 8 اثر حجم داده را بر زمان مقداردهی اولیه نشان می دهد و . واضح است که درخت معکوس همیشه بهترین است، درخت مشبک از درخت معکوس عقب است و درخت Fpindex بیش از حد طولانی است. با توجه به اینکه درخت معکوس تنها هر ویژگی را در یک فایل معکوس فهرست می کند، کوتاه ترین زمان اولیه سازی 167 ثانیه در این فایل را دارد. و 345 ثانیه در . زمان هزینه اولیه سازی درخت شبکه 249 ثانیه است و 913 ثانیه در زیرا نمایه‌سازی روابط چند به چند توسط شبکه مفهومی کمی طولانی‌تر طول می‌کشد، در حالی که درخت Fpindex در 2304 ثانیه طولانی‌ترین هزینه را صرف می‌کند. و 1527 ثانیه در برای نمایه سازی روابط همه ترکیبات ویژگی متنی موجود توسط Fptree. اگرچه حجم حدود 2.5 برابر است ، زمان اولیه سازی از تنها 0.7 برابر است . واضح است که زمان اولیه سازی درخت شبکه به پیچیدگی کلمه کلیدی STBD حساس تر است.
شکل 9 سربار ذخیره سازی سه رویکرد را نشان می دهد. به دلیل مکانیسم نمایه سازی آنها، برای هر دو و ، رتبه بندی عملکرد و تفاوت بین آنها مشابه آنچه در شکل 8 است. علاوه بر این، این ساختارهای شاخص درختی دارای همان فضای ذخیره سازی 46 مگابایتی هستند و 118 مگابایت در سربار با همین پارامتر ، و تفاوت ها در ساختار غیر درختی است. به عبارت دیگر، در شبکه مفهومی درخت شبکه 441 مگابایت، فایل وارونه درخت معکوس 33 مگابایت و Fptree درخت Fpindex 4520 مگابایت است. که در ، شبکه مفهومی 1075 مگابایت، فایل معکوس 63 مگابایت و Fptree 2088 مگابایت است. علاوه بر این، تفاوت های درخت شبکه و درخت وارونه بین و با اختلاف حجم داده ها بین و . با این حال، Fpindex-tree با دو مورد دیگر متفاوت است. سربار ذخیره سازی ساختار غیر درختی آن پیچیده تر است نسبت به. تا . این نشان می دهد که Fpindex-tree به پیچیدگی داده ها حساس تر است.
در مرحله بعد، عملکرد TkSCQ در سه جنبه حجم داده، تعداد نتایج پرس و جو k و تعداد کلمات کلیدی متنی اشیاء هدف مشاهده می شود. . توجه داشته باشید که برای نشان دادن اثربخشی بی طرفانه، مکان پرس و جو و ویژگی های متنی همه تصادفی هستند و همه نتایج پرس و جو به طور میانگین 100 بار با شرایط پرس و جو یکسان هستند.
تاثیر حجم داده بر زمان بازیابی با در شکل 10 نشان داده شده است . بدیهی است که درخت شبکه بهترین عملکرد را دارد (3.8 میلی ثانیه در ). درخت معکوس 5.3 میلی ثانیه و درخت Fpindex در 102.4 میلی ثانیه است و در ، آنها به ترتیب 11.5 میلی ثانیه، 14 میلی ثانیه و 129 میلی ثانیه هستند. زمان بازیابی درخت شبکه نسبتاً با حجم داده افزایش می یابد، در حالی که درخت معکوس کمی پشت درخت شبکه قرار دارد و درخت Fpindex بدترین است. این نتایج نشان می دهد که با عملکرد بازیابی درخت شبکه بهتر از سایرین است. زمان بازیابی از 3.8 میلی ثانیه است (حدود 72 درصد درخت معکوس و 4 درصد از درخت Fpindex). 11.5 میلی ثانیه است (حدود 82 درصد از درخت معکوس و 9 درصد از درخت Fpindex).
زمان بازیابی برای با متفاوت در شکل 11 نشان داده شده است . درخت مشبک هنوز هم همیشه بهترین است. علاوه بر این، با افزایش k ، گره‌های بیشتری برای یافتن نامزدها باید طی شوند، زمان بازیابی این سه رویکرد تسریع می‌شود و شکاف بین درخت شبکه و دیگران بزرگ‌تر می‌شود. چه زمانی ، زمان بازیابی از که در شکل 11 a نشان داده شده است، 12.3 میلی ثانیه است که 63 درصد درخت معکوس و 3 درصد درخت Fpindex است. زمان بازیابی از که در شکل 11 ب نشان داده شده است، 42 میلی ثانیه است که 48 درصد درخت معکوس و 10 درصد درخت Fpindex است.
شکل 12 اثر تعداد کلمه کلیدی شی هدف را نشان می دهد به زمان بازیابی متفاوت از الگوریتم عمومی TkSKQ، ورودی های TkSCQ نقطه مکان هستند. ، عدد نتیجه و شی مورد نظر . شماره کلمه کلیدی مربوط به پیچیدگی پرس و جو است زیرا کلمات کلیدی از باید بازیابی شود تا با ویژگی های متنی اشیاء فضایی مطابقت داشته باشد. در شکل 12 ، نشانگر در محدوده 3 تا 8 قرار دارد. هنگامی که مقدار آن کوچک است (3، 4، یا 5)، عملکرد درخت معکوس کمی بهتر از درخت شبکه است. یا . وقتی مقدار آن بین 5 تا 8 باشد، درخت مشبک به وضوح بهتر از درخت معکوس است و شکاف آنها با افزایش نشانگر افزایش می یابد، در حالی که درخت Fpindex بدترین است. در حالت پیچیده، زمانی که تعداد کلمه کلیدی شی مورد نظر 8 باشد، درخت شبکه بهترین عملکرد را دارد، زمان بازیابی 12 میلی ثانیه است (63 درصد درخت معکوس و 3 درصد درخت Fpindex)، و زمان بازیابی 34 میلی ثانیه است (56٪ درخت معکوس و 15٪ درخت Fpindex).
در این بخش، عملکرد درخت شبکه پیشنهادی در مقایسه با دو ساختار شاخص پایه، درخت معکوس و درخت Fpindex، از نظر هزینه اولیه و TkSCQ اعتبارسنجی می‌شود. برای یا ، زمان اولیه سازی و سربار ذخیره سازی درخت شبکه کمی بدتر از درخت معکوس است، زیرا درخت معکوس تنها ویژگی های متنی منفرد را نمایه می کند. این بسیار کمتر از Fpindex-tree است که ساختار درختی بزرگی برای نمایه سازی ترکیبی از ویژگی های اشیاء فضایی دارد. با توجه به زمان بازیابی، شکی نیست که ساختار شاخص شبکه-درخت همیشه بهترین عملکرد بازیابی را با حجم داده های مختلف دارد. و شماره کلمه کلیدی شی مورد نظر، به خصوص در مورد شرایط پرس و جو پیچیده. دلیل این امر این است که ساختار شبکه مفهومی می تواند روابط پیچیده بین اشیاء فضایی را در یک ساختار شبکه ای مختصر سازماندهی کند و یک روش جستجوی کارآمد برای بازیابی STC تنها با یک بار عبور از ساختار شبکه ارائه دهد. علاوه بر این، عملکرد بازیابی درخت شبکه نیز پایدارتر از سایرین است و ، در حالی که با افزایش حجم و پیچیدگی داده ها، عملکرد بازیابی درخت معکوس و درخت Fpindex به سرعت کاهش می یابد.

5. نتیجه گیری ها

با انگیزه این واقعیت که داده‌های بزرگ متنی فضایی ابعاد بیشتری یافته‌اند، حجم عظیم داده‌ها و پیچیدگی ویژگی‌های متنی غیرمکانی، هر دو چالش‌هایی را برای بازیابی روابط چند به چند بین اشیاء فضایی و ویژگی‌های متنی ایجاد کرده‌اند. استخراج روابط متنی فضایی غنی و استنتاج مقاصد پرس و جوی کاربر ممکن است نتایج رضایت بخش تری را برای کاربر فراهم کند. این مقاله امیدوار است که مفهوم متنی فضایی STC را قادر سازد تا روابط چند به چند را تشکیل دهد و ساختار درخت شبکه‌ای شاخص خاص را برای حفظ آنها توسعه دهد. الگوریتم پرس و جو مفهوم فضایی Top-k (TkSCQ) نیز برای رسیدگی به قصد کاربر و پاسخ به اشیاء فضایی مشابه بر اساس STC توسعه یافته است. مجموعه‌ای از آزمایش‌های گسترده بر روی دو مجموعه داده بزرگ متنی فضایی برای ارزیابی درخت شبکه پیشنهادی و TkSCQ در مقایسه با دو رویکرد پایه، درخت معکوس و درخت Fpindex، مستقر شده‌اند. نتایج تجربی روی درخت شبکه، عقلانیت ساختار آن را توضیح می‌دهد و نشان می‌دهد که وقتی شبکه مفهومی در گره‌های درختی سطوح 3 تا 5 تعبیه شده است، عملکرد درخت شبکه بهتر است. نتایج تجربی روی TkSCQ همچنین نشان می‌دهد که درخت شبکه پیشنهادی به وضوح کارایی بازیابی بهتری دارد، به ویژه در داده‌های بزرگ متنی فضایی. وقتی تعداد نتایج پرس و جو 500 باشد، عملکرد بازیابی درخت شبکه در نتایج تجربی روی درخت شبکه، عقلانیت ساختار آن را توضیح می‌دهد و نشان می‌دهد که وقتی شبکه مفهومی در گره‌های درختی سطوح 3 تا 5 تعبیه شده است، عملکرد درخت شبکه بهتر است. نتایج تجربی روی TkSCQ همچنین نشان می‌دهد که درخت شبکه پیشنهادی به وضوح کارایی بازیابی بهتری دارد، به ویژه در داده‌های بزرگ متنی فضایی. وقتی تعداد نتایج پرس و جو 500 باشد، عملکرد بازیابی درخت شبکه در نتایج تجربی روی درخت شبکه، عقلانیت ساختار آن را توضیح می‌دهد و نشان می‌دهد که وقتی شبکه مفهومی در گره‌های درختی سطوح 3 تا 5 تعبیه شده است، عملکرد درخت شبکه بهتر است. نتایج تجربی روی TkSCQ همچنین نشان می‌دهد که درخت شبکه پیشنهادی به وضوح کارایی بازیابی بهتری دارد، به ویژه در داده‌های بزرگ متنی فضایی. وقتی تعداد نتایج پرس و جو 500 باشد، عملکرد بازیابی درخت شبکه در حدود 1.6 برابر درخت معکوس و 35 برابر درخت Fpindex است و عملکرد بازیابی درخت شبکه در تقریباً دو برابر درخت معکوس و 10 برابر درخت Fpindex است. علاوه بر این، در و با حجم داده ها و پیچیدگی کلمات کلیدی متفاوت، درخت شبکه همیشه عملکرد بازیابی پایدارتری نسبت به دو روش دیگر نشان می دهد.
کارهای آینده در سه جهت زیر انجام خواهد شد. ابتدا، مقیاس پذیری درخت شبکه با مجموعه داده های بزرگتر مورد بررسی قرار می گیرد. دوم، اندازه درخت شبکه نمی تواند به طور نامحدود رشد کند. به این ترتیب، یک شاخص پارتیشن بندی شده انعطاف پذیرتر ممکن است یک جایگزین باشد. سوم، ساختار درختی درخت شبکه ممکن است برای کشف امکان بهبود بیشتر عملکرد آن بهینه شود.

منابع

  1. کنگ، جی. جنسن، CS; Wu, D. بازیابی کارآمد از مرتبط ترین اشیاء وب فضایی. Proc. VLDB Enddow. 2009 ، 2 ، 337-348. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  2. لی، ز. لی، KCK; ژنگ، بی. لی، WC; لی، دی ال. Wang, X. IR-Tree: یک شاخص کارآمد برای جستجوی اسناد جغرافیایی. IEEE Trans. بدانید. مهندسی داده 2011 ، 23 ، 585-599. [ Google Scholar ] [ CrossRef ]
  3. ژانگ، سی. ژانگ، ی. ژانگ، دبلیو. Lin, X. چهار درخت خطی معکوس: جستجوی کلیدواژه فضایی K بالا. IEEE Trans. بدانید. مهندسی داده 2016 ، 28 ، 1706-1721. [ Google Scholar ] [ CrossRef ]
  4. هنگ، اچ جی; چیو، جنرال موتورز; Tsai, WY یک الگوریتم مبتنی بر چهاردرخت برای جستجوی کلیدواژه فضایی top-k. اوباش فراگیر. محاسبه کنید. 2017 ، 42 ، 93-107. [ Google Scholar ] [ CrossRef ]
  5. واید، اس. جونز، CB; جوهو، اچ. ساندرسون، ام. نمایه سازی فضایی- متنی برای جستجوی جغرافیایی در وب. بین المللی علائم تف کردن پایگاه های داده زمانی 2005 ، 3633 ، 218-235. [ Google Scholar ]
  6. لو، اس. لو، ی. ژو، اس. کنگ، جی. Guan, J. DISKs: سیستمی برای جستجوی کلمات کلیدی گروه فضایی توزیع شده در شبکه های جاده ای. Proc. VLDB Enddow. 2012 ، 5 ، 1966-1969. [ Google Scholar ] [ CrossRef ]
  7. گائو، ی. ژائو، جی. ژنگ، بی. Chen, G. پردازش پرس و جو کلیدواژه فضایی جمعی کارآمد در شبکه های جاده ای. IEEE Trans. هوشمند ترانسپ سیستم 2016 ، 17 ، 469-480. [ Google Scholar ] [ CrossRef ]
  8. سو، اس. ژائو، اس. چنگ، ایکس. بی، ر. کائو، ایکس. وانگ، جی. جستجوی کلیدواژه جمعی مبتنی بر گروه در شبکه های جاده ای. Inf. پردازش Lett. 2017 ، 118 ، 83-90. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  9. رگالادو، آ. گونکالوس، ام. آباد موتا، س. ارزیابی پرس و جوهای خط آسمان در اشیاء وب فضایی. سیستم خبره پایگاه داده Appl. 2012 ، 7447 ، 416-423. [ Google Scholar ]
  10. لی، جی. وانگ، اچ. لی، جی. Gao, H. Skyline برای داده های جغرافیایی متنی. GeoInformatica 2016 ، 20 ، 453-469. [ Google Scholar ] [ CrossRef ]
  11. شی، ج. وو، دی. Mamoulis، N. خطوط افق فضایی مرتبط با متن. IEEE Trans. بدانید. مهندسی داده 2016 ، 28 ، 224-237. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  12. چن، جی. ژائو، جی. گائو، ی. چن، ال. چن، آر. پرسش‌های کلیدواژه مکانی بولی با آگاهی از زمان. IEEE Trans. بدانید. مهندسی داده 2017 ، 29 ، 2601-2614. [ Google Scholar ] [ CrossRef ]
  13. مهتا، پ. اسکوتاس، دی. Voisard، A. پرس و جوهای کلیدواژه مکانی-زمانی برای اجسام متحرک. در مجموعه مقالات بیست و سومین کنفرانس بین المللی SIGSPATIAL در زمینه پیشرفت در سیستم های اطلاعات جغرافیایی. انجمن ماشین‌های محاسباتی، نیویورک، نیویورک، ایالات متحده آمریکا، 1 تا 4 نوامبر 2015. جلد 55. [ Google Scholar ]
  14. نپومنیاچی، اس. گلی، بی. جیانگ، دبلیو. Minkus، T. چه، کجا، و چه زمانی: جستجوی کلیدواژه با محدوده‌های مکانی-زمانی. در مجموعه مقالات هشتمین کارگاه آموزشی بازیابی اطلاعات جغرافیایی، دالاس، تگزاس، ایالات متحده آمریکا، 1 تا 8 نوامبر 2014. انجمن ماشین‌های محاسباتی: نیویورک، نیویورک، ایالات متحده آمریکا، 2014. جلد 2. [ Google Scholar ]
  15. ژانگ، دی. قهوهای مایل به زرد، KL; Tung, AKH جستجوی کلیدواژه فضایی top-k مقیاس پذیر. در مجموعه مقالات شانزدهمین کنفرانس بین المللی گسترش فناوری پایگاه داده، جنوا، ایتالیا، 18 تا 22 مارس 2013. انجمن ماشین‌های محاسباتی: نیویورک، نیویورک، ایالات متحده آمریکا، 2013. صص 359-370. [ Google Scholar ]
  16. کریستوفوراکی، م. او، جی. دیموپولوس، سی. مارکووتز، ا. سوئل، T. متن در مقابل فضا: پردازش جستجوی جغرافیایی کارآمد. در مجموعه مقالات بیستمین کنفرانس بین المللی ACM در مدیریت اطلاعات و دانش، گلاسکو، انگلستان، 24 تا 28 اکتبر 2011. انجمن ماشین‌های محاسباتی: نیویورک، نیویورک، ایالات متحده آمریکا، 2011; ص 423-432. [ Google Scholar ]
  17. فیلیپه، ID; هریستیدیس، وی. Rishe, N. جستجوی کلیدواژه در پایگاه داده های فضایی. در مجموعه مقالات بیست و چهارمین کنفرانس بین المللی مهندسی داده IEEE 2008، کانکون، مکزیک، 7 تا 12 آوریل 2008. صص 656-665. [ Google Scholar ]
  18. ژانگ، دی. Chee, YM; موندال، ا. تونگ، AKH; Kitsuregawa, M. جستجوی کلیدواژه در پایگاه‌های داده فضایی: به سوی جستجو بر اساس سند. در مجموعه مقالات بیست و پنجمین کنفرانس بین المللی مهندسی داده IEEE 2009، شانگهای، چین، 29 مارس تا 2 آوریل 2009. صص 688-699. [ Google Scholar ]
  19. وو، دی. Yiu، ML; کنگ، جی. Jensen، CS Joint Top-K Spatial Query Query Keyword Processing. IEEE Trans. بدانید. مهندسی داده 2012 ، 24 ، 1889-1903. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  20. خو، جی. سان، ج. ژو، آر. لیو، سی. Yin, L. CISK: یک چارچوب تعاملی برای استنتاج مفهومی پرس و جوی کلیدواژه فضایی. محاسبات عصبی 2021 ، 428 ، 368-375 . [ Google Scholar ] [ CrossRef ]
  21. ویل، آر. تجدید ساختار نظریه شبکه: رویکردی مبتنی بر سلسله مراتب مفاهیم. در سری موسسات مطالعات پیشرفته ناتو ; Rival, I., Ed. سری C-علوم ریاضی و فیزیک؛ Springer: Dordrecht، هلند، 1982; جلد 83، ص 445–470. [ Google Scholar ]
  22. کاینز، دبلیو. Egenhofer، MJ; Greasley, I. مدل سازی روابط و عملیات فضایی با مجموعه های جزئی مرتب شده. بین المللی جی. جئوگر. Inf. سیستم 1993 ، 7 ، 215-229. [ Google Scholar ] [ CrossRef ]
  23. بیان، اف. لی، جی. ژانگ، دبلیو. هو، آر. وانگ، جی. لی، ال. وو، دبلیو. لیو، دبلیو. وانگ، اچ. ژانگ، اچ. و همکاران تحقیقی درباره قواعد کاوی انجمن فضایی بر اساس شبکه مفهومی. در مجموعه مقالات کنفرانس بین المللی 2007 در زمینه ارتباطات بی سیم، شبکه و محاسبات سیار، شانگهای، چین، 21 تا 25 سپتامبر 2007. صص 5979–5982. [ Google Scholar ]
  24. Tripathy، A.; میشا، ل. پاترا، PK یک چارچوب طراحی چند بعدی برای پرس و جو از داده های مکانی با استفاده از شبکه مفهومی. در مجموعه مقالات دومین کنفرانس بین المللی محاسبات پیشرفته IEEE 2010، پاتیالا، هند، 19 تا 20 فوریه 2010. صص 394-399. [ Google Scholar ]
  25. هان، جی. پی، جی. یین، ی. الگوهای متداول استخراج بدون نامزدی. ACM SIGMOD Record 2000 , 29 , 1-12. [ Google Scholar ] [ CrossRef ]
  26. کائو، ایکس. کنگ، جی. Jensen, CS بازیابی اشیاء وب فضایی مرتبط مبتنی بر پرستیژ top-k. Proc. VLDB Enddow. 2010 ، 3 ، 373-384. [ Google Scholar ] [ CrossRef ]
  27. ژانگ، پی. لین، اچ. یائو، بی. Lu, D. پرسش‌های کلیدواژه فضایی جمعی آگاه از سطح. Inf. علمی 2017 ، 378 ، 194-214. [ Google Scholar ] [ CrossRef ]
  28. نیش، ی. چنگ، آر. کنگ، جی. مامولیس، ن. Li، Y. در مورد تطبیق الگوی فضایی. در مجموعه مقالات سی و چهارمین کنفرانس بین المللی مهندسی داده IEEE 2018، پاریس، فرانسه، 16 تا 19 آوریل 2018؛ صص 293-304. [ Google Scholar ]
  29. آهوجا، ر. آرمناتزوگلو، ن. پاپادیاس، دی. Fakas، GJ جئو-اجتماعی کلید واژه جستجو. Adv. تف کردن پایگاه های داده زمانی SSTD 2015 ، 9239 ، 431-450. [ Google Scholar ]
  30. جیانگ، جی. لو، اچ. یانگ، بی. Cui, B. یافتن کاربران محلی برتر در داده‌های رسانه‌های اجتماعی با برچسب جغرافیایی. در مجموعه مقالات سی و یکمین کنفرانس بین المللی IEEE 2015 در زمینه مهندسی داده، سئول، کره، 13 تا 17 آوریل 2015؛ صص 267-278. [ Google Scholar ]
  31. وو، دی. لی، ی. چوی، بی. Xu, J. Social-Aware Top-k Spatial Keyword Search. در مجموعه مقالات پانزدهمین کنفرانس بین المللی IEEE در سال 2014 در مدیریت داده های تلفن همراه، بریزبن، QLD، استرالیا، 14 تا 18 ژوئیه 2014. صص 235-244. [ Google Scholar ]
  32. شکر، س. گونتوری، وی. ایوانز، ام آر. یانگ، KS فضایی داده‌های بزرگ را به چالش می‌کشد که متقاطع تحرک و محاسبات ابری است. در مجموعه مقالات یازدهمین کارگاه بین المللی ACM در مورد مهندسی داده برای دسترسی بی سیم و موبایل، اسکاتسدیل، AZ، ​​ایالات متحده آمریکا، 1-6 مه 2012. انجمن ماشین‌های محاسباتی: نیویورک، نیویورک، ایالات متحده آمریکا، 2012. [ Google Scholar ]
  33. ژائو، ال. چن، ال. رنجان، ر. چو، KKR؛ او، جی. موازی سازی سیستم اطلاعات جغرافیایی برای پردازش داده های بزرگ فضایی: بررسی. خوشه. محاسبه کنید. 2016 ، 19 ، 139-152. [ Google Scholar ] [ CrossRef ]
  34. گوبل، آر. هنریش، آ. نیمن، آر. Blank, D. ساختار فهرست ترکیبی برای جستجوهای geo-textual. در مجموعه مقالات هجدهمین کنفرانس ACM در مدیریت اطلاعات و دانش، هنگ کنگ، چین، 2 تا 6 نوامبر 2009. انجمن ماشین‌های محاسباتی: نیویورک، نیویورک، ایالات متحده آمریکا، 2009; صفحات 1625-1628. [ Google Scholar ]
  35. وو، دی. کنگ، جی. Jensen, CS چارچوبی برای بازیابی کارآمد شیء وب فضایی.VLDB J. 2012 ، 21 ، 797-822. [ Google Scholar ] [ CrossRef ]
  36. خدایی، ع. شهابی، ج. لی، سی. نمایه سازی ترکیبی و رتبه بندی بدون درز ویژگی های فضایی و متنی اسناد وب. سیستم خبره پایگاه داده Appl. 2010 ، 6261 ، 450-466. [ Google Scholar ]
  37. چن، YY; سوئل، تی. Markowetz، A. پردازش پرس و جو کارآمد در موتورهای جستجوی وب جغرافیایی. در مجموعه مقالات کنفرانس بین المللی ACM SIGMOD 2006 در مدیریت داده ها، شیکاگو، IL، ایالات متحده، 27-29 ژوئن 2006. انجمن ماشین های محاسباتی: نیویورک، نیویورک، ایالات متحده آمریکا، 2006; صص 277-288. [ Google Scholar ]
  38. آپادهای، پ. Pandey، MK; Kohli، N. الگوبرداری دوره ای از پایگاه داده مکانی-زمانی با استفاده از گرده افشانی جهانی جدید ازدحام ماهی مصنوعی خوشه بندی مبتنی بر بهینه ساز و درخت FP اصلاح شده. محاسبات نرم. 2021 ، 25 ، 4327-4344. [ Google Scholar ] [ CrossRef ]
  39. ژانگ، جی. کنگ، ایکس. فیلیپ، SY پیش‌بینی پیوندهای اجتماعی برای کاربران جدید در سراسر شبکه‌های اجتماعی ناهمگن تراز. در مجموعه مقالات سیزدهمین کنفرانس بین المللی داده کاوی IEEE 2013، دالاس، تگزاس، ایالات متحده آمریکا، 7 تا 10 دسامبر 2013. ص 1289–1294. [ Google Scholar ]
  40. هریستوا، دی. نولاس، ا. براون، سی. موصلی، م. ماسکولو، سی. یک رویکرد چندلایه برای پیش‌بینی چندگانه و پیوند در شبکه‌های جغرافیایی اجتماعی آنلاین. EPJ Data Sci. 2016 ، 5 ، 24. [ Google Scholar ] [ CrossRef ] [ PubMed ] [ نسخه سبز ]
  41. چن، ایکس. خو، جی. ژو، آر. لیو، سی. نیش، جی. Zhao، L. S2R-tree: ساختار نمایه سازی مبتنی بر محور برای جستجوی کلیدواژه مکانی آگاهانه معنایی. Geoinformatica 2020 ، 24 ، 3-25. [ Google Scholar ] [ CrossRef ]
  42. کارپینتو، سی. رومانو، جی. سیستم خوشه بندی مفهومی شبکه و کاربرد آن در بازیابی مرور. ماخ فرا گرفتن. 1996 ، 24 ، 95-122. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  43. نگوین، پی اچ پی؛ Corbett, D. چارچوب ریاضی پایه برای نمودارهای مفهومی. IEEE Trans. بدانید. مهندسی داده 2006 ، 18 ، 261-271. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  44. تو، ایکس. وانگ، ی. ژانگ، ام. Wu, J. استفاده از تحلیل مفهومی رسمی برای شناسایی همبستگی های منفی در داده های بیان ژن. IEEE/ACM Trans. محاسبه کنید. Biol. بیوانفورم. 2016 ، 13 ، 380-391. [ Google Scholar ] [ CrossRef ]
  45. زو، سی. ژانگ، دی. وان، جی. حسن، م.م. Lloret, J. استفاده از شبکه مفهومی برای طراحی سیستم توصیه شخصی. سیستم IEEE J. 2017 ، 11 ، 305-314. [ Google Scholar ] [ CrossRef ]
  46. سمپات، س. اسپرینکل، اس. گیبسون، ای. پولاک، ال. گرین والد، به کارگیری تجزیه و تحلیل مفهومی برای تست کاربر-محور برنامه های کاربردی وب. IEEE Trans. نرم افزار مهندس 2007 ، 33 ، 643-658. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  47. Guttman، A. R-trees: ساختار شاخص پویا برای جستجوی فضایی. در مجموعه مقالات کنفرانس بین المللی ACM SIGMOD 1984 در مدیریت داده ها، بوستون، MA، ایالات متحده آمریکا، 18-21 ژوئن 1984. انجمن ماشین های محاسباتی: نیویورک، نیویورک، ایالات متحده آمریکا، 1984; ص 47-57. [ Google Scholar ]
شکل 1. یک مثال ساده از SKQ.
شکل 2. نمونه ای از شبکه مفهومی.
شکل 3. چارچوب درخت شبکه.
شکل 4. نمودار جریان الگوریتم TkSCQ.
شکل 5. زمان مقداردهی اولیه هر سطح در .
شکل 6. اثر به زمان بازیابی .
شکل 7. تأثیر حجم داده بر زمان مقداردهی اولیه.
شکل 8. اثر حجم داده بر زمان مقداردهی اولیه.
شکل 9. سربار ذخیره سازی.
شکل 10. اثر حجم داده بر زمان بازیابی با .
شکل 11. اثر k بر زمان بازیابی.
شکل 12. تأثیر تعداد کلمه کلیدی شی هدف بر زمان بازیابی.

بدون دیدگاه

دیدگاهتان را بنویسید