CPRQ: پیشبینی هزینه برای جستجوهای محدوده در پایگاههای داده شی متحرک
چکیده

پیش بینی هزینه ؛ محدوده پرس و جو ; پایگاه داده شی متحرک ; فراگیری ماشین
1. مقدمه
-
ارزیابی ساختار: برای انجام ارزیابی ساختار مبتنی بر هزینه، فرد رفتار پرس و جو را در مجموعه داده های ورودی مختلف و انواع پرس و جو بهتر درک می کند [ 7 ، 8 ].
-
نظارت بر فرآیند: می توان منابع بهینه را در طول برنامه ریزی پرس و جو با نظارت بر فرآیند انتخاب کرد و استراتژی های تخصیص منابع [ 9 ] را برای تعیین درخواست خاتمه یا تخصیص منابع به درخواست های دیگر با توجه به نتایج نظارت انجام داد، در نتیجه از هزینه های غیرضروری منابع جلوگیری کرد.
-
بهینه سازی پرس و جو: سیستم می تواند تخمین هزینه هدایت شده را برای بهینه سازی رویه اجرا [ 10 ] با در نظر گرفتن اطلاعات هزینه رفتارهای پرس و جو فضایی پیچیده قبل از شروع اجرا انجام دهد.
-
آنها بر استخراج فرمول های هزینه بر اساس تجربه و تخصص سیستم های مدیریت پایگاه داده تمرکز می کنند [ 14 ]، که ممکن است به طور جهانی قابل اجرا نباشد.
-
آنها فرضیات خاص یا ساده شده خاصی را در مورد مجموعه داده ها و پرس و جوها ایجاد می کنند تا تجزیه و تحلیل هزینه را آسان تر انجام دهند [ 19 ، 20 ]. بنابراین، به دلیل پیچیدگی روزافزون حجم کار سیستم های مدیریت پایگاه داده، دقت پیش بینی می تواند به طور جدی به چالش کشیده شود.
-
آنها سعی نمی کنند معیارهای هزینه بصری، مانند زمان CPU را پیش بینی کنند، و معیارهای مبتنی بر دیسک، مانند سربار دسترسی به دیسک را پیش بینی می کنند [ 11 ، 21 ]. با این حال، کاربران اغلب بیشتر نگران معیارهای هزینه قبلی هستند زیرا در عمل بیشترین تأثیر را بر تجربه کاربر دارند.
-
ما مشکل پیشبینی پرسوجوهای محدوده را روی اشیاء متحرک رسمی میکنیم.
-
ما یک روش CPRQ برای پیشبینی زمان CPU کوئریهای محدوده پیشنهاد میکنیم. به طور خاص، ما ویژگی های پرس و جو را استخراج می کنیم و آنها را با استفاده از بردارها رمزگذاری می کنیم. یک مدل پیش بینی ساخته شده است.
-
ما مدل را در یک سیستم پایگاه داده توسعه پذیر SECONDO پیاده سازی می کنیم و آزمایش هایی را با استفاده از چهار مدل یادگیری انجام می دهیم: رگرسیون چند جمله ای، درخت تصمیم، جنگل تصادفی، KNN (k-نزدیک ترین همسایه). نتایج تجربی دقت بالای پیشبینی هزینه را برای پرسشهای محدوده نشان میدهد.
2. کارهای مرتبط
3. مقدماتی
3.1. پرس و جوی محدوده
تعریف 1 (پرس و جوی محدوده).
مثال 1.
3.2. SETI
4. CPRQ
4.1. استخراج ویژگی و رمزگذاری
4.2. مدل سازی
5. ارزیابی تجربی
5.1. برپایی
5.2. مجموعه داده ها و حجم کار
5.3. معیارها و اعتبارسنجی
ما از R-squared و MSE (میانگین مربعات خطا) به عنوان معیار خطا برای اندازه گیری دقت مدل های یادگیری استفاده می کنیم. R-squared یک معیار ارزیابی پرکاربرد برای ارزیابی مدلهای پیشبینی است که نزدیک به 1 است که نشاندهنده پیشبینی تقریباً کامل است. برای MSE، هرچه MSE کوچکتر باشد، دقت پیشبینی بهتر است. R-squared و MSE با استفاده از معادله زیر محاسبه می شوند که در آن yمنمقدار هدف حقیقت پایه برای نمونه i در مجموعه داده است، yمن¯میانگین است yمن، و yمن^مقدار پیش بینی شده مربوطه را برای نمونه مورد نظر نشان می دهد.
5.4. عملکرد مدل های یادگیری
6. بحث
7. نتیجه گیری
منابع
- گوتینگ، RH; Schneider, M. Moving Object Databases ; الزویر: آمستردام، هلند، 2005. [ Google Scholar ]
- دینگ، ز. یانگ، بی. گوتینگ، RH; Li, Y. پایگاه داده شی متحرک مبتنی بر مسیر منطبق بر شبکه: مدل ها و برنامه ها. IEEE Trans. هوشمند ترانسپ سیستم 2015 ، 16 ، 1918-1928. [ Google Scholar ] [ CrossRef ]
- دینگ، ز. Guting، RH مدیریت اجسام متحرک در شبکه های حمل و نقل پویا. در مجموعه مقالات شانزدهمین کنفرانس بین المللی مدیریت پایگاه داده های علمی و آماری، جزیره سانتورینی، یونان، 21 تا 23 ژوئن 2004. ص 287-296. [ Google Scholar ]
- کهن، م. Ale, JM کشف تراکم ترافیک از طریق الگوهای جریان ترافیک ایجاد شده توسط مسیر حرکت اجسام. محاسبه کنید. محیط زیست سیستم شهری 2020 , 80 , 101426. [ Google Scholar ] [ CrossRef ]
- وانگ، اچ. Zimmermann, R. پردازش پرس و جوهای محدوده مبتنی بر مکان پیوسته بر روی اجسام متحرک در شبکه های جاده ای. IEEE Trans. بدانید. مهندسی داده 2010 ، 23 ، 1065-1078. [ Google Scholar ] [ CrossRef ]
- Iwerks، GS; صامت، ح. اسمیت، K. جستارهای پیوسته k-نزدیکترین همسایه برای نقاط متحرک پیوسته همراه با به روز رسانی. در مجموعه مقالات کنفرانس VLDB 2003، برلین، آلمان، 9 تا 12 سپتامبر 2003. صص 512-523. [ Google Scholar ]
- کائودی، ز. Quiané-Ruiz، JA; کنتراس روخاس، بی. پردو مزا، ر. ترودی، ع. Chawla، S. ML-based پرس و جو بهینه سازی چند پلت فرم. در مجموعه مقالات سی و ششمین کنفرانس بین المللی مهندسی داده IEEE 2020 (ICDE)، دالاس، TX، ایالات متحده، 20-24 آوریل 2020؛ صفحات 1489-1500. [ Google Scholar ]
- بورداکوف، AV; پرولتارسایا، وی. پلوتنکو، AD; ارماکوف، او. گریگورف، UA پیش بینی زمان اجرای پرس و جوی SQL با مدل هزینه برای پلتفرم Spark. IoTBDS 2020 ، 279-287. [ Google Scholar ] [ CrossRef ]
- صدیقی، ت. جیندال، ا. کیائو، اس. پاتل، اچ. Le, W. مدلهای هزینه برای پردازش پرس و جو دادههای بزرگ: یادگیری، مقاومسازی و یافتههای ما. در مجموعه مقالات کنفرانس بین المللی ACM SIGMOD 2020 در مدیریت داده ها، پورتلند، OR، ایالات متحده آمریکا، 14 تا 19 ژوئن 2020؛ صص 99-113. [ Google Scholar ]
- نگی، پ. مارکوس، آر. مائو، اچ. تتبول، ن. کراسکا، تی. Alizadeh, M. Cost-guided cardinality estimation: تمرکز روی جایی که اهمیت دارد. در مجموعه مقالات سی و ششمین کنفرانس بین المللی IEEE 2020 در کارگاه های مهندسی داده (ICDEW)، دالاس، تگزاس، ایالات متحده آمریکا، 20 تا 24 آوریل 2020؛ صص 154-157. [ Google Scholar ]
- پاپادوپولوس، آ. Manolopoulos, Y. عملکرد پرس و جوهای نزدیکترین همسایه در درختان R. در کنفرانس بین المللی نظریه پایگاه داده ; Springer: برلین/هایدلبرگ، آلمان، 1997; صص 394-408. [ Google Scholar ]
- محمد، س. هریس، EP; Ramamohanarao، K. بازیابی محدوده کارآمد پرس و جو برای توزیع های غیر یکنواخت داده. در مجموعه مقالات یازدهمین کنفرانس پایگاه داده استرالیا، ADC 2000 (شماره گربه PR00528)، کانبرا، استرالیا، 31 ژانویه – 3 فوریه 2000. ص 90-98. [ Google Scholar ]
- مک کارتی، ام. او، ز. Wang, XS ارزیابی پرس و جوهای محدوده با محمولات در اشیاء متحرک. IEEE Trans. بدانید. مهندسی داده 2013 ، 26 ، 1144-1157. [ Google Scholar ] [ CrossRef ]
- گوراوسکی، م. Bugdol، M. مدل هزینه برای X-BR-tree. در روندهای جدید در انبار داده و تجزیه و تحلیل داده ها ; Springer: برلین/هایدلبرگ، آلمان، 2009; صص 1-14. [ Google Scholar ]
- جی، ایکس. می، اچ. یانگ، اف. شائو، ز. Pan, J. ارزیابی هزینه و بهبود الگوریتم درج درخت سل. جی. کامپیوتر. روشهای علمی. مهندس 2018 ، 18 ، 445-458. [ Google Scholar ] [ CrossRef ]
- Guttman، A. R-trees: ساختار شاخص پویا برای جستجوی فضایی. در مجموعه مقالات کنفرانس بین المللی ACM SIGMOD 1984 در مدیریت داده ها، بوستون، MA، ایالات متحده آمریکا، 18-21 ژوئن 1984. ص 47-57. [ Google Scholar ]
- سلیس، تی. روسووپولوس، ن. فالوتسوس، سی. R+-Tree: یک شاخص پویا برای اشیاء چند بعدی. در مجموعه مقالات سیزدهمین کنفرانس بین المللی پایگاه های داده بسیار بزرگ، سانفرانسیسکو، کالیفرنیا، ایالات متحده آمریکا، 1 تا 4 سپتامبر 1987. [ Google Scholar ]
- بکمن، ن. کریگل، اچ پی؛ اشنایدر، آر. Seeger, B. R*-tree: یک روش دسترسی کارآمد و قوی برای نقاط و مستطیل ها. در مجموعه مقالات کنفرانس بین المللی ACM SIGMOD 1990 در مدیریت داده ها، آتلانتیک سیتی، نیوجرسی، ایالات متحده آمریکا، 23-25 مه 1990. صص 322-331. [ Google Scholar ]
- تئودوریدیس، ی. استفاناکیس، ای. Sellis, T. مدل های هزینه کارآمد برای پرس و جوهای فضایی با استفاده از درختان R. IEEE Trans. بدانید. مهندسی داده 2000 ، 12 ، 19-32. [ Google Scholar ] [ CrossRef ]
- لان، اچ. بائو، ز. پنگ، ی. نظرسنجی در مورد پیشرفت بهینه ساز پرس و جوی DBMS: تخمین کاردینالیتی، مدل هزینه، و شمارش طرح. اطلاعات علمی مهندس 2021 ، 6 ، 86-101. [ Google Scholar ] [ CrossRef ]
- جیتکاجورنوانیچ، ک. شلوار، ن. فولادگر، م. الماسری، ر. نظرسنجی در مورد تحقیقات پایگاه داده مکانی، زمانی و مکانی-زمانی و نمونه ای اصلی از کاربردهای مرتبط با استفاده از اکوسیستم SQL و یادگیری عمیق. J. Inf. مخابرات 2020 ، 4 ، 524-559. [ Google Scholar ] [ CrossRef ]
- باسو، دی. لین، کیو. چن، دبلیو. Vo، HT; یوان، ز. سنلارت، پی. برسان، اس. تنظیم پایگاه داده نادیده گرفته مدل هزینه منظم با یادگیری تقویتی. در معاملات در مقیاس بزرگ داده ها و سیستم های دانش محور ؛ Springer: برلین/هایدلبرگ، آلمان، 2016; جلد 28، ص 96–132. [ Google Scholar ]
- چاودهری، س. Narasayya، VR یک ابزار انتخاب شاخص کارآمد و هزینه محور برای Microsoft SQL Server . VLDB: آتن، یونان، 1997; صص 146-155. [ Google Scholar ]
- احمد، م. دوان، اس. ابولنگا، ع. بابو، اس. پیشبینی زمان تکمیل بارهای کاری پرس و جو دستهای با استفاده از مدلهای آگاه از تعامل و شبیهسازی. در مجموعه مقالات چهاردهمین کنفرانس بین المللی گسترش فناوری پایگاه داده، اوپسالا، سوئد، 21 تا 24 مارس 2011. صص 449-460. [ Google Scholar ]
- آن، اس. هان، اس. Al Husein, M. بهبود برآورد هزینه حمل و نقل برای ساخت و ساز پیش ساخته با استفاده از استخراج ویژگی داده های GPS در مقیاس بزرگ مبتنی بر حصار جغرافیایی و رگرسیون برداری پشتیبانی. Adv. مهندس به اطلاع رساندن. 2020 , 43 , 101012. [ Google Scholar ] [ CrossRef ]
- گاناپاتی، ا. کونو، اچ. دیال، یو. وینر، جی ال. فاکس، ا. جردن، م. پترسون، دی. پیشبینی معیارهای چندگانه برای پرسشها: تصمیمهای بهتری که توسط یادگیری ماشین فعال میشوند. در مجموعه مقالات بیست و پنجمین کنفرانس بین المللی IEEE در مهندسی داده، ICDE’09، شانگهای، چین، 29 مارس تا 2 آوریل 2009. IEEE: Piscataway, NJ, USA, 2009; صص 592-603. [ Google Scholar ]
- تئودوریدیس، ی. استفاناکیس، ای. Sellis, T. مدلهای هزینه برای جستارهای پیوستن در پایگاههای داده فضایی. در مجموعه مقالات چهاردهمین کنفرانس بین المللی مهندسی داده، اورلاندو، فلوریدا، ایالات متحده آمریکا، 23 تا 27 فوریه 1998. ص 476-483. [ Google Scholar ]
- مارکل، وی. لومان، جنرال موتورز; Raman, V. LEO: یک بهینه ساز پرس و جو خودکار برای DB2. سیستم آی بی ام J. 2003 , 42 , 98-106. [ Google Scholar ] [ CrossRef ]
- احمد، م. دوان، اس. ابولنگا، ع. بابو، اس. پیشبینی آگاهانه از تعامل زمانهای تکمیل حجم کاری هوش تجاری. در مجموعه مقالات بیست و ششمین کنفرانس بین المللی IEEE در سال 2010 در مهندسی داده (ICDE 2010)، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 1 تا 6 مارس 2010. صص 413-416. [ Google Scholar ]
- لو، ی. لو، جی. کنگ، جی. وو، دبلیو. شهابی، ج. الگوریتمهای کارآمد و مدلهای هزینه برای جستجوی کلیدواژه مکانی معکوس k-نزدیکترین همسایه. ACM Trans. سیستم پایگاه داده (TODS) 2014 ، 39 ، 1-46. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- بوهم، سی. یک مدل هزینه برای پردازش پرس و جو در فضاهای داده با ابعاد بالا. ACM Trans. سیستم پایگاه داده (TODS) 2000 ، 25 ، 129-178. [ Google Scholar ] [ CrossRef ]
- جین، جی. آن، ن. Sivasubramaniam، A. تجزیه و تحلیل پرس و جوهای محدوده در داده های مکانی. در مجموعه مقالات شانزدهمین کنفرانس بین المللی مهندسی داده (Cat. No. 00CB37073)، سن دیگو، کالیفرنیا، ایالات متحده آمریکا، 28 فوریه تا 3 مارس 2000. صص 525-534. [ Google Scholar ]
- وو، دبلیو. چی، ی. زو، اس. تاتمورا، جی. Hacigümüs، H. ناتون، JF پیش بینی زمان اجرای پرس و جو: آیا مدل های هزینه بهینه ساز واقعا غیر قابل استفاده هستند؟ در مجموعه مقالات بیست و نهمین کنفرانس بین المللی مهندسی داده IEEE 2013 (ICDE)، بریزبن، استرالیا، 8 تا 12 آوریل 2013. صص 1081-1092. [ Google Scholar ]
- هنداوی، ع.م. Mokbel، MF Panda: یک پردازشگر پرس و جوی مکانی-زمانی پیش بینی کننده. در مجموعه مقالات بیستمین کنفرانس بین المللی پیشرفت در سیستم های اطلاعات جغرافیایی، ردوندو بیچ، کالیفرنیا، ایالات متحده آمریکا، 6-9 نوامبر 2012. صص 13-22. [ Google Scholar ]
- دیدونا، دی. کواگلیا، اف. رومانو، پی. Torre, E. افزایش استحکام پیشبینی عملکرد با ترکیب مدلسازی تحلیلی و یادگیری ماشین. در مجموعه مقالات ششمین کنفرانس بین المللی ACM/SPEC در مورد مهندسی عملکرد، آستین، تگزاس، ایالات متحده آمریکا، 28 ژانویه تا 4 فوریه 2015. صص 145-156. [ Google Scholar ]
- سان، ج. لی، جی. تخمینگر هزینههای مبتنی بر یادگیری سرتاسر. arXiv 2019 ، arXiv:1906.02560. [ Google Scholar ]
- Quoc، HNM؛ سرانو، ام. برسلین، جی جی. Phuoc، DL یک رویکرد یادگیری برای برنامه ریزی پرس و جو در داده های فضایی-زمانی اینترنت اشیا. در مجموعه مقالات هشتمین کنفرانس بین المللی اینترنت اشیا، سانتا باربارا، کالیفرنیا، ایالات متحده آمریکا، 15 تا 18 اکتبر 2018؛ صص 1-8. [ Google Scholar ]
- حسن، ر. گاندون، اف. یک رویکرد یادگیری ماشین برای پیشبینی عملکرد پرس و جوی sparql. در مجموعه مقالات کنفرانس های مشترک بین المللی IEEE/WIC/ACM 2014 در زمینه هوش وب (WI) و فناوری های عامل هوشمند (IAT)، ورشو، لهستان، 11 تا 14 اوت 2014. صص 266-273. [ Google Scholar ]
- وان، اس. ژائو، ی. وانگ، تی. گو، ز. عباسی، ق.ح. Choo، KKR نمایه سازی داده های چند بعدی و پردازش پرس و جو دامنه از طریق نمودار Voronoi برای اینترنت اشیا. ژنرال آینده. محاسبه کنید. سیستم 2019 ، 91 ، 382-391. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- دوگان، جی. Cetintemel، U. پاپااممانوئیل، او. Upfal، E. پیش بینی عملکرد برای بارهای کاری همزمان پایگاه داده. در مجموعه مقالات کنفرانس بین المللی ACM SIGMOD 2011 در مدیریت داده ها، آتن، یونان، 12 تا 16 ژوئن 2011. صص 337-348. [ Google Scholar ]
- آکدره، م. Cetintemel، U. ریونداتو، م. آپفال، ای. مدل سازی و پیش بینی عملکرد پرس و جو مبتنی بر یادگیری Zdonik، SB. در مجموعه مقالات بیست و هشتمین کنفرانس بین المللی مهندسی داده IEEE 2012، واشنگتن، دی سی، ایالات متحده آمریکا، 1 تا 5 آوریل 2012. صص 390-401. [ Google Scholar ]
- گوپتا، سی. مهتا، ع. Dayal, U. PQR: پیشبینی زمان اجرای پرس و جو برای مدیریت بار کاری مستقل. در مجموعه مقالات کنفرانس بین المللی 2008 در محاسبات خودکار، شیکاگو، IL، ایالات متحده آمریکا، 2-6 ژوئن 2008. صص 13-22. [ Google Scholar ]
- ملاکار، پ. بالاپراکاش، پ. ویشوانات، وی. موروزوف، وی. کوماران، ک. محک زدن روشهای یادگیری ماشین برای مدلسازی عملکرد کاربردهای علمی. در مجموعه مقالات مدلسازی عملکرد IEEE/ACM 2018، محکگذاری و شبیهسازی سیستمهای رایانهای با عملکرد بالا (PMBS)، دالاس، TX، ایالات متحده آمریکا، 12 نوامبر 2018؛ صص 33-44. [ Google Scholar ]
- چاکا، معاون; Everspaugh، A.; Patel، JM فهرستبندی مجموعه دادههای مسیر بزرگ با SETI . CIDR: Asilomar، CA، USA، 2003. [ Google Scholar ]
- هریس، دی. Harris, S. طراحی دیجیتال و معماری کامپیوتر ; مورگان کافمن: برلینگتون، MA، ایالات متحده آمریکا، 2010. [ Google Scholar ]
- لو، جی. Güting، RH Parallel secondo: یک سیستم عملی برای پردازش در مقیاس بزرگ اجسام متحرک. در مجموعه مقالات 2014 IEEE 30 کنفرانس بین المللی مهندسی داده، شیکاگو، IL، ایالات متحده، 31 مارس تا 4 آوریل 2014. صص 1190–1193. [ Google Scholar ]
- یوان، جی. ژنگ، ی. ژانگ، سی. زی، دبلیو. Xie، X. سان، جی. Huang, Y. T-drive: مسیرهای رانندگی بر اساس مسیرهای تاکسی. در مجموعه مقالات هجدهمین کنفرانس بین المللی SIGSPATIAL در مورد پیشرفت در سیستم های اطلاعات جغرافیایی، سن خوزه، کالیفرنیا، ایالات متحده آمریکا، 2 تا 5 نوامبر 2010. صص 99-108. [ Google Scholar ]








بدون دیدگاه