1. مقدمه
با توسعه سریع فناوری اینترنت موبایل و رشد دستگاههای هوشمند GPS داخلی، شبکههای اجتماعی مبتنی بر مکان (LBSN) مانند Foursquare و Gowalla به سرعت در حال رشد و محبوب شدن هستند. مردم عادت دارند نظرات خود را در مورد مکان هایی که در LBSN بازدید می کنند به اشتراک بگذارند. رفتار ورود کاربران محدود و تحت تأثیر اطلاعات زمینه ای متعدد (عامل زمان، طبقه بندی و عامل جغرافیایی و غیره) در LBSN است. توصیه نقطه مورد علاقه (POI) یکی از مهم ترین برنامه ها است که پیش بینی لیستی از POI های بازدید نشده مورد علاقه کاربران است. با ظهور صنعت گردشگری آنلاین، الگوریتم توصیه می تواند خدمات شخصی سازی شده را ارائه دهد و به مسافران کمک کند تا موارد جالب را پیدا کنند. مکانها—مانند توصیه رستورانهایی که در هنگام سفر کاربران با سلیقه آنها مطابقت دارند.1 ].
فیلتر مشارکتی (CF) معمولاً برای توصیه POI با استفاده از بررسیهای کاربر به دلیل مدل ساده آن استفاده میشود. علاوه بر این، روشهای CF مبتنی بر مدل مانند فاکتورسازی ماتریس (MF) و عاملبندی ماتریس احتمال انواع آن (PMF) اغلب برای توصیه POI استفاده میشود زیرا میتواند دادههای بازخورد ضمنی یک ماتریس POI کاربر را بدست آورد [ 2 ، 3 ]. تأثیر عوامل پنهان بر ترجیحات و ویژگیهای POI کاربران را در نظر میگیرد و از حاصل ضرب درونی بردارهای پنهان کاربر و POI برای پیشبینی احتمال دسترسی کاربر به POI استفاده میکند. با این حال، تکنیک های مبتنی بر CF اغلب از مشکل پراکندگی داده ها رنج می برند.
برای بهبود عملکرد توصیه، بسیاری از اطلاعات زمینه ای (عامل زمان، طبقه بندی، عامل جغرافیایی) در روش CF و MF گنجانده شده است، که مشکل پراکندگی ماتریس را کاهش می دهد. به عنوان مثال، یوان یک مدل توصیه POI مبتنی بر CF را همراه با اطلاعات زمان ایجاد کرد، که نشان میدهد رفتار ورود کاربر دارای تناوب است و تحت تأثیر عامل زمان است [ 4 ]. با این حال، آنها از در نظر گرفتن مسیر پیوسته کاربر برای به دست آوردن شباهت کاربر صرف نظر می کنند. خو و همکاران [ 5] یک روش توصیه POI را بر اساس مسیرهای پیوسته کاربران پیشنهاد کرد و آنها توالی دسترسی مشترک مجازی را برای کاربران ایجاد کردند تا کاربرانی را با ترجیحات یکسان پیدا کنند. از آنجایی که دستههای POI اطلاعات مهمی را در مورد علایق و عادات کاربران میرسانند [ 6 ]، او و همکاران. با پیشبینی اولویتهای کاربران برای دستهها و رتبهبندی نامزدهای POI بر اساس اولویتهای دسته، یک روش پیشنهادی POI جدید پیشنهاد کرد [ 7 ]. به دلیل اینکه تعداد دستههای POI بسیار کوچکتر از POI هستند، تأثیر پیشبینی خوبی بر روی دادههای پراکنده ورود پیدا میکند. لیو از درخت سلسله مراتبی دسته برای مدلسازی ترجیحات کاربر استفاده کرد [ 8]. تأثیر جغرافیایی مکان ها بر رفتار حرکتی کاربران مطالعه شده و به طور گسترده برای توصیه POI استفاده می شود. مشخص شد که مکانهای ورود کاربر یک پدیده خوشهبندی آشکار را نشان میدهند [ 9 ]. برخی از مطالعات توزیع بررسیهای تاریخی همه کاربران را در یک مدل بیان میکنند، مانند توزیع قانون قدرت [ 10 ] یا توزیع گاوسی چند مرکزی، و تأثیر جغرافیایی مکان را بررسی میکنند. با این حال، با توجه به علایق و سبک زندگی متفاوت کاربران، مدلسازی ویژگیهای توزیع فضایی کاربر ضروری است. پژوهش حاضر با در نظر گرفتن یک یا دو عامل نمیتواند عملکرد بهتری داشته باشد و باید ویژگیهای تأثیرگذارتری را برای بهبود اثربخشی توصیههای POI ادغام کرد.
با الهام از دیدگاههای بالا، برای در نظر گرفتن عوامل بیشتر برای بهبود عملکرد توصیههای POI، این مقاله یک روش توصیهشده POI شخصیشده جدید با کاوش در تأثیر متوالی، دستهبندی و جغرافیایی پیشنهاد میکند. در ابتدا، ما یک روش ساخت توالی دسترسی مشترک مجازی بهبود یافته را پیشنهاد میکنیم و کاربرانی را با عادات حرکتی مشابه با کاربران هدف پیدا میکنیم. در همین حال، یک روش محاسبه شباهت کاربر جدید با توجه به ترتیب بررسی و محاسبه تمایز دسته پیشنهاد شده است. به طور خاص، نمایش بردار ترجیحی کاربر برای POI بر اساس مدل کیسه کلمات پیوسته (CBOW) آموخته می شود. سپس، نمایش بردار ترجیح کاربر با یک روش CF ترکیب میشود تا احتمال ترجیح رفتاری کاربران هدف برای POI به دست آید. علاوه بر این، یک مدل تخمین تراکم هسته (KDE) برای بدست آوردن احتمال ترجیح جغرافیایی کاربر از POIها استفاده می شود. در نهایت، یک لیست توصیهای از POIهای k بالا با توجه به احتمال ترجیح رفتاری کاربر و احتمال ترجیح جغرافیایی که به عنوان یک جمع وزنی محاسبه شده و به ترتیب نزولی مرتب شدهاند، تولید میشود.
مشارکت های اصلی کار ما به شرح زیر خلاصه می شود:
- 1.
-
در این مقاله، ما یک چارچوب پیشنهادی POI جدید برای بهرهبرداری از تأثیر متوالی، دستهبندی و جغرافیایی (به نام SCGM) پیشنهاد میکنیم و احتمال ترجیح کاربر را از ترکیب خطی CF و KDE محاسبه میکنیم.
- 2.
-
یک روش محاسبه شباهت کاربر جدید بر اساس توالی دسترسی مشترک مجازی ساخته شده از کاربران و تمایز طبقه بندی POI پیشنهاد شده است.
- 3.
-
به طور خاص، ما CBOW را معرفی می کنیم تا تأثیر متنی POI در دنباله را به تصویر بکشیم و اولویت کاربران را برای POI بدست آوریم.
- 4.
-
تعداد زیادی آزمایش انجام شده بر روی دو مجموعه داده LBSN نشان می دهد که روش پیشنهادی ما به طور قابل توجهی بهتر از روش های دیگر از نظر دقت، یادآوری و امتیاز F1 عمل می کند.
بقیه مقاله به شرح زیر سازماندهی شده است: ما روش های توصیه POI را در بخش 2 مرور می کنیم . در بخش 3 ، برخی از کارهای مقدماتی شرح داده شده است. بخش 4 روش پیشنهادی POI پیشنهادی را شرح می دهد. بخش 5 نتایج تجربی و تجزیه و تحلیل پارامتر مربوطه را ارائه می دهد. در نهایت، بخش 6 نتیجه گیری را ارائه می کند.
2. کارهای مرتبط
توصیه های POI توجه بسیار بیشتری از سوی دانشگاه ها به خود جلب کرده و به یک جهت کاربردی مهم در خدمات شبکه های اجتماعی مبتنی بر مکان تبدیل شده اند. برای پیشبینی بهتر اولویتهای کاربر، افراد سعی میکنند عوامل زمینهای متعددی را که بر رفتار ورود کاربر تأثیر میگذارد، در مدل توصیه بگنجانند.
2.1. اطلاعات زمانی و ترتیبی
رفتار و علایق کاربر در طول زمان در LBSN تغییر می کند. محققان سعی می کنند با ترکیب اطلاعات زمان، عملکرد سیستم توصیه POI را بهبود بخشند [ 11 ، 12 ]. برخی از محققان عمدتاً زمان ورود کاربران را به چند دوره تقسیم می کنند و ترجیحات کاربران را برای مکان در هر دوره یاد می گیرند. از آنجایی که افراد در روزهای هفته و غیر هفته رفتار ملاقات متفاوتی دارند، حسینی و همکاران. [ 13 ] چارچوب پیشنهادی را بر اساس ترجیحات زمانی هفتگی کاربران پیشنهاد کرد. آنها ویژگی های ترجیحی سوابق ورود افراد را در روزهای هفته و آخر هفته بررسی می کنند. گائو و همکاران [ 14] یک مدل رتبهبندی مشارکتی اجتماعی حسگر فضایی-زمانی با در نظر گرفتن پراکندگی دادهها برای توصیه پیشنهاد کرد. بر اساس چارچوب فاکتورسازی تانسور است و هر بعد با ویژگیهای بالقوه کاربر، زمان ورود، مکان ورود و اطلاعات اجتماعی مطابقت دارد. گان و همکاران [ 15 ] اولویت مبتنی بر حافظه را در طرح توصیه POI بر اساس تئوری حافظه ابینگهاوس یکپارچه کرد. آنها یک مدل تضعیف مبتنی بر حافظه برای مدیریت اولویت POI کاربر ایجاد می کنند و شباهت اولویت POI بین کاربران را از طریق سوابق ورود آنها در LBSN محاسبه می کنند. ژانگ و همکاران [ 16 ] مفهوم چسبندگی POI را معرفی کرد و یک چارچوب CF پیشنهاد کرد که اولویت حافظه و چسبندگی POI را ترکیب می کند.
2.2. اطلاعات دسته
POI معمولاً دارای یک یا چند ویژگی دسته است که به طور قابل توجهی بر رفتار دسترسی کاربر تأثیر می گذارد. اطلاعات دسته بندی POI نقش مهمی در مدل سازی ترجیحات خاص کاربران دارد. در واقع، تصمیم POI کاربر تحت تأثیر اولویت دسته بندی آنها قرار می گیرد و کاربران با اولویت های دسته بندی یکسان تمایل به نشان دادن عادات ثبت نام یکسان دارند. به عنوان مثال، مسافران تمایل دارند در مکان هایی مانند هتل ها چک-این کنند، در حالی که دانشجویان در مکان هایی مانند کتابخانه چک-این می کنند. بیشتر مطالعات بر اساس رابطه بین کاربران و POI ها انجام می شود، اما مطالعات کمی بر رابطه بین کاربران و دسته ها تمرکز می کنند. بائو و همکاران [ 17 ] شباهت کاربر را با محاسبه انحراف دسته کاربر در روش توصیه CF مبتنی بر کاربر محاسبه کرد. لیو و همکاران [ 18] POI را بر اساس دسته بندی خوشه بندی کرد و ماتریس دسته کاربر را برای جایگزینی ماتریس POI کاربر با توجه به داده های ثبت نام تاریخی کاربران ایجاد کرد. سپس، فناوری تجزیه ماتریس برای بررسی دسته بندی top-k که کاربران می خواستند بعداً بازدید کنند، استفاده می شود. ژو و همکاران [ 19 ] رفتار ورود کاربران به انواع مختلف POI در زمانهای مختلف را بهعنوان منحنیهای زمانی در مطالعه خود توصیف کردند. آنها یک الگوریتم پیشنهاد مکان مبتنی بر تاب خوردگی زمان پویا و بهترین الگوریتم توصیه مکان مبتنی بر جفت منحنی را پیشنهاد کردند. رحمانی و همکاران [ 6 ] یک مدل توصیه POI بر اساس آگاهی از دسته پیشنهاد کرد که ویژگیهای اطلاعات دستهبندی POI را در بر میگرفت. لی و همکاران [ 20] یک مسیر مجازی را به چارچوب توصیه CF اعمال کرد و شباهت مسیرها را با تجزیه ماتریس دسته کاربر و ساخت یک نمودار Voronoi محاسبه کرد. آنها فقط بردار ویژگی دسته را در اطلاعات دسته برجسته می کنند، اما تمایز دسته را نادیده می گیرند، که می تواند به طور شهودی شباهت بین کاربران را منعکس کند.
2.3. اطلاعات جغرافیایی
از آنجایی که رفتار ورود کاربران اساساً یک تعامل فیزیکی بین کاربران و POI است، کاربر ترجیح می دهد به POI نزدیک آنها دسترسی داشته باشد. بنابراین، عوامل جغرافیایی بر رفتار ورود کاربران تأثیر می گذارد و تأثیر جغرافیایی استخراج می تواند عملکرد توصیه های POI را بهبود بخشد. وانگ و همکاران [ 21 ] دریافتند که تأثیر بین POI نامتقارن و متفاوت است، و آنها حساسیت جغرافیایی و فاصله فیزیکی را برای شبیه سازی تأثیر جغرافیایی پواسون بین دو POI تجزیه و تحلیل کردند. آنها عملکرد توصیه را با ادغام اثرات جغرافیایی POI خاص در مدل توصیه بهبود می بخشند. رحمانی و همکاران [ 22] مدلهای جغرافیایی را در روش تجزیه ماتریس منطقی گنجانید و یک مدل پیشنهادی POI LGLMF را پیشنهاد کرد. با در نظر گرفتن اطلاعات جغرافیایی از جنبه کاربر و POI به ترتیب اثر توصیه را بهبود می بخشد. لی و همکاران [ 23 ] یک مدل تجزیه جغرافیایی سلسله مراتبی رتبه-GEOMF را پیشنهاد کرد، که جاسازی کاربران و POI ها را بر اساس فرکانس ورود کاربر می آموزد. لیو و همکاران [ 24 ] الگوهای تحرک کاربر را با ثبت تأثیر جغرافیایی بر رفتار ورود کاربران مدلسازی کرد و یک چارچوب عاملبندی احتمال جغرافیایی را پیشنهاد کرد که شامل ترجیحات کاربر، تأثیر جغرافیایی و الگوهای رفتار کاربر است. یین و همکاران [ 25] تأثیر مناطق جغرافیایی بر ترجیح کاربر را مورد مطالعه قرار داد. آنها مدل ترجیح کاربر را بر اساس ترجیحات جمعی مردم در منطقه هدف و ترجیحات شخصی کاربران در منطقه مجاور ایجاد می کنند. هنگام توصیه POI برای کاربران، ارزش دارد که تأثیر جغرافیایی شخصی مکان را به عنوان توزیع فاصله جداگانه برای هر کاربر مدل سازی کنیم.
3. مقدمات
تعاریف کلیدی توصیه POI و معرفی مختصری از کلمه embedding در این بخش توضیح داده شده است.
3.1. تعاریف
تعریف 1
(ثبت ورود). اجازه دهید U = مجموعه ای از کاربران در LBSN باشد، V = مجموعه ای از POI و C = باشد مجموعه ای از دسته های POI باشد. V توسط ، جایی که عرض جغرافیایی یک POI است و طول جغرافیایی است. همه سوابق ورود مرتب شده بر اساس زمان ورود به صورت CH = تعریف می شوند ، جایی که نشان دهنده تمام سوابق ورود به ، و هر رکورد ورود به عنوان نشان داده شده است ، که نشان می دهد POI v توسط کاربر u در زمان t بازدید شده است.
تعریف 2
(توالی ورود). دنباله چک در را می توان به عنوان تعریف کرد = ، جایی که r نشان دهنده دوره r در یک روز است و POI ها بر اساس زمان ورود مرتب می شوند. علاوه بر این، تمام چک در توالی از به عنوان مشخص می شوند = .
تعریف 3
(POI متنی). در ترتیب ورود ، هدف و زمینه ای آن POI هایی با زمان های مختلف ورود هستند که w نشان دهنده اندازه پنجره متنی است.
تعریف 4
(توصیه POI). توصیه POI این است که با استخراج سوابق ثبت نام کاربر، فهرستی از POI های بازدید نشده را به یک کاربر توصیه کنید. با توجه به تمام سوابق ثبت نام CH، یک لیست رتبه بندی شده از POIs top-k = برای یک کاربر برگردانده می شود.
3.2. جاسازی کلمه
اخیراً، فناوری جاسازی کلمه به دادهکاوی مسیر و سیستمهای توصیه متوالی گسترش یافته است [ 26 ]. این به CBOW یا Skip-Grams بستگی دارد که یادگیری عصبی و بردارهای کلمه آموخته شده را تنظیم کند که به طور مؤثر روابط مهمی را در اطلاعات متنی در مجموعه داده آموزشی ثبت کند. در سیستم توصیه POI، دنباله ورود کاربر هدف به عنوان یک جمله در نظر گرفته می شود و POI کلمه در جمله است که به عنوان یک بردار یک داغ نشان داده می شود. در این مقاله از مدل CBOW برای آموزش بردار POI استفاده شده است. این POI مرکزی را با توجه به POI های اطراف پیش بینی می کند، که دارای مزایای بهره وری بالا است.
در طول تخمین احتمال ایجاد یک POI مرکزی، هر POI دو نمایش متفاوت دارد. یکی بردار POI مرکزی و دیگری بردار POI متنی است. لازم است میانگین بردارهای POIهای متنی را گرفته و یک عملیات softmax روی حاصل ضرب داخلی بردارها انجام دهیم تا احتمال POI مرکزی ایجاد شود. همانطور که در شکل 1 نشان داده شده است ، وقتی اندازه پنجره داده شده دو باشد، POIهای متنی هستند . سپس، احتمال تولید با عملیات softmax بر روی حاصل ضرب داخلی بردار مطابق با معادله ( 1 ) است:
جایی که D = مجموعه شاخص است، طول فرهنگ لغت است. علاوه بر این، و هنگامی که POI نمایه شده با i به ترتیب به عنوان مرکز POI و POI متنی استفاده می شود، بردارهای POI را نشان می دهد. با انجام بهینه سازی تابع هدف، بردار تک داغ POI در نمایش برداری کم بعدی تعبیه شده و فرمول آن به صورت زیر است:
4. روش پیشنهادی
4.1. چارچوب SCGM
در این مقاله، ما یک روش توصیه POI را پیشنهاد میکنیم که از تأثیر متوالی، دستهبندی و جغرافیایی (به نام SCGM) بهرهبرداری میکند. SCGM یک مدل پیشنهادی ترکیبی POI از CF و تخمین چگالی هسته است. در الگوریتم 1 توضیح داده شده است.
ما ابتدا یک توالی دسترسی مشترک مجازی بر اساس الگوریتم 2 می سازیم و شباهت بین مسیرهای کاربر را مطابق الگوریتم 3 محاسبه می کنیم. سپس، SCGM احتمال ترجیح رفتاری کاربر را طبق الگوریتم 4 دریافت می کند و بر اساس CF با محاسبه شباهت مسیر است. علاوه بر این، با توجه به اینکه نزدیکی جغرافیایی به طور قابلتوجهی بر رفتار ورود کاربران تأثیر میگذارد، SCGM بر اساس KDE احتمال اولویت جغرافیایی را دریافت میکند. در نهایت، احتمال ترجیح رفتاری کاربر و احتمال ترجیح جغرافیایی در یک مدل خطی ترکیب میشوند و لیست توصیهای از POIهای k بالا تولید میشود. به طور رسمی، یک ضریب وزنی جغرافیایی، احتمال آن کاربر است از POI بازدید می کند را می توان به صورت زیر بیان کرد:
الگوریتم 1: روش SCGM. |
ورودی: کاربر مورد نظر ، تمام سوابق ورود و پارامتر |
خروجی: لیست Top-k از POI |
1: |
2: برای هر کدام انجام دادن |
3: |
4: یک توالی دسترسی مشترک مجازی بسازید طبق الگوریتم 2 |
5: بدست آوردن طبق الگوریتم 3 |
6: پایان برای |
7: برای هر کدام انجام دادن |
8: احتمال ترجیح رفتاری کاربر را بدست آورید طبق الگوریتم 4 |
9: احتمال ترجیح جغرافیایی کاربر را بدست آورید بر اساس KDE |
10: محاسبه احتمال ترجیح کاربر مطابق با معادله ( 3 ) |
11: پایان برای |
12: POIهای k بالا را انتخاب کنید که به صورت نزولی بر اساس احتمال ترجیح کاربر مرتب شوند. لیست Top-k را برگردانید . |
13: لیست Top-k را برگردانید . |
الگوریتم 2: روش ساخت یک توالی دسترسی مشترک مجازی. |
ورودی: سوابق ورود |
خروجی: ، ، |
1: یک روز را به چهار دوره زمانی تقسیم کنید |
2: |
3: برای هر کدام در T انجام دهید |
4: توالی های ورود را ایجاد کنید و |
5: |
6: |
7: برای هر کدام انجام دادن |
8: |
9: – |
10: 0 |
11: پایان برای |
12: برای هر کدام انجام دادن |
13: |
14: – |
15: 0 |
16: پایان برای |
17: برای هر کدام انجام دادن |
18: |
19: پایان برای |
20: برای هر کدام انجام دادن |
21: برای هر کدام انجام دادن |
22: |
23: پایان برای |
24: حداقل مقدار را پیدا کنید |
25: |
26: پایان برای |
27: پایان برای |
الگوریتم 3: محاسبه شباهت دو کاربر. |
ورودی: ، ، |
خروجی: |
1: برای هر کدام انجام دادن |
2: برای هر کدام انجام دادن |
3: |
4: پایان برای |
5: تفاوت دسته را محاسبه کنید مطابق با معادله ( 5 ) |
6: محاسبه کنید مطابق با معادله ( 6 ) |
7: پایان برای |
8: سیم کارت را محاسبه کنید با توجه به معادله ( 7 ) |
الگوریتم 4: محاسبه اولویت رفتاری کاربر بر اساس الگوریتم CF. |
ورودی: کاربر مورد نظر ، POI هدف ، تمام سوابق ورود |
خروجی: احتمال ترجیح رفتاری کاربر pscore( ، ) |
1: برای انجام دادن |
2: |
3: برای هر کدام انجام دادن |
4: بردار پنهان را راه اندازی کنید با تعبیه مدل |
5: پایان برای |
6: محاسبه کنید با تجمیع |
7: |
8: |
9: پایان برای |
10: محاسبه کنید مطابق با معادله ( 8 ) |
4.2. توالی دسترسی مشترک مجازی را بسازید
شباهت مسیر کاربر برای نشان دادن شباهت ترجیحات دسترسی در بین کاربران در این مقاله استفاده شده است. برای یافتن کاربرانی که شباهت زیادی به کاربر هدف دارند، رفتار مشابه کاربران را در ترتیب ثبت ورود تاریخی بررسی میکنیم. الگوریتم 2 روش ساخت یک توالی دسترسی مشترک مجازی را نشان می دهد بر اساس تاریخچه ورود دو کاربر و ، و نشان دهنده توالی مشترک مجازی در هر دوره زمانی است.
اولاً، توالیهای ورود کاربران در دورههای مختلف ایجاد میشوند. تحت تأثیر عوامل زمان، کاربران در زمان های مختلف روز رفتار متفاوتی را برای ورود نشان می دهند. بنابراین، تقسیم یک روز به دوره های مختلف می تواند رفتار ورود کاربر را بهتر بیان کند. به طور خاص، یک روز به چهار دوره زمانی تقسیم می شود ، جایی که ، ، ، و . شباهت بین کاربران با تحلیل رفتار تاریخی کاربران هدف مشابه سایر کاربران در هر دوره محاسبه می شود. همانطور که در شکل 2 نشان داده شده است ، کاربر هدف بازدید می کند ، ,…, در یک دوره ، سپس ترتیب ورود می تواند به صورت بیان شود . در مقداردهی اولیه، مربوطه از POI بازدید شده توسط کاربر هدف خالی تنظیم شده است. در نتیجه، یک دنباله ورود دارای n مجموعه است، که در آن n تعداد POI های موجود در دنباله ورود را نشان می دهد.
ثانیا، ما زمان بررسی POI را برای بررسی الگوی رفتار بین کاربران در هر دوره تنظیم میکنیم (خطوط 7-11 در الگوریتم 2). برای یک دوره معین ، شباهت بین کاربران عمدتاً با رفتار تاریخی مشابه بین کاربران آشکار می شود. با این حال، توالی اعلام حضوری ساخته شده نمیتواند الگوهای رفتار ورود مشابه دو کاربر را به دقت توصیف کند. برای مثال، از ساعت 6 صبح تا 9 صبح از پارک، کتابخانه و شرکت بازدید کرد هر چند از ساعت 9 صبح تا 12 بعد از ظهر از پارک، کتابخانه و شرکت بازدید کرد و الگوهای رفتار ورود مشابهی دارند، به دلیل تفاوت در زمان ورود به عنوان کاربرانی با اولویت های متفاوت در نظر گرفته می شوند. بنابراین، برای تشریح دقیق شباهت بین کاربران، سعی میکنیم با پردازش زمان ورود هر POI، یک توالی دسترسی مشترک مجازی بسازیم. به طور خاص، برای هر ترتیب ورود، تنظیم کنید تا زمان ورود اولین رکورد در دنباله باشد، و زمان ورود به سایر رکوردها را به گونه ای تغییر دهید که فاصله زمانی نسبت به مهر زمانی اولین رکورد حفظ شود. پس از تنظیم زمان، POI های توالی کاربر مانند قبل باقی می مانند.
در نهایت، در یک دوره معین، توالی دسترسی مشترک مجازی دو کاربر را می سازیم و . مقداردهی اولیه یک مجموعه برای هر POI ∈ ، و، برای هر POI ∈ ، فاصله زمانی ورود را محاسبه می کنیم و -سپس، برای یافتن حداقل فاصله زمانی ورود و تقسیم به درون مربوط به . همانطور که در شکل 2 نشان داده شده است ، توالی دسترسی مشترک مجازی کاربر و کاربر در دوره تقسیم بندی شده ساخته شده است ، و POI بازدید شده کاربر به مجموعه مربوطه اختصاص داده می شود. مجموعه خالی را می توان با روش ساخت به دست آورد. به عنوان مثال، اگر و دارای حداقل فاصله زمانی ورود به ، سپس آنها به تقسیم می شوند .
4.3. محاسبه شباهت کاربر جدید
پس از ساخت توالی دسترسی مشترک مجازی، یک روش جدید برای محاسبه شباهت بین کاربران پیشنهاد میکنیم. در الگوریتم 3 نشان داده شده است و شباهت را می توان با اطلاعات زمینه ای و تمایز طبقه بندی محاسبه کرد.
رفتار ورود کاربران اغلب تحت تأثیر اطلاعات زمینهای قرار میگیرد که از طریق آن میتوان عادات رفتاری و الگوهای حرکتی کاربران را به طور کامل بررسی کرد. ما در این مقاله مدل جاسازی کلمه را معرفی میکنیم، یک POI واحد به عنوان یک کلمه در نظر گرفته میشود و هر POI به یک بردار پنهان تبدیل میشود. با ساخت توالی مشترک مجازی، میتوانیم محاسبه شباهت مسیرهای دو کاربر را به محاسبه شباهت بین هر یک تبدیل کنیم. و مجموعه مربوط به آن . محاسبه به شرح زیر است:
با توجه به پراکندگی سوابق ورود، تعداد کمی از POI های رایج برای دسترسی کاربران وجود دارد. بنابراین، یافتن کاربرانی با اولویت دسترسی یکسان دشوار است. ما مفهوم تمایز دسته را برای یافتن کاربرانی با اولویتهای دسترسی قابلشکل معرفی میکنیم. شباهت بین کاربران را می توان به طور موثر از طریق اطلاعات دسترسی کاربران به دسته محاسبه کرد. تمایز دسته، میزان شباهت را در بین کاربران بر اساس ترجیح آنها برای دسترسی به دسته ها ارزیابی می کند. با الهام از فرکانس معکوس سند (IDF)، دستهای که اکثر کاربران به آن دسترسی دارند، اولویت دسترسی شخصی کاربر را نشان نمیدهد، در حالی که دستهای که تنها چند کاربر به آن دسترسی دارند میتواند اولویت کاربر را منعکس کند، و کاربرانی که به این دسته دسترسی دارند اغلب شباهت بالایی دارند. تمایز دسته به صورت زیر نشان داده شده است:
شباهت ترتیب ورود در هر دوره را می توان با محاسبه به دست آورد و و شباهت بین کاربران را می توان با اندازه گیری نتایج هر دوره زمانی بدست آورد. فرمول محاسباتی خاص در ( 6 ) و ( 7 ) آورده شده است:
به طور مشخص، مجموعه ای از دسته بندی های مشترک را نشان می دهد که توسط دو کاربر در طول دوره معین به آنها دسترسی پیدا کرده اند ، و نشان دهنده تعداد کل کاربرانی است که از رده q ام بازدید می کنند ، و برای محاسبه طول دنباله کاربر استفاده می شود.
4.3.1. توصیه POI بر اساس CF
الگوریتم CF مبتنی بر کاربر قصد دارد POI بازدید شده توسط کاربران با اولویت های مشابه را توصیه کند. فقط باید شباهت بین کاربر هدف و سایر کاربران را با توجه به سوابق ثبت ورود تاریخی تجزیه و تحلیل کند و سپس احتمال ورود کاربر مورد نظر را در یک POI خاص بر اساس POI های دسترسی کاربران مشابه پیش بینی می کند و یک عدد ایجاد می کند. لیست توصیه در الگوریتم 4 نشان داده شده است، شباهت کاربر بر اساس الگوریتم 3 که قبلا معرفی شد به دست می آید، و فرمول بدست آوردن احتمال ترجیح رفتاری کاربر از POI را می توان به صورت زیر بیان کرد:
جایی که مجموعه شباهت کاربر است، نشان می دهد که آیا یک کاربر از یک POI بازدید می کند و مقدار آن 0 یا 1 است، احتمال ترجیح بازدید کاربر برای POI است که طبق معادله ( 10 ) به دست آمده است.
از آنجایی که توالی بررسی POI کاربر ترجیحات کاربر را منعکس می کند، جاسازی های POI در ترتیب ورود به آنها می توان برای مدل سازی ترجیحات کاربر استفاده کرد. به طور خاص، ما محاسبه می کنیم با تجمع متوسط، و می تواند یکپارچگی و نرمی جاسازی ورودی را با تبدیل خطی حفظ کند:
احتمال ترجیح دسترسی کاربر به POI را می توان به صورت زیر بیان کرد:
4.3.2. توصیه POI بر اساس KDE
همانطور که اولین قانون جغرافیایی توبلر اشاره می کند، اشیاء جغرافیایی در توزیع مکانی، با خوشه بندی، تصادفی و منظم بودن به هم مرتبط هستند. هر چه فاصله نزدیکتر باشد، رابطه نزدیکتر خواهد بود. در عمل، تاثیر جغرافیایی باید برای هر کاربر متفاوت باشد. به عنوان مثال، برخی از افراد ترجیح می دهند معمولاً از POI های نزدیک بازدید کنند و برخی از افرادی که ترجیح می دهند با وسیله نقلیه سفر کنند، معمولاً POI های دور را کاوش می کنند. رفتار تلفن همراه کاربران تحت تأثیر فاصله جغرافیایی قرار می گیرد و سوابق ورود آنها دارای ویژگی های توزیع فضایی خاصی برای توصیه های POI است. ما به طور تصادفی سه کاربر را از مجموعه داده انتخاب کردیم. شکل 3توزیع check-in را در فاصله بین هر جفت POI در سوابق ورود آنها توضیح می دهد. مشاهده می شود که تأثیر جغرافیایی برای هر کاربر متفاوت است. کاربر 1 دوست دارد به POI با برد کوتاه دسترسی داشته باشد، کاربر 2 دوست دارد به POI فراتر از یک فاصله مشخص دسترسی داشته باشد و کاربر 3 فرکانس دسترسی یکسانی را در محدوده خاصی دارد. بنابراین، تاثیر اطلاعات جغرافیایی بر کاربران نباید به عنوان یک توزیع کلی مدل شود، بلکه باید به صورت شخصی مدل سازی شود. بنابراین، مطالعه تأثیر جغرافیایی شخصی برای رفتارهای ورود کاربر ضروری است.
مشخص شده است که KDE میتواند ویژگیهای توزیع شخصی شده POI را بر اساس سوابق ثبت نام تاریخی کاربران به دست آورد، که راحتی زیادی برای توصیه POI به ارمغان میآورد. بنابراین، ما KDE را برای مدلسازی ترجیحات شخصی کاربر برای POI از جنبه جغرافیایی اتخاذ میکنیم. دقت تخمین چگالی هسته تا حد زیادی به انتخاب بستگی دارد و h ، کجا تابع هسته است و انحراف معیار است با توجه به ویژگی های داده های ورود، تابع هسته گاوسی به عنوان تابع هسته در این مقاله استفاده شده است. h پهنای باندی است که با محاسبه انحراف استاندارد POI با توجه به سوابق ثبتنام تاریخی کاربران به دست میآید:
بر اساس تأثیر عوامل جغرافیایی، احتمال کاربر بازدید از یک POI به شرح زیر است:
5. نتایج
5.1. مجموعه داده ها
در آزمایش، ما از دو مجموعه داده ارائه شده توسط Foursquare [ 27 ] استفاده میکنیم که شامل بررسیهای شهر نیویورک و توکیو از 12 آوریل 2012 تا 16 فوریه 2013 است. مجموعه داده شامل پنج ویژگی با شناسه کاربر (ID) است. محل ورود، طول جغرافیایی مکان، عرض جغرافیایی مکان و زمان ورود. در مرجع. [ 20 ]، لی و همکاران. 10 را به عنوان آستانه حذف کاربران غیرفعال و POI های غیرفعال در نظر بگیرید. با الهام از این، ما برخی از پیش پردازش ها را روی مجموعه داده انجام می دهیم تا کاربرانی را که کمتر از 10 POI مختلف بازدید کرده اند و آن دسته از POI هایی که کمتر از 10 بار توسط کاربران بازدید شده اند را حذف کنیم. آمار اولیه دو مجموعه داده در جدول 1 نشان داده شده است. علاوه بر این، 80 درصد از بررسی ها به صورت تصادفی به عنوان داده های آموزشی و 20 درصد از بررسی ها برای آزمایش انتخاب می شوند.
5.2. معیارهای ارزیابی
عملکرد مدل پیشنهادی در این مقاله با استفاده از Precision@k ، Recall@k و امتیاز F1 ارزیابی شده است.
نرخ دقت نسبت POI به درستی پیش بینی شده به تعداد کل POI توصیه شده است:
نرخ فراخوان نسبت POI به درستی پیش بینی شده به تعداد کل POI بازدید شده واقعی است:
امتیاز F 1 بر اساس دقت و میزان یادآوری شاخص ارزیابی جامع است:
جایی که لیست توصیه شده Top-k POI های آن کاربر است می خواهم بازدید کنم، و فهرستی از POI های آن کاربر را نشان می دهد در تست بازدید کرده است.
5.3. روش مقایسه ای
پنج روش توصیه POI به عنوان روش های پایه برای مقایسه انتخاب شده اند.
PMF [ 3 ]: این یک مدل پیشنهادی POI بر اساس فاکتورسازی ماتریس است که می تواند احتمال دسترسی کاربران به POI را با تجزیه اطلاعات به دست آمده توسط ماتریس دسترسی به POI کاربران پیش بینی کند.
LRT [ 12 ]: این یک مدل پیشنهادی POI است که اطلاعات زمان را بر اساس تجزیه ماتریس یکپارچه می کند، که همبستگی بین مکان ورود و زمان ورود را در نظر می گیرد.
PFMMGM [ 2 ]: این یک سیستم توصیه مبتنی بر فاکتورسازی ماتریس است، و نفوذ جغرافیایی را از طریق یک مدل گاوسی چند مرکزی می گیرد و اطلاعات اجتماعی و نفوذ جغرافیایی را در چارچوب فاکتورسازی ماتریس ادغام می کند.
CPAM [ 26 ]: این یک مدل ادراک زمینه و ترجیح است، از طریق یک مدل جاسازی POI مبتنی بر skip-Gram برای محاسبه ترجیحات کاربران برای POIهای هدف، و ترکیب با الگوریتم تجزیه ماتریس منطقی برای استخراج ترجیحات کاربران برای POI.
Li [ 20 ]: این یک مدل توصیه POI آگاه از زمینه بر اساس چارچوب CF است. لیست توصیه ها با مطالعه تأثیر ویژگی های زمان و مکان بر کاربران ایجاد می شود.
5.4. تجزیه و تحلیل نتایج
روش پیشنهادی با روشهای دیگر مقایسه میشود و تأثیر پارامترها بر توصیه مورد بحث قرار میگیرد.
5.4.1. مقایسه عملکرد
مدل پیشنهادی SCGM با پنج روش پایه در مجموعه داده نیویورک و مجموعه داده توکیو مقایسه شده است. مدل SCGM بدیهی است که عملکرد بهتری نسبت به سایر الگوریتمها در دقت، یادآوری و امتیاز F1 دارد.
شکل 4دقت هر الگوریتم را در دو مجموعه داده نشان می دهد. می توان دید که دقت شش الگوریتم در مجموعه داده توکیو به وضوح بالاتر از مجموعه داده نیویورک است. از سوی دیگر، به وضوح می توان دریافت که دقت الگوریتم با افزایش طول لیست توصیه شده POI کاهش می یابد. زمانی که لیست طول پیشنهادی به ترتیب 5، 10 و 20 باشد، الگوریتم ما عملکرد بهتری نسبت به سایرین دارد. علاوه بر این، با در نظر گرفتن طول لیست 5 به عنوان مثال، دقت LRT و PMF زیاد نیست، و هیچ یک از دو الگوریتم تأثیر اطلاعات جغرافیایی را در نظر نمیگیرند و در نتیجه عملکرد توصیهای ضعیف را به دنبال دارد. دقت روش PFMMGM، CPAM و لی نزدیک است. با این حال، دقت الگوریتم ما از همه الگوریتمهای پایه بالاتر است.precision@5 روش لی به ترتیب به 0.054 و 0.024 می رسد. SCGM مقدار precision@5 0.069 و 0.032 را دریافت می کند که بهبودی نزدیک به 28% و 33% نسبت به روش Li را نشان می دهد.
شکل 5 یادآوری شش الگوریتم روی مجموعه داده ها را نشان می دهد. فراخوانی الگوریتم با افزایش طول لیست توصیه های POI از 5 تا 20 افزایش می یابد. عملکرد فراخوانی هر الگوریتم زمانی بهترین است که k = 20 باشد. الگوریتم های LRT و PMF کمترین مقدار recall@20 را دارند. در مجموعه داده نیویورک، مقدار recall@20 PFMMGM و CPAM هر دو زیر 0.04 است که به طور قابل توجهی کمتر از روش Li و SCGM است. مقدار recall@20 روش لی و SCGM در مجموعه داده نیویورک 0.05 و 0.06 است. علاوه بر این، فراخوان @20روش PFMMGM، CPAM و لی در مجموعه داده توکیو حدود 0.045 است. آنها هنوز هم کمتر از الگوریتم SCGM هستند. بنابراین، SCGM از سایر الگوریتم ها بهتر عمل می کند و عملکرد خوبی در مجموعه داده های پراکنده دارد.
امتیاز F1 عملکرد کلی الگوریتم را منعکس می کند. همانطور که از شکل 6 نشان داده شده است، الگوریتم های PMF و LRT عملکرد ضعیفی دارند و امتیازات F1 بسیار پایین تر از الگوریتم های دیگر است. عملکرد الگوریتم های PMFMGM و CPAM بهتر از الگوریتم های PMF و LRT است. در میان آنها، PMFMGM تأثیر جغرافیایی را بر اساس سوابق ورود کاربر مدلسازی میکند و به عملکرد بهتری دست مییابد، و CPAM بازخورد ضمنی و تأثیر متنی پیچیده را روی سوابق ورود در نظر میگیرد. علاوه بر این، روش لی بهتر از PMFMGM، CPAM و PMF عمل می کند. این به طور جامع تأثیر عوامل زمان و مکان را بر ورود کاربر در نظر می گیرد. علاوه بر این، الگوریتم SCGM پیشنهادی بهترین عملکرد را به دست میآورد. در مجموعه داده نیویورک (k = 20)، امتیاز F1 PMFMGM، CPAM، روش لی و SCGM به ترتیب به 0.014، 0.017، 0.024 و 0.029 می رسد. در مجموعه داده توکیو (k = 10)، در مقایسه با روش PMFMGM، CPAM و Li، امتیاز F1 روش SCGM ما به طور جداگانه 66%، 56% و 31% بهبود یافت. نتایج نشان میدهد که SCGM، با بهرهگیری از توالی، اطلاعات زمانی، اطلاعات دستهبندی و اطلاعات جغرافیایی، میتواند به طور قابلتوجهی عملکرد کلی توصیههای POI را بهبود بخشد.
5.4.2. اثر پارامتر
مطالعه پارامتر ضروری است ، و اهمیت نفوذ جغرافیایی در تصمیم گیری کاربر را نشان می دهد. شکل 7 نشان می دهد که دقت@5 ، recall@5 و امتیاز F1 با وزن های مختلف از دو مجموعه داده پارامتر از 0.1 تا 0.9 متغیر است. شکل نشان می دهد که نتایج زمانی به اوج می رسد = 0.2 و = 0.4 در دو مجموعه داده توکیو و نیویورک به طور جداگانه. می توان استنباط کرد که مردم مناطق مختلف عادات زندگی متفاوتی دارند و تأثیر جغرافیایی آنها نیز متفاوت است. بنابراین، تنظیم پارامتر ضروری است در مجموعه داده های مختلف بنابراین، ما انتخاب می کنیم = 0.2 به عنوان پارامتر مجموعه داده توکیو و = 0.4 به عنوان پارامتر مجموعه داده نیویورک در ارزیابی تجربی.
6. نتیجه گیری
این مقاله یک مدل پیشنهادی POI (SCGM) را پیشنهاد میکند که فاکتورهای ترتیبی، دستهبندی و جغرافیایی را برای تولید فهرست توصیههای POI ادغام میکند. بر اساس مدل CBOW، بردارهای پنهان ترجیح کاربر برای POI از ترتیب ورود کاربر محاسبه میشوند. سپس، یک توالی دسترسی مشترک مجازی برای کاربران میسازیم و یک روش محاسبه شباهت کاربر جدید از طریق ترکیب تمایز دستهبندی و بردار نهفته POI طراحی میکنیم و آن را در چارچوب توصیهای CF اعمال میکنیم. علاوه بر این، روش تخمین چگالی هسته برای مدلسازی رفتار ورود شخصی کاربر به کار میرود. در پایان، لیستی از POI های توصیه شده بر اساس احتمال ترجیحی کاربر برای POI محاسبه شده با ترکیب CF و KDE به دست می آید. آزمایشها روی دو مجموعه داده LBSN نشان میدهد که SCGM از نظر دقت، یادآوری و امتیاز F1 نسبت به سایر الگوریتمهای پیشنهادی POI برتری دارد. علاوه بر این، الگوریتم پیشنهادی POI پیشنهادی را می توان در منطقه خدمات گردشگری آنلاین اعمال کرد. می تواند بر اساس عادت مصرف شخصی و ترجیحات سفر، هتل یا مکان دیدنی مناسب را در اختیار کاربر قرار دهد تا پیچیدگی برنامه ریزی گردشگری را برای کاربران کاهش دهد. در آینده، روش محاسبه شباهت مسیر را برای بهبود عملکرد توصیههای POI و کشف راههای کارآمد برای محافظت از اطلاعات خصوصی کاربران بیشتر بهینهسازی خواهیم کرد. علاوه بر این، ما می خواهیم الگوریتم را گسترش دهیم و یک سیستم توصیه برای برخی سناریوهای کاربردی مانند بازاریابی و حمل و نقل هوایی ایجاد کنیم. علاوه بر این، الگوریتم پیشنهادی POI پیشنهادی را می توان در منطقه خدمات گردشگری آنلاین اعمال کرد. می تواند بر اساس عادت مصرف شخصی و ترجیحات سفر، هتل یا مکان دیدنی مناسب را در اختیار کاربر قرار دهد تا پیچیدگی برنامه ریزی گردشگری را برای کاربران کاهش دهد. در آینده، روش محاسبه شباهت مسیر را برای بهبود عملکرد توصیههای POI و کشف راههای کارآمد برای محافظت از اطلاعات خصوصی کاربران بیشتر بهینهسازی خواهیم کرد. علاوه بر این، ما می خواهیم الگوریتم را گسترش دهیم و یک سیستم توصیه برای برخی سناریوهای کاربردی مانند بازاریابی و حمل و نقل هوایی ایجاد کنیم. علاوه بر این، الگوریتم پیشنهادی POI پیشنهادی را می توان در منطقه خدمات گردشگری آنلاین اعمال کرد. می تواند بر اساس عادت مصرف شخصی و ترجیحات سفر، هتل یا مکان دیدنی مناسب را در اختیار کاربر قرار دهد تا پیچیدگی برنامه ریزی گردشگری را برای کاربران کاهش دهد. در آینده، روش محاسبه شباهت مسیر را برای بهبود عملکرد توصیههای POI و کشف راههای کارآمد برای محافظت از اطلاعات خصوصی کاربران بیشتر بهینهسازی خواهیم کرد. علاوه بر این، ما می خواهیم الگوریتم را گسترش دهیم و یک سیستم توصیه برای برخی سناریوهای کاربردی مانند بازاریابی و حمل و نقل هوایی ایجاد کنیم. می تواند بر اساس عادت مصرف شخصی و ترجیحات سفر، هتل یا مکان دیدنی مناسب را در اختیار کاربر قرار دهد تا پیچیدگی برنامه ریزی گردشگری را برای کاربران کاهش دهد. در آینده، روش محاسبه شباهت مسیر را برای بهبود عملکرد توصیههای POI و کشف راههای کارآمد برای محافظت از اطلاعات خصوصی کاربران بیشتر بهینهسازی خواهیم کرد. علاوه بر این، ما می خواهیم الگوریتم را گسترش دهیم و یک سیستم توصیه برای برخی سناریوهای کاربردی مانند بازاریابی و حمل و نقل هوایی ایجاد کنیم. می تواند بر اساس عادت مصرف شخصی و ترجیحات سفر، هتل یا مکان دیدنی مناسب را در اختیار کاربر قرار دهد تا پیچیدگی برنامه ریزی گردشگری را برای کاربران کاهش دهد. در آینده، روش محاسبه شباهت مسیر را برای بهبود عملکرد توصیههای POI و کشف راههای کارآمد برای محافظت از اطلاعات خصوصی کاربران بیشتر بهینهسازی خواهیم کرد. علاوه بر این، ما می خواهیم الگوریتم را گسترش دهیم و یک سیستم توصیه برای برخی سناریوهای کاربردی مانند بازاریابی و حمل و نقل هوایی ایجاد کنیم.
بدون دیدگاه