خلاصه

استخراج تصاویر معرف جاذبه‌های گردشگری از عکس‌های دارای برچسب جغرافیایی برای بسیاری از زمینه‌ها در مدیریت گردشگری، مانند کاربردها در سیستم‌های اطلاعات گردشگری مفید است. این کار معمولاً با خوشه بندی برای استخراج جاذبه های گردشگری از مختصات خام در عکس های دارای برچسب جغرافیایی آغاز می شود. با این حال، اکثر روش‌های خوشه‌ای موجود در دقت و دانه‌بندی مکان‌های دیدنی، و همچنین در تشخیص برچسب‌های متمایز، به دلیل توجه اولیه آن به روابط فضایی، محدود هستند. پس از خوشه‌بندی، چالش استخراج تصاویر معرف در داده‌های تصویر پایه برچسب‌گذاری‌شده جغرافیایی، به دلیل وجود عکس‌های نویزدار که توسط بخش بزرگی از انسان‌ها و اشیاء نامرتبط اشغال شده‌اند، همچنان وجود دارد. در این صفحه، ما چارچوبی حاوی یک روش خوشه‌ای بهبودیافته و مدل‌های شبکه عصبی چندگانه برای استخراج تصاویر معرف جاذبه‌های گردشگری پیشنهاد می‌کنیم. ما ابتدا یک روش جدید خوشه‌ای با چگالی با محدودیت زمانی و کاربر (TU-DJ-Cluster) را پیشنهاد می‌کنیم که مخصوص عکس‌های دارای برچسب‌های جغرافیایی مشابه برای شناسایی برچسب‌های مربوط به مکان است. سپس خوشه‌ها را با توجه به شباهت بین جفت جاسازی‌های برچسب، مطابق آموزش Word2Vec، ادغام و گسترش می‌دهیم. بر اساس نتیجه خوشه‌بندی، تصاویر نویز را با پرسپترون چندلایه و یک مدل آشکارساز چند جعبه تک‌شات فیلتر می‌کنیم و تصاویر نماینده را با مدل رتبه‌بندی عمیق انتخاب می‌کنیم. پکن را به عنوان منطقه مطالعه انتخاب می کنیم. تجزیه و تحلیل کمی و کیفی و همچنین نتایج پرسشنامه به دست آمده از گردشگران واقعی، اثربخشی این چارچوب را نشان می دهد.

کلید واژه ها:

جاذبه های گردشگری ؛ تصاویر نماینده ; عکس های دارای برچسب جغرافیایی ؛ Word2Vec _ شبکه های کانولوشن

1. معرفی

تعداد فزاینده ای از مطالعات مربوط به جغرافیای گردشگری در سال های اخیر انجام شده است زیرا صنعت گردشگری سهم قابل توجهی در اقتصاد جهانی دارد: کل هزینه های گردشگری خارج از کشور در سال 2016 به 1.23 تریلیون دلار و تعداد گردشگران بین المللی در سال 2017 به 1.32 رسید. میلیارد دلار با رشد 4 درصد در سال در هشت سال [ 1 ]. در میان این مطالعات، استخراج تصاویری معرف از جاذبه های گردشگری، پژوهشی بی نقص و عملی است. می تواند توضیحات آموزنده ای در مورد جاذبه های گردشگری ارائه دهد [ 2 ]. علاوه بر این، می‌توان آن را در ساخت سیستم‌های اطلاعات گردشگری [ 3 ] و تولید نقشه‌های گردشگری [ 4 ] به کار برد.]، و همچنین ارائه محتوای تصویری برای برخی از توصیه های گردشگری مبتنی بر محتوا [ 5 ]. با رواج پلتفرم‌های اشتراک‌گذاری محتوای مبتنی بر تصویر، محققان بیشتر و بیشتر تمایل دارند تا جاذبه‌های گردشگری را از این پلتفرم‌ها استخراج کنند. از آنجا که عکس های گرفته شده توسط کاربران مختلف می توانند ترجیحات واقعی گردشگران را در مقایسه با نظرات ذهنی معدود کارشناسان به طور مستقیم تری منعکس کنند [ 6 ]. علاوه بر این، به عنوان یک نوع داده رسانه های اجتماعی، آنها می توانند به سرعت جاذبه های توریستی نوظهور را کشف کنند. در میان این پلتفرم ها، فلیکر یکی از محبوب ترین پلتفرم ها است. بیش از 100 میلیون کاربر ثبت شده دارد و بیش از 60 میلیون نفر در ماه از آن بازدید می کنند [ 7 ]]. علاوه بر این، در تحقیقات قبلی مربوط به استخراج مکان‌های شهری نیز غالباً استفاده می‌شود، زیرا داده‌های آن برای به دست آوردن راحت است و بیشتر محتوای آن تمایل دارد اطلاعات بیشتری را در مورد مکان‌های اطراف در مقایسه با سایر پلت فرم‌ها منعکس کند [ 8 ].
برخلاف مطالعاتی که هدفشان استنباط موقعیت جغرافیایی از تصاویر است [ 9 ، 10 ]، انتخاب تصویر نماینده توجه بیشتری به کاوش ترجیحات بصری کاربران و شباهت بصری به تصاویر داده شده در یک مکان خاص دارد. بنابراین، معمولاً با خوشه‌بندی شروع می‌شود: عکس‌ها را بر اساس مختصاتشان خوشه‌بندی کنید، و سپس با رمزگذاری معکوس جغرافیایی [ 11 ، 12 ] یا انتخاب برچسب‌های متمایز با TF-IDF [ 6 ، 13 ] و تغییرات آن، حاشیه‌نویسی معنایی به دست آورید [ 14 ]]. با این حال، اکثر روش‌های خوشه‌ای فقط می‌توانند یک نتیجه درشت دانه ایجاد کنند، به عنوان مثال، مناطق مورد علاقه. چنین نتایجی ممکن است دشواری انتخاب تصویر نماینده را افزایش دهد. یکی دیگر از روش‌های متمایز استخراج جاذبه‌های توریستی این است که نام‌های استاندارد جاذبه‌های گردشگری را از وب‌سایت راهنمای سفر یا روزنامه‌های خارجی به‌عنوان کلمات کلیدی به‌دست آوریم و با آنها پرس و جو کنیم تا عکس‌هایی را بگیریم که دارای این برچسب‌ها هستند [ 15 ، 16 ]. با این وجود، چنین روشی دارای معایبی نیز می باشد. اولاً، نمی‌توان تضمین کرد که تمام عکس‌های مربوط به جاذبه‌های گردشگری خاص به نام‌های رسمی پیوست شده‌اند، زیرا اختصارات، املای متناوب و حتی املای غلط نیز وجود دارد [ 17 ]]. بنابراین، ممکن است هنگام استفاده از یک نام واحد و استاندارد برای بازیابی عکس‌ها، یادآور کم شود. دوم، ممکن است عکس‌هایی به نام برخی از جاذبه‌های توریستی پیوست شده باشد، اما به دلیل برچسب‌گذاری اشتباه یا دلایل دیگر، در مکان‌های واقعی قرار نگرفته باشند، که می‌تواند به عنوان نقاط نویز در نظر گرفته شود [ 18 ]. بنابراین، برای نتایج دقیق انتخاب تصویر نماینده، یک روش خوشه‌بندی که نتایج ریزدانه ایجاد می‌کند، مورد نیاز است.
پس از به دست آوردن نتایج خوشه ای، به دلیل ماهیت عکس های گردشگری، چالش همچنان وجود دارد. اولاً، طبق تعریف در [ 19 ]، جاذبه توریستی به مکانی اطلاق می‌شود که اوقات فراغت و سرگرمی را ارائه می‌دهد و گردشگران را برای بازدید جذب می‌کند، که به این معنی است که عکس‌های جاذبه‌های توریستی ممکن است شامل افراد زیادی باشد. علاوه بر این، بسیاری از گردشگران تمایل دارند هنگام سفر در مقابل جاذبه های گردشگری سلفی بگیرند [ 2]. بدیهی است که چنین تصاویری برای نمایش تصاویر یک جاذبه گردشگری مناسب نیستند و بنابراین، فرآیندهای فیلترینگ خاصی مورد نیاز است. با این حال، اجتناب ناپذیر است که برخی از مکان ها، مانند بازار و میدان، جمعیت زیادی داشته باشند. شلوغی ممکن است یکی از اجزای اساسی تصاویر چنین مکان هایی باشد. بنابراین فیلتر غیرمتمایز ممکن است تصویر معرف برخی از انواع جاذبه های گردشگری را پیدا نکند. دوم، وجود عکس‌های نامربوط یا نویز در محتوای تولید شده توسط کاربر، یافتن تصاویر رضایت‌بخش را دشوارتر می‌کند. برخی از گردشگران ممکن است از اشیاء محلی در داخل جاذبه های گردشگری عکس بگیرند، به عنوان مثال، نمایشگاه های موجود در یک موزه. برخی حتی از چیزهای نامرتبط عکس می گیرند، به عنوان مثال، یک گربه یا یک سیب در موزه.
با توجه به چالش‌هایی که در بالا توضیح داده شد، در این مقاله، ما چارچوبی را پیشنهاد می‌کنیم که یک روش خوشه‌ای بهبود یافته و مدل‌های شبکه عصبی متعدد را برای استخراج تصاویر معرف جاذبه‌های توریستی از فلیکر ترکیب می‌کند. ما ابتدا خوشه قابل اتصال چگالی را اصلاح کردیم [ 20] با افزودن محدودیت زمان و آستانه کاربر، که هدف آن شناسایی برچسب‌های مربوط به مکان و فیلتر کردن همزمان برخی از برچسب‌های مربوط به رویدادهای موقتی است که در یک مکان ثابت رخ داده یا اغلب توسط یک کاربر استفاده می‌شود. سپس با توجه به وجود املای متناوب نام مکان‌ها، ما این خوشه‌های مبتنی بر برچسب را با توجه به روابط فضایی بین خوشه‌ها و شباهت معنایی بین برچسب‌ها ادغام و گسترش می‌دهیم. شباهت معنایی از شباهت کسینوس تعبیه‌های برچسب‌ها Word2Vec به دست می‌آید، زیرا Word2Vec می‌تواند کلمات را در فاصله معنایی نزدیک‌تر کند و برای محاسبه شباهت دانه‌بندی‌های متن مختلف کاربرد بیشتری داشته باشد [ 21 ].]. بر اساس نتایج خوشه، ما تصاویر پر سر و صدا با اشیاء را با پرسپترون چندلایه (MLP) و تصاویر با انسان را با یک مدل آشکارساز چند جعبه ای تک شات (SSD) فیلتر می کنیم [ 22 ]. سپس شباهت تصاویر فیلتر شده توسط مدل رتبه بندی عمیق رتبه بندی می شود [ 23]، فهرست مکان رتبه بندی شده با تصاویر نماینده را برمی گرداند. ما پکن را به عنوان منطقه مطالعه انتخاب می کنیم. نتایج روش‌های خوشه‌ای پیشنهادی و روش‌های موجود از نظر تعداد خوشه‌بندی، دقت خوشه‌بندی و تمایز معنایی مقایسه شده و نتایج انتخاب تصاویر معرف به‌صورت کیفی تحلیل می‌شوند. علاوه بر این، یک پرسشنامه نیز برای ارزیابی اینکه آیا نتایج کلی رضایت گردشگران را در زندگی واقعی برآورده می‌کند یا خیر، انجام می‌شود. مجموعه ای از نتایج به دست آمده اثربخشی چارچوب را نشان می دهد.
ادامه این مقاله به شرح زیر سازماندهی شده است. بخش 2 کار مربوط به روش های خوشه بندی برای عکس های دارای برچسب جغرافیایی و انتخاب تصاویر نماینده برای مکان های استخراج شده را بررسی می کند. بخش 3 چارچوب اولیه و کلی استخراج جاذبه های گردشگری و تصاویر معرف آنها را معرفی می کند. بخش 4 منطقه مورد مطالعه را تشریح می کند و نتایج پیاده سازی و ارزیابی را مورد بحث قرار می دهد. بخش 5 این مقاله را خلاصه می کند و به مسیرهای کار آینده اشاره می کند.

2. کارهای مرتبط

2.1. دسته بندی عکس دارای برچسب جغرافیایی

خوشه بندی مقدمه و مبنای انتخاب تصویر نماینده از عکس های دارای برچسب جغرافیایی است. در میان این روش‌های خوشه‌بندی، روش‌های خوشه‌ای مبتنی بر چگالی به طور گسترده در خوشه‌بندی عکس‌های دارای برچسب جغرافیایی استفاده می‌شوند، زیرا نیازی به تعریف از پیش تعداد خوشه‌ها ندارند و می‌توانند نقاط نویز را فیلتر کنند [ 11 ، 24 ]. این روش‌های خوشه‌ای مبتنی بر چگالی شامل DBSCAN (خوشه‌بندی فضایی برنامه‌های کاربردی با نویز مبتنی بر تراکم) [ 6 ، 8 ، 24 ] و DBSCAN اصلاح‌شده‌های مختلف، مانند P-DBSCAN [ 25 ]، روشی که یک شعاع از پیش تنظیم شده را در نظر می‌گیرد. حداقل تعداد صاحبان عکس [ 11 ، 26]. پس از خوشه‌بندی، برخی مستقیماً این خوشه‌ها را معکوس می‌کنند و با استفاده از ابزارهایی مانند Geonames [ 12 ] و Google Places API [ 11 ]، نام مکان‌های مربوطه را شناسایی می‌کنند. با این حال، تنوع نتایج ژئوکدینگ معکوس قضاوت در مورد دقت را دشوار می کند و گاهی اوقات خطاهای موقعیت یابی آن را بدتر می کند [ 27 ، 28 ]. مقالات دیگر استفاده از محتوای متنی پیوست شده به عکس های دارای برچسب جغرافیایی را برای به دست آوردن نام مکان های دقیق تر، عمدتاً با محاسبه TF-IDF یا انواع آن از هر خوشه و یافتن برچسب های نماینده به عنوان نام مکان یا اطلاعات در نظر می گیرند [ 14 ، 29 ]]. با این وجود، اکثر روش‌های خوشه‌ای فقط می‌توانند یک نتیجه خوشه‌ای درشت ایجاد کنند، به‌عنوان مثال، مناطق مورد علاقه، که احتمالاً حاوی بیش از یک جاذبه گردشگری هستند، به‌ویژه در منطقه‌ای با عکس‌های بارگذاری شده با تراکم بالا. چنین نتایجی برای کاربرد بیشتر، مانند توصیه‌های جاذبه توریستی مفید نیستند.
بخش کوچکی از محققان انتخاب می‌کنند که عکس‌های دارای برچسب جغرافیایی با نام‌های استاندارد جاذبه‌های گردشگری را بازیابی کنند [ 15 ، 30 ]. این ممکن است باعث یادآوری کم و حاوی نویز شود. چند مطالعه تلاش کردند تا برچسب‌های مکان را در عکس‌های دارای برچسب جغرافیایی بدون مراجعه به هیچ روزنامه‌ای با خوشه‌بندی عکس‌ها با همان برچسب و تجزیه و تحلیل توزیع فضایی شناسایی کنند [ 18 ]]. همانطور که در بالا ذکر شد، تعداد زیادی اختصار و املای متناوب اسامی مکان های استاندارد در مجموعه برچسب ها وجود دارد که حل آنها بی اهمیت است. با این حال، هنگام ادغام برچسب‌های مکان، محققان در مطالعات قبلی عمدتاً شباهت توزیع فضایی بین برچسب‌ها را در نظر می‌گیرند و تعداد کمی شباهت معنایی برچسب‌های مکان را در نظر می‌گیرند. علاوه بر این، برخی از برچسب‌های مربوط به رویدادهایی که در مکان‌های ثابت رخ می‌دهند یا اغلب توسط تعداد کمی از کاربران استفاده می‌شوند، قابل فیلتر نیستند. بنابراین، در خوشه‌بندی مکان‌هایی که عکس‌های دارای برچسب جغرافیایی دارند، به بهبود بیشتری نیاز است.

2.2. انتخاب تصویر نماینده

انتخاب تصویر نماینده یک مطالعه پرطرفدار، اما همچنین چالش برانگیز است، به دلیل وجود تصاویر نویزدار در عکس های دارای برچسب جغرافیایی. چند مطالعه از روش های یادگیری نظارت شده برای استخراج تصاویر معرف مکان های خاص استفاده کردند. به عنوان مثال، کراندال و همکاران. [ 31 ] از یک مدل SVM برای تشخیص عکس‌های جاذبه‌های گردشگری از عکس‌های منفی به‌دست‌آمده از مکان‌های دیگر استفاده کنید. به طور مشابه، سامانی [ 32 ] از یک شبکه اعتقادی عمیق برای طبقه‌بندی نقاط دیدنی در تهران، ایران استفاده می‌کند. کیم و همکاران [ 33 ] به دنبال راه دیگری برای طبقه بندی و تجزیه و تحلیل تصویر نماینده اجزای اصلی در هر منطقه مورد علاقه در سئول با مدل Inception v3 است که از قبل با ImageNet آموزش داده شده است. با این حال، برچسب زدن تصاویر برای یادگیری تحت نظارت هزینه کار دستی گسترده ای دارد [34 ]. علاوه بر این، آموزش طبقه بندی کننده برای هر جاذبه گردشگری در جهان به سختی امکان پذیر است [ 30 ]. بنابراین، یک رویکرد رایج تر، مقایسه ویژگی های تصویر و یافتن تصاویر مشابه پس از خوشه بندی یا استخراج مکان ها از برچسب ها و برچسب های جغرافیایی است. در میان آن ویژگی های تصویر، SIFT اغلب استفاده می شود [ 18 ، 31 ]. خصوصیات دیگر نیز استفاده می شود، از جمله GIST [ 29 ، 35 ]، هیستوگرام رنگی [ 36 ]، و غیره. برای نمایش بهتر، برخی مطالعات ممکن است بیش از یک ویژگی تصویر را ترکیب کنند [ 36 ، 37 ]. با این حال، عملکرد ممکن است با نمایش این ویژگی های دست ساز تا حد زیادی محدود شود [ 23]. با توسعه شبکه های عصبی کانولوشنال، محققان به تدریج سعی می کنند از مدل های مبتنی بر کانولوشن برای تکمیل این کار استفاده کنند. برای مثال، دینگ و فن [ 38 ] SURF (الگوریتمی شبیه به SIFT) و LIFT (یک مدل یادگیری عمیق) را برای یافتن تصاویر معرف و تطبیق تصاویر بدون برچسب با آنها ترکیب می‌کنند.
برای انتخاب تصاویر معرف بهتر، برخی از پیش پردازش فیلتر نیز در مطالعات قبلی انجام شده است. بیشتر آنها با استفاده از یک کتابخانه پیچیده (مانند OpenCV) [ 8 ] و یا آموزش یک مدل یادگیری عمیق برای طبقه بندی تصاویر [ 5 ]، تصاویر را با انسان فیلتر می کنند. با این حال، همه مطالعات قبلی فرآیند فیلتر غیرمتمایز را انجام دادند، که ممکن است تصویر معرف برخی از جاذبه‌های گردشگری را پیدا نکند. علاوه بر این، به غیر از تصاویر با انسان، تعداد کمی از انواع دیگر تصاویر نویز، مانند تصاویر مصنوعی (به عنوان مثال، یک آرم) و تصاویر با اشیا (به عنوان مثال، یک سیب) را در نظر می گیرند [ 39 ]]. به طور خلاصه، تلاش بیشتری برای استفاده از پتانسیل مدل‌های مبتنی بر کانولوشن برای اعمال در انتخاب تصویر معرف برای جذب توریست مورد نیاز است.

3. چارچوب کلی

3.1. مقدماتی

مجموعه عکس ها در یک منطقه مطالعه خاص را به صورت تعریف می کنیم پ={پ1،پ2،…،پ|پ|}، جایی که ∀پمن∈پمتشکل از چندین صفت است که به صورت نمایش داده می شود پمن=(مندپمن،تیپمن، لپمن،توپمن،ایکسپمن). این ویژگی ها شامل شناسه عکس منحصر به فرد است مندپمن، زمان صرف شده است تیپمن، مکان گرفته شده است لپمن(با عرض جغرافیایی نشان داده شده است لآتیپمنو طول جغرافیایی لonپمن)، کاربری که در این عکس مشارکت دارد توپمن، و لیستی از برچسب ها ایکسپمن=[ایکس1،ایکس2،…،ایکس|ایکسپمن|]. توجه داشته باشید که تعداد تگ ها در ایکسپمنمی تواند صفر یا هر عدد صحیح مثبت و یک تگ باشد ایکسرا می توان به یک یا چند عکس پیوست کرد. ما مجموعه ای از برچسب ها را به عنوان نشان می دهیم ایکس={ایکس1،ایکس2،…،ایکس|ایکس|}، و زیرمجموعه عکس هایی که به یک برچسب خاص پیوست شده اند ایکسمانند پایکس=∪پمن∈پ،ایکس∈ایکسپایکس.
هدف ما شناسایی مجموعه ای از برچسب های مربوط به مکان، و ادغام و گسترش بیشتر این خوشه ها است. بر اساس نتایج خوشه، تصاویر معرف هر جاذبه گردشگری را بیابید. شکل 1 چارچوب کلی را نشان می دهد و هر مرحله به طور مفصل در بخش های زیر نشان داده شده است.

3.2. اکتساب داده ها

برداشت داده ها اولین مرحله از چارچوب است. همانطور که در بالا ذکر شد، مجموعه داده عکس دارای برچسب جغرافیایی فلیکر به دلیل چندین مزیت آن، یک انتخاب بهینه برای این مطالعه است. جدا از APIهای فلیکر، مجموعه داده‌ها را می‌توان به راحتی از یاهو فلیکر کریتیو کامانز 100 میلیون داده (YFCC100M) که در آمازون AWS میزبانی می‌شود، دریافت کرد. به عنوان بخشی از برنامه Yahoo Webscope [ 40]، تقریباً 100 میلیون عکس فلیکر عمومی را ارائه می دهد که هر کدام شامل شناسه کاربر، طول جغرافیایی، عرض جغرافیایی، برچسب های کاربر، زمان ضبط، دستگاه ضبط، URL صفحه عکس/فیلم، URL مجوز و غیره است. این مقدار داده کافی را تحت یک Creative ارائه می کند. Commons Attribution License و می تواند محققین را از کار دردسرساز خزیدن داده رها کند. ما از عکس‌های دارای برچسب جغرافیایی از YFCC100M استفاده می‌کنیم که مختصات آن در منطقه مورد مطالعه محدود شده و در مدت زمان مشخصی گرفته شده‌اند. ویژگی های اصلی که ما در این مقاله استفاده می کنیم شامل: شماره خط (شناسایی منحصر به فرد هر عکس دارای برچسب جغرافیایی)، شناسه کاربر (شناسه منحصر به فرد هر کاربر)، زمان ضبط، برچسب جغرافیایی (طول و عرض جغرافیایی)، برچسب های کاربر و خود تصاویر است.

3.3. فیلتر کردن کاربر

از آنجا که هدف ما استخراج جاذبه‌های گردشگری در این مطالعه است، عکس‌های دارای برچسب جغرافیایی آپلود شده توسط بومیان باید حذف شوند، زیرا بیشتر سوابق ثبت نام آنها در مورد زندگی روزمره و رویدادهای غیرمرتبط با گردشگری است. مشابه مطالعه انجام شده توسط Sun و همکاران. [ 24 ]، ما از یک روش مبتنی بر آنتروپی برای متمایز کردن گردشگران از بومی‌ها در مقصد گردشگری استفاده می‌کنیم که به صورت معادله (1) فرموله شده است:

E(تو)=-∑متر∈مon(تو)پمتر(تو)·ورود به سیستمپمتر(تو)
پمتر(تو)=Dمتر(تو)∑متر∈مon(تو)Dمتر(تو)
در معادله (2) Dمتر(تو)تعداد روزهایی است که کاربر استفاده می کند تودر ماه در منطقه مورد مطالعه اقامت داشته اند متر، و مon(تو)تعداد کل ماه های آن کاربر است تودر این منطقه مطالعاتی اقامت داشته اند. پمتر(تو)نسبت تعداد روزها در ماه است مترو تعداد کل روزهای آن کاربر تودر منطقه مورد مطالعه مانده است. به طور شهودی، ارزش بزرگتر است E(تو)این است که کاربر پراکنده تر است توتوزیع بازدید کنندگان این است که کمتر احتمال دارد که او یک توریست باشد. بنابراین ما یک آستانه تعریف می کنیم Eبرای حذف عکس های دارای برچسب جغرافیایی کاربر تواگر ارزش E(تو)برای کاربر توبزرگتر از E.

3.4. پردازش برچسب

پیش پردازش برچسب‌ها و آموزش Word2Vec قبل از شناسایی برچسب‌های مکان و مکان‌های خوشه‌بندی مورد نیاز است، که ابهامات رایج زبانی مانند فضاهای سفید، جداسازی کلمات و حروف بزرگ را برطرف می‌کند و اصطلاحات را منظم می‌کند. پس از آن، ما از Word2Vec برای استخراج روابط معنایی استفاده می‌کنیم، جایی که همه برچسب‌ها در ناحیه مورد مطالعه بدنه را تشکیل می‌دهند، و برچسب‌ها در هر عکس یک جمله را تشکیل می‌دهند.

به منظور استخراج معناشناسی مورد نظر، ما آستانه حذف کلمه را به عنوان یک محدودیت کاربر تطبیق می دهیم (یعنی برچسب هایی که توسط کمتر از حداقل تعداد کاربران استفاده می شوند آموزش داده نمی شوند). همچنین، کلمه محله را به گونه ای تعریف می کنیم که تمام عبارات پیوست شده به همان عکس را در خود جای دهد. ما از Skip-gram در Word2Vec برای آموزش مجموعه‌های برچسب استفاده می‌کنیم، که عمدتاً هدف آن به حداکثر رساندن احتمال ورود به سیستم کلمه متنی با توجه به کلمه مرکزی است که به عنوان معادله (3) فرموله شده است:

Γ=1|ایکس|∑تی=1|ایکس|∑ایکسج∈سی(ایکستی)ورود به سیستمپ(ایکسج|ایکستی)

جایی که ایکستینشان دهنده کلمه داده شده است، و سی(ایکستی)نشان دهنده محتویات است ایکستی، و ایکسج∈سی(ایکستی)(جایی که ایکستیاختصاصی است) یک کلمه همسایه را نشان می دهد. Skip-gram تعریف می کند پ(ایکسج|ایکستی)با استفاده از تابع softmax با این حال، هزینه محاسبه معادله (1) در هنگام استفاده از تابع softmax غیر عملی است. بنابراین، تابع softmax سلسله مراتبی و نمونه گیری منفی به عنوان دو الگوریتم تقریب محاسباتی کارآمد در معادله (3) پیشنهاد شده است. در این مقاله، تابع softmax سلسله مراتبی برای بهبود کارایی استفاده می شود، که از یک درخت هافمن باینری برای نمایش لایه خروجی با کلمات استفاده می کند و به صراحت احتمالات نسبی گره های فرزند را برای هر گره نشان می دهد [ 41 ].

3.5. خوشه بندی عکس

خوشه‌بندی عکس شامل استخراج برچسب مکان، ادغام و گسترش خوشه است. فرآیند استخراج و ادغام برچسب مکان با تگ دلخواه شروع می شود ایکسکه هنوز پردازش نشده است اگر تعداد عکس های حاوی برچسب ایکس(به عنوان |پایکس|) کمتر از حداقل تعداد عکس است مترمنn_پتیسسپس تگ به عنوان یک تگ نویز علامت گذاری می شود و به پردازش تگ بعدی ادامه می دهد. در غیر این صورت، عکس ها را با TU-DJ-Cluster دسته بندی کنید. این یک روش خوشه‌ای با چگالی اصلاح‌شده است [ 20 ]، که بیشتر توسط آستانه زمانی محدود می‌شود. Δتیو حداقل تعداد کاربر و مختص عکس های دارای برچسب جغرافیایی است. فرآیند اصلی TU-DJ-Cluster در شکل 2 نشان داده شده است : (الف) همه نقاط را با همان برچسب مجموعه داده خوشه‌بندی در هر زمان استخراج کنید، جایی که رنگ‌های مختلف عکس‌های گرفته شده توسط کاربران مختلف را نشان می‌دهند. ب) همسایگی هر نقطه را در شعاع محاسبه کنید هپس; ج) نقاط بدون همسایگی را به عنوان نقاط نویز علامت گذاری کنید و آن نقاط را با حداقل یک نقطه مشترک به هم بپیوندید. (د) پس از ایجاد یک نتیجه اولیه خوشه، بیشتر قضاوت کنید که آیا هر خوشه شرایط حداقل آستانه زمانی و حداقل کاربران را برآورده می کند یا خیر. اگر نه، آنها را به عنوان نقاط نویز علامت گذاری کنید.
پس از خوشه بندی پایکسبا TU-DJ-Cluster، ما نتایج خوشه را دریافت خواهیم کرد سیایکس. اگر خوشه ای ایجاد نشد، تگ را علامت گذاری کنید ایکسبه عنوان برچسب نویز در غیر این صورت، از میان این خوشه ها حلقه بزنید و مشخص کنید که آیا خوشه ای وجود دارد که تعداد عکس ها تعداد کل عکس ها را محاسبه می کند. |پایکس|بزرگتر از حداقل نسبت است پ_پro. اگر خوشه جایکسمنکه مطابق با شرط بالا وجود دارد، سپس برچسب را علامت بزنید ایکسبه عنوان یک برچسب مکان و بدنه محدب را با نقاط داخل ایجاد کنید جایکسمن.

ما بیشتر برخی از بدنه های محدب را با توجه به روابط فضایی و شباهت معنایی برچسب ها ادغام می کنیم. اگر دو بدنه محدب قسمت همپوشانی داشته باشند و مقدار شباهت تگ های مکان آنها بزرگتر از حداقل آستانه باشد. مترمنn_سمنمتر، سپس آنها را ادغام کنید. همانطور که رابطه (4) نشان می دهد، شباهت کسینوس برای محاسبه شباهت دو تگ استفاده می شود ایکسمنو ایکسj:

سمنمترمنلآrمنتیy(ایکسمن،ایکسj)=هایکسمنتی·هایکسj”هایکسمن””هایکسj”

جایی که هایکسمنو هایکسjنشان دهنده تعبیه برچسب ها است ایکسمنو ایکسjبه ترتیب که از آموزش Word2Vec فوق به دست آمده اند. پس از پردازش تمام بدنه های محدب، مجموعه ای از بدنه های محدب پردازش شده با معنایی متفاوت به دست می آوریم. سیاچایکس”.

نتایج خوشه‌ای بالا فقط شامل بخش کوچکی از عکس‌هایی است که با برچسب‌های مربوط به مکان پیوست شده‌اند، زیرا زیرمجموعه‌ای از عکس‌های مربوط به مکان بر این اساس برچسب‌گذاری نمی‌شوند. بنابراین، ما به طبقه بندی عکس های پردازش نشده بر اساس روابط فضایی و شباهت معنایی برای بهبود یادآوری ادامه می دهیم. ماهیت عکس گرفتن از مکان های توریستی باعث می شود که چنین عکس هایی در داخل یا نزدیک آن مکان گرفته شود. بنابراین، ما یک بافر با شعاع ایجاد می کنیم rبرای هر بدنه محدب در سیاچایکس”تولید شده توسط مراحل بالا برای استفاده بیشتر. علاوه بر این، مطالعات قبلی نشان می‌دهد که بین برچسب‌ها و برچسب‌های جغرافیایی [ 42 ] همبستگی وجود دارد، بنابراین فرض می‌کنیم که عکس‌های گرفته شده در مکان مجاور تمایل به اختصاص برچسب‌های مشابه دارند. ما قضاوت می کنیم که آیا عکس های طبقه بندی نشده در داخل بدنه محدب قرار دارند یا خیر سیاچایکسبو اگر برچسب پیوستی وجود داشته باشد که شباهت آن با نام بدنه محدب بزرگتر از مترمنn_سمنمتر. خروجی نهایی مجموعه ای از خوشه ها است که جاذبه های گردشگری را با معنایی متفاوت نشان می دهد.

3.6. فیلتر نویز تصویر

تصاویری که به مکان بی ربط هستند یا توسط بخش بزرگی از انسان ها اشغال شده اند با چندین مدل از پیش آموزش دیده حذف می شوند. با الهام از مطالعه انجام شده توسط Zhang و همکاران. [ 39 ]، ما همچنین از مجموعه داده Caltech 101 (یک مجموعه داده تصویر شی) [ 43 ]، و مجموعه داده Places2 (یک مجموعه داده تصویر صحنه با اکثر انواع مکان) استفاده می کنیم [ 44 ]] برای آموزش یک طبقه بندی کننده باینری از تصاویر مربوط به مکان و تصاویر بی ربط به مکان. هر دو مجموعه داده مکمل یکدیگر برای طبقه بندی باینری هدف هستند: Caltech 101 اشیاء منفرد و ساخته دست بشر را به تصویر می کشد، در حالی که Places2 به صراحت مناظر جغرافیایی قابل مکان یابی را نشان می دهد. برای آموزش، ما به طور تصادفی حدود 4000 تصویر از هر مجموعه داده را انتخاب می کنیم تا به ویژگی های بعدی 2048 تبدیل شده و به پرسپترون چندلایه (MLP) و حدود 2000 تصویر برای ارزیابی دقت تغذیه شود. دقت طبقه بندی نهایی به 98.68 درصد می رسد.
در مرحله بعد، یک مدل آشکارساز چند جعبه ای تک شات (SSD) [ 22 ] را برای شناسایی افراد در تصاویر اعمال می کنیم. این یک مدل تشخیص شی مبتنی بر کانولوشن است که از قبل بر روی مجموعه داده‌های کلاس‌های شی بصری PASCAL (VOC) آموزش دیده است. ما فرض می کنیم که اگر بخش قابل توجهی از یک تصویر توسط حداقل یک نفر اشغال شده باشد، به احتمال زیاد سلفی یک گردشگر در مقابل یک جاذبه گردشگری است. نمونه هایی در شکل 3 نشان داده شده است. اگرچه هر دو تصویر جاذبه توریستی یکسانی را نشان می‌دهند (دیوار بزرگ در پکن، چین) و هر دو دارای دو نفر هستند، به نظر می‌رسد شکل 3 a بیشتر از شکل 3 نماینده این جاذبه گردشگری باشد.ب با توجه به این فرض، اگر فردی وجود داشته باشد که حداقل مساحت مستطیل مرزی او بیش از 10٪ از این تصویر را پوشش می دهد، هر تصویر را شناسایی کرده و آن را فیلتر می کنیم.

3.7. انتخاب تصویر نماینده

پس از حذف عکس‌های نویز، مدل رتبه‌بندی عمیق را آموزش می‌دهیم و نماینده‌ترین تصاویر هر جاذبه گردشگری را پیدا می‌کنیم. مدل رتبه‌بندی عمیق یک مدل کانولوشنی است که بر شباهت بصری ریز تمرکز دارد، که با اکثر مدل‌های موجود که فقط بر شباهت در سطح دسته تمرکز می‌کنند، متفاوت است [ 23 ]. همانطور که در شکل 4 نشان داده شده است ، مدل می تواند یک شبکه کانولوشنال رایج (ConvNet)، مانند شبکه های VGG [ 45 ] و ResNet [ 46 ] را ادغام کند.] با مسیرهای با وضوح پایین و عادی سازی ویژگی های خروجی آنها. سه‌گانه‌های تصویر، شامل تصویر لنگر، تصویر مثبت و تصویر منفی، به طور مستقل به سه شبکه با معماری یکسان و پارامترهای مشترک تغذیه می‌شوند. این خروجی‌های تعبیه‌شده ورودی‌ها برای ارزیابی تلفات لولا، با انتشار مجدد گرادیان‌ها به لایه‌های پایین‌تر برای بهینه‌سازی پارامترهای آن‌ها و به حداقل رساندن تلفات لولا، استفاده می‌شوند.
در مطالعه خود، از ResNet به عنوان ConvNet در مدل و Tiny-ImageNet [ 47 ] به عنوان مجموعه داده آموزشی استفاده می‌کنیم. برای هر تصویر در مجموعه داده آموزشی، به طور تصادفی یک تصویر در همان دسته با تصویر مثبت و یک تصویر در هر دسته دیگر به عنوان تصویر منفی انتخاب می کنیم تا ورودی سه گانه ایجاد شود. برای تسریع روند آموزش، بخش ConvNet مدل را با وزن های ImageNet مقداردهی اولیه می کنیم. پس از آموزش، وزن های مدل را به دست آورده و به مجموعه داده خود منتقل می کنیم.

4. نتایج تجربی

4.1. منطقه مطالعه

ما پکن را به عنوان منطقه مطالعه انتخاب می کنیم تا چارچوب را تأیید کنیم. پکن پایتخت چین و همچنین دومین شهر بزرگ چین است. منابع گردشگری فراوانی دارد و هر ساله گردشگران زیادی را در داخل و خارج از کشور جذب کرده است [ 48 ]. تعداد تصاویر خام محدود شده در پکن 145,397 و تعداد کاربران 2,846 است. پس از فیلتر کردن کاربران، همانطور که در بخش 3.3 توضیح داده شد، تعداد تصاویر به 140891 و تعداد کاربران 2750 کاهش یافته است. شکل 5 توزیع عکس در پکن را نشان می دهد.

4.2. نتیجه تشخیص برچسب مربوط به مکان

قبل از اعمال Word2Vec در مجموعه برچسب‌ها، توزیع فراوانی برچسب‌های مورد استفاده در مطالعه ( شکل 6 a)، و همچنین تعداد کاربرانی که از این برچسب‌ها استفاده می‌کنند ( شکل 6 ب) را تجزیه و تحلیل کرده‌ایم و آنها را به صورت نمودارهای log-log نشان می‌دهیم. نمودارها نشان می‌دهند که هر دو تقریباً از یک توزیع قانون قدرت مشابه با توزیع فرکانس کلمه در زبان طبیعی پیروی می‌کنند، که نشان می‌دهد برای استفاده از Word2Vec برای جاسازی این برچسب‌ها با شرایط محدودیت تعداد کاربران قابل استفاده است. ما حداقل تعداد کاربر را سه نفر و اندازه جاسازی را 200 تنظیم کرده ایم. پس از فیلتر کردن برچسب ها، تعداد برچسب ها از 19469 به 2845 کاهش می یابد.
برای ارزیابی توانایی فیلتر کردن برچسب‌های نامرتبط با مکان TU-DJ-Cluster، آن را با یک خوشه قابل اتصال با چگالی بدون محدودیت زمان و کاربر مقایسه می‌کنیم که می‌تواند به عنوان DBSCAN در نظر گرفته شود. ممنnپتیستا حدودی 1 است. TU-DJ-Cluster را در چارچوب خوشه بندی عکس با آن جایگزین می کنیم. جدول 1 مقادیر پارامترها را برای همه روش های این آزمایش نشان می دهد. در همین حال، روش پایه DBSCAN هر دو را تنظیم کرد مترمنn_توسهrسو Δتیبه عنوان صفر، نشان می دهد که هیچ محدودیتی در تعداد کاربران و زمان برای خوشه بندی وجود ندارد.
جدول 2نتایج تشخیص هر دو روش را فهرست می کند. TU-DJ-Cluster 131 برچسب مربوط به مکان را شناسایی کرده است، در حالی که DBSCAN 385 را بدون محدودیت زمان و کاربر شناسایی کرده است. برای اعتبارسنجی بهتر دقت تشخیص برچسب مربوط به مکان، از داوطلبانی که با پکن آشنا هستند دعوت می‌کنیم تا برچسب‌های مربوط به مکان را به صورت دستی علامت‌گذاری کنند و برای محاسبه فراخوانی TU-DJ-Cluster و DBSCAN، که به عنوان نسبت تعداد تگ های واقعی مربوط به مکان و تعداد تگ های شناسایی شده، یا می توانیم آن را به عنوان نسبت ضربه در نظر بگیریم. ما می توانیم ببینیم که نسبت ضربه TU-DJ-Cluster بسیار بزرگتر از DBSCAN است، که بیش از 85٪ از برچسب های شناسایی شده مقادیر مثبت واقعی هستند. اگرچه TU-DJ-Cluster برخی از برچسب های مربوط به مکان واقعی را از دست داده است (52 کمتر از DBSCAN)، بسیاری از آنها را می توان با برچسب های شناسایی شده در پسوند خوشه ای ادغام کرد، زیرا اکثر آنها املای متناوب یا غلط املایی برچسب های شناسایی شده هستند که توسط تعداد کمی از کاربران استفاده می شود. برعکس، مقادیر مثبت کاذب شناسایی شده توسط DBSCAN، خوشه های بی اهمیت زیادی را ایجاد کرده اند.شکل 7 برخی از نتایج شناسایی نادرست DBSCAN را هنگام شناسایی برچسب های مربوط به مکان نشان می دهد. «midi» ( شکل 7 الف، یک جشنواره موسیقی معروف که در پارک هایدیان، پکن برگزار می‌شود) و «cnbloggercon» ( شکل 7 ب، کنفرانس مربوط به بلاگر چین) را به‌عنوان یک برچسب مرتبط با مکان شناسایی کرده است، و همچنین برچسب‌های مربوط به مکان های شخصی مانند “دفتر” و “خانه” که ما در این شکل نشان نمی دهیم. الگوریتم ترجیحی ما TU-DJ-Cluster، به طور طبیعی آن تگ های معنایی نامربوط را فیلتر می کند (به مواد تکمیلی مراجعه کنید ).
برای اثبات اثربخشی استفاده از Word2Vec در پردازش برچسب و محاسبه شباهت، ما همچنین برخی از نتایج شباهت زیاد بین برچسب‌های مربوط به مکان را فهرست می‌کنیم، در حالی که بدنه‌های محدب معنایی را ادغام می‌کنیم و در جدول 3 نشان می‌دهیم.. تجزیه و تحلیل نشان می‌دهد که پردازش برچسب‌های مترادف مرتبط با مکان را شناسایی و ادغام می‌کند، زیرا برچسب‌های مترادف به احتمال زیاد شباهت بالایی دارند، از جمله نام انگلیسی و “Pinyin” یک جاذبه گردشگری خاص (به عنوان مثال، “altarofheaven” و “tiantanpark)، “oldsummerpalace” و “yuanmingyuan” و غیره)، اختصارات (به عنوان مثال، “nationalcentrefortheperformingarts” و “ncpa” می توانند نشان دهنده مرکز ملی هنرهای نمایشی باشند.) و نام های جایگزین (به عنوان مثال، “birdsnest” و “nationalstadium” می تواند نماینده ورزشگاه ملی پکن باشد).

4.3. نتیجه خوشه بندی عکس

با پیروی از پارامترها و فرآیند بالا، نتیجه خوشه بندی کلی چارچوب خود را به دست می آوریم. نتیجه شامل تعداد کل 30 خوشه است که بیشتر آنها در ناحیه دونگ چنگ و ناحیه شیچنگ از جمله تیان آنمن، شهر ممنوعه، وانگ فوجینگ، پارک جینگشان، برج درام و غیره قرار دارند و در شکل 8 نشان داده شده است.
برای نشان دادن بهتر، ما چارچوب خود را با P-DBSCAN و TF-IDF-UF مقایسه می کنیم، که فرآیند را در مطالعات کندی و همکاران دنبال می کنیم. [ 14 ] و Vu و همکاران. [ 26 ]. همانطور که انتظار می رفت، نتایج P-DBSCAN خوشه های کمتری (16 خوشه) را با تمایز کمتر نسبت به TU-DJ-Clustering استخراج می کند که به صورت کیفی در گرافیک OpenStreetMap در شکل 9 ارائه شده است. هم P-DBSCAN و هم روش ما با موفقیت مکان های دیدنی یکسانی را شناسایی کرده اند، از جمله کاخ تابستانی قدیمی (همچنین به عنوان “یوآنمینیوان” شناخته می شود)، منطقه هنری “798” و کاخ تابستانی (همچنین به عنوان “Yiheyuan” شناخته می شود؛ شکل 9. آ). با این حال، به دلیل توزیع نامتعادل چگالی نقطه در این مکان ها، نتیجه P-DBSCAN در شکل 9a شامل بخش جنوب غربی آن نمی شود که بخشی از کاخ تابستانی است که در OSM نشان داده شده است. علاوه بر این، از آنجایی که این نقاط واقع در قسمت شمال غربی نتیجه P-DBSCAN به ناحیه با چگالی بالا نزدیک‌تر می‌شوند، در این خوشه قرار می‌گیرند، جایی که به طور تصادفی محتوای برخی از عکس‌ها را بررسی می‌کنیم و متوجه می‌شویم که از نظر معنایی مرتبط با آن نیستند. کاخ تابستانی در نتیجه، اگرچه هر دوی آنها با موفقیت مکان مورد علاقه یکسانی را شناسایی می‌کنند، یک نتیجه خوشه‌بندی که تفاوت معنایی عکس‌ها را در نظر گرفته است، بدون شک می‌تواند نتیجه خوشه‌بندی ریزدانه‌ای را به دست آورد و کاربرد بیشتری را به همراه داشته باشد.
شکل 9b نتایج خوشه ای TU-DJ-Cluster و P-DBSCAN را در اطراف منطقه شهر ممنوعه مقایسه می کند. روش ما مکان های دیدنی مختلفی را در این منطقه شناسایی کرده است، در حالی که P-DBSCAN چنین طیف وسیعی از مناطق را در یک خوشه خوشه بندی کرده است. حتی اگر چندین ترکیب از پارامترهای P-DBSCAN را در طول آزمایش آزمایش کرده باشیم، اکثر آنها تمایل دارند این مکان‌های مختلف مورد علاقه را در یک خوشه خوشه‌بندی کنند. یکی از دلایل احتمالی این است که این جاذبه های توریستی محبوب پکن به طور متراکم در منطقه اطراف شهر ممنوعه قرار گرفته اند که باعث تراکم نسبتاً بالایی از عکس های دارای برچسب جغرافیایی می شود و تشخیص P-DBSCAN را دشوار می کند. همچنین، با روش TF-IDF-UF، “beijing” را انتخاب می کند که یک برچسب نسبتاً غیرنماینده برای این خوشه است. چنین نتیجه خوشه ای ممکن است تأثیر بدی بر کاربردهای بعدی داشته باشد، مانند توصیه جاذبه توریستی. مقایسه برتری روش ما را در تشخیص مکان های دیدنی ریز دانه و استخراج برچسب های دقیق و معرف به این مکان های دیدنی نسبت به روش سنتی P-DBSCAN نشان می دهد.

4.4. نتیجه انتخاب تصویر نماینده

بر اساس نتایج خوشه فوق از TU-DJ-Cluster، ما تصاویر مربوطه را در هر خوشه جمع آوری می کنیم تا تصاویر معرف را فیلتر و پیدا کنیم. ما نتیجه کلی فیلتر کردن هر خوشه را با نمودار میله ای انباشته در شکل 10 و شکل 11 نشان می دهیم . شکل 10 تعداد مطلق تصاویر است و این جاذبه های گردشگری بر اساس تعداد کل تصاویر مرتب شده اند که نشان دهنده محبوبیت هر جاذبه گردشگری تا حدی است. همانطور که شکل 10 نشان می دهد، شهر ممنوعه محبوب ترین جاذبه گردشگری است، زیرا تعداد تصاویر بسیار بیشتر از سایرین است. پارک المپیک، کاخ تابستانی و میدان تیان‌آن‌من از موارد زیر است. شکل 11نسبت انواع مختلف محتوای تصویر را نشان می دهد. موزه پایتخت، باغ وحش و پارک ژونگشان به ترتیب با آثار تاریخی، پانداها و لاله ها گردشگران را جذب می کنند. جاذبه های گردشگری مانند آنها نسبت نسبتاً بالایی از تصاویر مربوط به اشیاء را دارند. این نتیجه نشان می دهد که گردشگران در هنگام بازدید از این نوع جاذبه های گردشگری علاقه بیشتری به عکس گرفتن از اشیا دارند. برعکس، تصاویر با انسان در جاذبه های گردشگری مانند وانگ فوجینگ و پارک دیتان غالب است. در مورد Wangfujing، توضیح آن آسان است زیرا یک منطقه خرید با جریان عظیم مردم است. پارک دیتان به همان اندازه با نمایشگاه‌های پر جنب و جوش معابد خود گردشگران را به خود جذب می‌کند و بنابراین، تصاویر بسیاری از انسان‌ها را در خود جای داده است. علاوه بر این، این نمودار نشان می‌دهد که جاذبه‌های گردشگری با ظاهری باشکوه می‌توانند گردشگران را برای گرفتن عکس‌های کلی‌تر از آن‌ها جذب کنند، زیرا تصاویر مربوط به صحنه‌ها بیش از 60 درصد از جاذبه‌های گردشگری مانند ساختمان دوربین مدار بسته، تئاتر ملی و یوان‌مینگیوان را تشکیل می‌دهند. به طور خلاصه، گردشگران هنگام عکس گرفتن از انواع مختلف جاذبه های گردشگری ترجیحات متفاوتی از خود نشان می دهند و دشواری انتخاب تصویر نماینده نیز از انواع مختلف جاذبه های گردشگری متفاوت است.
ما پنج جاذبه توریستی برتر را که بیشترین تعداد عکس را دارند انتخاب می کنیم و نتایج آنها را از انتخاب تصویر نماینده تجزیه و تحلیل می کنیم. ما نتیجه چارچوب انتخاب تصویر نماینده خود را با انتخاب تصادفی (بدون فرآیند فیلتر کردن تصویر نویز)، که در شکل 12 نشان داده شده است، مقایسه می کنیم . ما می‌توانیم از نتیجه انتخاب تصادفی استنباط کنیم که مجموعه تصویر پرسپکتیوهای عکس مغرضانه یا غیرنماینده (به عنوان مثال 2-a و 5-c در شکل 12 )، بخش‌های محلی این جاذبه گردشگری (1-b و 3-b در شکل 12 ) و حتی برخی از تصاویر نویزدار (1-a و 5-b در شکل 12)). علاوه بر این، اگرچه فرآیند فیلتر کردن تصویر نویز انجام شده است، اما برخی از تصاویر نامرتبط هنوز وجود دارند که دشواری رتبه‌بندی و انتخاب برای مدل رتبه‌بندی عمیق را افزایش می‌دهد. چارچوب ما همچنان می‌تواند تصاویر گرفته شده از رایج‌ترین و معرف‌ترین زوایای دید را با نمای کلی یک جاذبه گردشگری خاص انتخاب کند. اگرچه برخی از تصاویر معرف تنوع بصری را نشان می دهند، اما تا حدی ترجیحات بصری متنوع کاربران مختلف را منعکس می کنند. برای مثال، 1-f و 3-f در شکل 12 ، متفاوت از سایر تصاویر معرف، به ترتیب یکی از کاخ‌های شهر ممنوعه و قایق مرمری را در کاخ تابستانی نشان می‌دهند.

4.5. نتیجه رضایت کاربران

برای ارزیابی بهتر نتایج چارچوب کلی، ما یک پرسشنامه بر اساس نقشه گردشگری ساده ای که ایجاد کردیم، که در آن نقشه بایدو نقشه پایه و مکان های جاذبه های گردشگری استخراج شده است، و تصاویر نماینده نشان داده شده است، انجام دادیم ( شکل 13).). 80 داوطلب در این نظرسنجی شرکت کردند، از جمله افرادی که در پکن زندگی می کردند، قبلاً از پکن بازدید کرده اند یا در آینده توریست های بالقوه پکن هستند (توجه داشته باشید که بیشتر جاذبه های توریستی در پکن به اندازه کافی معروف هستند، و بنابراین، اکثر مردم چین با آن آشنا هستند. آنها را به درجات مختلف). با توجه به نقشه توریستی، هر داوطلب بر اساس مقیاس لیکرت از 1 (کاملاً مخالفم) تا 5 (کاملاً موافقم) سه مورد را رتبه‌بندی کرد، از جمله: (1) صداقت: به نظر شما نتایج استخراج‌شده تا چه اندازه می‌تواند گردشگر معروف پکن را پوشش دهد. جاذبه ها (Q1)؛ (2) نمایندگی: به نظر شما تا چه حد تصاویر انتخاب شده نشان دهنده جاذبه های گردشگری هستند (Q2)؛ (3) جذابیت: فکر می کنید تا چه حد افزودن تصاویر معرف می تواند شما را برای بازدید از جاذبه های گردشگری جذب کند (Q3).
نتایج آماری پرسشنامه در جدول 4 نشان داده شده است ، جایی که عدد صحیح نشان دهنده تعداد رتبه بندی افراد برای هر گزینه است. از بین هر سه معیار، اکثر داوطلبان “موافق” را انتخاب کردند و موارد زیر “خنثی” یا “قوی موافقم” هستند. میانگین امتیازات بالا حاکی از رضایت بالای کاربران به ویژه در معیارهای بازنمایی (حدود 3.88 از 5) است که نشان می دهد چارچوب انتخاب تصویر نماینده موثر است. با توجه به آنچه در بالا مورد تجزیه و تحلیل قرار گرفت، چارچوب کلی این پتانسیل را دارد که در کاربردهای گردشگری کاربرد داشته باشد و رضایت گردشگران را در زندگی واقعی برآورده کند.

5. نتیجه گیری ها

در این مقاله، ما چارچوبی حاوی یک روش خوشه‌ای بهبودیافته و مدل‌های شبکه عصبی متعدد برای استخراج تصاویر معرف جاذبه‌های توریستی پیشنهاد می‌کنیم. با استفاده از مجموعه داده 100 میلیونی کریتیو کامانز فلیکر، پکن را به عنوان منطقه مورد مطالعه برای ارزیابی چارچوب خود انتخاب می کنیم. سپس مجموعه داده را با روشی مبتنی بر آنتروپی فیلتر می‌کنیم تا برخی عکس‌های آپلود شده توسط افراد بومی را حذف کنیم. ما یک خوشه مبتنی بر چگالی را با اضافه کردن محدودیت زمان و آستانه شماره کاربر (TU-DJ-Cluster) برای استخراج برچسب‌های مربوط به مکان بهبود می‌دهیم و آنها را مطابق با رابطه فضایی بین بدنه‌های محدب ایجاد شده توسط این مکان‌ها ادغام و گسترش می‌دهیم. برچسب‌های مرتبط و شباهت معنایی بین تعبیه‌های برچسب به‌دست‌آمده از آموزش Word2Vec. با مقایسه نتیجه استخراج DBSCAN، TU-DJ-Cluster برچسب های مربوط به مکان را استخراج می کند و به طور همزمان برچسب های بی اهمیت و غیر مرتبط با جاذبه های گردشگری را فیلتر می کند. علاوه بر این، نتایج خوشه‌بندی چارچوب ما نسبت به P-DBSCAN برتر است، چه در تعداد خوشه‌ها و چه در دقت مرزهای خوشه‌بندی. پس از آن، با فیلتر کردن تصاویر نویز با مدل MLP و SSD از پیش آموزش داده شده و سپس رتبه بندی تصاویر باقیمانده با مدل رتبه بندی عمیق، تصاویر نماینده هر جاذبه گردشگری را انتخاب می کنیم. تجزیه و تحلیل مقایسه ای بیشتر اثربخشی فیلتر کردن تصاویر نامربوط و انتخاب تصاویر نماینده این چارچوب را نشان می دهد. همچنین یک پرسشنامه برای ارزیابی رضایت کاربران از نتایج کلی انجام شده است.
اگرچه نتایج رضایت بخش است، اما هنوز باید تلاش هایی برای بهبود چارچوب ما انجام شود. به عنوان مثال، حتی اگر تصاویر نویز قبل از رتبه بندی اهمیت خود فیلتر می شوند، برخی از تصاویر غیر مرتبط با موضوع باقی می مانند. این به دلیل ترجیحات بصری متنوع کاربران مختلف بر نتایج رتبه بندی تأثیر می گذارد. علاوه بر این، مدل رتبه‌بندی عمیق مورد استفاده در این مقاله شباهت را از تعبیه‌های کل تصاویر محاسبه می‌کند، در حالی که استفاده از مدل‌های کانولوشن مبتنی بر آشکارساز نقطه و توصیفگر ممکن است نتیجه انتخاب دقیق‌تری ارائه دهد، به دلیل دشواری انتخاب تصاویر صحنه عمدتاً در فضای باز از نویزدار. تصاویر دارای برچسب جغرافیایی در کار آینده، ما سعی خواهیم کرد مکان های دیدنی را مستقیماً از عکس ها یا فیلم ها با روش های یادگیری عمیق بدون نظارت یا نیمه نظارت استخراج کنیم.

منابع

  1. UNTWO. گزارش سالانه UNTWO 2017. موجود به صورت آنلاین: https://www.unwto.org/global/publication/unwto-annual-report-2017 (در 16 ژانویه 2020 قابل دسترسی است).
  2. وانگ، اس. وانگ، ی. تانگ، جی. شو، ک. رانگانات، اس. لیو، اچ. تصاویر شما چه چیزی را نشان می‌دهند: بهره‌برداری از محتوای بصری برای توصیه‌های مورد علاقه. در مجموعه مقالات بیست و ششمین کنفرانس بین المللی وب جهانی، پرت، استرالیا، 3 تا 7 آوریل 2017؛ صص 391-400. [ Google Scholar ]
  3. چن، دبلیو.-سی. باتستینی، آ. گلفاند، ن. Setlur, V. خلاصه‌های بصری مکان‌های دیدنی محبوب از مجموعه‌های عکس جامعه. در مجموعه مقالات کنفرانس 2009 رکورد چهل و سومین کنفرانس Asilomar در مورد سیگنال ها، سیستم ها و رایانه ها، پسیفیک گرو، کالیفرنیا، ایالات متحده آمریکا، 1-4 نوامبر 2009. ص 1248-1255. [ Google Scholar ]
  4. کوزاکی، ی. وانگ، ی. Kawai, Y. ایجاد نقشه های تصویری برای گردشگران با استفاده از داده های عکس Flickr. در مجموعه مقالات هفتمین کنفرانس جهانی IEEE 2018 در مورد لوازم الکترونیکی مصرفی (GCCE)، نارا، ژاپن، 9 تا 12 اکتبر 2018؛ صص 403-407. [ Google Scholar ]
  5. ژانگ، ز. زو، سی. دینگ، آر. Chen, Z. VCG: بهره‌برداری از محتوای بصری و نفوذ جغرافیایی برای توصیه‌های نقطه‌ای از علاقه محاسبات عصبی 2019 ، 357 ، 53-65. [ Google Scholar ] [ CrossRef ]
  6. ژو، ایکس. خو، سی. کیمونز، ب. تشخیص مقاصد گردشگری با استفاده از تجزیه و تحلیل جغرافیایی مقیاس پذیر بر اساس پلت فرم رایانش ابری. محاسبه کنید. محیط زیست سیستم شهری 2015 ، 54 ، 144-153. [ Google Scholar ] [ CrossRef ]
  7. فلیکر. در فلیکر کار کنید در دسترس آنلاین: https://www.flickr.com/jobs/ (در 26 دسامبر 2019 قابل دسترسی است).
  8. هو، ی. گائو، اس. یانوویچ، ک. یو، بی. لی، دبلیو. پراساد، اس. استخراج و درک مناطق شهری مورد علاقه با استفاده از عکس های دارای برچسب جغرافیایی. محاسبه کنید. محیط زیست سیستم شهری 2015 ، 54 ، 240-254. [ Google Scholar ] [ CrossRef ]
  9. ویاند، تی. کوستریکوف، آی. فیلبین، جی. موقعیت جغرافیایی عکس سیاره با شبکه های عصبی کانولوشنال. در مجموعه مقالات کنفرانس اروپایی بینایی کامپیوتر، آمستردام، هلند، 11 تا 14 اکتبر 2016؛ صص 37-55. [ Google Scholar ]
  10. دا کونا، KB; مگی، ال. تکریب، وی. لیما، جی پی؛ کوئینتینو، جی پی؛ دا سیلوا، FQ; سانتوس، آل. Pinho, H. Patch PlaNet: شناسایی نقطه عطف با طبقه بندی پچ با استفاده از شبکه های عصبی کانولوشن در مجموعه مقالات سی و یکمین کنفرانس SIBGRAPI 2018 در زمینه گرافیک، الگوها و تصاویر (SIBGRAPI)، پارانا، برزیل، 29 اکتبر تا 1 نوامبر 2018؛ صص 126-133. [ Google Scholar ]
  11. مجید، ع. چن، ال. چن، جی. میرزا، ح. حسین، من. وودوارد، جی. یک سیستم توصیه سفر شخصی‌شده مبتنی بر برچسب جغرافیایی داده‌کاوی رسانه‌های اجتماعی. بین المللی جی. جئوگر. Inf. علمی 2012 ، 27 ، 1-23. [ Google Scholar ] [ CrossRef ]
  12. کای، جی. تره فرنگی.؛ Lee, I. سیستم توصیه‌کننده برنامه سفر با استخراج الگوی مسیر معنایی از عکس‌های دارای برچسب جغرافیایی. سیستم خبره Appl. 2018 ، 94 ، 32-40. [ Google Scholar ] [ CrossRef ]
  13. شیا، پی. ژو، اچ. رویکرد جدید کشف جاذبه‌های گردشگری محبوب بر اساس داده‌های بزرگ رسانه‌های اجتماعی با برچسب جغرافیایی. ISPRS Int. J. Geo-Inf. 2017 ، 6 ، 216. [ Google Scholar ]
  14. کندی، ال. نعمان، م. آهرن، اس. نیر، ر. Rattenbury, T. چگونه فلیکر به ما کمک می‌کند تا دنیا را درک کنیم: زمینه و محتوا در مجموعه‌های رسانه‌ای مشارکت‌کننده جامعه. در مجموعه مقالات پانزدهمین کنفرانس بین المللی ACM در چند رسانه ای، آگسبورگ، آلمان، 25-29 سپتامبر 2007. صص 631-640. [ Google Scholar ]
  15. عباسی، ر. چرنوف، اس. نجدل، و. پایو، آر. Staab, S. بهره برداری از برچسب ها و گروه های فلیکر برای یافتن عکس های شاخص. در مجموعه مقالات سی و یکمین کنفرانس اروپایی در زمینه تحقیقات IR در مورد پیشرفت در بازیابی اطلاعات، تولوز، فرانسه، 6-9 آوریل 2009. صص 654-661. [ Google Scholar ]
  16. گائو، ی. تانگ، جی. هونگ، آر. دای، Q. چوآ، تی.- اس. جین، R. W2Go: یک سیستم راهنمای سفر با رتبه‌بندی خودکار. در مجموعه مقالات هجدهمین کنفرانس بین المللی ACM در چند رسانه ای، Firenze، ایتالیا، 25-29 اکتبر 2010. صص 123-132. [ Google Scholar ]
  17. لو، جی. جوشی، دی. یو، جی. گالاگر، A. برچسب گذاری جغرافیایی در چند رسانه ای و بینایی کامپیوتری – یک نظرسنجی. چندتایی. ابزارهای کاربردی 2011 ، 51 ، 187-211. [ Google Scholar ] [ CrossRef ]
  18. لیانگ، سی.-کی. حسیه، ی.-ت. چوانگ، تی.-جی. وانگ، ی. ونگ، M.-F. چوانگ، ی.-ای. یادگیری نقاط عطف با بهره برداری از رسانه های اجتماعی. در مجموعه مقالات شانزدهمین کنفرانس بین المللی پیشرفت در مدل سازی چند رسانه ای، چونگ کینگ، چین، 6-8 ژانویه 2010. ص 207-217. [ Google Scholar ]
  19. ویکیپدیا. جاذبه توریستی. در دسترس آنلاین: https://en.wikipedia.org/wiki/Tourist_attraction (در 16 ژانویه 2020 قابل دسترسی است).
  20. ژو، سی. فرانکوفسکی، دی. لودفورد، پی. شکر، س. تروین، ال. کشف روزنامه‌های شخصی: رویکرد خوشه‌بندی تعاملی. در مجموعه مقالات دوازدهمین کارگاه بین المللی سالانه ACM در مورد سیستم های اطلاعات جغرافیایی، واشنگتن، دی سی، ایالات متحده آمریکا، 12 تا 13 نوامبر 2004. صص 266-273. [ Google Scholar ]
  21. لی، کیو. لی، اس. ژانگ، اس. هو، جی. Hu, J. مروری بر داده کاوی کلان گردشگری مبتنی بر مجموعه متنی. Appl. علمی 2019 ، 9 ، 3300. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  22. لیو، دبلیو. آنگلوف، دی. ایرهان، د. سگدی، سی. رید، اس. فو، سی.-ای. Berg, AC Ssd: آشکارساز چند جعبه ای تک شات. در مجموعه مقالات کنفرانس اروپایی بینایی کامپیوتر، آمستردام، هلند، 11 تا 14 اکتبر 2016؛ ص 21-37. [ Google Scholar ]
  23. وانگ، جی. آهنگ، ی. لئونگ، تی. روزنبرگ، سی. وانگ، جی. فیلبین، جی. چن، بی. Wu, Y. یادگیری تشابه تصویر ریز دانه با رتبه بندی عمیق. در مجموعه مقالات کنفرانس IEEE 2014 در مورد بینایی کامپیوتری و تشخیص الگو، کلمبوس، OH، ایالات متحده آمریکا، 23 تا 28 ژوئن 2014. صص 1386–1393. [ Google Scholar ]
  24. سان، ی. فن، اچ. باکی‌الله، م. Zipf، A. توصیه سفر مبتنی بر جاده با استفاده از تصاویر دارای برچسب جغرافیایی. محاسبه کنید. محیط زیست سیستم شهری 2015 ، 53 ، 110-122. [ Google Scholar ] [ CrossRef ]
  25. کیسیلویچ، اس. منزمن، اف. Keim, D. P-DBSCAN: الگوریتم خوشه‌بندی مبتنی بر چگالی برای اکتشاف و تجزیه و تحلیل مناطق جذاب با استفاده از مجموعه عکس‌های دارای برچسب جغرافیایی در مجموعه مقالات اولین کنفرانس بین المللی و نمایشگاه محاسبات برای تحقیقات و کاربردهای جغرافیایی، واشنگتن، دی سی، ایالات متحده آمریکا، 21 تا 23 ژوئن 2010. پ. 38. [ Google Scholar ]
  26. Vu، HQ; باند، ال. قانون، ر. Ye, BH در حال بررسی رفتارهای سفر گردشگران ورودی به هنگ کنگ با استفاده از عکس های دارای برچسب جغرافیایی. تور. مدیریت 2015 ، 46 ، 222-232. [ Google Scholar ] [ CrossRef ]
  27. مک کنزی، جی. Janowicz، K. Where is also about time: یک مدل اعوجاج مکان برای بهبود ژئوکدینگ معکوس با استفاده از امضاهای معنایی زمانی رفتار محور. محاسبه کنید. محیط زیست سیستم شهری 2015 ، 54 ، 1-13. [ Google Scholar ] [ CrossRef ]
  28. لین، دبلیو. هونگ، ی. ژو، اچ. شیا، پی. Ran, L. یک روش یادگیری گروه ترکیبی برای توصیه‌های مسیر توریستی بر اساس شبکه‌های اجتماعی برچسب‌گذاری شده جغرافیایی. بین المللی جی. جئوگر. Inf. علمی 2018 ، 32 ، 2225-2246. [ Google Scholar ]
  29. کائو، ال. لو، جی. گالاگر، ا. جین، ایکس. هان، جی. Huang, TS یک سیستم توصیه گردشگری در سراسر جهان بر اساس عکس های وب دارای برچسب جغرافیایی. در مجموعه مقالات کنفرانس بین المللی IEEE در سال 2010 در مورد آکوستیک، گفتار و پردازش سیگنال، دالاس، تگزاس، ایالات متحده آمریکا، 14 تا 19 مارس 2010. ص 2274-2277. [ Google Scholar ]
  30. کندی، LS; Naaman, M. ایجاد نتایج جستجوی تصویری متنوع و معرف برای مکان‌های دیدنی. در مجموعه مقالات هفدهمین کنفرانس بین المللی وب جهانی، پکن، چین، 21-25 آوریل 2008; صص 297-306. [ Google Scholar ]
  31. کراندال، دی جی; بکستروم، ال. هاتنلوچر، دی. کلینبرگ، جی. نقشه برداری از عکس های جهان. در مجموعه مقالات هجدهمین کنفرانس بین المللی وب جهانی، مادرید، اسپانیا، 20-24 آوریل 2009; صص 761-770. [ Google Scholar ]
  32. Samany، NN استخراج خودکار نقطه عطف از عکس های رسانه های اجتماعی با برچسب جغرافیایی با استفاده از شبکه عصبی عمیق. شهرها 2019 ، 93 ، 1-12. [ Google Scholar ] [ CrossRef ]
  33. کیم، دی. کانگ، ی. پارک، ی. کیم، ن. لی، جی. چو، ن. تحلیل تصویر گردشگران از سئول با عکس های دارای برچسب جغرافیایی با استفاده از شبکه های عصبی کانولوشن. در مجموعه مقالات ICA، آخن، آلمان، 9 تا 13 سپتامبر 2019. [ Google Scholar ]
  34. کراندال، دی جی; لی، ی. لی، اس. Huttenlocher، DP شناسایی نقاط عطف در مجموعه های تصاویر اجتماعی در مقیاس بزرگ. در مقیاس بزرگ بصری جغرافیایی ; Springer: برلین، آلمان، 2016; صص 121-144. [ Google Scholar ]
  35. جی، ر. دوان، ال. چن، جی. یانگ، اس. یائو، اچ. هوانگ، تی. گائو، دبلیو. آموزش پیشنهاد سفر از عکس‌های شاخص در وب. در مجموعه مقالات 2011 هجدهمین کنفرانس بین المللی IEEE در مورد پردازش تصویر، بروکسل، بلژیک، 11-14 سپتامبر 2011. ص 2485-2488. [ Google Scholar ]
  36. کاواکوبو، اچ. Yanai, K. Geovisualrank: یک روش رتبه بندی تصاویر دارای برچسب جغرافیایی با در نظر گرفتن شباهت بصری و مجاورت موقعیت جغرافیایی. در مجموعه مقالات بیستمین کنفرانس بین المللی همکار در شبکه جهانی وب، حیدرآباد، هند، 28 مارس تا 1 آوریل 2011; صص 69-70. [ Google Scholar ]
  37. ما، ایکس. ژائو، ی. کیان، ایکس. Tang, YY برچسب‌گذاری جغرافیایی مبتنی بر ترکیب چند منبعی برای تصاویر وب. چندتایی. ابزارهای کاربردی 2018 ، 77 ، 16399–16417. [ Google Scholar ] [ CrossRef ]
  38. دینگ، ایکس. فن، اچ. بررسی الگوهای توزیع عکس‌های فلیکر. ISPRS Int. J. Geo-Inf. 2019 ، 8 ، 418. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  39. ژانگ، اف. ژو، بی. راتی، سی. لیو، ی. کشف صحنه ها و اشیاء آموزنده مکان با استفاده از عکس های رسانه های اجتماعی. روی. Soc. علوم را باز کنید. 2019 ، 6 ، 181375. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  40. تومی، بی. Shamma، DA; فریدلند، جی. الیزالد، بی. نی، ک. لهستان، دی. بورث، دی. لی، ال.-جی. YFCC100M: داده های جدید در تحقیقات چند رسانه ای. arXiv 2015 ، arXiv:1503.01817. [ Google Scholar ] [ CrossRef ]
  41. میکولوف، تی. چن، ک. کورادو، جی اس. Dean, J. برآورد کارآمد بازنمایی کلمات در فضای برداری. در مجموعه مقالات کارگاه در ICLR، Scottsdale، AZ، ​​ایالات متحده، 2-4 مه 2013. [ Google Scholar ]
  42. لی، اس اس; برنده، دی. مک‌لئود، دی. همبستگی برچسب و برچسب جغرافیایی در شبکه‌های اجتماعی. در مجموعه مقالات کارگاه ACM 2008 در مورد جستجو در رسانه های اجتماعی، دره ناپا، کالیفرنیا، ایالات متحده آمریکا، 30 اکتبر 2008; صص 59-66. [ Google Scholar ]
  43. فی فی، ال. فرگوس، آر. Perona، P. یادگیری مدل‌های بصری مولد از چند نمونه آموزشی: یک رویکرد بیزی افزایشی که بر روی 101 دسته شی آزمایش شده است. محاسبه کنید. Vis. تصویر لغو. 2007 ، 106 ، 59-70. [ Google Scholar ] [ CrossRef ]
  44. ژو، بی. لاپدریزا، ا. خسلا، ع. اولیوا، ا. Torralba, A. Places: یک پایگاه داده 10 میلیونی تصویر برای تشخیص صحنه. IEEE T. Pattern Anal. 2018 ، 40 ، 1452-1464. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  45. سیمونیان، ک. Zisserman, A. شبکه های پیچیده بسیار عمیق برای تشخیص تصویر در مقیاس بزرگ. arXiv 2014 ، arXiv:1409.1556. [ Google Scholar ]
  46. او، ک. ژانگ، ایکس. رن، اس. Sun, J. یادگیری باقیمانده عمیق برای تشخیص تصویر. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، لاس وگاس، NV، ایالات متحده، 27-30 ژوئن 2016. صص 770-778. [ Google Scholar ]
  47. یائو، ال. Miller, J. Tiny طبقه‌بندی شبکه‌های عصبی با شبکه‌های عصبی کانولوشن. CS 231N 2015 ، 2 ، 8. [ Google Scholar ]
  48. ویکی سفر پکن در دسترس آنلاین: https://en.wikivoyage.org/wiki/Beijing#Q956 (دسترسی در 20 اکتبر 2019).
شکل 1. چارچوب استخراج تصویر معرف جاذبه‌های گردشگری از فلیکر (این عکس‌ها در شکل 1 همگی دارای مجوز: https://creativecommons.org/licenses/by-nc-sa/2.0/ هستند).
شکل 2. تصویر TU-DJ-Cluster: ( الف ) مجموعه داده. ( ب ) فرآیند محاسبه همسایگی. ( ج ) نتایج اولیه خوشه. ( د ) نتایج خوشه نهایی و نقاط نویز.
شکل 3. نمونه‌هایی از ( الف ) نسبت کوچک و ( ب ) نسبت بزرگی که انسان‌های شناسایی شده در تصاویر اشغال می‌کنند ( شکل 3 a,b، جعبه‌های تشخیص شی ترسیم شده‌اند و هر دو دارای مجوز هستند: https://creativecommons.org/licenses /by-nc-sa/2.0/ ).
شکل 4. معماری مدل رتبه بندی عمیق.
شکل 5. توزیع عکس دارای برچسب جغرافیایی در منطقه مورد مطالعه: پکن.
شکل 6. نمودارهای Log-log از برچسب های مورد استفاده در مطالعه: ( الف ) نمودار Log-log بر روی توزیع فرکانس برچسب ها. ( ب ) نمودار Log-log بر روی تعداد کاربرانی که از این برچسب ها استفاده می کنند.
شکل 7. برخی از نتایج تشخیص نادرست DBSCAN: ( الف ) Midi; ( ب ) cnbloggercon (عکس‌های شکل 7 a,b دارای مجوز: https://creativecommons.org/licenses/by-nc-nd/2.0/ هستند).
شکل 8. نتایج Cluster TU-DJ-Cluster (این عکس‌ها در شکل 8 همگی تحت مجوز Creative Commons Attribution مجوز دارند).
شکل 9. مقایسه نتایج TU-DJ-Cluster و P-DBSCAN: ( الف ) کاخ تابستانی. ( ب ) منطقه اطراف شهر ممنوعه (عکس‌های شکل 9 a تحت مجوز Creative Commons Attribution مجوز دارند).
شکل 10. تعداد تصاویر فیلتر شده و تصاویر باقی مانده از هر جاذبه گردشگری.
شکل 11. تعداد تصاویر فیلتر شده و تصاویر باقی مانده از هر جاذبه گردشگری.
شکل 12. نتایج انتخاب تصویر نماینده انتخاب تصادفی و چارچوب ما (عکس‌های شکل 12 همگی تحت مجوز Creative Commons Attribution مجوز دارند).
شکل 13. تصویر از نقشه توریستی.

بدون دیدگاه

دیدگاهتان را بنویسید