طبقه‌بندی خودکار عکس‌ها بر اساس جاذبه‌های گردشگری با استفاده از مدل یادگیری عمیق و خوشه‌بندی بردار ویژگی تصویر

با ظهور پلتفرم های رسانه های اجتماعی، گردشگران تمایل دارند تجربیات خود را در قالب متن، عکس و ویدیو در رسانه های اجتماعی به اشتراک بگذارند. این محتوای تولید شده توسط کاربر (UGC) نقش مهمی در شکل‌دهی تصاویر مقصد گردشگری (TDI) دارد و مستقیماً بر فرآیند تصمیم‌گیری گردشگران تأثیر می‌گذارد. در میان UGC ها، عکس ها ترجیحات بصری گردشگران را برای یک منطقه خاص نشان می دهند. با توجه به ارزش عکس‌ها، مطالعات متعددی سعی کرده‌اند با استفاده از فناوری یادگیری عمیق، آن‌ها را تحلیل کنند. با این حال، روش‌های تحقیقی که عکس‌های گردشگری را با استفاده از فناوری یادگیری عمیق اخیر تجزیه و تحلیل می‌کنند، از این نظر محدودیت دارند که نمی‌توانند عکس‌های منحصربه‌فردی را که در جاذبه‌های گردشگری خاص با دسته‌های عکس از پیش تعیین‌شده مانند Places365 یا مجموعه داده ImageNet ظاهر می‌شوند، به درستی طبقه‌بندی کنند یا ساختن یک مجموعه به زمان و تلاش زیادی نیاز دارد. مجموعه داده آموزشی جداگانه برای آموزش مدل و ایجاد دسته بندی عکس گردشگری با توجه به یک مقصد گردشگری خاص. هدف از این مطالعه پیشنهاد روشی برای طبقه‌بندی خودکار عکس‌های توریستی بر اساس جاذبه‌های گردشگری با استفاده از روش‌های خوشه‌بندی بردار ویژگی تصویر و مدل یادگیری عمیق است. برای این منظور، ابتدا عکس‌های پیوست شده به نظرات ارسال شده توسط گردشگران خارجی در تریپ ادوایزر را جمع‌آوری کردیم. دومین، ما تصاویر جداگانه را به عنوان بردارهای ویژگی 512 بعدی با استفاده از شبکه VGG16 که با Places365 از قبل آموزش داده شده بود جاسازی کردیم و آنها را با t-SNE (t-Distributed Stochastic Neighbor Embedding) به دو بعدی کاهش دادیم. سپس خوشه‌ها از طریق آنالیز HDBSCAN (خوشه‌بندی سلسله مراتبی و خوشه‌بندی فضایی مبتنی بر چگالی کاربردها با نویز) استخراج و به عنوان یک دسته‌بندی تصویر منطقه‌ای تنظیم شدند. در نهایت، شبکه Siamese برای حذف عکس‌های نویز درون خوشه و طبقه‌بندی عکس‌ها بر اساس دسته‌بندی اعمال شد. علاوه بر این، این مطالعه تلاش می‌کند تا اعتبار روش پیشنهادی را با اعمال آن در دو جاذبه گردشگری معرف مانند ‘کاخ Gyeongbokgung’ و ‘Insadong’ در سئول تأیید کند. در نتیجه، شناسایی عناصر بصری جاذبه های گردشگری برای گردشگران امکان پذیر شد.

کلید واژه ها:

وکتور ویژگی تصویر ; خوشه بندی ; شبکه سیامی ; طبقه بندی خودکار عکس های توریستی ; مدل یادگیری عمیق

1. مقدمه

اخیراً، از آنجایی که هر کسی می تواند در هر زمان و در هر مکان با استفاده از دستگاه های تلفن همراه به پلتفرم های رسانه های اجتماعی دسترسی داشته باشد، حجم زیادی از متن ها و عکس ها برای برقراری ارتباط با دیگران در وب به اشتراک گذاشته شده است. مردم آزادانه افکار و احساسات خود را از طریق متن و عکس در شبکه های اجتماعی بیان می کنند. در کنار این روند، نحوه دریافت اطلاعات مربوط به جاذبه های سفر و به اشتراک گذاری تجربیات گردشگران نیز در حال تغییر است. بیشتر و بیشتر گردشگران تجربیات خود را در قالب متن، عکس و ویدیو در رسانه های اجتماعی به اشتراک می گذارند که به عنوان منبع اطلاعاتی برای گردشگران بالقوه عمل می کند [ 1 ]]. داده های ارسال شده در خدمات شبکه های اجتماعی (SNS) به طور پیوسته توجه اجتماعی را به خود جلب می کند زیرا محتوای تولید شده توسط کاربر (UGC) است. صنعت گردشگری همچنین به داده‌های UGC توجه می‌کند تا روندهای جدید گردشگری را شناسایی کند و تصویری از جاذبه‌های گردشگری درک شده توسط گردشگران را تحلیل کند [ 2 ]. به طور خاص، تصویر جاذبه‌های توریستی زمانی که مردم مقصد گردشگری خود را انتخاب می‌کنند و سازمان‌های بازاریابی مقصد (DMO) بازاریابی گردشگری را انجام می‌دهند، نقش مهمی ایفا می‌کند [ 3 ، 4 ، 5 ، 6 ].

در گذشته DMO ها نقش پیشرو در شکل دادن به تصویر مقاصد گردشگری داشته اند. با این حال، با توجه به محبوبیت پلت فرم های رسانه های اجتماعی در سال های اخیر، تشخیص داده شده است که تصویر جاذبه های گردشگری هم توسط UGC و هم محتوای ایجاد شده توسط DMO ها شکل می گیرد [ 7 ]. در میان UGCها، یک عکس نقش مهمی در شکل‌گیری تصویر جاذبه‌های توریستی ایفا می‌کند، زیرا به صورت بصری مکان‌ها را بازتولید می‌کند [ 8 ]. یک عکس تصویر ذهنی عناصر فیزیکی تجربه شده توسط عکاسان را منعکس می کند. علاوه بر این، عکس ثبت یک لحظه برای بیان تصویری ذهنی از یک مکان به صورت تصویری است [ 9]. بنابراین، از آنجایی که این عکس‌ها شامل ترجیحات بصری گردشگران برای یک منطقه خاص هستند، می‌توانند ترجیحات واقعی گردشگران را مستقیماً منعکس کنند تا چند متخصص [ 10 ]. علاوه بر این، گردشگران بالقوه تمایل دارند از مکان‌های توریستی بازدید کنند که در معرض آن‌ها قرار گرفته‌اند و از تصاویر بصری که روی آن‌ها نمایش داده شده‌اند عکس می‌گیرند [ 11 ].

با توجه به ارزش عکس‌ها، مطالعات بیشتر و بیشتر تلاش کرده‌اند عکس‌های گرفته شده توسط گردشگران را بر روی SNS تجزیه و تحلیل کنند و عوامل جذابی را که در شکل‌گیری تصویر یک مقصد گردشگری نقش دارند، کشف کنند [ 1 ، 4 ، 6 ، 12 ، 13 ، 14 .]. با این حال، به دلیل محدودیت در فناوری‌ها، مطالعات بر روی تصاویر مقصد گردشگری (TDI) با استفاده از عکس‌های UGC با چالش‌هایی از نظر حجم داده‌ها و تفسیر نتایج مواجه می‌شوند. پرکاربردترین روش آنالیز دستی است که در آن محققین عکس های جمع آوری شده خود را مشاهده کرده و به صورت دستی آنها را در دسته های خاص طبقه بندی می کنند. از آنجایی که این روش یک فرآیند کار فشرده است، محدودیتی برای تعداد عکس های قابل تجزیه و تحلیل وجود دارد که تجزیه و تحلیل جامع جاذبه های گردشگری را دشوار می کند.

همانطور که فناوری های بینایی کامپیوتری توسعه یافته اند، چندین مطالعه TDI را از تعدادی عکس SNS با استفاده از روش های یادگیری عمیق شناسایی کرده اند [ 15 ، 16 ، 17 ، 18 ، 19 ، 20 .]. با این حال، آنها در طبقه بندی عکس هایی که نشان دهنده ویژگی های منحصر به فرد جاذبه های گردشگری است، محدودیت هایی دارند. آنها از دسته های عکس از پیش تعیین شده مانند Places365 یا ImageNet استفاده می کنند که برای اهداف عمومی طراحی شده اند، بنابراین برای شناسایی منحصر به فرد بودن جاذبه های فردی مناسب نیستند. برای غلبه بر این محدودیت ها، کانگ و همکاران. و یون و کانگ تصاویر را با ایجاد یک دسته بندی عکس گردشگری با توجه به یک منطقه خاص و آموزش مدل با مجموعه داده های آموزشی برای هر دسته تجزیه و تحلیل کردند [ 21 ، 22 ].

اگرچه این مطالعات موجود نتایج ارزشمندی را با ترکیب عکس‌های UGC و یک مدل یادگیری عمیق برای استخراج تصاویر مقصد گردشگری ارائه کرده‌اند، اما مطالعات هنوز در مراحل ابتدایی خود هستند. به طور خاص، مطالعات در مورد استخراج ویژگی های متمایز جاذبه های گردشگری فردی محدود است. آنها بر تجزیه و تحلیل TDI یک ملت یا یک شهر به جای جاذبه های گردشگری فردی متمرکز شده اند. در حالی که آن‌ها تا حدی جاذبه‌های توریستی منفرد موجود در منطقه را بررسی می‌کنند، دسته‌بندی‌های آن‌ها برای طبقه‌بندی عکس که بر اساس مقیاس ملی یا مقیاس شهری است، برای کشف ویژگی‌های منحصربه‌فرد جاذبه‌های گردشگری فردی مناسب نیست.

برای حل این مشکل، روشی را برای ساخت خودکار دسته‌ها برای طبقه‌بندی عکس با استفاده از خوشه‌بندی و شبکه سیامی پیشنهاد می‌کنیم. این امر بار فرآیند ایجاد دسته بندی های مربوط به هر جاذبه گردشگری را کاهش می دهد. علاوه بر این، روش خوشه‌بندی مزیت ایجاد مقوله‌ها را بر اساس شیوه‌ای مبتنی بر داده‌ها فراهم می‌کند. چارچوب ما از چهار بخش زیر تشکیل شده است. ابتدا عکس های تریپ ادوایزر را در بررسی های ارسال شده توسط گردشگران خارجی در سئول جمع آوری کردیم. دوم، ما تصاویر جداگانه را به عنوان بردارهای 512 بعدی با استفاده از یک شبکه VGG16 از قبل آموزش دیده با Places365 جاسازی کردیم و این بردارها را با t-SNE به دو بعدی کاهش دادیم. سوم، ایجاد یک دسته بر اساس محتوای بصری که اغلب در عکس های گرفته شده توسط گردشگران ظاهر می شود. خوشه ها از طریق تجزیه و تحلیل HDBSCAN استخراج شدند و آنها یک دسته تصویر از یک جاذبه تنظیم شدند. در نهایت، یک شبکه سیامی برای حذف عکس‌های نویز درون خوشه و طبقه‌بندی عکس‌ها بر اساس دسته‌بندی اعمال شد.

2. بررسی ادبیات

2.1. تجزیه و تحلیل جاذبه های گردشگری با استفاده از عکس های UGC

با محبوبیت دستگاه های تلفن همراه و ظهور پلتفرم های رسانه های اجتماعی، تصاویر جاذبه های گردشگری از طریق عکس ها و روایت های به اشتراک گذاشته شده به صورت آنلاین شکل می گیرند. تصاویر به اشتراک گذاشته شده از جاذبه های گردشگری به طور مداوم از فردی به فرد دیگر درک و بازتولید می شوند [ 12 ]. از آنجایی که محتوای ارسال شده در پلتفرم های رسانه های اجتماعی در معرض دید بسیاری از افراد قرار می گیرد، آنها تمایل دارند به مقاصد یا جاذبه هایی سفر کنند که اغلب در SNS ظاهر می شوند. این تصاویر بصری به DMO ها اجازه می دهد تا بینشی در مورد رفتارها و ادراکات گردشگران برای بازاریابی کسب کنند. در مقایسه با ابزارهای بازاریابی موجود، این نوع بازاریابی به عنوان یک ابزار مؤثر شناخته می شود که به سرعت بر فرآیند تصمیم گیری یک گردشگر تأثیر می گذارد و در عین حال هزینه ها را کاهش می دهد [ 13 ].]. با توجه به ارزش این گونه عکس ها، مطالعات روزافزونی در صدد تحلیل عکس های گرفته شده توسط گردشگران و کشف عوامل جذاب مقاصد گردشگری است. قبل از ظهور روش یادگیری عمیق در زمینه گردشگری، روش غالب در تجزیه و تحلیل عکس ها مشاهده مستقیم آنها یک به یک است که یک روش دستی است. آگوستی و همکاران و دین فرآیند شکل گیری تصویر گردشگری در یک منطقه خاص را از طریق تجزیه و تحلیل این عکس ها شناسایی کردند [ 1 ، 12 ]. استپچنکووا و همکاران تفاوت بین تصویر تولید شده توسط گردشگران و تصویر ارائه شده توسط DMO ها را تجزیه و تحلیل کرد [ 14]. در مورد مشاهده مستقیم بصری، که نیاز به یک فرآیند کار فشرده دارد، تجزیه و تحلیل جامع مقاصد گردشگری دشوار است زیرا محدودیتی برای حجم عکس های قابل تجزیه و تحلیل وجود دارد. علاوه بر این، محدودیت دیگری نیز وجود دارد که نتایج تحقیق ممکن است به محققین وابسته باشد.

با توسعه سریع فناوری‌های بینایی کامپیوتری و پردازش تصویر در سال‌های اخیر، مطالعات متعددی که حجم زیادی از عکس‌ها را با استفاده از مدل‌های یادگیری عمیق تجزیه و تحلیل می‌کنند، در زمینه گردشگری در حال ظهور هستند. اکثر مطالعات از یک شبکه عصبی کانولوشن (CNN) برای حل مشکل طبقه بندی تصویر استفاده کرده اند. این مطالعات عکس‌ها را بر اساس دسته‌بندی‌های خاص طبقه‌بندی کرده و ادراک گردشگران از مناطق خاص را بر اساس نسبت‌های طبقه‌بندی آن‌ها آشکار کرده است.

اکثر مطالعات عکس های توریستی را با استفاده از یک مدل از پیش آموزش دیده با Places365 تجزیه و تحلیل کردند که یک مجموعه داده تخصصی در مسائل طبقه بندی مکان است [ 15 ، 16 ، 17 ، 18 ، 19 ، 20 ]. با این حال، طبق گفته کیم و همکاران، هنگام استفاده از یک مدل از پیش آموزش‌دیده، مشکل طبقه‌بندی اشتباه اشیاء یا صحنه‌های منحصربه‌فردی وجود دارد که در عکس‌های جاذبه‌های گردشگری محلی ظاهر می‌شوند [ 17 ].]. برای غلبه بر این محدودیت، مطالعات دیگری که مدل‌ها را به مجموعه داده‌های آموزشی تخصصی در زمینه‌های تحقیقاتی منتقل کرده‌اند، پدید آمده‌اند. کانگ و همکاران و یون و کانگ تصاویر گردشگری را در یک منطقه خاص از طریق یادگیری انتقالی یک مدل یادگیری عمیق پس از ساخت دسته‌ها و مجموعه داده‌های تخصصی در آن منطقه بدون استفاده از یک مدل از پیش آموزش‌دیده تجزیه و تحلیل کردند [ 21 ، 22 ]. این مطالعات که از دسته‌بندی‌ها برای طبقه‌بندی تصاویر گردشگری استفاده کرده‌اند، از این نظر محدودیت‌هایی دارند که تشخیص درست ویژگی‌های جاذبه‌های گردشگری محلی دشوار است و ساخت مجموعه داده‌های آموزشی به صورت دستی زمان و تلاش زیادی می‌برد.

2.2. کاربرد تعبیه و خوشه بندی تصویر مبتنی بر یادگیری عمیق

خوشه بندی، یکی از متدولوژی های یادگیری بدون نظارت نماینده، ما را قادر می سازد تا الگوها و ساختارهای پنهان در داده ها را کشف کنیم. برای انجام تجزیه و تحلیل خوشه‌بندی، فرآیند استخراج ویژگی‌های تصویر و تبدیل آنها به بردار مورد نیاز است. قبل از ظهور روش یادگیری عمیق، الگوریتم‌های جاسازی تصویر که نقاط مشخصه ثابت را از تصویر استخراج می‌کنند، مانند تبدیل ویژگی تغییرناپذیر مقیاس (SIFT)، ویژگی‌های قوی سریع (SURF)، و ویژگی‌های ابتدایی مستقل باینری قوی (BRIEF)، در این فرآیند استفاده شده است [ 23]. با توسعه سریع فناوری بینایی کامپیوتری، رمزگذارهای خودکار مبتنی بر CNN و مدل تعبیه‌شده مبتنی بر شبکه CNN به طور گسترده مورد استفاده قرار گرفته‌اند. روش‌های اخیر، تصاویر را از طریق نقشه‌های ویژگی در شبکه CNN که از قبل روی مجموعه داده‌های خاصی مانند Places365 یا ImageNet آموزش دیده‌اند، به بردار تبدیل می‌کنند [ 24 ]. خوشه بندی تصویر راهی برای کشف ساختارها یا الگوهای پنهان داده در زمینه های مختلف فراهم می کند.

تاپسوی و همکاران چهره های تعبیه شده بر اساس یک مدل یادگیری عمیق برای تعیین تعداد کاراکترهای ظاهر شده در ویدیو، سپس تعداد خوشه ها را از طریق تجزیه و تحلیل خوشه سلسله مراتبی شناسایی و تعداد کاراکترها را استخراج کرد [ 25 ]. گو و همکاران گرایش‌های مد نیویورک را با جاسازی تصاویر مد خیابانی و به‌کارگیری خوشه‌بندی سلسله مراتبی تجمعی بر حسب سال شناسایی کرد [ 26 ]. Castellano و Vessio تصویر اثر هنری را با شبکه DenseNet121 به یک بردار ویژگی تبدیل کردند، خوشه‌بندی K-means و رمزگذار خودکار را برای یافتن خوشه اعمال کردند و سبک نقاشی اثر هنری را از طریق نتایج خوشه تجزیه و تحلیل کردند [ 27 ].

2.3. کاربرد شبکه سیامی با جاسازی تصویر

شبکه Siamese به ویژه در تحقیقات مراقبت های پزشکی، چاپ کف دست، تشخیص چهره، ردیابی اشیا و غیره استفاده می شود که در آن به دست آوردن حجم زیادی از داده ها دشوار است. برای حل این مشکلات از شبکه Siamese استفاده شده است. هنگامی که دو یا چند تصویر ورودی داده می شود، شبکه Siamese شباهت بین آنها را می آموزد و آن را به صورت فاصله عددی بیان می کند. یعنی اگر تصاویر ورودی شبیه به هم باشند فاصله نزدیک است و اگر تصاویر ورودی متفاوت باشد فاصله دور می شود. همین اصل را می توان برای طبقه بندی تصاویر در زمینه های مختلف اعمال کرد.

شروف و همکاران یک مدل FaceNet که با از دست دادن سه گانه برای تشخیص چهره بر اساس ساختار شبکه سیامی آموخته شده بود [ 28 ]. مدل FaceNet یک تصویر چهره ورودی را در 128 بعد جاسازی می‌کند و سپس بین عکس‌های صورت یک فرد و عکس‌هایی که این کار را نمی‌کنند، از طریق فاصله بین بردارهای تعبیه‌شده تمایز قائل می‌شود. ژونگ و همکاران یک مدل تشخیص چاپ کف دست با استفاده از شبکه سیامی مبتنی بر شبکه VGG16 [ 29 ] توسعه داد.]. در این مطالعه، آنها از شبکه سیامی برای تبدیل یک تصویر متنی طولانی که به عنوان داده ورودی داده شده است به یک بردار 500 بعدی استفاده کردند و فواصل بین دو بردار تصویر متن طولانی را برای تعیین یکسان بودن آنها مقایسه کردند. محمود و همکاران مدلی برای تشخیص زودهنگام آلزایمر با استفاده از شبکه سیامی مبتنی بر شبکه VGG-16 [ 30 ] ایجاد کرد. آنها مدلی را با استفاده از مجموعه داده های MRI که بر اساس شدت آلزایمر به چهار نوع طبقه بندی شده بود آموزش دادند و با مقایسه فاصله بین جاسازی ها، پیشرفت آلزایمر را طبقه بندی کردند. برتینتو و همکاران یک مدل ردیابی شی را بر اساس شبکه سیامی توسعه داد [ 31]. آنها تصویری را که شامل شی مورد ردیابی و تصویری برای یافتن شیء است را در شبکه سیامی جاسازی کردند و با مقایسه شباهت بین جاسازی‌ها، مکان یک شی خاص را در تصویر شناسایی کردند. به این ترتیب، این مطالعات به طور گسترده مورد استفاده قرار می گیرند، به ویژه در مواردی که ایمن کردن مجموعه داده های کافی مانند چاپ طولانی کف دست، تشخیص چهره و تشخیص بیماری دشوار است. حتی در زمینه گردشگری، اگر مقیاس هدف تحقیق به یک منطقه توریستی خاص محدود شود، ممکن است تامین اطلاعات کافی دشوار باشد. بنابراین، این مطالعه همچنین قصد دارد از مدل شبکه سیامی برای بهبود عملکرد طبقه‌بندی با مجموعه داده‌های حجم نسبتاً کم استفاده کند.

3. مواد و روشها

3.1. فرآیند تحقیق

فرآیند تحلیل این مطالعه در شکل 1 نشان داده شده است . ابتدا عکس‌های ارسال شده در تریپ ادوایزر را استخراج کردیم و سپس عکس‌های ارسال شده توسط گردشگران خارجی را انتخاب کردیم، بدون در نظر گرفتن کره‌ای‌هایی که از کشور مبدا ناشر و زبان استفاده شده در نوشتن نقد استفاده می‌کردند. دوم، با استفاده از یک شبکه VGG16 که از قبل روی مجموعه داده Places365 آموزش داده شده بود، تصاویر منفرد را به عنوان بردارهای ویژگی 512 بعدی جاسازی کردیم. سوم، هر بردار را با t-SNE به دوبعدی کاهش دادیم، از HDBSCAN برای خوشه‌بندی این عکس‌ها استفاده کردیم و آن را به عنوان یک دسته تصویر تنظیم کردیم. چهارم، ما از شبکه Siamese برای حذف تصاویر نویز موجود در دسته‌ها و طبقه‌بندی عکس‌ها بر اساس دسته‌بندی استفاده کردیم.

3.2. جمع آوری داده ها

تریپادوایزر ( www.tripadvisor.com ، قابل دسترسی در 19 سپتامبر 2021) بزرگترین پلت فرم اطلاعات سفر در جهان با بیش از 260 میلیون کاربر ماهانه است [ 32 ]]. تریپ ادوایزر نظراتی را ارائه می دهد که توسط بازدیدکنندگان از جاذبه های گردشگری، هتل ها و رستوران های سراسر جهان نوشته شده است. هنگامی که وارد تریپ ادوایزر می شوید و کشور یا شهر را جستجو می کنید، می توانید اطلاعاتی در مورد جاذبه های گردشگری محبوب، اقامتگاه ها، رستوران ها و فعالیت های آن منطقه پیدا کنید. اگر مردم سئول را در تریپ ادوایزر جستجو کنند، می توانند فهرستی از جاذبه های گردشگری معروف سئول را تحت عنوان «جاذبه های برتر در سئول» بیابند. اگر مردم بر روی هر جاذبه گردشگری کلیک کنند، می توانند نظرات ارسال شده توسط گردشگرانی که از جاذبه های گردشگری بازدید کرده اند را بررسی کنند. در هر بررسی، آنها می توانند نام مستعار کاربر، منطقه مبدا، تعداد پست ها، رتبه بندی ستاره ها، عنوان نقد، تاریخ بازدید، نوع بازدید، متن متنی، عکس های پیوست شده و تاریخ ایجاد را شناسایی کنند. در این مطالعه، ما نظرات “کاخ Gyeongbokgung” و “Insadong” را با استفاده از Python جمع‌آوری کردیم و عکس‌های پیوست شده به بررسی، تاریخ بازدید و داده‌های ملیت ناشر را جمع‌آوری کردیم. «کاخ گیونگ‌بوک‌گونگ» یک کاخ متعلق به سلسله چوسون است که در مرکز شهر قرار دارد و یکی از پربازدیدترین مکان‌های گردشگران خارجی است. «اینسادونگ»، منطقه‌ای متمایز با ترکیبی از گالری‌ها، رستوران‌های سنتی، ساختمان‌های مدرن و خیابان‌های خرید، نیز مکانی محبوب برای گردشگران خارجی است. در این مطالعه، ما فقط عکس های ارسال شده توسط گردشگران خارجی را با استفاده از فیلتر زبان و اطلاعات مبدا بازدیدکنندگان انتخاب کردیم. از آنجایی که تعداد گردشگران ورودی در سال 2020 به دلیل COVID-19 به شدت کاهش یافت، همه داده های قبل از سال 2020 استفاده شد. «کاخ گیونگ‌بوک‌گونگ» یک کاخ متعلق به سلسله چوسون است که در مرکز شهر قرار دارد و یکی از پربازدیدترین مکان‌های گردشگران خارجی است. «اینسادونگ»، منطقه‌ای متمایز با ترکیبی از گالری‌ها، رستوران‌های سنتی، ساختمان‌های مدرن و خیابان‌های خرید، نیز مکانی محبوب برای گردشگران خارجی است. در این مطالعه، ما فقط عکس های ارسال شده توسط گردشگران خارجی را با استفاده از فیلتر زبان و اطلاعات مبدا بازدیدکنندگان انتخاب کردیم. از آنجایی که تعداد گردشگران ورودی در سال 2020 به دلیل COVID-19 به شدت کاهش یافت، همه داده های قبل از سال 2020 استفاده شد. «کاخ گیونگ‌بوک‌گونگ» یک کاخ متعلق به سلسله چوسون است که در مرکز شهر قرار دارد و یکی از پربازدیدترین مکان‌های گردشگران خارجی است. «اینسادونگ»، منطقه‌ای متمایز با ترکیبی از گالری‌ها، رستوران‌های سنتی، ساختمان‌های مدرن و خیابان‌های خرید، نیز مکانی محبوب برای گردشگران خارجی است. در این مطالعه، ما فقط عکس های ارسال شده توسط گردشگران خارجی را با استفاده از فیلتر زبان و اطلاعات مبدا بازدیدکنندگان انتخاب کردیم. از آنجایی که تعداد گردشگران ورودی در سال 2020 به دلیل COVID-19 به شدت کاهش یافت، همه داده های قبل از سال 2020 استفاده شد. همچنین مکانی محبوب برای گردشگران خارجی است. در این مطالعه، ما فقط عکس های ارسال شده توسط گردشگران خارجی را با استفاده از فیلتر زبان و اطلاعات مبدا بازدیدکنندگان انتخاب کردیم. از آنجایی که تعداد گردشگران ورودی در سال 2020 به دلیل COVID-19 به شدت کاهش یافت، همه داده های قبل از سال 2020 استفاده شد. همچنین مکانی محبوب برای گردشگران خارجی است. در این مطالعه، ما فقط عکس های ارسال شده توسط گردشگران خارجی را با استفاده از فیلتر زبان و اطلاعات مبدا بازدیدکنندگان انتخاب کردیم. از آنجایی که تعداد گردشگران ورودی در سال 2020 به دلیل COVID-19 به شدت کاهش یافت، همه داده های قبل از سال 2020 استفاده شد.

3.3. جاسازی تصویر

برای تجزیه و تحلیل داده های تصویر با استفاده از یادگیری عمیق، لازم است تصویر را در یک فضای تعبیه شده نگاشت کنید. در این حالت، هنگامی که یک بردار با ترتیب مقادیر پیکسلی یک تصویر اصلی در یک ردیف ایجاد می‌شود، تعیین شباهت بین تصاویر از طریق اندازه‌گیری فاصله دشوار است، زیرا بردار حالتی را که در آن الگوی بصری یکسان در مکان‌های مختلف وجود دارد، منعکس نمی‌کند. در تصویر. به عنوان جایگزینی برای این، می توان از روشی برای استخراج الگوی بصری یک تصویر و جاسازی آن به عنوان یک وکتور استفاده کرد.

در این مطالعه، ما از یک مدل جاسازی مبتنی بر CNN استفاده کردیم که در آن بردارها با انعکاس محتوای بصری عکس تولید شدند. بنابراین، بردارهایی که محتوای بصری مشابهی دارند در فضای تعبیه نزدیک به هم قرار می گیرند و بالعکس. فاصله نزدیک بین بردارها به این معنی است که محتوای بصری تصاویر اصلی مشابه است. مدل طبقه‌بندی تصاویر مبتنی بر CNN تا حد زیادی به دو بخش تقسیم می‌شود: یکی یادگیری ویژگی‌های تصاویر و دیگری طبقه‌بندی تصاویر بر اساس ویژگی‌ها. اولی از یک لایه کانولوشن، یک تابع فعال سازی و یک لایه ادغام تشکیل شده است، در حالی که دومی از یک لایه کاملاً متصل و یک لایه softmax تشکیل شده است. از آنجایی که در فرآیند جاسازی نیازی به بخش دوم نیست، ما لایه کاملاً متصل در بالای مدل CNN را با یک لایه Global Max Pooling جایگزین کردیم. در این مطالعه، ما از یک شبکه VGG16 که از قبل بر روی مجموعه داده Places365 آموزش داده شده بود برای جاسازی استفاده کردیم. Places365 یک مجموعه داده معیار است که با استخراج 365 دسته از مجموعه داده های Place که در مجموع از 10 میلیون عکس تشکیل شده است، ایجاد شده است.33 ]. از آنجایی که این مطالعه سعی در تجزیه و تحلیل عکس های گرفته شده در جاذبه های گردشگری دارد، از یک مدل از پیش آموزش دیده با Places365 استفاده شد.

3.4. کاهش ابعاد و خوشه بندی

کارکردهای اصلی این فرآیند استخراج محتوای بصری است که اغلب در عکس های گرفته شده توسط گردشگران ظاهر می شود و از آنها به عنوان یک دسته بندی استفاده می کند. ابتدا با t-SNE بعد 512 را به 2 بعدی کاهش دادیم. دوم، ما از الگوریتم خوشه‌بندی HDBSCAN برای خوشه‌بندی این تعبیه‌ها استفاده کردیم. نتایج خوشه‌بندی ترجیح بصری گردشگران را برای یک جاذبه گردشگری که TDI را تشکیل می‌دهد، نشان داد.

t-SNE یکی از روش‌های غیرخطی است که برای کاهش داده‌های پربعد به دو یا سه بعدی بر اساس توزیع احتمال و تجسم آن طراحی شده است [ 34 ]. این روش با تکمیل مشکلات تعبیه همسایه تصادفی [ 35 ] توسعه یافت و بر حفظ ساختار محلی هنگام کاهش ابعاد متمرکز است. در اینجا، حفظ ساختار محلی به معنای کاهش داده ها است به طوری که می توان رابطه را حتی پس از اینکه نقاطی که در بعد بالا به یکدیگر نزدیک هستند به بعد پایین پیش بینی کرد، حفظ شود. در معادله (1) نشان دهنده احتمال اشاره به داده است و موجود در ابعاد بالا با یکدیگر همسایه هستند. در معادله (2) نشان دهنده این احتمال است که و ، که نقاط کم بعدی مربوط به و ، در مجاورت یکدیگر قرار دارند. تابع هزینه t-SNE با واگرایی Kullback-Leibler محاسبه می شود، تابعی که تفاوت بین توزیع احتمال هر دو بعد بالا و پایین را در معادله (3) محاسبه می کند [ 36 ].

(1)

(2)

(3)

: احتمال مشترک که و همسایگان در ابعاد بالایی هستند

: احتمال مشترک که و همسایگان در ابعاد پایین هستند

: نقاط داده با ابعاد بالا

: نقاط داده کم بعدی همتایان و

ما از الگوریتم HDBSCAN برای شناسایی خوشه ها در فضای جاسازی و استفاده از آنها به عنوان یک دسته استفاده کردیم. HDBSCAN از خوشه بندی فضایی مبتنی بر چگالی با نویز (DBSCAN)، یک الگوریتم خوشه بندی مبتنی بر چگالی [ 37 ] تکامل یافته است. DBSCAN خوشه ای از نقاط را با چگالی معین در کل فضای نقطه داده پیدا می کند [ 38 ]. در اینجا، چگالی معین به عنوان مقدار Eps که شعاع و را نشان می دهد، تعریف می شود ، که حداقل تعداد نقاط داده موجود در Eps است. DBSCAN دو اشکال دارد، اولی حساس بودن به پارامترها و دومی این که نمی تواند خوشه هایی با چگالی متفاوت پیدا کند زیرا آستانه هایی را برای چگالی تعیین می کند. HDBSCAN الگوریتمی است که کاستی های DBSCAN را جبران می کند و مفهوم خوشه بندی سلسله مراتبی را به DBSCAN اضافه می کند. از آنجایی که HDBSCAN خوشه ها را تنها با تعریف حداقل مقدار داده بدون استفاده از مقدار ثابت Eps پیدا می کند، می تواند خوشه های مختلف با مقادیر چگالی متفاوت را استخراج کند.

3.5. حذف داده های نویز و طبقه بندی عکس ها

ممکن است به نظر برسد که نتایج خوشه‌بندی می‌تواند جایگزین طبقه‌بندی عکس شود زیرا خوشه‌ها از محتوای بصری مشابهی تشکیل شده‌اند. با این حال، از آنجایی که HDBSCAN بر اساس چگالی کار می‌کند، دقت خوشه‌بندی در لبه خوشه‌ای که چگالی نسبتاً پایینی نسبت به هسته دارد پایین است. این مسئول دو مشکل است. اول، عکس های نویز که به خوشه مربوط نمی شوند ممکن است گنجانده شوند. دوم، نقاط نویز واقع در اطراف مرز خوشه ممکن است در واقع نویز نباشند.

برای رسیدگی به این مشکلات، ما یک شبکه سیامی را برای طبقه بندی عکس های آموزش دیده با مجموعه داده های خودمان که از عکس های گرفته شده در منطقه تحقیقاتی تشکیل شده است، پیاده سازی کردیم. شبکه سیامی شامل بیش از دو زیرشبکه یکسان است که قادر به یادگیری الگوها از بردارهای ورودی هستند [ 39 ]. خروجی های تولید شده از طریق یک شبکه سیامی شباهت بین تصاویر را منعکس می کند. اگرچه مدل عکس‌های مختلفی را به‌عنوان ورودی دریافت می‌کند، وزن‌ها در زیرشبکه‌ها به‌طور یکسان به‌روزرسانی می‌شوند، زیرا با تابع از دست دادن ترکیب می‌شوند. این تثبیت وزن به این معنی است که تصاویر بصری مشابه در نزدیکی یکدیگر قرار دارند و بالعکس.

در این مطالعه، از دست دادن سه گانه به عنوان تابع هزینه برای آموزش شبکه سیامی و از روش نیمه سخت در بین روش های کاوی سه گانه استفاده شد. تابع ضرر سه گانه سه نوع داده ورودی را دریافت می کند: لنگر، مثبت و منفی. سه راه برای ساخت داده های ورودی وجود دارد: سه قلوهای آسان، سه قلوهای سخت و سه قلوهای نیمه سخت. شروف و همکاران نشان داد که مدل آموزش دیده با استفاده از روش سه قلوهای نیمه سخت در بین آنها برتر است [ 28 ]. شکل 2 معماری مدل مورد استفاده در مطالعه را نشان می دهد.

شبکه سیامی یاد می گیرد که تصاویر با محتوای بصری مشابه را در فضای برداری نزدیک به یکدیگر قرار دهد و بالعکس. بر اساس این اصل می توان عکس ها را طبقه بندی کرد و نویزها را تشخیص داد. برای این، یک مجموعه هدف، یک مجموعه نویز و یک مجموعه مرجع مورد نیاز است. مجموعه هدف مجموعه‌ای از عکس‌های هدف است که باید بر اساس موارد دسته‌بندی طبقه‌بندی و برچسب‌گذاری شوند. مجموعه نویز مجموعه ای از عکس های نویز است که به دسته بندی تعلق ندارند. مجموعه مرجع از نمونه تصاویر هر دسته تشکیل شده است. مجموعه‌های تست و مجموعه‌های مرجع به گونه‌ای ساخته شد که از تعداد عکس‌های مشابهی برای هر دسته تشکیل شده باشد. مجموعه نویز با تعداد عکس های مشابه مجموعه تست ساخته شده است. طبقه بندی عکس و حذف نویز از طریق چهار مرحله زیر انجام می شود: اول، فاصله بین عکس هدف و عکس متعلق به مجموعه مرجع به ترتیب محاسبه می شود. دوم، برچسب پیش‌بینی تصویر هدف به عنوان برچسب عکس مرجع با حداقل فاصله در معادله (4) اختصاص داده می‌شود. این فرآیندها برای تمام تصاویر هدف تکرار می شوند. سوم، فاصله بین یک عکس نویز و عکس متعلق به مجموعه مرجع به ترتیب محاسبه می شود. این مرحله برای همه عکس‌های موجود در مجموعه نویز تکرار می‌شود. در نتیجه، عکس های نویز را می توان با تعیین آستانه برای حداقل فاصله حذف کرد. چهارم، دقت پیش‌بینی با تغییر حداقل آستانه فاصله با استفاده از منحنی ROC ارزیابی شد. آستانه نقطه نشان دهنده بهترین دقت انتخاب شد. منحنی ROC نموداری است که نشان می دهد چگونه عملکرد سیستم طبقه بندی با توجه به آستانه های مختلف تغییر می کند. در این مطالعهمحورهای X و Y منحنی ROC عبارتند از نرخ مثبت واقعی (TPR) و نرخ مثبت کاذب (FPR). TPR درصد مواردی است که برچسب واقعی با برچسب پیش بینی شده در هدف تعیین شده در معادله (5) مطابقت دارد. FPR درصد مواردی است که نویز در معادله (6) به عنوان نویز طبقه بندی نشده است. آستانه بهینه مقدار دورترین نقطه از Y = X در بین نقاط روی منحنی ROC در شکل 3 است.

(4)

: برچسب پیش بینی شده روی عکس مورد نظر

t : جاسازی تصویر یک تصویر هدف

: تعبیه از تصویر نمونه از آیتم دسته .

: تابع فاصله اقلیدسی بین و

(5)

(6)

: برچسب واقعی یک عکس

: برچسب پیش بینی شده یک عکس

شکل 3. مثالی از منحنی ROC.

4. نتایج

4.1. کاخ Gyeongbokgung

در مجموع 9940 عکس در 10655 بررسی ثبت شده در تریپ ادوایزر در صفحه ‘کاخ Gyeongbokgung’ جمع آوری شد. از مجموع 9940 عکس، 8188 عکس را انتخاب کردیم به جز 715 بررسی که به زبان کره ای نوشته شده بودند. یک مدل VGG16 که از قبل با Places365 آموزش داده شده بود، هر عکس را در یک بردار 512 بعدی جاسازی کرد و t-SNE وکتورها را به دو بعدی کاهش داد. ما HDBSCAN را برای خوشه‌بندی این بردارها در چندین گروه پیاده‌سازی کردیم. نتیجه در شکل 4 نشان داده شده است و تعداد عکس ها برای هر خوشه در جدول 1 نشان داده شده است . 16 خوشه ایجاد شد و 3824 نقطه به عنوان نویز طبقه بندی شد.

پس از بررسی عکس ها در هر خوشه، دو اقدام انجام دادیم. اول، اگر بیش از دو خوشه وجود داشت که حاوی محتوای بصری یکسانی بود، آنها را در یکی ادغام کردیم. ثانیاً، اگر هیچ شباهتی بین تصاویری که یک خوشه را تشکیل می دادند وجود نداشت، آن خوشه حذف می شد زیرا در نظر گرفتن آنها به عنوان یک خوشه معنادار دشوار است. خوشه های 7 و 8 در یک خوشه ادغام شدند زیرا هر دو از عکس های “تخت” تشکیل شده بودند. خوشه‌های 10 و 12 نیز در یک خوشه ترکیب شدند، زیرا هر دو شامل عکس‌هایی از «مراسم تعویض نگهبان دروازه» بودند. خوشه های 14 و 15 نیز در یک خوشه ادغام شدند زیرا هر دو از عکس های “دروازه هئونگنیمون” به یک شکل تشکیل شده بودند. از سوی دیگر، خوشه های 11، 12 و 13 برای ایجاد یک دسته استفاده نشدند، زیرا هر خوشه از عکس های متفاوتی تشکیل شده بود.

شبکه Siamese ما را قادر می سازد تا عکس ها را بر اساس دسته بندی قبلی تولید شده طبقه بندی کنیم و عکس های نویز را حذف کنیم. برای این منظور، ما یک شبکه سیامی مبتنی بر شبکه VGG16 را با استفاده از مجموعه داده عکس قصر Gyeongbokgung آموزش دادیم. در این فرآیند، مجموعه داده آموزشی از عکس‌های هر خوشه به جز عکس‌هایی که به اشتباه در خوشه‌ها گنجانده شده بودند، تشکیل شد. جدول 2 تعداد عکس های موجود در مجموعه داده های آموزشی را برای هر دسته نشان می دهد.

برای بهبود توانایی مدل برای استخراج الگو از طریق غیر خطی، دو لایه کانولوشن به ساختار اصلی شبکه VGG16 اضافه شد. مدل مورد استفاده در این فرآیند دارای وزنه هایی بود که از قبل روی Places365 آموزش داده شده بودند. این وزن ها با مجموعه داده های خود ما به خوبی تنظیم شده بودند. شکل 5 تغییر مقدار ضرر را در فرآیند آموزش مدل نشان می دهد. برای جلوگیری از برازش بیش از حد، ما مدل را تا دوره 18 آموزش دادیم.

برای حذف عکس های نویز، لازم بود مقدار آستانه بهینه از منحنی ROC شناسایی شود. شکل 6 a حداقل فاصله بین عکس هدف و مجموعه مرجع را به عنوان هیستوگرام نشان می دهد. شکل 6 ب حداقل فاصله بین عکس هدف و مجموعه مرجع را به عنوان هیستوگرام نشان می دهد. شکل 7 منحنی ROC را نشان می دهد و 0.4 که آستانه دورترین نقطه از Y = X است که با رنگ قرمز X در نمودار نشان داده شده است، به عنوان مقدار بهینه انتخاب شد. شکل 7 نیز نشان می دهد که TPR 0.928 و FPR 0.045 بوده که مربوط به دقت مدل است. در مقایسه با شکل 4 ب، شکل 8نشان می دهد که نقاط داده متعلق به یک خوشه به هم نزدیک بوده و فاصله بین خوشه های مختلف از هم دورتر بوده است. شکل 9 و شکل 10 به ترتیب تعداد عکس‌ها و عکس‌های نمونه را نشان می‌دهند که در نهایت بر اساس موارد در یک دسته طبقه‌بندی شده‌اند.

4.2. اینسادونگ

6410 نظر در صفحه “اینسادونگ” تریپ ادوایزر ثبت شده است. از این تعداد، 3695 عکس از 5915 نقد نوشته شده به زبان خارجی جمع آوری شد. هر عکس به عنوان یک بردار 512 بعدی تعبیه شد، با استفاده از t-SNE به دو بعد کاهش یافت و با استفاده از HDBSCAN خوشه‌بندی شد. شکل 11 نتیجه را نشان می دهد و جدول 3 تعداد عکس ها را برای هر خوشه نشان می دهد. از مجموع 3659 نقطه، 2568 به عنوان نویز طبقه بندی شدند و 5 خوشه در شکل 11 ایجاد شد.ب از آنجایی که 134 عکس متعلق به خوشه 4 نشان دهنده محتویات بصری مختلف مانند نشانه ها، سوغاتی ها، نقاشی های دیواری، پرتره ها و غذا است، این خوشه در رده ساختمان در نظر گرفته نشد. در نهایت چهار دسته به شرح زیر ایجاد شد: “Ssamzigil”، “خیابان Insadong”، “غذا و نوشیدنی” و “Souvenir”.

شبکه سیامی برای طبقه بندی عکس ها بر اساس دسته بندی های قبلی تولید شده و حذف عکس های نویز استفاده شد. برای این منظور، شبکه سیامی را بر روی مجموعه داده عکس Insadong آموزش دادیم. در این زمان، مجموعه داده های آموزشی با استفاده از عکس های تشکیل شده از هر خوشه به جز عکس هایی که به اشتباه در خوشه ها گنجانده شده بودند، سازماندهی شد. جدول 4 تعداد عکس های موجود در مجموعه داده های آموزشی را برای هر دسته نشان می دهد. مدل مورد استفاده در Insadong نیز بر اساس شبکه VGG16 بود. با این حال، بر خلاف مدل مورد استفاده در “کاخ Gyeongbokgung”، ما چهار لایه بالایی مدل را بدون لایه های کانولوشن اضافی تنظیم کردیم. از آنجایی که ‘Insadong’ مجموعه داده آموزشی کوچکتری نسبت به ‘Gyeongbokgung Palace’ داشت، ممکن است بیش از حد برازش ایجاد شود. شکل 12تغییر ارزش تلفات را در طول آموزش مدل نشان می دهد و مدل آموزش دیده تا دوره 10 برای جلوگیری از برازش بیش از حد استفاده شد.

برای حذف عکس‌های نویز موجود در دسته، مقدار آستانه بهینه را از طریق منحنی ROC بررسی کردیم. شکل 13 a حداقل فاصله بین مجموعه تست و مجموعه مرجع را به صورت هیستوگرام نشان می دهد. شکل 13 ب حداقل فاصله بین مجموعه نویز و مجموعه مرجع را به صورت هیستوگرام نشان می دهد. شکل 14 منحنی ROC را نشان می دهد و 0.32، مقدار آستانه دورترین نقطه از Y = X، مربوط به X قرمز روی نمودار، به عنوان مقدار بهینه انتخاب شده است. شکل 14 نیز نشان می دهد که TPR 0.90 و FPR 0.057 بوده که مربوط به دقت مدل است. شکل 15 مدل آموزش دیده و نقاط داده طبقه بندی شده بر اساس آستانه را نشان می دهد. در مقایسه با شکل 11ب، شکل 15 نشان می دهد که نقاط داده متعلق به یک خوشه به یکدیگر نزدیک بوده و فواصل بین خوشه های مختلف از هم دورتر بوده است. شکل 16 و شکل 17 به ترتیب تعداد عکس ها و نمونه عکس ها را که در نهایت بر اساس دسته بندی طبقه بندی شده اند نشان می دهد.

5. بحث و نتیجه گیری

از آنجایی که ارزش عکس های ارسال شده توسط گردشگران در حوزه گردشگری اهمیت بیشتری پیدا می کند، رویکردهای جدیدی برای تجزیه و تحلیل عکس های توریستی با استفاده از فناوری یادگیری عمیق در حال تلاش است. روش‌های تحقیقی که عکس‌های گردشگری را با استفاده از فناوری یادگیری عمیق اخیر تجزیه و تحلیل می‌کنند، دوگانه هستند. روش اول این است که تصاویر گردشگری پس از طبقه بندی عکس های توریستی توسط دسته بندی های طبقه بندی عکس های از پیش تعیین شده مانند Places365 یا ImageNet تجزیه و تحلیل می شوند. روش دوم این است که تصاویر گردشگری با توجه به دسته بندی عکس های گردشگری که در مقیاس شهری یا ملی ایجاد شده است، تجزیه و تحلیل می شوند. در مورد اول، نقصی وجود دارد که عکس‌های منحصربه‌فرد که در جاذبه‌های گردشگری خاص ظاهر می‌شوند را نمی‌توان به درستی با دسته‌بندی طراحی‌شده برای اهداف عمومی طبقه‌بندی کرد. در مورد دوم،

هدف از این مطالعه پیشنهاد روشی برای ساخت خودکار یک دسته برای هر جاذبه با خوشه‌بندی عکس‌ها و طبقه‌بندی آنها با شبکه سیامی، به جای طبقه‌بندی آنها به دسته‌های از پیش تعیین‌شده است. علاوه بر این، این مطالعه سعی دارد اعتبار روش پیشنهادی را با اعمال آن در دو جاذبه گردشگری معرف در سئول تأیید کند. این مطالعه چهار مرحله برای روشن کردن روش طبقه‌بندی عکس برای هر جاذبه گردشگری و تأیید اعتبار آن دارد. ابتدا عکس‌های توریستی پیوست شده به نظرات ارسال شده توسط گردشگران خارجی در تریپ ادوایزر را جمع‌آوری کردیم. دوم، با استفاده از شبکه VGG16 که با Places365 از قبل آموزش داده شده بود، عکس‌ها را به‌عنوان بردار ویژگی در ابعاد 512 جاسازی کردیم و با استفاده از t-SNE آنها را به 2 بعد کاهش دادیم. سوم، برای ایجاد دسته‌بندی بر اساس محتوای بصری که اغلب در عکس‌های گرفته شده توسط گردشگران ظاهر می‌شود، خوشه‌ها از طریق تجزیه و تحلیل HDBSCAN استخراج شدند و به عنوان دسته‌بندی تصویری یک جاذبه تنظیم شدند. چهارم، ما نویزهای موجود در خوشه را از طریق شبکه سیامی حذف کردیم و با تأیید تعداد عکس های طبقه بندی شده در هر دسته، تصویر جاذبه های گردشگری را تجزیه و تحلیل کردیم.

با استفاده از روش پیشنهادی در این مطالعه، عکس‌های Tripadvisor ارسال شده توسط گردشگران خارجی در “کاخ Gyeongbokgung” و “Insadong” در سئول، کره تجزیه و تحلیل شدند. کاخ Gyeongbokgung کاخی است که در زمان سلسله چوسون ساخته شده است و یکی از جاذبه‌های گردشگری معرف واقع در مرکز شهر سئول است. در کاخ Gyeongbokgung، 10 دسته به شرح زیر ایجاد شد: “تالار Geunjeongjeon”، “Gyeonghoeru Pavilion”، “Gyeongnyemun Gate”، “Hyangwonjeong”، “National Folk Museum”، “Trone”، “Hanbok (لباس سنتی کره ای)”، مراسم تعویض نگهبان دروازه و «درخت» «دروازه گوانگوامون». از این طریق می‌توان بررسی کرد که کدام تصاویر مقصد «کاخ گیونگ‌بوک‌گونگ» مورد علاقه گردشگران خارجی است. ‘اینسادونگ’ همچنین یکی از جاذبه های گردشگری در مرکز شهر سئول است. اینسادونگ منطقه‌ای است که به عنوان مرکز نمایشگاهی برای هنرهای سنتی کره‌ای، عتیقه‌جات و سرامیک‌های قدیمی شناخته می‌شود که نسل به نسل منتقل شده‌اند. در اینسادونگ، چهار دسته ایجاد شد: “Ssamzigil”، “خیابان اینسادونگ”، “غذا و نوشیدنی” و “سوغاتی”. از این طریق می توان تشخیص داد که چه تصاویری از اینسادونگ مورد علاقه گردشگران خارجی است.

این مطالعه در سه جنبه زیر از مطالعات موجود متمایز می شود. اول، از آنجایی که ما بر اساس نتایج خوشه‌بندی دسته‌بندی می‌کنیم، ویژگی‌هایی که مقاصد گردشگری را جذاب می‌کنند، می‌توانند به طور خاص و انعطاف‌پذیرتر به شیوه‌ای مبتنی بر داده شناسایی شوند. دوم، از آنجایی که ما نتایج تجزیه و تحلیل خوشه‌بندی را به عنوان دسته‌ها تنظیم می‌کنیم، نیازی به ساخت دستی مجموعه داده آموزشی نیست. سوم، برای رسیدگی به کمبود داده، از یک شبکه سیامی استفاده می‌کنیم که می‌تواند عملکرد طبقه‌بندی را با مجموعه داده‌های حجم نسبتاً کمی بهبود بخشد. در مورد حوزه گردشگری، اگر منطقه تحقیقاتی به یک جاذبه گردشگری خاص محدود شود، ممکن است محدودیتی برای مقدار داده های قابل استفاده وجود داشته باشد. با این حال، از آنجایی که داده های مورد استفاده در این مطالعه، عکس های ارسال شده در تریپ ادوایزر است، این احتمال وجود دارد که عکس های مختلف کمتر با هم ترکیب شوند زیرا دسته بندی ها به مقاصد گردشگری، جاذبه های گردشگری و فعالیت ها تقسیم می شوند. بنابراین، لازم است عکس های ارسال شده در تریپ ادوایزر را با عکس های سایر سایت های SNS که احتمالاً عکس های مختلفی را برای همان منطقه ارسال می کنند، مقایسه کنید. علاوه بر این، لازم است یک دسته ایجاد شده توسط روش پیشنهادی با یکی از روش‌های موجود پیشنهاد شده توسط مطالعات قبلی مقایسه شود، که عکس‌های توریستی را بر اساس دسته‌های عکس از پیش تعریف‌شده با استفاده از Places365 یا ImageNet طبقه‌بندی می‌کند.

منابع

Paül i Agustí, D. مشخص کردن مکان تصاویر توریستی در شهرها. تفاوت در تصاویر تولید شده توسط کاربر (اینستاگرام)، بروشورهای رسمی توریستی و راهنمای سفر. ان Tour Res. 2018 ، 73 ، 103-115. [ Google Scholar ] [ CrossRef ]
عارفیوا، وی. ایگر، آر. Yu, J. یک رویکرد یادگیری ماشین برای تصویر مقصد خوشه ای در اینستاگرام. تور. مدیریت 2021 ، 85 ، 104318. [ Google Scholar ] [ CrossRef ]
چیو، دبلیو. زنگ، اس. چنگ، PST تأثیر تصویر مقصد و رضایت گردشگران بر وفاداری گردشگران: مطالعه موردی گردشگران چینی در کره. بین المللی J. Cult. تور. بیمارستان Res. 2016 ، 10 ، 223-234. [ Google Scholar ] [ CrossRef ]
ماتا، IL; فوسگارد، ک. Haukeland، JV آیا بازدیدکنندگان به آنچه مدیران مقصد می خواهند تجاری سازی کنند، نگاه می کنند و بازتولید می کنند؟ تصویر درک شده و پیش بینی شده در منطقه میراث جهانی یونسکو “آبدره های نروژی غربی”. بین المللی جی دیجیت. فرقه الکترون. تور. 2018 ، 2 ، 294-321. [ Google Scholar ] [ CrossRef ]
آهنگ، سی.-م. Jeon, HY یک مطالعه نشانه‌شناختی از برندسازی منطقه‌ای که در شعارهای مناطق کره منعکس شده است. Soc. سمیوت. 2018 ، 28 ، 230-256. [ Google Scholar ] [ CrossRef ]
ژائو، ز. زو، ام. Hao, X. نگاه را به اشتراک بگذارید: نمایش تصویر مقصد در پلتفرم اجتماعی چینی WeChat Moments. تور مسافرتی جی. علامت. 2018 ، 35 ، 726-739. [ Google Scholar ] [ CrossRef ]
سان، دبلیو. تانگ، اس. لیو، اف. بررسی تصویر مقصد درک شده و پیش بینی شده: تحلیل محتوای رسانه های اجتماعی. Sustainability 2021 , 13 , 3354. [ Google Scholar ] [ CrossRef ]
گارود، ب. درک رابطه بین تصاویر مقصد گردشگری و عکاسی توریستی. J. Travel Res. 2009 ، 47 ، 346-358. [ Google Scholar ] [ CrossRef ]
پان، اس. لی، جی. تسای، اچ. عکس‌های سفر: انگیزه‌ها، ابعاد تصویر و کیفیت‌های تأثیرگذار مکان‌ها. تور مناگ. 2014 ، 40 ، 59-69. [ Google Scholar ] [ CrossRef ]
هان، اس. رن، اف. دو، س. Gui, D. استخراج تصاویر معرف جاذبه‌های توریستی از فلیکر با ترکیب یک روش خوشه‌ای بهبود یافته و چندین مدل یادگیری عمیق. ISPRS Int. J. Geo-Inf. 2020 ، 9 ، 81. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
جنکینز، او. بروشورهای عکاسی و سفر: دایره نمایندگی. تور. Geogr. 2003 ، 5 ، 305-328. [ Google Scholar ] [ CrossRef ]
Dinh, MH عکاسی در گردشگری: عکس‌های مسافران ویتنامی و اشتراک‌گذاری روایت در تصویر مقصد شمال غربی ویتنام. دکتری پایان نامه، دانشگاه فناوری اوکلند، اوکلند، نیوزلند، 2021. [ Google Scholar ]
لیم، ی. چانگ، ی. ویور، PA تأثیر رسانه های اجتماعی بر برندسازی مقصد: ویدیوهای تولید شده توسط مصرف کننده در مقابل ویدیوهای تولید شده توسط بازاریاب مقصد. J. Vacat. علامت. 2012 ، 18 ، 197-206. [ Google Scholar ] [ CrossRef ]
استپچنکووا، اس. ژان، اف. تصاویر مقصد بصری پرو: تحلیل محتوای مقایسه ای DMO و عکاسی تولید شده توسط کاربر. تور. مدیریت 2013 ، 36 ، 590-601. [ Google Scholar ] [ CrossRef ]
ژانگ، ک. چن، ی. لی، سی. کشف رفتارها و ادراکات گردشگران در یک مقصد گردشگری با تجزیه و تحلیل محتوای بصری عکس ها با یک مدل یادگیری عمیق کامپیوتری: مورد پکن. تور. مدیریت 2019 ، 75 ، 595-608. [ Google Scholar ] [ CrossRef ]
ژانگ، ک. چن، دی. لی، سی. گردشگران چگونه متفاوت هستند؟ خواندن عکس های دارای برچسب جغرافیایی از طریق یک مدل یادگیری عمیق. جی. کوال. ایسور. بیمارستان تور. 2020 ، 21 ، 234-243. [ Google Scholar ] [ CrossRef ]
کیم، دی. کانگ، ی. پارک، ی. کیم، ن. لی، جی. درک تصاویر شهری گردشگران با عکس های دارای برچسب جغرافیایی با استفاده از شبکه های عصبی کانولوشن. تف کردن Inf. Res. 2020 ، 28 ، 241-255. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
پاینتار، ND; Hsiao، W.-L. کاوی، RA; گرومن، ک. الگوهای یادگیری حرکت توریستی و عکاسی از عکس‌های دارای برچسب جغرافیایی در سایت‌های میراث باستان‌شناسی در کوزکو، پرو. تور. مدیریت 2021 ، 82 ، 104165. [ Google Scholar ] [ CrossRef ]
قانون، اس. شن، ی. Seresinhe, C. کاربرد شبکه عصبی کانولوشن در طبقه بندی تصویر خیابان: مطالعه موردی لندن. در مجموعه مقالات اولین کارگاه در مورد هوش مصنوعی و یادگیری عمیق برای کشف دانش جغرافیایی، ردوندو بیچ، کالیفرنیا، ایالات متحده آمریکا، 7 تا 10 نوامبر 2017؛ صص 5-9. [ Google Scholar ]
کانگ، ی. چو، ن. یون، جی. پارک، اس. کیم، جی. انتقال یادگیری یک مدل یادگیری عمیق برای کاوش تصویر شهری گردشگران با استفاده از عکس‌های دارای برچسب جغرافیایی. ISPRS Int. J. Geo-Inf. 2021 ، 10 ، 137. [ Google Scholar ] [ CrossRef ]
کانگ، ی. Yoon, J. تجزیه و تحلیل صحنه گردشگری از طریق یادگیری انتقال چند برچسبی مبتنی بر CNN. KSIS 2021 ، 29 ، 15-26. [ Google Scholar ]
چن، ام. آریباس-بل، دی. Singleton، A. کمی کردن ویژگی‌های محیط شهری محلی از طریق عکس‌های فلیکر دارای برچسب جغرافیایی و تشخیص تصویر. ISPRS Int. J. Geo-Inf. 2020 ، 9 ، 264. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
اوماهونی، ن. کمبل، اس. کاروالیو، آ. هاراپاناهالی، س. هرناندز، جی وی. کرپالکووا، ال. ریوردان، دی. والش، جی. یادگیری عمیق در مقابل دید کامپیوتر سنتی. در مجموعه مقالات کنفرانس علم و اطلاعات، توکیو، ژاپن، 16 تا 19 مارس 2019؛ صص 128-144. [ Google Scholar ]
نش، دبلیو. دراموند، تی. Birbilis, N. مروری بر یادگیری عمیق در مطالعه تخریب مواد. npj ماتر. تنزل دادن 2018 ، 2 ، 1-12. [ Google Scholar ] [ CrossRef ]
تاپسوی، م. قانون، MT; Fidler, S. خوشه‌بندی چهره ویدیویی با تعداد نامشخص خوشه. در مجموعه مقالات کنفرانس بین المللی IEEE/CVF در بینایی کامپیوتر، سئول، کره، 27 تا 28 اکتبر 2019؛ ص 5027–5036. [ Google Scholar ]
گو، ایکس. وانگ، ی. پنگ، پی. شو، ال. چن، جی. Kankanhalli، MS درک روند مد از عکس های خیابانی از طریق یادگیری تعبیه شده توسط همسایگان. در مجموعه مقالات بیست و پنجمین کنفرانس بین المللی ACM در چند رسانه ای، Mountain View، CA، ایالات متحده آمریکا، 23 تا 27 اکتبر 2017؛ صص 190-198. [ Google Scholar ]
کاستلانو، جی. Vessio، G. رویکرد یادگیری عمیق برای خوشه‌بندی هنرهای تجسمی. arXiv 2021 ، arXiv:2106.06234. [ Google Scholar ]
شروف، اف. کالنیچنکو، دی. Philbin, J. Facenet: تعبیه یکپارچه برای تشخیص چهره و خوشه بندی. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، بوستون، MA، ایالات متحده آمریکا، 7 تا 12 ژوئن 2015. صص 815-823. [ Google Scholar ]
ژونگ، دی. یانگ، ی. Du، X. تشخیص کف دست با استفاده از شبکه سیامی. در مجموعه مقالات کنفرانس چینی در مورد تشخیص بیومتریک، ارومچی، چین، 11 تا 12 اوت 2018؛ صص 48-55. [ Google Scholar ]
محمود، ع. مقصود، م. بشیر، م. Shuyuan، Y. یک شبکه عصبی کانولوشن عمیق سیامی برای طبقه بندی چند طبقه بیماری آلزایمر. علم مغز 2020 ، 10 ، 84. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
برتینتو، ال. والمادر، جی. هنریکس، جی اف. ودالدی، ع. Torr, PH شبکه های سیامی کاملاً کانولوشن برای ردیابی اشیا. در مجموعه مقالات کنفرانس اروپایی بینایی کامپیوتر، آمستردام، هلند، 8 تا 16 اکتبر 2016. صص 850-865. [ Google Scholar ]
یو، K.-H. سیگالا، م. گرتزل، ایالات متحده. کاوش در TripAdvisor. در گردشگری آزاد ؛ Springer: برلین/هایدلبرگ، آلمان، 2016; صص 239-255. [ Google Scholar ]
ژو، بی. خسلا، ع. لاپدریزا، ا. تورالبا، ا. Oliva, A. Places: پایگاه داده تصویر برای درک عمیق صحنه. arXiv 2016 , arXiv:1610.02055. [ Google Scholar ] [ CrossRef ]
ون در ماتن، ال. هینتون، جی. تجسم داده ها با استفاده از t-SNE. جی. ماخ. فرا گرفتن. Res. 2008 ، 9 ، 2579-2605. [ Google Scholar ]
هینتون، جی. Roweis، ST Stochastic جاسازی همسایه. در مجموعه مقالات سیستم های پردازش اطلاعات عصبی، ونکوور، کانادا، 9-14 دسامبر 2002. صص 833-840. [ Google Scholar ]
کولبک، اس. Leibler, RA در مورد اطلاعات و کفایت. ان ریاضی. آمار 1951 ، 22 ، 79-86. [ Google Scholar ] [ CrossRef ]
Campello، RJ; مولوی، د. Sander, J. خوشه بندی مبتنی بر تراکم بر اساس برآوردهای تراکم سلسله مراتبی. در مجموعه مقالات کنفرانس اقیانوس آرام-آسیا در مورد کشف دانش و داده کاوی، ساحل طلایی، QLD، استرالیا، 14-17 آوریل 2013. صص 160-172. [ Google Scholar ]
استر، ام. کریگل، اچ.-پی. ساندر، جی. Xu, X. یک الگوریتم مبتنی بر چگالی برای کشف خوشه ها در پایگاه داده های فضایی بزرگ با نویز. در مجموعه مقالات kdd، پورتلند، OR، ایالات متحده آمریکا، 2 تا 4 اوت 1996; ص 226-231. [ Google Scholar ]
کوچ، جی. زمل، آر. سالخوتدینوف، R. شبکه های عصبی سیامی برای تشخیص تصویر تک شات. در مجموعه مقالات کارگاه آموزشی عمیق ICML، لیل، فرانسه، 6 تا 11 ژوئیه 2015. صص 160-172. [ Google Scholar ]