خلاصه

با توسعه سریع فناوری های نقشه برداری و اطلاعات مکانی، توجه بیشتر و بیشتری به موقعیت یابی شده است. در محیط های بیرونی، افراد می توانند به راحتی خدمات موقعیت یابی را از طریق سیستم های ماهواره ای ناوبری جهانی (GNSS) دریافت کنند. در محیط های داخلی، سیگنال GNSS اغلب از بین می رود، در حالی که سایر مشکلات موقعیت یابی، مانند محاسبه مرده و سیگنال های بی سیم، با خطاهای انباشته شده و تداخل سیگنال مواجه خواهند شد. بنابراین، این تحقیق از تصاویر برای تحقق یک سرویس موقعیت یابی استفاده می کند. مفهوم اصلی این کار ایجاد مدلی برای یک تصویر میدان داخلی و اطلاعات مختصات آن و قضاوت موقعیت آن با تطبیق مقادیر ویژه تصویر است. بر اساس معماری PoseNet، تصویر به یک شبکه عصبی کانولوشنال 23 لایه با توجه به اندازه های مختلف برای آموزش وظایف شناسایی مکان انتها به انتها وارد می شود و بردار موقعیت سه بعدی دوربین پسرفت می شود. داده های تجربی از پارکینگ زیرزمینی و موزه قصر گرفته شده است. نتایج تجربی اولیه نشان می‌دهد که این روش جدید طراحی شده توسط ما می‌تواند به طور موثری دقت موقعیت‌یابی داخل ساختمان را حدود 20 تا 30 درصد بهبود بخشد. علاوه بر این، این مقاله همچنین معماری‌های دیگر، اندازه‌های میدان، پارامترهای دوربین و اصلاحات خطا را برای این سیستم شبکه عصبی مورد بحث قرار می‌دهد. نتایج تجربی اولیه نشان می دهد که روش تصحیح خطای زاویه طراحی شده توسط ما می تواند به طور موثر موقعیت یابی را حدود 20٪ بهبود بخشد. داده های تجربی از پارکینگ زیرزمینی و موزه قصر گرفته شده است. نتایج تجربی اولیه نشان می‌دهد که این روش جدید طراحی شده توسط ما می‌تواند به طور موثری دقت موقعیت‌یابی داخل ساختمان را حدود 20 تا 30 درصد بهبود بخشد. علاوه بر این، این مقاله همچنین معماری‌های دیگر، اندازه‌های میدان، پارامترهای دوربین و اصلاحات خطا را برای این سیستم شبکه عصبی مورد بحث قرار می‌دهد. نتایج تجربی اولیه نشان می دهد که روش تصحیح خطای زاویه طراحی شده توسط ما می تواند به طور موثر موقعیت یابی را حدود 20٪ بهبود بخشد. داده های تجربی از پارکینگ زیرزمینی و موزه قصر گرفته شده است. نتایج تجربی اولیه نشان می‌دهد که این روش جدید طراحی شده توسط ما می‌تواند به طور موثری دقت موقعیت‌یابی داخل ساختمان را حدود 20 تا 30 درصد بهبود بخشد. علاوه بر این، این مقاله همچنین معماری‌های دیگر، اندازه‌های میدان، پارامترهای دوربین و اصلاحات خطا را برای این سیستم شبکه عصبی مورد بحث قرار می‌دهد. نتایج تجربی اولیه نشان می دهد که روش تصحیح خطای زاویه طراحی شده توسط ما می تواند به طور موثر موقعیت یابی را حدود 20٪ بهبود بخشد. این مقاله همچنین معماری‌های دیگر، اندازه‌های میدان، پارامترهای دوربین و اصلاحات خطا را برای این سیستم شبکه عصبی مورد بحث قرار می‌دهد. نتایج تجربی اولیه نشان می دهد که روش تصحیح خطای زاویه طراحی شده توسط ما می تواند به طور موثر موقعیت یابی را حدود 20٪ بهبود بخشد. این مقاله همچنین معماری‌های دیگر، اندازه‌های میدان، پارامترهای دوربین و اصلاحات خطا را برای این سیستم شبکه عصبی مورد بحث قرار می‌دهد. نتایج تجربی اولیه نشان می دهد که روش تصحیح خطای زاویه طراحی شده توسط ما می تواند به طور موثر موقعیت یابی را حدود 20٪ بهبود بخشد.

کلید واژه ها:

موقعیت یابی داخلی ؛ ثبت تصویر ; شبکه عصبی کانولوشنال ; یادگیری عمیق ؛ بینایی کامپیوتر

1. معرفی

1.1. زمینه

با توسعه سریع نقشه برداری و فناوری اطلاعات مکانی، توجه بیش از پیش به تحقیق و کاربرد موقعیت یابی معطوف شده است. در محیط های بیرونی، افراد می توانند اطلاعات دقیقی از موقعیت زمین از طریق سیستم های ماهواره ای ناوبری جهانی (GNSS) بدست آورند. ظهور GNSS همچنین منجر به خدمات راحت‌تر مبتنی بر مکان (LBS) شده است [ 1 ]] در بسیاری از زمینه ها، مانند سیستم های ناوبری ماهواره ای، سیستم های پارکینگ هوشمند و بررسی های مختلف زمین شناسی. اگرچه GNSS راحتی را برای زندگی مردم به ارمغان می آورد، اما زمانی که سیگنال ماهواره ای مبهم باشد، استفاده از GNSS نیز با شکست مواجه خواهد شد. به عنوان مثال، سیگنال ها به احتمال زیاد در داخل خانه یا زیرزمین گم می شوند. هنگامی که این سیگنال ها پنهان شوند، GNSS نمی تواند به ارائه خدمات موقعیت یابی ادامه دهد. بنابراین، مشکل تعیین نحوه محاسبه پیوسته یک مکان پس از شکست سیگنال ماهواره ای، فناوری موقعیت یابی داخلی را به یک موضوع تحقیقاتی محبوب تبدیل کرده است. موقعیت یابی داخلی به طور گسترده استفاده می شود و ارزش تجاری بالایی دارد. زمینه های کاربردی رایج شامل هدایت مسیر یک ایستگاه، تعاملات واقعیت افزوده (AR) در گالری های هنری، راهنماهای هوشمند در فروشگاه های بزرگ، و نظارت بر محموله در کارخانه ها. بنابراین، محققان بیشتر و بیشتری در مورد فناوری مربوط به موقعیت یابی داخلی بحث می کنند.

1.2. انگیزه

فناوری موقعیت یابی داخلی را می توان تقریباً به سه دسته تقسیم کرد: محاسبه مرده، موقعیت یابی سیگنال بی سیم و موقعیت یابی تصویر، اما دو مورد اول کاستی های خاص خود را دارند. پس از استفاده از محاسبه مرده برای مدتی، انتشار خطا به گسترش خود ادامه خواهد داد و در نتیجه دقت موقعیت یابی ضعیفی به همراه خواهد داشت. در یک فضای پیچیده در مقیاس بزرگ، دقت موقعیت سیگنال های بی سیم به دلیل عوامل ناپایدار مانند تداخل و انسداد رضایت بخش نیست. بنابراین، سومین فناوری موقعیت‌یابی تصویر در حال تبدیل شدن به کانون اصلی پژوهشی است. در زمینه بینایی کامپیوتر، چه برای فناوری دوربین های تک چشمی یا دوچشمی، کاربردهای یادگیری عمیق در مسائل موقعیت یابی به طور گسترده مورد بحث و بررسی قرار گرفته است. این تحقیق به معماری PoseNet [2]، پیشنهاد شده توسط الکس کندال و همکاران. هنگامی که کاربران از تلفن های همراه برای عکاسی یک تصویر استفاده می کنند، این معماری می تواند موقعیت و جهت تصویر را از طریق مدل آموزش دیده تخمین بزند. تلفن های همراه وسایلی هستند که به راحتی برای عموم قابل دسترسی هستند. این روش نه تنها جهانی بودن دستگاه را در نظر می گیرد، بلکه مشکلات تداخلی را که سایر مکان های سیگنال با آن مواجه خواهند شد، حذف می کند. علاوه بر این، این مقاله به موقعیت یابی با سایر برنامه های کاربردی یادگیری عمیق مربوط می شود. دقت این روش باعث حفظ عملکرد پایدار در محیط های سخت می شود. با این حال، طبق نتایج تحقیقات اولیه ما، دقت PoseNet در یک محیط داخلی پیچیده‌تر خوب نیست. سه دلیل برای این مشکل وجود دارد که انگیزه ما را نیز پشتیبانی می کند. اولین، این نوع محیط با تاکید ما بر موقعیت از تابع ضرر PoseNet ناسازگار است، بنابراین تابع ضرر باید به طور مناسب اصلاح شود. ثانیاً، نویسندگان تنها قسمت میانی تصویر آموزشی را برش دادند که منجر به از دست رفتن اطلاعات برای کل تصویر شد. در نهایت، اگر داده های تصویر آموزشی و تصویر موقعیت یابی واقعی از دوربین های مختلف باشد، ایجاد خطا بین پلتفرم های مختلف آسان است. تا آنجا که می دانیم، هیچ ادبیاتی وجود ندارد که خطاهای بین سکوهای تیراندازی مختلف را مورد بحث قرار دهد، بنابراین غلبه بر این مشکل یکی از انگیزه های این مقاله است. اگر داده های تصویر آموزشی و تصویر موقعیت یابی واقعی از دوربین های مختلف باشد، ایجاد خطا بین پلتفرم های مختلف آسان است. تا آنجا که می دانیم، هیچ ادبیاتی وجود ندارد که خطاهای بین سکوهای تیراندازی مختلف را مورد بحث قرار دهد، بنابراین غلبه بر این مشکل یکی از انگیزه های این مقاله است. اگر داده های تصویر آموزشی و تصویر موقعیت یابی واقعی از دوربین های مختلف باشد، ایجاد خطا بین پلتفرم های مختلف آسان است. تا آنجا که می دانیم، هیچ ادبیاتی وجود ندارد که خطاهای بین سکوهای تیراندازی مختلف را مورد بحث قرار دهد، بنابراین غلبه بر این مشکل یکی از انگیزه های این مقاله است.

1.3. مسئله

انسان ها به سرعت و به راحتی می توانند اجسام متحرک و ساختار سه بعدی صحنه ای را که از طریق چشمان خود می بینند تشخیص دهند و سپس موقعیت و جهت گیری آنها را محاسبه کنند. فناوری موقعیت یابی تصویر در فضای داخلی برای جایگزینی چشم انسان با لنز دوربین به عنوان مفهوم اصلی، برای شناسایی موقعیت افراد در یک فضای داخلی استفاده می شود. بنابراین، چگونگی تخمین دقیق موقعیت افراد در یک فضای داخلی یکی از مشکلاتی است که در حوزه بینایی کامپیوتر مورد بحث قرار می گیرد. در گذشته، بسیاری از مطالعات بر روی شبکه های عصبی عمیق، داده های بزرگ را مورد تحقیق قرار داده و دقت ویژگی ها را در تصاویر طبقه بندی پیش بینی کرده اند. علاوه بر این، این دقت نیز به بیش از 90٪ بهبود یافته است. در سال‌های اخیر، شبکه‌های عصبی عمیق برای پیش‌بینی دقت موقعیت مکانی مورد استفاده قرار گرفته‌اند. شبکه های عصبی عمیق به انواع مختلفی طبقه بندی می شوند، از جمله شبکه های عصبی کانولوشنال و بازگشتی. در زمینه تشخیص تصویر، شبکه عصبی کانولوشنال (CNN) بیشترین استفاده را دارد. CNN دو ویژگی دارد: ویژگی های محلی و اشتراک وزن. در پردازش تصویر و تشخیص ویدئو، یک CNN می تواند مقادیر مهم ویژگی را از تصاویر محلی از طریق فیلترها استخراج کند. اشتراک وزن می تواند پیچیدگی یک شبکه را در محاسبات تصویر برداری چند بعدی کاهش دهد. به منظور دستیابی به موقعیت مکانی بر اساس تصویر، مانند هنگام راه رفتن در داخل خانه ( در پردازش تصویر و تشخیص ویدئو، یک CNN می تواند مقادیر مهم ویژگی را از تصاویر محلی از طریق فیلترها استخراج کند. اشتراک وزن می تواند پیچیدگی یک شبکه را در محاسبات تصویر برداری چند بعدی کاهش دهد. به منظور دستیابی به موقعیت مکانی بر اساس تصویر، مانند هنگام راه رفتن در داخل خانه ( در پردازش تصویر و تشخیص ویدئو، یک CNN می تواند مقادیر مهم ویژگی را از تصاویر محلی از طریق فیلترها استخراج کند. اشتراک وزن می تواند پیچیدگی یک شبکه را در محاسبات تصویر برداری چند بعدی کاهش دهد. به منظور دستیابی به موقعیت مکانی بر اساس تصویر، مانند هنگام راه رفتن در داخل خانه (شکل 1 )، کاربر می تواند تصویری را در جهت خاصی بگیرد، مقدار ویژگی تصویر را از طریق CNN استخراج کند و در نهایت موقعیت کاربر را در آن زمان محاسبه کند. هدف ما پیش‌بینی دقیق این موقعیت است. بنابراین، این تحقیق به PoseNet اشاره دارد که به بهترین وجه نیازهای موقعیتی ما را برآورده می‌کند، در حالی که معماری یادگیری عمیق برای بررسی مقیاس‌بندی تصویر، تلفن‌های همراه شبیه‌سازی شده با دوربین و تصحیح خطا تنظیم شده است.

1.4. مشارکت ها

  • برنامه ریزی مجدد یک معماری 23 لایه CNN که برای محیط های داخلی مناسب تر است، تنظیم عملکرد کاهش وزن و تمرکز بر پیش بینی دقیق موقعیت داخلی.
  • قبل از مرحله آموزش، اندازه تصویر تغییر می کند تا کل تصویر به عنوان مقدار ورودی CNN حفظ شود.
  • در برنامه های کاربردی موقعیت یابی داخلی، بیشتر تصاویر داخلی از دوربین های روی پلت فرم های مختلف می آیند. تصحیح خطای زاویه نتایج پیش‌بینی موقعیت ابتدا بین پلتفرم‌های مختلف مورد بحث قرار می‌گیرد.
  • یک پلت فرم کارتوگرافی متحرک با یک سیستم موقعیت یابی و یک سیستم نقشه برداری برای جمع آوری مجموعه داده ای از پارکینگ زیرزمینی و موزه کاخ جنوبی شامل اطلاعات تصویر و موقعیت جغرافیایی استفاده می شود که می تواند برای تحقیقات مرتبط در آینده مورد استفاده قرار گیرد.
  • نتایج تجربی اولیه تغییر اندازه تصویر نشان می‌دهد که روش پیشنهادی می‌تواند به طور موثری دقت موقعیت‌یابی داخلی را حدود 20 تا 30 درصد بهبود بخشد. پس از تغییر عملکرد از دست دادن، دقت موقعیت داخلی را می توان حدود 80٪ تا 90٪ بهبود بخشید. نتایج تجربی اولیه نشان می‌دهد که روش تصحیح خطای ما می‌تواند به طور موثری دقت موقعیت‌یابی داخلی را تا حدود 20 درصد بهبود بخشد.

2. کارهای مرتبط

این بخش به بررسی برخی از مطالعات مهم مرتبط با مسائل موقعیت یابی می پردازد. تمام کارهای مرتبط را می توان به سه بخش شامل موقعیت یابی داخلی، موقعیت یابی تصویر و شبکه های عصبی کانولوشنال تقسیم کرد.

2.1. موقعیت یابی داخلی

محاسبه مرده، موقعیت یابی سیگنال بی سیم، و موقعیت یابی تصویر از فناوری های رایج موقعیت یابی داخلی هستند. اولین مورد مبتنی بر فناوری واحد اندازه گیری اینرسی (IMU) است. لی و همکاران [ 3 ] از دستگاه های تلفن همراه دستی برای موقعیت یابی داخل ساختمان استفاده می کرد. در این فرآیند ابتدا اندازه گام و زاویه آزیموت با توجه به مسیر کاربر تخمین زده می شود. سپس از الگوریتم فیلتر ذرات استفاده می شود و صفحه اضافه می شود. به این ترتیب برآورد اولیه تصحیح می شود و موقعیت نهایی به دست می آید. فیلتر ذرات یک تخمین بیزی ناپارامتری است که اغلب در ردیابی پویا و دید کامپیوتری برای محاسبه موقعیت لحظه بعدی استفاده می شود. لان و همکاران [ 4] یک سیستم موقعیت یابی داخلی را با استفاده از حسگرها در دستگاه های تلفن همراه دستی برای جمع آوری اطلاعات موجود پیشنهاد کرد. آنها موقعیت یابی داخلی را در پارکینگ ها اعمال کردند و از سیستم محاسبه مردگان عابر پیاده (PDR) برای ردیابی مسیر حرکت کاربر استفاده می کنند تا تشخیص دهند که کاربر چه زمانی فضای پارک را ترک می کند، بنابراین کاربر بعدی می تواند از دستگاه تلفن همراه دستی برای دریافت خدمات مکان یابی استفاده کند. استعلام فضای پارکینگ بر اساس PDR، آنها مغناطیس‌سنج‌ها را رها می‌کنند و از شتاب‌سنج‌ها و ژیروسکوپ‌ها فقط برای تشخیص سرعت کاربر و محاسبه اندازه گام و آزیموت کاربر استفاده می‌کنند. علاوه بر این، آنها همچنین خطاهای جهت گیری ناشی از استفاده از ژیروسکوپ را برای به دست آوردن آزیموت کالیبره می کنند.
دومین نوع رایج موقعیت یابی سیگنال بی سیم شامل مادون قرمز، WiFi و بلوتوث است. این روش محاسبه شامل موقعیت یابی مجاورت، روش تقاطع و تطبیق ویژگی است. موقعیت یابی مجاورتی معمولاً از یک دستگاه کم انرژی بلوتوث (BLE) به عنوان فرستنده سیگنال استفاده می کند و سیگنال تشخیص را به دستگاه تلفن همراه دستی نزدیک منتقل می کند. روش تقاطع از اطلاعات به دست آمده از فاصله بین فرستنده سیگنال با چند مختصات شناخته شده و سنسورهای دیگر استفاده می کند و سپس از مفهوم روش برداشتن برای به دست آوردن مختصات حسگر مورد نظر استفاده می کند. تطبیق ویژگی ها که به عنوان فناوری اثر انگشت نیز شناخته می شود، عمدتاً به دو مرحله تقسیم می شود. مرحله اول داده های آموزشی را تولید می کند. ابتدا شدت سیگنال موقعیت چند فرستنده سیگنال را در یک فضای داخلی اندازه گیری می کند و سپس شدت سیگنال دریافتی و علامت مکان فرستنده را برای تکمیل نقشه رادیویی ثبت می کند. مرحله دوم، مکان یابی حسگر مورد نیاز برای اندازه گیری موقعیت نقطه است، یعنی پس از اندازه گیری شدت سیگنال سنسور، نتایج را با نقشه ویژگی مرحله اول مقایسه کرده و در نهایت موقعیت سنسور را بدست آوریم. . گروسمن و همکاران [ و در نهایت موقعیت سنسور را بدست آوریم. گروسمن و همکاران [ و در نهایت موقعیت سنسور را بدست آوریم. گروسمن و همکاران [5 ] یک نقطه دسترسی (AP) برای شبکه های محلی بی سیم (WLAN) در سالن نمایشگاه یک موزه راه اندازی کرد و از شاخص قدرت سیگنال دریافتی (RSSI) برای به دست آوردن اطلاعات موقعیت استفاده کرد. سبحان و همکاران [ 6] موقعیت سیستم موقعیت یابی داخلی را بر اساس بلوتوث با استفاده از مقایسه ویژگی تخمین زد. دقت سیستم موقعیت یابی داخلی تا حد زیادی به پارامترهای تراز و نتایج اندازه گیری محیط اطراف بستگی دارد. نویسندگان اشاره کردند که عوامل محیطی خارجی شامل دما، انعکاس سیگنال و تداخل مانع است. همه این عوامل بر تطابق ویژگی و کاهش دقت تأثیر می گذارد. بنابراین، قبل از به دست آوردن نتایج انگشت نگاری، نویسندگان روشی را برای اندازه گیری سیگنال های بی سیم پیشنهاد کردند که مدل استاندارد انتشار رادیویی نامیده می شود و از این روش برای تخمین فاصله واقعی بین بلوتوث و دستگاه ها استفاده کردند. پس از آن، روش متقاطع تریلاتاسیون برای به دست آوردن مختصات موقعیت استفاده شد.
سومین فناوری موقعیت یابی تصویر مبتنی بر فتوگرامتری است. رابطه نسبی بین نقاط کنترل دوربین و تصویر از طریق نقاط کنترل داخلی محاسبه می شود. موقعیت دوربین با اصول هندسی محاسبه می شود. فناوری موقعیت یابی تصویر تحت تأثیر عوامل محیطی مانند دما یا سیگنال بی سیم قرار نمی گیرد. علاوه بر این، موقعیت یابی بلوتوث نیاز به نصب برخی فرستنده های سیگنال در محیط اطراف دارد. در پاسخ به برخی از محیط های داخلی، این دستگاه قابل نصب نیست. از این رو، موقعیت یابی تصویر محور اصلی این مطالعه را فراهم می کند. فناوری موقعیت یابی تصویر به تفصیل در بخش 2.2 توضیح داده خواهد شد .

2.2. موقعیت یابی تصویر

مشکل موقعیت یابی تصویر را می توان به دو روش حل کرد: فناوری موقعیت یابی تطبیق ویژگی ها و فناوری موقعیت یابی یادگیری ماشین. مکان‌یابی و نقشه‌برداری همزمان (SLAM)، تبدیل ویژگی ثابت مقیاس (SIFT)، ساختار از حرکت (SfM)، و سایر روش‌های رایج فناوری موقعیت‌یابی تطبیق ویژگی استفاده می‌شود. SLAM با جمع‌آوری مکرر ویژگی‌های نقشه در طول فرآیند حرکت موقعیت و موقعیت را تعیین می‌کند و سپس یک تصویر را با توجه به موقعیت خود می‌سازد و مکان‌یابی می‌کند. نقشه های افزایشی برای دستیابی به مکان واقعی و ساخت نقشه استفاده می شود. انگل و همکاران [ 7] یک الگوریتم SLAM تک چشمی مستقیم (بدون ویژگی) را پیشنهاد کرد که امکان ساخت مقیاس بزرگ نقشه های محیطی را فراهم می کند. بر اساس تخمین نگرش با دقت بالا بر اساس تراز تصویر، نویسندگان یک فضای محیطی سه بعدی را به یک نقشه نگرش با عمق نیمه متراکم بازسازی کردند. با این حال، SLAM باید با تشخیص نور و محدوده (LiDAR) و تصاویر اداره شود. در سطح برنامه، دستگاه های تلفن همراه تقریباً همه کاربران فاقد عناصر LiDAR هستند که با هدف تعیین موقعیت داخلی توسط دستگاه های تلفن همراه مطابقت ندارد. بنابراین، این مقاله از فناوری SLAM برای اکتشاف و آزمایش استفاده نمی کند. SIFT برای شناسایی و توصیف ویژگی های محلی در تصاویر استفاده می شود. SIFT عمدتاً در بینایی ماشین با استفاده از ابزارهای بینایی حسی استفاده می شود. نقاط کلیدی را در فضای مقیاس جستجو می کند و اطلاعاتی مانند موقعیت، مقیاس و متغیرهای چرخش را به عنوان نقاط SIFT مانند استخراج می کند. این نقاط SIFT مانند را می توان برای تطبیق ویژگی استفاده کرد، و برخی از مقالات این مشکل موقعیت یابی را بر اساس تطبیق ویژگی مورد بحث قرار دادند. لیانگ و همکاران [8 ] و هائو و همکاران. [ 9 ] از SIFT برای تطبیق ویژگی های نقشه و اطلاعات مکان استفاده کرد، اما نقطه ضعف SIFT این است که به پایگاه های داده ویژگی های زیادی و غربالگری موثر نقاط SIFT مانند نیاز دارد. این حجم عظیم محاسبات، دستیابی به کاربردهای بلادرنگ را برای سرویس‌های مکان داخلی دشوار می‌کند.
SfM صحنه ها را از طریق حرکت سه بعدی بازسازی شده نشان می دهد. آگاروال و همکاران [ 10 ]، اسناولی و همکاران. [ 11 ]، وو و همکاران. [ 12 ] و کندال و همکاران. [ 2] از الگوریتم‌های ساختار بازیابی حرکت برای جمع‌آوری وضعیت‌های تصویر (یعنی موقعیت‌ها و جهت‌ها) استفاده کرد. افراد می توانند از تصاویر دوبعدی پیوسته در مغز منطبق را بیابند و از آنها برای یافتن اطلاعات سه بعدی روی اجسام متحرک استفاده کنند. Matching از نقطه مربوطه بر اساس تفاوت بین نقاط تطبیق استفاده می کند. بنابراین می توان اطلاعات عمق مربوطه را به دست آورد. SfM اطلاعات سه بعدی را از تصاویر دوبعدی سری زمانی بدون ورودی هیچ پارامتر دوربین به دست می آورد. پارامترهای دوربین را می توان با تطبیق ویژگی های بین تصاویر دو بعدی استنباط کرد. با ایجاد رابطه متناظر بین مجموعه ای از ویژگی ها و مختصات سه بعدی آنها، می توان نگرش کامل دوربین 6-DoF تصویر مربوطه را به دست آورد. SfM همان معایب SIFT را دارد: هر دو نیاز به زمان طولانی اجرا دارند. در سطح کاربرد عملی،
یادگیری ماشینی شامل تئوری های زیادی مانند درخت تصمیم، جنگل تصادفی، یادگیری عمیق و غیره است. J. Shotton و همکاران. [ 13] از مختصات صحنه برای تغییر موقعیت داده های برگشتی بر اساس تصاویر RGB-D استفاده کرد. نویسندگان از مختصات صحنه تصویر با اطلاعات عمق استفاده کردند. این روش اطلاعات مختصات تصاویر عمق را از دوربین به کل منطقه تبدیل می کند و سپس این مختصات را برای آموزش مدل جنگل رگرسیون وارد می کند. سپس رگرسیون را برای مکان یابی دوربین مدل می کنند. علاوه بر این، این روش مدل جنگل تصادفی را برای پیش‌بینی موقعیت پیکسل‌ها در تصویر آموزش می‌دهد و با ایجاد تطابق 2 بعدی-3 بعدی به جای موقعیت‌یابی نسبی، نگرش دوربین را تخمین می‌زند. یادگیری عمیق انواع بسیاری از شبکه‌های عصبی مصنوعی (ANN) را مانند شبکه عصبی کانولوشنال (CNN)، شبکه عصبی بازگشتی (RNN) و غیره تقسیم می‌کند. برای تشخیص تصویر، CNN پرمخاطب ترین فناوری است. در حال حاضر، فناوری‌های بیشتری وجود دارد که می‌توانند مدل CNN را در دستگاه‌های تلفن همراه اعمال کنند و عملکرد شناسایی بلادرنگ را پیاده‌سازی کنند. یک مدل CNN که به آموزش زمان قابل توجهی نیاز دارد، می تواند به صورت آفلاین مستقر شود. کاربران تنها از مدل‌های CNN مستقر در دستگاه‌های تلفن همراه برای اهداف موقعیت‌یابی استفاده می‌کنند که مشکلات فنی فوق‌الذکر، از جمله فقدان LiDAR و محاسبات طولانی را حل می‌کند. بخش بعدی فناوری موقعیت یابی مبتنی بر CNN را به طور مفصل مورد بحث قرار خواهد داد.

2.3. شبکه عصبی کانولوشنال

یک شبکه عصبی کانولوشنال یا CNN [ 14 ]، یک الگوریتم شناسایی تصویر موثر و مفید است که به طور گسترده در تشخیص الگو، تشخیص اشیا و موقعیت‌یابی تصویر استفاده می‌شود. CNN دارای سه نقطه قوت در پردازش تصویر است: (1) می تواند مقادیر ویژگی های با وضوح بالا را از مناطق محلی از طریق فیلترها استخراج کند. (2) ساختار تقسیم وزن آن می تواند پارامترهای آموزشی را کاهش دهد، بنابراین پیچیدگی شبکه را کاهش می دهد. (3) هر دو اجازه می دهند استخراج و طبقه بندی پیش بینی به طور همزمان اجرا شود. مدل های CNN، مانند AlexNet، GoogLeNet [ 15 ]، و شبکه باقیمانده (ResNet) [ 16 ]]، همه معماری های شبکه شناخته شده در زمینه تشخیص تصویر هستند. AlexNet قهرمان مسابقه ImageNet ILSVRC در سال 2012 بود و همچنین مدلی است که توجه CNN را به خود جلب کرده است. GoogLeNet برنده مسابقه طبقه بندی ILSVRC در سال 2014 بود. Szegedy et al. از یک ماژول اولیه برای کاهش پارامترهای آموزشی استفاده کرد که در بخش 4.3.2 به تفصیل توضیح داده خواهد شد. ResNet قهرمان مسابقات ILSVRC در سال 2015 بود. او و همکاران. دریافتند که اگر تعداد لایه‌های شبکه به تعداد معینی برسد، دقت آموزش شروع به کاهش می‌کند، یعنی اگر شبکه بیش از حد عمیق باشد، آموزش آن دشوار می‌شود. نویسندگان یک شبکه باقیمانده را برای بهبود مشکل ناپدید شدن گرادیان در فرآیند آموزش طراحی کردند، که از طریق آن مقدار ورودی را می توان به مقدار خروجی تقریب زد، که تا حد زیادی میزان خطای آموزش را کاهش می دهد. در این بخش، موقعیت‌یابی مبتنی بر CNN برای دو هدف مورد بحث قرار می‌گیرد: تخمین عمق برای تولید نقشه‌های عمق و تخمین موقعیت رگرسیون. نقشه عمق یک تصویر دو بعدی است و هر پیکسل روی تصویر فاصله بیننده تا سطح جسم را ثبت می کند. در اینجا، شی به شیء ایجاد شده توسط یک سایه اشاره دارد. گدار و همکاران [17 ] مدل متفاوتی را پیشنهاد کرد و نشان داد که به داده‌های عمقی نیازی نیست، اما نقشه‌های عمق مصنوعی مستقیماً به عنوان مقادیر میانی آموزش داده می‌شوند. علاوه بر این، این مدل از تخمین عمق تک چشمی بدون نظارت استفاده می کند که هدف آن تخمین تصاویر استریو دوچشمی با استفاده از یک تصویر واحد است. این روش یک مقدار تلفات آموزشی جدید برای بازسازی تصویر ارائه می‌کند، که می‌تواند ثبات چپ-راست را در شبکه عصبی افزایش دهد و در نهایت نقشه‌های عمق اختلاف را ایجاد کند. ژو و همکاران [ 18] یک مدل یادگیری بدون نظارت پیشنهاد کرد که از تصاویر پیوسته برای تخمین حرکت خود و بازسازی صحنه استفاده می کند. این مدل ها از یک شبکه عمق تصویر واحد و یک شبکه نگرش چند تصویری استفاده می کنند. تابع از دست دادن تلفات بین تصویر و هدف را از عمق و نگرش تخمینی محاسبه می‌کند و در نهایت نقشه عمق پیش‌بینی‌شده یک تصویر را ایجاد می‌کند.
همچنین مطالعاتی در مورد موقعیت یابی در ترکیب با انواع فناوری های موقعیت یابی داخلی انجام شده است. اشرف و همکاران [ 19 ] داده های حسگر تلفن همراه را با CNN برای پیش بینی موقعیت فعلی عابران پیاده با هدف کاهش وابستگی دستگاه ها به سیستم موقعیت یابی میدان مغناطیسی ترکیب کرد. در ابتدا، یک مدل CNN برای تشخیص صحنه های داخلی آموزش داده شد که به شناسایی طبقات خاص و کاهش فضای جستجو کمک کرد. سپس یک K نزدیکترین همسایه (mKNN) اصلاح شده برای محاسبه موقعیت فعلی عابر پیاده به عنوان نقطه شروع PDR پیشنهاد شد. سپس فیلتر کالمن توسعه یافته (EKF) از موقعیت PDR و پایگاه داده پیاده سازی شد و موقعیت نهایی به دست آمد. کانگ و همکاران [ 20] یک معماری جدید برای بهبود عملکرد PDR پیشنهاد کرد. یک قاب سیگنال قطعه‌بندی شده برای تعیین سرعت عابر پیاده برای CNN و RNN استفاده شد و فاصله پیاده‌روی با محاسبه سرعت و زمان حرکت تخمین زده شد. وانگ و همکاران [ 21 ] اطلاعات وضعیت کانال (CSI) را از WiFi به عنوان ورودی CNN عمیق برای پیش بینی موقعیت دستگاه های تلفن همراه استخراج کرد. میتال و همکاران [ 22 ] همچنین از داده‌های WiFi استفاده می‌کرد. آنها روشی را برای تبدیل امضاهای وای فای به تصاویر پیشنهاد کردند تا یک CNN با چارچوب تشخیص اثر انگشت توسعه‌یافته بسازند. نیتسو و همکاران [ 23 ] و برگار و همکاران. [ 24] از آخرین سیگنال بی سیم فوق پهن باند (UWB) استفاده کرد. آنها یک چارچوب CNN برای تخمین موقعیت مطلق برچسب ها با یادگیری داده های پاسخ ضربه ای کانال (CIR) پیشنهاد کردند.
کندال و همکاران به منظور پسرفت دقیق وضعیت یک دوربین تک چشمی. [ 2 ] در سال 2015 از یک مدل CNN به نام PoseNet برای پسرفت تخمین پوز استفاده کرد. آنها از الگوریتم SfM طراحی شده توسط Furukawa و همکاران استفاده می کنند. [ 25 ] برای به دست آوردن اطلاعات موقعیت مورد نیاز. در طول مرحله آموزش، نویسندگان 455 × 256 پیکسل را برای تصاویر رنگی مقیاس کردند و مرکز را به 224 × 224 پیکسل برش دادند. سپس نویسندگان پیکسل های مقیاس شده را برای آموزش وارد مدل می کنند. تزهای پیشنهاد شده توسط Bengio و همکاران. [ 26 ]، Oquab و همکاران. [ 27 ]، و رضویان و همکاران. [ 28] امکان سنجی انتقال یادگیری را نشان داده اند. کندال و همکاران وزن سایر مدل ها را قبل از آموزش مبتنی بر یادگیری انتقالی یاد گرفت. یادگیری انتقال نشان می‌دهد که بارگذاری یک مدل پیش‌آموزشی می‌تواند همگرایی فرآیندهای آموزشی را تسریع کند و به شبکه‌های عصبی کمک کند تا ویژگی‌های محلی را به سرعت یاد بگیرند. این مدل همچنین می تواند در مجموعه داده بدون برازش بیش از حد اعمال شود. در نهایت، مدل آموزشی برای دستیابی به موقعیت‌یابی دوربین، یک بردار حالت ۷ بعدی را پس‌رفت می‌کند. کندال و همکاران [ 29 ] از CNN بیزی برای تخمین عدم قطعیت مدل برای سال بعد، برای تشخیص حضور صحنه ها در تصویر ورودی، و برای بهبود دقت موقعیت یابی مجموعه داده های فضای باز در مقیاس بزرگ استفاده کرد. کندال و همکاران [ 30] تابع ضرر جهت گیری تخمین PoseNet را در سال 2017 برای بهبود عملکرد مدل تنظیم کرد. والچ و همکاران [ 31] یک معماری جدید بر اساس مدل PoseNet ارائه کرد که CNN را با حافظه کوتاه مدت بلند مدت (LSTM) ترکیب می کند. LSTM نوعی شبکه عصبی است که برای پردازش داده های متوالی استفاده می شود. مزیت این مدل این است که می تواند وزن لایه های قبلی را حفظ کند تا اطمینان حاصل شود که ویژگی های مفید در طول تمرین از بین نمی رود. شهود نویسندگان این است که PoseNet یک ژست را از ابعاد بالا تخمین می زند، بنابراین استفاده از یک لایه متصل کامل انتخاب خوبی نیست. ابعاد بالای خروجی اتصال کامل ممکن است منجر به برازش بیش از حد در طول آموزش شود، بنابراین نویسندگان LSTM را پس از اتصال کامل برای کاهش ابعاد ساختاری و انتخاب ویژگی‌های مفید برای تخمین پوز طراحی کردند. PoseNet کاملاً برای مکان های داخلی مناسب نیست. اگرچه کندال و همکاران. به روز رسانی این مدل ادامه داده اند، زیرا تمرکز این تحقیق بر دقت موقعیت یابی است، تنظیم تابع ضرر داخلی اجتناب ناپذیر است. علاوه بر این، PoseNet در رابطه با مسائل خطای موقعیت اندازه‌های مختلف تصویر، اندازه‌های میدان، پلتفرم‌های متقابل و غیره مورد بحث قرار نگرفته است. بنابراین، این مقاله این عوامل را به طور عمیق مورد بحث قرار می‌دهد.

3. بیان مشکل

به منظور تبیین واضح مشکلات و اهداف این مطالعه، برخی از اصطلاحات استفاده شده در این مقاله باید به طور رسمی تعریف شوند. سپس، بیان مشکل در این بخش خلاصه می شود. جدول 1 نمادهای استفاده شده در این مقاله را خلاصه می کند.

تعریف  1.

یک داده پارامتر D یک داده را نشان می دهد و این مبنا شامل مجموعه ای از N × M پیکسل از اطلاعات تصویر RGB است. این داده را می توان به داده های تاریخی و داده های آینده تقسیم کرد. داده های تاریخی نوعی داده است که از داده های شناخته شده تشکیل شده است که در آموزش نمونه های مورد نیاز برای یادگیری مدل استفاده می شود. داده های تاریخی دساعت={من، پv} شامل بردار موقعیت سه بعدی مشاهده شده خواهد بود پv. از سوی دیگر، داده‌های آینده یک نوع داده با داده‌های ناشناخته هستند که در نمونه‌های آزمایشی مورد نیاز برای پیش‌بینی مدل استفاده می‌شوند. برای داده های آینده دf={من، nتولل}، پv ارزش ناشناخته است بردار موقعیت پvدر مدل CNN ارزیابی خواهد شد.

تعریف  2.

مجموعه داده یک دستگاه دوربین. ما از یک دستگاه دوربین برای جمع آوری یک یا چند داده مسیر استفاده می کنیم D={دo، د1، د2،…، دn}با اطلاعات تصویر داده های مسیر به داده های تاریخی (نمونه های آموزشی) و داده های آینده (نمونه های آزمایشی) تقسیم می شوند. نمونه های آزمایشی باید توسط نمونه های آموزشی پوشانده شوند تا مدل CNN بتواند به طور موثر بردار موقعیت را پیش بینی کند پvاز داده های آینده شکل 2 مجموعه ای از داده ها را نشان می دهد که شامل یک مجموعه داده است. هر دستگاه دوربین دارای یک مجموعه داده است.

تعریف  3.

یک صحنه. یک صحنه اس={D1، D2، D3، …، Dn}می تواند از یک یا چند مجموعه داده تشکیل شود. شکل 3 نمونه ای از سناریویی را نشان می دهد که در آن دستگاه های دوربین زیادی وجود دارد.
هدف پژوهش. این تحقیق بر پیش بینی موقعیت دوربین تمرکز دارد. منو پvدر مجموعه داده دساعتبه عنوان مقادیر ورودی استفاده خواهد شد و CNN مدل را آموزش خواهد داد. در نهایت از مدل برای پیش بینی بردار موقعیت استفاده خواهد شد پvاز هر دf. به حداقل رساندن میانه خطای موقعیت پیش بینی شده (m) هدف اصلی این مطالعه است. علاوه بر این، بسیاری از نمونه‌های آزمایشی پیش‌بینی می‌شوند و تمام خطاهای این نمونه‌ها برای ارزیابی خطاهای میانه با توجه به موقعیت دقیق زمین مجموعه داده جمع‌آوری می‌شوند. این تحقیق همچنین سعی دارد از دستگاه‌های دوربین مختلف (مجموعه داده‌ها) به عنوان نمونه‌های آموزشی و آزمایشی در یک سناریو برای دستیابی به موقعیت‌یابی دوربین بین پلتفرمی استفاده کند.

4. روش شناسی

این بخش روش پیشنهادی را برای مدل یادگیری عمیق برای پسرفت موقعیت دوربین در صحنه داخلی معرفی می کند.

4.1. چارچوب

مراحل و فرآیندهای معماری کلی در شکل 4 نشان داده شده است. بر اساس مدل PoseNet، یک شبکه عصبی کانولوشن (CNN) برای موقعیت یابی داخلی طراحی شده است. علاوه بر این، ما محدوده مدل‌های اصلی CNN را برای جمع‌آوری داده‌های داخلی، تنظیم و آموزش، و همچنین تصحیح خطا بین پارامترهای مختلف دوربین مورد بحث قرار می‌دهیم. داده های داخلی عمدتاً از یک پلت فرم کارتوگرافی متحرک برای جمع آوری تصویر و اطلاعات موقعیت مورد نیاز مدل استفاده می کنند. قبل از عملیات واقعی، تصویر جمع آوری شده توسط پلت فرم کارتوگرافی موبایل به عنوان تصویر تلفن همراه شبیه سازی می شود. ساختار و عملکرد از دست دادن مدل CNN تنظیم شده است، و اندازه تصویرهای مختلف مطابق با مدل های قبل از آموزش قبل از مرحله آموزش طراحی شده است. علاوه بر این، این مطالعه همچنین یک الگوریتم تصحیح خطای زاویه را برای تصحیح خطاهای موقعیت بین پلتفرم های مختلف دوربین طراحی می کند.

4.2. آماده سازی داده ها

مقاله ما یادگیری تحت نظارت را اتخاذ می کند، که به داده ها و برچسب های موقعیت دقیق زمین مربوطه نیاز دارد. در مسئله موقعیت از تشخیص موقعیت تصویر با مختصات جغرافیایی استفاده می شود. در سال‌های اخیر، بسیاری از مجموعه داده‌ها در پردازش تصویر برای مقابله با طبقه‌بندی یا موقعیت‌یابی صحنه در فضای باز استفاده شده‌اند. برای مجموعه داده‌های مورد استفاده در محیط‌های داخلی، بیشتر فضاهایی به اندازه اتاق دارند. برای آزمایش با مناطق خاص، داده ها باید به طور مستقل جمع آوری شوند. به منظور مقابله با مقاصد در مقیاس بزرگ و دراز مدت، پلت فرم کارتوگرافی سیار داخلی برای جمع آوری داده های صحنه داخلی استفاده می شود. این پلتفرم کارتوگرافی سیار توسط پروژه توسعه پلتفرم موبایل بر روی فناوری نقشه برداری و نقشه برداری ارائه شده است [ 32]. پلت فرم کارتوگرافی متحرک یک گاری ماشین آلات کشاورزی برقی با دو ابزار دقیق است. همانطور که در نشان داده شده است شکل 5 نشان داده شده است، این سکو مجهز به کلید برقی برای کنترل حرکت رو به جلو یا عقب آن است. علاوه بر این، این پلت فرم دارای یک دستگاه ترمز خودکار است که می تواند به طور خودکار عملکرد ترمز را حتی در صورت ساکن بودن سکو در شیب بدون ایجاد خطر، شروع کند. از آنجایی که این پلت فرم برای کنترل جهت نیاز به عملیات دستی دارد، جمع آوری مجموعه داده به زمان قابل توجهی نیاز دارد. ابزارهای دقیقی بر روی پلت فرم مجهز شده اند تا داده های مورد نیاز برای آزمایش را جمع آوری کنند. ابزار دقیق به سیستم موقعیت یابی و سیستم نقشه برداری تقسیم می شوند. سیستم موقعیت یابی از INAV-RQH-10018-IMAR، شامل گیرنده ماهواره ای GNSS و ابزار اندازه گیری اینرسی IMU استفاده می کند. سیگنال‌های GNSS در فضای باز شناسایی می‌شوند و سپس پلتفرم به داخل خانه فشار داده می‌شود تا اطلاعات موقعیت و اطلاعات تصویر جمع‌آوری شود. اطلاعات موقعیت توسط نرم افزار PointerMMS که توسط شرکت کننده در پروژه توسعه پلت فرم تلفن همراه بر روی فناوری نقشه برداری و نقشه برداری توسعه یافته است، پردازش می شود. با توجه به نتایج آزمایش در سال 2015، دقت کمتر از 1 متر در 5 دقیقه است. سیستم نقشه برداری از دوربین LadyBug5 استفاده می کند. این دوربین مجهز به لنزهای شش زاویه برای گرفتن عکس به صورت همزمان و تشکیل خروجی تصویر پانوراما است. با توجه به جهانی بودن زندگی و استفاده از فناوری موقعیت یابی داخلی، پانورامای ثبت شده توسط دوربین LadyBug5 برای تصاویر با پارامترهای مختلف تلفن همراه از قبل پردازش و شبیه سازی شده است. برای توضیح بیشتر، پانوراما توسط یک برنامه به یک هواپیما متصل می شود و تصاویر گرفته شده در جهت های مختلف برای سه زاویه شبیه سازی می شوند. سه زاویه، انحراف، گام، و رول، جهت گیری مطلق تصویر را نشان می دهد. برای سادگی، این مقاله از قراردادهای معمولی برای این زوایا استفاده نمی کند. در عوض، از قراردادهای “قابل خواندن آسان توسط انسان” استفاده می کند:
  • Yaw به عنوان زاویه بین محور نوری دوربین و جهت شرقی تعریف می شود. اگر تصویر شبیه سازی شده به سمت شرق “نگاه” داشته باشد، دارای انحراف 0 درجه است. اگر تصویر در جهت شمال باشد، دارای انحراف 90 درجه است.
  • Pitch به عنوان زاویه بین محور نوری و صفحه افقی تعریف می شود که وقتی تصویر شبیه سازی شده به سمت بالا “نگاه می کند” مثبت تعریف می شود.
  • رول به عنوان چرخش تصویر حول محور نوری تعریف می شود. هنگامی که دوربین به سمت چپ متمایل می شود، مثبت است.
هر دوربین فاصله کانونی و اندازه تصویر متفاوتی دارد. در این مقاله، از این دو پارامتر برای شبیه‌سازی دوربین‌های مختلف استفاده می‌شود، جایی که اندازه تصویر نشان‌دهنده عرض و ارتفاع یک تصویر برش‌خورده در پانوراما است که می‌توان از آن برای تعیین وسعت دید استفاده کرد. به طور خلاصه، این تصاویر شبیه سازی شده تلفن همراه، همگی اطلاعات موقعیت مرجع جغرافیایی خود را دارند.

4.3. آموزش مدل CNN

این بخش مدل CNN را بر اساس موقعیت دوربین معرفی می‌کند و نحوه تنظیم مجدد معماری یک CNN 23 لایه را به طور مفصل توضیح می‌دهد تا مدل بتواند عملکردهای جدید کاهش را برای به‌روزرسانی وزن و در نهایت خروجی بردار موقعیت یاد بگیرد. سه بخش زیر موقعیت‌یابی دوربین، معماری CNN و عملکرد از دست دادن را توضیح می‌دهد.

4.3.1. موقعیت یابی دوربین

موقعیت یابی دوربین بر اساس رابطه نسبی بین نقاط کنترل تصویر و دوربین ها است و از اصل هندسی برای محاسبه موقعیت دوربین ها استفاده می شود. علاوه بر به دست آوردن تصاویر خوب و اطلاعات مختصات موقعیت دقیق، نحوه استخراج ویژگی های مهم از یک تصویر و نحوه رگرسیون دقت موقعیت یابی نزدیک به موقعیت دقیق زمین، مهمترین هدف این مقاله برای موقعیت یابی داخلی بر اساس CNN است. این مدل به معماری PoseNet اشاره دارد و تنظیمات جزئی در آن انجام دهید تا موقعیت دوربین را مستقیماً از روی مدل آموزش تصویر محاسبه کنید. سپس، شبکه عصبی متحرک بردارهای موقعیت (یعنی اطلاعات موقعیت سه بعدی) را همانطور که در فرمول (1) نشان داده شده است، خروجی می دهد:

P = [x، y، z]
4.3.2. معماری CNN
معماری PoseNet همچنین به CNN 22 لایه GoogLeNet اشاره دارد [ 15 ]]، که یک مدل طبقه بندی است و قبلاً قهرمان چالش شبکه داده بزرگ ImageNet (ILSVRC14) بود. اگرچه این CNN دارای ساختار شبکه عمیق ۲۲ لایه است، اما اندازه پارامترهای آن بسیار کوچکتر از سایر شبکه‌های با لایه‌های کمتر (مانند گروه هندسه بصری (VGG) یا شبکه‌های AlexNet) است. به منظور افزایش تعداد لایه ها و کاهش تعداد پارامترها، فقط می توان از اتصالات پراکنده استفاده کرد، اما اکثر الگوریتم ها بر اساس یک ماتریس متراکم هستند. بنابراین، برای دستیابی به عملکرد محاسباتی بالا، فقط می توان انباشته شدن نورون ها در مغز انسان را شبیه سازی کرد و ماتریس پراکنده را می توان در ماتریس متراکم برای رسیدن به این هدف جمع کرد. GoogLeNet ساختار شبکه ای به نام “ماژول های آغازین” را برای ایجاد یک ساختار شبکه پراکنده و بسیار محاسباتی پیشنهاد می کند. این ماژول های Inception فیلترها را در لایه کانولوشن گروه بندی می کنند. یعنی در یک لایه از فیلترهایی با مقیاس های مختلف برای به دست آوردن مقادیر ویژه بهتر و مفیدتر استفاده می شود. کندال و همکاران کارایی معماری AlexNet و GoogLeNet را مقایسه کرد و در نهایت در مورد معماری GoogLeNet تصمیم گرفت.شکل 6 معماری اصلاح شده PoseNet بر اساس GoogLeNet را نشان می دهد. تنظیمات اصلی با جعبه های بنفش و سبز روشن مشخص شده اند.
  • جعبه بنفش: سه طبقه‌بندی چندگانه با افین رگرسیون جایگزین شدند. هر لایه نهایی اتصال کامل، یک حالت هفت بعدی، شامل یک موقعیت سه بعدی و یک چهار بعدی چهار بعدی را خروجی می دهد.
  • جعبه سبز روشن: یک لایه اتصال کامل با اندازه ویژگی 2048 قبل از بازسازی کننده آفین نهایی وارد می شود تا یک معماری 23 لایه تشکیل شود. این فرآیند یک بردار مکان ایجاد می کند که می تواند توسط PoseNet کاوش شود. برای مسائل طبقه بندی، برچسب خروجی محدود است زیرا هر برچسب خروجی از یکی از نمونه های آموزشی آمده است. اما در مسائل رگرسیون، برچسب خروجی یک مقدار پیوسته و خروجی رگرسیون بی نهایت و پیچیده است.
این تحقیق همچنین تنظیماتی را در معماری PoseNet انجام داده است. خروجی نهایی مدل PoseNet شامل اطلاعات موقعیت و جهت گیری است، اما جهت گیری برای هدف ما ضروری نیست. هدف نهایی ما این است که به کاربران اجازه دهیم از تلفن های همراه برای موقعیت یابی تصویر استفاده کنند و بر دقت موقعیت تمرکز کنند. یک تلفن همراه دارای حسگر سه محوره شتاب سنج، ژیروسکوپ و مغناطیس سنج است. فقط اطلاعات ژیروسکوپ در تلفن همراه برای تعیین زاویه جهت گیری مورد نیاز است، بنابراین برای تخمین جهت گیری نیازی به CNN نیست. به این معنا که همانطور که در شکل 7 نشان داده شده است ، مدل CNN ما در نهایت جهت گیری را کنار گذاشته و فقط اطلاعات موقعیت را خروجی می کند.
علاوه بر این، در مرحله پیش پردازش تصویر قبل از آموزش، PoseNet برای تصویر رنگی ورودی 455 × 256 پیکسل مقیاس می‌دهد و سپس مرکز را به 224 × 224 پیکسل برش می‌دهد. اگرچه این روش برش تصویر نمی تواند تصویر را تغییر شکل دهد، اما این روش منجر به از بین رفتن ویژگی های مهم محیط محلی اطراف می شود. به خصوص برای محیط های داخلی، هر مقدار پیکسل هر تصویر بسیار مهم است، که پایه مهمی برای CNN برای محاسبه موقعیت آن است. همانطور که در شکل 8 نشان داده شده است ، روش برش حذف می شود، و تصویر رنگی مجاز است به طور مستقیم به N × N مقیاس شود.پیکسل ها به عنوان مقادیر ورودی برای حفظ یکپارچگی تصویر. PoseNet علاوه بر پیش پردازش تصویر، از یک مدل قبل از آموزش نیز قبل از مرحله آموزش استفاده می کند. این مدل پیش‌آموزشی، مدل CNN را قادر می‌سازد تا وزن‌های اولیه را بیاموزد و به آموزش مدل اجازه می‌دهد تا به سرعت همگرا شوند. این فرآیند مانند یادگیری حروف انگلیسی است (مدل پیش از آموزش) که مستلزم دادن دانش اولیه به کودکان از حروف (وزن) است و به دنبال آن یادگیری کلمات یا مکالمات از طریق آموزش است که سریعتر از یادگیری اول انگلیسی است. نتایج تجربی مدل قبل از آموزش برای تطبیق اندازه مقیاس به طور مفصل در بخش 4 توضیح داده خواهد شد .
4.3.3. عملکرد از دست دادن

معماری مدل CNN در بخش قبل توضیح داده شد. در این قسمت اگر تابع ضرر افت جهت گیری را محاسبه کند بر دقت پیش بینی موقعیت تاثیر می گذارد. تحقیقات ما بر دقت موقعیت متمرکز است، بنابراین جهت گیری برای پیش بینی استفاده نمی شود. از آنجایی که جهت تخمین حذف شده است، تابع ضرر برای معادله (2) بازنویسی می شود. این تحقیق از الگوریتم شیب نزولی تصادفی (SGD) در فرآیند آموزش برای به دست آوردن تلفات اقلیدسی برای بازگشت به موقعیت دوربین استفاده می کند. تابع ضرر در معادله (2) نشان داده شده است پ^و P به ترتیب مقادیر پیش بینی شده موقعیت و موقعیت دقیق زمین هستند. بسیاری از مجموعه داده‌های تشخیص تصویر برای بررسی ویژگی‌ها از قبل آموزش داده می‌شوند و سپس مدل پیش‌آموزشی برای آموزش در مدل‌های دیگر بارگذاری می‌شود. این روش کمک می کند تا در زمان تمرین کمتر به ضرر کمتری همگرا شود. سپس از مدل پیش‌آموزشی استفاده می‌شود (به نام GoogLeNet) و با استفاده از تنظیمات مشابه کندال و همکاران آزمایش می‌کنند.

ضرر – زیان(من)= ||پ^-پ||

4.4. تصحیح خطا

در این بخش، یک روش تصحیح خطا برای تصحیح پیش بینی موقعیت اولیه از مدل یادگیری عمیق معرفی شده است. بر اساس نتایج تجربی اولیه، تخمین موقعیت بین تلفن‌های همراه شبیه‌سازی شده با دوربین ممکن است خطای موقعیت بزرگی داشته باشد و خطای موقعیت متوسط ​​نتایج اندازه‌گیری شده می‌تواند به اندازه ۳ تا ۴ متر باشد، با استفاده از یک تلفن همراه شبیه‌سازی شده نمونه آموزشی برای آموزش مدل و یک تلفن همراه شبیه سازی شده دیگر به عنوان نمونه تست موقعیت رگرسیون. این نوع تخمین خطای بالا به هیچ وجه برای موقعیت یابی فضای داخلی قابل استفاده نیست، بنابراین روشی برای استفاده از زاویه شناخته شده برای خوشه بندی طراحی شده است. از آنجایی که زوایای مختلف نمونه‌های آزمایشی پیدا شده‌اند، نتایج خطا دارای توزیع‌های متفاوتی از جابجایی خواهند بود. پس از آزمایش های آزمایشی اولیه، توزیع ثابت ممکن به یک گروه تقسیم می شود و مقدار پیش بینی موقعیت سه محور از موقعیت دقیق زمین هر گروه از تصاویر کم می شود تا مقدار خطای موقعیت سه محور به دست آید. سپس، میانگین خطا پخطا[ایکس، y، z]همانطور که در فرمول (3) نشان داده شده است، از هر گروه به طور میانگین محاسبه می شود. پس از محاسبه میانگین خطای هر گروه، خطای موقعیت اولیه با توجه به زاویه تیراندازی در آن زمان و با توجه به اینکه زاویه در گروه قرار می گیرد با استفاده از میانگین خطای محاسبه شده قبلی اصلاح می شود. این روش محاسبه برای کم کردن میانگین خطا از مقدار پیش‌بینی شده اولیه و به دست آوردن مقدار پیش‌بینی شده پس از تصحیح خطا استفاده می‌شود. سی[ایکس، y، z]همانطور که در فرمول (4) نشان داده شده است.

پهrror[ایکس، y، z]=∑من=1ن(پ^-پ)ن
سی[ایکس، y، z]=پ^-پهrror
پنج نوع ترکیب گروه بندی زاویه با تصحیح خطا طراحی شده است ( شکل 9 ). میانگین تعداد نمونه‌ها برای هر ترکیب گروه‌بندی زاویه‌ای نباید خیلی کم باشد و محدوده نمونه‌گیری نباید خیلی متمرکز باشد. بهترین روش میانگین گیری کل مسیر است. اگر شرایط فوق برآورده شود، میانگین خطا را می توان به دست آورد تا موقعیت پیش بینی اولیه را به طور موثر تصحیح کرد. به عنوان مثال، همانطور که در نشان داده شده است شکل 10 نشان داده شده است، مجموعه داده از یک منطقه برش با یک مسیر دایره ای استفاده می کند. نمونه آموزشی شبیه سازی تصاویر تلفن همراه Zenfone2 (در مجموع 5500)، در حالی که نمونه آزمایشی شبیه سازی تصاویر تلفن همراه R11s، در مجموع 1250. با استفاده از 10 نقطه موقعیت تصادفی، هر نقطه موقعیت دارای 10 تصویر جهت است. در مجموع 100 نمونه گروه بندی و میانگین گیری شده است. نتایج تجربی به تفصیل در بخش 5.7 توضیح داده خواهد شد .
همانطور که در شکل 9 نشان داده شده است ، G1 یک روش شهودی است که در آن تمام زوایا با هم میانگین می شوند. مفهوم طراحی G2 تا G4 بر اساس نتایج تجربی اولیه است. پس از اینکه نمونه های آزمایشی در محدوده 60 درجه تا 120 درجه و 240 درجه تا 300 درجه از طریق مدل CNN پسرفت کردند، موقعیت های تخمینی آنها توزیع ثابتی در فضا نسبت به موقعیت دقیق زمین ندارند. بنابراین، سه خوشه مختلف برای انجام آزمایش طراحی شد. G5 زوایای بین 60 تا 120 درجه و 240 درجه تا 300 درجه را به یک منطقه تقسیم نمی کند، بلکه آنها یک خوشه هستند. جزئیات هر گروه زاویه در زیر توضیح داده شده است.
  • G1: گروه اول غیر خوشه بندی هستند و مقادیر خطای متوسط ​​همه زوایا با هم ساخته می شوند. این ترکیب بصری ترین است و کارایی آن کمتر از سایر ترکیب ها است.
  • G2: هر رنگ یک گروه است. برای مثال، زاویه بین 0 تا 120 درجه یک گروه است. در مجموع چهار گروه وجود دارد و میانگین مقادیر خطای هر گروه محاسبه می شود.
  • ج3: این گروه نیز به چهار گروه تقسیم می شود. به طور خاص، زوایای بین 60 درجه تا 120 درجه و بین 240 درجه تا 300 درجه برای محاسبه میانگین خطا استفاده نمی شود. با این حال، زاویه این دو بازه با استفاده از مقادیر خطای متوسط ​​محاسبه شده از 0 تا 60 درجه و از 180 درجه تا 240 درجه اصلاح می شود.
  • G4: هر رنگ یک گروه است، مانند زوایای بین 60 درجه و 120 درجه و زوایای بین 300 درجه و 0 درجه. در مجموع چهار گروه وجود دارد و میانگین مقادیر خطای هر گروه محاسبه می شود.
  • G5: 60 درجه تا 120 درجه و 240 درجه تا 300 درجه به ترتیب خوشه‌بندی شده‌اند. بنابراین، در مجموع شش گروه وجود دارد و هر گروه مقدار میانگین خطای خود را محاسبه می کند.

5. ارزیابی تجربی

این بخش تصاویر و اطلاعات موقعیت جغرافیایی را از طریق پلتفرم کارتوگرافی موبایل داخل ساختمان جمع آوری می کند و تصاویر مختلف تلفن همراه را شبیه سازی می کند. یک پارکینگ زیرزمینی و موزه کاخ جنوبی به عنوان مکان های آزمایشی انتخاب شدند. دقت موقعیت شبکه عصبی کانولوشن (CNN) با تغییر اندازه‌های مختلف تصویر ارزیابی می‌شود و مسائل مربوط به اندازه میدان، دوربین متقاطع و تصحیح خطا مورد بحث قرار می‌گیرد. تمام آزمایش ها بر روی سکوی تنسورفلو انجام شد. در این آزمایش از سه دستگاه سخت افزاری استفاده شد: GPU های Geforce GTX 1080 TI، Geforce GTX 1080 و Geforce GTX 2080 TI که CNN را تسریع کردند. هر مدل CNN برای 30000 تکرار آموزش داده شد.

5.1. طراحی تجربی

این آزمایش از یک مدل از پیش آموزش دیده به نام GoogLeNet با استفاده از پایگاه داده Places [ 33 ] استفاده کرد که شامل حدود 7 میلیون تصویر و 476 دسته صحنه است. این مدل برای 800 تکرار آموزش داده شد. معماری مقداردهی اولیه می شود و مدل از پیش آموزش دیده برای به دست آوردن وزن اولیه تصادفی شبکه عصبی وارد می شود. میدان آزمایشی مجموعه داده های پارکینگ زیرزمینی و موزه کاخ جنوبی را جمع آوری کرد. ساختار 23 لایه CNN برای آموزش وظیفه شناسایی مکان انتها به انتها و بازگشت به موقعیت دوربین استفاده شد. تصاویر پانورامای صحنه داخلی و اطلاعات موقعیت جغرافیایی از طریق پلت فرم کارتوگرافی سیار داخلی [ 32 ] جمع آوری شد.] برای آموزش مدل تجربی به دست آمد. در این آزمایش از برنامه نویسی متلب برای اتصال پانوراما به صفحات استفاده شد و از طریق پنج پارامتر شامل رول، پیچ، انحراف، فاصله کانونی و اندازه تصویر، تصاویر دوربین های مختلف با جهت گیری های مختلف شبیه سازی شد. این آزمایش از پارکینگ زیرزمینی پشت تالار گروه مهندسی پردیس چنگ کونگ دانشگاه ملی چنگ کونگ و حیاط جنوبی موزه کاخ ملی به عنوان میدان آزمایشی استفاده می‌کند. مشخصات و سایر طرح های آزمایشی به تفصیل در بخش های بعدی توضیح داده شده است.

نتایج تجربی به عنوان خطا ارائه شده است. برای هر تصویر آزمایشی، فاصله اقلیدسی پس از کم کردن مقدار پیش‌بینی‌شده اصلاح‌شده از موقعیت دقیق زمین، و مقدار خطای نهایی محاسبه می‌شود. Errorمنهمانطور که در فرمول (5) نشان داده شده است، به دست می آید.

Errorمن=(پ[ایکسمن]-سی[ایکسمن])2+(پ[yمن]-سی[yمن])2+(پ[zمن]-سی[zمن])2

دو روش اصلی برای ارزیابی آزمایش ها وجود دارد: یکی از خطای میانه و دیگری از دقت استفاده می کند. خطای میانه برای یافتن مقدار میانه N اعداد مرتب شده در مجموعه داده استفاده می شود. فرمول این است (ن+1)/2. علاوه بر این، برای مقادیر فرد، عدد میانی و برای مقادیر زوج، نقطه میانی بین دو مقدار میانی آورده شده است. همانطور که در فرمول (6) نشان داده شده است، وقتی N عدد از دنباله X وجود داشته باشد، فرمول دو مقدار میانی به دست می دهد، به عنوان مثال، ایکستوپپهrو ایکسلowهr، و میانگین دو مقدار میانی نتیجه نهایی خواهد بود، میانه(ایکس). به عنوان مثال، برای شش مقدار، فرمول یک شاخص 3.5 به دست می دهد و مقادیر دوم (بالایی) و سوم (پایین) را برای گرفتن مقادیر میانی میانگین می دهد:

میانه(ایکس)=ایکستوپپهr[(ن+1)/2]+ایکسلowهr[(ن+1)/2]2

روش محاسبه نسبت طراحی آستانه T است. در نمونه‌های آزمایشی N ، خطای موقعیت با کم کردن موقعیت دقیق زمین P از مقدار پیش‌بینی‌شده موقعیت به دست می‌آید. پ^. اگر خطای موقعیت کمتر از آستانه باشد، به عنوان موقعیت یابی دقیق در نظر گرفته می شود. در نهایت، این نسبت با تقسیم عدد دقیق بر تعداد کل محاسبه می شود. فرمول (7) به شرح زیر است:

{آرآتیمنo= ∑راجoتوnتین×100%جoتوnتی=جoتوnتی+1 ، اگر پ^-پ<تی

5.1.1. پارکینگ زیرزمینی

پارکینگ زیرزمینی پشت تالار گروه مهندسی پردیس چنگ کونگ دانشگاه ملی چنگ کونگ مساحتی در حدود 80 × 15 متر مربع را پوشش می دهد. مسیر حرکت آن در شکل 11 الف نشان داده شده است، از نقطه شروع به پایین شروع می شود، سپس به چپ می چرخد ​​تا به نقطه شروع بازگردد. شکل 11 b یکی از نمونه های تصویر است که در مجموع 135240 تصویر شامل 230 موقعیت، هر کدام دارای 588 زاویه جهت می باشد. هنگام شبیه سازی تصویر تلفن همراه، زاویه جهت هر تصویر توسط برنامه ایجاد می شود. جزئیات به شرح زیر است:
  • رول: -45°~45° (در هر 15 درجه 7 نوع تصویر ایجاد می شود)
  • گام: -18°~18° (هر 6 درجه 7 نوع تصویر ایجاد می شود)
  • انحراف: -180°~150° (هر 30 درجه 12 نوع تصویر ایجاد می شود)
محیط پارکینگ زیرزمینی یکنواخت است و اجسام متحرک مانند ماشین ها و لوکوموتیوها فضای زیادی از تصویر را اشغال می کنند. در محیط‌های سخت، CNN می‌تواند کاربران را تنها از طریق ویژگی‌های آشکاری مانند شیر آتش نشانی، خطوط لوله و دروازه‌های فرار شناسایی کند که آزمایشی چالش برانگیز است.
5.1.2. موزه قصر
حیاط جنوبی موزه کاخ ملی مساحتی در حدود 25 × 35 متر مربع دارد. مسیر حرکت آن در شکل 12 الف نشان داده شده است و کل سالن نمایشگاه را از ابتدا دور می زند و سپس یک بار به سمت چپ می چرخد ​​و به مبدأ برمی گردد. شکل 12 ب یکی از نمونه های تصویر است. در مجموع 46548 تصویر شامل 862 موقعیت، هر کدام با 54 زاویه جهت وجود دارد. هنگام شبیه سازی تصویر تلفن همراه، زاویه جهت گیری تصویر توسط برنامه ایجاد می شود. جزئیات به شرح زیر است:
  • رول: -45 درجه تا 45 درجه (3 نوع تصویر در هر 45 درجه ایجاد می شود)
  • گام: -6°~6° (هر 6 درجه 3 نوع تصویر ایجاد می شود)
  • انحراف: -180°~150° (هر 60 درجه 6 نوع تصویر ایجاد می شود)
در مقایسه با سایر مناطق کوچک، مانند دفاتر، آشپزخانه‌ها و سایر محیط‌های سرپوشیده، موزه کاخ جنوبی کم نور است و برخی از نمایشگاه‌ها با انعکاس نور مشکل دارند. این منطقه نیز مانند پارکینگ زیرزمینی که در قسمت قبل ذکر شد متعلق به محیطی خشن است. برای یک CNN، استخراج مقادیر ویژه مهم، که بر تخمین موقعیت تأثیر می گذارد، بسیار دشوار است. بنابراین، این آزمایش بسیار اکتشافی باقی می ماند.
5.1.3. انواع مختلف تلفن های همراه شبیه سازی شده و مناطق برش
با در نظر گرفتن اندازه تصویر و فاصله کانونی مدل های مختلف تلفن همراه شبیه سازی شده، چهار مدل مختلف تلفن همراه شبیه سازی شده است. تصاویر از تلفن های همراه شبیه سازی شده در شکل 13 نشان داده شده است. نام، فاصله کانونی و اندازه تصویر تلفن های همراه شبیه سازی شده در زیر توضیح داده شده است:
  • Zenfone2: فاصله کانونی 3.8 و اندازه تصویر 4096 × 3072 پیکسل است.
  • R11s: فاصله کانونی 4.10 و اندازه تصویر 1920 × 1080 پیکسل است.
  • تانگو: فاصله کانونی 3.38 و اندازه تصویر 3840 × 2160 پیکسل است.
  • Zenfone3: فاصله کانونی 4.04 و اندازه تصویر 3840 × 2160 پیکسل است.
برای ارزیابی دقت مدل در اندازه‌های مختلف، سه نوع برش منطقه‌ای برای محوطه حیاط جنوبی موزه قصر انجام شد. همانطور که در شکل 14 نشان داده شده است، مسیرهای دایره، راه رفتن خم، و عقب و جلو در نظر گرفته شده است .

5.2. تاثیر اندازه های مختلف تصویر

قبل از مرحله آموزش، اندازه های مختلف تصاویر ورودی برای تجزیه و تحلیل تنظیم می شوند و خطاهای دقت بین اندازه های مختلف مورد بحث قرار می گیرند. برای انصاف، عملکرد ضرر PoseNet نه تنها با این تنظیمات تنظیم می شود، بلکه نسخه اصلی عملکرد ضرر را نیز حفظ می کند. در زیر معنای هر شخصیت توضیح داده شده است. M نمایانگر معماری PoseNet است. C و R نشان دهنده پردازش تصویر هستند. C نشان دهنده اندازه تصویر، تغییر اندازه به 455 × 256 پیکسل (با برش دادن مرکز به 224 × 224 پیکسل)، و R نشان دهنده تغییر اندازه تصویر به 224 × 224 پیکسل است. توابع ضرر به P و PO تقسیم می شوند. P فقط به معنای محاسبه افت موقعیت است، در حالی که PO به معنای محاسبه افت موقعیت و جهت گیری است. در نهایت، L مخفف بارگذاری مدل قبل از آموزش است. جزئیات زیر تنظیمات هر اندازه تصویر را شرح می دهد. آزمایش‌ها در دو زمینه زیر همگی از روش اعتبارسنجی متقابل برای برش داده‌ها به پنج مدل آموزش و آزمایش متناوب استفاده می‌کنند. بنابراین، تصاویر هر اندازه پنج بار برای به دست آوردن پنج مدل آموزش داده می شوند و سپس برای دستیابی به عدالت داده ها میانگین می شوند.
  • C+PO+L : تنظیم کاغذ اصلی. این مدل از روش پردازش تصویر برای برش تصویر به 224 × 224 پیکسل استفاده می کند. تابع ضرر موقعیت و جهت را محاسبه می کند و سپس مدل قبل از تمرین را بارگذاری می کند.
  • R+PO+L : این مدل از روش پردازش تصویر برای تغییر اندازه مستقیم تصویر به 224 × 224 پیکسل استفاده می کند. تابع ضرر موقعیت و جهت را محاسبه می کند و سپس مدل قبل از تمرین را بارگذاری می کند.
  • C+P+L : این مدل از روش پردازش تصویر برای برش تصویر به 224 × 224 پیکسل استفاده می کند. تابع ضرر موقعیت را محاسبه می کند و سپس مدل قبل از تمرین را بارگذاری می کند.
  • R+P+L : این مدل از روش پردازش تصویر برای تغییر اندازه مستقیم تصویر به 224 × 224 پیکسل استفاده می کند. تابع ضرر موقعیت را محاسبه می کند و سپس مدل قبل از تمرین را بارگذاری می کند.
  • N × N : اندازه تصویر مستقیماً به N × N تغییر می کند که N طول لبه تصویر مربع است.
مجموعه داده برای پارکینگ های زیرزمینی در مجموع 135240 تصویر شامل 230 موقعیت را شامل می شود، در حالی که هر نقطه دارای 588 جهت است. این 588 جهت به پنج قسمت مساوی بریده شده اند که هر کدام حدود 118 زاویه جهت دارند. در مجموع 108330 تصویر آموزش داده شد و 26910 تصویر مورد آزمایش قرار گرفتند. در شکل 15 ، آزمایش‌های تنظیمات پارامترهای مختلف (a) و اندازه‌های مختلف تصویر (b) تجزیه و تحلیل شده‌اند. در شکل 15 a، محور x تنظیمات پارامترهای مختلف را نشان می دهد و محور y خطای میانه (واحد: متر) را نشان می دهد. هنگامی که مدل قبل از آموزش بارگذاری می شود و اندازه تصویر 224 × 224 پیکسل است، مآر+پ+Lبهترین موقعیت را برای خطای میانه بدست می آورد که حدود 0.23 متر است. هنگامی که تابع ضرر فقط به موقعیت محاسبه شده تنظیم می شود، خطای میانه موقعیت برای مآر+پ+Lمدل حدود 0.06 متر کوچکتر از مدل است مسی+پ+Lمدل، و نرخ بهبود حدود 20.6٪ است. در مقایسه با مدل مسی+PO+L(تنظیم در مقاله اصلی)، خطای میانه موقعیت از مآر+پ+Lدر حدود 1.06 متر کوچکتر است و میزان بهبود به 82.2٪ می رسد. در شکل 15 ب، محور x اندازه های مختلف تصویر را نشان می دهد، محور y دو محوره است، نقشه خط شکسته خطای میانه را در سمت چپ مقایسه می کند، و نمودار میله ای نسبت سمت راست را مقایسه می کند. نتایج نشان می دهد که خطای میانه بین 100 × 100 و 400 × 400 پیکسل تفاوت چندانی ندارد (حدود 0.3 متر) و نسبت خطا تقریباً یکسان است. نسبت خطا در 1 متر حدود 97 درصد و نسبت خطا در 0.5 متر حدود 75 درصد است.
مجموعه داده موزه قصر شامل 46548 تصویر، از جمله 862 موقعیت است. هر نقطه موقعیت دارای 54 جهت است. این 54 جهت به 5 قسمت مساوی بریده شده اند که هر کدام حدود 11 زاویه جهت دارند. نمونه های آموزشی شامل 37928 تصویر و نمونه های آزمایشی شامل 8620 تصویر بود. در شکل 16 ، آزمایش‌های تنظیمات پارامترهای مختلف (a) و اندازه‌های مختلف تصویر (b) تجزیه و تحلیل شده‌اند. در شکل 16 a، محور x تنظیمات پارامترهای مختلف را نشان می دهد و محور y نشان دهنده خطای میانه (واحد: متر) است. هنگامی که مدل قبل از آموزش بارگذاری می شود و اندازه تصویر 224 × 224 پیکسل است، مآر+پ+Lبهترین خطای میانه موقعیت را بدست می آورد که حدود 0.42 متر است. هنگامی که تابع ضرر فقط به موقعیت محاسبه شده تنظیم می شود، خطای میانه موقعیت از مآر+پ+Lمدل حدود 0.2 متر کوچکتر از مدل است مسی+پ+Lمدل، و نرخ بهبود حدود 32.6٪ است. در مقایسه با مدل مسی+PO+L، تنظیم در مقاله اصلی، خطای میانه موقعیت مآر+پ+Lدر حدود 4.48 متر کوچکتر است و میزان بهبود به 92٪ می رسد. در شکل 16 ب، محور x اندازه های مختلف تصویر را نشان می دهد، محور y دو محوره است، نقشه خط شکسته خطای میانه را در سمت چپ مقایسه می کند، و نمودار میله ای نسبت سمت راست را مقایسه می کند. نتایج نشان می دهد که خطای میانه بین 100 × 100 و 400 × 400 پیکسل در حدود 0.71 متر تفاوت چندانی ندارد و نسبت خطا تقریباً یکسان است. نسبت خطا در 1 متر حدود 71 درصد و نسبت خطا در 0.5 متر حدود 30 درصد است.

5.3. تاثیر معماری های مختلف

در این بخش دقت موقعیت مدل های آموزشی تحت معماری های مختلف مورد بحث قرار می گیرد. علاوه بر معماری PoseNet استفاده شده، مدل دیگری به نام ResNet50 برای اصلاح خطای موقعیت خروجی معماری برای مقایسه آن با مدل ما استفاده می شود. ResNet به چندین لایه برای استفاده محققان تقسیم شده است. ResNet50 (با 50 لایه) به عنوان شی آزمایشی انتخاب شد، زیرا لایه اتصال کامل آخرین لایه 2048 است، همان اندازه لایه اتصال کامل PoseNet. جدول 2خطای موقعیت و نسبت خطا ResNet50، PoseNet و مدل ما را مقایسه می کند. پایگاه داده از تصویر شبیه سازی zenfone2 موزه کاخ جنوبی برای 30000 تکرار استفاده می کند. به منظور منصفانه بودن، PosNet و مدل ما یک مدل از پیش آموزش دیده را بارگذاری نمی کنند. نتایج نشان می دهد که خطای موقعیت مدل ما بسیار کوچکتر از resnet50 است.

5.4. تاثیر اندازه های مختلف منطقه

نتایج تجربی بخش 5.2 نشان می دهد که مآر+پ+Lبهترین اندازه ورودی تصویر قبل از مرحله آموزش است. سپس خطاهای انواع تلفن های همراه شبیه سازی شده در زمینه موزه قصر مورد بحث قرار می گیرد. کل زمین و منطقه برش به طور تجربی به طور جداگانه مورد مطالعه قرار می گیرند. منطقه برش اولین مسیر دایره را برای ارائه نتایج تجربی انتخاب می کند. در نهایت، دقت خطای کراس پلتفرم تلفن های همراه شبیه سازی شده مختلف در ناحیه برش آزمایش می شود. جدول 3آموزش برای هر تصویر تلفن همراه شبیه سازی شده برای تست خطای میانه موقعیت همان تلفن همراه شبیه سازی شده (بر حسب متر) ارائه می دهد. بر اساس نتایج چهار آزمایش شبیه سازی شده تلفن همراه در کل زمینه، میانه خطای مکان شبیه سازی شده تلفن همراه Zenfone2 کوچکترین است. خطای آن 0.42 متر است و 91.3 درصد خطای نمونه آزمایشی در 1 متر است، در حالی که خطای تلفن همراه شبیه سازی شده R11s بزرگترین است. خطای آن 1.14 متر است که تنها 43.6 درصد خطای نمونه آزمایشی (در 1 متر) است. دلیل این خطاها ممکن است مربوط به اندازه و فاصله کانونی تصویر شبیه سازی شده تلفن همراه باشد. تصویر تلفن همراه Zenfone2 شبیه سازی شده دور از جسم است و حاوی اطلاعات زیادی است. مدل CNN می تواند مکان دقیق را بر اساس اطلاعات مفید محاسبه کند. متقابلا، تصویر تلفن همراه شبیه سازی شده R11s بسیار نزدیک به جسم است، بنابراین گاهی اوقات فقط منطقه محلی جسم گرفته می شود. محاسبه موقعیت دقیق بر اساس این ویژگی های محلی برای مدل CNN دشوار است.
سپس نتایج سه ناحیه برش و کل مسیر جدول با هم مقایسه می شود. علاوه بر این، کاهش دامنه میدان می تواند خطای موقعیت کلی را تا حدود 60٪ کاهش دهد. در آزمایش چهار تلفن همراه شبیه سازی شده مختلف که روی یک پلت فرم آزمایش شدند، بدون توجه به مسیر دایره، راه رفتن خم یا مسیر رفت و برگشت، خطای میانه موقعیت بین سه ناحیه برش زیاد نوسان نمی کند. بنابراین در هنگام جمع آوری تصاویر و اطلاعات موقعیت جغرافیایی نیازی به طراحی مسیر مشخصی نیست. نمونه آزمایشی فقط باید در نمونه آموزشی کپسوله شود تا دقت موقعیت بالایی به دست آید.
شکل 17 مقدار پیش بینی موقعیت تلفن همراه شبیه سازی شده با دوربین مشابه را بر اساس هر تلفن همراه شبیه سازی شده به عنوان یک مدل آموزشی نشان می دهد و رنگ زرد مقدار پیش بینی موقعیت همه نمونه های آزمایشی است. Area1 به عنوان مجموعه داده استفاده می شود و در مجموع 1250 تصویر مورد آزمایش قرار گرفت. همانطور که در شکل 17 مشاهده می شودپیش‌بینی موقعیت گوشی‌های Zenfone2 شبیه‌سازی‌شده تقریبی مسیر واقعی است و پیش‌بینی‌های تلفن‌های شبیه‌سازی‌شده Tango و Zenfone3 عمدتاً نزدیک به مسیر هستند، اگرچه تعداد کمی از نمونه‌های آزمایشی دارای خطای زیادی هستند. در مقایسه با سه تلفن همراه شبیه‌سازی‌شده دیگر، ارزش پیش‌بینی موقعیت R11s بسیار دورتر از مسیر واقعی است، که منجر به افزایش خطای میانه موقعیت می‌شود. این خطا ممکن است به این دلیل باشد که تصویر تلفن همراه R11s شبیه سازی شده دارای ویژگی های بسیار کم و اشیاء بسیار کمی در تصویر است. علاوه بر این، قضاوت در مورد اطلاعات موقعیت کامل برای شبکه عصبی دشوار است. بنابراین، برخی از نمونه‌های آزمایشی اشتباه تخمین زده شده‌اند و در نتیجه خطای میانه کلی افزایش می‌یابد.
این بخش نحوه تقسیم مجدد مجموعه داده را به نمونه های آموزشی و نمونه های آزمایشی از طریق روش های نمونه گیری مختلف بررسی می کند. در طول جمع آوری داده ها، با توجه به هر قطعه از اطلاعات موقعیت در مسیر، تصاویر در جهت های مختلف شبیه سازی می شوند. روش‌های نمونه‌گیری اصلی با توجه به جهت‌گیری به نمونه‌های آموزشی و آزمایشی تقسیم می‌شوند، اما با توجه به تأثیر روش‌های نمونه‌گیری دیگر بر شبکه عصبی، دو روش نمونه‌گیری زیر برای آزمایش‌ها طراحی شد:
  • Random_division: همه تصاویر به صورت تصادفی تقسیم می شوند.
  • Position_division: نمونه گیری بر اساس موقعیت است. چهار موقعیت از پنج موقعیت برای نمونه های آموزشی و یکی برای آزمایش نمونه ها استفاده می شود.
از تصاویر تلفن همراه زنفون 2 شبیه سازی شده برای آزمایش استفاده می شود و کل فیلد به عنوان مجموعه داده انتخاب می شود. با توجه به روش استفاده از جهت گیری برای نمونه گیری، میانه خطای موقعیت 0.42 متر است. بر اساس نتایج تجربی در جدول 4 ، خطاهای موقعیت تفاوت زیادی ندارند، صرف نظر از اینکه نمونه گیری بر اساس جهت گیری، تصادفی یا موقعیت است. بدين ترتيب در آزمايش هاي زير همچنان از روش نمونه گيري با توجه به جهت گيري استفاده مي شود.

5.5. تاثیر دوربین کراس

جدول 5نشان می دهد که هر تصویر شبیه سازی شده تلفن همراه با برش ناحیه به عنوان مجموعه داده آموزش داده می شود تا خطای موقعیت میانه (بر حسب متر) بین تلفن های همراه شبیه سازی شده با دوربین متقابل آزمایش شود. بر اساس نتایج، تفاوت معنی داری در خطای میانه موقعیت بین گوشی های Zenfone2، Tango و Zenfone3 شبیه سازی شده در تست کراس پلتفرم وجود ندارد، اما خطای موقعیت به 3-4 متر در هنگام آزمایش تصویر افزایش می یابد. تلفن همراه R11s شبیه سازی شده با این حال، با استفاده از تلفن همراه شبیه سازی شده R11s به عنوان مدل آموزشی، تصاویر سه تلفن همراه شبیه سازی شده دیگر آزمایش شده نیز به 3-4 متر افزایش یافت. دلیل این خطا ممکن است این باشد که تصویر تلفن همراه شبیه سازی شده R11s با سه تلفن همراه شبیه سازی شده دیگر بسیار متفاوت است. یعنی تصویر حاوی اطلاعات ویژگی های بیش از حد است. با استفاده از سه تلفن همراه شبیه سازی شده به عنوان مدل آموزشی، شبکه عصبی منطقه کامل تصویر را می آموزد، اما تصویر تلفن همراه شبیه سازی شده R11s بیش از حد محلی است و شبکه عصبی را برای مطابقت با ویژگی های آن مشکل می کند و در نتیجه باعث افزایش خطا می شود. برعکس، با استفاده از تلفن همراه R11s شبیه سازی شده به عنوان مدل آموزشی، شبکه عصبی تنها می تواند ویژگی های محلی را یاد بگیرد و تشخیص محدوده بزرگتر تصاویر و موقعیت ها را دشوار می کند.
جدول 5 بخش کوچکی از آزمایش را با نقشه پیش‌بینی موقعیت همه نمونه‌های آزمایشی نشان می‌دهد. شکل 18 نشان می دهد که مقادیر پیش بینی موقعیت چهار تلفن همراه شبیه سازی شده با استفاده از تلفن همراه Zenfone2 شبیه سازی شده به عنوان مدل آموزشی محاسبه شده است. مقادیر پیش‌بینی موقعیت تلفن همراه Zenfone2 شبیه‌سازی شده تقریباً به مسیر واقعی نزدیک است و مقادیر پیش‌بینی موقعیت تلفن همراه تانگو و Zenfone3 شبیه‌سازی شده بیشتر به مسیر نزدیک است. از آنجایی که تصاویر گوشی R11s شبیه سازی شده بسیار متفاوت از سه گوشی موبایل شبیه سازی شده دیگر است، خطاهای پیش بینی موقعیت در بسیاری از نمونه های آزمایشی بسیار زیاد است.
علاوه بر این، این تحقیق آزمایش هایی را برای مقایسه با تلفن همراه شبیه سازی شده R11s انجام داد تا تأثیر فاصله کانونی و اندازه تصویر بر روی CNN را آزمایش کند. فاصله کانونی R11s شبیه سازی شده 4.10 و اندازه تصویر آن 1920 × 1080 پیکسل است. شکل 19 a آزمایشی را برای تعیین اندازه تصویر و تنظیم فاصله کانونی نشان می دهد. آزمایش‌ها نشان می‌دهند که هر چه فاصله کانونی بزرگ‌تر باشد، فاصله بین تصویر و جسم نزدیک‌تر است و پیش‌بینی موقعیت مدل بدتر است.شکل 19b آزمایشی را نشان می دهد که در آن فاصله کانونی ثابت است و اندازه تصویر تنظیم می شود. این آزمایش نشان می‌دهد که تنظیم اندازه تصویر برای بهبود دقت پیش‌بینی موقعیت عصبی مانند مفید است. با این حال، دقت پیش‌بینی بدتر است.

5.6. تاثیر تصحیح خطا

به عنوان جدول 5نشان می‌دهد که با افزایش دقت خطای آزمایش کراس پلتفرم، یک روش تصحیح خطا برای تصحیح پیش‌بینی‌های موقعیت اولیه از خروجی مدل CNN طراحی شده است. زوایای شناخته شده 30 درجه، 90 درجه، 150 درجه، 210 درجه، 270 درجه و 330 درجه هستند. طبق آزمایش قبلی، مجموعه داده یک منطقه برش، Area1 را انتخاب می کند. نمونه آموزشی دارای تصویری از تلفن همراه Zenfone2 شبیه سازی شده است و نمونه آزمایشی تصویری از تلفن همراه شبیه سازی شده R11s است. از ده موقعیت تصادفی استفاده می‌شود و از هر نقطه 10 تصویر جهت‌گیری گرفته می‌شود، بنابراین تعداد نمونه‌ها 100 می‌شود. این نمونه‌ها برای انجام میانگین‌گیری گروه‌بندی استفاده می‌شوند و خطای موقعیت اولیه 4.73 متر است. پنج نوع گروه بندی زاویه برای آزمایش طراحی شده است. نتایج تجربی به شرح زیر است:
  • G1: خطای میانه تصحیح شده موقعیت 4.44 متر و نرخ بهبود 6.1٪ است.
  • G2: خطای میانه تصحیح شده موقعیت 3.74 متر و میزان بهبود 20.8٪ است.
  • G3: خطای میانه تصحیح شده موقعیت 3.73 متر و میزان بهبود 21.1٪ است.
  • G4: خطای میانه تصحیح شده موقعیت 3.97 متر و میزان بهبود 16٪ است.
  • G5: خطای میانه تصحیح شده موقعیت 3.72 متر و میزان بهبود 21.3٪ است.
در شکل 20 ، 10 تصویر آزمایشی از دو موقعیت پیش بینی شده است و خطا با روش G5 تصحیح شده است. شکل 20 a نتایج تجربی نقطه شروع مسیر را نشان می دهد، در حالی که شکل 20 b نتیجه آزمایشی نقطه پایانی مسیر را نشان می دهد. علامت مثبت سیاه مقدار نقطه شروع و پایان، آبی مقدار پیش بینی موقعیت اولیه و سبز مقدار پیش بینی موقعیت پس از تصحیح خطا است. بر اساس این شکل، مقدار پیش‌بینی موقعیت نزدیک به موقعیت زمین دقیق پس از تصحیح خطا است، که ثابت می‌کند روش تصحیح خطا ما می‌تواند به طور موثر مقدار پیش‌بینی موقعیت را تصحیح کند.

5.7. خلاصه تجربی

تنظیمات اصلی PoseNet موقعیت و جهت رگرسیون است، بنابراین تابع ضرر از دست دادن موقعیت و جهت را به طور همزمان محاسبه می کند. برای به دست آوردن همزمان موقعیت و جهت گیری خوب، وزن بین این دو باید متعادل باشد. بنابراین، خطای موقعیت باید بیشتر از خطای موقعیت باشد، که فقط از دست دادن موقعیت را محاسبه می کند. تلفن همراه شبیه سازی شده ای که کاربر در دست دارد، خود دارای سنسور است و زاویه جهت گیری را می توان با ژیروسکوپ موجود در سنسور به دست آورد، بنابراین نیازی به استفاده از شبکه عصبی ویژه طراحی شده برای پیش بینی جهت نیست. به همین دلیل، معماری CNN به گونه ای تنظیم شده است که تابع ضرر تنها وزن موقعیت را محاسبه کرده و در نهایت موقعیت کاربر را پیش بینی می کند. آزمایش‌ها با اندازه‌های مختلف تصویر نشان می‌دهند که روش جدید ما می‌تواند دقت موقعیت‌یابی را حدود 20 تا 30 درصد بهبود بخشد. در مقایسه با راه‌اندازی اولیه PoseNet، روش جدید ما می‌تواند دقت موقعیت‌یابی را حدود ۸۰ تا ۹۰ درصد بهبود بخشد. در آزمایش برش میدان، کاهش میدان مجموعه داده می تواند به کاهش خطای موقعیت کلی کمک کند. علاوه بر این، طراحی یک مسیر ویژه برای جمع آوری داده ها غیر ضروری است. علاوه بر این، با توجه به این مشکل که اکثر تصاویر از انواع مختلف تلفن های همراه شبیه سازی شده در کاربرد عملی می آیند، اگر داده های تصویر آموزشی و تصویر موقعیت یابی واقعی از تلفن های همراه شبیه سازی شده مختلف گرفته شود، به راحتی می توان بین دوربین های مختلف خطا ایجاد کرد. . در آزمایش های متقابل دوربین، اندازه و فاصله کانونی تصویر تاثیر زیادی بر شبکه عصبی دارد. اشیاء و نواحی تحت پوشش در تصویر دلایل اصلی افزایش خطای موقعیت هستند. در نهایت، به منظور کاهش بیشتر خطای موقعیت، این مقاله یک الگوریتم تصحیح خطا را پیشنهاد می‌کند. از طریق گروه بندی زاویه، خطای خطای موقعیت اولیه در هر گروه محاسبه و برای تصحیح خطا میانگین گیری می شود. آزمایش‌ها نشان می‌دهند که پنج روش خوشه‌بندی زاویه‌ای پیشنهادی می‌تواند به طور موثر خطا را کاهش دهد و روش خوشه‌بندی زاویه بهینه می‌تواند خطای موقعیت را تا حدود ۲۰ درصد کاهش دهد. از طریق گروه بندی زاویه، خطای خطای موقعیت اولیه در هر گروه محاسبه و برای تصحیح خطا میانگین گیری می شود. آزمایش‌ها نشان می‌دهند که پنج روش خوشه‌بندی زاویه‌ای پیشنهادی می‌تواند به طور موثر خطا را کاهش دهد و روش خوشه‌بندی زاویه بهینه می‌تواند خطای موقعیت را تا حدود ۲۰ درصد کاهش دهد. از طریق گروه بندی زاویه، خطای خطای موقعیت اولیه در هر گروه محاسبه و برای تصحیح خطا میانگین گیری می شود. آزمایش‌ها نشان می‌دهند که پنج روش خوشه‌بندی زاویه‌ای پیشنهادی می‌تواند به طور موثر خطا را کاهش دهد و روش خوشه‌بندی زاویه بهینه می‌تواند خطای موقعیت را تا حدود ۲۰ درصد کاهش دهد.

6. نتیجه گیری و کار آینده

این مقاله یک معماری شبکه عصبی کانولوشنال 23 لایه (CNN) مناسب برای محیط‌های داخلی را دوباره طراحی کرد و تابع وزن کاهش را طوری تنظیم کرد که تابع از دست دادن تنها وزن موقعیت را محاسبه می‌کند و بر پیش‌بینی دقیق موقعیت‌یابی داخلی تمرکز دارد. قبل از مرحله آموزش، تصویر کامل نگه داشته می شود و اندازه آن به طور مستقیم به عنوان مقدار ورودی CNN تغییر می کند. آزمایش‌ها روی اندازه‌های مختلف تصویر نشان می‌دهند که روش پیشنهادی می‌تواند به طور موثری دقت موقعیت‌یابی را در حدود 20 تا 30 درصد تحت شرایط یکسانی که فقط محاسبه از دست دادن موقعیت است، بهبود بخشد. در مقایسه با راه‌اندازی اولیه PoseNet، روش جدید ما می‌تواند دقت موقعیت‌یابی را حدود ۸۰ تا ۹۰ درصد بهبود بخشد. با استفاده از پلت فرم کارتوگرافی سیار با سیستم موقعیت یابی و سیستم نقشه برداری، مجموعه داده ها از پارکینگ زیرزمینی و موزه کاخ جنوبی جمع آوری شده است. این مجموعه داده ها را می توان برای تحقیقات مرتبط در آینده مورد استفاده قرار داد. در برنامه های کاربردی موقعیت یابی داخلی، کاربران بیشتر از دوربین های پلت فرم های مختلف استفاده می کنند. این مقاله اولین مقاله ای است که در مورد دقت موقعیت یابی داخلی بین دوربین های مختلف بحث می کند. نتایج تجربی نشان می دهد که اندازه تصویر و فاصله کانونی تأثیر زیادی بر CNN دارد. اشیاء و نواحی تحت پوشش در تصویر دلایل اصلی افزایش خطاهای موقعیت هستند. CNN و تصحیح خطای زاویه نیز برای اولین بار یکپارچه شده اند. آزمایش‌ها نشان می‌دهند که پنج روش پیشنهادی گروه‌بندی زاویه‌ای می‌توانند به طور موثری خطاها را کاهش دهند و بهترین روش گروه‌بندی زاویه می‌تواند به طور موثری دقت موقعیت‌یابی داخلی را تا حدود ۲۰ درصد بهبود بخشد. این مجموعه داده ها را می توان برای تحقیقات مرتبط در آینده مورد استفاده قرار داد. در برنامه های کاربردی موقعیت یابی داخلی، کاربران بیشتر از دوربین های پلت فرم های مختلف استفاده می کنند. این مقاله اولین مقاله ای است که در مورد دقت موقعیت یابی داخلی بین دوربین های مختلف بحث می کند. نتایج تجربی نشان می دهد که اندازه تصویر و فاصله کانونی تأثیر زیادی بر CNN دارد. اشیاء و نواحی تحت پوشش در تصویر دلایل اصلی افزایش خطاهای موقعیت هستند. CNN و تصحیح خطای زاویه نیز برای اولین بار یکپارچه شده اند. آزمایش‌ها نشان می‌دهند که پنج روش پیشنهادی گروه‌بندی زاویه‌ای می‌توانند به طور موثری خطاها را کاهش دهند و بهترین روش گروه‌بندی زاویه می‌تواند به طور موثری دقت موقعیت‌یابی داخلی را تا حدود ۲۰ درصد بهبود بخشد. این مجموعه داده ها را می توان برای تحقیقات مرتبط در آینده مورد استفاده قرار داد. در برنامه های کاربردی موقعیت یابی داخلی، کاربران بیشتر از دوربین های پلت فرم های مختلف استفاده می کنند. این مقاله اولین مقاله ای است که در مورد دقت موقعیت یابی داخلی بین دوربین های مختلف بحث می کند. نتایج تجربی نشان می دهد که اندازه تصویر و فاصله کانونی تأثیر زیادی بر CNN دارد. اشیاء و نواحی تحت پوشش در تصویر دلایل اصلی افزایش خطاهای موقعیت هستند. CNN و تصحیح خطای زاویه نیز برای اولین بار یکپارچه شده اند. آزمایش‌ها نشان می‌دهند که پنج روش پیشنهادی گروه‌بندی زاویه‌ای می‌توانند به طور موثری خطاها را کاهش دهند و بهترین روش گروه‌بندی زاویه می‌تواند به طور موثری دقت موقعیت‌یابی داخلی را تا حدود ۲۰ درصد بهبود بخشد. این مقاله اولین مقاله ای است که در مورد دقت موقعیت یابی داخلی بین دوربین های مختلف بحث می کند. نتایج تجربی نشان می دهد که اندازه تصویر و فاصله کانونی تأثیر زیادی بر CNN دارد. اشیاء و نواحی تحت پوشش در تصویر دلایل اصلی افزایش خطاهای موقعیت هستند. CNN و تصحیح خطای زاویه نیز برای اولین بار یکپارچه شده اند. آزمایش‌ها نشان می‌دهند که پنج روش پیشنهادی گروه‌بندی زاویه‌ای می‌توانند به طور موثری خطاها را کاهش دهند و بهترین روش گروه‌بندی زاویه می‌تواند به طور موثری دقت موقعیت‌یابی داخلی را تا حدود ۲۰ درصد بهبود بخشد. این مقاله اولین مقاله ای است که در مورد دقت موقعیت یابی داخلی بین دوربین های مختلف بحث می کند. نتایج تجربی نشان می دهد که اندازه تصویر و فاصله کانونی تأثیر زیادی بر CNN دارد. اشیاء و نواحی تحت پوشش در تصویر دلایل اصلی افزایش خطاهای موقعیت هستند. CNN و تصحیح خطای زاویه نیز برای اولین بار یکپارچه شده اند. آزمایش‌ها نشان می‌دهند که پنج روش پیشنهادی گروه‌بندی زاویه‌ای می‌توانند به طور موثری خطاها را کاهش دهند و بهترین روش گروه‌بندی زاویه می‌تواند به طور موثری دقت موقعیت‌یابی داخلی را تا حدود ۲۰ درصد بهبود بخشد. اشیاء و نواحی تحت پوشش در تصویر دلایل اصلی افزایش خطاهای موقعیت هستند. CNN و تصحیح خطای زاویه نیز برای اولین بار یکپارچه شده اند. آزمایش‌ها نشان می‌دهند که پنج روش پیشنهادی گروه‌بندی زاویه‌ای می‌توانند به طور موثری خطاها را کاهش دهند و بهترین روش گروه‌بندی زاویه می‌تواند به طور موثری دقت موقعیت‌یابی داخلی را تا حدود ۲۰ درصد بهبود بخشد. اشیاء و نواحی تحت پوشش در تصویر دلایل اصلی افزایش خطاهای موقعیت هستند. CNN و تصحیح خطای زاویه نیز برای اولین بار یکپارچه شده اند. آزمایش‌ها نشان می‌دهند که پنج روش پیشنهادی گروه‌بندی زاویه‌ای می‌توانند به طور موثری خطاها را کاهش دهند و بهترین روش گروه‌بندی زاویه می‌تواند به طور موثری دقت موقعیت‌یابی داخلی را تا حدود ۲۰ درصد بهبود بخشد.
در آینده، این تحقیق می‌تواند در روش‌های مختلفی مانند جمع‌آوری تصویر، پردازش تصویر و معماری مدل یادگیری عمیق اعمال شود، بنابراین فناوری موقعیت‌یابی داخلی می‌تواند با دقت بیشتری توسعه یابد. از منظر جمع‌آوری تصاویر، این مطالعه از روش دستی برای جمع‌آوری داده‌های تصویر و داده‌های موقعیت جغرافیایی مورد نیاز مدل یادگیری عمیق از طریق بستر کارتوگرافی سیار استفاده کرد. برای یادگیری تحت نظارت، دستیابی به مقدار زیادی از مواد آموزشی صحیح همیشه کلیدی است. محققان اغلب زمان زیادی را صرف جمع آوری داده های تصویری در فرآیند تحقیق می کنند. در حال حاضر، مکانیسم جمع‌آوری خودکار و مؤثر داده‌ها وجود ندارد. بنابراین، دوربین‌های نظارتی، وسایل نقلیه هوایی بدون سرنشین (UAV) و دستگاه‌های آردوینو سفارشی‌شده قادر خواهند بود به طور خودکار داده‌های تصویر را جمع‌آوری کنند. تحقیق در مورد شناسایی و یادگیری عمیق نیز درجه بالایی از راحتی را ایجاد خواهد کرد. از منظر پردازش تصویر، این مقاله اجسام متحرکی را که ممکن است در تصاویر آموزشی ظاهر شوند، تحلیل نمی‌کند. متداول ترین اجسام متحرک در صحنه های داخلی اتومبیل ها و افراد هستند. این اجسام متحرک ویژگی‌های غیرضروری برای یادگیری شبکه‌های عصبی عمیق هستند، بنابراین ناگزیر باعث کاهش دقت می‌شوند. این نوع تحقیق می تواند از شبکه های عصبی مانند YOLO یا Mask RCNN برای تشخیص اجسام متحرک استفاده کند و اطمینان حاصل کند که شبکه های عصبی چنین ویژگی هایی را از طریق اصلاح برای حل مشکل اجسام متحرک در تصاویر یاد نمی گیرند. از منظر مدل یادگیری عمیق، عکاسی با تلفن همراه دارای پارامترهای ارزشمند بسیاری است، مانند مقدار سنسور، نگرش سه محور، دیافراگم فاصله کانونی و غیره. این مقاله این اطلاعات را به عنوان مبنایی برای پیش بینی ادغام نمی کند. بنابراین، برخی از این اطلاعات را می‌توان به طور بالقوه با پیش‌بینی‌های موقعیت از مدل CNN ترکیب کرد و یک مدل شبکه عصبی را می‌توان مانند یک شبکه عصبی کاملاً متصل یا حافظه کوتاه‌مدت بلند مدت (LSTM) آموزش داد تا موقعیت دقیق‌تری به دست آورد. علاوه بر این، مجموعه داده همچنین می تواند تعداد نمونه های خود را از طریق چرخش تصویر یا نویز داده ها افزایش دهد، بنابراین یادگیری شبکه های عصبی می تواند جامع تر باشد. انتخاب میدان همچنین تأثیر زیادی بر شبکه عصبی مانند نور و سایه، پیچیدگی محیطی و تعداد مقادیر ویژه دارد. بنابراین، زمینه‌های مختلف را نیز می‌توان آزمایش کرد تا آزمایش شود که آیا مدل شبکه عصبی می‌تواند به طور موثر به موقعیت‌یابی داخلی دست یابد. موقعیت یابی کارآمد در فضای داخلی ممکن است برای پارکینگ های هوشمند داخلی یا شهرهای هوشمند اعمال شود و همچنین ممکن است با برنامه های کاربردی در دنیای واقعی افزوده شده ترکیب شود. همچنین انتظار می رود که موقعیت یابی در فضای داخلی کاربردهای اطلاعات مکانی را تسهیل کند.

منابع

  1. تان، JS-F. لو، EH-C. Tseng، تکنیک‌های استخراج اولویت‌محور برای جستجوی فروشگاه مبتنی بر مکان. بدانید. Inf. سیستم 2013 ، 34 ، 147-169. [ Google Scholar ] [ CrossRef ]
  2. کندال، ا. گریمز، ام. Cipolla، R. PoseNet: یک شبکه کانولوشن برای تغییر مکان دوربین 6-DOF در زمان واقعی. در مجموعه مقالات IEEE ICCV، سانتیاگو، شیلی، 7 تا 13 دسامبر 2015. صص 2938-2946. [ Google Scholar ]
  3. لی، اف. ژائو، سی. دینگ، جی. گونگ، جی. لیو، سی. ژائو، اف. یک روش قابل اطمینان و دقیق محلی سازی داخلی با استفاده از حسگرهای اینرسی تلفن. در مجموعه مقالات کنفرانس ACM 2012 در محاسبات همه جا حاضر، پیتسبورگ، PA، ایالات متحده آمریکا، 5-8 سپتامبر 2012. ص 421-430. [ Google Scholar ]
  4. Lan، KC؛ Shih، WY یک سیستم ردیابی مکان داخلی برای پارکینگ هوشمند. بین المللی J. توزیع اضطراری موازی. سیستم 2014 ، 29 ، 215-238. [ Google Scholar ] [ CrossRef ]
  5. گروسمن، یو. گانسمر، اس. Suttorp، O. موقعیت یابی داخلی WLAN مبتنی بر RSSI که در راهنمای موزه دیجیتال استفاده می شود. بین المللی جی. کامپیوتر. 2014 ، 7 ، 66-72. [ Google Scholar ]
  6. سبحان، ف. حسب الله، ح. روزیف، آ. بخش، ST موقعیت یابی داخلی در شبکه های بلوتوث با استفاده از روش اثرانگشت و دیرکرد. در مجموعه مقالات IEEE ICISA، جزیره ججو، کره، 26-29 آوریل 2011. صفحات 1-9. [ Google Scholar ]
  7. انگل، جی. شوپس، تی. Cremers، D. LSD-SLAM: SLAM مستقیم تک چشمی در مقیاس بزرگ. در ECCV ؛ Springer: Cham, Switzerland, 2014; صص 834-849. [ Google Scholar ]
  8. لیانگ، جی.زی. کورسو، ن. ترنر، ای. Zakhor, A. موقعیت یابی مبتنی بر تصویر دستگاه های تلفن همراه در محیط های داخلی. در تخمین موقعیت مکانی چندوجهی فیلم ها و تصاویر ; Springer: Cham, Switzerland, 2015; صص 85-99. [ Google Scholar ]
  9. هائو، او. کای، آر. لی، ز. ژانگ، ال. پانگ، ی. Wu, F. عبارات بصری سه بعدی برای تشخیص نقطه عطف. در مجموعه مقالات کنفرانس IEEE در CVPR، پراویدنس، RI، ایالات متحده آمریکا، 16-21 ژوئن 2012. صص 3594-3601. [ Google Scholar ]
  10. آگاروال، اس. فوروکاوا، ی. اسناولی، ن. سیمون، آی. کورلس، بی. Seitz، SM; Szeliski، R. ساختن رم در یک روز. اشتراک. ACM 2011 ، 54 ، 105-112. [ Google Scholar ] [ CrossRef ]
  11. اسناولی، ن. Seitz، SM; Szeliski, R. Photo Tourism: Exploring Photo Collections in 3D. ACM TOG 2006 ، 25 ، 835-846. [ Google Scholar ] [ CrossRef ]
  12. وو، سی. به سوی ساختار افزایشی زمان خطی از حرکت. در مجموعه مقالات کنفرانس بین المللی IEEE در 3D Vision-3DV، سیاتل، WA، ایالات متحده آمریکا، 29 ژوئن تا 1 ژوئیه 2013. صص 127-134. [ Google Scholar ]
  13. شاتون، جی. گلاکر، بی. زک، سی. ایزدی، س. کریمیسی، ا. Fitzgibbon، A. جنگل‌های رگرسیون مختصات صحنه برای مکان‌یابی مجدد دوربین در تصاویر RGB-D. در مجموعه مقالات کنفرانس IEEE در CVPR، پورتلند، OR، ایالات متحده آمریکا، 23-28 ژوئن 2013. صص 2930–2937. [ Google Scholar ]
  14. نگ، ا. نگیام، جی. Foo, CY; مای، ی. سوئن، سی. کوتس، آ. ماس، ا. هانون، ا. هووال، بی. وانگ، تی. و همکاران شبکه های عصبی کانولوشنال 2013. در دسترس آنلاین: https://ufldl.stanford.edu/tutorial/supervised/ConvolutionalNeuralNetwork/ (در 28 اوت 2013 قابل دسترسی است).
  15. سگدی، سی. لیو، دبلیو. جیا، ی. سرمانت، پ. رید، اس. آنگلوف، دی. ایرهان، د. ونهوک، وی. رابینوویچ، الف. با پیچیدگی ها عمیق تر رفتن. در مجموعه مقالات کنفرانس IEEE در مورد CVPR، بوستون، MA، ایالات متحده آمریکا، 7 تا 12 ژوئن 2015. صفحات 1-9. [ Google Scholar ]
  16. او، ک. ژانگ، ایکس. رن، اس. Sun، J. یادگیری باقیمانده عمیق برای تشخیص تصویر. در مجموعه مقالات کنفرانس IEEE در CVPR، لاس وگاس، NV، ایالات متحده، 27-30 ژوئن 2016. صص 770-778. [ Google Scholar ]
  17. گدار، سی. Aodha، OM; Brostow، GJ تخمین عمق تک چشمی بدون نظارت با سازگاری چپ-راست. در مجموعه مقالات کنفرانس IEEE در مورد CVPR، هونولولو، HI، ایالات متحده آمریکا، 21 تا 26 ژوئیه 2017؛ صص 270-279. [ Google Scholar ]
  18. ژو، تی. براون، ام. اسناولی، ن. Lowe، DG یادگیری بدون نظارت عمق و Ego-Motion از ویدیو. در مجموعه مقالات کنفرانس IEEE در مورد CVPR، هونولولو، HI، ایالات متحده آمریکا، 21 تا 26 ژوئیه 2017؛ صفحات 1851-1858. [ Google Scholar ]
  19. اشرف، من. هور، اس. Park, Y. کاربرد شبکه‌های عصبی کانولوشن عمیق و حسگرهای تلفن هوشمند برای محلی‌سازی فضای داخلی. Appl. علمی 2019 ، 9 ، 2337. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  20. کانگ، جی. لی، جی. تخمین مسافت پیموده شده مبتنی بر تلفن هوشمند DS Eom با استفاده از الگوهای پیاده روی فردی برای محلی سازی فضای داخلی. Sensors 2018 , 18 , 3149. [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
  21. وانگ، ایکس. وانگ، ایکس. مائو، S. شبکه های عصبی کانولوشنال عمیق برای محلی سازی داخلی با تصاویر CSI. IEEE Trans. شبکه علمی مهندس 2018 . [ Google Scholar ] [ CrossRef ]
  22. میتال، آ. تیکو، اس. Pasricha، S. تطبیق شبکه‌های عصبی کانولوشن برای محلی‌سازی فضای داخلی با دستگاه‌های موبایل هوشمند. در مجموعه مقالات 2018 در GLSVLSI، شیکاگو، IL، ایالات متحده آمریکا، 23 تا 25 مه 2018؛ صص 117-122. [ Google Scholar ]
  23. نییتسو، ع. Edelhäuβer، T. Mutschler، C. شبکه های عصبی کانولوشن برای تخمین موقعیت در سیستم های مکان یابی مبتنی بر TDoA. در مجموعه مقالات کنفرانس بین المللی IPIN، نانت، فرانسه، 24 تا 27 سپتامبر 2018؛ صص 1-8. [ Google Scholar ]
  24. برگر، ک. Mohorčič، M. بهبود محلی سازی داخلی با استفاده از شبکه های عصبی کانولوشن در دستگاه های محاسباتی محدود. دسترسی IEEE 2018 ، 6 ، 17429–17441. [ Google Scholar ] [ CrossRef ]
  25. فوروکاوا، ی. کورلس، بی. Seitz، SM; Szeliski، R. Towards Internet-Scale Multi-View Stereo. در مجموعه مقالات کنفرانس انجمن کامپیوتر IEEE در مورد CVPR، سانفرانسیسکو، CA، ایالات متحده آمریکا، 13-18 ژوئن 2010. ص 1434-1441. [ Google Scholar ]
  26. بنژیو، ی. کورویل، آ. وینسنت، پی. یادگیری بازنمایی: بررسی و دیدگاه‌های جدید. IEEE TPAMI 2013 ، 35 ، 1798-1828. [ Google Scholar ] [ CrossRef ] [ PubMed ]
  27. اوکاب، م. بوتو، ال. لاپتف، آی. Sivic, J. یادگیری و انتقال بازنمایی تصویر سطح متوسط ​​با استفاده از شبکه های عصبی کانولوشن. در مجموعه مقالات کنفرانس IEEE در مورد CVPR، کلمبوس، OH، ایالات متحده، 23-28 ژوئن 2014. صفحات 1717-1724. [ Google Scholar ]
  28. رضویان، ع. عزیزپور، ح. سالیوان، جی. Carlsson، S. CNN ویژگی های Off-the-Shelf: An Astounding Baseline for Recognition. در مجموعه مقالات کنفرانس IEEE در مورد CVPRW، کلمبوس، OH، ایالات متحده آمریکا، 23 تا 28 ژوئن 2014. ص 806-813. [ Google Scholar ]
  29. کندال، ا. Cipolla، R. مدل سازی عدم قطعیت در یادگیری عمیق برای تغییر مکان دوربین. در مجموعه مقالات IEEE ICRA، استکهلم، سوئد، 16-21 مه 2016؛ صص 4762-4769. [ Google Scholar ]
  30. کندال، ا. Cipolla، R. توابع از دست دادن هندسی برای دوربین حالت رگرسیون با یادگیری عمیق. در مجموعه مقالات کنفرانس IEEE در مورد CVPR، هونولولو، HI، ایالات متحده آمریکا، 21 تا 26 ژوئیه 2017؛ صص 5974–5983. [ Google Scholar ]
  31. والش، اف. حاضرباس، ج. Leal-Taixé، L. ساتلر، تی. هیلزنبک، اس. Cremers، D. محلی‌سازی مبتنی بر تصویر با استفاده از LSTM برای همبستگی ویژگی‌های ساختاریافته. در مجموعه مقالات IEEE ICCV، ونیز، ایتالیا، 22 تا 29 اکتبر 2017؛ صص 627-637. [ Google Scholar ]
  32. چیانگ، KW; Tseng، YH; لو، اچ سی پروژه توسعه پلتفرم موبایل در فناوری نقشه برداری و نقشه برداری ; اداره امور اراضی، وزارت کشور: شهر تاینان، تایوان، 2018.
  33. ژو، بی. لاپدریزا، ا. شیائو، جی. تورالبا، ا. Oliva, A. یادگیری ویژگی های عمیق برای تشخیص صحنه با استفاده از پایگاه داده مکان ها. در مجموعه مقالات بیست و هفتمین کنفرانس بین المللی سیستم های پردازش اطلاعات عصبی، مونترال، QC، کانادا، 8 تا 13 دسامبر 2014. جلد 1، ص 487–495. [ Google Scholar ]
شکل 1. نقشه طرح یک برنامه موقعیت یابی داخلی.
شکل 2. مفهوم مجموعه داده D.
شکل 3. نمونه ای از یک صحنه.
شکل 4. چارچوب روش.
شکل 5. پلت فرم کارتوگرافی سیار.
شکل 6. معماری PoseNet.
شکل 7. مدل شبکه عصبی کانولوشن تنها بردار موقعیت را خروجی می دهد.
شکل 8. اندازه ورودی پیش پردازش تصویر را تنظیم کنید.
شکل 9. پنج ترکیب گروه بندی زاویه برای تصحیح خطا.
شکل 10. میانگین تعداد نمونه برای ترکیب های گروه بندی.
شکل 11. ( الف ) مسیر پارکینگ زیرزمینی. ( ب ) تصویر شبیه سازی شده تلفن همراه.
شکل 12. ( الف ) مسیر سالن نمایشگاه. ( ب ) تصویر شبیه سازی شده تلفن همراه.
شکل 13. تصاویر از چهار تلفن همراه شبیه سازی شده مختلف.
شکل 14. مسیرهای دایره ای، خمیدگی و رفت و برگشت.
شکل 15. مجموعه داده برای پارکینگ های زیرزمینی: ( الف ) موقعیت خطاهای میانه تنظیمات پارامترهای مختلف. ( ب ) موقعیت خطاهای میانه و نسبت اندازه های مختلف تصویر.
شکل 16. مجموعه داده برای موزه قصر: ( الف ) موقعیت خطاهای میانه تنظیمات پارامترهای مختلف. ( ب ) موقعیت خطاهای میانه و نسبت اندازه های مختلف تصویر.
شکل 17. استفاده از چهار تلفن همراه شبیه سازی شده به عنوان مدل آموزشی و محاسبه مقدار پیش بینی موقعیت تلفن های همراه در همان دوربین.
شکل 18. استفاده از تلفن همراه Zenfone2 شبیه سازی شده به عنوان مدل آموزشی و محاسبه مقادیر پیش بینی موقعیت چهار تلفن همراه شبیه سازی شده.
شکل 19. ( الف ) موقعیت خطاهای میانه فواصل کانونی مختلف. ( ب ) موقعیت خطاهای میانه در اندازه های مختلف تصویر.
شکل 20. با استفاده از روش G5 برای انجام تصحیح خطا برای: ( الف ) پیش بینی موقعیت اولیه نقطه شروع. ( ب ) پیش‌بینی موقعیت اولیه نقطه پایانی.

بدون دیدگاه

دیدگاهتان را بنویسید