1. معرفی
1.1. زمینه
با توسعه سریع نقشه برداری و فناوری اطلاعات مکانی، توجه بیش از پیش به تحقیق و کاربرد موقعیت یابی معطوف شده است. در محیط های بیرونی، افراد می توانند اطلاعات دقیقی از موقعیت زمین از طریق سیستم های ماهواره ای ناوبری جهانی (GNSS) بدست آورند. ظهور GNSS همچنین منجر به خدمات راحتتر مبتنی بر مکان (LBS) شده است [ 1 ]] در بسیاری از زمینه ها، مانند سیستم های ناوبری ماهواره ای، سیستم های پارکینگ هوشمند و بررسی های مختلف زمین شناسی. اگرچه GNSS راحتی را برای زندگی مردم به ارمغان می آورد، اما زمانی که سیگنال ماهواره ای مبهم باشد، استفاده از GNSS نیز با شکست مواجه خواهد شد. به عنوان مثال، سیگنال ها به احتمال زیاد در داخل خانه یا زیرزمین گم می شوند. هنگامی که این سیگنال ها پنهان شوند، GNSS نمی تواند به ارائه خدمات موقعیت یابی ادامه دهد. بنابراین، مشکل تعیین نحوه محاسبه پیوسته یک مکان پس از شکست سیگنال ماهواره ای، فناوری موقعیت یابی داخلی را به یک موضوع تحقیقاتی محبوب تبدیل کرده است. موقعیت یابی داخلی به طور گسترده استفاده می شود و ارزش تجاری بالایی دارد. زمینه های کاربردی رایج شامل هدایت مسیر یک ایستگاه، تعاملات واقعیت افزوده (AR) در گالری های هنری، راهنماهای هوشمند در فروشگاه های بزرگ، و نظارت بر محموله در کارخانه ها. بنابراین، محققان بیشتر و بیشتری در مورد فناوری مربوط به موقعیت یابی داخلی بحث می کنند.
1.2. انگیزه
فناوری موقعیت یابی داخلی را می توان تقریباً به سه دسته تقسیم کرد: محاسبه مرده، موقعیت یابی سیگنال بی سیم و موقعیت یابی تصویر، اما دو مورد اول کاستی های خاص خود را دارند. پس از استفاده از محاسبه مرده برای مدتی، انتشار خطا به گسترش خود ادامه خواهد داد و در نتیجه دقت موقعیت یابی ضعیفی به همراه خواهد داشت. در یک فضای پیچیده در مقیاس بزرگ، دقت موقعیت سیگنال های بی سیم به دلیل عوامل ناپایدار مانند تداخل و انسداد رضایت بخش نیست. بنابراین، سومین فناوری موقعیتیابی تصویر در حال تبدیل شدن به کانون اصلی پژوهشی است. در زمینه بینایی کامپیوتر، چه برای فناوری دوربین های تک چشمی یا دوچشمی، کاربردهای یادگیری عمیق در مسائل موقعیت یابی به طور گسترده مورد بحث و بررسی قرار گرفته است. این تحقیق به معماری PoseNet [2]، پیشنهاد شده توسط الکس کندال و همکاران. هنگامی که کاربران از تلفن های همراه برای عکاسی یک تصویر استفاده می کنند، این معماری می تواند موقعیت و جهت تصویر را از طریق مدل آموزش دیده تخمین بزند. تلفن های همراه وسایلی هستند که به راحتی برای عموم قابل دسترسی هستند. این روش نه تنها جهانی بودن دستگاه را در نظر می گیرد، بلکه مشکلات تداخلی را که سایر مکان های سیگنال با آن مواجه خواهند شد، حذف می کند. علاوه بر این، این مقاله به موقعیت یابی با سایر برنامه های کاربردی یادگیری عمیق مربوط می شود. دقت این روش باعث حفظ عملکرد پایدار در محیط های سخت می شود. با این حال، طبق نتایج تحقیقات اولیه ما، دقت PoseNet در یک محیط داخلی پیچیدهتر خوب نیست. سه دلیل برای این مشکل وجود دارد که انگیزه ما را نیز پشتیبانی می کند. اولین، این نوع محیط با تاکید ما بر موقعیت از تابع ضرر PoseNet ناسازگار است، بنابراین تابع ضرر باید به طور مناسب اصلاح شود. ثانیاً، نویسندگان تنها قسمت میانی تصویر آموزشی را برش دادند که منجر به از دست رفتن اطلاعات برای کل تصویر شد. در نهایت، اگر داده های تصویر آموزشی و تصویر موقعیت یابی واقعی از دوربین های مختلف باشد، ایجاد خطا بین پلتفرم های مختلف آسان است. تا آنجا که می دانیم، هیچ ادبیاتی وجود ندارد که خطاهای بین سکوهای تیراندازی مختلف را مورد بحث قرار دهد، بنابراین غلبه بر این مشکل یکی از انگیزه های این مقاله است. اگر داده های تصویر آموزشی و تصویر موقعیت یابی واقعی از دوربین های مختلف باشد، ایجاد خطا بین پلتفرم های مختلف آسان است. تا آنجا که می دانیم، هیچ ادبیاتی وجود ندارد که خطاهای بین سکوهای تیراندازی مختلف را مورد بحث قرار دهد، بنابراین غلبه بر این مشکل یکی از انگیزه های این مقاله است. اگر داده های تصویر آموزشی و تصویر موقعیت یابی واقعی از دوربین های مختلف باشد، ایجاد خطا بین پلتفرم های مختلف آسان است. تا آنجا که می دانیم، هیچ ادبیاتی وجود ندارد که خطاهای بین سکوهای تیراندازی مختلف را مورد بحث قرار دهد، بنابراین غلبه بر این مشکل یکی از انگیزه های این مقاله است.
1.3. مسئله
انسان ها به سرعت و به راحتی می توانند اجسام متحرک و ساختار سه بعدی صحنه ای را که از طریق چشمان خود می بینند تشخیص دهند و سپس موقعیت و جهت گیری آنها را محاسبه کنند. فناوری موقعیت یابی تصویر در فضای داخلی برای جایگزینی چشم انسان با لنز دوربین به عنوان مفهوم اصلی، برای شناسایی موقعیت افراد در یک فضای داخلی استفاده می شود. بنابراین، چگونگی تخمین دقیق موقعیت افراد در یک فضای داخلی یکی از مشکلاتی است که در حوزه بینایی کامپیوتر مورد بحث قرار می گیرد. در گذشته، بسیاری از مطالعات بر روی شبکه های عصبی عمیق، داده های بزرگ را مورد تحقیق قرار داده و دقت ویژگی ها را در تصاویر طبقه بندی پیش بینی کرده اند. علاوه بر این، این دقت نیز به بیش از 90٪ بهبود یافته است. در سالهای اخیر، شبکههای عصبی عمیق برای پیشبینی دقت موقعیت مکانی مورد استفاده قرار گرفتهاند. شبکه های عصبی عمیق به انواع مختلفی طبقه بندی می شوند، از جمله شبکه های عصبی کانولوشنال و بازگشتی. در زمینه تشخیص تصویر، شبکه عصبی کانولوشنال (CNN) بیشترین استفاده را دارد. CNN دو ویژگی دارد: ویژگی های محلی و اشتراک وزن. در پردازش تصویر و تشخیص ویدئو، یک CNN می تواند مقادیر مهم ویژگی را از تصاویر محلی از طریق فیلترها استخراج کند. اشتراک وزن می تواند پیچیدگی یک شبکه را در محاسبات تصویر برداری چند بعدی کاهش دهد. به منظور دستیابی به موقعیت مکانی بر اساس تصویر، مانند هنگام راه رفتن در داخل خانه ( در پردازش تصویر و تشخیص ویدئو، یک CNN می تواند مقادیر مهم ویژگی را از تصاویر محلی از طریق فیلترها استخراج کند. اشتراک وزن می تواند پیچیدگی یک شبکه را در محاسبات تصویر برداری چند بعدی کاهش دهد. به منظور دستیابی به موقعیت مکانی بر اساس تصویر، مانند هنگام راه رفتن در داخل خانه ( در پردازش تصویر و تشخیص ویدئو، یک CNN می تواند مقادیر مهم ویژگی را از تصاویر محلی از طریق فیلترها استخراج کند. اشتراک وزن می تواند پیچیدگی یک شبکه را در محاسبات تصویر برداری چند بعدی کاهش دهد. به منظور دستیابی به موقعیت مکانی بر اساس تصویر، مانند هنگام راه رفتن در داخل خانه (شکل 1 )، کاربر می تواند تصویری را در جهت خاصی بگیرد، مقدار ویژگی تصویر را از طریق CNN استخراج کند و در نهایت موقعیت کاربر را در آن زمان محاسبه کند. هدف ما پیشبینی دقیق این موقعیت است. بنابراین، این تحقیق به PoseNet اشاره دارد که به بهترین وجه نیازهای موقعیتی ما را برآورده میکند، در حالی که معماری یادگیری عمیق برای بررسی مقیاسبندی تصویر، تلفنهای همراه شبیهسازی شده با دوربین و تصحیح خطا تنظیم شده است.
1.4. مشارکت ها
-
برنامه ریزی مجدد یک معماری 23 لایه CNN که برای محیط های داخلی مناسب تر است، تنظیم عملکرد کاهش وزن و تمرکز بر پیش بینی دقیق موقعیت داخلی.
-
قبل از مرحله آموزش، اندازه تصویر تغییر می کند تا کل تصویر به عنوان مقدار ورودی CNN حفظ شود.
-
در برنامه های کاربردی موقعیت یابی داخلی، بیشتر تصاویر داخلی از دوربین های روی پلت فرم های مختلف می آیند. تصحیح خطای زاویه نتایج پیشبینی موقعیت ابتدا بین پلتفرمهای مختلف مورد بحث قرار میگیرد.
-
یک پلت فرم کارتوگرافی متحرک با یک سیستم موقعیت یابی و یک سیستم نقشه برداری برای جمع آوری مجموعه داده ای از پارکینگ زیرزمینی و موزه کاخ جنوبی شامل اطلاعات تصویر و موقعیت جغرافیایی استفاده می شود که می تواند برای تحقیقات مرتبط در آینده مورد استفاده قرار گیرد.
-
نتایج تجربی اولیه تغییر اندازه تصویر نشان میدهد که روش پیشنهادی میتواند به طور موثری دقت موقعیتیابی داخلی را حدود 20 تا 30 درصد بهبود بخشد. پس از تغییر عملکرد از دست دادن، دقت موقعیت داخلی را می توان حدود 80٪ تا 90٪ بهبود بخشید. نتایج تجربی اولیه نشان میدهد که روش تصحیح خطای ما میتواند به طور موثری دقت موقعیتیابی داخلی را تا حدود 20 درصد بهبود بخشد.
2. کارهای مرتبط
این بخش به بررسی برخی از مطالعات مهم مرتبط با مسائل موقعیت یابی می پردازد. تمام کارهای مرتبط را می توان به سه بخش شامل موقعیت یابی داخلی، موقعیت یابی تصویر و شبکه های عصبی کانولوشنال تقسیم کرد.
2.1. موقعیت یابی داخلی
محاسبه مرده، موقعیت یابی سیگنال بی سیم، و موقعیت یابی تصویر از فناوری های رایج موقعیت یابی داخلی هستند. اولین مورد مبتنی بر فناوری واحد اندازه گیری اینرسی (IMU) است. لی و همکاران [ 3 ] از دستگاه های تلفن همراه دستی برای موقعیت یابی داخل ساختمان استفاده می کرد. در این فرآیند ابتدا اندازه گام و زاویه آزیموت با توجه به مسیر کاربر تخمین زده می شود. سپس از الگوریتم فیلتر ذرات استفاده می شود و صفحه اضافه می شود. به این ترتیب برآورد اولیه تصحیح می شود و موقعیت نهایی به دست می آید. فیلتر ذرات یک تخمین بیزی ناپارامتری است که اغلب در ردیابی پویا و دید کامپیوتری برای محاسبه موقعیت لحظه بعدی استفاده می شود. لان و همکاران [ 4] یک سیستم موقعیت یابی داخلی را با استفاده از حسگرها در دستگاه های تلفن همراه دستی برای جمع آوری اطلاعات موجود پیشنهاد کرد. آنها موقعیت یابی داخلی را در پارکینگ ها اعمال کردند و از سیستم محاسبه مردگان عابر پیاده (PDR) برای ردیابی مسیر حرکت کاربر استفاده می کنند تا تشخیص دهند که کاربر چه زمانی فضای پارک را ترک می کند، بنابراین کاربر بعدی می تواند از دستگاه تلفن همراه دستی برای دریافت خدمات مکان یابی استفاده کند. استعلام فضای پارکینگ بر اساس PDR، آنها مغناطیسسنجها را رها میکنند و از شتابسنجها و ژیروسکوپها فقط برای تشخیص سرعت کاربر و محاسبه اندازه گام و آزیموت کاربر استفاده میکنند. علاوه بر این، آنها همچنین خطاهای جهت گیری ناشی از استفاده از ژیروسکوپ را برای به دست آوردن آزیموت کالیبره می کنند.
دومین نوع رایج موقعیت یابی سیگنال بی سیم شامل مادون قرمز، WiFi و بلوتوث است. این روش محاسبه شامل موقعیت یابی مجاورت، روش تقاطع و تطبیق ویژگی است. موقعیت یابی مجاورتی معمولاً از یک دستگاه کم انرژی بلوتوث (BLE) به عنوان فرستنده سیگنال استفاده می کند و سیگنال تشخیص را به دستگاه تلفن همراه دستی نزدیک منتقل می کند. روش تقاطع از اطلاعات به دست آمده از فاصله بین فرستنده سیگنال با چند مختصات شناخته شده و سنسورهای دیگر استفاده می کند و سپس از مفهوم روش برداشتن برای به دست آوردن مختصات حسگر مورد نظر استفاده می کند. تطبیق ویژگی ها که به عنوان فناوری اثر انگشت نیز شناخته می شود، عمدتاً به دو مرحله تقسیم می شود. مرحله اول داده های آموزشی را تولید می کند. ابتدا شدت سیگنال موقعیت چند فرستنده سیگنال را در یک فضای داخلی اندازه گیری می کند و سپس شدت سیگنال دریافتی و علامت مکان فرستنده را برای تکمیل نقشه رادیویی ثبت می کند. مرحله دوم، مکان یابی حسگر مورد نیاز برای اندازه گیری موقعیت نقطه است، یعنی پس از اندازه گیری شدت سیگنال سنسور، نتایج را با نقشه ویژگی مرحله اول مقایسه کرده و در نهایت موقعیت سنسور را بدست آوریم. . گروسمن و همکاران [ و در نهایت موقعیت سنسور را بدست آوریم. گروسمن و همکاران [ و در نهایت موقعیت سنسور را بدست آوریم. گروسمن و همکاران [5 ] یک نقطه دسترسی (AP) برای شبکه های محلی بی سیم (WLAN) در سالن نمایشگاه یک موزه راه اندازی کرد و از شاخص قدرت سیگنال دریافتی (RSSI) برای به دست آوردن اطلاعات موقعیت استفاده کرد. سبحان و همکاران [ 6] موقعیت سیستم موقعیت یابی داخلی را بر اساس بلوتوث با استفاده از مقایسه ویژگی تخمین زد. دقت سیستم موقعیت یابی داخلی تا حد زیادی به پارامترهای تراز و نتایج اندازه گیری محیط اطراف بستگی دارد. نویسندگان اشاره کردند که عوامل محیطی خارجی شامل دما، انعکاس سیگنال و تداخل مانع است. همه این عوامل بر تطابق ویژگی و کاهش دقت تأثیر می گذارد. بنابراین، قبل از به دست آوردن نتایج انگشت نگاری، نویسندگان روشی را برای اندازه گیری سیگنال های بی سیم پیشنهاد کردند که مدل استاندارد انتشار رادیویی نامیده می شود و از این روش برای تخمین فاصله واقعی بین بلوتوث و دستگاه ها استفاده کردند. پس از آن، روش متقاطع تریلاتاسیون برای به دست آوردن مختصات موقعیت استفاده شد.
سومین فناوری موقعیت یابی تصویر مبتنی بر فتوگرامتری است. رابطه نسبی بین نقاط کنترل دوربین و تصویر از طریق نقاط کنترل داخلی محاسبه می شود. موقعیت دوربین با اصول هندسی محاسبه می شود. فناوری موقعیت یابی تصویر تحت تأثیر عوامل محیطی مانند دما یا سیگنال بی سیم قرار نمی گیرد. علاوه بر این، موقعیت یابی بلوتوث نیاز به نصب برخی فرستنده های سیگنال در محیط اطراف دارد. در پاسخ به برخی از محیط های داخلی، این دستگاه قابل نصب نیست. از این رو، موقعیت یابی تصویر محور اصلی این مطالعه را فراهم می کند. فناوری موقعیت یابی تصویر به تفصیل در بخش 2.2 توضیح داده خواهد شد .
2.2. موقعیت یابی تصویر
مشکل موقعیت یابی تصویر را می توان به دو روش حل کرد: فناوری موقعیت یابی تطبیق ویژگی ها و فناوری موقعیت یابی یادگیری ماشین. مکانیابی و نقشهبرداری همزمان (SLAM)، تبدیل ویژگی ثابت مقیاس (SIFT)، ساختار از حرکت (SfM)، و سایر روشهای رایج فناوری موقعیتیابی تطبیق ویژگی استفاده میشود. SLAM با جمعآوری مکرر ویژگیهای نقشه در طول فرآیند حرکت موقعیت و موقعیت را تعیین میکند و سپس یک تصویر را با توجه به موقعیت خود میسازد و مکانیابی میکند. نقشه های افزایشی برای دستیابی به مکان واقعی و ساخت نقشه استفاده می شود. انگل و همکاران [ 7] یک الگوریتم SLAM تک چشمی مستقیم (بدون ویژگی) را پیشنهاد کرد که امکان ساخت مقیاس بزرگ نقشه های محیطی را فراهم می کند. بر اساس تخمین نگرش با دقت بالا بر اساس تراز تصویر، نویسندگان یک فضای محیطی سه بعدی را به یک نقشه نگرش با عمق نیمه متراکم بازسازی کردند. با این حال، SLAM باید با تشخیص نور و محدوده (LiDAR) و تصاویر اداره شود. در سطح برنامه، دستگاه های تلفن همراه تقریباً همه کاربران فاقد عناصر LiDAR هستند که با هدف تعیین موقعیت داخلی توسط دستگاه های تلفن همراه مطابقت ندارد. بنابراین، این مقاله از فناوری SLAM برای اکتشاف و آزمایش استفاده نمی کند. SIFT برای شناسایی و توصیف ویژگی های محلی در تصاویر استفاده می شود. SIFT عمدتاً در بینایی ماشین با استفاده از ابزارهای بینایی حسی استفاده می شود. نقاط کلیدی را در فضای مقیاس جستجو می کند و اطلاعاتی مانند موقعیت، مقیاس و متغیرهای چرخش را به عنوان نقاط SIFT مانند استخراج می کند. این نقاط SIFT مانند را می توان برای تطبیق ویژگی استفاده کرد، و برخی از مقالات این مشکل موقعیت یابی را بر اساس تطبیق ویژگی مورد بحث قرار دادند. لیانگ و همکاران [8 ] و هائو و همکاران. [ 9 ] از SIFT برای تطبیق ویژگی های نقشه و اطلاعات مکان استفاده کرد، اما نقطه ضعف SIFT این است که به پایگاه های داده ویژگی های زیادی و غربالگری موثر نقاط SIFT مانند نیاز دارد. این حجم عظیم محاسبات، دستیابی به کاربردهای بلادرنگ را برای سرویسهای مکان داخلی دشوار میکند.
SfM صحنه ها را از طریق حرکت سه بعدی بازسازی شده نشان می دهد. آگاروال و همکاران [ 10 ]، اسناولی و همکاران. [ 11 ]، وو و همکاران. [ 12 ] و کندال و همکاران. [ 2] از الگوریتمهای ساختار بازیابی حرکت برای جمعآوری وضعیتهای تصویر (یعنی موقعیتها و جهتها) استفاده کرد. افراد می توانند از تصاویر دوبعدی پیوسته در مغز منطبق را بیابند و از آنها برای یافتن اطلاعات سه بعدی روی اجسام متحرک استفاده کنند. Matching از نقطه مربوطه بر اساس تفاوت بین نقاط تطبیق استفاده می کند. بنابراین می توان اطلاعات عمق مربوطه را به دست آورد. SfM اطلاعات سه بعدی را از تصاویر دوبعدی سری زمانی بدون ورودی هیچ پارامتر دوربین به دست می آورد. پارامترهای دوربین را می توان با تطبیق ویژگی های بین تصاویر دو بعدی استنباط کرد. با ایجاد رابطه متناظر بین مجموعه ای از ویژگی ها و مختصات سه بعدی آنها، می توان نگرش کامل دوربین 6-DoF تصویر مربوطه را به دست آورد. SfM همان معایب SIFT را دارد: هر دو نیاز به زمان طولانی اجرا دارند. در سطح کاربرد عملی،
یادگیری ماشینی شامل تئوری های زیادی مانند درخت تصمیم، جنگل تصادفی، یادگیری عمیق و غیره است. J. Shotton و همکاران. [ 13] از مختصات صحنه برای تغییر موقعیت داده های برگشتی بر اساس تصاویر RGB-D استفاده کرد. نویسندگان از مختصات صحنه تصویر با اطلاعات عمق استفاده کردند. این روش اطلاعات مختصات تصاویر عمق را از دوربین به کل منطقه تبدیل می کند و سپس این مختصات را برای آموزش مدل جنگل رگرسیون وارد می کند. سپس رگرسیون را برای مکان یابی دوربین مدل می کنند. علاوه بر این، این روش مدل جنگل تصادفی را برای پیشبینی موقعیت پیکسلها در تصویر آموزش میدهد و با ایجاد تطابق 2 بعدی-3 بعدی به جای موقعیتیابی نسبی، نگرش دوربین را تخمین میزند. یادگیری عمیق انواع بسیاری از شبکههای عصبی مصنوعی (ANN) را مانند شبکه عصبی کانولوشنال (CNN)، شبکه عصبی بازگشتی (RNN) و غیره تقسیم میکند. برای تشخیص تصویر، CNN پرمخاطب ترین فناوری است. در حال حاضر، فناوریهای بیشتری وجود دارد که میتوانند مدل CNN را در دستگاههای تلفن همراه اعمال کنند و عملکرد شناسایی بلادرنگ را پیادهسازی کنند. یک مدل CNN که به آموزش زمان قابل توجهی نیاز دارد، می تواند به صورت آفلاین مستقر شود. کاربران تنها از مدلهای CNN مستقر در دستگاههای تلفن همراه برای اهداف موقعیتیابی استفاده میکنند که مشکلات فنی فوقالذکر، از جمله فقدان LiDAR و محاسبات طولانی را حل میکند. بخش بعدی فناوری موقعیت یابی مبتنی بر CNN را به طور مفصل مورد بحث قرار خواهد داد.
2.3. شبکه عصبی کانولوشنال
یک شبکه عصبی کانولوشنال یا CNN [ 14 ]، یک الگوریتم شناسایی تصویر موثر و مفید است که به طور گسترده در تشخیص الگو، تشخیص اشیا و موقعیتیابی تصویر استفاده میشود. CNN دارای سه نقطه قوت در پردازش تصویر است: (1) می تواند مقادیر ویژگی های با وضوح بالا را از مناطق محلی از طریق فیلترها استخراج کند. (2) ساختار تقسیم وزن آن می تواند پارامترهای آموزشی را کاهش دهد، بنابراین پیچیدگی شبکه را کاهش می دهد. (3) هر دو اجازه می دهند استخراج و طبقه بندی پیش بینی به طور همزمان اجرا شود. مدل های CNN، مانند AlexNet، GoogLeNet [ 15 ]، و شبکه باقیمانده (ResNet) [ 16 ]]، همه معماری های شبکه شناخته شده در زمینه تشخیص تصویر هستند. AlexNet قهرمان مسابقه ImageNet ILSVRC در سال 2012 بود و همچنین مدلی است که توجه CNN را به خود جلب کرده است. GoogLeNet برنده مسابقه طبقه بندی ILSVRC در سال 2014 بود. Szegedy et al. از یک ماژول اولیه برای کاهش پارامترهای آموزشی استفاده کرد که در بخش 4.3.2 به تفصیل توضیح داده خواهد شد. ResNet قهرمان مسابقات ILSVRC در سال 2015 بود. او و همکاران. دریافتند که اگر تعداد لایههای شبکه به تعداد معینی برسد، دقت آموزش شروع به کاهش میکند، یعنی اگر شبکه بیش از حد عمیق باشد، آموزش آن دشوار میشود. نویسندگان یک شبکه باقیمانده را برای بهبود مشکل ناپدید شدن گرادیان در فرآیند آموزش طراحی کردند، که از طریق آن مقدار ورودی را می توان به مقدار خروجی تقریب زد، که تا حد زیادی میزان خطای آموزش را کاهش می دهد. در این بخش، موقعیتیابی مبتنی بر CNN برای دو هدف مورد بحث قرار میگیرد: تخمین عمق برای تولید نقشههای عمق و تخمین موقعیت رگرسیون. نقشه عمق یک تصویر دو بعدی است و هر پیکسل روی تصویر فاصله بیننده تا سطح جسم را ثبت می کند. در اینجا، شی به شیء ایجاد شده توسط یک سایه اشاره دارد. گدار و همکاران [17 ] مدل متفاوتی را پیشنهاد کرد و نشان داد که به دادههای عمقی نیازی نیست، اما نقشههای عمق مصنوعی مستقیماً به عنوان مقادیر میانی آموزش داده میشوند. علاوه بر این، این مدل از تخمین عمق تک چشمی بدون نظارت استفاده می کند که هدف آن تخمین تصاویر استریو دوچشمی با استفاده از یک تصویر واحد است. این روش یک مقدار تلفات آموزشی جدید برای بازسازی تصویر ارائه میکند، که میتواند ثبات چپ-راست را در شبکه عصبی افزایش دهد و در نهایت نقشههای عمق اختلاف را ایجاد کند. ژو و همکاران [ 18] یک مدل یادگیری بدون نظارت پیشنهاد کرد که از تصاویر پیوسته برای تخمین حرکت خود و بازسازی صحنه استفاده می کند. این مدل ها از یک شبکه عمق تصویر واحد و یک شبکه نگرش چند تصویری استفاده می کنند. تابع از دست دادن تلفات بین تصویر و هدف را از عمق و نگرش تخمینی محاسبه میکند و در نهایت نقشه عمق پیشبینیشده یک تصویر را ایجاد میکند.
همچنین مطالعاتی در مورد موقعیت یابی در ترکیب با انواع فناوری های موقعیت یابی داخلی انجام شده است. اشرف و همکاران [ 19 ] داده های حسگر تلفن همراه را با CNN برای پیش بینی موقعیت فعلی عابران پیاده با هدف کاهش وابستگی دستگاه ها به سیستم موقعیت یابی میدان مغناطیسی ترکیب کرد. در ابتدا، یک مدل CNN برای تشخیص صحنه های داخلی آموزش داده شد که به شناسایی طبقات خاص و کاهش فضای جستجو کمک کرد. سپس یک K نزدیکترین همسایه (mKNN) اصلاح شده برای محاسبه موقعیت فعلی عابر پیاده به عنوان نقطه شروع PDR پیشنهاد شد. سپس فیلتر کالمن توسعه یافته (EKF) از موقعیت PDR و پایگاه داده پیاده سازی شد و موقعیت نهایی به دست آمد. کانگ و همکاران [ 20] یک معماری جدید برای بهبود عملکرد PDR پیشنهاد کرد. یک قاب سیگنال قطعهبندی شده برای تعیین سرعت عابر پیاده برای CNN و RNN استفاده شد و فاصله پیادهروی با محاسبه سرعت و زمان حرکت تخمین زده شد. وانگ و همکاران [ 21 ] اطلاعات وضعیت کانال (CSI) را از WiFi به عنوان ورودی CNN عمیق برای پیش بینی موقعیت دستگاه های تلفن همراه استخراج کرد. میتال و همکاران [ 22 ] همچنین از دادههای WiFi استفاده میکرد. آنها روشی را برای تبدیل امضاهای وای فای به تصاویر پیشنهاد کردند تا یک CNN با چارچوب تشخیص اثر انگشت توسعهیافته بسازند. نیتسو و همکاران [ 23 ] و برگار و همکاران. [ 24] از آخرین سیگنال بی سیم فوق پهن باند (UWB) استفاده کرد. آنها یک چارچوب CNN برای تخمین موقعیت مطلق برچسب ها با یادگیری داده های پاسخ ضربه ای کانال (CIR) پیشنهاد کردند.
کندال و همکاران به منظور پسرفت دقیق وضعیت یک دوربین تک چشمی. [ 2 ] در سال 2015 از یک مدل CNN به نام PoseNet برای پسرفت تخمین پوز استفاده کرد. آنها از الگوریتم SfM طراحی شده توسط Furukawa و همکاران استفاده می کنند. [ 25 ] برای به دست آوردن اطلاعات موقعیت مورد نیاز. در طول مرحله آموزش، نویسندگان 455 × 256 پیکسل را برای تصاویر رنگی مقیاس کردند و مرکز را به 224 × 224 پیکسل برش دادند. سپس نویسندگان پیکسل های مقیاس شده را برای آموزش وارد مدل می کنند. تزهای پیشنهاد شده توسط Bengio و همکاران. [ 26 ]، Oquab و همکاران. [ 27 ]، و رضویان و همکاران. [ 28] امکان سنجی انتقال یادگیری را نشان داده اند. کندال و همکاران وزن سایر مدل ها را قبل از آموزش مبتنی بر یادگیری انتقالی یاد گرفت. یادگیری انتقال نشان میدهد که بارگذاری یک مدل پیشآموزشی میتواند همگرایی فرآیندهای آموزشی را تسریع کند و به شبکههای عصبی کمک کند تا ویژگیهای محلی را به سرعت یاد بگیرند. این مدل همچنین می تواند در مجموعه داده بدون برازش بیش از حد اعمال شود. در نهایت، مدل آموزشی برای دستیابی به موقعیتیابی دوربین، یک بردار حالت ۷ بعدی را پسرفت میکند. کندال و همکاران [ 29 ] از CNN بیزی برای تخمین عدم قطعیت مدل برای سال بعد، برای تشخیص حضور صحنه ها در تصویر ورودی، و برای بهبود دقت موقعیت یابی مجموعه داده های فضای باز در مقیاس بزرگ استفاده کرد. کندال و همکاران [ 30] تابع ضرر جهت گیری تخمین PoseNet را در سال 2017 برای بهبود عملکرد مدل تنظیم کرد. والچ و همکاران [ 31] یک معماری جدید بر اساس مدل PoseNet ارائه کرد که CNN را با حافظه کوتاه مدت بلند مدت (LSTM) ترکیب می کند. LSTM نوعی شبکه عصبی است که برای پردازش داده های متوالی استفاده می شود. مزیت این مدل این است که می تواند وزن لایه های قبلی را حفظ کند تا اطمینان حاصل شود که ویژگی های مفید در طول تمرین از بین نمی رود. شهود نویسندگان این است که PoseNet یک ژست را از ابعاد بالا تخمین می زند، بنابراین استفاده از یک لایه متصل کامل انتخاب خوبی نیست. ابعاد بالای خروجی اتصال کامل ممکن است منجر به برازش بیش از حد در طول آموزش شود، بنابراین نویسندگان LSTM را پس از اتصال کامل برای کاهش ابعاد ساختاری و انتخاب ویژگیهای مفید برای تخمین پوز طراحی کردند. PoseNet کاملاً برای مکان های داخلی مناسب نیست. اگرچه کندال و همکاران. به روز رسانی این مدل ادامه داده اند، زیرا تمرکز این تحقیق بر دقت موقعیت یابی است، تنظیم تابع ضرر داخلی اجتناب ناپذیر است. علاوه بر این، PoseNet در رابطه با مسائل خطای موقعیت اندازههای مختلف تصویر، اندازههای میدان، پلتفرمهای متقابل و غیره مورد بحث قرار نگرفته است. بنابراین، این مقاله این عوامل را به طور عمیق مورد بحث قرار میدهد.
3. بیان مشکل
به منظور تبیین واضح مشکلات و اهداف این مطالعه، برخی از اصطلاحات استفاده شده در این مقاله باید به طور رسمی تعریف شوند. سپس، بیان مشکل در این بخش خلاصه می شود. جدول 1 نمادهای استفاده شده در این مقاله را خلاصه می کند.
تعریف 1.
یک داده پارامتر D یک داده را نشان می دهد و این مبنا شامل مجموعه ای از N × M پیکسل از اطلاعات تصویر RGB است. این داده را می توان به داده های تاریخی و داده های آینده تقسیم کرد. داده های تاریخی نوعی داده است که از داده های شناخته شده تشکیل شده است که در آموزش نمونه های مورد نیاز برای یادگیری مدل استفاده می شود. داده های تاریخی دساعت={من، پv} شامل بردار موقعیت سه بعدی مشاهده شده خواهد بود پv. از سوی دیگر، دادههای آینده یک نوع داده با دادههای ناشناخته هستند که در نمونههای آزمایشی مورد نیاز برای پیشبینی مدل استفاده میشوند. برای داده های آینده دf={من، nتولل}، پv ارزش ناشناخته است بردار موقعیت پvدر مدل CNN ارزیابی خواهد شد.
تعریف 2.
مجموعه داده یک دستگاه دوربین. ما از یک دستگاه دوربین برای جمع آوری یک یا چند داده مسیر استفاده می کنیم D={دo، د1، د2،…، دn}با اطلاعات تصویر داده های مسیر به داده های تاریخی (نمونه های آموزشی) و داده های آینده (نمونه های آزمایشی) تقسیم می شوند. نمونه های آزمایشی باید توسط نمونه های آموزشی پوشانده شوند تا مدل CNN بتواند به طور موثر بردار موقعیت را پیش بینی کند پvاز داده های آینده شکل 2 مجموعه ای از داده ها را نشان می دهد که شامل یک مجموعه داده است. هر دستگاه دوربین دارای یک مجموعه داده است.
تعریف 3.
یک صحنه. یک صحنه اس={D1، D2، D3، …، Dn}می تواند از یک یا چند مجموعه داده تشکیل شود. شکل 3 نمونه ای از سناریویی را نشان می دهد که در آن دستگاه های دوربین زیادی وجود دارد.
هدف پژوهش. این تحقیق بر پیش بینی موقعیت دوربین تمرکز دارد. منو پvدر مجموعه داده دساعتبه عنوان مقادیر ورودی استفاده خواهد شد و CNN مدل را آموزش خواهد داد. در نهایت از مدل برای پیش بینی بردار موقعیت استفاده خواهد شد پvاز هر دf. به حداقل رساندن میانه خطای موقعیت پیش بینی شده (m) هدف اصلی این مطالعه است. علاوه بر این، بسیاری از نمونههای آزمایشی پیشبینی میشوند و تمام خطاهای این نمونهها برای ارزیابی خطاهای میانه با توجه به موقعیت دقیق زمین مجموعه داده جمعآوری میشوند. این تحقیق همچنین سعی دارد از دستگاههای دوربین مختلف (مجموعه دادهها) به عنوان نمونههای آموزشی و آزمایشی در یک سناریو برای دستیابی به موقعیتیابی دوربین بین پلتفرمی استفاده کند.
4. روش شناسی
این بخش روش پیشنهادی را برای مدل یادگیری عمیق برای پسرفت موقعیت دوربین در صحنه داخلی معرفی می کند.
4.1. چارچوب
مراحل و فرآیندهای معماری کلی در شکل 4 نشان داده شده است. بر اساس مدل PoseNet، یک شبکه عصبی کانولوشن (CNN) برای موقعیت یابی داخلی طراحی شده است. علاوه بر این، ما محدوده مدلهای اصلی CNN را برای جمعآوری دادههای داخلی، تنظیم و آموزش، و همچنین تصحیح خطا بین پارامترهای مختلف دوربین مورد بحث قرار میدهیم. داده های داخلی عمدتاً از یک پلت فرم کارتوگرافی متحرک برای جمع آوری تصویر و اطلاعات موقعیت مورد نیاز مدل استفاده می کنند. قبل از عملیات واقعی، تصویر جمع آوری شده توسط پلت فرم کارتوگرافی موبایل به عنوان تصویر تلفن همراه شبیه سازی می شود. ساختار و عملکرد از دست دادن مدل CNN تنظیم شده است، و اندازه تصویرهای مختلف مطابق با مدل های قبل از آموزش قبل از مرحله آموزش طراحی شده است. علاوه بر این، این مطالعه همچنین یک الگوریتم تصحیح خطای زاویه را برای تصحیح خطاهای موقعیت بین پلتفرم های مختلف دوربین طراحی می کند.
4.2. آماده سازی داده ها
مقاله ما یادگیری تحت نظارت را اتخاذ می کند، که به داده ها و برچسب های موقعیت دقیق زمین مربوطه نیاز دارد. در مسئله موقعیت از تشخیص موقعیت تصویر با مختصات جغرافیایی استفاده می شود. در سالهای اخیر، بسیاری از مجموعه دادهها در پردازش تصویر برای مقابله با طبقهبندی یا موقعیتیابی صحنه در فضای باز استفاده شدهاند. برای مجموعه دادههای مورد استفاده در محیطهای داخلی، بیشتر فضاهایی به اندازه اتاق دارند. برای آزمایش با مناطق خاص، داده ها باید به طور مستقل جمع آوری شوند. به منظور مقابله با مقاصد در مقیاس بزرگ و دراز مدت، پلت فرم کارتوگرافی سیار داخلی برای جمع آوری داده های صحنه داخلی استفاده می شود. این پلتفرم کارتوگرافی سیار توسط پروژه توسعه پلتفرم موبایل بر روی فناوری نقشه برداری و نقشه برداری ارائه شده است [ 32]. پلت فرم کارتوگرافی متحرک یک گاری ماشین آلات کشاورزی برقی با دو ابزار دقیق است. همانطور که در نشان داده شده است شکل 5 نشان داده شده است، این سکو مجهز به کلید برقی برای کنترل حرکت رو به جلو یا عقب آن است. علاوه بر این، این پلت فرم دارای یک دستگاه ترمز خودکار است که می تواند به طور خودکار عملکرد ترمز را حتی در صورت ساکن بودن سکو در شیب بدون ایجاد خطر، شروع کند. از آنجایی که این پلت فرم برای کنترل جهت نیاز به عملیات دستی دارد، جمع آوری مجموعه داده به زمان قابل توجهی نیاز دارد. ابزارهای دقیقی بر روی پلت فرم مجهز شده اند تا داده های مورد نیاز برای آزمایش را جمع آوری کنند. ابزار دقیق به سیستم موقعیت یابی و سیستم نقشه برداری تقسیم می شوند. سیستم موقعیت یابی از INAV-RQH-10018-IMAR، شامل گیرنده ماهواره ای GNSS و ابزار اندازه گیری اینرسی IMU استفاده می کند. سیگنالهای GNSS در فضای باز شناسایی میشوند و سپس پلتفرم به داخل خانه فشار داده میشود تا اطلاعات موقعیت و اطلاعات تصویر جمعآوری شود. اطلاعات موقعیت توسط نرم افزار PointerMMS که توسط شرکت کننده در پروژه توسعه پلت فرم تلفن همراه بر روی فناوری نقشه برداری و نقشه برداری توسعه یافته است، پردازش می شود. با توجه به نتایج آزمایش در سال 2015، دقت کمتر از 1 متر در 5 دقیقه است. سیستم نقشه برداری از دوربین LadyBug5 استفاده می کند. این دوربین مجهز به لنزهای شش زاویه برای گرفتن عکس به صورت همزمان و تشکیل خروجی تصویر پانوراما است. با توجه به جهانی بودن زندگی و استفاده از فناوری موقعیت یابی داخلی، پانورامای ثبت شده توسط دوربین LadyBug5 برای تصاویر با پارامترهای مختلف تلفن همراه از قبل پردازش و شبیه سازی شده است. برای توضیح بیشتر، پانوراما توسط یک برنامه به یک هواپیما متصل می شود و تصاویر گرفته شده در جهت های مختلف برای سه زاویه شبیه سازی می شوند. سه زاویه، انحراف، گام، و رول، جهت گیری مطلق تصویر را نشان می دهد. برای سادگی، این مقاله از قراردادهای معمولی برای این زوایا استفاده نمی کند. در عوض، از قراردادهای “قابل خواندن آسان توسط انسان” استفاده می کند:
-
Yaw به عنوان زاویه بین محور نوری دوربین و جهت شرقی تعریف می شود. اگر تصویر شبیه سازی شده به سمت شرق “نگاه” داشته باشد، دارای انحراف 0 درجه است. اگر تصویر در جهت شمال باشد، دارای انحراف 90 درجه است.
-
Pitch به عنوان زاویه بین محور نوری و صفحه افقی تعریف می شود که وقتی تصویر شبیه سازی شده به سمت بالا “نگاه می کند” مثبت تعریف می شود.
-
رول به عنوان چرخش تصویر حول محور نوری تعریف می شود. هنگامی که دوربین به سمت چپ متمایل می شود، مثبت است.
هر دوربین فاصله کانونی و اندازه تصویر متفاوتی دارد. در این مقاله، از این دو پارامتر برای شبیهسازی دوربینهای مختلف استفاده میشود، جایی که اندازه تصویر نشاندهنده عرض و ارتفاع یک تصویر برشخورده در پانوراما است که میتوان از آن برای تعیین وسعت دید استفاده کرد. به طور خلاصه، این تصاویر شبیه سازی شده تلفن همراه، همگی اطلاعات موقعیت مرجع جغرافیایی خود را دارند.
4.3. آموزش مدل CNN
این بخش مدل CNN را بر اساس موقعیت دوربین معرفی میکند و نحوه تنظیم مجدد معماری یک CNN 23 لایه را به طور مفصل توضیح میدهد تا مدل بتواند عملکردهای جدید کاهش را برای بهروزرسانی وزن و در نهایت خروجی بردار موقعیت یاد بگیرد. سه بخش زیر موقعیتیابی دوربین، معماری CNN و عملکرد از دست دادن را توضیح میدهد.
4.3.1. موقعیت یابی دوربین
موقعیت یابی دوربین بر اساس رابطه نسبی بین نقاط کنترل تصویر و دوربین ها است و از اصل هندسی برای محاسبه موقعیت دوربین ها استفاده می شود. علاوه بر به دست آوردن تصاویر خوب و اطلاعات مختصات موقعیت دقیق، نحوه استخراج ویژگی های مهم از یک تصویر و نحوه رگرسیون دقت موقعیت یابی نزدیک به موقعیت دقیق زمین، مهمترین هدف این مقاله برای موقعیت یابی داخلی بر اساس CNN است. این مدل به معماری PoseNet اشاره دارد و تنظیمات جزئی در آن انجام دهید تا موقعیت دوربین را مستقیماً از روی مدل آموزش تصویر محاسبه کنید. سپس، شبکه عصبی متحرک بردارهای موقعیت (یعنی اطلاعات موقعیت سه بعدی) را همانطور که در فرمول (1) نشان داده شده است، خروجی می دهد:
4.3.2. معماری CNN
معماری PoseNet همچنین به CNN 22 لایه GoogLeNet اشاره دارد [ 15 ]]، که یک مدل طبقه بندی است و قبلاً قهرمان چالش شبکه داده بزرگ ImageNet (ILSVRC14) بود. اگرچه این CNN دارای ساختار شبکه عمیق ۲۲ لایه است، اما اندازه پارامترهای آن بسیار کوچکتر از سایر شبکههای با لایههای کمتر (مانند گروه هندسه بصری (VGG) یا شبکههای AlexNet) است. به منظور افزایش تعداد لایه ها و کاهش تعداد پارامترها، فقط می توان از اتصالات پراکنده استفاده کرد، اما اکثر الگوریتم ها بر اساس یک ماتریس متراکم هستند. بنابراین، برای دستیابی به عملکرد محاسباتی بالا، فقط می توان انباشته شدن نورون ها در مغز انسان را شبیه سازی کرد و ماتریس پراکنده را می توان در ماتریس متراکم برای رسیدن به این هدف جمع کرد. GoogLeNet ساختار شبکه ای به نام “ماژول های آغازین” را برای ایجاد یک ساختار شبکه پراکنده و بسیار محاسباتی پیشنهاد می کند. این ماژول های Inception فیلترها را در لایه کانولوشن گروه بندی می کنند. یعنی در یک لایه از فیلترهایی با مقیاس های مختلف برای به دست آوردن مقادیر ویژه بهتر و مفیدتر استفاده می شود. کندال و همکاران کارایی معماری AlexNet و GoogLeNet را مقایسه کرد و در نهایت در مورد معماری GoogLeNet تصمیم گرفت.شکل 6 معماری اصلاح شده PoseNet بر اساس GoogLeNet را نشان می دهد. تنظیمات اصلی با جعبه های بنفش و سبز روشن مشخص شده اند.
-
جعبه بنفش: سه طبقهبندی چندگانه با افین رگرسیون جایگزین شدند. هر لایه نهایی اتصال کامل، یک حالت هفت بعدی، شامل یک موقعیت سه بعدی و یک چهار بعدی چهار بعدی را خروجی می دهد.
-
جعبه سبز روشن: یک لایه اتصال کامل با اندازه ویژگی 2048 قبل از بازسازی کننده آفین نهایی وارد می شود تا یک معماری 23 لایه تشکیل شود. این فرآیند یک بردار مکان ایجاد می کند که می تواند توسط PoseNet کاوش شود. برای مسائل طبقه بندی، برچسب خروجی محدود است زیرا هر برچسب خروجی از یکی از نمونه های آموزشی آمده است. اما در مسائل رگرسیون، برچسب خروجی یک مقدار پیوسته و خروجی رگرسیون بی نهایت و پیچیده است.
این تحقیق همچنین تنظیماتی را در معماری PoseNet انجام داده است. خروجی نهایی مدل PoseNet شامل اطلاعات موقعیت و جهت گیری است، اما جهت گیری برای هدف ما ضروری نیست. هدف نهایی ما این است که به کاربران اجازه دهیم از تلفن های همراه برای موقعیت یابی تصویر استفاده کنند و بر دقت موقعیت تمرکز کنند. یک تلفن همراه دارای حسگر سه محوره شتاب سنج، ژیروسکوپ و مغناطیس سنج است. فقط اطلاعات ژیروسکوپ در تلفن همراه برای تعیین زاویه جهت گیری مورد نیاز است، بنابراین برای تخمین جهت گیری نیازی به CNN نیست. به این معنا که همانطور که در شکل 7 نشان داده شده است ، مدل CNN ما در نهایت جهت گیری را کنار گذاشته و فقط اطلاعات موقعیت را خروجی می کند.
علاوه بر این، در مرحله پیش پردازش تصویر قبل از آموزش، PoseNet برای تصویر رنگی ورودی 455 × 256 پیکسل مقیاس میدهد و سپس مرکز را به 224 × 224 پیکسل برش میدهد. اگرچه این روش برش تصویر نمی تواند تصویر را تغییر شکل دهد، اما این روش منجر به از بین رفتن ویژگی های مهم محیط محلی اطراف می شود. به خصوص برای محیط های داخلی، هر مقدار پیکسل هر تصویر بسیار مهم است، که پایه مهمی برای CNN برای محاسبه موقعیت آن است. همانطور که در شکل 8 نشان داده شده است ، روش برش حذف می شود، و تصویر رنگی مجاز است به طور مستقیم به N × N مقیاس شود.پیکسل ها به عنوان مقادیر ورودی برای حفظ یکپارچگی تصویر. PoseNet علاوه بر پیش پردازش تصویر، از یک مدل قبل از آموزش نیز قبل از مرحله آموزش استفاده می کند. این مدل پیشآموزشی، مدل CNN را قادر میسازد تا وزنهای اولیه را بیاموزد و به آموزش مدل اجازه میدهد تا به سرعت همگرا شوند. این فرآیند مانند یادگیری حروف انگلیسی است (مدل پیش از آموزش) که مستلزم دادن دانش اولیه به کودکان از حروف (وزن) است و به دنبال آن یادگیری کلمات یا مکالمات از طریق آموزش است که سریعتر از یادگیری اول انگلیسی است. نتایج تجربی مدل قبل از آموزش برای تطبیق اندازه مقیاس به طور مفصل در بخش 4 توضیح داده خواهد شد .
4.3.3. عملکرد از دست دادن
معماری مدل CNN در بخش قبل توضیح داده شد. در این قسمت اگر تابع ضرر افت جهت گیری را محاسبه کند بر دقت پیش بینی موقعیت تاثیر می گذارد. تحقیقات ما بر دقت موقعیت متمرکز است، بنابراین جهت گیری برای پیش بینی استفاده نمی شود. از آنجایی که جهت تخمین حذف شده است، تابع ضرر برای معادله (2) بازنویسی می شود. این تحقیق از الگوریتم شیب نزولی تصادفی (SGD) در فرآیند آموزش برای به دست آوردن تلفات اقلیدسی برای بازگشت به موقعیت دوربین استفاده می کند. تابع ضرر در معادله (2) نشان داده شده است پ^و P به ترتیب مقادیر پیش بینی شده موقعیت و موقعیت دقیق زمین هستند. بسیاری از مجموعه دادههای تشخیص تصویر برای بررسی ویژگیها از قبل آموزش داده میشوند و سپس مدل پیشآموزشی برای آموزش در مدلهای دیگر بارگذاری میشود. این روش کمک می کند تا در زمان تمرین کمتر به ضرر کمتری همگرا شود. سپس از مدل پیشآموزشی استفاده میشود (به نام GoogLeNet) و با استفاده از تنظیمات مشابه کندال و همکاران آزمایش میکنند.
4.4. تصحیح خطا
در این بخش، یک روش تصحیح خطا برای تصحیح پیش بینی موقعیت اولیه از مدل یادگیری عمیق معرفی شده است. بر اساس نتایج تجربی اولیه، تخمین موقعیت بین تلفنهای همراه شبیهسازی شده با دوربین ممکن است خطای موقعیت بزرگی داشته باشد و خطای موقعیت متوسط نتایج اندازهگیری شده میتواند به اندازه ۳ تا ۴ متر باشد، با استفاده از یک تلفن همراه شبیهسازی شده نمونه آموزشی برای آموزش مدل و یک تلفن همراه شبیه سازی شده دیگر به عنوان نمونه تست موقعیت رگرسیون. این نوع تخمین خطای بالا به هیچ وجه برای موقعیت یابی فضای داخلی قابل استفاده نیست، بنابراین روشی برای استفاده از زاویه شناخته شده برای خوشه بندی طراحی شده است. از آنجایی که زوایای مختلف نمونههای آزمایشی پیدا شدهاند، نتایج خطا دارای توزیعهای متفاوتی از جابجایی خواهند بود. پس از آزمایش های آزمایشی اولیه، توزیع ثابت ممکن به یک گروه تقسیم می شود و مقدار پیش بینی موقعیت سه محور از موقعیت دقیق زمین هر گروه از تصاویر کم می شود تا مقدار خطای موقعیت سه محور به دست آید. سپس، میانگین خطا پخطا[ایکس، y، z]همانطور که در فرمول (3) نشان داده شده است، از هر گروه به طور میانگین محاسبه می شود. پس از محاسبه میانگین خطای هر گروه، خطای موقعیت اولیه با توجه به زاویه تیراندازی در آن زمان و با توجه به اینکه زاویه در گروه قرار می گیرد با استفاده از میانگین خطای محاسبه شده قبلی اصلاح می شود. این روش محاسبه برای کم کردن میانگین خطا از مقدار پیشبینی شده اولیه و به دست آوردن مقدار پیشبینی شده پس از تصحیح خطا استفاده میشود. سی[ایکس، y، z]همانطور که در فرمول (4) نشان داده شده است.
پنج نوع ترکیب گروه بندی زاویه با تصحیح خطا طراحی شده است ( شکل 9 ). میانگین تعداد نمونهها برای هر ترکیب گروهبندی زاویهای نباید خیلی کم باشد و محدوده نمونهگیری نباید خیلی متمرکز باشد. بهترین روش میانگین گیری کل مسیر است. اگر شرایط فوق برآورده شود، میانگین خطا را می توان به دست آورد تا موقعیت پیش بینی اولیه را به طور موثر تصحیح کرد. به عنوان مثال، همانطور که در نشان داده شده است شکل 10 نشان داده شده است، مجموعه داده از یک منطقه برش با یک مسیر دایره ای استفاده می کند. نمونه آموزشی شبیه سازی تصاویر تلفن همراه Zenfone2 (در مجموع 5500)، در حالی که نمونه آزمایشی شبیه سازی تصاویر تلفن همراه R11s، در مجموع 1250. با استفاده از 10 نقطه موقعیت تصادفی، هر نقطه موقعیت دارای 10 تصویر جهت است. در مجموع 100 نمونه گروه بندی و میانگین گیری شده است. نتایج تجربی به تفصیل در بخش 5.7 توضیح داده خواهد شد .
همانطور که در شکل 9 نشان داده شده است ، G1 یک روش شهودی است که در آن تمام زوایا با هم میانگین می شوند. مفهوم طراحی G2 تا G4 بر اساس نتایج تجربی اولیه است. پس از اینکه نمونه های آزمایشی در محدوده 60 درجه تا 120 درجه و 240 درجه تا 300 درجه از طریق مدل CNN پسرفت کردند، موقعیت های تخمینی آنها توزیع ثابتی در فضا نسبت به موقعیت دقیق زمین ندارند. بنابراین، سه خوشه مختلف برای انجام آزمایش طراحی شد. G5 زوایای بین 60 تا 120 درجه و 240 درجه تا 300 درجه را به یک منطقه تقسیم نمی کند، بلکه آنها یک خوشه هستند. جزئیات هر گروه زاویه در زیر توضیح داده شده است.
-
G1: گروه اول غیر خوشه بندی هستند و مقادیر خطای متوسط همه زوایا با هم ساخته می شوند. این ترکیب بصری ترین است و کارایی آن کمتر از سایر ترکیب ها است.
-
G2: هر رنگ یک گروه است. برای مثال، زاویه بین 0 تا 120 درجه یک گروه است. در مجموع چهار گروه وجود دارد و میانگین مقادیر خطای هر گروه محاسبه می شود.
-
ج3: این گروه نیز به چهار گروه تقسیم می شود. به طور خاص، زوایای بین 60 درجه تا 120 درجه و بین 240 درجه تا 300 درجه برای محاسبه میانگین خطا استفاده نمی شود. با این حال، زاویه این دو بازه با استفاده از مقادیر خطای متوسط محاسبه شده از 0 تا 60 درجه و از 180 درجه تا 240 درجه اصلاح می شود.
-
G4: هر رنگ یک گروه است، مانند زوایای بین 60 درجه و 120 درجه و زوایای بین 300 درجه و 0 درجه. در مجموع چهار گروه وجود دارد و میانگین مقادیر خطای هر گروه محاسبه می شود.
-
G5: 60 درجه تا 120 درجه و 240 درجه تا 300 درجه به ترتیب خوشهبندی شدهاند. بنابراین، در مجموع شش گروه وجود دارد و هر گروه مقدار میانگین خطای خود را محاسبه می کند.
5. ارزیابی تجربی
این بخش تصاویر و اطلاعات موقعیت جغرافیایی را از طریق پلتفرم کارتوگرافی موبایل داخل ساختمان جمع آوری می کند و تصاویر مختلف تلفن همراه را شبیه سازی می کند. یک پارکینگ زیرزمینی و موزه کاخ جنوبی به عنوان مکان های آزمایشی انتخاب شدند. دقت موقعیت شبکه عصبی کانولوشن (CNN) با تغییر اندازههای مختلف تصویر ارزیابی میشود و مسائل مربوط به اندازه میدان، دوربین متقاطع و تصحیح خطا مورد بحث قرار میگیرد. تمام آزمایش ها بر روی سکوی تنسورفلو انجام شد. در این آزمایش از سه دستگاه سخت افزاری استفاده شد: GPU های Geforce GTX 1080 TI، Geforce GTX 1080 و Geforce GTX 2080 TI که CNN را تسریع کردند. هر مدل CNN برای 30000 تکرار آموزش داده شد.
5.1. طراحی تجربی
این آزمایش از یک مدل از پیش آموزش دیده به نام GoogLeNet با استفاده از پایگاه داده Places [ 33 ] استفاده کرد که شامل حدود 7 میلیون تصویر و 476 دسته صحنه است. این مدل برای 800 تکرار آموزش داده شد. معماری مقداردهی اولیه می شود و مدل از پیش آموزش دیده برای به دست آوردن وزن اولیه تصادفی شبکه عصبی وارد می شود. میدان آزمایشی مجموعه داده های پارکینگ زیرزمینی و موزه کاخ جنوبی را جمع آوری کرد. ساختار 23 لایه CNN برای آموزش وظیفه شناسایی مکان انتها به انتها و بازگشت به موقعیت دوربین استفاده شد. تصاویر پانورامای صحنه داخلی و اطلاعات موقعیت جغرافیایی از طریق پلت فرم کارتوگرافی سیار داخلی [ 32 ] جمع آوری شد.] برای آموزش مدل تجربی به دست آمد. در این آزمایش از برنامه نویسی متلب برای اتصال پانوراما به صفحات استفاده شد و از طریق پنج پارامتر شامل رول، پیچ، انحراف، فاصله کانونی و اندازه تصویر، تصاویر دوربین های مختلف با جهت گیری های مختلف شبیه سازی شد. این آزمایش از پارکینگ زیرزمینی پشت تالار گروه مهندسی پردیس چنگ کونگ دانشگاه ملی چنگ کونگ و حیاط جنوبی موزه کاخ ملی به عنوان میدان آزمایشی استفاده میکند. مشخصات و سایر طرح های آزمایشی به تفصیل در بخش های بعدی توضیح داده شده است.
نتایج تجربی به عنوان خطا ارائه شده است. برای هر تصویر آزمایشی، فاصله اقلیدسی پس از کم کردن مقدار پیشبینیشده اصلاحشده از موقعیت دقیق زمین، و مقدار خطای نهایی محاسبه میشود. Errorمنهمانطور که در فرمول (5) نشان داده شده است، به دست می آید.
دو روش اصلی برای ارزیابی آزمایش ها وجود دارد: یکی از خطای میانه و دیگری از دقت استفاده می کند. خطای میانه برای یافتن مقدار میانه N اعداد مرتب شده در مجموعه داده استفاده می شود. فرمول این است (ن+1)/2. علاوه بر این، برای مقادیر فرد، عدد میانی و برای مقادیر زوج، نقطه میانی بین دو مقدار میانی آورده شده است. همانطور که در فرمول (6) نشان داده شده است، وقتی N عدد از دنباله X وجود داشته باشد، فرمول دو مقدار میانی به دست می دهد، به عنوان مثال، ایکستوپپهrو ایکسلowهr، و میانگین دو مقدار میانی نتیجه نهایی خواهد بود، میانه(ایکس). به عنوان مثال، برای شش مقدار، فرمول یک شاخص 3.5 به دست می دهد و مقادیر دوم (بالایی) و سوم (پایین) را برای گرفتن مقادیر میانی میانگین می دهد:
روش محاسبه نسبت طراحی آستانه T است. در نمونههای آزمایشی N ، خطای موقعیت با کم کردن موقعیت دقیق زمین P از مقدار پیشبینیشده موقعیت به دست میآید. پ^. اگر خطای موقعیت کمتر از آستانه باشد، به عنوان موقعیت یابی دقیق در نظر گرفته می شود. در نهایت، این نسبت با تقسیم عدد دقیق بر تعداد کل محاسبه می شود. فرمول (7) به شرح زیر است:
5.1.1. پارکینگ زیرزمینی
پارکینگ زیرزمینی پشت تالار گروه مهندسی پردیس چنگ کونگ دانشگاه ملی چنگ کونگ مساحتی در حدود 80 × 15 متر مربع را پوشش می دهد. مسیر حرکت آن در شکل 11 الف نشان داده شده است، از نقطه شروع به پایین شروع می شود، سپس به چپ می چرخد تا به نقطه شروع بازگردد. شکل 11 b یکی از نمونه های تصویر است که در مجموع 135240 تصویر شامل 230 موقعیت، هر کدام دارای 588 زاویه جهت می باشد. هنگام شبیه سازی تصویر تلفن همراه، زاویه جهت هر تصویر توسط برنامه ایجاد می شود. جزئیات به شرح زیر است:
-
رول: -45°~45° (در هر 15 درجه 7 نوع تصویر ایجاد می شود)
-
گام: -18°~18° (هر 6 درجه 7 نوع تصویر ایجاد می شود)
-
انحراف: -180°~150° (هر 30 درجه 12 نوع تصویر ایجاد می شود)
محیط پارکینگ زیرزمینی یکنواخت است و اجسام متحرک مانند ماشین ها و لوکوموتیوها فضای زیادی از تصویر را اشغال می کنند. در محیطهای سخت، CNN میتواند کاربران را تنها از طریق ویژگیهای آشکاری مانند شیر آتش نشانی، خطوط لوله و دروازههای فرار شناسایی کند که آزمایشی چالش برانگیز است.
5.1.2. موزه قصر
حیاط جنوبی موزه کاخ ملی مساحتی در حدود 25 × 35 متر مربع دارد. مسیر حرکت آن در شکل 12 الف نشان داده شده است و کل سالن نمایشگاه را از ابتدا دور می زند و سپس یک بار به سمت چپ می چرخد و به مبدأ برمی گردد. شکل 12 ب یکی از نمونه های تصویر است. در مجموع 46548 تصویر شامل 862 موقعیت، هر کدام با 54 زاویه جهت وجود دارد. هنگام شبیه سازی تصویر تلفن همراه، زاویه جهت گیری تصویر توسط برنامه ایجاد می شود. جزئیات به شرح زیر است:
-
رول: -45 درجه تا 45 درجه (3 نوع تصویر در هر 45 درجه ایجاد می شود)
-
گام: -6°~6° (هر 6 درجه 3 نوع تصویر ایجاد می شود)
-
انحراف: -180°~150° (هر 60 درجه 6 نوع تصویر ایجاد می شود)
در مقایسه با سایر مناطق کوچک، مانند دفاتر، آشپزخانهها و سایر محیطهای سرپوشیده، موزه کاخ جنوبی کم نور است و برخی از نمایشگاهها با انعکاس نور مشکل دارند. این منطقه نیز مانند پارکینگ زیرزمینی که در قسمت قبل ذکر شد متعلق به محیطی خشن است. برای یک CNN، استخراج مقادیر ویژه مهم، که بر تخمین موقعیت تأثیر می گذارد، بسیار دشوار است. بنابراین، این آزمایش بسیار اکتشافی باقی می ماند.
5.1.3. انواع مختلف تلفن های همراه شبیه سازی شده و مناطق برش
با در نظر گرفتن اندازه تصویر و فاصله کانونی مدل های مختلف تلفن همراه شبیه سازی شده، چهار مدل مختلف تلفن همراه شبیه سازی شده است. تصاویر از تلفن های همراه شبیه سازی شده در شکل 13 نشان داده شده است. نام، فاصله کانونی و اندازه تصویر تلفن های همراه شبیه سازی شده در زیر توضیح داده شده است:
-
Zenfone2: فاصله کانونی 3.8 و اندازه تصویر 4096 × 3072 پیکسل است.
-
R11s: فاصله کانونی 4.10 و اندازه تصویر 1920 × 1080 پیکسل است.
-
تانگو: فاصله کانونی 3.38 و اندازه تصویر 3840 × 2160 پیکسل است.
-
Zenfone3: فاصله کانونی 4.04 و اندازه تصویر 3840 × 2160 پیکسل است.
برای ارزیابی دقت مدل در اندازههای مختلف، سه نوع برش منطقهای برای محوطه حیاط جنوبی موزه قصر انجام شد. همانطور که در شکل 14 نشان داده شده است، مسیرهای دایره، راه رفتن خم، و عقب و جلو در نظر گرفته شده است .
5.2. تاثیر اندازه های مختلف تصویر
قبل از مرحله آموزش، اندازه های مختلف تصاویر ورودی برای تجزیه و تحلیل تنظیم می شوند و خطاهای دقت بین اندازه های مختلف مورد بحث قرار می گیرند. برای انصاف، عملکرد ضرر PoseNet نه تنها با این تنظیمات تنظیم می شود، بلکه نسخه اصلی عملکرد ضرر را نیز حفظ می کند. در زیر معنای هر شخصیت توضیح داده شده است. M نمایانگر معماری PoseNet است. C و R نشان دهنده پردازش تصویر هستند. C نشان دهنده اندازه تصویر، تغییر اندازه به 455 × 256 پیکسل (با برش دادن مرکز به 224 × 224 پیکسل)، و R نشان دهنده تغییر اندازه تصویر به 224 × 224 پیکسل است. توابع ضرر به P و PO تقسیم می شوند. P فقط به معنای محاسبه افت موقعیت است، در حالی که PO به معنای محاسبه افت موقعیت و جهت گیری است. در نهایت، L مخفف بارگذاری مدل قبل از آموزش است. جزئیات زیر تنظیمات هر اندازه تصویر را شرح می دهد. آزمایشها در دو زمینه زیر همگی از روش اعتبارسنجی متقابل برای برش دادهها به پنج مدل آموزش و آزمایش متناوب استفاده میکنند. بنابراین، تصاویر هر اندازه پنج بار برای به دست آوردن پنج مدل آموزش داده می شوند و سپس برای دستیابی به عدالت داده ها میانگین می شوند.
-
M C+PO+L : تنظیم کاغذ اصلی. این مدل از روش پردازش تصویر برای برش تصویر به 224 × 224 پیکسل استفاده می کند. تابع ضرر موقعیت و جهت را محاسبه می کند و سپس مدل قبل از تمرین را بارگذاری می کند.
-
M R+PO+L : این مدل از روش پردازش تصویر برای تغییر اندازه مستقیم تصویر به 224 × 224 پیکسل استفاده می کند. تابع ضرر موقعیت و جهت را محاسبه می کند و سپس مدل قبل از تمرین را بارگذاری می کند.
-
M C+P+L : این مدل از روش پردازش تصویر برای برش تصویر به 224 × 224 پیکسل استفاده می کند. تابع ضرر موقعیت را محاسبه می کند و سپس مدل قبل از تمرین را بارگذاری می کند.
-
M R+P+L : این مدل از روش پردازش تصویر برای تغییر اندازه مستقیم تصویر به 224 × 224 پیکسل استفاده می کند. تابع ضرر موقعیت را محاسبه می کند و سپس مدل قبل از تمرین را بارگذاری می کند.
-
N × N : اندازه تصویر مستقیماً به N × N تغییر می کند که N طول لبه تصویر مربع است.
مجموعه داده برای پارکینگ های زیرزمینی در مجموع 135240 تصویر شامل 230 موقعیت را شامل می شود، در حالی که هر نقطه دارای 588 جهت است. این 588 جهت به پنج قسمت مساوی بریده شده اند که هر کدام حدود 118 زاویه جهت دارند. در مجموع 108330 تصویر آموزش داده شد و 26910 تصویر مورد آزمایش قرار گرفتند. در شکل 15 ، آزمایشهای تنظیمات پارامترهای مختلف (a) و اندازههای مختلف تصویر (b) تجزیه و تحلیل شدهاند. در شکل 15 a، محور x تنظیمات پارامترهای مختلف را نشان می دهد و محور y خطای میانه (واحد: متر) را نشان می دهد. هنگامی که مدل قبل از آموزش بارگذاری می شود و اندازه تصویر 224 × 224 پیکسل است، مآر+پ+Lبهترین موقعیت را برای خطای میانه بدست می آورد که حدود 0.23 متر است. هنگامی که تابع ضرر فقط به موقعیت محاسبه شده تنظیم می شود، خطای میانه موقعیت برای مآر+پ+Lمدل حدود 0.06 متر کوچکتر از مدل است مسی+پ+Lمدل، و نرخ بهبود حدود 20.6٪ است. در مقایسه با مدل مسی+PO+L(تنظیم در مقاله اصلی)، خطای میانه موقعیت از مآر+پ+Lدر حدود 1.06 متر کوچکتر است و میزان بهبود به 82.2٪ می رسد. در شکل 15 ب، محور x اندازه های مختلف تصویر را نشان می دهد، محور y دو محوره است، نقشه خط شکسته خطای میانه را در سمت چپ مقایسه می کند، و نمودار میله ای نسبت سمت راست را مقایسه می کند. نتایج نشان می دهد که خطای میانه بین 100 × 100 و 400 × 400 پیکسل تفاوت چندانی ندارد (حدود 0.3 متر) و نسبت خطا تقریباً یکسان است. نسبت خطا در 1 متر حدود 97 درصد و نسبت خطا در 0.5 متر حدود 75 درصد است.
مجموعه داده موزه قصر شامل 46548 تصویر، از جمله 862 موقعیت است. هر نقطه موقعیت دارای 54 جهت است. این 54 جهت به 5 قسمت مساوی بریده شده اند که هر کدام حدود 11 زاویه جهت دارند. نمونه های آموزشی شامل 37928 تصویر و نمونه های آزمایشی شامل 8620 تصویر بود. در شکل 16 ، آزمایشهای تنظیمات پارامترهای مختلف (a) و اندازههای مختلف تصویر (b) تجزیه و تحلیل شدهاند. در شکل 16 a، محور x تنظیمات پارامترهای مختلف را نشان می دهد و محور y نشان دهنده خطای میانه (واحد: متر) است. هنگامی که مدل قبل از آموزش بارگذاری می شود و اندازه تصویر 224 × 224 پیکسل است، مآر+پ+Lبهترین خطای میانه موقعیت را بدست می آورد که حدود 0.42 متر است. هنگامی که تابع ضرر فقط به موقعیت محاسبه شده تنظیم می شود، خطای میانه موقعیت از مآر+پ+Lمدل حدود 0.2 متر کوچکتر از مدل است مسی+پ+Lمدل، و نرخ بهبود حدود 32.6٪ است. در مقایسه با مدل مسی+PO+L، تنظیم در مقاله اصلی، خطای میانه موقعیت مآر+پ+Lدر حدود 4.48 متر کوچکتر است و میزان بهبود به 92٪ می رسد. در شکل 16 ب، محور x اندازه های مختلف تصویر را نشان می دهد، محور y دو محوره است، نقشه خط شکسته خطای میانه را در سمت چپ مقایسه می کند، و نمودار میله ای نسبت سمت راست را مقایسه می کند. نتایج نشان می دهد که خطای میانه بین 100 × 100 و 400 × 400 پیکسل در حدود 0.71 متر تفاوت چندانی ندارد و نسبت خطا تقریباً یکسان است. نسبت خطا در 1 متر حدود 71 درصد و نسبت خطا در 0.5 متر حدود 30 درصد است.
5.3. تاثیر معماری های مختلف
در این بخش دقت موقعیت مدل های آموزشی تحت معماری های مختلف مورد بحث قرار می گیرد. علاوه بر معماری PoseNet استفاده شده، مدل دیگری به نام ResNet50 برای اصلاح خطای موقعیت خروجی معماری برای مقایسه آن با مدل ما استفاده می شود. ResNet به چندین لایه برای استفاده محققان تقسیم شده است. ResNet50 (با 50 لایه) به عنوان شی آزمایشی انتخاب شد، زیرا لایه اتصال کامل آخرین لایه 2048 است، همان اندازه لایه اتصال کامل PoseNet. جدول 2خطای موقعیت و نسبت خطا ResNet50، PoseNet و مدل ما را مقایسه می کند. پایگاه داده از تصویر شبیه سازی zenfone2 موزه کاخ جنوبی برای 30000 تکرار استفاده می کند. به منظور منصفانه بودن، PosNet و مدل ما یک مدل از پیش آموزش دیده را بارگذاری نمی کنند. نتایج نشان می دهد که خطای موقعیت مدل ما بسیار کوچکتر از resnet50 است.
5.4. تاثیر اندازه های مختلف منطقه
نتایج تجربی بخش 5.2 نشان می دهد که مآر+پ+Lبهترین اندازه ورودی تصویر قبل از مرحله آموزش است. سپس خطاهای انواع تلفن های همراه شبیه سازی شده در زمینه موزه قصر مورد بحث قرار می گیرد. کل زمین و منطقه برش به طور تجربی به طور جداگانه مورد مطالعه قرار می گیرند. منطقه برش اولین مسیر دایره را برای ارائه نتایج تجربی انتخاب می کند. در نهایت، دقت خطای کراس پلتفرم تلفن های همراه شبیه سازی شده مختلف در ناحیه برش آزمایش می شود. جدول 3آموزش برای هر تصویر تلفن همراه شبیه سازی شده برای تست خطای میانه موقعیت همان تلفن همراه شبیه سازی شده (بر حسب متر) ارائه می دهد. بر اساس نتایج چهار آزمایش شبیه سازی شده تلفن همراه در کل زمینه، میانه خطای مکان شبیه سازی شده تلفن همراه Zenfone2 کوچکترین است. خطای آن 0.42 متر است و 91.3 درصد خطای نمونه آزمایشی در 1 متر است، در حالی که خطای تلفن همراه شبیه سازی شده R11s بزرگترین است. خطای آن 1.14 متر است که تنها 43.6 درصد خطای نمونه آزمایشی (در 1 متر) است. دلیل این خطاها ممکن است مربوط به اندازه و فاصله کانونی تصویر شبیه سازی شده تلفن همراه باشد. تصویر تلفن همراه Zenfone2 شبیه سازی شده دور از جسم است و حاوی اطلاعات زیادی است. مدل CNN می تواند مکان دقیق را بر اساس اطلاعات مفید محاسبه کند. متقابلا، تصویر تلفن همراه شبیه سازی شده R11s بسیار نزدیک به جسم است، بنابراین گاهی اوقات فقط منطقه محلی جسم گرفته می شود. محاسبه موقعیت دقیق بر اساس این ویژگی های محلی برای مدل CNN دشوار است.
سپس نتایج سه ناحیه برش و کل مسیر جدول با هم مقایسه می شود. علاوه بر این، کاهش دامنه میدان می تواند خطای موقعیت کلی را تا حدود 60٪ کاهش دهد. در آزمایش چهار تلفن همراه شبیه سازی شده مختلف که روی یک پلت فرم آزمایش شدند، بدون توجه به مسیر دایره، راه رفتن خم یا مسیر رفت و برگشت، خطای میانه موقعیت بین سه ناحیه برش زیاد نوسان نمی کند. بنابراین در هنگام جمع آوری تصاویر و اطلاعات موقعیت جغرافیایی نیازی به طراحی مسیر مشخصی نیست. نمونه آزمایشی فقط باید در نمونه آموزشی کپسوله شود تا دقت موقعیت بالایی به دست آید.
شکل 17 مقدار پیش بینی موقعیت تلفن همراه شبیه سازی شده با دوربین مشابه را بر اساس هر تلفن همراه شبیه سازی شده به عنوان یک مدل آموزشی نشان می دهد و رنگ زرد مقدار پیش بینی موقعیت همه نمونه های آزمایشی است. Area1 به عنوان مجموعه داده استفاده می شود و در مجموع 1250 تصویر مورد آزمایش قرار گرفت. همانطور که در شکل 17 مشاهده می شودپیشبینی موقعیت گوشیهای Zenfone2 شبیهسازیشده تقریبی مسیر واقعی است و پیشبینیهای تلفنهای شبیهسازیشده Tango و Zenfone3 عمدتاً نزدیک به مسیر هستند، اگرچه تعداد کمی از نمونههای آزمایشی دارای خطای زیادی هستند. در مقایسه با سه تلفن همراه شبیهسازیشده دیگر، ارزش پیشبینی موقعیت R11s بسیار دورتر از مسیر واقعی است، که منجر به افزایش خطای میانه موقعیت میشود. این خطا ممکن است به این دلیل باشد که تصویر تلفن همراه R11s شبیه سازی شده دارای ویژگی های بسیار کم و اشیاء بسیار کمی در تصویر است. علاوه بر این، قضاوت در مورد اطلاعات موقعیت کامل برای شبکه عصبی دشوار است. بنابراین، برخی از نمونههای آزمایشی اشتباه تخمین زده شدهاند و در نتیجه خطای میانه کلی افزایش مییابد.
این بخش نحوه تقسیم مجدد مجموعه داده را به نمونه های آموزشی و نمونه های آزمایشی از طریق روش های نمونه گیری مختلف بررسی می کند. در طول جمع آوری داده ها، با توجه به هر قطعه از اطلاعات موقعیت در مسیر، تصاویر در جهت های مختلف شبیه سازی می شوند. روشهای نمونهگیری اصلی با توجه به جهتگیری به نمونههای آموزشی و آزمایشی تقسیم میشوند، اما با توجه به تأثیر روشهای نمونهگیری دیگر بر شبکه عصبی، دو روش نمونهگیری زیر برای آزمایشها طراحی شد:
از تصاویر تلفن همراه زنفون 2 شبیه سازی شده برای آزمایش استفاده می شود و کل فیلد به عنوان مجموعه داده انتخاب می شود. با توجه به روش استفاده از جهت گیری برای نمونه گیری، میانه خطای موقعیت 0.42 متر است. بر اساس نتایج تجربی در جدول 4 ، خطاهای موقعیت تفاوت زیادی ندارند، صرف نظر از اینکه نمونه گیری بر اساس جهت گیری، تصادفی یا موقعیت است. بدين ترتيب در آزمايش هاي زير همچنان از روش نمونه گيري با توجه به جهت گيري استفاده مي شود.
5.5. تاثیر دوربین کراس
جدول 5نشان می دهد که هر تصویر شبیه سازی شده تلفن همراه با برش ناحیه به عنوان مجموعه داده آموزش داده می شود تا خطای موقعیت میانه (بر حسب متر) بین تلفن های همراه شبیه سازی شده با دوربین متقابل آزمایش شود. بر اساس نتایج، تفاوت معنی داری در خطای میانه موقعیت بین گوشی های Zenfone2، Tango و Zenfone3 شبیه سازی شده در تست کراس پلتفرم وجود ندارد، اما خطای موقعیت به 3-4 متر در هنگام آزمایش تصویر افزایش می یابد. تلفن همراه R11s شبیه سازی شده با این حال، با استفاده از تلفن همراه شبیه سازی شده R11s به عنوان مدل آموزشی، تصاویر سه تلفن همراه شبیه سازی شده دیگر آزمایش شده نیز به 3-4 متر افزایش یافت. دلیل این خطا ممکن است این باشد که تصویر تلفن همراه شبیه سازی شده R11s با سه تلفن همراه شبیه سازی شده دیگر بسیار متفاوت است. یعنی تصویر حاوی اطلاعات ویژگی های بیش از حد است. با استفاده از سه تلفن همراه شبیه سازی شده به عنوان مدل آموزشی، شبکه عصبی منطقه کامل تصویر را می آموزد، اما تصویر تلفن همراه شبیه سازی شده R11s بیش از حد محلی است و شبکه عصبی را برای مطابقت با ویژگی های آن مشکل می کند و در نتیجه باعث افزایش خطا می شود. برعکس، با استفاده از تلفن همراه R11s شبیه سازی شده به عنوان مدل آموزشی، شبکه عصبی تنها می تواند ویژگی های محلی را یاد بگیرد و تشخیص محدوده بزرگتر تصاویر و موقعیت ها را دشوار می کند.
جدول 5 بخش کوچکی از آزمایش را با نقشه پیشبینی موقعیت همه نمونههای آزمایشی نشان میدهد. شکل 18 نشان می دهد که مقادیر پیش بینی موقعیت چهار تلفن همراه شبیه سازی شده با استفاده از تلفن همراه Zenfone2 شبیه سازی شده به عنوان مدل آموزشی محاسبه شده است. مقادیر پیشبینی موقعیت تلفن همراه Zenfone2 شبیهسازی شده تقریباً به مسیر واقعی نزدیک است و مقادیر پیشبینی موقعیت تلفن همراه تانگو و Zenfone3 شبیهسازی شده بیشتر به مسیر نزدیک است. از آنجایی که تصاویر گوشی R11s شبیه سازی شده بسیار متفاوت از سه گوشی موبایل شبیه سازی شده دیگر است، خطاهای پیش بینی موقعیت در بسیاری از نمونه های آزمایشی بسیار زیاد است.
علاوه بر این، این تحقیق آزمایش هایی را برای مقایسه با تلفن همراه شبیه سازی شده R11s انجام داد تا تأثیر فاصله کانونی و اندازه تصویر بر روی CNN را آزمایش کند. فاصله کانونی R11s شبیه سازی شده 4.10 و اندازه تصویر آن 1920 × 1080 پیکسل است. شکل 19 a آزمایشی را برای تعیین اندازه تصویر و تنظیم فاصله کانونی نشان می دهد. آزمایشها نشان میدهند که هر چه فاصله کانونی بزرگتر باشد، فاصله بین تصویر و جسم نزدیکتر است و پیشبینی موقعیت مدل بدتر است.شکل 19b آزمایشی را نشان می دهد که در آن فاصله کانونی ثابت است و اندازه تصویر تنظیم می شود. این آزمایش نشان میدهد که تنظیم اندازه تصویر برای بهبود دقت پیشبینی موقعیت عصبی مانند مفید است. با این حال، دقت پیشبینی بدتر است.
5.6. تاثیر تصحیح خطا
به عنوان جدول 5نشان میدهد که با افزایش دقت خطای آزمایش کراس پلتفرم، یک روش تصحیح خطا برای تصحیح پیشبینیهای موقعیت اولیه از خروجی مدل CNN طراحی شده است. زوایای شناخته شده 30 درجه، 90 درجه، 150 درجه، 210 درجه، 270 درجه و 330 درجه هستند. طبق آزمایش قبلی، مجموعه داده یک منطقه برش، Area1 را انتخاب می کند. نمونه آموزشی دارای تصویری از تلفن همراه Zenfone2 شبیه سازی شده است و نمونه آزمایشی تصویری از تلفن همراه شبیه سازی شده R11s است. از ده موقعیت تصادفی استفاده میشود و از هر نقطه 10 تصویر جهتگیری گرفته میشود، بنابراین تعداد نمونهها 100 میشود. این نمونهها برای انجام میانگینگیری گروهبندی استفاده میشوند و خطای موقعیت اولیه 4.73 متر است. پنج نوع گروه بندی زاویه برای آزمایش طراحی شده است. نتایج تجربی به شرح زیر است:
-
G1: خطای میانه تصحیح شده موقعیت 4.44 متر و نرخ بهبود 6.1٪ است.
-
G2: خطای میانه تصحیح شده موقعیت 3.74 متر و میزان بهبود 20.8٪ است.
-
G3: خطای میانه تصحیح شده موقعیت 3.73 متر و میزان بهبود 21.1٪ است.
-
G4: خطای میانه تصحیح شده موقعیت 3.97 متر و میزان بهبود 16٪ است.
-
G5: خطای میانه تصحیح شده موقعیت 3.72 متر و میزان بهبود 21.3٪ است.
در شکل 20 ، 10 تصویر آزمایشی از دو موقعیت پیش بینی شده است و خطا با روش G5 تصحیح شده است. شکل 20 a نتایج تجربی نقطه شروع مسیر را نشان می دهد، در حالی که شکل 20 b نتیجه آزمایشی نقطه پایانی مسیر را نشان می دهد. علامت مثبت سیاه مقدار نقطه شروع و پایان، آبی مقدار پیش بینی موقعیت اولیه و سبز مقدار پیش بینی موقعیت پس از تصحیح خطا است. بر اساس این شکل، مقدار پیشبینی موقعیت نزدیک به موقعیت زمین دقیق پس از تصحیح خطا است، که ثابت میکند روش تصحیح خطا ما میتواند به طور موثر مقدار پیشبینی موقعیت را تصحیح کند.
5.7. خلاصه تجربی
تنظیمات اصلی PoseNet موقعیت و جهت رگرسیون است، بنابراین تابع ضرر از دست دادن موقعیت و جهت را به طور همزمان محاسبه می کند. برای به دست آوردن همزمان موقعیت و جهت گیری خوب، وزن بین این دو باید متعادل باشد. بنابراین، خطای موقعیت باید بیشتر از خطای موقعیت باشد، که فقط از دست دادن موقعیت را محاسبه می کند. تلفن همراه شبیه سازی شده ای که کاربر در دست دارد، خود دارای سنسور است و زاویه جهت گیری را می توان با ژیروسکوپ موجود در سنسور به دست آورد، بنابراین نیازی به استفاده از شبکه عصبی ویژه طراحی شده برای پیش بینی جهت نیست. به همین دلیل، معماری CNN به گونه ای تنظیم شده است که تابع ضرر تنها وزن موقعیت را محاسبه کرده و در نهایت موقعیت کاربر را پیش بینی می کند. آزمایشها با اندازههای مختلف تصویر نشان میدهند که روش جدید ما میتواند دقت موقعیتیابی را حدود 20 تا 30 درصد بهبود بخشد. در مقایسه با راهاندازی اولیه PoseNet، روش جدید ما میتواند دقت موقعیتیابی را حدود ۸۰ تا ۹۰ درصد بهبود بخشد. در آزمایش برش میدان، کاهش میدان مجموعه داده می تواند به کاهش خطای موقعیت کلی کمک کند. علاوه بر این، طراحی یک مسیر ویژه برای جمع آوری داده ها غیر ضروری است. علاوه بر این، با توجه به این مشکل که اکثر تصاویر از انواع مختلف تلفن های همراه شبیه سازی شده در کاربرد عملی می آیند، اگر داده های تصویر آموزشی و تصویر موقعیت یابی واقعی از تلفن های همراه شبیه سازی شده مختلف گرفته شود، به راحتی می توان بین دوربین های مختلف خطا ایجاد کرد. . در آزمایش های متقابل دوربین، اندازه و فاصله کانونی تصویر تاثیر زیادی بر شبکه عصبی دارد. اشیاء و نواحی تحت پوشش در تصویر دلایل اصلی افزایش خطای موقعیت هستند. در نهایت، به منظور کاهش بیشتر خطای موقعیت، این مقاله یک الگوریتم تصحیح خطا را پیشنهاد میکند. از طریق گروه بندی زاویه، خطای خطای موقعیت اولیه در هر گروه محاسبه و برای تصحیح خطا میانگین گیری می شود. آزمایشها نشان میدهند که پنج روش خوشهبندی زاویهای پیشنهادی میتواند به طور موثر خطا را کاهش دهد و روش خوشهبندی زاویه بهینه میتواند خطای موقعیت را تا حدود ۲۰ درصد کاهش دهد. از طریق گروه بندی زاویه، خطای خطای موقعیت اولیه در هر گروه محاسبه و برای تصحیح خطا میانگین گیری می شود. آزمایشها نشان میدهند که پنج روش خوشهبندی زاویهای پیشنهادی میتواند به طور موثر خطا را کاهش دهد و روش خوشهبندی زاویه بهینه میتواند خطای موقعیت را تا حدود ۲۰ درصد کاهش دهد. از طریق گروه بندی زاویه، خطای خطای موقعیت اولیه در هر گروه محاسبه و برای تصحیح خطا میانگین گیری می شود. آزمایشها نشان میدهند که پنج روش خوشهبندی زاویهای پیشنهادی میتواند به طور موثر خطا را کاهش دهد و روش خوشهبندی زاویه بهینه میتواند خطای موقعیت را تا حدود ۲۰ درصد کاهش دهد.
6. نتیجه گیری و کار آینده
این مقاله یک معماری شبکه عصبی کانولوشنال 23 لایه (CNN) مناسب برای محیطهای داخلی را دوباره طراحی کرد و تابع وزن کاهش را طوری تنظیم کرد که تابع از دست دادن تنها وزن موقعیت را محاسبه میکند و بر پیشبینی دقیق موقعیتیابی داخلی تمرکز دارد. قبل از مرحله آموزش، تصویر کامل نگه داشته می شود و اندازه آن به طور مستقیم به عنوان مقدار ورودی CNN تغییر می کند. آزمایشها روی اندازههای مختلف تصویر نشان میدهند که روش پیشنهادی میتواند به طور موثری دقت موقعیتیابی را در حدود 20 تا 30 درصد تحت شرایط یکسانی که فقط محاسبه از دست دادن موقعیت است، بهبود بخشد. در مقایسه با راهاندازی اولیه PoseNet، روش جدید ما میتواند دقت موقعیتیابی را حدود ۸۰ تا ۹۰ درصد بهبود بخشد. با استفاده از پلت فرم کارتوگرافی سیار با سیستم موقعیت یابی و سیستم نقشه برداری، مجموعه داده ها از پارکینگ زیرزمینی و موزه کاخ جنوبی جمع آوری شده است. این مجموعه داده ها را می توان برای تحقیقات مرتبط در آینده مورد استفاده قرار داد. در برنامه های کاربردی موقعیت یابی داخلی، کاربران بیشتر از دوربین های پلت فرم های مختلف استفاده می کنند. این مقاله اولین مقاله ای است که در مورد دقت موقعیت یابی داخلی بین دوربین های مختلف بحث می کند. نتایج تجربی نشان می دهد که اندازه تصویر و فاصله کانونی تأثیر زیادی بر CNN دارد. اشیاء و نواحی تحت پوشش در تصویر دلایل اصلی افزایش خطاهای موقعیت هستند. CNN و تصحیح خطای زاویه نیز برای اولین بار یکپارچه شده اند. آزمایشها نشان میدهند که پنج روش پیشنهادی گروهبندی زاویهای میتوانند به طور موثری خطاها را کاهش دهند و بهترین روش گروهبندی زاویه میتواند به طور موثری دقت موقعیتیابی داخلی را تا حدود ۲۰ درصد بهبود بخشد. این مجموعه داده ها را می توان برای تحقیقات مرتبط در آینده مورد استفاده قرار داد. در برنامه های کاربردی موقعیت یابی داخلی، کاربران بیشتر از دوربین های پلت فرم های مختلف استفاده می کنند. این مقاله اولین مقاله ای است که در مورد دقت موقعیت یابی داخلی بین دوربین های مختلف بحث می کند. نتایج تجربی نشان می دهد که اندازه تصویر و فاصله کانونی تأثیر زیادی بر CNN دارد. اشیاء و نواحی تحت پوشش در تصویر دلایل اصلی افزایش خطاهای موقعیت هستند. CNN و تصحیح خطای زاویه نیز برای اولین بار یکپارچه شده اند. آزمایشها نشان میدهند که پنج روش پیشنهادی گروهبندی زاویهای میتوانند به طور موثری خطاها را کاهش دهند و بهترین روش گروهبندی زاویه میتواند به طور موثری دقت موقعیتیابی داخلی را تا حدود ۲۰ درصد بهبود بخشد. این مجموعه داده ها را می توان برای تحقیقات مرتبط در آینده مورد استفاده قرار داد. در برنامه های کاربردی موقعیت یابی داخلی، کاربران بیشتر از دوربین های پلت فرم های مختلف استفاده می کنند. این مقاله اولین مقاله ای است که در مورد دقت موقعیت یابی داخلی بین دوربین های مختلف بحث می کند. نتایج تجربی نشان می دهد که اندازه تصویر و فاصله کانونی تأثیر زیادی بر CNN دارد. اشیاء و نواحی تحت پوشش در تصویر دلایل اصلی افزایش خطاهای موقعیت هستند. CNN و تصحیح خطای زاویه نیز برای اولین بار یکپارچه شده اند. آزمایشها نشان میدهند که پنج روش پیشنهادی گروهبندی زاویهای میتوانند به طور موثری خطاها را کاهش دهند و بهترین روش گروهبندی زاویه میتواند به طور موثری دقت موقعیتیابی داخلی را تا حدود ۲۰ درصد بهبود بخشد. این مقاله اولین مقاله ای است که در مورد دقت موقعیت یابی داخلی بین دوربین های مختلف بحث می کند. نتایج تجربی نشان می دهد که اندازه تصویر و فاصله کانونی تأثیر زیادی بر CNN دارد. اشیاء و نواحی تحت پوشش در تصویر دلایل اصلی افزایش خطاهای موقعیت هستند. CNN و تصحیح خطای زاویه نیز برای اولین بار یکپارچه شده اند. آزمایشها نشان میدهند که پنج روش پیشنهادی گروهبندی زاویهای میتوانند به طور موثری خطاها را کاهش دهند و بهترین روش گروهبندی زاویه میتواند به طور موثری دقت موقعیتیابی داخلی را تا حدود ۲۰ درصد بهبود بخشد. این مقاله اولین مقاله ای است که در مورد دقت موقعیت یابی داخلی بین دوربین های مختلف بحث می کند. نتایج تجربی نشان می دهد که اندازه تصویر و فاصله کانونی تأثیر زیادی بر CNN دارد. اشیاء و نواحی تحت پوشش در تصویر دلایل اصلی افزایش خطاهای موقعیت هستند. CNN و تصحیح خطای زاویه نیز برای اولین بار یکپارچه شده اند. آزمایشها نشان میدهند که پنج روش پیشنهادی گروهبندی زاویهای میتوانند به طور موثری خطاها را کاهش دهند و بهترین روش گروهبندی زاویه میتواند به طور موثری دقت موقعیتیابی داخلی را تا حدود ۲۰ درصد بهبود بخشد. اشیاء و نواحی تحت پوشش در تصویر دلایل اصلی افزایش خطاهای موقعیت هستند. CNN و تصحیح خطای زاویه نیز برای اولین بار یکپارچه شده اند. آزمایشها نشان میدهند که پنج روش پیشنهادی گروهبندی زاویهای میتوانند به طور موثری خطاها را کاهش دهند و بهترین روش گروهبندی زاویه میتواند به طور موثری دقت موقعیتیابی داخلی را تا حدود ۲۰ درصد بهبود بخشد. اشیاء و نواحی تحت پوشش در تصویر دلایل اصلی افزایش خطاهای موقعیت هستند. CNN و تصحیح خطای زاویه نیز برای اولین بار یکپارچه شده اند. آزمایشها نشان میدهند که پنج روش پیشنهادی گروهبندی زاویهای میتوانند به طور موثری خطاها را کاهش دهند و بهترین روش گروهبندی زاویه میتواند به طور موثری دقت موقعیتیابی داخلی را تا حدود ۲۰ درصد بهبود بخشد.
در آینده، این تحقیق میتواند در روشهای مختلفی مانند جمعآوری تصویر، پردازش تصویر و معماری مدل یادگیری عمیق اعمال شود، بنابراین فناوری موقعیتیابی داخلی میتواند با دقت بیشتری توسعه یابد. از منظر جمعآوری تصاویر، این مطالعه از روش دستی برای جمعآوری دادههای تصویر و دادههای موقعیت جغرافیایی مورد نیاز مدل یادگیری عمیق از طریق بستر کارتوگرافی سیار استفاده کرد. برای یادگیری تحت نظارت، دستیابی به مقدار زیادی از مواد آموزشی صحیح همیشه کلیدی است. محققان اغلب زمان زیادی را صرف جمع آوری داده های تصویری در فرآیند تحقیق می کنند. در حال حاضر، مکانیسم جمعآوری خودکار و مؤثر دادهها وجود ندارد. بنابراین، دوربینهای نظارتی، وسایل نقلیه هوایی بدون سرنشین (UAV) و دستگاههای آردوینو سفارشیشده قادر خواهند بود به طور خودکار دادههای تصویر را جمعآوری کنند. تحقیق در مورد شناسایی و یادگیری عمیق نیز درجه بالایی از راحتی را ایجاد خواهد کرد. از منظر پردازش تصویر، این مقاله اجسام متحرکی را که ممکن است در تصاویر آموزشی ظاهر شوند، تحلیل نمیکند. متداول ترین اجسام متحرک در صحنه های داخلی اتومبیل ها و افراد هستند. این اجسام متحرک ویژگیهای غیرضروری برای یادگیری شبکههای عصبی عمیق هستند، بنابراین ناگزیر باعث کاهش دقت میشوند. این نوع تحقیق می تواند از شبکه های عصبی مانند YOLO یا Mask RCNN برای تشخیص اجسام متحرک استفاده کند و اطمینان حاصل کند که شبکه های عصبی چنین ویژگی هایی را از طریق اصلاح برای حل مشکل اجسام متحرک در تصاویر یاد نمی گیرند. از منظر مدل یادگیری عمیق، عکاسی با تلفن همراه دارای پارامترهای ارزشمند بسیاری است، مانند مقدار سنسور، نگرش سه محور، دیافراگم فاصله کانونی و غیره. این مقاله این اطلاعات را به عنوان مبنایی برای پیش بینی ادغام نمی کند. بنابراین، برخی از این اطلاعات را میتوان به طور بالقوه با پیشبینیهای موقعیت از مدل CNN ترکیب کرد و یک مدل شبکه عصبی را میتوان مانند یک شبکه عصبی کاملاً متصل یا حافظه کوتاهمدت بلند مدت (LSTM) آموزش داد تا موقعیت دقیقتری به دست آورد. علاوه بر این، مجموعه داده همچنین می تواند تعداد نمونه های خود را از طریق چرخش تصویر یا نویز داده ها افزایش دهد، بنابراین یادگیری شبکه های عصبی می تواند جامع تر باشد. انتخاب میدان همچنین تأثیر زیادی بر شبکه عصبی مانند نور و سایه، پیچیدگی محیطی و تعداد مقادیر ویژه دارد. بنابراین، زمینههای مختلف را نیز میتوان آزمایش کرد تا آزمایش شود که آیا مدل شبکه عصبی میتواند به طور موثر به موقعیتیابی داخلی دست یابد. موقعیت یابی کارآمد در فضای داخلی ممکن است برای پارکینگ های هوشمند داخلی یا شهرهای هوشمند اعمال شود و همچنین ممکن است با برنامه های کاربردی در دنیای واقعی افزوده شده ترکیب شود. همچنین انتظار می رود که موقعیت یابی در فضای داخلی کاربردهای اطلاعات مکانی را تسهیل کند.
بدون دیدگاه