موقعیت یابی بصری در محیط های داخلی با استفاده از تصاویر RGB-D و بردار بهبود یافته توصیف گرهای تجمعی محلی

چکیده

موقعیت یابی اطلاعات به یکی از مهم ترین اطلاعات برای پردازش و نمایش در دستگاه های تلفن همراه هوشمند تبدیل شده است. در این مقاله، ما یک روش موقعیت‌یابی بصری با استفاده از تصویر RGB-D در دستگاه‌های تلفن همراه هوشمند پیشنهاد می‌کنیم. در مرحله اول، ژست هر تصویر در مجموعه آموزشی از طریق استخراج و شرح ویژگی، ثبت تصویر و بهینه سازی نقشه ژست محاسبه می شود. سپس، در مرحله بازیابی تصویر، مجموعه آموزشی و مجموعه پرس و جو برای تولید بردار توصیفگرهای تجمعی محلی (VLAD) خوشه بندی می شوند.
برای غلبه بر این مشکل که بردار توضیحات اطلاعات رنگ تصویر را از دست می دهد و دقت بازیابی را در شرایط نوری مختلف بهبود می بخشد، اطلاعات رنگ حریف و اطلاعات عمق برای بازیابی به بردار توضیحات اضافه می شود. سرانجام، با استفاده از ابر نقطه مربوط به تصویر نتیجه بازیابی و پوز آن، پوز تصویر بازیابی شده با روش پرسپکتیو-n-نقطه (PnP) محاسبه می شود. نتایج موقعیت‌یابی صحنه‌های داخلی تحت شرایط مختلف روشنایی نشان می‌دهد که روش پیشنهادی نه تنها دقت موقعیت‌یابی را در مقایسه با VLAD و ORB-SLAM2 اصلی بهبود می‌بخشد، بلکه کارایی محاسباتی بالایی نیز دارد.

کلید واژه ها:

موقعیت یابی بصری ؛ تصاویر RGB-D ; مدل سه بعدی ; بازیابی تصویر ; برآورد

1. مقدمه

تعیین موقعیت یک وظیفه مهم در زمینه اطلاعات جغرافیایی است. در مورد دستگاه های تلفن هوشمند، اطلاعات موقعیت یابی به یکی از مهم ترین اطلاعات برای تلفن های هوشمند تبدیل شده است. سنسورهای موقعیت یابی مختلف در تلفن های هوشمند از روش ها و فناوری های مختلف موقعیت یابی استفاده می کنند. در سال های اخیر، فناوری موقعیت یابی در اطراف انواع تجهیزات موقعیت یابی پیشرفت چشمگیری داشته است. با رواج دستگاه های تلفن همراه هوشمند و توسعه فناوری، اطلاعات موقعیت یابی به اطلاعات اساسی برای پردازش و نمایش دستگاه های تلفن همراه هوشمند تبدیل شده است که به طور گسترده در خدمات مبتنی بر مکان، اینترنت اشیا، هوش مصنوعی و ابر هوش آینده استفاده می شود. (ربات + انسان) و غیره سیستم های ماهواره ای ناوبری جهانی (GNSS) مانند Beidou و سیستم موقعیت یابی جهانی (GPS)، به دلیل پوشش گسترده، دقت موقعیت یابی بالا و عملکرد قوی در زمان واقعی، به طور گسترده در مناطق باز در فضای باز استفاده می شود. با این حال، به دلیل مسدود کردن سیگنال ماهواره توسط ساختمان ها، دقت موقعیت یابی GPS در مرکز شهر و مناطق داخلی به شدت کاهش می یابد. علاوه بر این، ماژول GNSS به طور کلی دارای زمان شروع سرد طولانی است که به شدت بر تجربه کاربر در برنامه‌های ناوبری غیرخودرو تأثیر می‌گذارد و محدودیت‌های دیگری نیز دارد.
ایستگاه های پایه و شبکه های وای فای (Wi-Fi) نیز روش های رایج موقعیت یابی برای دستگاه های تلفن همراه هوشمند هستند. سیگنال ایستگاه پایه نه تنها منطقه مرکز شهر و تقریباً تمام مناطق داخلی را پوشش می دهد، بلکه پوشش کامل صحنه موقعیت یابی را نیز درک می کند. شبکه‌های وای‌فای از مزایای کم‌هزینه بودن و استقرار راحت برخوردار هستند. آنها به طور گسترده در مکان های سرپوشیده (به عنوان مثال، فرودگاه ها، دانشگاه ها، بیمارستان ها، مناطق تجاری، و ساختمان های مسکونی) توزیع شده اند و یکی از کانون های تحقیقات موقعیت یابی ترمینال های سیار را تشکیل می دهند. ایستگاه پایه و موقعیت یابی Wi-Fi نیازی به استقرار تجهیزات اضافی ندارد. در مقایسه با GNSS، آنها می توانند موقعیت استارت سرد را سریعتر درک کنند و کاربردهای گسترده ای دارند. با این حال، امواج رادیویی در مناطق داخلی یا متراکم ساخته شده معمولاً توسط موانع مسدود می شوند. منعکس شده، شکست یا پراکنده شده و مسیر انتشار آنها به گیرنده تغییر کرده است که منجر به انتشار غیر خط دید می شود. این امر باعث انحرافات زیادی در نتایج موقعیت یابی می شود که به شدت بر دقت موقعیت یابی تأثیر می گذارد.
در سال های اخیر با توسعه سنسورهای ترمینال، تعداد زیادی از سنسورهای موبایل در زمینه موقعیت یابی مورد استفاده قرار گرفته است و تقاضا برای فناوری موقعیت یابی در سناریوهای کاربردی مختلف به میزان قابل توجهی افزایش یافته است. با این حال، روش های متعدد در این مرحله در کاربرد آنها محدود است. از یک طرف، فناوری‌های بلوتوث، شناسایی فرکانس رادیویی (RFID)، باند فوق‌عرض، ZigBee، ژئومغناطیسی، اولتراسونیک و فناوری‌های موقعیت‌یابی مادون قرمز به سرعت توسعه یافته‌اند و به طور گسترده در زمینه موقعیت‌یابی استفاده می‌شوند. با این حال، روش های موقعیت یابی فوق به تجهیزات اضافی نیاز دارند و موقعیت یابی ژئومغناطیسی نیز توسط محیط عملیاتی در میان عوامل دیگر محدود می شود. از سوی دیگر، روش‌های تعیین موقعیت مبتنی بر شتاب‌سنج، ژیروسکوپ و سایر دستگاه‌های اینرسی، مانند محاسبه مردگان عابر پیاده،
فناوری موقعیت یابی مبتنی بر تصاویر بصری و عمقی از تضعیف سیگنال، تداخل محیطی، انتشار چند مسیری و سایر مشکلات وای فای، بلوتوث و سایر روش های موقعیت یابی شبکه بی سیم رنج نمی برد و نیازی به تجهیزات اضافی یا انواع دیگر ندارد. لوازم جانبی می تواند با هزینه اندکی به دقت موقعیت یابی زیر متر دست یابد. دستگاه های تلفن همراه هوشمند متعدد در بازار می توانند این روش موقعیت یابی را اتخاذ کنند که یکی از جهت گیری های اصلی در زمینه تحقیقات موقعیت یابی برای تحقق موقعیت یابی از طریق تصاویر بصری و عمقی است.
در حال حاضر، دستگاه‌های تلفن همراه هوشمند معمولاً به دوربین‌های تک‌چشمی مجهز می‌شوند و موقعیت‌یابی دید تک‌چشمی را به روش اصلی برای محلی‌سازی بصری در دستگاه‌های تلفن همراه هوشمند تبدیل می‌کنند. روش های متعددی برای مکان یابی بصری تک چشمی وجود دارد و مستقیم ترین روش بر اساس بازیابی تصویر است. ابتدا باید یک پایگاه داده تصویری با اطلاعات مکان ایجاد کنیم. پس از آن، ما از رنگ تصویر، شکل، بافت، طرح فضایی یا سایر ویژگی ها به عنوان نمایه تصویر جدول استفاده می کنیم. بردار چند بعدی را برای نمایش اطلاعات ویژگی تصویر استخراج کنید. و از فاصله بین ویژگی تصویر پرس و جو و ویژگی تصویر پایگاه داده برای بازیابی مکان تصویر استفاده کنید. دقت این روش به چگالی فضایی پایگاه داده تصویر مربوط می شود. با این حال، چگالی بیش از حد تصویر تأثیر قابل توجهی بر کارایی بازیابی دارد. روش رایج دیگر روش جریان نوری است. مفهوم جریان نوری توسط گیبسون در دهه 1950 ارائه شد.1 ]. برای تخمین سرعت و چرخش از اکتساب تصویر پیوسته استفاده شد. روش جریان نوری مبتنی بر فرض روشنایی غیرقابل تغییر است، که نیاز به دریافت تصویر با نرخ فریم بالا دارد تا اطمینان حاصل شود که فریم های مجاور نیازمندی های محاسبه را برآورده می کنند. این نشان دهنده الزامات بالاتر برای ضبط تصویر و توانایی محاسبه پلت فرم های دستگاه تلفن همراه است. علاوه بر این، روش جریان نوری مبتنی بر دید تک چشمی دارای ابهام مقیاس است. بنابراین، روش جریان نوری بیشتر در اندازه‌گیری سرعت پیوسته، اجتناب از مانع و سایر صحنه‌ها استفاده می‌شود و برای تحقق یک تابع محلی‌سازی بصری کامل بهینه نیست.
در سال های اخیر، مطالعات متعددی در مورد مکان یابی تصویر بر اساس یادگیری عمیق انجام شده است [ 2]. بیشتر مطالعات مرتبط، یادگیری عمیق را برای ماژول‌های فرعی محلی، مانند ماژول‌های موقعیت‌یابی یا ماژول‌های تشخیص حلقه بسته، و عدم بکارگیری معماری یادگیری عمیق در کل سیستم، اعمال کرده‌اند. در مقایسه با روش مکان یابی تصویر یادگیری عمیق فوق، داده های صحنه سه بعدی (3D) متشکل از ابرهای نقطه ویژگی فشرده تر و کارآمدتر هستند. استفاده از داده های صحنه سه بعدی برای مکان یابی بصری برای دستگاه های تلفن همراه هوشمند در مرحله کنونی امکان پذیر است. این روش بر اساس اصل تقاطع دوربین است که شامل موارد زیر است: تعداد زیادی عکس با هم تداخل دارند از قسمت موقعیت یابی جمع آوری می شود، نقاط مشخصه تصویر برجسته از میدان موقعیت یابی استخراج می شود. مختصات شی نقاط مشخصه تصویر برجسته در میدان موقعیت یابی با استفاده از اصل تطبیق چگالی و ساختار از حرکت (SfM) تعیین می شود و کتابخانه ابر نقطه ویژگی ایجاد می شود. در طول موقعیت یابی، نقاط ویژگی تصویر موقعیت یابی محاسبه شده و با ویژگی های تصویر در ابر نقطه ویژگی تصویر مطابقت داده می شود. مختصات جسم شناخته شده نقاط مشخصه منطبق برای تلاقی و تعیین موقعیت دوربین دستگاه تلفن همراه و زاویه دستگاه تلفن همراه هنگام عکسبرداری (از این پس به عنوان “ژست” نامیده می شود) استفاده می شود که می تواند به دقت موقعیت یابی در سطح سانتی متر دست یابد. . نقاط ویژگی تصویر موقعیت یابی محاسبه شده و با ویژگی های تصویر در ابر نقطه ویژگی تصویر مطابقت داده می شود. مختصات جسم شناخته شده نقاط مشخصه منطبق برای تلاقی و تعیین موقعیت دوربین دستگاه تلفن همراه و زاویه دستگاه تلفن همراه هنگام عکسبرداری (از این پس به عنوان “ژست” نامیده می شود) استفاده می شود که می تواند به دقت موقعیت یابی در سطح سانتی متر دست یابد. . نقاط ویژگی تصویر موقعیت یابی محاسبه شده و با ویژگی های تصویر در ابر نقطه ویژگی تصویر مطابقت داده می شود. مختصات جسم شناخته شده نقاط مشخصه منطبق برای تلاقی و تعیین موقعیت دوربین دستگاه تلفن همراه و زاویه دستگاه تلفن همراه هنگام عکسبرداری (از این پس به عنوان “ژست” نامیده می شود) استفاده می شود که می تواند به دقت موقعیت یابی در سطح سانتی متر دست یابد. .
موقعیت یابی فرآیند به دست آوردن مکان دقیق دستگاه های تلفن همراه هوشمند در فضای سه بعدی است. از آنجایی که می‌خواهیم موقعیت را در فضای سه‌بعدی به‌دست آوریم، نه تنها باید اطلاعات هواپیما را از طریق دوربین تک چشمی به دست آوریم. اطلاعات مقیاس، یعنی بعد سوم کسب اطلاعات نیز بسیار مهم است. دید استریو دوچشمی و تشخیص نور و محدوده (LiDAR) معمولاً برای به دست آوردن اطلاعات فضایی سه بعدی استفاده می شد. با این حال، استحکام دید دوچشمی محدود است و هزینه تجهیزات LiDAR بالا است. علاوه بر این، LiDAR برای استفاده در دستگاه های قابل حمل ساده نیست. بنابراین، دوربین عمق جایگزین خوبی برای دید دوچشمی و LiDAR در جمع آوری اطلاعات سه بعدی است. دوربین عمق می تواند مستقیماً فاصله بین یک جسم و دوربین را ثبت کند. به دلیل قیمت بالای اولیه تجهیزات، کاربران بسیار کمی از دوربین های عمق اولیه وجود داشت و تحقیقات مرتبط نیز پراکنده بود. با این حال، از زمان راه اندازی دوربین های عمق کم قیمت در سال 2011 [3 ]، تعداد کاربران دوربین های عمق کم قیمت به تدریج افزایش یافته است و استفاده از دوربین های عمق به طور فزاینده ای رایج شده است. ترکیب عمق و تصاویر RGB را می توان در تشخیص کنش [ 4 ]، مکان یابی و نقشه برداری همزمان (SLAM) [ 5 ]، بازسازی سه بعدی [ 6 ]، واقعیت افزوده (AR) [ 7 ] و سایر برنامه های اطلاعات جغرافیایی استفاده کرد.
سنسور عمق به طور مستقیم اطلاعات فاصله و مقیاس را به صورت نوری به دست می آورد. در مقایسه با سایر دستگاه ها، سنسور عمق مزایای خاص خود را دارد. روش‌های کار دوربین‌های عمق عمدتا مبتنی بر استفاده از نور ساختاریافته و زمان پرواز (TOF) بود. آنها دو روش اکتساب داده های عمقی فعال هستند. حسگر عمق Intel RealSense D435i (سازنده: Intel Co., Ltd., Santa Clara, CA, USA) مورد استفاده در این مطالعه بر اساس نور ساختاریافته است. این دوربین به دو دوربین مادون قرمز چپ و راست برای جمع آوری داده های عمق مجهز شده است. گیرنده های مادون قرمز چپ و راست برای دریافت نور مادون قرمز استفاده می شوند. پروژکتورهای ماتریس نقطه مادون قرمز در وسط دستگاه وجود دارد که می تواند نوردهی باند مادون قرمز را افزایش دهد. در یک محیط داخلی، پروژکتورها می توانند به طور قابل توجهی کیفیت تصویر تصویر مادون قرمز را بهبود بخشند و دقت تصویر عمق را بهبود بخشند. سمت راست ترین دوربین RGB برای جمع آوری سیگنال های نور مرئی استفاده می شود. یک حسگر استریو فعال به دلیل عدم همپوشانی مناطق تصویر یا عدم وجود بافت، نویز تولید می کند.8 ]; وجود نویز سیستم نیز باعث ایجاد نویز به شکل حفره هایی در تصاویر عمقی ثبت شده می شود. کیفیت تصاویر با عمق ثبت شده به دلیل حفره ها پایین است. از آنجایی که وجود این حفره ها اثر مرحله کدگذاری ویژگی را تضعیف می کند، باید آنها را در مرحله پیش پردازش پر کنیم. در اینجا، ما از یک الگوریتم مبتنی بر بازسازی مورفولوژیکی [ 9 ] برای پر کردن این حفره ها استفاده کردیم.
در این مقاله از دوربین تک چشمی برای جمع آوری اطلاعات هواپیما و دوربین عمق برای جمع آوری اطلاعات عمق استفاده شده است. اول از همه، ما باید چندین عکس را در صحنه واقعی به عنوان پایه ای برای موقعیت یابی بصری بعدی جمع آوری کنیم، که به عنوان مجموعه آموزشی نیز شناخته می شود. پس از پیش پردازش تصویر عمق مجموعه آموزشی، ژست هر تصویر در مجموعه آموزشی از طریق مراحل ویژگی‌های جهت‌یافته از تست قطعه تسریع شده و استخراج و شرح ویژگی‌های عنصری مستقل وابسته به دودویی باینری (ORB) و ثبت تصویر محاسبه می‌شود. و بهینه سازی نقشه ژست، و مدل سه بعدی صحنه ایجاد می شود. در فرآیند موقعیت‌یابی بصری، یک تصویر RGB-D توسط یک دستگاه تلفن همراه هوشمند گرفته می‌شود و موقعیت فعلی دستگاه با بازیابی تصویر تعیین می‌شود. فناوری بازیابی تصویر بر اساس بینایی کامپیوتری است. این فناوری تشخیص الگو، نظریه ماتریس و سایر رشته‌ها را ترکیب می‌کند و مزایای رایانه را در پردازش سریع تعداد زیادی از محاسبات مکرر ارائه می‌کند. در یک سیستم بازیابی تصویر معمولی، از کاربران خواسته می‌شود تا یک تصویر حاوی یک شی نمونه یا صحنه‌ای را وارد کنند، پس از آن جستجوی تصاویر با محتوای مشابه یا مشابه در کتابخانه تصویر ساخته شده انجام می‌شود. این یک فناوری محاسبه شباهت برداری را نشان می دهد که توسعه چندین فناوری را ترکیب می کند و نتایج خودکار، سریع و دقیق را به همراه دارد و از ذهنیت قضاوت انسان جلوگیری می کند. در مرحله بازیابی تصویر، مجموعه آموزشی و مجموعه پرس و جو برای تولید بردار توصیف VLAD خوشه بندی می شوند. برای غلبه بر این مشکل که بردار توضیحات اطلاعات رنگ تصویر را از دست می دهد و دقت بازیابی را در شرایط نوری مختلف بهبود می بخشد، اطلاعات رنگ حریف و اطلاعات عمق را به بردار توضیحات اضافه می کنیم تا عملیات بازیابی انجام شود. در نهایت با استفاده از ابر نقطه مربوط به تصویر نتیجه بازیابی و پوز آن، پوز تصویر بازیابی شده با روش PnP محاسبه می شود. نمودار جریان کل کار نشان داده شده است پوز تصویر بازیابی شده با روش PnP محاسبه می شود. نمودار جریان کل کار نشان داده شده است پوز تصویر بازیابی شده با روش PnP محاسبه می شود. نمودار جریان کل کار نشان داده شده استشکل 1 .
در سال های اخیر، چندین محقق تحقیقات خود را در زمینه موقعیت یابی بصری نیز منتشر کرده اند. وان و همکاران [ 10 ] یک روش اجماع نمونه تصادفی (RANSAC) بهبود یافته برای محلی سازی بصری داخل ساختمان پیشنهاد کرد. آنها تابعی را برای اندازه گیری کیفیت تطبیق جفت تصویر منطبق تعریف کردند. با توجه به کیفیت تطبیق، چهار جفت بهترین تطبیق برای محاسبه ماتریس تبدیل طرح ریزی دو تصویر برای حذف تطابق کاذب انتخاب می شوند. چنگ و همکاران [ 11 ] یک روش مکان یابی بر اساس ساختار سه بعدی پیشنهاد کرد و یک چارچوب فیلتر دو مرحله ای با استفاده از دید و ویژگی های هندسی یک ابر نقطه SfM برای مکان دهی میلیون ها نقطه در مقیاس شهری ارائه کرد. سالاریان و همکاران [ 12] از SfM برای بازسازی موقعیت دوربین سه بعدی استفاده کرد و سرعت همگرایی SfM را با استفاده از معیار بالاترین شباهت درون کلاسی بین تصاویر برگشتی از روش بازیابی بهبود بخشید. سپس، تصویر انتخاب شده و پرس و جو برای بازسازی صحنه سه بعدی استفاده می شود و موقعیت نسبی دوربین توسط SfM تعیین می شود. علاوه بر این، یک الگوریتم تبدیل مختصات دوربین موثر برای تخمین برچسب جغرافیایی پرس و جو معرفی شد. گوان و همکاران [ 13] یک سیستم موقعیت یابی داخلی را پیشنهاد کرد که می تواند به دو مرحله تقسیم شود: آفلاین و آنلاین. در مرحله آفلاین، نقاط مشخصه در قالب ویژگی‌های قوی (SURF) و ویژگی‌های خط استخراج می‌شوند تا پایگاه داده تصویر ایجاد شود، در حالی که در فاز آنلاین، ماتریس هموگرافی و ویژگی‌های خط برای تخمین موقعیت و جهت استفاده می‌شوند. این روش هزینه ذخیره سازی پایگاه داده را کاهش می دهد و تاخیر در کاربردهای عملی را کاهش می دهد. کاواموتو و همکاران [ 14] یک الگوریتم تشابه تصویر مبتنی بر رأی را برای بازیابی تصویر پیشنهاد کرد که برای تبدیل هندسی و انسداد تصویر قوی است. برای بهبود عملکرد بازیابی تصویر، رای گیری چندگانه و تست نسبت معرفی شده است. علاوه بر این، یک فیلتر ذرات برای تخمین صاف مسیر حرکت دوربین برای مکان دید معرفی شده است. فنگ و همکاران [ 15 ] یک پایگاه داده نقشه بصری را ایجاد کرد که شامل ویژگی های بصری و ویژگی های مکان مربوطه بود. پس از آن، تصاویر پرس و جوی دو کاربر با دو تصویر پایگاه داده تطبیق داده شد و موقعیت و وضعیت دوربین پرس و جو با استفاده از واحد اندازه گیری اینرسی (IMU) و دستگاه قطب نما الکترونیکی روی گوشی هوشمند به دست آمد.
Çinaroğlu و همکاران. [ 16 ] توصیف کننده معنایی را از طریق تقسیم بندی معنایی به دست آورد و متعاقباً از جستجوی تقریبی نزدیکترین همسایه برای محلی سازی استفاده کرد. موفقیت این روش با روش مبتنی بر توصیفگر محلی که معمولاً در ادبیات استفاده می شود مقایسه می شود. بر این اساس، یک روش ترکیبی که این دو روش را ترکیب می‌کند، پیشنهاد شد.
کیم و همکاران [ 17 ] یک روش مکان یابی بر اساس داده های تصویر و نقشه پیشنهاد کرد که برای محیط های مختلف مناسب است. برای تحقق فرآیند بومی سازی، آنها از روش محلی سازی مبتنی بر تصویر و روش محلی سازی مونت کارلو با پایگاه داده نقشه پیشینی استفاده کردند. نتایج تجربی نشان می دهد که مجموعه داده باز اثر رضایت بخشی در محیط های مختلف دارد. برای غلبه بر محدودیت های منابع دستگاه های تلفن همراه، Tran et al. [ 18] سیستمی را طراحی کرد که از مقیاس پذیری بازیابی تصویر و دقت موقعیت یابی بر اساس مدل سه بعدی بهره می برد. یک الگوریتم جستجوی آبشاری جدید مبتنی بر هش برای محاسبه سریع رابطه متناظر از دو بعدی به سه بعدی پیشنهاد شد. علاوه بر این، یک الگوریتم چندگانه RANSAC جدید برای دستیابی به تخمین زاویه دقیق پیشنهاد شد. این چالش سازه های ساختمانی مکرر در موقعیت یابی محیط شهری را حل می کند.
فنگ و همکاران [ 19 ] از یک حسگر RGB-D برای ساختن یک نقشه بصری استفاده کرد که حاوی عناصر اساسی موقعیت‌یابی مبتنی بر تصویر، از جمله وضعیت قرارگیری دوربین، ویژگی‌های بصری و ساختار سه‌بعدی ساختمان‌ها است. با استفاده از ویژگی‌های بصری منطبق و مقادیر عمق متناظر، یک الگوریتم بهینه‌سازی محلی جدید برای تحقق ثبت ابر نقطه و تخمین موقعیت دوربین پایگاه داده پیشنهاد شده‌است. سپس، سازگاری کلی نقشه‌برداری با بهینه‌سازی گراف به‌دست آمد. بر اساس یک نقشه بصری، روش محلی سازی مبتنی بر تصویر با استفاده از محدودیت اپی قطبی مورد مطالعه قرار می گیرد. او و همکاران [ 20] یک تخمین موقعیت شش درجه آزادی (6-DOF) برای یک سنسور دید سه بعدی قابل حمل نصب شده بر روی دستگاه های تلفن همراه پیشنهاد کرد. یک مدل سه بعدی دقیق از محیط داخلی و یک مدل قدرت سیگنال دریافتی Wi-Fi در مرحله آموزش آفلاین ایجاد شده است. در فرآیند تعیین موقعیت آنلاین، نویسندگان ابتدا از سیگنال Wi-Fi برای تعیین مکان دستگاه در مدل فرعی سه بعدی استفاده می کنند. سپس، تخمین زاویه 6-DOF با تطبیق ویژگی بین تصویر دو بعدی جمع آوری شده آنلاین و تصویر فریم کلیدی مورد استفاده برای ساخت مدل سه بعدی محاسبه می شود.
علاوه بر این، کار زیادی با استفاده از روش های یادگیری عمیق برای ارزیابی شباهت تصویر به منظور موقعیت یابی وجود دارد. شیا و همکاران یک روش بازیابی تصویر کد هش نظارت شده بر اساس یادگیری بیان تصویر [ 21 ] را پیشنهاد کرد. این روش نیازی به استفاده از ویژگی های بصری تعریف شده مصنوعی در استخراج ویژگی ندارد و در استفاده از شبکه عصبی عمیق برای استخراج ویژگی های تصویر حرف اول را می زند. لای و همکاران یک هش نظارت عمیق برای بازیابی سریع تصویر [ 22 ] پیشنهاد کرد که داده‌های ویژگی تصویر و کد هش را با استفاده از برچسب تصویر و سایر اطلاعات کمکی استخراج می‌کند. به منظور برآورده کردن الزامات عملکرد سیستم بازیابی تصویر در مقیاس بزرگ، لیانگ و همکاران. یک هش عمیق برای یادگیری کدهای باینری فشرده [ 23]، که رابطه غیرخطی بین تصاویر مشابه را از طریق شبکه عصبی عمیق استخراج می کند. لیو و همکاران یک هش نظارت عمیق برای بازیابی سریع تصویر [ 24 ] برای یادگیری رابطه معنایی شباهت بین بیان ویژگی تصویر و کد هش با استفاده از داده‌های تصویر برچسب‌گذاری شده به عنوان اشیا، پیشنهاد کرد.
ساختار این مقاله به شرح زیر است. روش های ساخت مدل سه بعدی، بازیابی تصویر و تخمین وضعیت در بخش 2 ، بخش 3 و بخش 4 ارائه شده است. بخش 5 محیط های آزمایشی و مجموعه داده ها را توصیف می کند و نتایج تجربی را مورد بحث قرار می دهد. نتیجه گیری در بخش 6 ارائه شده است .

2. ساخت مدل سه بعدی

2.1. استخراج و توصیف نقطه ویژگی

در یک صحنه واقعی، تصاویر رنگی و عمقی با هم ثبت می شوند. برای ایجاد ارتباط بین تصاویر مختلف، نقاط مشخصه باید از تصویر استخراج و تجزیه و تحلیل شوند. پس از آن، ثبت تصویر و سایر عملیات ها را می توان برای محاسبه ژست هر تصویر انجام داد، که می تواند به عنوان مبنای موقعیت یابی بصری مورد استفاده قرار گیرد. الگوریتم های متعددی برای استخراج و توصیف نقاط ویژگی وجود دارد. در اینجا، الگوریتم ORB را هم با دقت و هم با کارایی انتخاب کردیم. ORB، که نام کامل آن ویژگی‌های جهت‌دار از تست قطعه شتاب‌دار (FAST) و ویژگی‌های عنصری مستقل باینری چرخشی (BRIEF) است، یک الگوریتم استخراج و توصیف سریع ویژگی است که توسط Ethan Rublee و همکارانش پیشنهاد شده است. [ 25 ]. استخراج ویژگی از الگوریتم FAST [ 26]، و شرح ویژگی بر اساس الگوریتم BRIEF [ 27 ] بهبود یافته است. این بر اساس اولیه خود بهبود یافته و بهینه شده است. در مقایسه با سایر روش‌های استخراج ویژگی، مانند تبدیل ویژگی تغییرناپذیر مقیاس (SIFT) [ 28 ] و ویژگی‌های قوی سریع (SURF) [ 29 ]، سرعت ORB تقریباً 100 برابر SIFT و 10 برابر SURF است.

2.2. ثبت تصویر

قبلا استخراج و تطبیق نقاط ویژگی بین تصاویر را انجام می دادیم و پس از آن می توانستیم تصاویر را ثبت کنیم. فرض کنید دو فریم داریم، اف1و اف2.علاوه بر این، ما دو مجموعه از نقاط ویژگی متناظر یک به یک را به دست می آوریم:

پ={پ1،پ2،⋯،پن}∈اف1،س={�1،�2،⋯،�ن}∈اف2

جایی که پو نقاطی هستند آر3.

هدف این مسئله یافتن یک ماتریس چرخش است آرو بردار جابجایی تیبه طوری که:

∀من،پمن=آر�من+تی.

در واقع، به دلیل وجود خطا، امکان برابری سمت چپ و راست وجود ندارد. چرخش آرو بردارهای جابجایی تیباید با به حداقل رساندن خطاهای زیر حل شود:

دقیقهآر،تی∑من=1ن∥پمن-(آر�من+تی)∥2.
این مشکل با استفاده از روش پرسپکتیو-n-نقطه (PnP) [ 30 ] حل می شود. PnP روشی است که برای حل حرکت از جفت نقطه سه بعدی به دو بعدی استفاده می شود. روش های متعددی برای حل مسائل PnP وجود دارد، مانند پرسپکتیو-3 نقطه ای (P3P) [ 31 ]، PnP کارآمد (EPnP) [ 32 ] و PnP جهانی (UPnP) [ 33 ]. در اینجا از روش P3P برای محاسبه حرکت استفاده کردیم.

2.3. بهینه سازی نمودار ژست

گراف ژست همانطور که از نامش پیداست، نموداری است که از ژست دوربین تشکیل شده است. نمودار در اینجا بر اساس نظریه گراف است. از گره ها و لبه ها تشکیل شده است:

جی={�،�}.

در ساده ترین حالت، گره هر حالت (فرم کواترنیون) دوربین را نشان می دهد:

�من=[ایکس،�،�،�ایکس،��،��،��]=[آر3×3تی3×3�3×31]من

لبه به تبدیل بین دو گره اشاره دارد:

�من،�=[آر3×3تی3×3�3×31]من،�.
شکل زیر یک نمودار شماتیک از نقشه پوز در فرآیند ساخت مدل سه بعدی را نشان می دهد:Ijgi 10 00195 i001

این به دلیل وجود خطا در لبه است �من،�، که داده های داده شده توسط تمام یال ها را ناسازگار می کند. در فرآیند بهینه سازی گراف پوز، خطای ناسازگاری باید بهینه شود:

دقیقه�=∑من،�∥ایکسمن*-�من،�ایکس�*∥22،

جایی که ایکسمن*برآورد است ایکسمن. در فرآیند بهینه سازی یک مقدار اولیه داشتند. سپس با توجه به گرادیان تابع هدف به ایکس:

ایکس(تی+1)*=ایکس(تی)*-�*∇ایکس�.
ارزش ایکسبرای کاهش تنظیم شده است . اگر این مشکل همگرا شود، تغییر در ایکسکوچکتر خواهد بود و به حداقل خواهد رسید. در طی این تکرار، تغییر در مقدار ایکساست ایکس*.
تا اینجا، مسئله را می توان به عنوان یک مسئله بهینه سازی غیرخطی انتزاع کرد. این مشکل تنظیم بسته (BA) [ 34 ] نیز نامیده می شود و روش لونبرگ مارکوارت (LM) [ 35 ] معمولاً برای بهینه سازی تابع خطای مربع غیرخطی استفاده می شود.

3. بازیابی تصویر

3.1. خوشه بندی ویژگی ها

در فرآیند ساخت مدل سه بعدی، نقاط ویژگی از تمامی تصاویر نمونه استخراج می شود. در مرحله بازیابی تصویر، بر اساس این نقاط ویژگی استخراج شده، باید نقاط ویژگی را خوشه بندی کنیم تا کتاب کد به دست آید. سپس، کتاب کد برای نگاشت بردار ویژگی n بعدی اصلی به فضای k بعدی استفاده می شود. نتایج الگوریتم خوشه‌بندی بر کیفیت کتاب کد تأثیر می‌گذارد که برای فرآیند بازیابی بعدی بسیار مهم است. خوشه بندی یک الگوریتم یادگیری بدون نظارت است. ماهیت آن این است که به طور خودکار اشیاء مشابه را در یک خوشه بدون هیچ گونه آموزش اضافی طبقه بندی کند. در اینجا ما از الگوریتم K-means برای خوشه بندی ویژگی ها استفاده می کنیم. مهم ترین ویژگی این الگوریتم این است که درک آن آسان و سریع اجرا می شود.
فرآیند الگوریتم خوشه بندی ویژگی به شرح زیر است:
مرحله 1: به صورت تصادفی انتخاب کنید کنقاط نمونه به عنوان مرکز هر خوشه. {�1،�2،�3،⋯،�ک}. فاصله بین نقاط مرکزی تا حد امکان تنظیم می شود.

مرحله 2: فاصله بین تمام نقاط نمونه و مرکز را محاسبه کنید کخوشه ها سپس تمام نقاط بر اساس اصل نزدیکترین همسایه به نزدیکترین مرکز خوشه تقسیم می شوند. فرمول زیر فرآیند تقسیم نقاط نمونه را به مراکز خوشه ای نشان می دهد:

جمن=آرگمین∥ایکسمن-��∥2،

جایی که ایکسمنهست مننقطه نمونه، ��هست مرکز خوشه، جمنو مرکز خوشه ای است که به آن اختصاص داده شده است مننقطه نمونه

مرحله 3: مرکز خوشه هر کلاس را با توجه به اشیاء موجود آنها دوباره محاسبه کنید. فرمول محاسبه در زیر آمده است:

��=∑من=1متر1{جمن=�}ایکسمن∑من=1متر1{جمن=�}.
مرحله 4: مراحل 2 تا 3 را تکرار کنید تا موقعیت مرکز خوشه تقریباً بدون تغییر باشد و مرکز خوشه مرکز نقطه ویژگی باشد.

برای اطمینان از همگرایی الگوریتم خوشه‌بندی ویژگی، یک تابع ضرر باید تعریف شود:

جی(ج1،ج2،⋯،جمتر،�1،�2،⋯،�ک)=1متر∑من=1متر∥ایکسمن-�جمن∥2.
این نشان دهنده مجموع مربع فواصل هر نقطه نمونه تا مرکز خوشه است. نتیجه ایده آل الگوریتم خوشه بندی ویژگی، به حداقل رساندن تابع ضرر است. اگر تابع تلفات فعلی به حداقل مقدار نرسد، ابتدا می توانیم مرکز خوشه را حفظ کنیم ��از هر خوشه نقطه مرکز خوشه جمنهر نقطه نمونه برای کاهش تابع هدف تنظیم شد. متقابلا، جمنبدون تغییر باقی می ماند، در حالی که تغییر در ��به همین ترتیب می تواند عملکرد ضرر را کاهش دهد. از آنجایی که فرمول بالا یک تابع غیر محدب است، الگوریتم خوشه بندی ممکن است به حداقل جهانی نرسد، اما در عوض به حداقل محلی همگرا شود. در این حالت، باید چندین بار الگوریتم خوشه‌بندی ویژگی را اجرا کنیم، هر بار نقطه مرکزی خوشه را به‌طور تصادفی انتخاب کنیم و سپس کوچک‌ترین نقطه مرکزی را در نتیجه نهایی انتخاب کنیم.

3.2. کدنویسی ویژگی

پس از به دست آوردن کتاب کد، می‌توانیم شروع به رمزگذاری ویژگی‌ها کنیم، که هدف آن کاهش مقدار زیاد نویز تولید شده در حین استخراج ویژگی است. این فرآیند اطلاعات اضافی را حذف می کند و بردار نمایش ویژگی را ساده می کند. کدگذاری ویژگی نه تنها بیانگر وکتور را بهبود می‌بخشد، تصویر را بهتر بیان می‌کند، بلکه یک الگوی کنتراست یکپارچه و استاندارد ایجاد می‌کند، که منجر به ایجاد یک شاخص در بازیابی تصویر بعدی می‌شود.
این یک پیش نیاز برای فرآیند بازیابی تصویر است که یک تصویر را به عنوان یک بردار نشان دهد. یک روش نمایش برداری تصویر بر اساس ویژگی های بصری محلی استفاده شد. مراحل مشخص به شرح زیر است:
مرحله 1: فایل تصویر را بخوانید. توصیفگر ویژگی محلی تصویر استخراج و ثبت شد {ایکس1،ایکس2،⋯،ایکسمن،⋯،ایکس�}. برای یک پایگاه داده تصویر با اندازه نمونه n، ابتدا توصیفگرهای ویژگی محلی را از همه تصاویر استخراج می کنیم، با این فرض که تعداد ویژگی های محلی استخراج شده n و هر توصیفگر ویژگی محلی است. ایکسمن128 ابعاد است. سپس تمام توصیفگرها از a استخراج می شوند �×128ماتریس ابعادی
مرحله 2: از الگوریتم خوشه بندی ویژگی برای خوشه بندی موارد استخراج شده استفاده کنید توصیفگرها برای ایجاد فرهنگ لغت تصویری تعداد مراکز خوشه را به عنوان تنظیم کنید کو کلمات بصری به عنوان {�1،�2،⋯،��،⋯،�ک}.

مرحله 3: هر ویژگی محلی را کمی کنید و آن را با استفاده از ساختار داده درخت KD [ 36 ] به نزدیکترین مرکز خوشه تقسیم کنید:

نن(ایکسمن)=آرگمین∥ایکسمن-��∥،

جایی که نن(ایکسمن)مرکز خوشه ای است که به آن اختصاص داده شده است ایکسمن.

مرحله 4: باقیمانده مرکز خوشه و ویژگی های محلی را محاسبه کنید، تمام باقیمانده های هر تصویر را در همان مرکز خوشه جمع کنید و سپس آنها را عادی کنید. در نهایت، هر مرکز خوشه یک مجموع باقیمانده به دست می آورد. اگر هر توصیفگر ویژگی محلی 128 بعدی باشد، مجموع باقیمانده ها نیز یک بردار 128 بعدی است. ما بردار را به صورت S تعریف می کنیم . ویژگی های مختلف ممکن است نشانه های متفاوتی از خود نشان دهند.

مرحله 5: باقیمانده ها را جمع کنید. فرمول جمع باقیمانده به صورت زیر بیان می شود:

��=∑منایکسمن-��، ∀نن(ایکسمن)=�،

جایی که ��مجموع باقی مانده از است مرکز خوشه

مرحله 6: مجموع کباقیمانده برای ایجاد یک بردار طولانی [�1،�2،⋯،�ک]با طول ک×128. پس از نرمال سازی، بردار توصیفگرهای تجمع محلی (VLAD) [ 37 ] به دست می آید.

3.3. ترکیب اطلاعات رنگ و عمق در بردار توصیفگر تجمعی محلی (VLAD)

روش کدگذاری ویژگی ما، الگوریتم مرحله کدگذاری ویژگی بازیابی تصویر در این مطالعه است. هم سریع و هم کارآمد است. با این حال، برخی از اطلاعات مفید در فرآیند توصیف ویژگی از بین می رود، که توانایی تشخیص نقاط ویژگی را ضعیف می کند. این منجر به تطبیق نادرست در روند تطبیق تصویر می شود و بر اثر بازیابی نهایی تأثیر می گذارد.
برای حل مشکل فوق، اطلاعات رنگ تصویر را در مرحله کدگذاری ویژگی اضافه کردیم، به طوری که بردار کدگذاری حاوی اطلاعات رنگ باشد. در مقابل، تجهیزات دریافت تصویر موقعیت یابی بصری ما نه تنها یک دوربین RGB بلکه یک دوربین عمق نیز دارد به طوری که اطلاعات عمق نیز ابزار بسیار مهمی برای بهبود دقت موقعیت یابی است. ما اطلاعات عمق را در مرحله کدگذاری ویژگی اضافه کردیم به طوری که بردار کدگذاری شامل اطلاعات عمق است. در مرحله کدگذاری ویژگی، ویژگی هایی را که قبلا استخراج کرده بودیم جمع آوری کردیم و اهمیت تجمیع در ساده سازی تعداد ویژگی ها است. در تصویر، بعد توصیفگر باینری استخراج شده توسط عملگر ORB 128 است، بنابراین یک ک×128بردار بعد توصیفگر تجمیع شده محلی (VLAD) تصویر را می توان پس از کدگذاری ویژگی به دست آورد، که به طور قابل توجهی پیچیدگی محاسباتی را در مقایسه با توصیفگر ویژگی ORB بزرگ کاهش می دهد. در این سناریو، ترکیب وکتور VLAD با اطلاعات رنگ استخراج شده از تصویر و اطلاعات عمق استخراج شده از تصویر عمق، هزینه زمانی را به میزان قابل توجهی افزایش نمی دهد و مقدار قابل توجهی از حافظه را اشغال نخواهد کرد. این امر ضمن اطمینان از سرعت تطابق، استفاده از اطلاعات ارزشمند تصویر را افزایش می‌دهد، استحکام رنگ و عمق را بهبود می‌بخشد و تمایز هر بردار ویژگی تصویر را تقویت می‌کند. همچنین می‌تواند جلوه بازیابی تصویر بهتری را در محیطی با نور و تغییر مقیاس به دست آورد.

در فرآیند بهبود الگوریتم کدگذاری ویژگی VLAD برای بازیابی تصویر، تصویر RGB ورودی ابتدا به یک تصویر خاکستری تبدیل می‌شود و سپس مقادیر سه کانال موجود در تصویر RGB به فضای رنگی حریف تبدیل می‌شود تا به دست آید. �1، �2، �3و ماتریس تصویر مربوط به سه کانال رنگی است. فضای رنگی حریف یکی از برجسته ترین توصیفگرهای رنگ اصلی است [ 38 ]. حریف فضای رنگی را به سه کانال تجزیه می کند، یعنی: �1، �2، و �3. هر کانال توسط یک توصیفگر توصیف می شود. روش تبدیل از فضای RGB به فضای حریف در فرمول های زیر بیان می شود:

�1=آر-جی2،�2=آر+جی-2ب6،�3=آر+جی+ب3.
اینجا، �1و �2کانال ها به ترتیب حاوی رنگ های حریف قرمز-سبز و آبی-زرد هستند که تغییر ناپذیری خوبی نسبت به روشنایی تصویر دارند. را �3کانال حاوی اطلاعات شدت فضای رنگ است که تحت تأثیر ضریب مقیاس قرار می گیرد. کانال های سه رنگ بالا فضای رنگی حریف را تشکیل می دهند. در صحنه های واقعی زندگی روزمره، تغییرات شرایط نور شامل تغییر شرایط روشنایی و شرایط رنگ است. فضای رنگ حریف شامل سه کانال است. کانال های O 1 و 2 به ترتیب شامل رنگ های قرمز-سبز و زرد-آبی هستند که نسبت به روشنایی تصویر تغییر ناپذیری خوبی دارند. هنگامی که شرایط روشنایی تغییر می کند، قوی هستند. کانال 3 اطلاعات شدت و مقدار O است 3 استبا تغییر شرایط رنگ، کانال تغییر نخواهد کرد. به طور خلاصه، فضای رنگی حریف می تواند استحکام بازیابی تصویر را در شرایط نوری مختلف افزایش دهد.
افزودن سه کانال اطلاعات رنگ در مرحله کدگذاری ویژگی بازیابی تصویر، نه تنها کارایی توصیفگر باینری ORB را حفظ می‌کند، بلکه استحکام ساختار بازیابی تصویر را نسبت به رنگ بهبود می‌بخشد.

در فرآیند کدگذاری VLAD، توصیفگرهای ORB هر تصویر بر اساس اصل نزدیکترین همسایه به تمام مراکز خوشه اختصاص داده می شوند و در هر مرکز خوشه چندین توصیفگر ORB وجود دارد. ما نزدیکترین توصیفگر ویژگی را از هر مرکز خوشه به عنوان نقطه کلیدی رنگ و عمق تصویر می گیریم و اطلاعات رنگ و اطلاعات عمق را با استفاده از کدگذاری باینری استخراج می کنیم. برای هر نقطه کلیدی من، ناحیه 3 × 3 R با نقطه مشخصه کلیدی به عنوان مرکز از ماتریس تصویر مربوطه انتخاب شده است. �1، �2، و �3کانال های رنگی، به ترتیب، و مقدار میانگین کانال رنگ مربوط به هر منطقه محاسبه می شود. به همین ترتیب، ناحیه 3×3 R دیگر با نقطه مشخصه کلیدی به عنوان مرکز روی تصویر عمق انتخاب شده و میانگین مقدار عمق هر ناحیه به دست می آید. محاسبه بر اساس فرمول زیر انجام می شود:

جی�=∑ایکس=19م�ایکس9اچ=∑ایکس=19نایکس9،

جایی که نشان دهنده سه کانال رنگی تصویر، با �=1، 2 و 3؛ ایکستعداد نقاط در منطقه R، با مجموع نه نقطه ویژگی است. جی�نشان دهنده مقدار میانگین منطقه R در کانال رنگی تصویر؛ م�ایکسنشان دهنده ارزش کانال رنگی ایکسنقطه مشخصه روی تصویر؛ اچنشان دهنده مقدار میانگین ناحیه R از تصویر عمق است. و نایکسنشان دهنده ارزش ایکسنقطه مشخصه در تصویر عمق.

پس از به دست آوردن مقدار میانگین جی�از هر کانال رنگ منطقه R در اطراف نقطه کلید رنگ منتصویر، کدگذاری باینری رنگ و عمق مربوط به نقطه کلیدی است منتولید می شود:

سی�ایکس={0،  م�ایکس<جی�1،  م�ایکس≥جی��ایکس={0،  نایکس<اچ1،  نایکس≥اچ،

جایی که سی�ایکسنشان دهنده کدگذاری رنگی باینری است ایکسنقطه ویژگی در کانال رنگی تصویر مقدار هر کانال رنگی هر نقطه مشخصه در همسایگی R بر روی نقطه کلیدی متمرکز شده است منبا مقدار میانگین کانال منطقه R مقایسه می شود. اگر مقدار نقطه کمتر از مقدار میانگین کانال منطقه باشد، کد باینری نقطه 0 است. اگر مقدار نقطه بزرگتر از مقدار میانگین کانال باشد. از منطقه، کد باینری نقطه 1 است. �ایکسرمزگذاری باینری را نشان می دهد ایکسنقطه مشخصه در تصویر عمق مربوطه. مقدار عمق هر نقطه مشخصه در همسایگی R بر روی نقطه کلیدی متمرکز است منبا مقدار میانگین عمق منطقه R مقایسه می شود. اگر مقدار نقطه کمتر از عمق متوسط ​​منطقه باشد، کد باینری 0 است. اگر بزرگتر از میانگین باشد، کد باینری 1 است. هر کانال رنگی دارای 9 کد باینری، مجموعا سه کانال رنگی و یک کانال عمق است. به طور خاص، یک تصویر دارای 36 کد است.

پس از انجام عملیات فوق روی یک تصویر، کدگذاری باینری تصویر در سه کانال رنگی و کانال عمقی حریف به دست می آید. پس از به دست آوردن کدگذاری باینری رنگی همه مناطق اطراف نقاط کلیدی رنگ، به بردار نمایش اصلی VLAD اضافه می شود به طوری که یک بردار جدید با طول ک×(�+36)به دست می آید که بردار کدگذاری ویژگی بهبود یافته VLAD است. روند به دست آوردن کد ویژگی بهبود یافته VLAD در شکل 2 نشان داده شده است .

3.4. اندازه گیری تشابه

نتایج بازیابی تصویر بر اساس قوانین مورد استفاده برای سنجش شباهت بین تصاویر مرتب شدند. برای ارزیابی اینکه آیا دو تصویر مطابقت دارند، باید از معیار تشابه برای محاسبه شباهت بین تصاویر استفاده کنیم. معیار تشابه فاصله بین بردارهای توصیفگر نمونه را محاسبه می کند و پس از بدست آوردن توصیفگر کدگذاری ویژگی تصویر، آنها را مرتب می کند.

از آنجایی که بردار توصیفگر در این مطالعه باینری است، برای ارزیابی شباهت بیشتر، از فاصله همینگ [ 39 ] فاصله بین بردارهای اندازه گیری استفاده شده است. فاصله همینگ برای محاسبه شباهت دو بردار استفاده می شود. یعنی با مقایسه اینکه آیا هر بیت از بردار یکسان است یا خیر، اگر متفاوت باشد، فاصله همینگ با یک اضافه می شود تا فاصله همینگ به دست آید. هر چه شباهت بردار بیشتر باشد، فاصله همینگ مربوطه کمتر است:

د(ایکس،�)=∑من=1ک*(�+36)ایکسمن⊕�من،

جایی که د(ایکس،�)نشان دهنده فاصله همینگ دو بردار توصیف کننده است ایکس،�، که هستند ک×(�+36)کدهای بیت به علاوه، عملیات XOR را نشان می دهد.

4. تخمین پوس

پس از بازیابی شبیه ترین تصویر، تفاوت مشخصی بین آن و حالت دستگاه دستی وجود دارد که در رابطه تبدیل بین پوزهای دو تصویر توضیح داده شده است. بنابراین، در این فرآیند، یک ماتریس چرخش آرو ماتریس ترجمه تیمورد نیاز هستند. از آنجایی که مدل سه بعدی صحنه توسط کتابخانه تصویر صحنه تولید شده است، مشابه ترین تصویر دارای ابر نقطه سه بعدی مربوط به خود است. هدف حل مسئله در اینجا حل ماتریس چرخش و ترجمه بین یک ابر نقطه سه بعدی و یک تصویر است. این مورد یک مشکل 2 بعدی-3 بعدی است که با PnP قابل حل است.

معادله همگن نقطه فضای بالا پاست پ=(ایکس،�،ز)تی. اجازه دهید آن را به نقطه ویژگی پروژه ایکس→1=(تو1،�1،1)تی. برطرف كردن آرو تی، ماتریس تقویت شده [آر|تی]تعریف شده است؛ پس از بسط معادله، نتایج زیر را بدست می آوریم:

س[تو1�11]=[تی1تی2تی3تی4تی5تی6تی7تی8تی9تی10تی11تی12][ایکس�ز1].

پس از حذف س، محدودیت بدست می آید:

تو1=تی1ایکس+تی2�+تی3ز+تی4تی9ایکس+تی10�+تی11ز+تی12.�1=تی5ایکس+تی6�+تی7ز+تی8تی9ایکس+تی10�+تی11ز+تی12

فرض کن که:

تی→1=(تی1،تی2،تی3،تی4)تیتی→2=(تی5،تی6،تی7،تی8)تیتی→3=(تی9،تی10،تی11،تی12)تی

بنابراین:

تی→1تیپ-تی→3تیپتو1=0تی→2تیپ-تی→3تیپ�1=0

.

اینجا، تییک متغیر است. یک نقطه ویژگی می تواند دو محدودیت را برای آن ایجاد کند تیاگر وجود دارد ننقاط ویژگی؛ معادله زیر برقرار است:

[پ1تی0-تو1پ1تی0پ1تی-�1پ1تی⋮⋮⋮پنتی0-تونپنتی0پنتی-�نپنتی][تی→1تی→2تی→3]=0،

جایی که تیدارای 12 متغیر است و راه حل T را می توان حداقل با شش جفت نقطه تطبیق به دست آورد. از این رو، از این روش به عنوان روش تبدیل خطی مستقیم یاد می شود. هنگامی که نقاط تطبیق بیش از شش جفت هستند، روش‌های تجزیه ارزش منفرد (SVD) [ 40 ] می‌تواند برای حل معادله بیش از حد تعیین‌شده استفاده شود.

محلول T از R و t تشکیل شده است، بنابراین R = SO(3) را برآورده می کند. از این رو، ما باید بهترین ماتریس چرخش را برای ماتریس T پیدا کنیم که می تواند با تجزیه QR [ 41 ] تکمیل شود، که معادل شبح نتیجه از فضای ماتریس به منیفولد SE(3) است و آن را به چرخش و تبدیل می کند.

5. آزمایش کنید

در این بخش، محیط‌های آزمایشی و مجموعه داده‌های مورد استفاده را معرفی می‌کنیم، نتایج موقعیت‌یابی بصری روش پیشنهادی و همچنین روش اصلی VLAD را ارائه می‌کنیم و سپس آنها را با هم مقایسه می‌کنیم.

5.1. محیط های آزمایشی و مجموعه داده ها

الگوریتم ها بر روی رایانه ای با پردازنده مرکزی Intel i5 2.50 گیگاهرتز، 8 گیگابایت رم راه اندازی شدند. کامپیوتر سیستم عامل Ubuntu 16.04 LTS را نصب کرده است که یک سیستم عامل متن باز پرکاربرد است. کد به زبان C++ نوشته شده است.
برای تأیید اثربخشی الگوریتم پیشنهادی، آزمایش‌ها بر روی تصاویر عمقی Intel RealSense D435i (سازنده: Intel Co., Ltd., Santa Clara, CA, USA) از چندین مجموعه داده عمومی انجام شد و با الگوریتم‌های VLAD مقایسه شد [ 37 ] ]. مجموعه داده OpenLORIS-Scene [ 42] که توسط محققان مرکز تحقیقات اینتر و دانشگاه Tsinghua ایجاد شده است، دارای تصاویر RGB و عمقی است که توسط RealSense D435i با وضوح 848 × 480 و داده‌های یک واحد اندازه‌گیری اینرسی، یک دوربین چشم ماهی و یک کیلومتر شمار چرخ جمع‌آوری شده است. داده های هر حسگر به طور همزمان جمع آوری شد. در این مطالعه از داده های تصویر RGB و عمق استفاده شد. تصویر عمق پردازش شد و با تصویر RGB تراز شد. ما حقایق اصلی را از طریق بازسازی مصنوعی، ارجاع به اطلاعات از تصاویر RGB ترکیب کردیم. از مجموعه داده های پنج صحنه استفاده شد: محیط خانه، کافه، دفتر و راهرو.

5.2. نتایج تجربی و مقایسه

در چهار صحنه خانه، کافه، دفتر و راهرو مجموعه داده LORIS، داده های تصاویر RGB-D با شدت نور متوسط ​​برای ساخت مدل سه بعدی انتخاب شده است. مجموعه داده با روشنایی متوسط ​​می تواند دشواری ساخت مدل و تخمین ژست را کاهش دهد و اثر بهتر و دقت بالاتری دارد. این برای استفاده بعدی از این وضعیت ها به عنوان پایه ای برای موقعیت بصری مفید است. مدل سه بعدی چهار صحنه در شکل 3 نشان داده شده است .
در مرحله بازیابی تصویر، این آزمایش دو تصویر را به عنوان تصاویر بازیابی در هر یک از چهار صحنه ذکر شده در بالا انتخاب می کند. هر تصویر توسط VLAD و روش پیشنهادی ما در مجموع هشت بار بازیابی شد. اولین تصویر مشابه به عنوان نتیجه نمایش داده می شود. تصاویری که باید بازیابی شوند و تصاویری که قبلاً در مجموعه آموزشی بازیابی تصویر ساخته شده بودند، در شرایط نوری مختلف گرفته می شوند. به این ترتیب می توانیم اثر بازیابی تصویر را در شرایط تغییر نور و تفاوت بین این دو روش به طور موثر مقایسه کنیم.
در صحنه خانه، دو عکس گرفته شده در هنگام روشن بودن چراغ ها در شب را به عنوان تصاویر مجموعه پرس و جو انتخاب کردیم. تصاویر مجموعه آموزشی زمانی گرفته می شوند که نور در روز روشن نیست. شرایط نوری مجموعه کوئری و مجموعه آموزشی متفاوت است. شکل 4مشابه ترین تصویر (یعنی تصویری با کمترین فاصله همینگ) را نشان می دهد که هر بار پس از بازیابی دو تصویر با روش VLAD و روش پیشنهادی ما بازیابی می شود. برای اولین تصویر مجموعه پرس و جو، روش VLAD کمد لباس را جستجو می کند. هنوز بین عکس های مورد نظر و کمد فاصله وجود دارد که فقط قسمت کوچکی را به خود اختصاص می دهد. نتیجه روش پیشنهادی ما به تصویر پرس و جو بسیار نزدیک است. تصویر دوم مجموعه پرس و جو در مقابل کمد لباس گرفته شده است. نتایج بازیابی این دو روش عمدتاً تصاویری از کمد لباس است. تصاویر بازیابی شده با روش پیشنهادی ما به تصاویر بازیابی شده نزدیکتر هستند.
از آنجایی که شرایط نوری هر مجموعه داده از صحنه کافه تقریباً یکسان است، شرایط نور مجموعه کوئری و مجموعه آموزشی مشابه است. شکل 5 مشابه ترین تصاویری را که هر بار پس از بازیابی دو تصویر با روش VLAD و روش پیشنهادی ما بازیابی می شود، نشان می دهد. اولین تصویر از مجموعه پرس و جو در مقابل نوار نزدیک صندلی گرفته شده است. تصویر بازیابی شده با روش VLAD در پشت نوار گرفته شده است که کمی با تصویر مورد نظر متفاوت است. تصویر بازیابی شده با روش پیشنهادی ما در جلوی نوار قرار دارد که مشابه تصویر در حال بازیابی است. برای تصویر دوم، نتایج بازیابی دو روش مشابه تصویر بازیابی شده است و نتایج این روش مشابه است.
در صحنه اداری، دو عکس گرفته شده در فضای باریک با نور ضعیف به عنوان تصاویر مجموعه پرس و جو انتخاب می شوند. وضعیت روشنایی تصویر مجموعه تمرینی متوسط ​​است. شکل 6 نتایج بازیابی دو روش را نشان می دهد. برای اولین تصویر در مجموعه پرس و جو، فاصله بین نتیجه بازیابی توسط VLAD و تصویر پرس و جو بسیار زیاد است و این دو تصویر هیچ نقطه ویژگی مشترکی ندارند، بنابراین استفاده از PnP برای حل ژست غیرممکن است. نتایج بازیابی با روش پیشنهادی ما بسیار نزدیک به تصاویر بازیابی شده است. برای تصویر دوم مجموعه پرس و جو، تصاویر بازیابی شده توسط دو روش مشابه تصویر پرس و جو هستند.
در صحنه راهرو، دو عکس گرفته شده در شرایط نور شدید خورشید به عنوان تصاویر مجموعه پرس و جو انتخاب می شوند. وضعیت روشنایی تصویر مجموعه تمرینی متوسط ​​است. شکل 7 نتایج بازیابی دو روش را نشان می دهد. به طور کلی، تصاویر بازیابی شده مشابه تصاویر بازیابی شده است. با این حال، نتیجه بازیابی تصویر دوم در مجموعه پرس و جو کاملاً با آن متفاوت است.
پس از اتمام بازیابی تصویر، تصاویری را انتخاب می کنیم که در هر نتیجه پرس و جو صحنه رتبه اول را دارند تا پوز را تخمین بزنیم. در مرحله اولیه، ما مدل سه بعدی صحنه ها را تولید کرده ایم. ابر نقطه سه بعدی مربوط به نتیجه پرس و جو را استخراج می کنیم. ابر نقطه و تصویر نتیجه بازیابی با استفاده از روش PnP برای محاسبه ژست 3D-2D استفاده می شود. از آنجایی که تصاویر در مجموعه های قطار دارای حالت 6-DOF هستند، موقعیت 6-DOF تصویر پرس و جو را می توان با محاسبه ماتریس جابجایی و ماتریس چرخش بین تصویر پرس و جو و نتیجه پرس و جو شناخته شد.میز 1مختصات سه بعدی هر تصویر پرس و جو در چهار صحنه خانه، کافه، اداره و راهرو توسط VLAD و روش پیشنهادی ما و همچنین خطای مقایسه با مقدار واقعی زمین را نشان می دهد. مشاهده می شود که خطاهای مختصات روش VLAD نسبتاً زیاد است. برخی از آنها خطاهای 5-6 متر دارند. علاوه بر این، چون نتیجه پرس و جوی تصویر پنجم دارای نقاط مشخصه یکسانی با تصویر درخواست شده نیست، پوز آن قابل محاسبه نیست. خطاهای روش پیشنهادی ما نسبتاً کوچک است و حداکثر خطا حدود دو متر است. در مقایسه با روش اصلی VLAD، بسیار بهبود یافته است.
جدول 2 زاویه هر تصویر پرس و جو را در چهار صحنه محاسبه شده با VLAD و روش پیشنهادی (بیان شده توسط کواترنیون برای راحتی محاسبه)، همراه با خطاها در مقایسه با مقدار واقعی زمین نشان می دهد. اگرچه خطاهای دو روش کم است، اما نتایج روش VLAD نسبتاً زیاد است. در مقایسه با روش اصلی VLAD، خطای روش پیشنهادی نسبتاً کم است.
ORB-SLAM2 یکی دیگر از روش های پیشرفته موقعیت یابی است که توسط Mur-Artal و Tardós [ 43 ] پیشنهاد شده است. از توصیفگر و استخراج کننده ویژگی برای ردیابی برای مکان یابی و نقشه برداری بلادرنگ استفاده می کند. از داده های دوربین تک چشمی، استریو و RGB-D پشتیبانی می کند. جدول 3 و جدول 4 نتیجه تخمین موقعیت و زاویه روش ORB-SLAM2 را نشان می دهد. بیشتر خطاها بزرگتر از خطاهای روش پیشنهادی ما هستند. این نشان می دهد که اثر موقعیت یابی روش پیشنهادی ما بهتر است.
جدول 5 میانگین خطا و میانگین زمان موقعیت یابی سه روش را نشان می دهد. از آنجایی که روش پیشنهادی ظرفیت توصیفگر VLAD را افزایش می دهد، کمی بیشتر از VLAD اصلی زمان می برد، اما هنوز در سطح بسیار کارآمدی است. ORB-SLAM2 سریعتر از VLAD است. در مقایسه با روش اصلی VLAD و ORB-SLAM2، روش پیشنهادی دقت موقعیت یابی را تا حد زیادی بهبود می بخشد زمانی که شرایط روشنایی مجموعه پرس و جو و مجموعه آموزشی متفاوت است.

6. نتیجه گیری و بحث

در این مقاله، ما یک روش موقعیت‌یابی بصری با استفاده از تصویر RGB-D در دستگاه‌های تلفن همراه هوشمند پیشنهاد کردیم. در این مقاله، ما روش بازیابی تصویر VLAD را که برای موقعیت‌یابی دید موبایل اعمال می‌شود، بهبود می‌بخشیم. این روش از مزایای مصرف حافظه کم، سرعت محاسبات سریع و دقت بالا برخوردار است. در مرحله اول، ژست هر تصویر در مجموعه آموزشی از طریق استخراج و شرح ویژگی ORB، ثبت تصویر و بهینه سازی نقشه ژست محاسبه می شود. سپس، در مرحله بازیابی تصویر، مجموعه آموزشی و مجموعه پرس و جو برای تولید بردار توصیف VLAD خوشه بندی می شوند. به منظور غلبه بر این مشکل که بردار توضیحات اطلاعات رنگ تصویر را از دست می دهد و دقت بازیابی را در شرایط نوری مختلف بهبود می بخشد. ما اطلاعات رنگ و اطلاعات عمق را با توصیفگرهای VLAD برای بازیابی تصویر ترکیب کردیم. هنگامی که شرایط روشنایی و شرایط رنگ تغییر می کند، قوی است. فضای رنگی مخالف، همراه با اطلاعات عمق، می تواند استحکام بازیابی تصویر را در شرایط نوری مختلف افزایش دهد. در نهایت، حالت 6-DOF تصاویر پرس و جو با روش PnP با تصویر پرس و جو محاسبه شده و تصویر نتیجه بازیابی می شود. آزمایش‌ها بر روی داده‌های RGB-D چهار صحنه (کافه، راهرو، خانه و دفتر) در مجموعه داده LORIS انجام شده است. نتایج تحت شرایط مختلف روشنایی در صحنه‌های داخلی نشان می‌دهد که روش پیشنهادی دقت موقعیت‌یابی را در مقایسه با VLAD و ORB-SLAM2 اصلی که کارایی محاسباتی خوبی دارد، بهبود می‌بخشد. از سوی دیگر، آزمایش دیگری توسط ما نشان می‌دهد که هنگام استفاده از اطلاعات عمق بدون جزء رنگ، خطاهای تخمین موقعیت 8 تصویر پرس و جو 0.300، 0.552، 2.457، 0.417، 3.076، 0.497، 0.928، و 3.764 است. خطاها بزرگتر از خطاهای دارای جزء رنگ هستند.
با توجه به زمان و انرژی محدود نویسنده، ارائه یک فناوری کامل در موقعیت یابی داخلی غیرممکن است. بنابراین، هنوز برخی از مطالب پژوهشی در این زمینه وجود دارد که نیاز به بهبود و تکمیل دارند. در حال حاضر، کارایی روش پیشنهادی نیاز به بهبود دارد. در تحقیق بعدی سعی خواهیم کرد از خوشه بندی سلسله مراتبی به جای خوشه بندی k-means موجود برای بهبود کارایی استفاده کنیم. به منظور بهبود دقت، ممکن است با استفاده از روش یادگیری عمیق تحقیقاتی انجام دهیم. از سوی دیگر، برای جلوگیری از اتلاف وقت در فرآیند انتقال شبکه، باید روشی را نیز مطالعه کنیم که کمتر به سرور وابسته باشد.
ممکن است در تصویر درخواستی که توسط کاربران دستگاه تلفن همراه گرفته شده، انسداد وجود داشته باشد. آنها دشواری بازیابی تصویر را تا حدی افزایش می دهند و همچنین بر دقت الگوریتم تخمین موقعیت تأثیر می گذارند. بنابراین، در کار آینده، الگوریتم فیلتر ویژگی بصری را در مورد انسداد مطالعه خواهیم کرد و سعی خواهیم کرد تا دقت موقعیت یابی را از طریق الگوریتم فیلتر ویژگی بصری بهبود بخشیم.

منابع

  1. فرانتس، MO; مالات، ناوبری ربات بیومیمتیک HA. ربات. Auton. سیستم 2000 ، 30 ، 133-153. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  2. Seo, PH; ویاند، تی. سیم، جی. Han، B. CPlaNet: افزایش مکان‌یابی تصویر با تقسیم‌بندی ترکیبی نقشه‌ها. در یادداشت های سخنرانی در علوم کامپیوتر ; Springer: برلین، آلمان، 2018; صص 544-560. [ Google Scholar ]
  3. مایکروسافت. کینکت. در دسترس آنلاین: https://www.xbox.com/en-us/kinect/ (در 28 سپتامبر 2020 قابل دسترسی است).
  4. Qin، X. Ge، Y. فنگ، جی. یانگ، دی. چن، اف. هوانگ، اس. Xu, L. DTMMN: شبکه چند متری انتقال عمیق برای تشخیص عملکرد RGB-D. محاسبات عصبی 2020 ، 406 ، 127-134. [ Google Scholar ] [ CrossRef ]
  5. شامول، ای جی; لیندگرن، ک. لئونگ، اس. Nothwang، WD دور سنجی عمیق بصری-اینرسی بدون نظارت با تصحیح خطای آنلاین برای تصاویر RGB-D. IEEE Trans. الگوی مقعدی ماخ هوشمند 2020 ، 42 ، 2478-2493. [ Google Scholar ] [ CrossRef ] [ PubMed ]
  6. اینگمن، ام. ویرتانن، جی.-پی. واجا، MT; Hyyppä، H. مقایسه سیستم‌های حسگر کم‌هزینه در مدل‌سازی سه‌بعدی داخلی داخلی مبتنی بر ابر خودکار. Remote Sens. 2020 , 12 , 2624. [ Google Scholar ] [ CrossRef ]
  7. پارک، KB; چوی، SH; کیم، ام. لی، JY Deep مبتنی بر یادگیری تلفن همراه واقعیت افزوده برای کمک به کار با استفاده از نقشه‌برداری فضایی سه بعدی و داده‌های RGB-D مبتنی بر عکس فوری. محاسبه کنید. مهندسی صنعتی 2020 , 146 , 106585. [ Google Scholar ] [ CrossRef ]
  8. Ahn، ام اس; چای، اچ. نه، دی. نام، اچ. Hong, D. تحلیل و مدل‌سازی نویز Intel RealSense D435 برای روبات‌های موبایل. در مجموعه مقالات شانزدهمین کنفرانس بین المللی ربات های همه جا حاضر (UR)، ججو، کره، 24 تا 27 ژوئن 2019. [ Google Scholar ]
  9. Soille, P. تجزیه و تحلیل تصویر مورفولوژیکی: اصول و کاربردها. Sens. Rev. 1999 , 28 , 800-801. [ Google Scholar ]
  10. وان، ک. ما، ال. Tan, X. یک الگوریتم بهبود در RANSAC برای مکان‌یابی فضای داخلی مبتنی بر تصویر. در مجموعه مقالات کنفرانس بین المللی ارتباطات بی سیم و محاسبات سیار 2016 (IWCMC)، پافوس، قبرس، 5 تا 9 سپتامبر 2016. صص 842-845. [ Google Scholar ]
  11. چنگ، دبلیو. لین، دبلیو. Sun، MT 3D Point Cloud ساده‌سازی برای محلی‌سازی مبتنی بر تصویر. در مجموعه مقالات کنفرانس بین المللی IEEE 2015 در کارگاه های چند رسانه ای و نمایشگاهی (ICMEW)، تورین، ایتالیا، 29 ژوئن 2015؛ صص 1-6. [ Google Scholar ]
  12. سالاریان، م. ایلیف، ن. Cetin، AE; انصاری، ر. بومی سازی مبتنی بر تصویر با استفاده از SfM و انتقال سیستم مختصات اصلاح شده بهبود یافته است. IEEE Trans. چندتایی. 2018 ، 20 ، 3298-3310. [ Google Scholar ] [ CrossRef ]
  13. گوان، ک. ما، ال. تان، ایکس. Guo، S. رویکرد محلی سازی داخلی مبتنی بر ویژن بر اساس SURF و Landmark. در مجموعه مقالات کنفرانس بین المللی ارتباطات بی سیم و محاسبات سیار 2016 (IWCMC)، پافوس، قبرس، 5 تا 9 سپتامبر 2016. صص 655-659. [ Google Scholar ]
  14. کاواموتو، ک. کازاما، اچ. Okamoto، K. محلی‌سازی بصری با استفاده از بازیابی تصویر مبتنی بر رأی و فیلتر ذرات در صحنه‌های داخلی. در مجموعه مقالات دومین کنفرانس بین المللی 2013 در مورد ربات، بینایی و پردازش سیگنال، کیتاکیوشو، ژاپن، 10-12 دسامبر 2013. صص 160-163. [ Google Scholar ]
  15. فنگ، جی. تان، ایکس. Ma, L. تشخیص مکان بصری با استفاده از حسگرهای تلفن هوشمند برای محیط داخلی. در مجموعه مقالات دهمین کنفرانس بین المللی 2015 برای فناوری اینترنت و تراکنش های امن (ICITST)، لندن، انگلستان، 14 تا 16 دسامبر 2015؛ ص 426-430. [ Google Scholar ]
  16. Çinaroğlu، İ. Baştanlar، Y. محلی‌سازی مبتنی بر تصویر با استفاده از تقسیم‌بندی معنایی برای رانندگی خودمختار. در مجموعه مقالات بیست و هفتمین کنفرانس کاربردهای پردازش سیگنال و ارتباطات (SIU) 2019، سیواس، ترکیه، 24 تا 26 آوریل 2019؛ صص 1-4. [ Google Scholar ]
  17. کیم، اچ. اوه، تی. لی، دی. Myung, H. محلی‌سازی مبتنی بر تصویر با استفاده از پایگاه داده نقشه قبلی و محلی‌سازی مونت کارلو. در مجموعه مقالات یازدهمین کنفرانس بین المللی 2014 در مورد ربات های همه جا حاضر و هوش محیطی (URAI)، کوالالامپور، مالزی، 12 تا 15 نوامبر 2014؛ صص 308-310. [ Google Scholar ]
  18. Tran، NT; Le Tan، DK; Doan، AD; انجام دهید، TT; Bui، TA; تان، م. Cheung، بومی‌سازی مبتنی بر تصویر مقیاس‌پذیر NM روی دستگاه از طریق جستجوی آبشاری اولویت‌دار و RANSAC سریع One-Many. IEEE Trans. فرآیند تصویر 2018 ، 28 ، 1675-1690. [ Google Scholar ] [ CrossRef ] [ PubMed ]
  19. فنگ، جی. ما، ال. Tan, X. ساخت نقشه بصری با استفاده از حسگرهای RGB-D برای محلی‌سازی مبتنی بر تصویر در محیط‌های داخلی. J. Sens. 2017 ، 2017 ، 1-18. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  20. او، X. آلوی، د. قابل حمل، LJ 3D حسگر بصری مبتنی بر مکان یابی داخلی در دستگاه تلفن همراه. در مجموعه مقالات سیزدهمین کنفرانس سالانه ارتباطات و شبکه سازی مصرف کننده IEEE (CCNC) 2016، لاس وگاس، NV، ایالات متحده، 9 تا 12 ژانویه 2016؛ صص 1125–1128. [ Google Scholar ]
  21. شیا، آر. پان، ی. لای، اچ. لیو، سی. Yan, S. نظارت بر هش برای بازیابی تصویر از طریق یادگیری بازنمایی تصویر. Proc. AAAI Conf. آرتیف. هوشمند 2014 ، 28 ، 2156-2162. [ Google Scholar ]
  22. لای، اچ. پان، ی. لیو، ی. Yan, S. یادگیری ویژگی همزمان و کدگذاری هش با شبکه های عصبی عمیق. در مجموعه مقالات کنفرانس IEEE 2015 در مورد دید رایانه و تشخیص الگو، بوستون، MA، ایالات متحده آمریکا، 7 تا 12 ژوئن 2015. صص 3270–3278. [ Google Scholar ]
  23. ارین، LV; لو، جی. وانگ، جی. مولن، پی. ژو، جی. هش عمیق برای یادگیری کدهای باینری فشرده. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، بوستون، MA، ایالات متحده، 7 تا 12 ژوئن 2015. ص 2475-2483. [ Google Scholar ]
  24. لیو، اچ. وانگ، آر. شان، اس. Chen, X. هش تحت نظارت عمیق برای بازیابی سریع تصویر. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، لاس وگاس، NV، ایالات متحده، 27-30 ژوئن 2016. ص 2064–2072. [ Google Scholar ]
  25. روبلی، ای. راباود، وی. کونولیج، ک. Bradski، G. ORB: جایگزینی کارآمد برای SIFT یا SURF. در مجموعه مقالات کنفرانس بین المللی 2011 بینایی کامپیوتر، بارسلون، اسپانیا، 6 تا 13 نوامبر 2011. صص 2564-2571. [ Google Scholar ]
  26. ویژگی های Viswanathan، DG از تست بخش شتاب (سریع). در مجموعه مقالات دهمین کارگاه آموزشی تجزیه و تحلیل تصویر برای خدمات تعاملی چند رسانه ای، لندن، بریتانیا، 6-8 مه 2009. صص 6-8. [ Google Scholar ]
  27. کالوندر، ام. لپتیت، وی. استرچا، سی. Fua، PV مختصر: ویژگی های ابتدایی مستقل باینری قوی. در کنفرانس اروپایی بینایی کامپیوتر ; Springer: برلین/هایدلبرگ، آلمان، 2010; صص 778-792. [ Google Scholar ]
  28. Lowe, G. SIFT – تبدیل ویژگی ثابت مقیاس. بین المللی J. 2004 ، 2 ، 91-110. [ Google Scholar ]
  29. بی، اچ. اس، ا. تویتلارس، تی. Van Gool، L. ویژگی‌های قوی با سرعت بالا (SURF). محاسبه کنید. Vis. تصویر زیر. 2008 ، 110 ، 346-359. [ Google Scholar ] [ CrossRef ]
  30. وو، ی. Hu, Z. مشکل PnP بازبینی شد. جی. ریاضی. تصویربرداری Vis. 2006 ، 24 ، 131-141. [ Google Scholar ] [ CrossRef ]
  31. گائو، ایکس. هو، ایکس. تانگ، جی. چنگ، اچ. طبقه بندی راه حل کامل برای مسئله چشم انداز-سه نقطه. IEEE Trans. الگوی مقعدی ماخ هوشمند 2003 ، 25 ، 930-943. [ Google Scholar ]
  32. لپتیت، وی. مورنو نوگر، اف. Fua، P. EPnP: یک راه حل دقیق O(n) برای مسئله PnP. بین المللی جی. کامپیوتر. Vis. 2009 ، 81 ، 155-166. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  33. Kneip، L. لی، اچ. Upnp، SY یک راه حل بهینه o (n) برای مسئله وضعیت مطلق با قابلیت کاربرد جهانی. در کنفرانس اروپایی بینایی کامپیوتر ; Springer: Cham, Switzerland, 2014; صص 127-142. [ Google Scholar ]
  34. تریگز، بی. مک لاچلان، پی اف. هارتلی، RI; Fitzgibbon، AW Bundle Adjustment – یک سنتز مدرن. در یادداشت های سخنرانی در کارگاه بین المللی علوم کامپیوتر در مورد الگوریتم های بینایی ; Springer: برلین/هایدلبرگ، آلمان، 2000; صص 298-372. [ Google Scholar ]
  35. مور، جی جی الگوریتم لونبرگ-مارکوارت: پیاده سازی و نظریه. در یادداشت های سخنرانی در ریاضیات ; Springer: برلین/هایدلبرگ، آلمان، 1978; صص 105-116. [ Google Scholar ]
  36. Moore, AW An Introductory Tutorial on KD Trees. 1991. در دسترس آنلاین: https://www.autonlab.org/autonweb/14665 (در 23 مارس 2021 قابل دسترسی است).
  37. جگو، اچ. دوز، م. اشمید، سی. Pérez, P. تجمیع توصیفگرهای محلی در یک نمایش تصویر فشرده. در مجموعه مقالات کنفرانس IEEE Computer Society در سال 2010 در مورد دید رایانه و تشخیص الگو، سانفرانسیسکو، کالیفرنیا، ایالات متحده آمریکا، 13 تا 18 ژوئن 2010. صص 3304–3311. [ Google Scholar ]
  38. Van de Sande، KEA; گیورس، تی. اسنوک، CGM ارزیابی توصیفگرهای رنگ برای تشخیص شی و صحنه. IEEE Trans. الگوی مقعدی ماخ هوشمند 2010 ، 32 ، 1582-1596. [ Google Scholar ] [ CrossRef ] [ PubMed ]
  39. نوروزی، م. ناوگان، دی جی; Salakhutdinov، RR Hamming یادگیری متریک از راه دور. Adv. عصبی Inf. روند. سیستم 2012 ، 25 ، 1061-1069. [ Google Scholar ]
  40. پیج، سی سی؛ ساندرز، MA به سوی یک تجزیه ارزش منفرد تعمیم یافته. SIAM J. Numer. مقعدی 1981 ، 18 ، 398-405. [ Google Scholar ] [ CrossRef ]
  41. Gander، W. الگوریتم‌های تجزیه QR. Res. تولید مجدد 1980 ، 80 ، 1251-1268. [ Google Scholar ]
  42. شی، ایکس. لی، دی. ژائو، پی. تیان، کیو. او، س. آیا ما برای روبات های خدماتی آماده هستیم؟ مجموعه داده های OpenLORIS-Scene برای SLAM مادام العمر. در مجموعه مقالات کنفرانس بین المللی رباتیک و اتوماسیون (ICRA)، مونترال، QC، کانادا، 20-24 مه 2019؛ صص 3139–3145. [ Google Scholar ]
  43. مور آرتال، آر. Tardós، JD ORB-slam2: یک سیستم slam منبع باز برای دوربین های تک چشمی، استریو و RGB-D. IEEE Trans. ربات. 2017 ، 33 ، 1255-1262. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
شکل 1. نمودار جریان کل کار.
شکل 2. بهبود چارچوب کدنویسی VLAD.
شکل 3. مدل سه بعدی ساخته شده از تصویر RGB-D: ( الف ) صحنه اصلی. ( ب ) صحنه کافه؛ ( ج ) صحنه اداری؛ ( د ) صحنه راهرو.
شکل 4. تصاویر پرس و جو در صحنه خانه و نتایج پرس و جو. ( الف ) پرس و جو تصویر شماره. 1 ( ب ) پرس و جو تصویر شماره. 2 ( ج ) نتیجه پرس و جو از تصویر 1 با روش VLAD. ( د ) نتیجه پرس و جو از تصویر 1 با روش پیشنهادی ما. ( ه ) نتیجه پرس و جو از تصویر 2 با روش VLAD. ( f ) نتیجه پرس و جو از تصویر 2 با روش پیشنهادی ما.
شکل 5. تصاویر پرس و جو در صحنه کافه و نتایج پرس و جو: ( الف ) تصویر پرس و جو شماره. 1 ( ب ) پرس و جو تصویر شماره. 2 ( ج ) نتیجه پرس و جو از تصویر 1 با روش VLAD. ( د ) نتیجه پرس و جو از تصویر 1 با روش پیشنهادی ما. ( ه ) نتیجه پرس و جو از تصویر 2 با روش VLAD. ( f ) نتیجه پرس و جو از تصویر 2 با روش پیشنهادی ما.
شکل 6. تصاویر پرس و جو در صحنه اداری و نتایج پرس و جو: ( الف ) تصویر پرس و جو شماره. 1 ( ب ) پرس و جو تصویر شماره. 2 ( ج ) نتیجه پرس و جو از تصویر 1 با روش VLAD. ( د ) نتیجه پرس و جو از تصویر 1 با روش پیشنهادی ما. ( ه ) نتیجه پرس و جو از تصویر 2 با روش VLAD. ( f ) نتیجه پرس و جو از تصویر 2 با روش پیشنهادی ما.
شکل 7. تصاویر پرس و جو در صحنه راهرو و نتایج پرس و جو: ( الف ) تصویر پرس و جو شماره. 1 ( ب ) پرس و جو تصویر شماره. 2 ( ج ) نتیجه پرس و جو از تصویر 1 با روش VLAD. ( د ) نتیجه پرس و جو از تصویر 1 با روش پیشنهادی ما. ( ه ) نتیجه پرس و جو از تصویر 2 با روش VLAD. ( f ) نتیجه پرس و جو از تصویر 2 با روش پیشنهادی ما.

بدون دیدگاه

دیدگاهتان را بنویسید