1. معرفی
فناوری ادراک محیط سه بعدی داخلی یکی از فناوری های کلیدی برای موقعیت یابی و ناوبری ربات، واقعیت مجازی، واقعیت افزوده و نقشه برداری و محلی سازی فضای داخلی است [ 1 ، 2 ، 3 ، 4 ، 5 ، 6 ، 7 ]. با توسعه سریع فناوری حسگر، دستگاههای زیادی وجود دارند که میتوانند برای جذب ابر نقطهای و مدلسازی سطح صحنههای داخلی استفاده شوند، مانند LiDAR [8]، دوربینهای RGB [9]، دوربینهای RGB- D [ 5 ] .] و سایر حسگرهای تجاری، که به طور گسترده در ادراک سه بعدی داخلی استفاده می شوند. دوربین RGB-D ویژگیهای دو نوع حسگر، دوربینهای LiDAR و RGB را ترکیب میکند تا دادههای ابری نقطهای و خروجی دادههای تصویر RGB را در یک سری زمانی به دست آورد، که برای کسب بلادرنگ و بهروزرسانی فضای سهبعدی داخلی مساعدتر است. اطلاعات ساختار و بافت علاوه بر این، در مقایسه با دستگاههایی که
LiDAR را ادغام میکنند، ارزان است و تحقیقات گسترده و چشماندازهای کاربردی در ادراک سهبعدی فضای داخلی را پوشش میدهد. یکی از اولین سنسورهای تجاری RGB-D مصرف کننده، سنسور Prime Sense اپل است که از نور ساختاریافته (SL) برای پیاده سازی فناوری درک صحنه استفاده می کند. دستگاه های مشابه عبارتند از Microsoft Kinect v1 و Asus Xtion [ 10]. سپس مایکروسافت Kinect v2 را منتشر کرد، نسخهای از دوربین RGB-D که از اصل زمان پرواز (ToF) برای سنجش فاصله، با نرخ فریم بالا، اما وضوح نقشه با عمق کمتر استفاده میکند [11 ، 12 ] . ظهور دوربینهای RGB-D که شامل یک پروژکتور بافت مادون قرمز با الگوی ثابت است، به این معنی است که دوربینهای سبک RGB-D وضوح نقشهای با عمق بالاتری دارند، بهویژه در ادراک سهبعدی داخلی در فاصله نزدیک، جایی که میتوانند دادههای کاملتر و دقیقتری به دست آورند. دوربینهای قابل حمل RGB-D درجه مصرفکننده اینتل، سنسورهای اصلی هستند، از جمله اینتل R200 (2015)، D415 و D435 (2018)، که بر اساس دید استریو فعال (ASV) برای جمعآوری و پردازش دادهها ساخته شدهاند. به طور خاص، این فناوری معمولاً از یک پروژکتور بافت NIR جفت شده با دو دوربین NIR برای تخمین عمق استفاده می کند.13 ]. با ظهور سنسورهای RGB-D کم هزینه و قابل حمل، دوربین های RGB-D مبتنی بر ASV به بافت های داخلی حساس نیستند، بنابراین تعداد فزاینده ای از شرکت های تجاری و محققان علاقه مند به استفاده از چنین دوربین های RGB-D برای ادراک سه بعدی هستند. صحنه های داخلی [ 14 ]. در میان آنها، R200 یک دوربین RGB-D است که مبتنی بر لکه های مادون قرمز و فناوری دید استریو برای تخمین عمق صحنه های داخلی است. بسیاری از محققان از آن برای ناوبری و موقعیت یابی ربات های داخلی، نقشه برداری سه بعدی داخلی و سایر تحقیقات استفاده می کنند [ 15]]. ماژول تطبیق استریو دوچشمی ارائه شده توسط اینتل در R200 بر اساس یک روش تطبیق محلی است. اگرچه می تواند تصاویر استریو مادون قرمز را با نرخ فریم بالاتر مطابقت دهد، نقشه عمق آن مشکل حفره های زیاد و فاصله تشخیص معتبر کوتاه دارد. به طور خاص، نرخ سوراخ اغلب به 40٪ می رسد و فاصله تشخیص معتبر کمتر از 4 متر است. این یک محدودیت در بسیاری از کارهای بازسازی و نقشه برداری سه بعدی داخلی است که نیاز به درک سه بعدی متراکم دارد، که باعث می شود برای بسیاری از سناریوها و الزامات استفاده به خوبی کار نکند.
با توجه به عملکرد فعلی و کمبود الگوریتم تطبیق تجاری R200، یک الگوریتم تطبیق استریو جدید، به نام الگوریتم تطبیق نیمه جهانی استریو مادون قرمز (ISGSM)، بر اساس کار تطبیق نیمه جهانی (SGM) پیشنهاد شده است. 16]. این روش بر اساس ویژگی های یک تصویر لکه ای مادون قرمز است. این استراتژی یک پنجره نیمه جهانی و کشویی را اتخاذ می کند که به وسیله آن می تواند داده های بیشتری را در محاسبه هزینه ترکیب کند. به این ترتیب تطبیق استریو با کیفیت بالاتری حاصل خواهد شد تا نقشه عمق به دست آمده از یکپارچگی بهتر و دقت بالاتری برخوردار باشد و برد تشخیص و دقت R200 را به میزان قابل توجهی افزایش دهد. اعتبار و برتری روش با مقایسه تجربی و تحلیل الگوریتم تجاری R200 [ 17 ] و الگوریتمهای تطبیق استریو نماینده [ 18 ] تأیید میشود. بخشهای زیر از این مقاله به شرح زیر تنظیم شدهاند: بخش 2 پیشرفت تحقیقاتی فناوری بینایی استریو موجود را تشریح میکند.بخش 3 الگوریتم های معمولی موجود را معرفی می کند و الگوریتم ISGSM جدید پیشنهادی را به تفصیل شرح می دهد. بخش 4 روش های تجربی را توضیح می دهد و نتایج تجربی را تجزیه و تحلیل می کند. بخش 5 بحث بر اساس نتایج تجربی است. و بخش 6 نتیجه گیری است.
2. کارهای مرتبط
در حال حاضر تحقیق بر روی نقشه های عمق از طریق تکنیک دید استریو یک کانون تحقیقاتی در زمینه دید کامپیوتری فتوگرامتری است. این نقشه عمق صحنه اسکن شده را از طریق تطبیق تصاویر محاسبه می کند، و سپس می تواند داده های ابر نقطه ای بدون ساختار متراکم را به دست آورد، که فناوری اصلی برای درک صحنه سه بعدی و تقسیم بندی معنایی است. با توجه به ویژگی ها و اصول این الگوریتم های تطبیق استریو، آنها را می توان به سادگی به روش های محلی و روش های جهانی تقسیم کرد [ 16]]. روشهای محلی عمدتاً از اطلاعات محلی اطراف پیکسل مورد نظر برای محاسبه استفاده میکنند که شامل اطلاعات کمتر و پیچیدگی محاسباتی کمتر است. الگوریتمهای تطبیق محلی رایج شامل روشهای مبتنی بر ناحیه و مبتنی بر ویژگی است. الگوریتم تطبیق مبتنی بر مساحت بر اساس اصل عدم تغییر نورسنجی است. سطح خاکستری پنجره محله اغلب به عنوان واحد تطبیق استفاده می شود و درجه همبستگی به عنوان مبنای تمایز استفاده می شود. به این ترتیب تصویر نابرابری متراکم تری به دست می آید. در میان آنها، رایجتر الگوریتم BM (Block Matching) است [ 18]. نقص برجسته آن این است که وضوح تغییر تابع همبستگی اغلب در ناحیه بدون بافت کافی نیست، و حفظ تداوم عمق دشوار است، بنابراین بعید است که نتایج تطبیق دقیق به دست آید. با توجه به این مشکلات ذبیح و همکاران. [ 19] برخی پیشرفت های تحقیقاتی را انجام داده اند. آنها تبدیل رتبه را به تبدیل سرشماری ارتقا دادند تا بتوانند از فاز همبستگی به طور کلی اجتناب کنند و به سادگی پیکسل ها را مطابق مجموعه ای از معیارهای نیمه مستقل مطابقت دهند. الگوریتم تطبیق مبتنی بر ویژگی مبتنی بر اصل عدم تغییر هندسی است که می تواند بر کمبود حساسیت الگوریتم تطبیق مبتنی بر ناحیه نسبت به مناطق بدون بافت تا حد معینی غلبه کند. با توجه به ویژگی های آماری واحدهای ویژگی و منظم بودن ساختار داده، برای طراحی سخت افزاری مناسب است. با این حال، مشکلاتی وجود دارد که در آن تصاویر نابرابری متراکم باید به
درون یابی پیچیده تری متصل شوند، و عملکرد نتایج تطبیق ویژگی به شدت به دقت استخراج ویژگی بستگی دارد. شاهزاده [ 20] از روش انرژی محلی برای شناسایی ویژگیهای زیرپیکسلی چند جهته استفاده میکند و انواع مختلفی از ویژگیها را برای تطبیق تشخیص میدهد، که توانایی الگوریتمهای تطبیق محلی مبتنی بر ویژگی را بهبود میبخشد. با این حال، اکثر الگوریتمهای تطبیق محلی به نویز حساس هستند و اثر تطبیق در مناطق بدون بافت، مناطق انسداد یا مناطق نابرابری ناپیوسته ایدهآل نیست. الگوریتمهای تطبیق جهانی، مسئله تطبیق نقاط متناظر را به یک مسئله بهینهسازی جهانی برای یافتن یک تابع انرژی تبدیل میکنند، که هسته اصلی آن در روش ساخت تابع انرژی و استراتژی راهحل بهینهسازی تابع انرژی نهفته است. الگوریتم های جهانی رایجی مانند برنامه نویسی پویا [ 21 ]، برش نمودار [ 22 ] و انتشار باور [ 23] وجود دارد.]. چارشتاین و همکاران [ 24] عملکرد استراتژیهای بهینهسازی مختلف را ارزیابی کرد و اشاره کرد که برنامهنویسی پویا میتواند به سرعت راهحل بهینه را جستجو کند و در عین حال محدودیتهای دنباله نقطهای مربوطه را برآورده کند. ماهیت آن یافتن کمترین هزینه تطبیق بین تصاویر چپ و راست، ارائه پشتیبانی جهانی برای مناطق بدون بافت محلی و در نتیجه، بهبود دقت تطبیق است، اما نمی تواند به طور موثر محدودیت های تداوم را در جهت های افقی و عمودی تلاقی کند. دقت تطبیق الگوریتم های سراسری بیشتر از الگوریتم های محلی است و لبه های اشیا نیز بهتر نگه داشته می شوند. متاسفانه پیچیدگی الگوریتم های جهانی بیشتر است و زمان پردازش و هزینه های سخت افزاری افزایش می یابد که در طول زمان اجرا حافظه بیشتری مصرف می کند. از این رو،
با توجه به مزایا و معایب روش های جهانی و روش های محلی در تکنیک
دید استریو، الگوریتم نیمه جهانی مورد توجه محققان و توجه صنعت قرار گرفته است. یکی از شاخص ترین الگوریتم های SGM [ 16 ] است که مزایای روش های محلی و روش های جهانی را ترکیب می کند، بهینه سازی جهانی دوبعدی را با محدود کردن مسیر 1 بعدی در جهت های مختلف انجام می دهد و بازده بالاتر را حفظ می کند در حالی که تصاویر نابرابری با کیفیت بالاتر را به دست می آورد [ 16 ، 25 ، 26]. در همین حال، الگوریتم تطبیق نیمه جهانی پیچیده تر از روش های جهانی است و می تواند در زمان واقعی پردازش شود. علاوه بر این، دقت و فاصله تشخیص الگوریتم تطبیق نیمه جهانی و همچنین کیفیت تصاویر نابرابری به طور قابل توجهی بالاتر از الگوریتم های تطبیق محلی است که جلوه های بصری خیره کننده و توانایی ادراک سه بعدی خوب را ارائه می دهد. بنابراین، تحقیق در مورد تطابق نیمه جهانی به تمرکز تحقیقاتی تکنیک دید استریو فعلی تبدیل شده است، به ویژه در بسیاری از سناریوهای کاربردی داخلی که هم به دقت درک سه بعدی کامل و هم به پردازش بلادرنگ نیاز دارند، اما هنوز هم کاستی هایی دارد. بسیاری از محققان بر اساس SGM پیشرفتهای زیادی انجام دادهاند که در میان آنها برجستهتر الگوریتم tSGM [ 27 ] است. الگوریتم tSGM در SURE [28 ] یک راه حل سلسله مراتبی درشت به ریز برای روش SGM ارائه می کند تا محدوده جستجوی نابرابری را محدود کند و تقاضای حافظه و همچنین زمان پردازش را کاهش دهد. با این حال، لبه ها به وضوح در الگوریتم SGM [ 29 ] بازسازی نمی شوند، که مستقیماً دقت و یکپارچگی ادراک سه بعدی را کاهش می دهد. با توجه به استفاده از دید استریو در محیط های ساختاریافته، روش CSGM (SGM سازگار) [ 30 ] می تواند سازه ها را به خوبی اداره کند اما زمان اجرا را حدود 30 تا 50 درصد افزایش می دهد. بر اساس کوچکترین درخت پوشا، الگوریتم MST-SGM [ 31] پیشنهاد شده است که دارای لبه های مشکی تطبیق کمتری نسبت به روش SGM است، اما در عین حال منجر به خطاهای بیشتری می شود که باعث کاهش دقت اطلاعات عمق می شود. همراه با تبدیل تطبیقی سرشماری، یک الگوریتم بهبود یافته SGM پیشنهاد شده است [ 32 ]، که یک فیلتر آگاه از رنگ را قادر می سازد تا با تغییرات نور در صحنه های خارج از منزل مقابله کند اما لبه ها را به خوبی حفظ نمی کند. برازش صفحه بر اساس تصاویر نابرابری بهدستآمده توسط SGM [ 33 ] انجام میشود و نتایج خوبی به دست آورده است، اما هزینه محاسبات نیز افزایش مییابد، و عملکرد بلادرنگ به اندازه کافی خوب نیست. SGM-Nets [ 34] الگوریتم SGM را با یک شبکه عصبی ترکیب میکند که میتواند عملکرد را تحت فرض دانش قبلی کافی بهبود بخشد. علاوه بر این، الگوریتم SGBM [ 35] که می تواند از طریق تطبیق بلوک های تطبیقی دقت تخمین ارتفاع در ناحیه آبی تصاویر ماهواره ای نوری را بهبود بخشد، اما فقط برای ناحیه بافت ضعیف با ارتفاع تقریباً ثابت قابل استفاده است و سناریوهای کاربردی آن کاملاً با سناریوهای داخلی متفاوت است. به طور خلاصه، محققان بسیاری از الگوریتم های بهبود یافته را بر اساس الگوریتم SGM در زمینه های تحقیقاتی مربوطه خود پیشنهاد کرده اند. با این حال، هنوز هیچ راه حل آماده و کاملی برای چنین مشکلاتی مانند درک کامل و دقیق در زمان واقعی یک ربات پرستار پزشکی، بازسازی دقیق سه بعدی در زمان واقعی و تجربه واقعیت افزوده دقیق تر و ظریف تر وجود ندارد.

3. روش شناسی
شکل 1 یک راه حل کامل از درک محیط سه بعدی داخلی در زمان واقعی را بر اساس دوربین RGB-D مورد مطالعه در این مقاله نشان می دهد. ابتدا دوربین های R200 را کالیبره کنید و تصاویر RGB و مادون قرمز را بدست آورید. سپس، از الگوریتم تطبیق استریو ما برای بدست آوردن نقشه های عمق استفاده کنید. در نهایت،
تصاویر RGB و ابر نقطه بهدستآمده از طریق نقشههای عمق برای بازسازی مدل سطح سهبعدی داخلی صحنههای تجربی با استفاده از الگوریتم BundleFusion [ 36 ] (متن باز) استفاده میشوند. جعبه قرمز در شکل 1 ، محتوای اصلی نوآوری و پژوهشی این مقاله است که در ادامه به تفصیل معرفی و توضیح داده خواهد شد.
در وهله اول، ما از برنامه های یکپارچه شده در Matlab R2019a برای
کالیبره کردن R200 استفاده کردیم [ 37 ، 38 ، 39 ]. پس از کالیبراسیون، ما نیاز به همکاری با R200 از طریق یک کامپیوتر نوت بوک قابل حمل برای جمع آوری داده های تجربی داشتیم. در این مقاله، محیط نرمافزاری و سختافزاری لپتاپ آزمایشی با R200 شامل Ubuntu16.04 LTS، CPU Intel (R) Core (TM) i7، رم 8.00 گیگابایت، GPU NVIDIA GeForce MX150 و درایور دوربین از librealsense-1.12.1 است. . در آزمایشها، میتوانیم تصاویر RGB 60 فریم بر ثانیه (640 × 480)، تصاویر مادون قرمز (640 × 480) و نقشههای عمق (640 × 480) پردازش شده توسط ماژول یکپارچه R200 را بدست آوریم.
3.1. الگوریتم تطبیق استریو
3.1.1. الگوریتم تطبیق استریو R200
R200 از تابع هزینه سرشماری برای مقایسه تصاویر چپ و راست استفاده می کند. مقایسههای کامل روشهای همبستگی فتومتریک نشان داد که توصیفگر سرشماری یکی از قویترینها در مدیریت محیطهای پر سر و صدا است [ 17 ]. مدل های ریاضی اصلی الگوریتم در فرمول های (1) و (2) نشان داده شده است. ابتدا با یک پیکسل p (i, j) در تصویر مطابق R به عنوان مرکز، پنجره تبدیل سرشماری را با اندازه 7 × 7 انتخاب کنید. سپس مقدار خاکستری نقطه مرکزی و پیکسل در پنجره را به ترتیب مقایسه کنید. اگر بزرگتر باشد، روی 1 و اگر کوچکتر باشد، روی 0 تنظیم می شود. در نهایت، یک رشته 0/1 بیتی می توان به دست آورد [ 40 ].
که در آن W پنجره تبدیل سرشماری مربوط به پیکسل مرکزی p است، p’ پیکسل در پنجره با مرکز p است. R p و R p’ مقادیر خاکستری p, p’ هستند. سپس، رشته بیت برای تبدیل سرشماری پنجره در نقطه p را می توان به دست آورد. به طور مشابه، رشته بیت برای نقطه جستجوی تصویر هدف T به دست می آید. در نهایت، با اندازهگیری فاصله همینگ، سطح شباهت رشتههای دو بیتی اندازهگیری میشود [ 41 ]. سپس، جستجوی 64 اختلافی انجام میشود و هزینهها با فیلتر جعبه 7 × 7 جمعآوری میشوند. بهترین گزینه انتخاب میشود، مرحله اصلاح زیرپیکسل انجام میشود، و مجموعهای از فیلترها برای فیلتر کردن موارد بد اعمال میشوند [ 17 ].
3.1.2. الگوریتم تطبیق بلوک
الگوریتم تطبیق بلوک (BM) یک الگوریتم تطبیق استریو محلی معمولی است که ایده “بلوک” را در خود جای داده است [ 24 ]. BM برای مدت طولانی پیشنهاد شده است و الگوریتم های مشتق شده مختلفی وجود دارد. مقدمه و مقایسه مفصلی در [ 18] وجود دارد]. در BM، تصویر پایه به بلوکهای کوچک زیادی تقسیم میشود و هر بلوک با بلوک جمعآوریشده از تصویر همسان مقایسه میشود. با جابجایی و مقایسه بلوک به دست می آید. فرآیند جابجایی به این صورت است که حرکت یک بلوک کوچک را از یک موقعیت به موقعیت دیگر با ایجاد یک بردار شبیه سازی می کنیم و سپس به صورت افقی برای یافتن مناسب ترین بلوک پیکسلی در یک تصویر دیگر جستجو می کنیم و در نهایت اختلاف را بر این اساس محاسبه می کنیم. در مورد روش تطبیق بین بلوک ها، SAD (مجموع تفاوت های مطلق) به عنوان تابع اندازه گیری شباهت در آزمایش کنتراست این مقاله استفاده می شود [ 42 ]. مدل ریاضی را می توان با فرمول (3) بیان کرد:
که در آن d مقدار اختلاف در این پیکسل و W پنجره پشتیبانی است. بهترین اختلاف در پیکسل (x 0 , y 0 ) پارامتر d است که هزینه C را به حداقل می رساند. اصل BM ساده است و پیچیدگی آن بسیار کم است، بنابراین عملکرد بلادرنگ خوبی دارد. با این حال، دقت مقدار عمق آن ضعیف است و حفره های زیادی در نقشه عمق وجود دارد.
3.1.3. الگوریتم تطبیق نیمه جهانی
الگوریتم SGM یکی از معرف ترین الگوریتم های تطبیق نیمه جهانی است که بین محلی و جهانی است. این دارای سه مرحله کلیدی است: محاسبه هزینه، تجمیع هزینه و محاسبه نابرابری [ 16 ]. SGM نوع خود را دارد. در این مقاله، SGM با BT [ 16 ] به عنوان روش مقایسه ای انتخاب شده است.
محاسبه هزینه. روش های زیادی برای محاسبه هزینه وجود دارد، و SGM با BT [ 16 ] معیار غیر حساس نمونه برداری Birchfield و Tomasi [ 43 ] (از این پس به عنوان الگوریتم BT نامیده می شود) را انتخاب می کند، که یک روش محاسبه هزینه مطابق پیکسلی بر اساس نمونه گیری است. هزینه یک دنباله مسابقه با یک جریمه ثابت برای هر انسداد، یک پاداش ثابت برای هر مسابقه و مجموع تفاوتهای بین پیکسلهای همسان تعریف میشود.
تجمیع هزینه محاسبه هزینه Pixelwise به طور کلی مبهم است و مطابقت های اشتباه به دلیل نویز و غیره می توانند به راحتی هزینه کمتری نسبت به موارد صحیح داشته باشند [ 16 ]. بنابراین، یک محدودیت اضافی برای حمایت از همواری با جریمه کردن تغییرات نابرابری های همسایه اضافه می شود. سپس انرژی E (D) که به تصویر نابرابری D بستگی دارد برای آن تعریف می شود. E (D) شامل هزینه پیکسلی و محدودیت های صافی است و تعریف خاص آن از تابع انرژی E (D) در فرمول (4) نشان داده شده است:
عبارت اول مجموع تمام هزینه های تطبیق پیکسل است. جمله دوم یک جریمه ثابت P 1 برای تمام پیکسل های q در همسایگی Np p اضافه می کند، که برای آن اختلاف بیش از یک پیکسل تغییر نمی کند. جمله سوم یک جریمه ثابت بزرگتر P 2 اضافه می کندبرای جریمه کردن تغییرات نابرابری بزرگتر پس از ساخت تابع انرژی، مسئله تطابق به یافتن تصویر نابرابری D تبدیل می شود که تابع انرژی E (D) را به حداقل می رساند. معمولاً راهحل این نوع مسائل به روش برنامهنویسی پویا بستگی دارد که میتواند به طور موثر مسئله بهینهسازی را انجام دهد. با این حال، از آنجایی که راهحل برنامهنویسی پویا در ارتباط دادن بهینهسازیهای 1 بعدی تکبعدی ردیفهای تصویر به یکدیگر در تصویر دو بعدی مشکل دارد، به راحتی از رگهبندی رنج میبرد [ 16 ]. بنابراین، ایده بهتر این است که هزینه های تطبیق یک بعدی را از چند جهت، نه فقط از یک خط، در نظر بگیرید. با جمع هزینه های همه جهت ها، هزینه کل S ( p ، d ) را می توان بهتر محاسبه کرد.
محاسبه نابرابری همانطور که در روش تطبیق محلی، تصویر نابرابری Db از تصویر پایه I b با انتخاب نابرابری d تعیین می شود که هزینه هر پیکسل p را به حداقل می رساند، به عنوان مثال، مترمنnداس(پ،د).
در نهایت، خطای تطبیق باید حذف شود. برای یک پیکسل p روی تصویر پایه I b ، از آنجایی که نابرابری محاسبه شده است، پیکسل q مربوط به آن در تصویر منطبق I m قابل محاسبه است. اگر اختلاف اختلاف بین دو پیکسل بیشتر از 1 باشد، اختلاف در p به عنوان یک مقدار نامعتبر در نظر گرفته می شود. این مرحله می تواند تعداد عدم تطابق را کاهش دهد.
3.1.4. الگوریتم تطبیق استریو نیمه جهانی مادون قرمز ما
در تصاویر مادون قرمز به دست آمده توسط دوربین مادون قرمز نویزهایی وجود دارد و شدت نور منعکس شده مادون قرمز تحت تأثیر عواملی مانند زاویه تابش و فاصله خواهد بود. همانطور که در بالا ذکر شد، برای دستیابی به هدف پژوهشی این مقاله، روش های موجود تمامی این مشکلات را حل نمی کند. بنابراین، به منظور دستیابی به تطابق بهتر تصاویر مادون قرمز، ما یک الگوریتم تطبیق تصویر استریو مادون قرمز جدید – الگوریتم ISGSM برای نقشه های عمق با کیفیت بالاتر، پیشنهاد می کنیم. بر اساس الگوریتم SGM و سایر الگوریتمها، یک تابع انرژی جهانی دوبعدی برای بهینهسازی جهانی میسازد و برای محاسبات هزینه و محاسبات نابرابری بهبود مییابد. جریان الگوریتم دقیق در شکل 2 نشان داده شده است. آزمایشهای بعدی نشان میدهد که الگوریتم ISGSM میتواند تطبیق استریو مادون قرمز را بهتر از الگوریتمهای موجود انجام دهد. در این مقاله، آن را با R200 در ادراک سه بعدی بلادرنگ داخل ساختمان تأیید میکنیم.
از آنجایی که پروژکتور مادون قرمز R200 لکه های مادون قرمز را با قدرت کم ساطع می کند و تصاویر IR معمولاً فاقد بافت هستند [ 44 ]، اشعه مادون قرمز بازتابی در بسیاری از نقاط صحنه بسیار ضعیف است، یا حتی وجود ندارد، که مستقیماً منجر به کمبود بافت می شود. در بسیاری از مناطق تصویر مادون قرمز، برای تطبیق مناسب نیست. از آنجایی که هزینه تطبیق مستقیماً به شباهت بین دو اولیه بستگی دارد [ 35]، عملیات فیلتر گاوسی برای کاهش هزینه تطبیق مساعدتر است. بنابراین، پس از به دست آوردن دو تصویر استریو مادون قرمز، ابتدا فیلتر گاوسی را روی آنها انجام می دهیم (پیش فرض یک پنجره 3×3 است). از یک طرف فیلتر گاوسی نویزهای تصاویر مادون قرمز را کاهش می دهد و از طرف دیگر می تواند همبستگی تصویر مادون قرمز استریو را بهبود بخشد. به این ترتیب می توان ناحیه ای با سیگنال اصلی ضعیف را تقویت کرد و تأثیر مقدار غیر طبیعی را ضعیف کرد. در این آزمایش نشان داده شده است که پس از فیلتر گاوسی، ضریب همبستگی بین دو تصویر را می توان تا حدود 9 درصد افزایش داد و اطلاعات متقابل را می توان حدود 13 درصد افزایش داد.
در SGM با BT [ 16 ] (تطابق مبتنی بر شدت)، از آنجایی که الگوریتم BT تطبیق پیکسلی است، که به راحتی با نویز تداخل دارد و استحکام ضعیفی دارد، ما ایده بلوک را در الگوریتم SGM ادغام می کنیم تا اطلاعات را یکپارچه کنیم. در یک بلوک تصویر برای استحکام [ 17]. این ایده بر اساس الگوریتم BM است، اما اندازه پنجره “block” در الگوریتم BM یک ثابت از پیش تعیین شده است که برای همه انواع صحنه ها مناسب نیست. علاوه بر این، هنگام محاسبه هزینه الگوریتم BT، اطلاعات متقابل بین تصاویر چپ و راست به طور کامل مورد استفاده قرار نمی گیرد. بنابراین، در این مقاله، قبل از محاسبه هزینه، انتخاب آستانه دینامیکی اندازه پنجره بر اساس اطلاعات متقابل انجام شده است تا الگوریتم بتواند از پارامترهای مختلف در سناریوهای مختلف استفاده کند و در نتیجه سازگاری آن را افزایش دهد. پیاده سازی: پس از فیلتر گاوسی، اطلاعات متقابل بین دو تصویر محاسبه می شود و سپس اندازه پنجره کشویی با توجه به مقدار اطلاعات متقابل انتخاب می شود. فرمول های (5)-(7) بیان ریاضی اطلاعات متقابل هستند،
جایی که MIمن1،من2اطلاعات متقابل دو تصویر است، اچمنآنتروپی تصویر I است، اچمنL،منآرآنتروپی متقابل است منLو منآر، L اندازه پنجره الگوریتم است و L(اچمنL،منآر)یک تابع بخش بندی شده برای انتخاب آستانه پویا است.
در محاسبه بهای تمام شده از الگوریتم BT استفاده شده است. متفاوت از الگوریتم اصلی BT، هزینه های الگوریتم BT مورد استفاده در این مقاله شامل دو بخش است: یکی هزینه های محاسبه شده از مقدار خاکستری تصاویر چپ و راست، دیگری هزینه های محاسبه شده از نتیجه سمت چپ و تصاویر سمت راست از طریق عملگر افقی Sobel (SobelX). دو قسمت بالا از هزینه ها با هم ادغام می شوند تا هزینه های نهایی به دست آید. به این ترتیب می توان شباهت را بهبود بخشید. لازم به ذکر است که گرادیان افقی محاسبه شده در اینجا به طور مستقیم استفاده نمی شود بلکه در هر بخش پردازش می شود. هر پیکسل روی تصویر پردازش شده توسط اپراتور SobelX به یک پیکسل جدید با یک تابع نگاشت می شود. در اینجا، P مقدار پیکسل پس از فیلتر کردن با عملگر SobelX، و P جدید استمقدار پیکسل جدید است. سپس تابع نگاشت آنها را می توان با فرمول (9) بیان کرد:
که در آن FParam یک پارامتر ثابت است که به عنوان آستانه برای فرآیند زیربخش استفاده می شود. می تواند نتیجه را در محدوده خاصی کنترل کند و عملکرد الگوریتم را بهینه کند.
هنگام انجام محاسبه هزینه، این مقاله از ایده “بلوک” استفاده می کند و اطلاعات پیکسل های همسایگی را در محاسبه گنجانده است که می تواند نتیجه را هموارتر کند. در تجمیع هزینه، ما از ایده SGM استفاده میکنیم، که با ترکیب بسیاری از محدودیتهای یک بعدی، یک محدودیت همواری جهانی و دوبعدی را تقریب میکنیم [ 16 ]. با تبدیل مشکل تطبیق استریو به جستجوی راهحل بهینه تابع انرژی، نتیجه نهایی میتواند با الگوریتمهای تطبیق جهانی قابل مقایسه باشد، در حالی که کارایی بالا را حفظ میکند.
پس از به دست آوردن تصویر نابرابری اولیه، هنوز مشکلاتی وجود دارد که باید بهینه شوند. بهینه سازی در این مقاله عمدتاً شامل مراحل زیر است:
- (1)
-
تست منحصر به فرد بودن حداقل مقدار تابع هزینه محاسبه شده باید تا حد معینی از دومین مقدار بهترین مقدار کوچکتر باشد. در غیر این صورت مسابقه باطل تلقی خواهد شد.
- (2)
-
درون یابی زیر پیکسلی از آنجایی که تصویر از دنیای واقعی نمونه برداری می کند، تصویر نابرابری نمی تواند دقیقاً برابر با نابرابری نقطه شی متناظر آن باشد. از آنجایی که انحراف خاصی وجود دارد، برآوردن نیازهای ادراک سه بعدی با دقت بالا و بازسازی سه بعدی دشوار است. بنابراین، درون یابی زیر پیکسلی برای بهبود دقت مورد نیاز است. فرمول های درون یابی در فرمول های (10) و (11) نشان داده شده است. ماهیت آن یک درونیابی سهمی است: نابرابری حداقل مقدار سهمی است.
جایی که d اختلاف برآورد اولیه در این نقطه است، Sp هزینه های جمع شده است.
- (3)
-
بررسی سازگاری چپ-راست (LRC) برای حذف خطاها.
- (4)
-
رشد ابر نقطه ای ابر نقطه در فضای شی را می توان از تصویر نابرابری بازیابی کرد. هیچ داده عمقی در موقعیت فضای جسم مربوط به سوراخ در تصویر نابرابری وجود ندارد. از ابر نقطه اطراف می توان برای پر کردن آن استفاده کرد و سپس می توان آن را به تصویر نابرابری بازیابی کرد تا حفره در تصویر نابرابری را ترمیم کند.
3.2. بازسازی مدل سطح سه بعدی
بازسازی سهبعدی اشیاء دنیای واقعی با استفاده از تصاویر، یک زمینه تحقیقاتی فعال برای دههها در بینایی کامپیوتر و همچنین در جامعه فتوگرامتری بوده است [ 27 ]. پس از اینکه مایکروسافت سری دوربینهای RGB-D کینکت را در سال 2010 منتشر کرد، بازسازی سه بعدی متراکم مبتنی بر دوربینهای عمقی رونق تحقیقاتی را برانگیخت. کار نماینده اولیه الگوریتم KinectFusion [ 45 ] بود که توسط نیوکمب مایکروسافت در سال 2011 پیشنهاد شد. پس از آن، الگوریتمهای موثری بهطور متوالی مانند BundleFusion [ 36 ]، Kintinuous [ 46 ] و ElasticFusion [ 47] پدیدار شدند.]. در این میان، الگوریتم BundleFusion که در سال 2017 توسط دانشگاه استنفورد ارائه شد، یکی از بهترین روش ها برای به دست آوردن و بازسازی ابرهای نقطه سه بعدی متراکم بر اساس دوربین های RGB-D است. در این مقاله، دادههای عمق بهدستآمده با روشهای مختلف تطبیق استریو برای مدلسازی سطح سهبعدی صحنههای داخلی با استفاده از الگوریتم BundleFusion استفاده میشود و عملکرد آنها در بازسازی سطوح سهبعدی با مقایسه تفاوتهای آنها تأیید شد. ایده الگوریتم BundleFusion در شکل 3 نشان داده شده است :

4. داده ها و نتایج آزمایش ها
کیفیت تطابق استریو مادون قرمز به شدت تحت تأثیر تصاویر مادون قرمز است که توسط نور فروسرخ که بر روی دوربینهای مادون قرمز میافتد، ایجاد میشود. عوامل زیادی بر نور فروسرخ تأثیر میگذارند، از جمله زاویه برخورد، ماده، فاصله، نور محیط و غیره. به منظور تأیید عملکرد و تأثیر الگوریتم ISGSM پیشنهادی در این مقاله، دادهها را در صحنههایی با پیچیدگیهای مختلف جمعآوری کردیم. عملکرد الگوریتم ها در شرایط محیطی مختلف با تغییر عوامل محیطی مانند مقیاس و عمق صحنه ها و شدت و زاویه تابش نور ارزیابی می شود. شکل 4 صحنه های واقعی پنج مجموعه داده جمع آوری شده در آزمایش را نشان می دهد.
لازم به ذکر است که خروجی مستقیم الگوریتم تطبیق استریو، تصاویر نابرابری است، اما در برنامه کاربردی، مانند ادراک سه بعدی، داده های مورد استفاده در واقع نقشه های عمق هستند. فرآیندی از تصویر نابرابری تا نقشه عمق وجود دارد و مدل ریاضی آن در فرمول (12) نشان داده شده است:
که در آن f فاصله کانونی دوربین، B طول خط پایه دوربین دوچشمی، d مقدار نابرابری مربوط به پیکسل، و z مقدار عمق مربوط به پیکسل است.
4.1. مقایسه نتایج تجربی الگوریتمهای مختلف تطبیق استریو
به منظور مقایسه اثرات تجربی چندین الگوریتم تطبیق استریو پیشرفته با الگوریتم پیشنهادی ما بر روی تصاویر استریو مادون قرمز R200، الگوریتم تجاری R200 (RCA)، الگوریتم BM (BM)، الگوریتم SGM (SGM) ) [ 16 ] و الگوریتم ISGSM (ISGSM) با پنج صحنه مختلف در شکل 4 پیاده سازی شدند . در شکل 5 ، هر ستون مربوط به یک صحنه است. ردیف اول تصاویر RGB این صحنه ها است. ردیف دوم تصاویر مادون قرمز است که توسط دوربین مادون قرمز سمت چپ به دست آمده است. ردیف سوم نقشه های عمق خروجی توسط الگوریتم تجاری R200 را نشان می دهد. ردیف چهارم نتایج تجربی الگوریتم BM است. ردیف پنجم شکل 5نتایج تجربی الگوریتم SGM است. نتایج تجربی الگوریتم ISGSM در ردیف ششم قرار دارد. از جلوه بصری نتایج تجربی از ردیف سوم تا ردیف ششم در شکل 5، به راحتی می توان دریافت که از بین چهار الگوریتم، نقشه عمق بدست آمده توسط الگوریتم ISGSM کامل ترین با کمترین حفره است. در این میان الگوریتم تجاری R200 دارای بیشترین سوراخ و سطوح و لبه های اجسام در این صحنه ها ناقص ترین هستند. با این حال، به طور کلی، الگوریتم ISGSM بهتر از الگوریتم SGM، الگوریتم SGM بهتر از الگوریتم BM، و الگوریتم BM بهتر از الگوریتم تجاری R200 است. علاوه بر این، ما همچنین متوجه میشویم که حفرههای بیشتری در ناحیه مسدود لبه شی و ناحیه دور صحنه در نقشه عمق بهدستآمده توسط الگوریتم تجاری R200 و الگوریتم BM وجود دارد.
به منظور بررسی فاصله تشخیص موثر و توانایی درک الگوریتم تجاری R200 با بدترین جلوه بصری و الگوریتم ISGSM با بهترین جلوه بصری، خطاهای اندازهگیری عمق دو الگوریتم در این مقاله آزمایش میشوند.
در آزمایش، از یک دیوار صاف سفید برای آزمایش دقت دو الگوریتم استفاده میکنیم. فاصله بین R200 و هواپیما توسط کاستور تغییر می کند. اندازه گام 300 میلی متر است، و فاصله از حدود 700 میلی متر افزایش می یابد، تا زمانی که دو الگوریتم نتوانند داده های عمق موثر را دریافت کنند. در آزمایش از یک طرف خطای مشخصی در موقعیت R200 وجود دارد و از طرف دیگر خطاهایی در فاصله کانونی دوربین، خط پایه و اندازه فیزیکی پیکسل ها وجود دارد. این خطاها به خطاهای سیستماتیک تعلق دارند و با روش رگرسیون خطی قابل حذف هستند. شکل 6RMSE (ریشه میانگین مربعات خطا) دو الگوریتم را برای اندازه گیری عمق نشان می دهد. با توجه به نتایج تجربی، زمانی که عمق در 2 متر باشد، RMSE آنها در 20 میلی متر است. هنگامی که فاصله به 3 متر افزایش می یابد، RMSE الگوریتم تجاری R200 سریعتر افزایش می یابد. علاوه بر این، در 5 متر یا بیشتر، الگوریتم تجاری R200 نمی تواند داده های معتبری دریافت کند. در مقابل، الگوریتم ISGSM دقت بالاتری در فاصله 6 متری دارد و می تواند داده های معتبر را در فاصله 8 متری به دست آورد.
اگرچه الگوریتم ISGSM اطلاعات ساختاری کاملتر، دقیقتر و نقشه عمق فاصله طولانیتری را نسبت به سه الگوریتم دیگر به دست میآورد، اما اینکه آیا اطلاعات عمق بیشتر نرخ خطای عمق بالاتری را به همراه خواهد داشت یا خیر، یک شاخص ارزیابی است که باید در ادراک سهبعدی در نظر گرفته شود. بنابراین، برای سناریوهای پنج گانه در شکل 4 ، نرخ خطای اطلاعات عمق بدست آمده توسط الگوریتم های مختلف را محاسبه می کنیم.
با توجه به صحنه های مختلف، میزان خطاهای متفاوتی وجود خواهد داشت که تفاوت آنها می تواند یک مرتبه بزرگی باشد. این برای مقایسه و تحلیل بهتر مساعد نیست. بنابراین، ما نرخ خطا را عادی می کنیم، به این معنی که نرخ خطای یک الگوریتم را بر میزان خطای الگوریتم تجاری R200 به عنوان شاخص نرخ خطا تقسیم می کنیم. نتیجه نهایی در شکل 7 نشان داده شده است. در مقایسه با الگوریتم تجاری R200، الگوریتم BM و الگوریتم SGM نرخ خطای بالاتری در چهار صحنه یک، دو، چهار و پنج دارند. علاوه بر این، BM به طور کلی بالاترین میزان خطا را دارد، حتی به 4.7 برابر میزان خطای الگوریتم تجاری R200 می رسد و تفاوت در صحنه های مختلف بسیار زیاد است. میزان خطای الگوریتم ISGSM در صحنه های یک، چهار و پنج به الگوریتم تجاری R200 نزدیک تر است و در صحنه های دو و سه به وضوح کمتر است. در مقایسه با BM و SGM، دامنه نوسانات آن به طور قابل توجهی کوچکتر است و عملکرد کلی پایدارتر است.
به منظور ارزیابی عملکرد نقشههای عمق بهدستآمده با روشهای مختلف در درک سهبعدی بلادرنگ، این مقاله از الگوریتم BundleFusion برای بازسازی مدل سطح سهبعدی داخلی استفاده میکند. روش خاص جمع آوری همان مقدار داده های تصویر RGB و داده های تصویر دوچشمی مادون قرمز است و سپس از الگوریتم تجاری R200، الگوریتم SGM و الگوریتم ISGSM برای پردازش تصاویر دوچشمی مادون قرمز برای دریافت نقشه های عمق استفاده می شود. در مرحله بعد، تصاویر RGB و نقشه های عمق به عنوان داده های ورودی الگوریتم BundleFusion استفاده می شوند. در نهایت مدلهای سطح سه بعدی بهدستآمده از روشهای مختلف را با هم مقایسه میکنیم. لازم به ذکر است که نقشه عمق بدست آمده توسط BM نه تنها دارای میزان حفره نسبتاً بالایی است، بلکه بالاترین میزان خطا را نیز دارد و دقت آن در محیط های مختلف پایدار نیست.
شکل 8 نتایج بازسازی سطح سه بعدی در زمان واقعی یک صحنه داخلی را نشان می دهد. ما 300 فریم از تصاویر را برای بازسازی مدل سطح جمع آوری کردیم. با مقایسه جزئیات محلی مدل ها، می توان دریافت که تفاوت های آشکاری در بازسازی سطح سه بعدی وجود دارد. الگوریتم های مختلف تفاوت های قابل توجهی در یکپارچگی بازسازی سطح دارند. ترتیب یکپارچگی بازسازی سطح، الگوریتم ISGSM > الگوریتم SGM > الگوریتم تجاری R200 است. به عنوان مثال، در ناحیه ای که با ناحیه کادر قرمز در شکل 8 مشخص شده استدر نتیجه نقشههای عمق کاملتر، مدل سطح بازسازیشده توسط نقشههای عمق ISGSM کاملتر از نتایج الگوریتم تجاری R200 و الگوریتم SGM است. طبق آمار داده های تجربی، مساحت سطح مدل بازسازی مربوط به الگوریتم تجاری R200 حدود 78.8 درصد از الگوریتم ISGSM است و الگوریتم SGM حدود 91.0 درصد از الگوریتم ISGSM است. این ثابت می کند که ISGSM مزیت مشخصی در یکپارچگی بازسازی سه بعدی دارد. برای ارزیابی دقت سه الگوریتم تطبیق استریو در مدلسازی مدل سطح سه بعدی، دسکتاپ تخت سفید را در شکل 8 انتخاب میکنیم.به عنوان موضوع مطالعه ابر نقطه دسکتاپ از مدلهای بهدستآمده توسط سه الگوریتم بریده میشود و از دادههای ابر نقطه برای برازش صفحه استفاده میشود. سپس RMSE صفحه اتصال محاسبه می شود. شکل 9 مقدار RMSE صفحه فیتینگ را نشان می دهد. الگوریتم ISGSM دارای RMSE 1.53 میلی متر با بالاترین دقت، الگوریتم تجاری R200 با دقت 1.64 میلی متر، در حالی که الگوریتم SGM دارای RMSE 2.94 میلی متر با کمترین دقت است.
5. بحث
از طریق آزمایش های مقایسه ای بالا و تجزیه و تحلیل نتایج آنها، ثابت شده است که الگوریتم جدید ISGSM ارائه شده در این مقاله می تواند یک نقشه عمق با کیفیت بالاتر در محدوده تشخیص بزرگتر به دست آورد، که به حسگر R200 اجازه می دهد تا اطلاعات عمق متراکم تر را با دقت بالاتر و بهتر به دست آورد. ادراک سه بعدی سخت تر و پیچیده تر را انجام دهید. اثر کلی نقشه عمق محاسبه شده توسط ISGSM بسیار بهتر از RCA، BM و SGM است، به خصوص در مناطقی که روشنایی لکه مادون قرمز ضعیف است. علل اصلی روشنایی مادون قرمز ضعیف عبارتند از: فاصله بیش از حد، زاویه برخورد بیش از حد بزرگ، ضریب انعکاس سطح جسم کم، جسم دارای انعکاس چشمی و غیره است. این دلایل مستقیماً منجر به بافت ضعیف و عدم وجود اطلاعات منطبق این مشکل در RCA بیشتر مشهود است. که درشکل 5 ، برای مناطق با روشنایی بالاتر، یعنی مناطق با شدت انعکاس مادون قرمز بیشتر، به دلیل بافت قوی آنها، الگوریتم می تواند ویژگی های لبه صحنه داخلی را بهتر حفظ کند و تداوم بهتر است. با این حال، برای مناطق با بافت ضعیف تر، به عنوان مثال، بخش هایی با روشنایی خاکستری پایین تر. به عنوان مثال، در وسط صحنه (ب) شکل 5 و سمت راست بالای صحنه های (د) و (ه) شکل 5 ، اثر تطبیق ضعیف است به دلیل فاصله تشخیص طولانی تر، با سوراخ های زیادی در عمق مربوطه. نقشه در مورد کف در شکل 5صحنه (d) و (e)، به دلیل صاف بودن و زاویه برخورد زیاد در مقایسه با دیوار، نور مادون قرمز بازتابی نیز برای RCA ضعیف است که با آن مطابقت نداشته باشد. در نتیجه، عملکرد خوب برای درک دقیق و کامل سه بعدی داخلی دشوار است.
در حالی که، BM با استراتژی تطبیق بلوک، همبستگی بین تطبیقهای اولیه چپ و راست را افزایش میدهد و SGM یک تابع انرژی جهانی را با استفاده از یک استراتژی نیمه جهانی برای بهینهسازی جهانی ایجاد میکند. بنابراین، عملکرد بهتری نسبت به RCA در مناطق بدون بافت دارند. با این حال، از آنجایی که BM به نویز بسیار حساس است، اگرچه یکپارچگی نقشه عمق به دست آمده در زمان واقعی بهتر از RCA است، اما مشکلاتی مانند سوراخ های زیاد و نزدیک شدن فاصله تشخیص را نیز دارد. در همین حال، به دلیل عدم وجود روشهای کارآمد برای بررسی قابلیت اطمینان، معمولاً تعدادی خطا در نقشههای عمقی آن بهویژه در مناطق بدون بافت وجود دارد. ما می توانیم این کمبودها را در شکل 5 و شکل 7 بیابیم. SGM به طور کامل مزایای الگوریتم نیمه جهانی را نشان می دهد. فقط در ناحیه لبه جسم، به دلیل انسداد، الگوی لکههای فروسرخ ناقص یا نامرتب است که منجر به عدم وجود بافت تطبیق در دسترس میشود، بنابراین تطبیق آن دشوار است و منجر به ایجاد حفرههایی در نقشه عمق میشود. لبه های مربوطه علاوه بر این، شکل 5 به وضوح نشان می دهد که الگوریتم نیمه جهانی برتری برتری نسبت به BM و RCA در مناطقی دارد که لکه مادون قرمز به دلیل مسافت طولانی ضعیف است. به ویژه در شکل 5در صحنه (d)، یک صندلی پشتی به دوربین R200 در سمت چپ تصویر وجود دارد. اگرچه صندلی بسیار نزدیک به دوربین است، اما بازتاب نور به دلیل جنس چرمی و زاویه صندلی همچنان ضعیف است. بنابراین، تطبیق روش های محلی نیز دشوار است در حالی که روش نیمه جهانی می تواند به نتایج خوبی دست یابد.
این را می توان به وضوح از شکل 5 ، شکل 7 و شکل 9 مشاهده کرد، کامل بودن و دقت نقشه های عمق ISGSM به طور قابل توجهی بهتر از نقشه های SGM است. لبه های اشیاء نیز در هر صحنه به طور کامل تر از SGM نگهداری می شوند. در درجه اول، این به این دلیل است که SGM فاقد ابزاری برای سرکوب نویز است، در حالی که ISGSM از یک فیلتر گاوسی برای تضعیف تأثیر نویز در تطابق و افزایش اطلاعات متقابل تصاویر چپ و راست استفاده می کند. ثانیا، انتخاب آستانه پویا از پارامترها برای ارتقای سازگاری ISGSM با صحنههای مختلف داخلی گرفته میشود. به عنوان مثال، اگر اطلاعات متقابل زیر آستانه تعیین شده شناسایی شود، ISGSM از بلوک بزرگتری برای محاسبه هزینه استفاده می کند تا اطلاعات بیشتری را در خود جای دهد. مشابه SGM، ISGSM استراتژی نیمه جهانی را برای دستیابی به بهینه سازی جهانی دو بعدی اتخاذ می کند که این نیز بسیار مهم است. علاوه بر این، عملیات درونیابی زیر پیکسلی نیز تداوم نقشه عمق را بهتر می کند و مقدار عمق دقیق تر می شود. با اعمال بهبودهای ذکر شده به طور جامع، ISGSM می تواند نقشه های عمقی متراکم و دقیق تری به دست آورد. علاوه بر این، ادراک سه بعدی بلادرنگ نیازمندی های بالایی برای کارایی تطبیق استریو است. پیچیدگی ISGSM و SGM تقریباً نزدیک است، بنابراین ISGSM می تواند داده های عمق کامل تری را با فاصله تشخیص طولانی تر و دقت بالاتر در زمان واقعی ارائه دهد.
6. نتیجه گیری
در این
مقاله، ما یک الگوریتم تطبیق استریو مادون قرمز جدید – ISGSM – برای به دست آوردن نقشههای عمقی با کیفیت بالا برای درک سه بعدی داخلی داخلی با حسگر RGB-D پیشنهاد میکنیم. در این روش، ایده تطبیق نیمه جهانی و یک پنجره کشویی اتخاذ می شود و اطلاعات متقابل و همبستگی بین تصاویر مادون قرمز دوچشمی توسط یک فیلتر گاوسی تقویت می شود که به طور موثر نویز تصویر را سرکوب می کند. انتخاب آستانه دینامیکی اندازه پنجره منطبق نیز برای بهبود سازگاری الگوریتم با صحنههای مختلف محقق میشود. در همین حال، تکنیکهای پس پردازش، مانند رشد ابر نقطهای، حفرههای موجود در نقشه عمق را کاهش میدهند. این پیشرفتها باعث میشود ISGSM بتواند به تطابق بهتری دست یابد و نقشههای عمقی متراکمتر و دقیقتری به دست آورد. از طریق آزمایش خاص، نشان داده شده است که ISGSM میتواند نقشههای عمقی را با یکپارچگی بیشتر، کیفیت بالاتر و محدوده تشخیص طولانیتر در زمان واقعی، بهویژه در لبه جسم با جزئیات دقیقتر به دست آورد. با استفاده از راه حل کامل ادراک سه بعدی داخلی در زمان واقعی که الگوریتم تطبیق جدید و BundleFusion را ادغام می کند، ما در صحنه داخلی واقعی نشان می دهیم که روش ما قادر به ایجاد بازسازی های زمان واقعی با کیفیت بالا است. مدل سطحی که بازسازی می کند دقت بالاتر و یکپارچگی بهتری دارد. بنابراین، ما نشان میدهیم که رویکرد ما از تکنیکهای پیشرفته بهتر عمل میکند. علاوه بر این، این کار روش بهبود یافته ای را برای الگوریتم تطبیق استریو مورد استفاده در دوربین های محبوب RealSense RGB-D ارائه می دهد. این کار بسیار ارزشمند است،
بدون دیدگاه