خلاصه

ما یک رویکرد جدید برای تطبیق نمونه‌های شی شهری در بین تصاویر چندگانه سطح زمین برای هدف نهایی نقشه‌برداری در مقیاس شهر از اشیاء با دقت موقعیت‌یابی بالا ارائه می‌کنیم. چیزی که این کار را چالش برانگیز می کند، تغییر شدید در دیدگاه، شرایط نوری متفاوت، شباهت زیاد اجسام مجاور و تنوع در مقیاس است. ما پیشنهاد می‌کنیم تطبیق نمونه شی را به یک کار یادگیری تبدیل کنیم، جایی که تصویر-ظاهر و روابط هندسی بین نماها به طور مثمر ثمر در تعامل هستند. رویکرد ما یک شبکه عصبی کانولوشنال سیامی ایجاد می‌کند که می‌آموزد با توجه به تعداد زیادی برش تصویر کاندید، دو نما از یک شی را مطابقت دهد. علاوه بر ویژگی‌های تصویر، ما استفاده از اطلاعات مکان در مورد دوربین و شی را برای پشتیبانی از شواهد تصویر از طریق محدودیت‌های هندسی نرم پیشنهاد می‌کنیم. روش ما با روش‌های تطبیق پچ موجود مقایسه می‌شود تا برتری خود را نسبت به پیشرفته‌ترین روش ثابت کند. این ما را یک گام به هدف نهایی نگاشت اشیاء در سطح شهر از تصاویر سطح خیابان به نفع مدیریت شهری نزدیکتر می کند.

کلید واژه ها:

یادگیری عمیق ؛ شبکه های عصبی کانولوشنال سیامی ; نقشه برداری اشیاء شهری

1. معرفی

روش‌های خودکار برای نقشه‌برداری متحرک برای تولید موجودی از اشیاء شهری در مقیاس بزرگ اخیراً توجه قابل توجهی را به خود جلب کرده است [ 1 ، 2 ، 3 ، 4 ، 5 ]. در حالی که اکثر سیستم‌ها اسکنرهای لیزری را به عنوان بخش عمده‌ای از دستگاه اندازه‌گیری خود دارند، تعداد قابل توجهی از تلاش‌های تحقیقاتی سعی می‌کنند اشیاء را در چندین نما صرفاً بر اساس تصاویر مطابقت دهند. برخی از روش‌های سنتی [ 6 ] برای انجام تطبیق به SIFT [ 7 ] متکی هستند. چندین روش [ 8] به طور مشابه از CNN های سیامی برای حل مشکل استفاده کنید. با این حال، مورد ما از این نظر متفاوت است که اشیاء ثابت هستند، اما از زوایای دید و فواصل بسیار متفاوت بر خلاف آثار دیگر ظاهر می شوند.
در این کار، ما پیشنهاد می‌کنیم که شواهد تصویر را با محدودیت‌های هندسی نرم تقویت کنیم تا تطبیق نمونه شی در تصاویر سطح خیابان در مقیاس بزرگ را از انتها به انتها بیاموزیم. هدف نهایی ما بهبود موقعیت جغرافیایی اشیاء شهری از تصاویر سطح زمین، به ویژه درختان خیابان و علائم راهنمایی و رانندگی است. برای رسیدن به این هدف، ما به استفاده از چند نما برای داشتن اطلاعات بیشتر در مورد اشیاء داخل صحنه تکیه می کنیم. ما محدودیت‌های هندسی خود را از ابرداده‌های همراه تصاویرمان به دست می‌آوریم. تنظیم مشکل همانطور که در شکل 1 نشان داده شده استکه شامل صحنه ای با دوربین های متعدد با فاصله زیاد بین آنها می باشد. این مشکل تطبیق اشیاء داخل صحنه در چندین نما را معرفی می‌کند که می‌تواند به دلیل شباهت اشیاء در هنگام اشتراک‌گذاری پس‌زمینه مشابه، دشوار باشد، همانطور که در شکل 2 ارائه شده است . روش ما بر اساس معماری سیامی [ 9] که دو شاخه شبکه یکسان را ایجاد می کند که وزن آنها را (حداقل تا حدی) به اشتراک می گذارد. ویژگی ها برای هر دو تصویر ورودی محاسبه شده و سپس برای تخمین درجه شباهت مقایسه می شوند. این را می توان با ارزیابی متریک فاصله در فضای ویژگی یا از دست دادن طبقه بندی نهایی به دست آورد. ما یک سی‌ان‌ان سیامی می‌سازیم تا تصاویر اشیاء مشابه را در چندین تصویر نمای خیابان تطبیق دهد. Google Street-view و Mapillary دسترسی به حجم عظیمی از تصاویر سطح خیابان را فراهم می‌کنند که می‌توان از آنها برای ساخت مجموعه داده‌های بسیار بزرگ برای رویکردهای یادگیری عمیق استفاده کرد. در اینجا، ما از اولی برای ساخت یک مجموعه داده چند نمای از درختان خیابان استفاده می کنیم و از مجموعه داده ای که دومی برای علائم راهنمایی و رانندگی ارائه می کند استفاده می کنیم. سپس هر دو به عنوان بسترهای آزمایشی برای یادگیری تطبیق نمونه با محدودیت‌های هندسی نرم بر اساس مدل سی‌ان‌ان سیامی استفاده می‌شوند. مشارکت اصلی ما یک معماری سی‌ان‌ان سیامی اصلاح‌شده است که به طور مشترک صورت‌های فلکی هندسی را از اکتساب‌های چند نمای به‌همراه اطلاعات ظاهری در تصاویر می‌آموزد. این بیشتر به ما در خط لوله اصلی کمک می کند تا اشیاء را در موقعیت جغرافیایی بهتر در طبیعت قرار دهیم و متعاقباً آنها را با کلاس های معنایی از پیش تعریف شده تخصیص دهیم. به این ترتیب، مشکل ما چندین موضوع تحقیقاتی در بینایی رایانه را در بر می گیرد، مانند ردیابی شی چند نمای، شناسایی مجدد نمونه، و محلی سازی شی. ما برخی از نمونه‌ها را در ادبیات در هر زمینه برجسته می‌کنیم و بین این مشکلات و مشکلات ما در بخش بعدی مقایسه می‌کنیم. این بیشتر به ما در خط لوله اصلی کمک می کند تا اشیاء را در موقعیت جغرافیایی بهتر در طبیعت قرار دهیم و متعاقباً آنها را با کلاس های معنایی از پیش تعریف شده تخصیص دهیم. به این ترتیب، مشکل ما چندین موضوع تحقیقاتی در بینایی رایانه را در بر می گیرد، مانند ردیابی شی چند نمای، شناسایی مجدد نمونه، و محلی سازی شی. ما برخی از نمونه‌ها را در ادبیات در هر زمینه برجسته می‌کنیم و بین این مشکلات و مشکلات ما در بخش بعدی مقایسه می‌کنیم. این بیشتر به ما در خط لوله اصلی کمک می کند تا اشیاء را در موقعیت جغرافیایی بهتر در طبیعت قرار دهیم و متعاقباً آنها را با کلاس های معنایی از پیش تعریف شده تخصیص دهیم. به این ترتیب، مشکل ما چندین موضوع تحقیقاتی در بینایی رایانه را در بر می گیرد، مانند ردیابی شی چند نمای، شناسایی مجدد نمونه، و محلی سازی شی. ما برخی از نمونه‌ها را در ادبیات در هر زمینه برجسته می‌کنیم و بین این مشکلات و مشکلات ما در بخش بعدی مقایسه می‌کنیم.

2. کارهای مرتبط

سی‌ان‌ان‌های سیامی ، همانطور که توسط بروملی و همکاران معرفی شده‌اند. [ 9 ]، تطبیق امضاها را با استفاده از معماری شبکه عصبی با دو شاخه شبکه معمولاً یکسان که تا حدی وزن خود را در مرحله‌ای به اشتراک می‌گذارند، پیشنهاد می‌کنند. شبکه های سیامی برای طیف وسیعی از کاربردها مانند تأیید چهره [ 10 ، 11 ، 12 ]، تطبیق تصویر زمین به هوایی [ 13 ، 14 ]، ردیابی شی [ 15 ، 16 ]، تطبیق پچ محلی [ 17 ، 18] استفاده می شود. ]، و توصیفگرهای پچ [ 19 ، 20]. در این کار، شبکه‌های سیامی را بررسی می‌کنیم تا به طور مشترک ویژگی‌های هندسی و مبتنی بر ظاهر قوی را بیاموزیم و تطابق نمونه‌ها را در چندین نما بهبود دهیم.
ردیابی اشیاء چند نمای (MOT) توسط بسیاری از رویکردهای یادگیری عمیق مختلف، به عنوان مثال، روش Leal-Taixé و همکاران، مورد بررسی قرار گرفته است. [ 21 ] ویژگی ها را با استفاده از CNN سیامی از ورودی های چندوجهی از تصاویر و نقشه های جریان نوری یاد می گیرد. در [ 22 ]، یک سی ان ان سیامی و معیارهای محدود زمانی به طور مشترک برای ایجاد یک مدل وابستگی دنباله یاد می شوند. رویکرد دیگر [ 23 ] از ترکیبی از CNN و شبکه‌های عصبی مکرر (RNN) به منظور تطبیق جفت‌های تشخیص استفاده می‌کند. در تنظیمات و مجموعه داده ما، اشیاء بر خلاف کارهای ذکر شده از فریم های متوالی ردیابی نمی شوند، که باعث تغییر پس زمینه می شود که مشکل را دشوارتر می کند.
مکان‌یابی شیء از تصاویر زمینی مانند نمای خیابان گوگل، برای چندین سال مورد توجه تحقیقاتی اصلی بوده است، به عنوان مثال، برای تشخیص درختان خیابان [ 24 ، 25 ]. هدف دیگر کارها مکان‌یابی قطب‌ها در تصاویر نمای خیابان گوگل [ 26 ] است و از پیشرفته‌ترین آشکارسازهای شیء همراه با یک خط تحمل بر اساس نیروی brute-force اصلاح شده برای تخمین مکان قطب‌ها استفاده می‌کنند. کریلوف و داهیوت [ 27 ] از تقسیم‌بندی معنایی تصاویر در کنار یک تخمین‌گر عمق تک‌چشمی استفاده کردند که به مدل MRF تغذیه می‌کند تا علائم ترافیکی را مکان‌یابی کند. ژانگ و همکاران [ 28] اشیاء جاده را از تصاویر سطح زمین شناسایی کرد و با استفاده از تقسیم بندی معنایی و درخت باینری توپولوژیکی در مکان مناسب قرار داد.
شناسایی مجدد نمونه، وصله های تصویر را برای اهداف شناسایی مجدد شی منطبق می کند. مشابه ترین مشکل به وظیفه ما، مشکل شناسایی مجدد شخص است که اخیراً به یک مورد تحقیقاتی عمده تبدیل شده است [ 8 ، 29 ، 30 ، 31 ، 32 ، 33 ، 34 ]. یکی دیگر از برنامه های جالب شامل شناسایی مجدد خودرو است. به عنوان مثال، هوانگ و همکاران. [ 35 ] از یک CNN برای استخراج ویژگی‌هایی استفاده کرد که ورودی یک مدل توجه زمانی هستند. لیو و همکاران [ 36] از یک CNN برای استخراج ویژگی‌های ظاهری، یک سی‌ان‌ان سیامی برای تأیید پلاک خودرو استفاده کرد و جستجوی خودرو با استفاده از رتبه‌بندی مجدد براساس روابط مکانی-زمانی اصلاح شد. نویسندگان [ 37 , 38 ] از نکات کلیدی یا توصیفگرها برای یافتن تطابق بین تصاویر استفاده کردند. با این حال، ما سعی می کنیم پیدا کنیم که آیا وصله های تصویر از یک شی هستند یا خیر، بنابراین یافتن توصیف کننده ها بی ربط است. باز هم، وظیفه ما به طور قابل توجهی متفاوت است زیرا تصاویر متوالی دارای خطوط پایه بزرگ هستند (نمای پانورامای نمای خیابان Google) یا از یک پلت فرم متحرک (مجموعه مجموعه داده داشکام Mapillary) به دست می آیند، که منجر به تغییر پرسپکتیو بالا و پس زمینه متفاوت می شود.

3. تطبیق نمونه با محدودیت های هندسی نرم

یک نمای کلی از خط لوله پیشنهادی در شکل 3 نشان داده شده است . ایده اصلی این است که اگر بتوان جهت گیری نسبی بین دو یا چند نقطه دید دوربین را مشخص کرد، تصاویر مربوطه از یک شی باید از اصول اولیه فتوگرامتری استریو (یا چند نمای) پیروی کنند. تحمیل مستقیم محدودیت های سخت بر اساس قوانین، به عنوان مثال، تقاطع رو به جلو سخت است. نسبت نامطلوب پایه به ارتفاع، به عنوان مثال، درختان در سمت خیابان بسیار به دوربین نزدیک می شوند، اما فاصله بین دو عکس پانوراما به طور قابل توجهی بزرگتر است و تطابق متراکم را غیرممکن می کند. همانطور که در شکل 2 ارائه شده است، چشم انداز شی بسیار تغییر می کند تا با موفقیت با پیکسل های تصویر مربوطه مطابقت داشته باشد. علاوه بر این، عنوان و موقعیت جغرافیایی (که در فراداده های پانورامای نمای خیابان ثبت می شود) اغلب به دلیل تداخل تله متری یا دلایل دیگر نادرست است. در مورد علائم راهنمایی و رانندگی، به دلیل جمع‌سپاری مجموعه داده Mapillary، برش‌های تصویر بسته به دریافت متفاوت است. محصولات را می توان از دوربین نصب شده بر روی یک وسیله نقلیه یا توسط عابران پیاده به دست آورد، بنابراین یک تنظیم ناسازگار ارائه می دهد. بنابراین ما پیشنهاد می کنیم که به طور ضمنی توزیع پارامترهای هندسی را که فتوگرامتری چند نمای را همراه با ظاهر تصویر اشیا توصیف می کنند، یاد بگیریم. فرض ما این است که این رویکرد امکان گفتگوی متقابل بین شواهد تصویر و هندسه را فراهم می کند. برای مثال، اگر یک شی با اندازه یکسان در دو تصویر ظاهر شود (اما پرسپکتیو بسیار متفاوت)، مثلثی که هر دو موقعیت دوربین و جسم را به هم متصل می کند باید تقریباً متساوی الساقین باشد. یعنی جسم در بین هر دو نقطه دوربین قرار دارد. برعکس، شی مورد نظر که از یک منظر (ظاهر تصویر بسیار مشابه) مشاهده می‌شود، اما نسبتاً کوچک به نظر می‌رسد، به یک مثلث نوک تیز اشاره می‌کند که یک پایه آن بلندتر از خط پایه و یک پای دیگر کوتاه‌تر است. به بیان واقعی تر، شی مورد نظر به احتمال زیاد خارج از خط پایه بین دو دوربین قرار خواهد گرفت.

3.1. معماری مدل

روش ما از یک سی ان ان سیامی اصلاح شده استفاده می کند که برش های تصویر و ویژگی های هندسی را به طور مشترک پردازش می کند. ما از ویژگی های هندسی استفاده می کنیم {[سیلآتی*،سیلng*،ساعت∘]}، جایی که C نشان دهنده موقعیت جغرافیایی تصویر و ساعت∘زاویه سمت شی در داخل تصویر است. ما این نشانه های هندسی را به شواهد تصویری الهام گرفته از پارک و همکاران اضافه می کنیم. [ 39 ]، که داده های چند وجهی را در یک معماری واحد CNN ادغام کرد تا عملکرد از دست دادن مشترک را به حداقل برساند.
همانطور که در شکل 4 نشان داده شده است، ما دو بردار هندسی را علاوه بر برش‌های تصویر حاوی نمونه شی، به شبکه خود می‌دهیم . این یک کانال اضافی با ابعاد تصویر برای هر ویژگی هندسی ایجاد می کند که فقط مقدار ویژگی را شامل می شود. اینجاست که این مدل با کار قبلی ما تفاوت دارد [ 40]، که در آن بردارهای هندسی از یک زیرشبکه متفاوت عبور می کنند. در نتیجه، دو زیرشبکه ویژگی ویژگی‌ها را از بردارهای هندسی و برش‌های تصویر استخراج می‌کنند. انجام کانولوشن در شش کانال با اعمال فیلتر بر روی RGB و مقادیر هندسی به طور همزمان، ویژگی های توصیفی پیشرفته ای را ارائه می دهد. پس از آن، «شبکه فرعی ویژگی» «جاسازی‌های ویژگی» را تولید می‌کند که به عنوان ورودی به «شبکه‌های تصمیم‌گیری» ارائه می‌کنیم که تعیین می‌کند آیا تصاویر مشابه هستند یا خیر.
به طور کلی، از هر معماری پیشرفته ای می توان برای استخراج ویژگی ها استفاده کرد. ما با شبکه های کم عمق مانند AlexNet و شبکه های عمیق تر مانند ResNet برای وظایف مختلف آزمایش کردیم تا بررسی کنیم که شبکه پایه چقدر کارآمد (از نظر پارامترها) و عمیق باید برای استخراج ویژگی ها باشد. پس از آزمایش‌های اولیه با معماری‌های رایج مانند AlexNet [ 41 ]، ResNet34 [ 42 ] و MatchNet [ 18 ]، متوجه شدیم که ResNet34 بهترین عملکرد را در سناریوی ما دارد و بنابراین آن را برای همه آزمایش‌ها حفظ کردیم. برای کارهای آینده، ResNet انتخاب بهتری از نظر پیاده سازی در هنگام ادغام با آشکارسازهای شی [ 43 ، 44 ] است که از ResNet به عنوان ستون فقرات استفاده می کنند.
همانطور که در شکل 4 نشان داده شده است، ویژگی های تولید شده از زیرشبکه های ویژگی به مولفه “شبکه های تصمیم گیری” وارد می شوند، که بخشی تصمیم گیری شبکه است که شباهت را محاسبه می کند. این «شبکه‌های تصمیم‌گیری» می‌تواند یا از دست دادن کنتراست باشد یا از لایه‌های کاملاً متصل [ 18 ] با طبقه‌بندی ساخته شده باشد (همچنان که در بخش نتایج توضیح می‌دهیم بسته به آزمایش). جزء تصمیم گیری از چهار شبکه FC (کاملا متصل) تشکیل شده است. شبکه های سی ان ان سیامی ما وزن زیرشبکه های ویژگی را به اشتراک می گذارند، همانطور که توسط تاگمن و همکاران پیشنهاد شده است. [ 11 ] هنگام برخورد با همان روش. بنابراین، هر دو زیرشبکه ویژگی ما یکسان هستند و دارای پارامترهای شبکه مشترک هستند.

3.2. توابع از دست دادن

ما سه نوع مختلف از توابع از دست دادن را برای رویکرد تطبیق نمونه چند نمای خود امتحان کردیم و جزئیات آنها را در ادامه توضیح دادیم.

Contrastive : اولین رویکرد ما یک CNN سیامی است که از دو زیرشبکه یکسان تشکیل شده است که با یک تابع تضاد متضاد آموزش داده شده اند [ 45 ]. یک ضرر کنتراست (معادله ( 1 )) یک جفت ویژگی ایجاد شده از دو شاخه شبکه را به عنوان ورودی می گیرد، بر خلاف سایر توابع از دست دادن که شبکه را در مجموعه داده آموزشی ارزیابی می کنند. هدف تابع از دست دادن این است که جاسازی های منطبق یا مثبت را نزدیک تر کند و جاسازی های غیر منطبق را در فضای ویژگی دور کند. بنابراین، تابع از دست دادن شبکه را تشویق می‌کند تا ویژگی‌هایی را که در فضای ویژگی‌ها نزدیک هستند، اگر نمونه‌ها مشابه هستند، یا ویژگی‌های متفاوتی را اگر مشابه نیستند، خروجی دهد. این با جریمه کردن مدل بسته به نمونه ها به دست می آید. تابع از دست دادن کنتراست به صورت تعریف شده است

L=12ن(∑n=1نynدn2+(1-yn)+(1-yn)حداکثر(متر-دn،0)2)

که در آن y برچسب حقیقت پایه است، m یک حاشیه است، و دnهر تابع فاصله بین دو ویژگی خروجی است.

متریک : این یکی دیگر از رویکردهای سی ان ان سیامی است که از زیرشبکه های مشابهی تشکیل شده است که شبکه متریک را با ویژگی های به هم پیوسته ارائه می کند. شبکه متریک از سه لایه کاملاً متصل با فعال سازی ReLU تشکیل شده است، به جز آخرین لایه که تابع آنتروپی متقاطع باینری را کد می کند (معادله ( 2 )). خروجی های لایه آخر دو مقدار غیر منفی در [0,1] است که مجموع آنها 1 است. هر مقدار مربوط به احتمال طبقه بندی نمونه ها به عنوان مشابه یا غیر مشابه است. آنتروپی متقاطع باینری به صورت تعریف می شود

L=-∑من=1سی”=2yمنورود به سیستم(سمن)=-y1ورود به سیستم(س1)-(1-y1)ورود به سیستم(1-س1)

جایی که ما فقط دو کلاس داریم. y1برچسب حقیقت زمینی است و س1امتیاز احتمال برای است سی1. در نتیجه، y2=1-y1و س2=1-س1امتیاز حقیقت و احتمال زمین برای سی2.

TripleNet : این یک معماری شبکه سه گانه است [ 46 ] که از سه زیرشبکه یکسان به جای دو تشکیل شده است. هر زیرشبکه ویژگی یک تصویر متفاوت برای ایجاد یک جاسازی دریافت می کند. ورودی ها یک تصویر لنگر (تصویر اصلی یا تصویر مورد نظر ما)، یک تصویر مثبت (تصویر مشابه تصویر لنگر) و یک ورودی منفی (که تصویری غیر مشابه با تصویر لنگر است) هستند. مشابه از دست دادن کنتراست، شبکه آموزش داده می شود تا لنگر و تعبیه های مثبت را به حداقل برساند در حالی که فاصله بین لنگر و تعبیه منفی را با افت سه گانه به حداکثر می رساند (معادله (3) ) . از دست دادن سه گانه به صورت زیر تعریف می شود:

L=حداکثر(∥f(آ)-f(پ)∥2-∥f(آ)-f(ن)∥2+متر،0)

که در آن m حاشیه، f خروجی ویژگی، A ویژگی لنگر، P ویژگی مثبت، و N ویژگی منفی است. توجه داشته باشید که هر سه معماری را می توان با زیرشبکه های ویژگی های مختلف مانند AlexNet، MatchNet، ResNet34 و غیره ترکیب کرد.

4. آزمایشات

آزمایشات ما در PyTorch اجرا شد. وزن‌های شبکه با استفاده از «Initializer یکنواخت Glorot» [ 47 ] مقداردهی اولیه شد، نرخ یادگیری اولیه با ADAM [ 48 ] به‌عنوان بهینه‌ساز روی 0.0001 تنظیم شد و نرخ ترک تحصیل روی 0.3 تنظیم شد. اندازه تمام وصله های تصویر به 224 × 224 پیکسل تغییر داده شد و به طور جداگانه به دو جریان شبکه داده شد. توجه داشته باشید که ما پیش پردازش استاندارد (میانگین تفریق و عادی سازی) را برای تصاویر ورودی و همچنین ویژگی های هندسی اعمال کردیم. ما از مقادیر نرمال‌سازی محاسبه‌شده از ImageNet برای آزمایش‌های خود استفاده کردیم، زیرا از وزن‌های از پیش آموزش‌دیده‌شده برای مقداردهی اولیه مدل‌هایمان استفاده کردیم.

4.1. مجموعه داده ها

ما روش خود را بر روی دو مجموعه داده مختلف ارزیابی کردیم. هر دو مجموعه داده از نظر اشیا، هندسه تصویر و استراتژی اکتساب متفاوت هستند. مجموعه داده پاسادنا از تصاویر پانوراما از نمای خیابان گوگل تشکیل شده است، در حالی که مجموعه داده Mapillary عمدتاً شامل تصاویری است که با دوربین های مختلف در وسایل نقلیه متحرک به دست آمده اند. اشیاء مورد توجه درختان در پاسادنا و علائم راهنمایی و رانندگی در Mapillary هستند . خطوط پایه بین پانورامای متوالی پاسادنا معمولا بزرگتر هستند (≈50 متر، شکل 5 ) از خطوط پایه بین قاب های متوالی Mapillary (معمولاً چند متر بسته به سرعت وسیله نقلیه، شکل 6 ). در حالی که پانوراما ازپاسادنا یک 360 را نشان می دهد ∘نمای اطراف وسیله نقلیه نقشه برداری، تصاویر Mapillary با یک دوربین رو به جلو در یک وسیله نقلیه در حال حرکت به دست می آیند و در نتیجه میدان دید بسیار باریک تری ایجاد می کنند. علاوه بر این، همانطور که در شکل 7 نشان داده شده است، این منجر به نگاشت های مختلف از یک شی در تصاویر متوالی می شود . در حالی که اشیاء در تصاویر Mapillary عمدتاً تغییر مقیاس را تجربه می کنند در حالی که وسیله نقلیه به سمت آنها هدایت می شود، اشیاء در پانوراما نیز دچار تغییر چشم انداز قابل توجهی می شوند. در ادامه هر دو مجموعه داده را با جزئیات بیشتری شرح می دهیم.

4.1.1. پاسادنا

ما رویکرد خود را بر روی مجموعه داده جدیدی از پاسادنا، کالیفرنیا، ایالات متحده آمریکا آزمایش کردیم که مجموعه داده‌های درختان شهری موجود در کار قبلی ما را گسترش می‌دهد [ 13 ، 25 ]. این فایل از یک فایل KML موجود که حاوی اطلاعات غنی (موقعیت جغرافیایی، گونه‌ها، و قطر تنه) از 80000 درخت در شهر پاسادنا است، تولید می‌شود. همانطور که در شکل 5 نشان داده شده است، برای هر درخت، نزدیکترین چهار تصویر پانوراما با اندازه 1664 × 832 پیکسل را از نمای خیابان گوگل دانلود کردیم.. زیرمجموعه ای از 4400 درخت با چهار نما انتخاب شد که منجر به 17600 تصویر در مجموع به اضافه متا داده شد. توجه داشته باشید که موجودی پاسادنا فقط شامل درختان خیابان است که تقریباً 20٪ از کل درختان شهر را تشکیل می دهد. ما به ازای هر تصویر پانوراما، جعبه‌های مرزی را در اطراف همه درختان خیابان ترسیم کردیم که در مجموع به 47000 جعبه مرزی منجر شد. همانطور که در شکل 1 نشان داده شده است، بخش مهمی از کار برچسب زدن، برچسب زدن تصاویر مربوطه از همان درخت در چهار نمای نزدیک بود . همانطور که در شکل 5 نیز ارائه شده است، تغییرات پرسپکتیو در برخی موارد شدید است و حتی تشخیص اینکه آیا آنها در یک مکان هستند یا خیر برای چشم انسان دشوار می کند. علاوه بر این، اعوجاج اغلب زمانی رخ می دهد که درختان دوربین 360 را ابری کنند. مجموعه داده نهایی ما از تصاویر پانوراما شامل درختان برچسب دار (و تطبیق بین چهار تصویر درخت در هر درخت)، فراداده پانوراما (موقعیت جغرافیایی و عنوان دوربین) و موقعیت جغرافیایی در هر درخت تشکیل شده است. توجه داشته باشید که موقعیت جغرافیایی هر درخت در طول آموزش برای تولید پارامترهای حقیقت زمینی ویژگی‌های هندسی ما استفاده شد. در طول آزمایش مورد استفاده قرار نگرفت، اما پارامترهای هندسی مستقیماً از پانوراماهای فردی مشتق شدند.
4.1.2. نقشه کشی
ما روش‌های پایه و روش‌های خود را بر روی یک مجموعه داده جدید ارائه شده توسط Mapillary ( www.mapillary.com ) اجرا کردیم تا نتایج خود را تأیید کنیم. این مجموعه داده نباید با مجموعه داده Mapillary Vistas [ 49 ] که برای چالش تقسیم بندی معنایی ارائه شده است، اشتباه گرفته شود. مجموعه داده شامل 31342 نمونه از علائم راهنمایی و رانندگی است که در 74320 تصویر در یک منطقه تقریباً 2 کیلومتری شناسایی شده اند. 2. به طور متوسط ​​در هر تصویر دو علامت راهنمایی و رانندگی ظاهر می شود. قالب مجموعه داده در GeoJSON است، که در آن هر «ویژگی» یا هویت دارای ویژگی‌های زیر است: (1) مختصات جغرافیایی شی که با استفاده از ساختار سه بعدی از تکنیک‌های حرکتی به دست می‌آید، که بنابراین تحت تأثیر GPS قرار می‌گیرد، و تراکم تصاویر؛ (ii) فاصله اجسام بر حسب متر از موقعیت دوربین. (iii) کلیدهای تصویر برای تشخیص اینکه کدام شی در آن ظاهر می شود و کدام مورد برای بازیابی تصویر با استفاده از API آنها استفاده می شود. (IV) مختصات جغرافیایی محل تصویر. (v) ارتفاع و زاویه جسم. و (vi) حاشیه نویسی علامت به شکل چندضلعی.
مجموعه داده Mapillary از بسیاری جهات با مجموعه داده پاسادنا ما کاملاً متفاوت است. این تصاویر با استفاده از دوربین‌های داشبورد رو به جلو در وسایل نقلیه در حال حرکت، گوشی‌های هوشمند یا حتی دکل‌های پانوراما روی ماشین‌های علاقه‌مندان جمع‌آوری شده‌اند. بنابراین، اندازه و کیفیت تصویر و همچنین زمان ثبت تصاویر بسیار متناقض است. از آنجایی که بیشتر تصاویر از دوربین‌های داشبورد گرفته شده‌اند، تغییرات دیدگاه تنها چند متر است ( شکل 6 ) به دلیل اینکه تصاویر در قاب‌های متوالی در مقایسه با پانورامای GSV هستند ( شکل 5 ). همانطور که در شکل 6 نشان داده شده استاز آنجایی که دوربین بیشتر به جلو نگاه می کند، اشیاء تقریباً از یک دیدگاه با تغییرات مقیاس مشاهده می شوند و اندازه اشیا در مقایسه با درختان به عنوان مثال بسیار کوچک هستند. علاوه بر این، توجه به این نکته مهم است که برخلاف درختان، علائم راهنمایی و رانندگی بسیار کوچکتر هستند و بهترین زاویه برای ثبت آنها از جلو است و نه به دلیل نازک بودن آنها، همانطور که در شکل 6 نشان داده شده است .

4.2. استراتژی ارزیابی

ما یک اعتبارسنجی متقاطع 10 برابری برای همه آزمایش‌ها انجام دادیم تا از هرگونه سوگیری تقسیم آزمون قطار و برازش بیش از حد جلوگیری کنیم. هر درخت دارای چهار وصله تصویر از نماهای مختلف است، که در آن هر وصله تصویر با یک بردار ویژگی همراه است که حاوی نشانه های هندسی است، همانطور که در بخش 3 توضیح داده شد . برای آموزش دسته تطابق مثبت، جفت‌های وصله تصویری منطبق را از یک شیء با بردارهای ویژگی هندسی به مدل خود وارد کردیم. جفت‌های منفی دسته رد با انتخاب تصادفی دو تکه تصویر از دو شی متفاوت ایجاد شدند. آزمایش‌های اولیه نشان داد که بیشترین عدم تطابق در اجسام مجاور رخ می‌دهد، زیرا هندسه در چنین مواردی کمترین تمایز را دارد (یعنی تابع تاب‌خوردگی بسیار مشابه است) و اشیا پس‌زمینه یکسانی دارند. در شرایطی کهپاسادنا ، درختان همسایه اغلب متعلق به یک گونه هستند، که منجر به ظاهر بصری بسیار مشابه در تصاویر می شود. بنابراین، جفت‌های مثال منفی زیادی از اشیاء همسایه اضافه کردیم تا طبقه‌بندی‌کننده قوی‌تر شود.

4.3. آیا هندسه کمک می کند؟

ما ارزیابی کردیم که آیا شواهد هندسی با مقایسه با یک خط پایه بدون ویژگی‌های هندسی برای مجموعه داده‌های Pasadena و Mapillary کمک می‌کند ( جدول 1 ). هر سه معماری مدل، Contrastive ، Metric و TripleNet ، در هر مجموعه داده با ( w/geometry ) و بدون ویژگی‌های هندسی ( w/o هندسه ) ارزیابی شدند .
تنها تفاوت w/geometry با w/o هندسه این است که ما ویژگی‌های هندسی را به ویژگی‌های مبتنی بر تصویر خود درست قبل از شبکه‌های تصمیم‌گیری، یعنی بعد از زیرشبکه ویژگی، الحاق کردیم. توجه داشته باشید که برای این آزمایش، ما ویژگی‌های هندسی را در مراحل بعدی نسبت به مدل کامل خود ( ما ) اضافه کردیم تا امکان مقایسه منصفانه را فراهم کنیم. افزودن ویژگی های هندسی به طور مداوم دقت را در مجموعه داده ها و معماری ها بهبود می بخشد ( جدول 1 ). معماری مدل Metric بهترین نتایج را برای پاسادنا به دست می آورد ، در حالی که Contrastive برای Mapillary بهترین نتیجه را دارد .

4.4. نتایج

عملکرد برتر الحاق ساده ویژگی‌های هندسی به ویژگی‌های بصری ( بدون هندسه ) در مقایسه با استفاده از ویژگی‌های بصری ( بدون هندسه ) فضایی را برای تعبیه ویژگی‌های مشترک و متمایزتر باقی می‌گذارد. ما ویژگی‌های هندسی را به‌عنوان ورودی دوم علاوه بر وصله‌های تصویر اضافه می‌کند که منجر به درگیر شدن مشترک بین نشانه‌های هندسی و بصری با زیرشبکه‌های ویژگی (ResNet34) در مرحله اولیه می‌شود. در واقع، استفاده از هر دو منبع شواهد به طور همزمان به عنوان نتایج ورودی به شبکه اجازه می دهد تا در مورد توزیع مشترک آنها استدلال کند. به دلایل سازگاری، ما نتایج w/o هندسه و w/ هندسه را برای پاسادنا وMapillary با استفاده از تلفات مختلف، با مجموعه داده های یکسان. از آنجایی که معماری مدل TripleNet به وضوح برای آزمایش‌های پایه بدتر عمل کرد، ما فقط Contrastive و Metric را برای ارزیابی ما نگه می‌داریم (دو ردیف پایین جدول 1 ).
روش ما به طور مداوم از همه روش های پایه بدون در نظر گرفتن معماری بهتر عمل می کند. افزودن ویژگی‌های هندسی در ورودی به وصله‌های تصویر، بنابراین به شبکه اجازه می‌دهد درباره توزیع مشترک هندسه و شواهد بصری استدلال کند، به کاهش بیشتر خطاهای تطبیق کمک می‌کند. یادگیری محدودیت‌های هندسی نرم پیکربندی‌های صحنه معمولی به تمایز تطابق صحیح از نادرست در موقعیت‌های پیچیده کمک می‌کند.
نمونه هایی برای هر دو طبقه بندی صحیح به عنوان عدم تطابق و مطابقت برای موارد سخت در شکل 8 و شکل 9 نشان داده شده است . روش ما قادر است جفت‌هایی از درخت‌های همسایه و مشابه را به‌عنوان نامتناسب طبقه‌بندی کند ( شکل 8 )، که هدف اصلی این کار دستیابی به تشخیص‌های قابل اطمینان‌تر شی برای نماهای متعدد بود. علاوه بر این، ما به ایجاد تطابق صحیح در موقعیت‌های دشوار با زوایای دید و انسداد بسیار متفاوت کمک می‌کند. همانطور که در شکل 9 نشان داده شده است ، اگر تصاویر تار شوند، اشیاء تا حدی مسدود شوند یا تغییر چشم انداز قابل توجهی اتفاق بیفتد، ما در موقعیت های دشوار به ما کمک می کند.. علاوه بر این، ما به درستی جفت‌های تصویری از علائم راهنمایی و رانندگی از یک نوع را به‌عنوان عدم تطابق طبقه‌بندی می‌کند، حتی اگر این علائم نزدیک به یکدیگر قرار داشته باشند ( شکل 9 ).

5. نتیجه گیری ها

ما یک معماری سی‌ان‌ان سیامی را ارائه می‌کنیم که به طور مشترک توزیع توابع تاب برداشتن مبتنی بر ظاهر و نشانه‌های صحنه هندسی را برای تطبیق نمونه‌های شی شهری (به عنوان مثال، درختان و علائم راهنمایی و رانندگی) در طبیعت یاد می‌گیرد. به جای تحمیل متوالی آستانه های سخت بر اساس قوانین فتوگرامتری چند نمای، یادگیری مشترک ظاهر و هندسه امکان گفتگوی متقابل شواهد را در داخل یک شبکه واحد فراهم می کند. در حالی که طراحی شبکه ما فقط یک نسخه کمی تطبیق‌شده از معماری‌های سی‌ان‌ان سیامی است، افزودن هندسه به شواهد تصویر به طور مداوم نتایج تطبیق نمونه شی را برای پاسادنا و مپیلاری بهبود می‌بخشد.مجموعه داده ها امید ما این است که این ایده «یادگیری محدودیت‌های فتوگرامتری نرم» و ترکیب آن‌ها با ظاهر شی، خط جدیدی از تحقیقات را راه‌اندازی کند که محتوای تصویر منحرف و جهت گیری حسگر نسبی را به طور مشترک مدل‌سازی می‌کند. به عنوان مثال، محدودیت‌های فتوگرامتری نرم و آموخته‌شده می‌تواند به بهبود تشخیص شی در نماهای چندگانه کمک کند [ 50 ]، که در این مطالعه روش‌های مختلف ترکیب محدودیت‌های فتوگرامتری نرم را به منظور آزمایش بیشتر با روش‌های پایان به انتها آموخته شده بررسی کردیم. یادگیری محدودیت‌های هندسی به‌عنوان پیشین‌های نرم به‌همراه شواهد تصویری در بسیاری از موقعیت‌ها که موقعیت‌های دوربین و اشیا نامشخص، نویزدار، یا تا حدی وجود ندارد و همچنین برای ثبت ابر نقطه کمک می‌کند [51 ، 52 ]].

منابع

  1. وو، جی. یائو، دبلیو. Polewski، P. نقشه برداری از گونه های درختی و سرزندگی در امتداد راهروهای جاده شهری با LiDAR و سنسورهای تصویربرداری: تراکم نقطه در مقابل دیدگاه دید. Remote Sens. 2018 ، 10 ، 1403. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  2. وان، آر. هوانگ، ی. زی، آر. Ma, P. نقشه برداری خطوط ترکیبی با استفاده از یک سیستم نقشه برداری موبایل. Remote Sens. 2019 , 11 , 305. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  3. خرمشاهی، ا. کامپوس، ام. توماسلی، آ. ویلیجانن، ن. میلونن، تی. کارتینن، اچ. کوکو، ا. Honkavaara, E. طرح کالیبراسیون دقیق برای یک سیستم نقشه برداری موبایل با چند دوربین. Remote Sens. 2019 , 11 , 2778. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  4. هیلمن، ام. واینمن، ام. مولر، ام. جوتزی، ب. کالیبراسیون خودکار بیرونی سیستم های نقشه برداری موبایل بر اساس ویژگی های هندسی سه بعدی. Remote Sens. 2019 ، 11 ، 1955. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  5. بالادو، ج. گونزالس، ای. آریاس، پ. کاسترو، دی. رویکرد جدید به فهرست خودکار علائم ترافیکی بر اساس داده های سیستم نقشه برداری موبایل و یادگیری عمیق. Remote Sens. 2020 , 12 , 442. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  6. جوگلکار، ج. Gedam, SS; Mohan، BK تطبیق تصویر با استفاده از ویژگی‌های SIFT و تکنیک برچسب‌گذاری آرامش – یک روش مقداردهی اولیه برای تطبیق متراکم استریو. IEEE Trans. Geosci. Remote Sens. 2014 , 52 , 5643–5652. [ Google Scholar ] [ CrossRef ]
  7. Lowe، DG تشخیص شیء از ویژگی‌های تغییرناپذیر مقیاس محلی. در مجموعه مقالات هفتمین کنفرانس بین المللی IEEE، کرکیرا، یونان، 20 تا 27 سپتامبر 1999. جلد 2، ص 1150–1157. [ Google Scholar ]
  8. لی، دبلیو. ژائو، آر. شیائو، تی. Wang, X. Deepreid: شبکه عصبی جفت شدن فیلتر عمیق برای شناسایی مجدد افراد. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، کلمبوس، OH، ایالات متحده، 23-28 ژوئن 2014. صص 152-159. [ Google Scholar ]
  9. بروملی، جی. گیون، آی. LeCun، Y.; ساکینگر، ای. شاه، آر. تأیید امضا با استفاده از شبکه عصبی تأخیر زمانی «سیامی». بین المللی ج. تشخیص الگو. آرتیف. هوشمند 1993 ، 7 ، 669-688. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  10. چوپرا، اس. هادسل، آر. LeCun، Y. یادگیری معیار تشابه به صورت متمایز، با تأیید صحت کاربرد به چهره. در مجموعه مقالات CVPR، سن دیگو، کالیفرنیا، ایالات متحده آمریکا، 20-26 ژوئن 2005. صص 539-546. [ Google Scholar ]
  11. تایگمن، ی. یانگ، م. رانزاتو، م. Wolf، L. Deepface: بستن شکاف به عملکرد سطح انسانی در تأیید چهره. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، کلمبوس، OH، ایالات متحده آمریکا، 23 تا 28 ژوئن 2014. صفحات 1701-1708. [ Google Scholar ]
  12. کوچ، جی. زمل، آر. سالخوتدینوف، R. شبکه های عصبی سیامی برای تشخیص تصویر تک شات. در مجموعه مقالات کارگاه آموزشی عمیق ICML، لیل، فرانسه، 6 تا 11 ژوئیه 2015. جلد 2. [ Google Scholar ]
  13. لفور، اس. تویا، دی. Wegner، JD; پرودویت، تی. Nassar, AS به سمت تجزیه و تحلیل صحنه چند نمای یکپارچه از ماهواره به سطح خیابان. Proc. IEEE 2017 ، 105 ، 1884-1899. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  14. لین، TY; کوی، ی. بلنگی، اس. هیز، جی. یادگیری بازنمایی های عمیق برای زمین شناسی زمین به هوایی. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، بوستون، MA، ایالات متحده آمریکا، 7 تا 12 ژوئن 2015. صفحات 5007–5015. [ Google Scholar ]
  15. برتینتو، ال. والمادر، جی. هنریکس، جی اف. ودالدی، ع. Torr, PH شبکه‌های سیامی کاملاً پیچیده برای ردیابی شی. در مجموعه مقالات کنفرانس اروپایی بینایی کامپیوتر، مونیخ، آلمان، 8 تا 14 سپتامبر 2016. صص 850-865. [ Google Scholar ]
  16. گوا، کیو. فنگ، دبلیو. ژو، سی. هوانگ، آر. وان، ال. Wang, S. یادگیری شبکه سیامی پویا برای ردیابی اشیاء بصری. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، ونیز، ایتالیا، 22 تا 29 اکتبر 2017؛ صفحات 1763-1771. [ Google Scholar ]
  17. زبونتر، ج. تطبیق LeCun، Y. Stereo با آموزش یک شبکه عصبی کانولوشن برای مقایسه وصله‌های تصویر. جی. ماخ. فرا گرفتن. Res. 2016 ، 17 ، 2. [ Google Scholar ]
  18. هان، ایکس. لئونگ، تی. جیا، ی. سوکتانکار، آر. برگ، AC Matchnet: یکپارچه‌سازی ویژگی و یادگیری متریک برای تطبیق مبتنی بر پچ. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، بوستون، MA، ایالات متحده آمریکا، 7 تا 12 ژوئن 2015. صص 3279-3286. [ Google Scholar ]
  19. تیان، ی. فن، بی. Wu, F. L2-net: یادگیری عمیق توصیفگر وصله متمایز در فضای اقلیدسی. در مجموعه مقالات کنفرانس IEEE در مورد دید رایانه و تشخیص الگو، هونولولو، HI، ایالات متحده آمریکا، 21 تا 26 ژوئیه 2017؛ صص 661-669. [ Google Scholar ]
  20. کومار، بی. کارنیرو، جی. Reid, I. یادگیری توصیفگرهای تصویر محلی با شبکه های پیچیده سیامی عمیق و سه گانه با به حداقل رساندن توابع از دست دادن جهانی. در مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، لاس وگاس، NV، ایالات متحده، 27-30 ژوئن 2016. صص 5385–5394. [ Google Scholar ]
  21. Leal-Taixé، L. کانتون-فرر، سی. شیندلر، کی. یادگیری با ردیابی: سی ان ان سیام برای ارتباط هدف قوی. در مجموعه مقالات کنفرانس IEEE در کارگاه های آموزشی بینایی کامپیوتری و تشخیص الگو، لاس وگاس، NV، ایالات متحده، 26 ژوئن تا 1 ژوئیه 2016. صص 33-40. [ Google Scholar ]
  22. وانگ، بی. وانگ، ال. شوایی، بی. زو، ز. لیو، تی. لوک چان، ک. وانگ، جی. یادگیری مشترک شبکه‌های عصبی کانولوشنال و معیارهای محدود زمانی برای ارتباط مسیر. در مجموعه مقالات کنفرانس IEEE در کارگاه های آموزشی بینایی کامپیوتری و تشخیص الگو، لاس وگاس، NV، ایالات متحده، 26 ژوئن تا 1 ژوئیه 2016. صص 1-8. [ Google Scholar ]
  23. صادقیان، ع. الهی، ع. Savarese, S. Tracking the untrackable: یادگیری ردیابی نشانه های متعدد با وابستگی های طولانی مدت. در مجموعه مقالات کنفرانس IEEE در مورد دید رایانه و تشخیص الگو، هونولولو، HI، ایالات متحده آمریکا، 21 تا 26 ژوئیه 2017؛ صص 300-311. [ Google Scholar ]
  24. Wegner، JD; برانسون، اس. هال، دی. شیندلر، ک. پرونا، پ. فهرست نویسی اشیاء عمومی با استفاده از تصاویر هوایی و سطح خیابان – درختان شهری. در مجموعه مقالات کنفرانس IEEE در کارگاه های آموزشی بینایی کامپیوتری و تشخیص الگو، لاس وگاس، NV، ایالات متحده، 26 ژوئن تا 1 ژوئیه 2016. صفحات 6014–6023. [ Google Scholar ]
  25. برانسون، اس. Wegner، JD; هال، دی. لانگ، ن. شیندلر، ک. Perona, P. از Google Maps تا کاتالوگ ریزدانه از درختان خیابان. ISPRS J. Photogramm. Remote Sens. 2018 ، 135 ، 13-30. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  26. ژانگ، دبلیو. ویتارانا، سی. لی، دبلیو. ژانگ، سی. لی، ایکس. والدین، جی. استفاده از یادگیری عمیق برای شناسایی قطب های کاربردی با Crossarms و تخمین مکان آنها از تصاویر نمای خیابان Google. Sensors 2018 , 18 , 2484. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  27. کریلوف، ویرجینیا؛ Dahyot, R. موقعیت جغرافیایی شی با استفاده از همجوشی چند سنسوری مبتنی بر MRF. در مجموعه مقالات بیست و پنجمین کنفرانس بین المللی IEEE در مورد پردازش تصویر (ICIP) 2018، آتن، یونان، 7 تا 10 اکتبر 2018؛ صص 2745-2749. [ Google Scholar ]
  28. ژانگ، سی. فن، اچ. لی، دبلیو. مائو، بی. Ding, X. تشخیص و قرار دادن خودکار اشیاء جاده از تصاویر سطح خیابان. arXiv 2019 ، arXiv:1909.05621. [ Google Scholar ]
  29. لین، ی. ژنگ، ال. ژنگ، ز. وو، ی. هو، ز. یان، سی. یانگ، ی. بهبود شناسایی مجدد فرد توسط ویژگی و یادگیری هویت. تشخیص الگو 2019 ، 95 ، 151-161. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  30. لیو، ایکس. بی، س. ما، ایکس. وانگ، جی. شبکه عصبی کانولوشن چند نمونه ای برای شناسایی مجدد افراد چند شات. محاسبات عصبی 2019 ، 337 ، 303-314. [ Google Scholar ] [ CrossRef ]
  31. منگ، جی. وو، اس. ژنگ، شناسایی مجدد شخص تحت نظارت ضعیف WS. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 16 تا 20 ژوئن 2019؛ صص 760-769. [ Google Scholar ]
  32. بای، ایکس. یانگ، م. هوانگ، تی. دو، ز. یو، آر. Xu, Y. Deep-person: یادگیری ویژگی های عمیق تمایزآمیز برای شناسایی مجدد شخص. تشخیص الگو 2020 ، 98 ، 107036. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  33. شیائو، جی. زی، ی. تیلو، تی. هوانگ، ک. وی، ی. Feng, J. IAN: شبکه تجمیع فردی برای جستجوی افراد. تشخیص الگو 2019 ، 87 ، 332-340. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  34. شیائو، تی. لی، اس. وانگ، بی. لین، ال. Wang, X. یادگیری ویژگی های تشخیص و شناسایی مشترک برای جستجوی افراد. در مجموعه مقالات کنفرانس IEEE در مورد دید رایانه و تشخیص الگو، هونولولو، HI، ایالات متحده آمریکا، 21 تا 26 ژوئیه 2017؛ صص 3415–3424. [ Google Scholar ]
  35. هوانگ، TW; کای، جی. یانگ، اچ. Hsu، HM; هوانگ، JN شناسایی مجدد خودرو با دید چندگانه با استفاده از مدل توجه زمانی و رتبه‌بندی مجدد فراداده. در مجموعه مقالات کارگاه چالش شهر هوش مصنوعی، کنفرانس بینایی و تشخیص الگوی رایانه ای IEEE/CVF (CVPR)، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 16 تا 20 ژوئن 2019. [ Google Scholar ]
  36. لیو، ایکس. لیو، دبلیو. می، تی. Ma، H. یک رویکرد مبتنی بر یادگیری عمیق برای شناسایی مجدد پیشرونده وسیله نقلیه برای نظارت شهری. در مجموعه مقالات کنفرانس اروپایی بینایی کامپیوتر، آمستردام، هلند، 11 تا 14 اکتبر 2016؛ صص 869-884. [ Google Scholar ]
  37. آلتواجری، اچ. Belongie، SJ تطبیق تصاویر هوایی با خط پایه فوق‌العاده در محیط‌های شهری. در مجموعه مقالات BMVC، بریستول، انگلستان، 9 تا 13 سپتامبر 2013. [ Google Scholar ]
  38. دیتون، دی. مالیزیویچ، تی. Rabinovich، A. Superpoint: تشخیص و توصیف نقطه علاقه خود نظارت شده. در مجموعه مقالات کنفرانس IEEE در کارگاه های آموزشی بینایی کامپیوتری و تشخیص الگو، سالت لیک سیتی، UT، ایالات متحده آمریکا، 18 تا 22 ژوئن 2018؛ صص 224-236. [ Google Scholar ]
  39. پارک، ای. هان، ایکس. برگ، TL; برگ، AC ترکیب چندین منبع دانش در cnn های عمیق برای تشخیص عمل. در مجموعه مقالات کنفرانس زمستانی IEEE در مورد کاربردهای بینایی کامپیوتری، لیک پلاسید، نیویورک، ایالات متحده آمریکا، 7 تا 10 مارس 2016. صص 1-8. [ Google Scholar ]
  40. نصار، ع. لانگ، ن. لفور، اس. Wegner، JD یادگیری محدودیت‌های نرم هندسی برای تطبیق نمونه‌های چند نمای در سراسر پانورامای سطح خیابان. در مجموعه مقالات رویداد مشترک سنجش از دور شهری 2019 (JURSE)، وان، فرانسه، 22 تا 24 مه 2019؛ صص 1-4. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  41. کریژفسکی، آ. سوتسکور، آی. هینتون، GE Imagenet طبقه بندی با شبکه های عصبی کانولوشن عمیق. در پیشرفت در سیستم های پردازش اطلاعات عصبی ; MIT Press: Wayne, PA, USA, 2012; صص 1097–1105. [ Google Scholar ]
  42. او، ک. ژانگ، ایکس. رن، اس. Sun, J. یادگیری باقیمانده عمیق برای تشخیص تصویر. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، لاس وگاس، NV، ایالات متحده، 26 ژوئن تا 1 ژوئیه 2016. صص 770-778. [ Google Scholar ]
  43. لین، TY; گویال، پ. گیرشیک، آر. او، ک. Dollár, P. از دست دادن کانونی برای تشخیص اجسام متراکم. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، ونیز، ایتالیا، 22 تا 29 اکتبر 2017؛ صفحات 2980-2988. [ Google Scholar ]
  44. او، ک. گیوکسری، جی. دلار، پی. Girshick, R. Mask r-cnn. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، ونیز، ایتالیا، 22 تا 29 اکتبر 2017؛ صفحات 2961-2969. [ Google Scholar ]
  45. هادسل، آر. چوپرا، اس. LeCun، Y. کاهش ابعاد با یادگیری یک نقشه‌برداری ثابت. در مجموعه مقالات کنفرانس IEEE Computer Society در سال 2006 در مورد دید رایانه و تشخیص الگو (CVPR’06)، نیویورک، نیویورک، ایالات متحده آمریکا، 17 تا 22 ژوئن 2006. جلد 2، ص 1735–1742. [ Google Scholar ]
  46. هافر، ای. Ailon، N. یادگیری متریک عمیق با استفاده از شبکه سه گانه. در مجموعه مقالات کارگاه بین المللی تشخیص الگوی مبتنی بر شباهت، کپنهاگ، دانمارک، 12 تا 14 اکتبر 2015؛ صص 84-92. [ Google Scholar ]
  47. گلوروت، ایکس. Bengio، Y. درک دشواری آموزش شبکه های عصبی پیشخور عمیق. در مجموعه مقالات کنفرانس بین المللی هوش مصنوعی و آمار، ساردینیا، ایتالیا، 13-15 مه 2010; ص 249-256. [ Google Scholar ]
  48. Kingma، DP; Ba, J. Adam: روشی برای بهینه سازی تصادفی. arXiv 2014 ، arXiv:1412.6980. [ Google Scholar ]
  49. نوهولد، جی. اولمان، تی. روتا بولو، اس. Kontschieder، P. مجموعه داده چشم اندازهای نقشه برای درک معنایی صحنه های خیابان. در مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، ونیز، ایتالیا، 22 تا 29 اکتبر 2017؛ صفحات 4990-4999. [ Google Scholar ]
  50. نصار، ع. لفور، اس. Wegner, JD تشخیص نمونه چند نمایشی همزمان با محدودیت‌های نرم هندسی آموخته شده. در مجموعه مقالات کنفرانس بین المللی بینایی کامپیوتر (ICCV)، سئول، کره، 27 اکتبر تا 2 نوامبر 2019؛ صص 6559–6568. [ Google Scholar ]
  51. گویچیچ، ز. ژو، سی. Wegner، JD; Wieser, A. تطبیق کامل: تطبیق ابر نقطه سه بعدی با چگالی صاف. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو (CVPR)، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 15 تا 20 ژوئن 2019؛ صص 5545–5554. [ Google Scholar ]
  52. گویچیچ، ز. ژو، سی. Wegner، JD; Guibas، LJ; Birdal, T. آموزش ثبت نام ابر نقطه سه بعدی چند وجهی. arXiv 2020 ، arXiv:2001.05119. [ Google Scholar ]
شکل 1. C*، دوربین با موقعیت جغرافیایی. T، درخت مختصات جغرافیایی و موقعیت واقعی خود را در پانوراما دارد. ساعت∘زاویه سمت داخل پانوراما. د، فاصله بین دوربین ها.
شکل 2. مشکل تطبیق نمونه درخت (رنگ و حروف نشان دهنده تطابق هویت): هر درخت از چندین نمای مختلف عکس گرفته می شود و اندازه، چشم انداز و پس زمینه آن تغییر می کند. توجه داشته باشید که بسیاری از درختان شبیه هم هستند و در مجاورت یکدیگر هستند (تصویر © 2019 Google).
شکل 3. خط لوله کلی که مدل پیشنهادی ما را در بر می گیرد. ابتدا یک منطقه جغرافیایی منطقه انتخاب می شود. سپس، برای آن منطقه جغرافیایی، تصاویر و ابرداده مربوط به آن دانلود می شود. یک آشکارساز شی، اشیاء موجود در این تصویر را تشخیص می دهد. مدل پیشنهادی ما جفت‌های برش تصویر از شی را می‌گیرد و تصمیم می‌گیرد که آیا مطابقت دارند یا خیر. فهرستی از اشیا، با مجموعه ای از برش های تصویر از نماهای مختلف برای هر نمونه ایجاد می شود.
شکل 4. نموداری که معماری کلی شبکه را نشان می دهد. زیرشبکه ویژگی یک تصویر با سه کانال اضافی دریافت می کند ( {[سیلآتی*،سیلng*،ساعت∘]}) به عنوان ورودی (به عنوان سه لایه ماتریس اضافی به رنگ خاکستری نشان داده شده است). به طور کلی، زیرشبکه‌های ویژگی می‌توانند از هر معماری پیشرفته‌ای برخوردار باشند، اما آزمایش‌های اولیه نشان داد که ResNet به طور مداوم بهترین عملکرد را دارد. تعبیه‌های ویژگی تولید شده به شبکه‌های تصمیم‌گیری منتقل می‌شوند که طبقه‌بندی می‌کنند که آیا دو وصله تصویر مطابقت دارند یا نه.
شکل 5. چهار پانورامای متوالی از مجموعه داده پاسادنا (تصویر © 2019 Google).
شکل 6. فریم های متوالی دو صحنه نمونه از مجموعه داده Mapillary.
شکل 7. یک نمونه واحد از یک علامت راهنمایی و رانندگی از مجموعه داده Mapillary که از حسگرها، زوایا و تاریخ های مختلف به دست آمده است.
شکل 8. جفت منطبقات نامزد پاسادنا ( ردیف های بالا و پایین ) که به درستی با استفاده از روش ما ( ما ) در مقایسه با روش فقط مبتنی بر ظاهر ( w/o هندسه ) طبقه بندی شده اند. سه ستون اول موقعیت‌های دشوار را نشان می‌دهند که علی‌رغم تغییر قابل توجه در پرسپکتیو، روشنایی و پس‌زمینه، به‌طور صحیح به‌عنوان منطبق با ما حل شده‌اند. ستون‌های 4-6 (از سمت چپ) درخت‌های همسایه و مشابه را نشان می‌دهند که به‌درستی به‌عنوان ناهمخوان با درخت ما طبقه‌بندی شده‌اند . (تصویر © 2019 Google).
شکل 9. جفت منطبقات کاندید Mapillary ( ردیف های بالا و پایین ) که به درستی با استفاده از روش ما ( ما ) در مقایسه با روش فقط مبتنی بر ظاهر ( w/o هندسه ) طبقه بندی شده اند. سه ستون اول موقعیت‌های دشوار را نشان می‌دهند که علی‌رغم تغییر قابل توجه در پرسپکتیو، روشنایی و پس‌زمینه، به‌طور صحیح به‌عنوان منطبق با ما حل شده‌اند. ستون‌های 4-6 (از سمت چپ) نشان‌دهنده‌های مشابه و همسایه‌ای را نشان می‌دهد که به‌درستی با ما مطابقت ندارند .

بدون دیدگاه

دیدگاهتان را بنویسید