چکیده

برای توصیف کامل اطلاعات معنایی تصاویر، وظایف بازیابی تصویر به طور فزاینده ای از ویژگی های پیچیدگی عمیق آموزش داده شده توسط شبکه های عصبی استفاده می کنند. با این حال، برای تشکیل یک نمایش ویژگی فشرده، ویژگی های کانولوشن به دست آمده باید بیشتر در بازیابی تصویر جمع شوند. کیفیت تجمع بر عملکرد بازیابی تأثیر می گذارد. برای به دست آوردن توصیفگرهای تصویر بهتر برای بازیابی تصویر، ما دو ماژول را در روش خود پیشنهاد می کنیم. اولین ماژول، فعال سازی حداکثر منطقه ای تعمیم یافته کانولوشن ها (GR-MAC) نام دارد که توجه بیشتری به اطلاعات جهانی در مقیاس های چندگانه دارد. ماژول دوم وزن دهی مشترک برجسته نام دارد که از وزن دهی ناپارامتری برجستگی و وزن کانال استفاده می کند تا نقشه های ویژگی را بیشتر بر روی منطقه برجسته بدون حذف اطلاعات کلی متمرکز کند. سرانجام، ما این دو ماژول را با هم ترکیب می کنیم تا توصیفگرهای ویژگی تصویر نماینده بیشتری را بدست آوریم که نه تنها اطلاعات کلی نقشه ویژگی را در نظر می گیرند، بلکه منطقه برجسته را نیز برجسته می کنند. ما آزمایش‌هایی را بر روی چندین مجموعه داده بازیابی پرکاربرد مانند roxford5k انجام دادیم تا کارایی روش خود را تأیید کنیم. نتایج تجربی ثابت می کند که روش ما دقیق تر از روش های پیشرفته است.

کلید واژه ها:

بازیابی تصویر ; وزن برجسته ; تجمع ویژگی های کانولوشنال

1. مقدمه

بازیابی تصویر مبتنی بر محتوا (CBIR) [ 1 ، 2 ، 3 ، 4 ]، با ظهور شبکه‌های عصبی کانولوشن، در سال‌های اخیر به طور چشمگیری پرس‌و‌جوها را در بازیابی تصویر شکل داده است. حجم پایگاه داده های تصویری نیز با توسعه سریع فناوری رایانه و اینترنت در حال افزایش است. توسعه روش های سریع و دقیق برای به دست آوردن تصاویر مورد نیاز از پایگاه داده های تصویری در مقیاس بزرگ در تحقیقات رایج شده است. استخراج ویژگی های تصویر هدف اصلی این روش هاست. سپس شباهت این ویژگی ها اندازه گیری شده و در نهایت نتایج بازیابی به دست می آید. اساساً به عنوان مکمل استفاده می شوند [ 5 ، 67 ،7، 8 ] برای بهبود دقت بازیابی.
فرآیند تحقیق بازیابی تصویر مبتنی بر محتوا عمدتاً به دو جنبه تقسیم می‌شود: ویژگی‌های دستی و ویژگی‌های عمیق. بازیابی اولیه تصویر عمدتاً بر اساس چند ویژگی جهانی دستی است، مانند رنگ و بافت [ 9 ، 10 ، 11 ]، اما از آنجایی که این ویژگی های جهانی دستی به راحتی تحت تأثیر انسداد، جابجایی و شرایط نور قرار می گیرند، عملکرد بازیابی به میزان قابل توجهی است. کاهش. برای حل مشکلات مؤثر بر ویژگی‌های جهانی دستی، محققان ویژگی‌های محلی دستی را پیشنهاد کرده‌اند که به راحتی تحت تأثیر تغییرات مقیاس و روشنایی قرار نمی‌گیرند [ 12 ، 13 ]. معرف ترین روش تبدیل ویژگی متغیر مقیاس (SIFT) است [ 12]، که نسبت به اعوجاج تصویر، تغییرات روشنایی، تغییر دیدگاه و مقیاس مقیاس ثابت است. با توجه به پیچیدگی و زمان‌بر بودن محاسبات SIFT [ 12 ]، ویژگی‌های قوی سریع (SURF) [ 14 ] بر اساس SIFT [ 12 ] پیشنهاد شد. کلمات بصری کیسه ای (BoW) [ 15 ] برای تجمیع این ویژگی های محلی در یک نمایش تصویر جهانی پیشنهاد شد. BoW [ 15 ] از پردازش متن الهام گرفته شده است و ویژگی های محلی تصویر را به عنوان کلمات بصری در نظر می گیرد به طوری که فرکانس ویژگی های محلی در تصویر می تواند برای تشکیل یک بردار تک بعدی برای توصیف تصویر استفاده شود. علاوه بر BoW [ 15]، فناوری‌های تجمیع بعدی مانند بردار توصیفگرهای تجمیع‌شده محلی (VLAD) [ 16 ]، هسته‌های فیشر در واژگان بصری (FV) [ 17 ، 18 ]، و جاسازی مثلث [ 19 ] به نتایج بهتری دست یافته‌اند.
در چند دهه گذشته، ویژگی های دستی به طور گسترده ای در بازیابی تصویر پذیرفته شده است، اما کاستی های ویژگی های دستی را نمی توان نادیده گرفت: آنها باید توسط محققان در زمینه حرفه ای طراحی شوند، و تعمیم آنها به سناریوهای کاربردی مختلف دشوار است. از سال 2012، بازیابی تصویر به طور کامل وارد دوره ای مبتنی بر ویژگی های عمیق شده است [ 20 ، 21 ، 22]، که به طور گسترده برای ویژگی های کانولوشن سه بعدی به دست آمده توسط شبکه های عصبی کانولوشن عمیق در کارهای بازیابی تصویر استفاده می شود. هنگام اعمال ویژگی‌های به‌دست‌آمده از لایه کانولوشن برای بازیابی تصویر، یک مشکل پیش می‌آید: چگونه می‌توان ویژگی‌های کانولوشن سه‌بعدی را در ویژگی‌های پیچشی یک‌بعدی برای اندازه‌گیری شباهت جمع کرد. ساده‌ترین کانولوشن جمع‌آوری‌شده (SPoC) [ 23 ] و حداکثر فعال‌سازی کانولوشن‌ها (MAC) [ 24 ] با به دست آوردن حداکثر مقدار و با جمع‌کردن مقدار هر نقشه ویژگی به یک بردار ویژگی یک‌بعدی فشرده می‌شوند، اما این باعث می‌شود مقدار زیادی از اطلاعات ارزش ویژگی از بین می رود، بنابراین حداکثر فعال سازی منطقه ای کانولوشن ها (R-MAC) [ 25] برای حل این مشکل پیشنهاد شد. با استفاده از روش چند مقیاسی، حداکثر مقدار در هر منطقه برای استخراج اطلاعات هر نقشه مشخصه استفاده می شود، اما اطلاعات موجود در تمام نقاط ویژگی در هر منطقه در نظر گرفته نمی شود. وزن دهی متقاطع (کلاغ) [ 26] با روش های قبلی با استفاده از ایده مکانیسم توجه برای انجام وزن دهی فضایی و وزن دهی کانال متفاوت است. سپس نقشه ویژگی سه بعدی که با وزن دهی به دست می آید، به سادگی فشرده می شود تا یک بردار ویژگی یک بعدی تشکیل شود. از طریق ماتریس وزن فضایی و ماتریس وزن کانال، ویژگی های وزنی می توانند بیشتر بر روی منطقه هدف تصویر متمرکز شوند. متأسفانه، این وزن دهی نمی تواند مناطق برجسته ای را که برای بازیابی تصویر مساعدتر هستند، مانند لبه های ساختمان، جزئیات معماری و غیره افزایش دهد.
با توجه به ملاحظات فوق، ما یک روش جدید تجمع ویژگی کانولوشن عمیق را معرفی می‌کنیم. اول، ما یک روش ادغام عمومی R-MAC را پیشنهاد می‌کنیم که می‌تواند اطلاعات کلی نقشه ویژگی را بهتر نشان دهد. دوم، ما روشی را ایجاد می‌کنیم که از نقشه‌های ویژگی با وزن برجستگی فضایی برای تشخیص دقیق‌تر منطقه هدف از منطقه پس‌زمینه استفاده می‌کند. سپس، نقشه‌های ویژگی به‌دست‌آمده از دو روش را ترکیب می‌کنیم تا توصیفگر نهایی را تشکیل دهیم. آثار اصلی این مقاله را می توان به شرح زیر خلاصه کرد:
  • ما یک روش ادغام ویژگی جدید به نام R-MAC تعمیم یافته معرفی می کنیم که می تواند اطلاعات موجود در تمام نقاط ویژگی در هر ناحیه از R-MAC [ 25 ] را به جای در نظر گرفتن حداکثر مقدار نقاط مشخصه در هر منطقه، جمع آوری کند.
  • ما رویکردی را برای تجمیع ویژگی‌های کانولوشنی ارائه می‌کنیم، از جمله وزن‌دهی برجستگی ناپارامتری و مراحل ادغام. بدون از دست دادن اطلاعات کل ساختمان (منطقه هدف) توجه بیشتری را بر روی ویژگی های کانولوشنال منطقه برجسته متمرکز می کند.
  • ما آزمایش‌های جامعی را روی چندین مجموعه داده محبوب انجام دادیم، و نتایج نشان می‌دهد که روش ما نتایج پیشرفته‌ای را بدون هیچ گونه تنظیم دقیق ارائه می‌دهد.

2. کارهای مرتبط

2.1. روش های تجمیع

از آنجایی که شبکه‌های عصبی کانولوشن به طور گسترده در زمینه بازیابی تصویر مورد استفاده قرار گرفته‌اند، کانون‌های تحقیقاتی به‌تدریج به جای لایه کانولوشنی شبکه‌های عصبی کانولوشنال (CNN) روی لایه کاملاً متصل متمرکز شده‌اند. ویژگی های تولید شده توسط لایه کانولوشن در تبدیل تصویر قوی تر است، می تواند اطلاعات مکانی را با دقت بیشتری بیان کند. بنابراین، به دست آوردن یک توصیفگر تصویر نماینده تر، یک گام کلیدی برای بهبود دقت بازیابی تصویر می شود.
در روزهای اولیه، بسیاری از روش های رمزگذاری کلاسیک برای ویژگی های دست ساز برای تولید توصیفگرهای تصویر استفاده می شد. SIFT [ 12 ] یک تبدیل ویژگی ثابت در مقیاس است که می تواند نقاط کلیدی را در تصویر تشخیص دهد. BoW [ 15 ] از ویژگی های تصویر محلی خوشه ای به عنوان کلمات بصری استفاده می کند و فراوانی آنها را برای ساخت توصیفگرهای تصویر می شمارد. VLAD، پیشنهاد شده توسط Jegou و همکاران. [ 16 ]، عمدتاً یک کتاب کد کوچک را از طریق روش خوشه‌بندی آموزش می‌دهد و آن را با توجه به فاصله بین ویژگی و مرکز خوشه کدگذاری می‌کند. هائو و همکاران یک چند مقیاس کاملاً کانولوشنال (MFC) [ 27 ] پیشنهاد کرد که از سه مقیاس مختلف برای استخراج ویژگی‌ها و ترکیب آنها برای تولید توصیفگر نهایی استفاده می‌کند.
در سال‌های اخیر، ویژگی‌های کانولوشن سه‌بعدی در توصیف‌کننده‌های ویژگی فشرده‌تر ترکیب شده‌اند. بابنکو و همکاران SPoC [ 23 ] را برای محاسبه میانگین مقدار هر نقشه ویژگی برای به دست آوردن یک توصیفگر ویژگی فشرده پیشنهاد کرد. محاسبه این مقدار میانگین اهمیت هر یک از مقدار ویژگی را در نظر نمی گیرد. نقطه ای با مقدار ویژگی بزرگتر به احتمال زیاد منطقه هدف است. رضویان و همکاران MAC [ 28 ] را برای محاسبه حداکثر مقدار هر نقشه ویژگی برای به دست آوردن توصیفگرهای فشرده پیشنهاد کرد. با در نظر گرفتن حداکثر مقدار هر نقشه ویژگی، اگرچه فیلتر کردن ویژگی ساده است، اما اطلاعات بیش از حد موجود در نقشه ویژگی را از دست می دهد. R-MAC [ 25] نمونه‌برداری پنجره کشویی را روی ویژگی‌های کانولوشن عمیق انجام می‌دهد و حداکثر مقدار هر پنجره را در توصیفگرهای ویژگی تصویر جمع‌آوری می‌کند. در مقایسه با MAC، اگرچه R-MAC اطلاعات بیشتری را از هر نقشه ویژگی به روشی چند مقیاسی دریافت می کند، هنوز مشکلاتی با MAC هنگام انتخاب حداکثر مقدار برای هر منطقه به دست آمده وجود دارد. کرا [ 26 ]، پیشنهاد شده توسط جیمنز و همکاران، ایده مکانیسم توجه را ذکر می کند و وزن دهی فضایی و وزن دهی کانال را بر روی نقشه ویژگی کانولوشن انجام می دهد تا ناحیه هدف روش تجمع تصویر را برجسته کند. روش تجمع مبتنی بر معنایی (SBA) توسط Xu و همکاران ارائه شد. [ 29]. این روش‌های تجمیع تا حدی دقت بازیابی را بهبود می‌بخشند، اما به طور موثر از اطلاعات کلی نقشه ویژگی استفاده نمی‌کنند و تمرکز بر روی منطقه برجسته نقشه ویژگی را نادیده می‌گیرند. بر این اساس، ما ویژگی‌های کانولوشن عمیق با وزن برجسته جهانی را پیشنهاد می‌کنیم، که باعث می‌شود توصیف‌گرهای ویژگی بیشتر نماینده اطلاعات تصویر باشند و به نتایج بازیابی دقیق‌تری دست می‌یابند. ما یک آزمایش مقایسه جامع انجام دادیم تا ثابت کنیم الگوریتمی که ساخته‌ایم از الگوریتم‌های پیشرفته موجود فراتر است.

2.2. عادی سازی و سفید کردن

عادی سازی یک مرحله بسیار مهم در بازیابی تصویر است [ 30 ]. نرمال سازی می تواند داده ها را برای مقایسه به یک محدوده یکنواخت تبدیل کند. نرمال سازی L2 [ 30 ] داده ها را به محدوده ای بین 0 و 1 تبدیل می کند. محدوده مقدار خروجی ویژگی توسط شبکه عصبی کانولوشن معمولاً بسیار بزرگ است. بر این اساس، نرمال سازی L2 می تواند برای متعادل کردن تأثیر اندازه و ارزش استفاده شود. محاسبه اختصاصی به شرح زیر است:

ایکسل2=ایکس”ایکس”،

جایی که ایکسبردار بتنی است و “مقدار 2-نرمی این بردار است.

نرمال سازی توان [ 30 ] بردار را با توجه به توان توان کاهش می دهد. فرمول محاسبه خاص به شرح زیر است:

ایکسپowهr=سgn(ایکس)×ایکسξ،

جایی که ξیک فراپارامتر قابل تنظیم است که از 0 تا 1 متغیر است. ایکسیک بردار بتنی است. برای جلوگیری از تبدیل علامت مقدار پس از نرمال سازی توان، استفاده می کنیم سgn(ایکس)، تابع علامت نامیده می شود که به صورت تعریف شده است سgn(ایکس)= 1 برای ایکس>0و سgn(ایکس)= -1 برای ایکس≤0.

سفید کردن اغلب به عنوان یک عملیات پس از پردازش در بازیابی تصویر برای سفید کردن و کاهش ابعاد بر اساس کار Jegou و Chum [ 8 ] پذیرفته شده است. هنگام کاهش ابعاد، از سفید کردن برای جلوگیری از اثر متقابل بین اجزای داده خام و کاهش نویز استفاده می کنیم [ 7 ، 31 ، 32 ]. در اینجا، ما از سفید کردن به عنوان یک مرحله پس از پردازش برای بهبود عملکرد بازیابی خود استفاده می کنیم. ماهیت سفید کردن پیشنهاد شده توسط Mikolajczyk و Matas [ 32 ]، پیش بینی های متمایز خطی است که به دو بخش تقسیم می شود.

در قسمت اول ماتریس کوواریانس را بدست می آوریم سیاساز تصاویر درون کلاسی با استفاده از رابطه (3) و ماتریس کوواریانس سیDاز تصاویر بین کلاسی (جفت تصویر غیر همسان) با استفاده از معادله (4)، که در آن

سیاس=∑لآبهلمن=لآبهلj(ایکسمن-ایکسj)(ایکسمن-ایکسj)تی،
سیD=∑لآبهلمن≠لآبهلj(ایکسمن-ایکسj)(ایکسمن-ایکسj)تی،

جایی که منو jدو تصویر مجزا در مجموعه داده را نشان می دهد، ایکسمنو ایکسjتوصیفگرهای ویژگی را پس از ادغام تصویر نشان دهید، و لآبهلمن=لآبهلj( لآبهلمن≠لآبهلj) یعنی تصاویر منو jبا یک کلاس (متفاوت) مرتبط هستند.

در قسمت دوم پروجکشن را بدست می آوریم پدر فضای سفید شده (بردار ویژه ماتریس کوواریانس سیاس-12سیDسیاس-12) و آن را در توصیفگرهای تصاویر اعمال کنید:

پ=سیاس-12همنg(سیاس-12سیDسیاس-12)،
ایکسمنwساعتمنتیهn=پتی(ایکسمن-μ)،

جایی که همنg(.)بردار ویژه ماتریس خاص است، μمیانگین بردار ادغام (بردار میانگین توصیفگرهای همه تصاویر در مجموعه داده های آزمایشی پس از ادغام) برای انجام مرکز، و ایکسمنwساعتمنتیهnنتیجه سفید شده است ایکسمن. شایان ذکر است که معادله (5) تنها بردارهای ویژه را بیشتر از یک آستانه خاص برای کاهش ویژگی نمی گیرد.

2.3. روش اندازه گیری شباهت

پس از به دست آوردن توصیفگرهای ویژگی تصویر، باید شباهت بین توصیفگرهای ویژگی تصویر پرس و جو و توصیفگرهای ویژگی همه تصاویر مجموعه آزمایشی را اندازه گیری کنیم. یک روش متداول برای محاسبه شباهت دو بردار مبتنی بر معکوس فاصله اقلیدسی آنها است. فرمول به شرح زیر است:

اسمنمترمنلآrمنتیy(آ،ب)=1/(1+L(آ،ب))،
L(آ،ب)=∑من=1n(آمن-بمن)2،

جایی که آ∈آرnو ب∈آرnدو بردار نمونه هستند و  آمنو بمنهستند منمولفه های بردار آو ب، به ترتیب. با نشان می دهیم  L(آ،ب)فاصله اقلیدسی بین آو ب.

از تشابه کسینوس برای اندازه گیری تشابه نیز استفاده می شود که از زاویه بین دو بردار بتن برای محاسبه مقدار کسینوس برای نشان دادن شباهت دو بردار استفاده می کند. هر چه مقدار کسینوس به 1 نزدیکتر باشد، این دو بردار به هم شباهت بیشتری دارند. هر چه مقدار کسینوس به 1- نزدیکتر باشد، این دو بردار ناهمگون تر هستند. فرمول محاسبه خاص به شرح زیر است:

اس(آ،ب)=آب”آ””ب”،

جایی که اس(آ،ب)شباهت کسینوس بین است آو ب.

2.4. گسترش پرس و جو

بسط پرس و جو (QE) برای اولین بار در بازیابی متن برای بهبود اثربخشی با استخراج کلمات کلیدی جدید از نتایج رتبه بندی شده برتر بازیابی شده توسط یک پرس و جو اصلی [ 5 ، 6 ، 7 ] برای ایجاد یک پرس و جو گسترده جدید استفاده شد.
با الهام از این ایده، جایی که در وظایف بازیابی تصویر، بسط پرس و جو با یک تصویر پرس و جو شروع می شود، ما n تصویر رتبه بندی شده برتر، از جمله خود تصویر پرس و جو را بازیابی کردیم. سپس، میانگین این ویژگی‌های تصویر را محاسبه کردیم و یک پرسش جدید ایجاد کردیم که برای رتبه‌بندی مجدد تصاویر [ 33 ] ارزیابی می‌شود. گسترش Query دامنه بازیابی تصویر را گسترش می دهد و یکی از عملیات پس پردازش در بازیابی تصویر است. رادنوویچ و همکاران [ 7 ] بسط پرس و جو با وزن α (αQE) را پیشنهاد کرد.

3. روش پیشنهادی

3.1. پس زمینه الگوریتم

الگوریتم ما توصیفگرهای ویژگی های کانولوشن را در دو ماژول محاسبه می کند: R-MAC تعمیم یافته (GR-MAC) و وزن دهی مشترک برجسته (SJW). آنها به ترتیب در بخش 3.2 و بخش 3.3 به تفصیل معرفی شده اند.

ما توصیفگر ویژگی نهایی را با ادغام توصیفگرهای ویژگی به دست آمده توسط دو ماژول به دست می آوریم.

جیسw=αجیr+βاسjw، α+β=1،

جایی که جیrاز بخش 3.2 آمده است، اسjwاز بخش 3.3 می آید و αو βفاکتورهای همجوشی با مقادیری از 0 تا 1 هستند.

GR-MAC به ناچار نفوذ منطقه برجسته را تضعیف می کند در حالی که اطلاعات جهانی بیشتری به دست می آورد. بنابراین، پس از ادغام ماژول SJW، معادل اختصاص وزن بیشتر به ویژگی های مناطق برجسته تر در حین به دست آوردن اطلاعات جهانی است. چنین ترکیبی ماژول GR-MAC مجموعه داده را با مناطق برجسته تر ارتقا می دهد. برای مجموعه داده‌های پیچیده‌تر با مناطق برجسته‌تر، اثر بهبود بهتری وجود دارد.
الگوریتم پنج متغیر را به عنوان ورودی ارائه می دهد: ایکسنقشه ویژگی سه بعدی است که توسط آخرین لایه کانولوشن بدست می آید، nتعداد کانال های انتخاب شده است، ρعامل مقیاس است و αو  βفاکتورهای همجوشی هستند. در این الگوریتم، برای یک نقشه ویژگی سه بعدی ورودی، دو توصیفگر ویژگی های یک بعدی مختلف را از طریق بخش 3.2 و بخش 3.3 به طور جداگانه به دست می آوریم و سپس آنها را به طور جداگانه نرمال می کنیم. در پایان، فیوژن با توجه به مقادیر انجام می شود αو β. پس از نرمال سازی و سفید شدن، توصیفگر ویژگی نهایی به دست می آید. فرآیند بازیابی خاص در شکل 1 نشان داده شده است .
همانطور که در شکل 1 نشان داده شده است ، ما به طور خلاصه فرآیند بازیابی خاص را پس از استفاده از الگوریتم وزن دهی برجسته جهانی توصیف می کنیم. ما ابتدا از شبکه از پیش آموزش دیده برای استخراج نقشه های ویژگی از تصاویر موجود در مجموعه داده ها استفاده کردیم. پس از آن، ما از R-MAC تعمیم یافته و ویژگی کانولوشن عمیق با وزن مشترک استفاده کردیم که به تفصیل در بخش 3.2 و توضیح داده شده است. بخش 3.3 توضیح داده شده است.برای به دست آوردن توصیفگرهای یک بعدی برای نقشه های ویژگی، به طور جداگانه. GR-MAC حداکثر مقدار هر منطقه را در نظر می گیرد در حالی که اطلاعات موجود در سایر مقادیر پاسخ را در نظر می گیرد و نقشه های ویژگی سه بعدی به دست آمده توسط شبکه پیش آموزش را در توصیفگرهای یک بعدی با اطلاعات جهانی بیشتر جمع می کند. SJW یک الگوریتم برجسته را برای وزن دادن به ناحیه برجسته معرفی می کند تا منطقه برجسته ای را به دست آورد که برای بازیابی تصویر مساعدتر است، مانند توصیفگر ویژگی لبه یک ساختمان. سپس پس از توصیفگرهای یک بعدی فوق الذکر، مقدار را بدست می آوریم L2فرآیند عادی سازی را به طور جداگانه، ما آنها را به صورت خطی ادغام کردیم (مانند معادله (10)). در نهایت، توصیفگرهای ویژگی ذوب شده برای به دست آوردن توصیفگرهای ویژگی سفید شدند جیسwبرای بازیابی تصویر برای به دست آوردن بالاترین نتیجه بازیابی K، بازگرداندن تصاویری که بیشتر شبیه به تصویر پرس و جو هستند.

3.2. R-MAC تعمیم یافته

انگیزه: در بخش 2 ، به طور خلاصه الگوریتم اصلی R-MAC [ 25 ] را معرفی کردیم. ابتدا، الگوریتم R-MAC [ 25 ] هر نقشه ویژگی را بر اساس مقیاس به چندین ناحیه تقسیم می کند، همانطور که در شکل 2 نشان داده شده است. سپس، حداکثر مقدار را برای هر منطقه برای جمع‌آوری و به دست آوردن توصیفگر ویژگی نهایی تصویر می‌گیرد.
همانطور که در شکل 2 نشان داده شده است ، استفاده می کنیم Lبرای توصیف اندازه ترازو در R-MAC [ 25 ]، L=1،2،3.برای استخراج از پنجره کشویی استفاده می شود آرمناطق مشخصه مربع در مقیاس های مختلف. چه زمانی L=1، طول ضلع ناحیه مربع استخراج شده حداقل مقدار ارتفاع است اچو عرض دبلیو، برای مثال مترمنn(اچ،دبلیو). با فرض اینکه تعداد مناطق استخراج شده باشد مترچه زمانی L=1، طول ضلع منطقه است 2مترمنn(اچ،دبلیو)/(L+1)و هر مقیاس استخراج خواهد شد L∗(L+متر-1)مناطق

جزئیات عملیات خاص به شرح زیر است: با در نظر گرفتن نقشه ویژگی یک کانال به عنوان مثال، نقشه ویژگی به تقسیم می شود آرمناطق و منطقه نتیجه به شرح زیر است:

ایکسکr-مترآج=[ایکسک1(r-مترآج)،ایکسک2(r-مترآج)…،ایکسکآر(r-مترآج)]تی،

جایی که ایکسکrr-مترآجمنطقه r از است کنقشه ویژگی.

مناطق R هر کانال با فرمول بالا به دست می آیند. حداکثر مقدار در الگوریتم R-MAC [ 25 ] برای تجمیع ویژگی ها حفظ می شود. با این حال، استفاده از max pooling در هر ناحیه مقیاس R-MAC [ 25 ] اطلاعات موجود در سایر مقادیر ویژگی در منطقه را از دست می دهد. یک مثال آموزشی برای نشان دادن این پدیده در شکل 3 ارائه شده است.
همانطور که در شکل 3 نشان داده شده است ، فرض می کنیم که مربع سیاه یک نقشه ویژگی کانال بعد از لایه پیچشی است. بدیهی است که مربع های آبی و سبز دو ناحیه متفاوت هستند که توسط R-MAC [ 25 ] به دست آمده اند. از آنجایی که R-MAC [ 25 ] حداکثر مقدار را برای هر منطقه می گیرد، مقادیر مشخصه به دست آمده در ناحیه آبی و ناحیه سبز هر دو 0.37 هستند، اما واضح است که توزیع مقادیر ویژگی های دو منطقه یکسان نیست. . R-MAC [ 25 ] فقط اطلاعات را در حداکثر پاسخ 0.37 در منطقه به دست می آورد. بنابراین، R-MAC [ 25] مقدار اطلاعات موجود در سایر مقادیر ویژگی در منطقه را نادیده می گیرد. مقادیر ویژگی به دست آمده توسط این بخش از پیچیدگی نیز بخشی از نمایش تصویر است.
روش: برای حل این مشکل، ایده یک R-MAC تعمیم یافته را پیشنهاد می کنیم.
همانطور که در شکل 4 نشان داده شده است ، ما از  لپهنجار در هر ناحیه مقیاس R-MAC [ 25 ] برای ادغام حداکثر ادغام و ادغام متوسط. به این ترتیب، نه تنها می‌توانیم حداکثر مقدار معرف ترین ویژگی را که توسط کانولوشن به دست می‌آید، بلکه از طریق ادغام میانگین لپهمجوشی هنجار، ما می توانیم اطلاعات کلی موجود در منطقه را به دست آوریم. R-MAC تعمیم یافته پیشنهادی ما می تواند اطلاعات معنایی غنی تری به دست آورد. در اینجا، ما یک طرح موثر برای محاسبه R-MAC تعمیم یافته طراحی کردیم.
برای تقسیم منطقه خاص هر نقشه ویژگی، از ایده R-MAC [ 25 ] پیروی می کنیم، همانطور که در معادله (11) نشان داده شده است.

R-MAC [ 25 ] حداکثر مقدار را در هر منطقه تقطیر می کند، اما این اطلاعات ویژگی کلی منطقه را از دست می دهد. از این رو، همانطور که در رابطه (12) نشان داده شده است، از استراتژی دیگری برای محاسبه مقادیر ویژگی منطقه ای استفاده می کنیم. روش خاص شامل استفاده از لپهنجار به فیوز حداکثر ادغام و ادغام مجموع برای به دست آوردن ویژگی های منطقه ای نماینده تر. فرمول محاسبه خاص به شرح زیر است:

fکr=(1ایکسمنj∑ایکس∈ایکسکr-مترآجایکسپ)1/پ r∈(1،2،…،آر)،

جایی که fکrمقدار محاسبه شده توسط است لپهنجار از rمنطقه ام از کنقشه ویژگی هفتم، کجا پ=3.

در مقایسه با R-MAC که بزرگترین مقدار ویژگی در هر منطقه را به عنوان نماینده منطقه انتخاب می کند، مقدار ویژگی محاسبه شده توسط رابطه (12) به عنوان نماینده هر منطقه استفاده می شود. در معادله (12)، وقتی پ=∞،ارزش  fکrمقدار حداکثر ادغام و زمان است  پ=1، ارزش fکrمقدار میانگین (متوسط) ادغام است. یعنی نسبت حداکثر ادغام و ادغام میانگین را می توان با تنظیم ضریب p تعیین کرد . بر این اساس، مقادیر نماینده نهایی به‌دست‌آمده از هر منطقه نه تنها دارای ویژگی‌های max-pooling منطقه هدف به دلیل بزرگ‌تر بودن مقدار پاسخ هستند، بلکه دارای ویژگی‌های میانگین جمع‌آوری هستند که اطلاعات موجود در تمام مقادیر ویژگی را از دست نمی‌دهد. در منطقه به این ترتیب، هر ناحیه در مقیاس می تواند بیان بهتری از مقدار ویژگی را به دست آورد و در نهایت، توصیفگر ویژگی تصویری نماینده تر به دست می آید.

با توجه به مقادیر چندگانه ویژگی منطقه ای به دست آمده توسط هر کانال، مقادیر ویژگی منطقه ای کانال برای تولید توصیفگر بردار ویژگی نهایی جمع می شود. جیr، به شرح زیر است:

جیr=[g1،g2…،gک]تی،gک=∑f∈fکrf،

جایی که gکمجموع مقادیر به دست آمده توسط همه مناطق است fکاز ککانال ام و جیrتوصیفگر نابالغ تصویر با استفاده از R-MAC تعمیم یافته است.

توصیفگر تعمیم یافته R-MAC، اطلاعات کلی و حداکثر پاسخ را در هر منطقه در نظر می گیرد. این می تواند اطلاعات جهانی ویژگی های کانولوشن را با دقت بیشتری توصیف کند.

3.3. روش وزن گیری مفاصل برجسته

انگیزه: در بخش 2 ، به طور خلاصه الگوریتم وزن دهی متقاطع بعدی (کلاغ) [ 26 ] را معرفی کردیم. الگوریتم Crow [ 26 ] وزن دهی فضایی و وزن کانال را بر روی نقشه ویژگی کانولوشن انجام می دهد. ما متوجه شدیم که ماتریس فضایی Crow [ 26] فقط نقشه های ویژگی همه کانال ها را جمع می کند و سپس آن را به عنوان یک ماتریس وزن فضایی نرمال می کند. این یک عملیات ساده برای شمارش تعداد مقادیر غیر صفر در هر کانال و اختصاص وزن بیشتر به کانال، با مقادیر صفر بیشتر مربوط به ویژگی است. ما فکر می کنیم که این ماتریس وزن دهی فضایی ساده و ماتریس وزن کانال هنوز هم جای بهینه سازی دارد. ما قصد داشتیم از الگوریتم برجسته‌سازی برای شناسایی ناحیه برجسته ویژگی‌های کانولوشن و اعمال وزن‌دهی بیشتر به ناحیه برجسته برای طراحی یک ماتریس وزن‌دهی استفاده کنیم که برای تشخیص منطقه هدف از ناحیه نویز پس‌زمینه مفیدتر است. حفظ کلاغ [ 26الگوریتم ] برای توجه بیشتر به ویژگی‌های منطقه هدف تصویر، مناطق برجسته‌ای را که برای بازیابی تصویر مساعدتر هستند، مانند لبه‌های ساختمان‌ها، تقویت می‌کند.
روش: ابتدا از شکل 5 برای معرفی جریان کلی روش خود استفاده می کنیم.
همانطور که در شکل 5 نشان داده شده است ، ما به طور خلاصه مراحل کلیدی چگونگی به دست آوردن برجستگی نهایی را با وزن مشترک شرح می دهیم.
(SJW) توصیف کننده از معادلات بالا. برای یک تصویر اصلی، نقشه ویژگی را از طریق یک شبکه عصبی از پیش آموزش دیده به دست می آوریم. مربع های سبز در تصویر نشان دهنده نقشه ویژگی هر کانال است که توسط هسته های کانولوشن مختلف به دست آمده است. سپس، از طریق مرحله انتخاب واریانس کانال، ویژگی‌ها مربوط به اولین نقشه می‌شوند nکانال هایی با بیشترین مقادیر واریانس انتخاب می شوند و سپس، ماتریس وزن فضایی انتخاب می شوند اسآلاز رابطه (18) به دست می آید. ماتریس وزن دهی فضایی نرمال شده ماز رابطه (19) به دست می آید. برای اینکه ناحیه برجسته مورد نیاز خود را برجسته کنیم، ابتدا یک عملیات برجسته سازی روی ماتریس انجام دادیم ماز دیدگاه فضایی برای به دست آوردن ماتریس وزن برجستگی اسwاز رابطه (20) و معادله (21) به دست آمده است. سپس ماتریس را ذوب کردیم ماز طریق رابطه (22) برای به دست آوردن ماتریس وزن مکانی نهایی اس. سپس از طریق رابطه (23)، نقشه های ویژگی وزنی مشترک برجسته (SJW) با استفاده از نقشه های ویژگی به دست آمد. ایکسو ماتریس وزن فضایی اسو سپس توصیفگر اولیه با ادغام به دست آمد. مجموعه‌ای از مکعب‌های آبی با سایه‌های مختلف، نقشه‌های ویژگی با وزن مشترک (SJW) را نشان می‌دهند. برای اینکه توصیفگر نهایی نماینده‌تر باشد، آن را از منظر کانال سنجیدیم. در نهایت، توصیفگرهای خام به‌دست آمده از مجموع ادغام نقشه‌های ویژگی با وزن مشترک (SJW) و ماتریس وزن کانال سیبه‌دست‌آمده با معادله (17) به‌عنوان یک محصول از نظر عنصر برای به‌دست آوردن یک توصیفگر یک‌بعدی با وزن مشترک (SJW) استفاده شد. در میان آنها، اجازه دهید اچو  دبلیواندازه ها را در ماتریس ها نشان می دهد اسآل، م، اسw، و اسبرای اینکه فلوچارت بصری تر شود، جایی که شخصیت ها ω، Ψ، δ،و  Φعناصر موجود در ماتریس ها را نشان می دهد  اسآل، م، اسw،و اس،به ترتیب؛ φعنصری در ماتریس وزن کانال است سی.
اول، برای یک تصویر خاص من، ما از شبکه از پیش آموزش دیده بدون لایه های کاملاً متصل برای به دست آوردن تانسور فعال سه بعدی استفاده کردیم. اچ×دبلیو×ک ابعاد، کجا کتعداد نقشه های ویژگی خروجی از آخرین لایه کانولوشن را نشان می دهد.

سپس، مشابه کرو [ 26 ]، عملیات وزن دهی فضایی و وزن دهی کانال را نیز بر روی ویژگی های کانولوشن به دست آمده انجام دادیم. برای ماتریس وزن کانال ما، بر خلاف کرو [ 26 ]، که فقط تعداد کمیت های غیر صفر را برای هر کانال در نظر می گیرد، واریانس هر کانال را نیز به عنوان بخشی از ملاحظاتی در نظر گرفتیم که بر مقدار ماتریس وزن کانال تأثیر می گذارد. همانند کرو [ 26 ]، برای هر بعد از نقشه ویژگی، نسبت مقدار مجموع آن مربوط به تعداد مقادیر صفر در هر نقشه مشخصه محاسبه شد و عبارت بدست آمده به صورت زیر است:

ج1ک=دبلیو×اچ∑من=0دبلیو∑j=0اچ1[ایکسمنjک=0]،

جایی که ج1کنسبت کل مکان فضایی در است کنگاشت ویژگی به مقدار صفر. ما می توانیم مقدار اطلاعات موجود در یک نقشه ویژگی را با شمارش تعداد مقادیر غیر صفر قضاوت کنیم، که برای بهبود ویژگی هایی استفاده می شود که اغلب دیده نمی شوند اما معنی دار هستند.

بر اساس ج1ک، ما پیشنهاد اضافه کردن یک عبارت واریانس برای بهینه سازی ماتریس وزن کانال را پیشنهاد کردیم، همانطور که در رابطه (15) نشان داده شده است. برای اینکه نقشه ویژگی هر کانال انحراف معیار خود را پیدا کند، عبارت به دست آمده به صورت زیر است:

ج2ک=(∑من=0دبلیو∑j=0اچ(ایکسمنjک-ایکس¯منjک)2دبلیو×اچ)1/2،

جایی که ایکس¯منjکمیانگین است ایکسمنjکو  ج2کواریانس است ککانال ام

سپس نسبت های آن را محاسبه کردیم ج1کو ج2ک. پس از آن، آنها را جمع کردیم و عبارت حاصل به صورت زیر است:

جک=ج1ک×ج2ک،

هنگام جمع‌آوری ویژگی‌های کانولوشن عمیق، از آنجایی که متعاقباً کانال هدف و منطقه هدف را بر اساس واریانس و مقدار پاسخ به شدت تقویت کردیم، ممکن است کانال با اطلاعات کمتر نادیده گرفته شود. با این حال، چنین کانال هایی ممکن است حاوی اطلاعات بسیار مهمی نیز باشند و کانال هایی با واریانس کوچک نیز می توانند نویز را سرکوب کنند. بنابراین، ما باید وزن بیشتری را به کانال ویژگی با تعداد صفر زیاد و واریانس کوچک اختصاص دهیم. در نهایت، مشابه کرو [ 26 ]، عملیات وارونگی از طریق تابع log انجام شد. فرمول خاص برای به دست آوردن بردار وزن کانال نهایی سیک با استفاده از تبدیل لگاریتمی به شرح زیر است:

سیک=لog(∑من=0کجکε+جک)،

جایی که سیکوزن کانال است و εیک ثابت به شدت کوچک است که برای جلوگیری از صفر بودن مخرج اضافه می شود.

ماتریس وزن دهی فضایی ما با کرو [ 26 ] متفاوت است، که فقط تمام نقشه های ویژگی کانال را جمع و نرمال می کند و سپس به عنوان ماتریس وزن بندی فضایی نهایی S عمل می کند. ما ابتدا کانال‌های ویژگی k بالا را فیلتر کردیم که برای متمایز کردن منطقه هدف از ناحیه نویز پس‌زمینه از طریق واریانس برای جمع ماتریس وزن اولیه S مفیدتر هستند. آلو سپس ماتریس وزنی را نرمال کرد  م، که شبیه کلاغ [ 26 ] است. با توجه به فاکتور انتخاب کانال بدست آمده  ج2، ما کانالی را با واریانس زیاد انتخاب کردیم تا ماتریس وزنی فضا را روی هم قرار دهیم زیرا کانال با واریانس بزرگ برای تمایز بین منطقه هدف و منطقه پس زمینه مساعدتر است. فرمول محاسبه خاص به شرح زیر است:

اسآل=∑ک∈منD(ایکسک×سیک)[منD=مآایکسn(ج2)]،
اجازه دهید ج2∈آرکبردار باشد کواریانس کانال ها نشان می دهیم مآایکسn(ج2)به عنوان بالا nبا بیشترین واریانس در ج2. اسآل∈آر(دبلیو×اچ)ماتریس جمع کردن مقادیر ویژگی موقعیت های متناظر در همه کانال ها است ج2.

سپس ماتریس وزن دهی فضایی به دست آمده است اسآلبرای به دست آوردن ماتریس وزنی نرمال شده، نرمال و توان مقیاس شده است م.

م=(اسآل(∑من=0دبلیو∑j=0اچاسآلمنj2)1/2)1/2،

ما از الگوریتم محاسباتی خطی (LC) [ 34 ] برای تشخیص برجسته بودن ماتریس وزن استفاده کردیم. م. ابتدا، مقدار ماتریس M به دست آمده را بین 0 تا 255 مقیاس کردیم تا برای الگوریتم LC قابل اجرا باشد [ 34 ]. سپس، مقدار آن را ترسیم کردیم مبه فضای پیکسلی از 0 تا 255 برای محاسبه ماتریس برجستگی بعدی. فرمول نقشه برداری به شرح زیر است:

مجیمنj=ممنj-مترمنn(ممنj)مترآایکس(ممنj)-مترمنn(ممنj)×255،

جایی که مجییک ماتریس وزنی است که مقدار را عادی می کند مبه محدوده بین 0 تا 255.

در مورد ایده الگوریتم LC [ 34 ]، ما مجموع فواصل اقلیدسی بین هر نقطه در ماتریس وزن فضایی و تمام نقاط دیگر را به عنوان مقدار پاسخ نقطه محاسبه کردیم. پس از آن، ماتریس وزن برجستگی فضایی را به دست آوردیم. فرمول محاسبه خاص به شرح زیر است:

اسwمنj=∑w=0دبلیو∑ساعت=0اچ ||مجیمنj-مجیwساعت||2،

جایی که اسwمنjمقدار ویژگی ماتریس وزن دهی برجسته در است من، j.

سپس، ماتریس وزن برجستگی به دست آمده را ذوب کردیم اسwبه ماتریس وزنی اصلی م با یک ضریب مقیاس معین، به طوری که ماتریس وزن‌دهی فضایی نهایی وزن بیشتری را به منطقه کلیدی با ضریب همجوشی خاص اختصاص می‌دهد، در حالی که اطلاعات پاسخ ناحیه هدف و ناحیه نویز پس‌زمینه در ویژگی پیچیدگی اصلی حفظ می‌شود. برای ماتریس وزن فضایی به دست آمده اسw، از ضریب مقیاس خاصی استفاده کردیم  ρبرای ادغام آن در ماتریس وزن دهی فضایی به دست آمده با انتخاب کانال قبلی به طوری که ماتریس وزن نهایی اسبهتر می تواند منطقه هدف نقشه ویژگی را برجسته کند.

اس=م+ρ×اسw،

جایی که ρعامل ذوب شده است و اسماتریس وزن فضایی پس از وزن دهی مفصل برجسته است.

در نهایت، ما توصیفگر وزن مشترک برجسته (SJW) را از طریق ماتریس وزن دهی فضایی نهایی به دست آوردیم. اسو ماتریس وزن کانال سی. ماتریس وزنی فضایی نهایی بدست آمده را ضرب کردیم اسبا نقشه ویژگی های سه بعدی که توسط کانولوشن به دست آمد و سپس نقشه های ویژگی هر کانال را برای به دست آوردن یک توصیفگر تصویر یک بعدی جمع کرد. اف.

اف=[f1،…،fک]تی،fک=∑من=0دبلیو∑j=0اچایکسمنj×اسمنj،

جایی که fکمقدار ویژگی است که از کنقشه ویژگی بعد از وزن دهی فضایی و افبردار همه است fک.

برای توصیفگر یک بعدی به دست آمده افبرای وزن از بردار وزن کانال به دست آمده از رابطه فوق (17) استفاده کردیم تا توصیفگر به کانال های ویژگی مهم توجه بیشتری داشته باشد و توصیفگر وزن برجستگی فضایی نهایی را تشکیل دهد. اسjw.

اسjw=[g1،g2…،gک]تی،gک=fک×سیک،

جایی که gکمقدار ویژگی است که از کنقشه ویژگی بعد از وزن دهی کانال و اسjwبردار همه است gک.

4. آزمایش ها و ارزیابی

در این بخش، برای تأیید منطقی بودن طرح تجمع ویژگی های پیچیدگی طراحی شده، آزمایش های مقایسه ای زیادی انجام دادیم. ابتدا کارایی دو ماژول را به طور جداگانه آزمایش کردیم و سپس دو ماژول را با توجه به ضریب مقیاس معینی با هم ترکیب کردیم. نتایج تجربی نشان داد که ویژگی پیچیدگی با وزن برجسته جهانی پیشنهادی ما به عملکرد پیشرفته‌ای دست می‌یابد.

4.1. مجموعه داده ها

مجموعه داده های بازیابی برای آموزش و آزمایش الگوریتم بازیابی استفاده شد. در این بخش مجموعه داده های مورد استفاده در آزمایش را به اختصار معرفی می کنیم.
  • مجموعه داده Oxford5k [ 33 ]: این مجموعه داده توسط فلیکر ارائه شده است و شامل 11 نشانه در مجموعه داده آکسفورد و در مجموع 5063 تصویر است.
  • مجموعه داده Paris6k [ 35 ]: Paris6k نیز توسط فلیکر ارائه شده است. 11 دسته از ساختمان های پاریس وجود دارد که شامل 6412 تصویر و 5 منطقه جستجو در مجموع برای هر کلاس است.
  • مجموعه داده تعطیلات [ 36 ]: مجموعه داده تعطیلات از 500 گروه از تصاویر مشابه تشکیل شده است. هر گروه دارای یک تصویر پرس و جو برای مجموع 1491 تصویر است.
  • بازبینی آکسفورد و پاریس [ 37 ]: مجموعه داده های بازبینی شده-آکسفورد (راکسفورد) و بازبینی شده-پاریس (Rparis) به ترتیب از 4993 و 6322 تصویر تشکیل شده است. هر مجموعه داده دارای 70 تصویر پرس و جو است. آنها مجموعه داده های oxford5k و paris6k را با حذف نظرات و افزودن تصاویر دوباره بررسی می کنند. سه سطح دشواری پروتکل ارزیابی وجود دارد: آسان، متوسط ​​و سخت.

4.2. محیط تست و جزئیات

آزمایش ما بر روی TITAN XP اجرا شد و حافظه واحد پردازش گرافیکی (GPU) 11 G بود (کارت گرافیک از یک واحد محاسباتی GPU و حافظه ویدیویی و غیره تشکیل شده بود. حافظه ویدیویی را می توان به عنوان فضایی مشابه حافظه در نظر گرفت) . ما از معماری یادگیری عمیق PyTorch برای ساخت مدل VGG16 [ 3 ] استفاده کردیم که در ImageNet از قبل آموزش داده شده بود [ 38 ]]. از این رو ما نیازی به آموزش نداشتیم. برای آزمایش، ما از مدل VGG16 برای استخراج نقشه های ویژگی های کانولوشن از لایه conv5 استفاده کردیم و تعداد کل کانال ها 512 بود. برای الگوریتم های جدید طراحی شده ما در آزمایش، ماژول اول (GR-RMAC) به 3 دقیقه و 58 ثانیه و 2012 مگابایت حافظه ویدیویی; ماژول دوم (SJW) به 19 دقیقه و 13 ثانیه و 2138 مگابایت حافظه ویدئویی نیاز داشت. و کل الگوریتم (GSW) در مجموع به 19 متر و 28 ثانیه و 2629 مگابایت حافظه ویدئویی نیاز داشت. موارد آزمایش بر روی مجموعه داده‌های oxford5k [ 33 ] و paris6k [ 35 ]، Holidays [ 36 ]، oxford105k، paris106k، Roxford و Rparis [ 37 ] که دارای 5063، 6412، 13232،6، و 1491، و 4 تصویر هستند، انجام شد. به ترتیب. در مورد اندازه تصویر، ما Crow [ 26]، که اندازه اصلی تصاویر را به عنوان ورودی حفظ می کند. پس از تجزیه و تحلیل پارامتر، ما بهترین هایپرپارامترها را در همه آزمایش ها تنظیم می کنیم: L = 3، n = 0.3، ρ = 100، α= 0.6 و β= 0.4. علاوه بر این، از همان مدل شبکه، ابعاد توصیفگر تصویر و اندازه ورودی تصویر استفاده کردیم. روش مورد استفاده برای محاسبه شباهت، شباهت کسینوس بود. برای استاندارد ارزیابی کلی، از میانگین دقت متوسط ​​( مترآپ) [ 33 ] و دقت.

دقت متوسط ​​( آپ) کیفیت مدل آموخته شده را در هر دسته می سنجد. مترآپکیفیت مدل آموخته شده را در همه دسته ها اندازه گیری می کند. پس از آپبه دست آمد، مقدار متوسط ​​در نظر گرفته شد. محدوده از مترآپمقادیر بین 0 و 1 بود آپ، مترآپفرمول محاسبه به شرح زیر است:

آپ=1متر∑ب=1مترrمنgساعتتی(ب)،rمنgساعتتی(ب)=کب،

جایی که کتصاویر حاصله که مربوط به تصویر پرس و جو هستند، برگردانده شده است، بحجم تصاویر برگشتی در حین بازیابی است و مترحجم تصاویر در مجموعه داده های آزمایشی است که به تصویر پرس و جو مربوط می شود.

مترآپ=1س∑من=1سآپ،

جایی که سمقدار تصاویر پرس و جو در یک مجموعه داده است.

دقت به این معناست که با توجه به تعداد مشخصی از تصاویر برگشتی در بازیابی تصویر، نسبت تعداد تصاویر صحیح به تعداد تصاویر برگشتی پ@1نشان دهنده دقت بازگرداندن یک تصویر در بازیابی است، در حالی که پ@5نشان دهنده دقت بازگرداندن پنج تصویر در بازیابی است.

4.3. تست دو ماژول به طور جداگانه

در مرحله بعد، آزمایش‌های مقایسه‌ای مختلفی را روی دو ماژول تجمع پیشنهادی انجام دادیم که به طور کلی تأثیر نویز را کاهش می‌دهند. بنابراین برای افزایش دقت از سفید کردن بدون کاهش ابعاد استفاده می کنیم. برای مقایسه بیشتر رویکرد خود با R-MAC [ 25 ] و Crow [ 26 ]، عملکرد ماژول ادغام عمومی R-MAC و ماژول ویژگی کانولوشن عمیق با وزن مشترک را در Oxford5k، Paris6k، Holidays، Roxford5k ارزیابی کردیم. و مجموعه داده های Rparis6k با VGG16.
جدول 1 نتایج R-MAC [ 25 ] و توصیفگرهای ویژگی R-MAC تعمیم یافته را نشان می دهد. با مشاهده این جدول، متوجه می شویم که وقتی روی VGG16 آزمایش کردیم، مترآپاز Paris6k، Oxford5k و Holidays با استفاده از R-MAC تعمیم یافته (GR-MAC) به ترتیب 83.63، 70.35، و 89.58 درصد بود. به طور همزمان، بهترین نتایج بازیابی به دست آمد.
جدول 2 نتایج R-MAC [ 25 ] و توصیفگرهای ویژگی GR-MAC را نشان می دهد. با مشاهده این جدول نتیجه می گیریم که وقتی روی VGG16 تست می کنیم، مترآپبرای Roxford5k-Easy و Rparis6K-Easy به دست آمده با استفاده از GR-MAC به ترتیب 63.33% و 80.15% بود. P@1 و P@5 Roxford-Easy و Rparis-Easy با استفاده از GR-MAC به ترتیب 85.29% و 78.24% و 95.71% و 93.71% بود. و مترآپاز Roxford-Medium و Rparis-Medium با استفاده از GR-MAC به ترتیب 42.26% و 63.86% بود. P@1 و P@5 Roxford-Medium و Rparis-Medium با استفاده از GR-MAC به ترتیب 84.29، 70.19، 95.71 درصد و 96.29 درصد بوده و بهترین نتایج بازیابی به دست آمد.
پس از یک سری آزمایش های مقایسه ای با استفاده از R-MAC [ 25 ] و R-MAC تعمیم یافته ما (GR-MAC) روی پنج مجموعه داده، واضح است که الگوریتم ما با تجزیه و تحلیل داده های تجربی بهتر از R-MAC [ 25 ] است. در جدول 1 و جدول 2، یعنی اثربخشی روش ما تأیید شد. در مقایسه با R-MAC که حداکثر مقدار را برای هر ناحیه تقسیم‌شده می‌گیرد، در حالی که تأثیر سایر مقادیر پاسخ را در منطقه در نظر می‌گیریم، حداکثر مقدار را گرفتیم تا توصیفگر ویژگی تصویری که استفاده می‌کنیم نتایج بهتری را در طول بازیابی به دست آورد. با مقایسه نتایج آزمایش، متوجه می‌شویم که برای مجموعه داده‌های سخت‌تر Oxford5k، Roxford، و Rparis، R-MAC تعمیم‌یافته ما (GR-MAC) دقیق‌تر است و برای مجموعه‌های ساده Paris6k و Holidays، ما روش نیز بهبود کوچکی را ارائه می دهد.
جدول 3 نتایج روش های وزن دهی متقاطع (کلاغ) [ 26 ] و وزن دهی مفصل برجسته (SJW) را نشان می دهد. از این جدول می آموزیم که وقتی روی VGG16 تست می کنیم، مترآپاز مجموعه داده های Paris6k، Oxford5k و Holidays با استفاده از وزن مشترک برجسته (SJW) به ترتیب 79.41٪، 69.62٪ و 89.74٪ است که بهترین نتایج بازیابی هستند.
جدول 4 پیامدهای وزن دهی متقاطع (کلاغ) [ 26 ] و توصیفگرهای ویژگی با وزن مشترک برجسته را نشان می دهد. از این جدول می آموزیم که وقتی روی VGG16 تست می کنیم، مترآپRoxford5k-Easy و Rparis6K-Esay با استفاده از GR-MAC به ترتیب 63.09% و 78.68% است. P@1 و P@5 Roxford-Easy و Rparis-Easy با استفاده از GR-MAC به ترتیب 88.24% و 75.00% و 97.14% و 93.71% هستند. این مترآپRoxford-Medium و Rparis-Medium با استفاده از GR-MAC به ترتیب 47.36% و 60.90% است. P@1 و P@5 Roxford-Medium و Rparis-Medium با استفاده از GR-MAC به ترتیب 87.14% و 72.57% و 97.14% و 96.00% هستند و بهترین نتایج بازیابی به دست می آید.
علاوه بر این، با توجه به کفایت آزمایش‌ها، ما یک آزمون مقایسه‌ای از Crow [ 26 ] و روش بهبود وزن مفصل برجسته (SJW) روی پنج مجموعه داده انجام دادیم. با تجزیه و تحلیل داده‌های تجربی در جدول 3 و جدول 4 ، نشان می‌دهیم که الگوریتم ما بهتر از Crow [ 26 ] در پنج مجموعه داده است که اثربخشی روش ما را تأیید می‌کند. در مقایسه با توصیفگر ویژگی به دست آمده توسط کرو [ 26وزن دهی فضایی و وزن کانال، ماتریس وزن دهی برجستگی به دست آمده توسط الگوریتم تشخیص برجستگی برای تشخیص ناحیه برجسته مساعدتر است و توصیفگر ویژگی تصویر به دست آمده توسط ماتریس وزن کانال بهبود یافته نتایج بهتری را در بازیابی به دست می آورد.
ما نقشه حرارتی را برای بهبود وزن برجسته (SW) و وزن مشترک برجسته (SJW) تجسم کردیم و دریافتیم که ماتریس وزن برجسته اسwبه برشی از مناطق برجسته توجه بیشتری می کند که می تواند ساختمان های مختلف را متمایز کند، مانند اطلاعات لبه شکل کلی ساختمان یا اطلاعات دقیق شکل مشبک پنجره. با این حال، این مناطق برجسته، مناطق کلیدی در بازیابی کلی تصویر (مانند مجموعه داده های ساختمان) هستند. بدیهی است، همانطور که در تصویرسازی در شکل 5 نشان داده شده است، ستون b، ناحیه کلید روشن تر از بقیه است. توانایی نمایش نقشه های ویژگی تاثیر زیادی بر دقت بازیابی تصویر دارد. بنابراین، به منظور بهبود توانایی بیانی نقشه ویژگی، آن را از دو منظر بررسی کردیم تا نقشه ویژگی را از لایه کانولوشن اصلی بهبود دهیم تا بازنمایی آن را بهبود بخشیم. از منظر فضایی، ما از ماتریس وزن دهی برجسته استفاده کردیم اسwبرای برجسته کردن مقادیر ویژگی های منطقه برجسته. در همان زمان، نقشه‌های ویژگی لایه کانولوشن به طور متناسب با هم ترکیب شدند. همانطور که در ستون c شکل 5 نشان داده شده است ، طرح وزن دهی مشترک برجسته می تواند باعث شود که نقشه ویژگی بهبود یافته توجه بیشتری به ناحیه برجسته بدون از دست دادن اطلاعات کلی ساختمان به دست آمده توسط شبکه عصبی عمیق داشته باشد. از منظر کانال، ما از مقادیر غیر صفر و واریانس کانال برای اندازه‌گیری اهمیت کانال‌های مختلف استفاده کردیم و از وزن کانال برای به دست آوردن توصیفگر نهایی با وزن مشترک (SJW) استفاده کردیم. اسjw.
همانطور که در شکل 6 نشان داده شده است ، ما تصاویر را به طور تصادفی انتخاب کردیم و نقشه های ویژگی منشاء، نقشه های با وزن برجسته (SW) و نقشه های حرارتی با وزن مشترک (SJW) را به دست آوردیم. از طریق مقایسه نقشه‌های حرارتی، متوجه شدیم که روش وزن‌دهی مشترک برجسته ما می‌تواند بدون نادیده گرفتن اطلاعات مناطق دیگر، منطقه هدف را برجسته‌تر کند. (الف) ما به طور تصادفی سه تصویر اصلی را از مجموعه داده Oxford5k انتخاب کردیم [ 33]. (ب) نقشه SW به معنای یک نقشه با وزن برجسته است که داده های ترسیمی از نتیجه محاسبه شده توسط معادلات (16) و (17) بدست آمده است. پس از تجسم، متوجه شدیم که نقشه با وزن برجسته می تواند بر روی منطقه هدف تصویر تمرکز کند. (ج) نقشه SJW به معنای نقشه با وزن مشترک برجسته است. نقشه با وزن برجستگی به دست آمده با ویژگی های اصلی تا حد معینی با استفاده از ضریب مقیاس برای به دست آوردن نقشه نهایی با وزن مشترک برجستگی، همانطور که در معادله (22) نشان داده شده است، ادغام شد. از تجزیه و تحلیل نتایج فوق، می توان دریافت که ویژگی برجسته (SJW) ما بر روی منطقه کلیدی بازیابی تمرکز می کند، بدون از دست دادن سایر بخش های اطلاعات.
نتایج کاربرد تجربی این روش تحلیل نتایج بازیابی برای نشان دادن الگوریتم پیشنهادی ارائه شده است. همانطور که در شکل 7 نشان داده شده است، تصویر پرس و جو (تصویر در کادر آبی) با تصاویر برگشتی نتایج بازیابی ماژول مطابقت دارد. ردیف اول نتایج بازیابی GR-MAC، ردیف دوم نتایج بازیابی SJW و ردیف سوم نتایج بازیابی GSW است. با مقایسه دو ردیف از تصاویر، همانطور که بحث شد، تفاوت ها به دلیل تمرکز دو ماژول بر روی تفاوت ها است. GR-MAC توجه بیشتری به اطلاعات جهانی دارد و خط اول ساختمان کلی مشابه تری را برمی گرداند. SJW به جزئیات برجسته محلی توجه بیشتری می کند و ردیف دوم می تواند جزئیات جزئی ساختمان را که تا حدی مبهم هستند (مانند قسمت بالای گنبدی شکل) برگرداند. GSW می تواند هم تصاویر را با اطلاعات کلی و هم تصاویر را با توجه بیشتر به جزئیات برجسته بازگرداند.

4.4. مقایسه روش تجمیع ویژگی ها

ما آزمایش‌های بازیابی را بر روی توصیفگر با وزن برجسته جهانی (GSW) انجام دادیم. گسترش پرس و جو می تواند عملکرد بازیابی تصویر را بیشتر افزایش دهد. در این بخش از روش خود برای محاسبه توصیفگرهای ویژگی استفاده می کنیم. سپس، مزایای گسترش پرس و جو را در مجموعه داده های Oxford5k، Paris6k و Holidays تأیید می کنیم.
جدول 5 نتایج توصیفگرهای مختلف را قبل و بعد از بسط پرس و جو نشان می دهد. با مشاهده این جدول، متوجه می‌شویم که وقتی روی VGG16 آزمایش کردیم، ماژول SJW ویژگی‌های جهانی متمایزتری را برای مجموعه‌های داده با مناطق برجسته‌تر به دست آورد. به عنوان مثال، oxford5k تأثیر قابل توجهی در بهبود داشت. میزان دقت GR-MAC در جدول 5 70.35٪ است و اثر پس از ادغام ماژول SJW می تواند به 72.90٪ برسد، زیرا تصاویر زیادی در مجموعه داده Paris6k وجود دارد که مناطق برجسته واضحی ندارند. الگوریتم GR-MAC ما، که برای به دست آوردن اطلاعات جهانی مساعدتر است، نتایج بهتری نسبت به الگوریتم GSW، که دارای وزن برجسته است، تولید کرد. این مترآپاز مجموعه داده های Paris6k، Oxford5k و Holidays با استفاده از GSW (ما) + QE به ترتیب 89.55٪، 79.87٪ و 91.51٪ بود. بدیهی است که بهترین نتایج بازیابی به دست آمد. با مشاهده جدول 6 ، این استنباط را به دست آوردیم که نتایج مربوط به ویژگی‌ها احتمالاً زمانی افزایش می‌یابد که عملیات بسط پرس و جو را بر روی مجموعه‌های داده متنوع اعمال می‌کنیم.
از نتایج تجربی، نتیجه می‌گیریم که عملیات قبلی پس از QE که برای بهبود دقت بازیابی استفاده می‌شد، برای الگوریتم پیشنهادی ما نیز بسیار کاربردی است. صرف نظر از توصیفگر ویژگی به دست آمده از ماژول GR-MAC یا SJW، یا توصیفگر ویژگی به دست آمده از ادغام دو ماژول، عملیات QE در فرآیند بازیابی بعدی تا حد زیادی اثر بازیابی ما را بهبود می بخشد.
برای اثبات اثربخشی و برتری الگوریتم ویژگی پیچیدگی با وزن برجسته جهانی پیشنهادی ما، نتایج تجربی را با آخرین الگوریتم‌های تجمیع ویژگی مقایسه کردیم. ما نه تنها آزمایش هایی را با استفاده از نمایش تصویر اصلی انجام دادیم، بلکه نتایج تجربی را از طریق بسط پرس و جو نیز مقایسه کردیم. نتایج در جدول 6 و جدول 7 نمایش داده شده است.
جدول 6 نشان می دهد که تنها با استفاده از روش ما می توانیم بهترین نتایج را به دست آوریم و از طریق بسط پرس و جو می توان نتایج بهتری به دست آورد. آزمایش های فوق به طور کامل کاربرد و برتری الگوریتم ما را تأیید کردند. در جدول 6 ، به دلیل اینکه هیچ آزمایشی تحت این شرایط در ادبیات روش‌های مربوطه وجود ندارد، مقدار گمشده را با یک خط افقی کوچک جایگزین کردیم.
جدول 7 نشان می دهد که تنها با استفاده از روش ما می توانیم بهترین نتایج را به دست آوریم و از طریق بسط پرس و جو می توان نتایج بهتری به دست آورد. الگوریتم ما نه تنها نتایج امیدوارکننده‌ای را در مجموعه داده‌های کلاسیک ارائه کرد، بلکه نتایج بسیار بهبود یافته‌ای را در مجموعه داده‌های ساختمان جدید بازبینی‌شده در سال 2018 ارائه کرد، که توانایی تعمیم الگوریتم را بیشتر ثابت می‌کند.
نتایج گسترده در جدول 6 و جدول 7 نشان می دهد که دو ماژول پیشنهادی دارای اثرات ارتقای متقابل هستند. توصیفگرهای ویژگی به دست آمده از ترکیب دو ماژول بهترین دقت را برای عملیات بازیابی بعدی به دست می آورند. در مقایسه با روش قبلی، متوجه شدیم که در پنج مجموعه داده، اثر بازیابی ارائه شده توسط روش ما به طور قابل توجهی بهبود یافته است. پس از عملیات QE می توان به میزان دقت بالاتری دست یافت.
شکل 8 تعبیه روش وزن دهی برجسته جهانی (GSW) ما را با استفاده از Barnes-Hut t-SNE (جاسازی تصادفی همسایه t-توزیع شده) [ 41 ] در مجموعه داده های oxford5k [ 33 ] به تصویر می کشد، که ثابت می کند روش ما می تواند به صورت معنایی گروه بندی کند. تصاویر مشابه

4.5. بحث

از آزمایش های بالا، یافته های کلیدی به دست می آید:
1. الگوریتم پیشنهادی R-MAC تعمیم یافته (GR-RMAC) اثر بازیابی بهتری نسبت به الگوریتم حداکثر فعال‌سازی منطقه‌ای پیچش‌ها (R-MAC) [ 25 ] با گرفتن اطلاعات مؤثرتر در مناطق متعدد R-MAC ایجاد می‌کند [ 25 ] .
2. الگوریتم وزن‌دهی مشترک برجسته (SJW) ماتریس وزن‌دهی فضایی عالی‌تر و ماتریس وزن کانال را از طریق تشخیص برجستگی تولید می‌کند. در مقایسه با وزن دهی متقاطع بعدی قبلی (کلاغ) [ 26 ] که با وزن دهی فضایی و وزن دهی کانال به دست آمد، روش وزن دهی ما به طور موثر عملکرد بازیابی را بهبود می بخشد.
3. ما توصیفگرهای ویژگی به‌دست‌آمده توسط GR-RMAC و SJW را به‌عنوان ویژگی بازیابی نهایی ترکیب کردیم و دریافتیم که دو ماژول پیشنهادی یک اثر ارتقای متقابل دارند. این ادغام بهترین اثر بازیابی را به دست آورد. با مقایسه آن با الگوریتم قبلی، روش ما نتایج بهبود قابل توجهی را در مجموعه داده‌های متعدد ارائه کرد.
دو محدودیت این دو ماژول تجمیع این است که ممکن است برای بازیابی نمونه مناسب باشد و نه برای انواع دیگر بازیابی تصویر که به دقت برجسته بالاتری نیاز دارند. به طور همزمان، مقدار محاسبه شده از دو ماژول کم نیست، بنابراین ما در آینده این را بیشتر بهینه خواهیم کرد تا بار محاسباتی بازیابی را کاهش دهیم و یک روش تجمیع همه کاره تر را مطالعه کنیم.

4.6. تجزیه و تحلیل پارامتر

در این بخش، پارامترهای اولیه الگوریتم خود را روی مجموعه داده oxford5k آزمایش می‌کنیم [ 33 ]. ما از همان معیار ارزیابی، mAP، در روش‌های ادغام ویژگی قبلی (SPoC [ 23 ]، MAC [ 24 ]، R-MAC [ 25 ]، Crow [ 26 ] و غیره) برای اندازه‌گیری دقت بازیابی استفاده کردیم. ما بهترین پارامترها را روی oxford5k آزمایش کردیم و آنها را روی چهار مجموعه داده دیگر اعمال کردیم.
در فرآیند محاسبه ویژگی‌های کانولوشن جمع‌آوری شده با وزن برجسته جهانی، در مجموع از پنج پارامتر قابل تنظیم استفاده کردیم: مقیاس Lاز منطقه تقسیم R-MAC [ 25 ]، تعداد کانال های انتخاب شده توسط نقشه ویژگی سه بعدی  nنسبت فاکتور ماتریس وزن برجستگی همجوشی  ρو عوامل مقیاس αو βکه ماژول R-MAC تعمیم یافته و ماژول ویژگی کانولوشن عمیق با وزن مشترک برجسته را ترکیب می کند. با تنظیم این پارامترها برای محاسبه ویژگی‌های کانولوشنال با وزن برجستگی کلی، بهترین پارامترها را برای به دست آوردن توصیفگر ویژگی نهایی انتخاب کردیم تا توصیفگر به‌دست‌آمده توسط ماژول R-MAC تعمیم‌یافته و ماژول ویژگی کانولوشن عمیق با وزن مشترک برجسته را فعال کنیم. ذوب. ما ابتدا اجرا کردیم L2نرمال سازی برای آنها و سپس انجام شد L2عادی سازی پس از ادغام برای به دست آوردن توصیفگر ویژگی نهایی برای تسهیل عملیات سفید کردن بعدی.
ابتدا مقدار پارامتر مقیاس را آزمایش کردیم  L، که تعداد مناطق را تعیین می کند آردر الگوریتم GR-MAC تقسیم شده است. زمانی که ارزش Lبسیار کوچک است، مزیت کسب اطلاعات بیشتر در مقیاس های چندگانه را منعکس نمی کند. زمانی که ارزش Lخیلی بزرگ است، مقادیر زیادی اطلاعات مکرر جمع آوری می شود و این اطلاعات ممکن است منطقه پس زمینه باشد و لزوماً همه به تصویر کمک نکنند. بنابراین، بزرگتر Lلزوما بهتر نیست
هدف ما انتخاب بهینه بود Lبه طوری که الگوریتم GR-MAC می تواند تعداد بهینه مناطق را بدست آورد آر.
جدول 8 نتایج پارامتر را شناسایی می کند L. برای به دست آوردن بهترین توصیفگرهای ویژگی، مقدار آن را آزمایش کردیم  Lبین 1 و 4 مترآپبالاترین در بود L=3، و حداکثر مترآپمقدار در جدول 8 پررنگ شده است. ما انتخاب میکنیم L=3برای به دست آوردن توصیفگر ویژگی R-MAC تعمیم یافته نهایی.
سپس، پارامتر را آزمایش کردیم nدر بخش 3.2 شرح داده شده است. پارامتر nتعداد نقشه های ویژگی انتخاب شده در ماژول ویژگی کانولوشن عمیق با وزن مشترک برجسته را نشان می دهد. نمونه برداری کردیم nیکنواخت و سپس روی مجموعه داده Oxford5k آزمایش شد. شبکه مورد استفاده یک VGG16 از پیش آموزش دیده بود. نتیجه در جدول 9 نشان داده شده است .
هدف ما انتخاب یک معتدل بود n. مقدار n نباید خیلی کوچک باشد، که باعث از دست رفتن اطلاعات کانال بسیار زیاد می شود، و نه خیلی بزرگ، که فرآیند انتخاب ما را به یک عملیات نامعتبر تبدیل می کند. هدف ما این بود که مناسب ترین را انتخاب کنیم nبه طوری که کانال ویژگی انتخاب شده حاوی اطلاعات کافی پس از جمع بندی باشد. در عین حال، به دلیل واریانس زیاد در این کانال ها، تشخیص منطقه هدف از منطقه پس زمینه مساعدتر بود.
از جدول 9 ، می توانیم استنباط کنیم که مترآپحداکثر مقدار را در به دست می آورد n= 30 درصد حداکثر مترآپمقدار پررنگ است ما انتخاب میکنیم n= 30 درصد برای به دست آوردن توصیفگر ویژگی مشترک وزنی نهایی.
ما پارامتر را آزمایش کردیم  ρ در بخش 3.2 شرح داده شده است. پارامتر ρضریب مقیاس ماتریس وزن دهی فضایی ماتریس وزن برجستگی را در ماژول ویژگی کانولوشن عمیق با وزن مشترک برجسته نشان می دهد. اگر ρبیش از حد بزرگ است، ممکن است بیش از حد روی منطقه هدف تمرکز کند و مناطق پس زمینه حاوی مقدار مشخصی از اطلاعات را نادیده بگیرد. اگر ρخیلی کوچک است، ممکن است روی اطلاعات هدف مورد نظر تمرکز نکند. ما از شبکه VGG16 که روی ImageNet از قبل آموزش داده شده بود در آزمایش‌ها برای آزمایش استفاده کردیم ρاز 1 تا 500. نتایج در جدول 10 فهرست شده است.
از جدول 10 نتیجه می گیریم که مترآپحداکثر مقدار را در به دست می آورد ρ= 100. حداکثر مترآپمقدار پررنگ است ما انتخاب میکنیم  ρ= 100 برای به دست آوردن توصیفگر ویژگی با وزن مشترک نهایی.
در نهایت، توصیفگر ویژگی R-MAC تعمیم یافته و توصیفگر ویژگی با وزن مشترک برجستگی برای فاکتورهای مقیاس همجوشی آزمایش شدند.  α و β. ما از شبکه VGG16 که در ImageNet از قبل آموزش داده شده بود برای آزمایش مجموعه داده Oxford5k استفاده کردیم و نتایج در جدول 11 نشان داده شده است.
از فاکتورهای همجوشی استفاده کردیم αو βبرای ادغام توصیفگرهای ویژگی تصویر به دست آمده توسط الگوریتم GR-MAC و الگوریتم SJW برای به دست آوردن ویژگی نهایی GSW برای بازیابی. توصیفگرهای ویژگی به‌دست‌آمده توسط GR-MAC توجه بیشتری را بر روی اطلاعات جهانی نقشه‌های ویژگی در مقیاس‌های چندگانه متمرکز می‌کنند. تحت تأثیر الگوریتم برجسته‌سازی، توصیف‌گر ویژگی به‌دست‌آمده توسط SJW بر روی ناحیه برجسته‌ای تمرکز می‌کند که بیشترین کمک را برای بازیابی تصویر دارد در حالی که تمرکز بر منطقه هدف و نادیده گرفتن منطقه پس‌زمینه است. دو توصیفگر مزایای خود را دارند. در نتیجه، ما امیدوار بودیم که موثرترین نسبت همجوشی را پیدا کنیم و توصیفگر ویژگی با بهترین اثر بازیابی را به دست آوریم.
از جدول 11 ، نتایج نشان داد که مترآپحداکثر مقدار را در به دست می آورد  α= 0.6 و β= 0.4. حداکثر مترآپمقدار پررنگ است ما انتخاب میکنیم  α= 0.6 و β= 0.4 برای به دست آوردن توصیفگر ویژگی نهایی وزن برجستگی جهانی.
از جدول 12 ، ما از Alexnet برای انجام آزمایش‌های ابلیشن ماژول بر روی مجموعه داده‌های oxford5k و paris6k به طور جداگانه استفاده کردیم تا نشان دهیم که روش پیشنهادی ما هنوز در مدل‌های دیگر قابل اجرا است. در مجموع، یافته‌ها تأیید کردند که نقشه‌های ویژگی به‌دست‌آمده توسط مدل‌های از پیش آموزش‌دیده‌شده متفاوت تأثیر خاصی بر اثر بازیابی دارند، اما برای نقشه‌های ویژگی به‌دست‌آمده در یک شبکه، توصیف‌کننده‌های ویژگی به‌دست‌آمده با روش ما بهتر از الگوریتم قبلی هستند.

5. نتیجه گیری ها

در این مقاله، ما دو روش موثر تجمع و بهبود را برای ویژگی‌های کانولوشن عمیق ساختیم و سپس آنها را ادغام کردیم. دقت بازیابی نهایی به سطوح پیشرفته رسیده است. ما حداکثر فعال‌سازی منطقه‌ای کلاسیک پیچش‌ها (R-MAC) را بهبود دادیم [ 25] روش و یک روش تجمیع R-MAC تعمیم یافته (GR-MAC) را پیشنهاد کرد که به توصیفگر اجازه می دهد اطلاعات جهانی غنی تری به دست آورد و به یک مقدار حداکثر محدود نمی شود. نه تنها ماژول وزن دهی مفصل برجسته (SJW) به عملکرد ویژگی لایه کانولوشن جلوه ای بصری می دهد، بلکه ویژگی SJW به دست آمده توجه بیشتری به ناحیه برجسته تصویر بدون از دست دادن اطلاعات کلی ساختمان می کند و بازیابی را بهبود می بخشد. عملکرد بهتر از آنچه توسط روش های فعلی ارائه می شود. پس از ادغام دو ماژول بهبود یافته پیشنهادی، آنها عملکرد بازیابی بهتری را در مجموعه داده‌های ساختمانی متعدد ایجاد کردند.
در مجموع، صرف نظر از ماژول بهبود یافته پیشنهادی، آموزش شبکه مورد نیاز نیست. این ماژول ناپارامتریک و آسان برای پیاده سازی به دو ماژول تجمیع پیشنهادی اجازه می دهد تا به راحتی در هر کار یادگیری عمیق دیگری جاسازی شوند. تحقیقات آینده باید تأثیرات بالقوه این دو ماژول تجمیع را بر وظایف یادگیری عمیق تر، مانند تشخیص هدف و یادگیری چند شات در نظر بگیرد.

منابع

  1. الذوبی، ع. امیره، ع. Ramzan, N. بازیابی تصویر مبتنی بر محتوا با ویژگی های فشرده عمیق کانولوشن. محاسبات عصبی 2017 ، 249 ، 95-105. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  2. اسمولدرز، AWM; نگران، م. سانتینی، اس. گوپتا، ا. جین، R. بازیابی تصویر مبتنی بر محتوا در پایان اوایل. IEEE Trans. الگوی مقعدی ماخ هوشمند 2001 ، 22 ، 1349-1380. [ Google Scholar ] [ CrossRef ]
  3. یو-هی نگ، جی. یانگ، اف. دیویس، LS بهره برداری از ویژگی های محلی از شبکه های عمیق برای بازیابی تصویر. در مجموعه مقالات 2015 مجموعه مقالات کنفرانس IEEE در کارگاه های آموزشی بینایی کامپیوتری و تشخیص الگو، نیویورک، نیویورک، ایالات متحده آمریکا، 7 تا 12 ژوئن 2015. صص 53-61. [ Google Scholar ]
  4. ژنگ، ال. یانگ، ی. Tian، Q. SIFT با CNN ملاقات می کند: یک دهه بررسی بازیابی نمونه. IEEE Trans. الگوی مقعدی ماخ هوشمند 2018 ، 40 ، 1224-1244. [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
  5. چام، او. فیلبین، جی. سیویک، جی. ایسارد، م. Zisserman، A. فراخوان کل: گسترش خودکار پرس و جو با یک مدل ویژگی مولد برای بازیابی شی. در مجموعه مقالات یازدهمین کنفرانس بین المللی IEEE در سال 2007 در بینایی کامپیوتر، ریودوژانیرو، برزیل، 14 تا 21 اکتبر 2007. صص 1-8. [ Google Scholar ]
  6. چام، او. میکولیک، ا. پردوچ، م. Matas, J. فراخوان کل II: بسط پرس و جو مجدداً بازبینی شد. در مجموعه مقالات کنفرانس IEEE 2011 در مورد بینایی کامپیوتری و تشخیص الگو، کلرادو اسپرینگز، CO، ایالات متحده آمریکا، 20-25 ژوئن 2011. صص 889-896. [ Google Scholar ]
  7. فیلیپ، آر. جورجوس، تی. Ondrej, C. تنظیم دقیق بازیابی تصویر CNN بدون حاشیه نویسی انسانی. IEEE Trans. الگوی مقعدی ماخ هوشمند 2017 ، 41 ، 1655-1668. [ Google Scholar ]
  8. جگو، اچ. Chum, O. شواهد منفی و اتفاقات همزمان در بازیابی تصویر: مزایای PCA و سفید کردن. در مجموعه مقالات کنفرانس اروپایی 2012 در بینایی کامپیوتر، فلورانس، ایتالیا، 7 تا 13 اکتبر 2012. صص 774-787. [ Google Scholar ]
  9. اولیوا، ا. Torralba، A. مدل سازی شکل صحنه: بازنمایی کل نگر از پوشش فضایی. بین المللی جی. کامپیوتر. چشم انداز 2001 ، 42 ، 145-175. [ Google Scholar ] [ CrossRef ]
  10. اولیوا، ا. Torralba، A. توصیف صحنه محور از ویژگی های پوشش فضایی. در مجموعه مقالات کارگاه بین المللی 2002 در مورد بینایی کامپیوتری با انگیزه بیولوژیکی، توبینگن، آلمان، 22-24 نوامبر 2002. صص 263-272. [ Google Scholar ]
  11. جین، AK; Vailaya، A. بازیابی تصویر با استفاده از رنگ و شکل. تشخیص الگو 1996 ، 29 ، 1233-1244. [ Google Scholar ] [ CrossRef ]
  12. ویژگی های تصویر متمایز Lowe، DG از نقاط کلیدی Scale-Invariant. بین المللی جی. کامپیوتر. چشم انداز 2004 ، 60 ، 91-110. [ Google Scholar ] [ CrossRef ]
  13. تولیاس، جی. فورون، تی. Jégou، H. تجمع کوواریانس جهت گیری توصیفگرهای محلی با جاسازی. در مجموعه مقالات کنفرانس اروپایی 2014 در بینایی کامپیوتر، زوریخ، سوئیس، 6 تا 12 سپتامبر 2014. صص 382-397. [ Google Scholar ]
  14. بی، اچ. تویتلارس، تی. Van Gool، L. Surf: سرعت بخشیدن به ویژگی های قوی. در مجموعه مقالات کنفرانس اروپایی 2006 در بینایی کامپیوتر، گراتس، اتریش، 7 تا 13 مه 2006. ص 404-417. [ Google Scholar ]
  15. سیویک، جی. Zisserman, A. Video Google: رویکرد بازیابی متن برای تطبیق اشیا در ویدیوها. در مجموعه مقالات 2003 Computer Vision، کنفرانس بین المللی IEEE در، نیس، فرانسه، 13-16 اکتبر 2003. پ. 1470. [ Google Scholar ]
  16. جگو، اچ. پرونین، اف. دوز، م. سانچز، جی. پرز، پی. اشمید، سی. تجمیع توصیفگرهای تصویر محلی در کدهای فشرده. IEEE Trans. الگوی مقعدی ماخ هوشمند 2011 ، 34 ، 1704-1716. [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
  17. پرونین، اف. رقص، C. Fisher هسته در واژگان بصری برای طبقه بندی تصویر. در مجموعه مقالات کنفرانس IEEE 2007 در مورد بینایی کامپیوتری و تشخیص الگو، مینیاپولیس، MN، ایالات متحده، 17-22 ژوئن 2007. صص 1-8. [ Google Scholar ]
  18. پرونین، اف. سانچز، جی. Mensink, T. بهبود هسته فیشر برای طبقه بندی تصاویر در مقیاس بزرگ. در مجموعه مقالات کنفرانس اروپایی 2010 در بینایی کامپیوتر، هراکلیون، کرت، یونان، 5 تا 11 سپتامبر 2010. صص 143-156. [ Google Scholar ]
  19. جگو، اچ. زیسرمن، الف. جاسازی مثلث و تجمیع دموکراتیک برای جستجوی تصویر. در مجموعه مقالات کنفرانس IEEE 2014 در مورد دید رایانه و تشخیص الگو، سانفرانسیسکو، کالیفرنیا، ایالات متحده آمریکا، 23 تا 28 ژوئن 2014. صص 3310–3317. [ Google Scholar ]
  20. سیمپوی، م. مجی، س. ودالدی، A. بانک های فیلتر عمیق برای تشخیص بافت و تقسیم بندی. در مجموعه مقالات کنفرانس IEEE 2015 در مورد دید رایانه و تشخیص الگو، بوستون، MA، ایالات متحده آمریکا، 7 تا 12 ژوئن 2015. صص 3828–3836. [ Google Scholar ]
  21. قدرتی، ع. دیبا، ع. پدرسولی، م. تویتلارس، تی. Van Gool, L. Deep Proposals: Hunting Objects and Actions by Cascading Deep Convolutional Layers. بین المللی جی. کامپیوتر. چشم انداز 2017 ، 124 ، 115-131. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  22. بابنکو، آ. اسلسارف، آ. چیگورین، آ. Lempitsky، V. کدهای عصبی برای بازیابی تصویر. مجموعه مقالات کنفرانس اروپایی 2014 بینایی کامپیوتر، زوریخ، سوئیس، 6 تا 12 سپتامبر 2014. صص 584-599. [ Google Scholar ]
  23. بابنکو، آ. Lempitsky، V. جمع آوری ویژگی های عمیق محلی برای بازیابی تصویر. در مجموعه مقالات کنفرانس بین المللی IEEE در سال 2015 در بینایی کامپیوتر، شمال غربی واشنگتن، دی سی، ایالات متحده آمریکا، 7 تا 13 دسامبر 2015. ص 1269-1277. [ Google Scholar ]
  24. رضویان، ع. سالیوان، جی. کارلسون، اس. ماکی، الف. بازیابی نمونه بصری با شبکه های کانولوشن عمیق. ترانس. فناوری رسانه Appl. 2016 ، 4 ، 251-258. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  25. تولیاس، جی. سیکر، آر. Jégou, H. بازیابی شی خاص با حداکثر ادغام یکپارچه فعال‌سازی‌های CNN. arXiv 2015 ، arXiv:1511.05879. [ Google Scholar ]
  26. کالانتیدیس، ی. ملینا، سی. Osindero، S. وزن‌دهی متقاطع بعدی برای ویژگی‌های پیچیده پیچیده عمیق. در مجموعه مقالات کنفرانس اروپایی 2016 در بینایی کامپیوتر، آمستردام، هلند، 11 تا 14 اکتبر 2016؛ صص 685-701. [ Google Scholar ]
  27. هائو، جی. وانگ، دبلیو. دونگ، جی. Tan, T. MFC: یک رویکرد کاملاً پیچیده چند مقیاسی برای بازیابی نمونه های بصری. در مجموعه مقالات کنفرانس بین المللی IEEE 2017 در کارگاه های چند رسانه ای و نمایشگاهی (ICMEW)، سن دیگو، کالیفرنیا، ایالات متحده آمریکا، 23 تا 27 ژوئیه 2018؛ صص 513-518. [ Google Scholar ]
  28. شریف رضویان، ع. عزیزپور، ح. سالیوان، جی. Carlsson، S. CNN ویژگی‌های خارج از قفسه: یک خط پایه شگفت‌انگیز برای شناسایی. در مجموعه مقالات کنفرانس IEEE 2014 در کارگاه های آموزشی بینایی کامپیوتری و تشخیص الگو، کلمبوس، OH، ایالات متحده آمریکا، 24 تا 27 ژوئن 2014. ص 806-813. [ Google Scholar ]
  29. خو، جی. وانگ، سی. چی، سی. شی، سی. Xiao، B. تجمع بدون نظارت بر اساس معنایی ویژگی‌های پیچیده پیچیده. IEEE Trans. فرآیند تصویر 2019 ، 28 ، 601–611. [ Google Scholar ] [ CrossRef ] [ PubMed ]
  30. سگدی، سی. لیو، دبلیو. جیا، ی. سرمانت، پ. رید، اس. آنگلوف، دی. ایرهان، د. ونهوک، وی. رابینوویچ، الف. با پیچیدگی ها عمیق تر می رویم. در مجموعه مقالات کنفرانس IEEE 2015 در مورد دید رایانه و تشخیص الگو، بوستون، MA، ایالات متحده آمریکا، 7 تا 12 ژوئن 2015. صفحات 1-9. [ Google Scholar ]
  31. گوردو، آ. Larlus، D. فراتر از بازیابی تصویر در سطح نمونه: استفاده از شرح‌ها برای یادگیری یک نمایش تصویری جهانی برای بازیابی معنایی. در مجموعه مقالات کنفرانس IEEE 2017 در مورد دید رایانه و تشخیص الگو، سانفرانسیسکو، کالیفرنیا، ایالات متحده آمریکا، 21 تا 26 ژوئیه 2017؛ صص 6589–6598. [ Google Scholar ]
  32. میکولایچیک، ک. Matas, J. بهبود توصیفگرها برای تطبیق سریع درخت با طرح ریزی خطی بهینه. در مجموعه مقالات یازدهمین کنفرانس بین المللی IEEE در سال 2007 در بینایی کامپیوتر، ریودوژانیرو، برزیل، 14 تا 21 اکتبر 2007. صص 1-8. [ Google Scholar ]
  33. فیلبین، جی. چام، او. ایسارد، م. سیویک، جی. Zisserman، A. بازیابی اشیاء با واژگان بزرگ و تطابق سریع فضایی. در مجموعه مقالات کنفرانس IEEE 2007 در مورد بینایی کامپیوتری و تشخیص الگو، مینیاپولیس، MN، ایالات متحده، 17-22 ژوئن 2007. صص 1-8. [ Google Scholar ]
  34. ژای، ی. شاه، ام. تشخیص توجه بصری در سکانس‌های ویدیویی با استفاده از نشانه‌های فضایی و زمانی. در مجموعه مقالات چهاردهمین کنفرانس بین المللی ACM در چند رسانه ای، سانتا باربارا، کالیفرنیا، ایالات متحده آمریکا، 23 تا 27 اکتبر 2006. صص 815-824. [ Google Scholar ]
  35. فیلبین، جی. چام، او. ایسارد، م. سیویک، جی. زیسرمن، A. گمشده در کوانتیزاسیون: بهبود بازیابی اشیاء خاص در پایگاه داده های تصویر در مقیاس بزرگ. در مجموعه مقالات کنفرانس IEEE 2008 در مورد بینایی کامپیوتری و تشخیص الگو، انکوریج، AK، ایالات متحده آمریکا، 23 تا 28 ژوئن 2008. صص 1-8. [ Google Scholar ]
  36. جگو، اچ. دوز، م. Schmid, C. Hamming جاسازی و سازگاری هندسی ضعیف برای جستجوی تصویر در مقیاس بزرگ. در مجموعه مقالات کنفرانس اروپایی 2008 در بینایی کامپیوتر، مارسی، فرانسه، 12 تا 18 اکتبر 2008. صص 304-317. [ Google Scholar ]
  37. رادنوویچ، اف. ایسن، ا. تولیاس، جی. Avrithis، Y. Chum, O. بازدید مجدد از آکسفورد و پاریس: معیار بازیابی تصویر در مقیاس بزرگ. در مجموعه مقالات کنفرانس IEEE 2018 در مورد بینایی کامپیوتری و تشخیص الگو، سالت لیک سیتی، UT، ایالات متحده آمریکا، 18 تا 22 ژوئن 2018؛ صص 5706–5715. [ Google Scholar ]
  38. دنگ، ج. دونگ، دبلیو. سوچر، آر. لی، ال.-جی. لی، ک. Fei-Fei, L. Imagenet: پایگاه داده تصویر سلسله مراتبی در مقیاس بزرگ. در مجموعه مقالات کنفرانس IEEE 2009 در مورد بینایی کامپیوتری و تشخیص الگو، میامی، FL، ایالات متحده آمریکا، 20-25 ژوئن 2009. ص 248-255. [ Google Scholar ]
  39. لیو، پی. گو، جی. گوا، اچ. ژانگ، دی. ژو، Q. ترکیب آنتروپی توزیع ویژگی با ویژگی های R-MAC در بازیابی تصویر. Entropy 2019 ، 21 ، 1037. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  40. موهدانو، ای. مک گینس، ک. O’Connor، NE; سالوادور، آ. مارکز، اف. Giró-i-Nieto، X. کیسه هایی از ویژگی های کانولوشنال محلی برای جستجوی نمونه مقیاس پذیر. در مجموعه مقالات ACM 2016 در کنفرانس بین المللی بازیابی چند رسانه ای، ونکوور، BC، کانادا، 6-9 ژوئن 2016؛ صص 327-331. [ Google Scholar ]
  41. Maaten، LVD شتاب دهنده t-SNE با استفاده از الگوریتم های مبتنی بر درخت. جی. ماخ. فرا گرفتن. Res. 2014 ، 15 ، 3221-3245. [ Google Scholar ]
شکل 1. ویژگی های پیچیدگی عمیق با وزن برجسته جهانی برای بازیابی تصویر. CNN، شبکه عصبی کانولوشنال؛ R-MAC، فعال سازی حداکثر منطقه ای کانولوشن ها. GSW، وزن برجسته جهانی.
شکل 2. حداکثر فعال سازی منطقه ای کانولوشن (R-MAC) [ 25 ]. مربع‌های رنگ‌های مختلف نمایانگر مناطق مختلف تقسیم‌بندی شده و نقاط با رنگ‌های مختلف مرکز هر منطقه را نشان می‌دهند.
شکل 3. مربع های آبی و سبز دو ناحیه هستند که با R-MAC [ 25 ] در یک نقشه ویژگی از نظر کانال تقسیم می شوند. توزیع در این دو منطقه متفاوت است.
شکل 4. R-MAC تعمیم یافته. مربع‌های با عمق‌های سبز متفاوت، نقشه‌های ویژگی هر کانال را نشان می‌دهند که توسط یک تصویر از طریق هسته‌های پیچشی مختلف به دست می‌آید و مناطق تقسیم می‌شوند. یک سری دایره های سبز رنگ در شکل نشان می دهد که هر منطقه از نقشه ویژگی از نظر کانال از مقادیر مشخصه محاسبه شده توسط لپهنجار به همین ترتیب دایره آبی، دایره سبز و غیره یک سری مقادیر ویژگی هستند که در هر ناحیه از کانال های دیگر به دست می آیند. توصیفگر GR-MAC به معنای بردار ویژگی تولید شده توسط R-MAC تعمیم یافته است، همانطور که در رابطه (13) نشان داده شده است.
شکل 5. ویژگی های کانولوشن عمیق با وزن مشترک.
شکل 6. نقشه حرارتی مقایسه با وزن مشترک برجستگی. SW، وزن برجسته.
شکل 7. هفت نتیجه برتر بازیابی برای مجموعه داده پاریس.
شکل 8. Barnes-Hut t-SNE (t-distributed stochastic embedding) [ 41 ] تجسم ویژگی جاسازی آموخته شده جیسwدر مجموعه داده oxford5k [ 33 ].

بدون دیدگاه

دیدگاهتان را بنویسید