1. مقدمه
در گذشته طبقه بندی محصولات مختلف در تایوان با داده های تصویری از طریق عکسبرداری هوایی به دست می آمد. بر این اساس، طبقهبندی از طریق بررسی درجا آن دادههای تصویری به طور معمول برای دیجیتالی کردن نقشه موضوعی اعمال میشود [ 1 ]. با این حال، این اقدامات اغلب به نیروی انسانی و منابع مادی زیادی نیاز دارد. بنابراین، این مطالعه تصمیم گرفت تا دادههای تصویری را برای بررسی محصولات مختلف از طریق تصاویر فراطیفی استفاده کند [ 1 ، 2 ، 3 ].
وضوح فضایی یک تصویر ماهواره ای بسیار ناهموار است که در آن تشخیص مناطق کوچک زمین های کشاورزی بسیار سخت است. به طور کلی طول زمین زراعی بین 10 تا 50 متر و عرض عموماً هفت تا 20 متر است. بنابراین، استفاده از وضوح فضایی 6 تا 40 متر در داده های تصویر ماهواره ای در ناحیه هدف با فرمت رایج بسیار سخت است. متناوبا، داده های تصویر فراطیفی به انتخاب جدیدی برای نظارت و تجزیه و تحلیل زمین های کشاورزی تبدیل می شوند [ 3 ]. تصاویر فراطیفی وضوح طیفی تصویر و باندهای تصویر (یا طیف تصویر فراخوانی) بسیار بهبود یافته اند. اگر تفسیر فضایی تصویر به طور قابل توجهی بهبود یافته باشد، نتایج طبقه بندی را می توان به طور منطقی افزایش داد [ 2 ، 3 ]]. با این حال، اطلاعات تصویر فراطیفی برای طبقهبندیکنندههای سنتی بسیار پیچیده است که نمیتوانند دقت طبقهبندی خوبی را به دست آورند [ 4 ]]. این هدف روز به روز دشوارتر می شود زیرا مقدار اندازه در داده های مکانی تصویر به شدت افزایش می یابد. یک طبقه بندی کننده مناسب باید برای کار طبقه بندی تصویر انتخاب شود. انتخاب نادرست طبقهبندیکننده میتواند منجر به افزایش اشتباهات کمیسیون و حذف در بین دستهبندیها شود. در این تحقیق، داده های مورد تجزیه و تحلیل و داده های پیمایش میدانی در این تحقیق، داده های نمونه ارائه شده توسط موسسه تحقیقاتی TARI (مؤسسه تحقیقات کشاورزی تایوان، شورای کشاورزی) بود. دادههای TARI مواد تحقیقاتی بسیار کمیابی هستند که توسط بخش کشاورزی تایوان برای ترویج تجزیه و تحلیل طبقهبندی تصویر برای دانشمندان تولید شدهاند. آنها همچنین در افزایش اطلاعات باند و وضوح یا بعد فضایی بالا نقش دارند. پایگاه داده نسبتاً بزرگ است و به روش طبقه بندی خوبی برای تحقیق و تحقیق نیاز دارد. ادبیات گسترده ای در مورد طبقه بندی محصولات بر روی تصاویر ابرطیفی در گذشته وجود دارد. با این حال، با در نظر گرفتن یک طراحی چند هدفه، طبقهبندیکننده موجود بهخوبی کار نمیکند، بهویژه هنگام اعمال رویکرد طبقهبندیکننده واحد. انگیزه این مطالعه نشان دادن یک طبقهبندی دو مرحلهای بود که استراتژی مبتنی بر پیکسل (رویکرد یادگیری ماشین) و مبتنی بر منطقه (رویکرد یادگیری عمیق) را برای حل مشکل ترکیب میکند.
با این حال، روند استفاده از تصاویر فراطیفی به عنوان مواد در مرحله فعلی که اندازه داده ها با پیچیدگی نیز به طور قابل توجهی افزایش یافته است به تدریج در حال افزایش است [ 5 ]. آن دادههای مشاهدهشده همچنین ممکن است حاوی نویز بیشتری باشند یا با تصمیمگیری در طبقهبندی تصویر ارتباطی نداشته باشند [ 5 ]. داده کاوی و هوش مصنوعی برای طبقه بندی استفاده می شود که بسیار مهم می شود [ 6 ، 7 ]. مشاهدات در مقیاس بزرگ برای بهبود دقت طبقه بندی نیاز به کاهش ویژگی ها دارند. علاوه بر این، انتخاب ویژگی یا استخراج ویژگی قابلیت کاهش پیچیدگی داده ها را دارد [ 8]. از یک طرف، تجزیه و تحلیل مؤلفه اصلی (PCA) تکنیکی برای محاسبه مؤلفه های اصلی و انتقال آنها برای نمایش تغییر مبنای در داده ها است [ 9 ]. از سوی دیگر، این تکنیکی است برای کاهش ابعاد مجموعه داده های بزرگ، افزایش تفسیرپذیری، اما در عین حال، به حداقل رساندن از دست دادن اطلاعات. یعنی گاهی اوقات فقط استفاده از چند جزء اصلی مورد توجه قرار می گیرد و از بقیه اجزای بی فایده غفلت می شود. این بخش مهمی از تحلیل تصویر فراطیفی است. یعنی PCA یک تکنیک آماری چند متغیره است و تصویر فقط یک متغیر دارد: بازتاب. از طریق PCA به عنوان یک تکنیک پیش پردازش داده های تصویر، می توان دقت را به طور موثر بهبود بخشید [ 10]. علاوه بر برنامه ریزی مناسب برای پیش پردازش تصویر، انتخاب طبقه بندی کننده به یک انتخاب مهم تبدیل می شود.
در میان تکنیک های یادگیری ماشین، ماشین بردار پشتیبان (SVM) یک مدل طبقه بندی یادگیری نظارت شده برای تجزیه و تحلیل داده های تصویر سنجش از دور است. اکثر دانشمندان معتقدند که این قدرتمندترین رویکرد طبقه بندی است [ 11 ، 12 ، 13 ]. مطالعات گذشته نشان داده است که در مقایسه با طبقهبندیکنندههای مختلف، SVM بهترین عملکرد را در بین بسیاری از طبقهبندیکنندهها در طبقهبندی تصویر داشت [ 6 ]]. به طور خاص، با توجه به مجموعه ای از نمونه های آموزشی، هر داده آموزشی به عنوان یکی از دو دسته یا دسته های دیگر علامت گذاری می شود. الگوریتم آموزشی SVM مدلی را برای یک نمونه جدید ایجاد می کند که می تواند به یکی از دو دسته اختصاص داده شود. این پیشرفت آن را به یک طبقهبندیکننده خطی باینری غیر احتمالی تبدیل میکند. مدل SVM نمونه هایی را به عنوان نقاطی در فضا نشان می دهد که به دنبال یک لبه برش غیرخطی ممکن برای دسته بندی های جداگانه با گسترده ترین فاصله فعلی ممکن می گردند [ 14 ، 15 ]. سپس نمونههای جدید در همان فضا جفت میشوند و دستهها پیشبینی میشوند که در کدام سمت فاصله قرار میگیرند. متأسفانه، این رویکرد تنها داده های مبتنی بر پیکسل را در تجزیه و تحلیل طبقه بندی تصویر در نظر می گیرد [ 16 ، 17 ]]، که ممکن است اثرات نمک و فلفل در تولید نقشه های موضوعی ایجاد کند.
به عنوان بخشی از این مطالعه، شبکه عصبی کانولوشنال (CNN) برای مدیریت طبقهبندی تصویر توسط بلوکها (یا به اصطلاح سلول) در پیش پردازش دادهها استفاده شد. CNN یک مدل جالب برای همه یادگیری عمیق است. CNN یک ابزار بسیار قدرتمند در تشخیص تصویر است که در آن مدل های بسیاری از تشخیص تصویر بر اساس معماری CNN ساخته شده است [ 18 ، 19 ، 20 ، 21 ، 22 ، 23 .]. CNN عموماً از پرسپترون های چندلایه تشکیل شده است. پرسپترون های چندلایه به شبکه ای متصل هستند که در آن هر نورون در یک لایه به تمام نورون های لایه بعدی متصل است. روشهای معمولی برای تولید ساختار شبکه شامل افزودن برخی از انواع اندازهگیری بزرگی وزنها به تابع تلفات است. با این حال، CNN فرآیند متفاوتی را در نظر می گیرد که از الگوی سلسله مراتبی در داده ها بهره می برد و الگوهای پیچیده را با بازتولید آنها به عنوان الگوهای کوچکتر و ساده تر، دوباره جمع می کند [ 24 ]. شایان ذکر است که مدل CNN نیز یک مدل یادگیری عمیق است که توسط چند مرجع از بافتهای بینایی مغز انسان ساخته شده است [ 25 ].]. پس از یادگیری در مورد CNN، یادگیری سایر مدل های یادگیری عمیق نیز مفید است. علاوه بر این، مطالعه ما برنامه ای برای تنظیم اندازه های مختلف بلوک ها برای تناسب با اندازه های مختلف محصول در مزرعه نوشت. مفهوم منطقه ای طبقه بندی [ 26 ] نیازهای CNN را برای افزایش عملکرد نتایج برآورده می کند.
اگرچه برخی از مقالات CNN + SVM را برای طبقه بندی ترکیب کرده اند، تنها چند مقاله در سنجش از دور منتشر شده است [ 27 ]]. اکثر آنها در CNN اعمال می شوند و سپس SVM برای تجزیه و تحلیل بیشتر استفاده می شود. این مطالعه یک ایده کاملاً جدید را پیشنهاد میکند که SVM و CNN را برای مدیریت طبقهبندی چند طبقه در سنجش از دور ترکیب میکند. تازگی این مطالعه با مطالعه قبلی که در آن یک سیستم دو مرحلهای با یک برنامه سلولی جدید توسعهیافته برای پیشپردازش و ماژول تعمیر در برنامه CNN تولید شد، کاملاً متفاوت است. SVM در مرحله اول برای حل داده های تصویر فراطیفی با رویکرد مبتنی بر پیکسل استفاده شد. سپس برنامه ای برای تفکیک مزارع مختلف به اندازه های مناسب به عنوان بلوک های مختلف (به اصطلاح سلول ها؛ مبتنی بر منطقه) برای پیش پردازش در CNN نوشته شد. سلول ها به مدل CNN منتقل شدند و به ترتیب برای کدام نوع محصول تعیین شدند. در نهایت، ماژول تعمیر خطاهای طبقه بندی SVM را برطرف می کند.بخش 2 داده های تصویر فراطیفی را توصیف می کند و مطالعه معرفی می شود. در بخش 3 ، طرح های ما در مورد نحوه ترکیب SVM و CNN با برنامه ای برای نشان دادن بلوک ها (سلول ها) ارائه شده است. در بخش 4 ، نتایج مختلف نشان داده شده و نشان داده شده است. در نهایت، در بخش 5 ، به طور خلاصه مزایای استفاده از این رویکرد را خلاصه می کنیم.
2. مواد
2.1. مقدمه ای مختصر در مورد منطقه مورد مطالعه
منطقه مورد مطالعه در دشت جیانان تایوان واقع شده است. این منطقه کشت مهمی است که توسط دولت برای تولیدات مختلف زراعی طراحی شده است تا اندازه مناسبی از زمین های کشاورزی را نمایش دهد. برنج و سبزیجات مختلف که در زمینهای کشاورزی کشت میشوند، نمونههای عالی برای محققان و دانشمندان هستند تا با استفاده از طبقهبندیکنندهها و انواع تصویر، عملکرد طبقهبندی تصاویر را مطالعه کنند. دادههای تصویری همچنین شامل زمینهای غیر کشاورزی، به عنوان مثال، استخرهای ماهیگیری، ساختمانها، جادهها و زمینهای جنگلی است که 39.7 درصد از کل مساحت زمین را شامل میشود ( شکل 1 ). مختصات مرکز 186,343′ شمالی، 2,619,185′ شرقی است. طول و عرض منطقه آزمایشی 0.56 کیلومتر و 0.94 کیلومتر بود. مساحت مورد مطالعه حدود 52 هکتار بود.
2.2. معرفی مختصر فرمت تصویر
در سال 2016، تصاویر فراطیفی مورد استفاده در این مطالعه توسط تصویرساز طیفنگاری هوابرد فشرده (CASI) شرکت نقشهبرداری Chung Hsing تایوان ارائه شد. فرمت تصویر دارای طول موج های طیفی از 380 نانومتر تا 1050 نانومتر (معادل محدوده باند نور مرئی تا مادون قرمز نزدیک) است که می تواند تا 288 باند اطلاعات طیفی [ 28 ، 29 ] با وضوح 50 سانتی متر × 50 سانتی متر را به دست آورد. شکل 1منطقه مورد مطالعه را ارائه می دهد. پس از ایجاد نمونه، 1000 نمونه به طور تصادفی برای نقاط توسط داده های فراطیفی انتخاب شدند که 500 نقطه داده های آموزشی و 500 نقطه داده های آزمایشی بودند. 1000 نقطه نمونه به صورت یکنواخت و تصادفی در منطقه مورد مطالعه ایجاد شد. قوانین تصمیم گیری چند هدفه با در نظر گرفتن هر محصول مختلف به عنوان یک تصمیم و 72 باند به عنوان ویژگی ایجاد شد. این داده ها برای طبقه بندی کننده های SVM و CNN استفاده شد. بر اساس مزیت ابزارهای اندازه گیری پس از آزمایش مکرر، پهنای باند 9.6 نانومتر به طور مساوی بر روی داده های طیفی جمع آوری شده توزیع شد. فاصله پهنای باند ممکن است باعث ایجاد نویز داده در صورت تقسیم مجدد شود. بنابراین، این مطالعه وضوح 1 متر را بر روی یک تصویر ابرطیفی با مجموع 72 باند تصویر گرفت.
2.3. تصویر در منطقه مطالعه رخ می دهد
عکس هوایی در 6 آوریل 2016 گرفته شده است. اندازه تصویر 942 × 569 پیکسل است. این تصویر قبلاً با همجوشی و کالیبراسیون استاندارد پیش پردازش شده بود [ 29 ]. به عنوان مثال، رنگدانه های برگ و دیواره های سلولی به سختی در ناحیه مادون قرمز نزدیک (700-1300 نانومتر) جذب شدند. طیف بازتابی برگها در ناحیه مادون قرمز نزدیک کاملاً متفاوت بود. در ناحیه اوج، بازتاب به عوامل مختلفی مانند ضخامت، اندازه، آرایش و محتویات سلولی سلول های مزوفیل مرتبط است.
تصویر فراطیفی در این مطالعه در شکل 1 الف نشان داده شده است. توزیع مختلف محصولات و مکان ها در شکل 1 ب ارائه شده است. تصویر در این مطالعه 72 باند با وضوح طیفی 3 نانومتر و وضوح فضایی 1 متر به دست آورد. هر باند دارای محدوده و ویژگی رنگ خاص خود است.
3. روش تحقیق
3.1. برنامه درسی
طرح تحقیق به دو مرحله تقسیم شد. در مرحله اول، از مدل مبتنی بر پیکسل رویکرد SVM برای تجزیه و تحلیل 1000 نقطه نمونه توسط دادههای فراطیفی استفاده شد. پانصد امتیاز داده های آموزشی و 500 امتیاز داده های آزمون از 1000 امتیاز نمونه به دست آمد. سپس، یک برنامه کامپیوتری به نام cell که به زبان پایتون نوشته شده است، برای تولید اندازههای مختلف بلوکها به تناسب زمینههای مختلف محصولات استفاده شد. برنامه Cell برای شناسایی خودکار پیکسل گوشه سمت چپ بالای فیلدهای مختلف طراحی شده است. در حالی که این پیکسل تعیین می شود، شکل مربع نقطه اولیه به هر دو x و y گسترش می یابدجهت ها. سپس، می تواند اندازه های مختلف بلوک را برای تناسب با مناطق مختلف محصولات تنظیم کند. همانطور که از مجموعه دادههای سنجش از دور مشاهده میشود، شبکههای عصبی کانولوشنال (CNN) ممکن است ابزار بسیار مناسبی برای تجزیه و تحلیل مزارع مختلف به دلیل طبقهبندی اشیا باشند. این شبکهها میتوانند هم با تشخیص و هم با طبقهبندی سروکار داشته باشند، زیرا شبکههای عصبی میتوانند یک راهحل همهجانبه برای تشخیص و طبقهبندی هدف ارائه دهند. با این حال، هنوز نیاز به CNN هایی از مجموعه داده های حقیقت زمینی بسیار بزرگ یا شکست های طبقه بندی وجود دارد که چشم انسان قادر به ایجاد آن نیست. با توجه به این مشاهدات، ما روی راهحلهای ماژول تمرکز کردیم، با این فرض که آنها با یک الگوریتم تشخیص هدف ارائه شدهاند، که وصلههای تصویر را برای مرحله شناسایی و شناسایی استخراج میکند.
3.2. ماشین بردار پشتیبانی
ماشین بردار پشتیبان (SVM) یک طبقهبندی کننده یادگیری با نظارت برتر برای طبقهبندی خطی/غیرخطی است. این مطالعه SVM را به عنوان مفهوم بهبود تئوری یادگیری آماری در نظر می گیرد. همچنین به طور کلی به عنوان یک طبقه بندی موثر برای حل بسیاری از مسائل عملی استفاده می شود [ 12 ، 13 ، 14 ]. ویژگی خاص این رویکردها/طبقهبندیکنندهها به حداقل رساندن همزمان خطای طبقهبندی تجربی و به حداکثر رساندن حاشیه هندسی است. بنابراین، آن را به عنوان طبقه بندی کننده حداکثر حاشیه [ 11 ] نیز می شناسند.
به طور خلاصه، مفاهیم طبقات خطی قابل تفکیک ساده ترین موارد برای تحلیل سه طبقه مختلف پوشش زمین هستند. می توان فرض کرد که داده های آموزشی عدد k بر روی نمونه ها به صورت ارائه شده است {ایکسمن،yمن}{ایکسمن،�من}; جایی که x∈ _آرنایکس∈آرنبا فضای N بعدی و y∈ { + 1 , − 1 }�∈{+1،-1}برچسب کلاس است. این داده ها یا الگوهای آموزشی به صورت خطی قابل تفکیک هستند اگر بردار w (تعیین جهت صفحه متمایز کننده) و مقیاس b (تعیین افست صفحه متمایز از مبدا) وجود داشته باشد، به طوری که
فضای فرضیه با مجموعه ای از توابع ارائه شده توسط:
اگر مجموعه مثال ها به صورت خطی قابل تفکیک باشد، SVM طوری طراحی شده است که مقدار آن را به حداقل برساند | |wمن| |||�من||. معادل جستجوی ابرصفحه های تقسیم بندی برای فاصله بین کلاس های مختلف همه داده های آموزشی است. همچنین در امتداد یک خط عمود بر ابر صفحه بررسی می کند.
این فاصله نیز به عنوان حاشیه تعریف می شود. نقاط داده نزدیکترین نقطه به ابر صفحه هستند و برای تعیین موقعیت حاشیه استفاده میشوند. بر این اساس، این نقاط داده داده شده، بردارهای پشتیبانی نامیده می شوند. بنابراین، تعداد بردارهای پشتیبانی باید تا حد امکان کوچک باشد.
مشکل به حداقل رساندن | |wمن| |||�من||با استفاده از تکنیک های بهینه سازی استاندارد برنامه نویسی درجه دوم (QP) حل می شود. همچنین با استفاده از ضریب لاگرانژی مسئله را به فضای دوگانه تبدیل می کند. لاگرانژ با معرفی ضرایب مثبت لاگرانژ ارائه می شود λمن, i = 1 , … k �من، من=1،…ک. راه حل مسئله بهینه سازی با در نظر گرفتن نقطه زینی تابع لاگرانژ به دست می آید
راه حل در معادله (5) توضیح داده شده است که در آن L ( w , b , λ�) با توجه به w و b به حداقل می رسد و مربوط به حداکثر می شود λمن≥ 0�من≥0. بنابراین، برای یک مشکل دو کلاسه، قانون تصمیم گیری با موفقیت دو کلاس را قطع می کند، که می تواند به صورت زیر نوشته شود:
فرمول حاشیه نرم برای طبقه بندی داده های جدانشدنی خطی توسط کورتس و واپنیک (1995) استفاده شد. به طور خاص، اگر مرز تصمیم خطی خاصی وجود نداشته باشد که بتواند داده ها را کاملاً از هم جدا کند، این به اصطلاح خطی غیرقابل تفکیک است. آنها پیشنهاد کردند که محدودیت هر بردار آموزشی از یک کلاس معین در همان سمت ابر صفحه بهینه است که مقدار را اعمال می کند. در ξ i ≥ 0، الگوریتم SVM برای هایپرپلن، حاشیه را به حداکثر می رساند. ξ iتعداد خطاهایی است که طبقه بندی کننده ما در مجموعه نمونه های آموزشی ایجاد می کند. در عین حال، تعداد نمونه های متناسب با تعداد اشتباهات طبقه بندی را به حداقل می رساند. این تابع مبادله با حاشیه و خطای طبقهبندی نادرست که توسط یک ثابت مثبت C مانند برحسب ∞ > C > 0∞>سی>0. بنابراین، برای داده های غیرقابل تفکیک، معادله (6) را می توان به صورت زیر نوشت:
که در آن μ i ضریب لاگرانژ برای مثبت بودن ξ i است. حل معادله (5) توسط نقاط زینی لاگرانژی با کمینه سازی نسبت به w , x , b و به حداکثر رساندن نسبت به ξi ≥ 0 و μ i ≥ 0 تعیین می شود . یک برنامه کامپیوتری نوشته شده در پایتون روش SVM را تحلیل کرد. بعداً اولین مرحله از نتایج SVM ارائه می شود.
3.3. یادگیری عمیق برای طبقه بندی تصویر منطقه ای
یک کاربرد جدید گسترده در یادگیری عمیق در سالهای اخیر توسعه یافته است، به ویژه شبکه عصبی کانولوشنال (CNN) [ 18 ]. این نوع شبکه عصبی مصنوعی به سرعت برای ارائه نتایج عالی در حوزه های مختلف مورد بهره برداری قرار گرفته است. آنها می توانند به طور تطبیقی تفاوت فضایی در سلسله مراتب ویژگی ها را از طریق انتشار پس زمینه با استفاده از بلوک های ساختمانی متعدد از لایه های کانولوشن، لایه های ادغام، لایه های کاملاً متصل و غیره یاد بگیرند. اکثر برنامه های کاربردی مبتنی بر CNN برای تشخیص و تشخیص اشیا با موفقیت برای حل تصاویر نوری توسعه یافته اند. اشیاء غیرقابل پیش بینی/ غیرقابل شمارش [ 19]. اگر از سنسورهای تصویربرداری دیگر (رادار، سونار و مادون قرمز) استفاده شود، ممکن است برای درک بهتر ویژگیهای تصویر ذاتی با مشکلاتی مواجه شود. از این رو، CNN ها با موفقیت برای طبقه بندی اهداف زمینی در بسیاری از انواع تصاویر سنجش از دور استفاده شده اند. برخی از CNN ها قبلا برای این نوع تصویر برای طبقه بندی هدف پیشنهاد شده اند [ 18 ، 19 ]. آنها در کارهای طبقه بندی تصویر از تکنیک های یادگیری ماشین کم عمق پیشی می گیرند. همچنین می تواند برای کار بر روی سایر مشکلات بینایی کامپیوتری مانند تخمین پوز، وضوح فوق العاده، یا تقسیم بندی تصویر سازگار شود [ 23 ، 24 ، 25 ]. شکل 2یک ساختار کلی از شبکه و یک عملیات ادغام میانگین جهانی توسط لایه softmax را ارائه می دهد. همچنین به طور خودکار خطاها را بین مقادیر واقعی و مقادیر پیش بینی شده ارزیابی می کند.
3.3.1. پیچیدگی
هنگامی که برنامه تصاویر را پردازش می کند یا آنها را شناسایی می کند، باید ویژگی ها/ویژگی های نمودار را از هر پیکسل بگیرد. علاوه بر مقدار هر پیکسل، باید اتصالات مختلف بین پیکسل ها و پیکسل ها را در نظر بگیرد. یکی از راه های مشخص کردن تصویر، فیلتر کردن تصویر برای به دست آوردن اطلاعات مفیدتر مانند استفاده از تشخیص لبه (تشخیص لبه) مشتق (ماسک) است. به عبارت دیگر، لایههای کانولوشن، استخراجکنندههای ویژگی قوی هستند که در آنها فیلترهای کانولوشنال قادر به یافتن ویژگیهای تصاویر هستند. از این رو، هر نورون کانولوشنال دادههایی را پردازش میکند که مسئول میدان دریافت آن هستند. شبکه های عصبی پیشخور کاملاً متصل اغلب برای یادگیری ویژگی ها به عنوان مجموعه ای از داده های طبقه بندی شده استفاده می شوند. با این حال، اعمال این معماری بر روی تصاویر عملی نیست. از این رو، تعداد بسیار زیادی از نورون ها حتی در معماری کم عمق (برعکس عمیق) در نظر گرفته می شود. از طریق استفاده از اندازه ورودی بسیار بزرگ پیکسل های مرتبط با تصاویر، آن پیکسل ها ممکن است به عنوان یک متغیر مرتبط در نظر گرفته شوند. یعنی عملیات کانولوشن راه حل جدیدی برای این مشکل به ارمغان می آورد زیرا تعداد پارامترهای آزاد را کاهش می دهد و به شبکه اجازه می دهد تا با استفاده از پارامترهای کمتر عمیق تر شود. استفاده از کانولوشن به عملکرد فیلتر کردن تصویر برای به دست آوردن تنها لبه تصویر دست می یابد. عملیات پیچیدگی راه حل جدیدی برای این مشکل به ارمغان می آورد زیرا تعداد پارامترهای آزاد را کاهش می دهد و به شبکه اجازه می دهد تا با استفاده از پارامترهای کمتر عمیق تر شود. استفاده از کانولوشن به عملکرد فیلتر کردن تصویر برای به دست آوردن تنها لبه تصویر دست می یابد. عملیات پیچیدگی راه حل جدیدی برای این مشکل به ارمغان می آورد زیرا تعداد پارامترهای آزاد را کاهش می دهد و به شبکه اجازه می دهد تا با استفاده از پارامترهای کمتر عمیق تر شود. استفاده از کانولوشن به عملکرد فیلتر کردن تصویر برای به دست آوردن تنها لبه تصویر دست می یابد.
3.3.2. Max-Pooling
ادغام یکی دیگر از مفاهیم مهم در پردازش شبکه های عصبی کانولوشن است که شکلی از نمونه برداری است [ 25 ، 26 ، 27 ]. شکلهای مختلفی از ادغام غیرخطی وجود دارد که در آنها جمعبندی حداکثری رایجترین است. مفهوم max-pooling اعمال حداکثر مقدار از هر یک از یک خوشه نورون در لایه قبلی است. تصویر ورودی ها به بسیاری از مناطق مستطیلی با حداکثر خروجی برای هر زیر ناحیه تقسیم می شود تا محاسبه ادغام تسهیل شود. این مکانیسم برای تشخیص یک ویژگی موثر است و موقعیت دقیق آن بسیار کمتر از موقعیت نسبی آن با سایر ویژگی ها است. لایه ادغام شده به طور مداوم برای کاهش اندازه فضایی داده ها پیشرفت می کند [ 28]. سپس تعداد پارامترها و تعداد محاسبات نیز به طور همزمان کاهش مییابد که تا حدی بر مشکلات اضافه برازش حاکم است [ 29 ].
3.3.3. تصویر رنگارنگ
سخت افزار کامپیوتر در برخورد با تصاویر رنگارنگ با دو مشکل مواجه می شود [ 30 ، 31 ]:
(3.1) به حافظه زیادی نیاز دارد. به عنوان مثال، برای یک تصویر رنگی با ابعاد 30×30، باید از نورون های ورودی 30×30×24 استفاده شود. اگر لایه پنهان در وسط با 100 نورون ساخته شود، هر نورون به مقدار وزنی از نقاط شناور (8 بایت) نیاز دارد. سپس مجموعاً 21600 × 100 × 8 = 0.14648 گیگابایت حافظه درخواستی است.
(3.2) پرسپترون چندلایه تنها تک تک پیکسل های تصویر را تعیین می کند، که به طور کامل ویژگی های مهم تصویر را رها می کند. هنگامی که چشم انسان الگوهای شیء را می بیند، قضاوت/ویژگی های فردی در مورد ویژگی های قسمت های مختلف این شی نیز انجام می دهد. با این حال، سنسورهای چند لایه از این ویژگی ها بهره نمی برند. بنابراین، دقت در تفسیر تصویر ممکن است به خوبی CNN نباشد. در نهایت، در حالی که محاسبات لایه های کانولوشن و حداکثر ادغام انجام می شود، استدلال سطح بالا در شبکه عصبی از طریق لایه های کاملاً متصل انجام می شود. از این رو، بسیاری از نورون ها در یک لایه کاملاً متصل با موفقیت به تمام اقدامات در لایه قبلی متصل می شوند [ 32 ، 33 ، 34 ].
3.3.4. تعیین لایه ها
در یک شبکه عصبی کانولوشن، سه نوع لایه وجود دارد: لایه کانولوشن، لایه ترکیبی و لایه کاملاً متصل. هر یک از این لایه ها دارای پارامترهای مختلفی هستند که می توانند بهینه شوند و کار متفاوتی را روی داده های ورودی انجام می دهند. شماره لایه اولیه مشابه ANN تعیین می شود. تعداد لایهها و تعداد گرهها در هر لایه، فراپارامترهای مدل هستند که باید در برنامه توسعهیافته مشخص شوند. همه پاسخهای طبقهبندی به نیاز به آزمایش دقیق همه لایهها برمیگردند تا برای مجموعه داده خاص ارائهشده بهترین کار را داشته باشند.
در این مطالعه، یک برنامه کامپیوتری نوشته شده در پایتون برای انجام تحلیل رویکرد CNN استفاده شد. از نتایج به عنوان مرحله دوم نتایج استفاده خواهد شد.
3.4. برنامه درسی
کل طرح تحقیق به پنج مرحله تقسیم شد ( شکل 3 را ببینید ): (1) ماشین بردار پشتیبانی قبل از پردازش. (2) آماده سازی مواد برای انتخاب ویژگی PCA. (3) کلاس جزئیات پردازش مجدد شبکه عصبی کانولوشن. (4) قوانین چند طبقه بندی و لایه را ایجاد کنید و (5) ماژول تعمیر را برای رفع نتایج طبقه بندی خطا اجرا کنید. می توان آن را به صورت زیر خلاصه کرد:
شکل 4 پیشرفت در نحوه عملکرد برنامه Cell را نشان می دهد. ابتدا، برای انتخاب یک منطقه برنج شالیزاری به عنوان نمونه توسعه داده شد. شکل 4 a نشان میدهد که چگونه مدل طبقهبندی شی منطقهای (ROC) [ 32 ] مجموعهای ترکیبی از پارامترهای دانههای Area (A) و Similarity (S) را انتخاب میکند. دوم، خط قرمز تابع رگرسیون خطی با جمعآوری دادههای مختصات پیکسلهای آبی است که از مدل ROC تولید میشوند و به تدریج به لبههای اطراف برای هر حاشیه از طرفها به کل پچ یکپارچه افزایش مییابد. این دو پارامتر برای بزرگ کردن و ادغام سلول های مختلف به عنوان یک منطقه تنظیم می شوند. علاوه بر این، این برنامه به طور خودکار قسمت های کوچک منطقه را شناسایی و همچنین آنها را حذف می کند. نتیجه نهایی در شکل 4 نشان داده شده استب
4. بحث در مورد نتایج
4.1. تجزیه و تحلیل مرحله اول ماشین بردار پشتیبان (SVM)
میز 1تعداد نمونه های آموزشی و نمونه های آزمایشی را ارائه می دهد. همه این نمونه ها به صورت تصادفی و یکنواخت برای هر دسته مختلف انتخاب شدند. همچنین با رنگهای مختلف، محصولات، ساختمانها و جادههای مختلف را نشان میدهد. از نمونه های آموزشی برای ساخت مدل SVM استفاده شد. نمونههای آزمایش برای کارایی اعتبارسنجی مدل SVM استفاده شد. به طور خاص، توابع ماشین بردار پشتیبان را می توان به چهار نوع تقسیم کرد: توابع خطی، توابع چند جمله ای، توابع پایه شعاعی و توابع S. کاربر با در نظر گرفتن شرایط مناسب، عملکرد اصلی را انتخاب می کند. پارامترها برای توابع هسته مختلف تنظیم می شوند که آنها نیز متفاوت هستند. کاربر باید تابع و پارامترهای هسته را با توجه به موقعیت تنظیم کند که تأثیر قابل توجهی در میزان دقت پیش بینی خواهد داشت. به طور خاص، توزیع و ابعاد مختلف داده ها ممکن است برای یک تابع هسته مناسب جستجو کنند. در این میان، مقدار اولیه پارامتر نیز ممکن است بر سرعت محاسبات تأثیر بگذارد. در این مطالعه، هسته تابع پایه شعاعی (RBF) برای محاسبه انتخاب شد. برای به دست آوردن پارامترهای مدل بهتر، روش جستجوی شبکه ای پارامترهای آزمایشی C = 2100 (پارامتر جریمه) و g = 2 (تابع گاما) را برای ترکیب های ممکن تکرار می کند و نرخ صحیح پارامترهای آن (C, g) را محاسبه می کند. اگر شرایط خود را برآورده کرد، آزمایش مکرر را متوقف کنید و بهترین پارامترهای C و g را خروجی بگیرید، در غیر این صورت مجدداً با پارامترهای جدید جایگزین کنید تا ترکیبات بهینه پیدا شوند. مقدار اولیه پارامتر نیز ممکن است بر سرعت محاسبات تأثیر بگذارد. در این مطالعه، هسته تابع پایه شعاعی (RBF) برای محاسبه انتخاب شد. برای به دست آوردن پارامترهای مدل بهتر، روش جستجوی شبکه ای پارامترهای آزمایشی C = 2100 (پارامتر جریمه) و g = 2 (تابع گاما) را برای ترکیب های ممکن تکرار می کند و نرخ صحیح پارامترهای آن (C, g) را محاسبه می کند. اگر شرایط خود را برآورده کرد، آزمایش مکرر را متوقف کنید و بهترین پارامترهای C و g را خروجی بگیرید، در غیر این صورت مجدداً با پارامترهای جدید جایگزین کنید تا ترکیبات بهینه پیدا شوند. مقدار اولیه پارامتر نیز ممکن است بر سرعت محاسبات تأثیر بگذارد. در این مطالعه، هسته تابع پایه شعاعی (RBF) برای محاسبه انتخاب شد. برای به دست آوردن پارامترهای مدل بهتر، روش جستجوی شبکه ای پارامترهای آزمایشی C = 2100 (پارامتر جریمه) و g = 2 (تابع گاما) را برای ترکیب های ممکن تکرار می کند و نرخ صحیح پارامترهای آن (C, g) را محاسبه می کند. اگر شرایط خود را برآورده کرد، آزمایش مکرر را متوقف کنید و بهترین پارامترهای C و g را خروجی بگیرید، در غیر این صورت مجدداً با پارامترهای جدید جایگزین کنید تا ترکیبات بهینه پیدا شوند. روش جستجوی شبکه پارامترهای آزمایشی C = 2100 (پارامتر جریمه) و g = 2 (تابع گاما) را برای ترکیب های ممکن تکرار می کند و نرخ صحیح پارامترهای آن (C, g) را محاسبه می کند. اگر شرایط خود را برآورده کرد، آزمایش مکرر را متوقف کنید و بهترین پارامترهای C و g را خروجی بگیرید، در غیر این صورت مجدداً با پارامترهای جدید جایگزین کنید تا ترکیبات بهینه پیدا شوند. روش جستجوی شبکه پارامترهای آزمایشی C = 2100 (پارامتر جریمه) و g = 2 (تابع گاما) را برای ترکیب های ممکن تکرار می کند و نرخ صحیح پارامترهای آن (C, g) را محاسبه می کند. اگر شرایط خود را برآورده کرد، آزمایش مکرر را متوقف کنید و بهترین پارامترهای C و g را خروجی بگیرید، در غیر این صورت مجدداً با پارامترهای جدید جایگزین کنید تا ترکیبات بهینه پیدا شوند.
این مرحله برای بهینه سازی مدل با جستجوی راه حل مناسب برای نتایج طبقه بندی در مرحله قبل است. داده های آزمایش برای نتیجه ناشناخته در مدل طبقه بندی ساخته شده توسط مرحله قبل جایگزین می شود و نتایج به دست آمده جمع می شوند که در آن میزان دقت طبقه بندی کلی برای انجام ارزیابی محاسبه می شود. این اثربخشی یادگیری ماشین را در نقاط انتخابی و دادههای ویژگیهای مختلف بررسی میکند. ارزیابی دقت این مطالعه به دو بخش (1) نقشه موضوعی و (2) ماتریس خطا تقسیم شد. شکل 5 نقشه موضوعی نتایج طبقه بندی SVM را نشان می دهد. هنوز برخی قضاوت های نادرست وجود دارد که باید اصلاح شوند. جدول 2ماتریس سردرگمی نتایج SVM را ارائه می دهد. خاطرنشان می شود که ساختمان، جاده و زمین غیر زیر کشت «سایر» فهرست شده در شکل 1 ب هستند.
4.2. مرحله دوم: طبقه بندی بهبود CNN
این مطالعه 9 دسته تقسیم شده به 9 کلاس را برای داده های تحلیل شده CNN ارائه می دهد. اندازه سلول های مختلف برای تناسب با اندازه محصول با در نظر گرفتن ورودی ها برای CNN تولید شد. بنابراین، مدل طبقهبندی شی منطقهای (ROC) [ 32 ، 33 ] اطلاعات تصویر را از مقیاس پیکسل به مقیاس منطقهای (بلوکها یا سلولها) توسط واحدهای عامل برای ایجاد اطلاعات برش ارتقا میدهد. مقیاس اطلاعات از پیکسل تا منطقه منطقه ای نیاز به برنامه ای دارد که برای نمایش نیازهای هر منطقه زراعی نوشته شود و همچنین برای تجزیه و تحلیل های مختلف محصول شناسایی شد.
به عنوان بخشی از این مطالعه، این مطالعه از PCA به عنوان ابزار استخراج ویژگی [ 33 ، 34 ] برای مولفه های مختلف برای نزدیک شدن به دقت استفاده کرد. یک سوال اساسی مطرح می شود: “در هنگام اجرای PCA به چند بعد درخواستی نیاز است؟” از این رو، تصمیم بر این شد که برای درک بهتر تعداد PCA ها برای انجام نتایج این مطالعه، فرآیند PCA 8، 16 و 24 سه ترکیب مختلف را برای دسترسی به دقت انجام داد. این به طور خودکار لبه هر اندازه مزارع مختلف را در رابطه با محصولات مختلف شناسایی کرد. این برنامه برای ساخت یک مدل CNN 30×30 و نمایش نتایج ترکیبی مختلف به عنوان نتایج طراحی شده است. به عنوان مثال، جدول 3خروجی های sequential_14 را نشان می دهد. اندازه اصلی 30 × 30 بود. لایه 1 به 28 × 28 تغییر یافت. عملکرد فعال سازی مدل CNN “Relu” بود. حداکثر عدد دوره 100 با تقسیم اعتبار 0.2 تنظیم شد. پس از اجرای Maxpool 2 × 2 به 14 × 14 کاهش یافت … و به همین ترتیب. سپس، برنامه به طور خودکار softmax 7 × 1 را محاسبه کرد که در آن به یک آرایه یک بعدی تبدیل می شود.
بزرگترین اندازه مربع 30×30 و کوچکترین مربع 5×5 بود. همانطور که برنامه ROC انجام می شود، برنامه Cell سپس برای محاسبه مساحت مربع ناحیه برش استفاده می شود. برنامه Cell به طور خودکار اندازه مناسب هر محصول را برای دستیابی به پنجره هایی با اندازه متحرک مختلف تشخیص می دهد. شکل 6 اندازه های مختلف نمونه ها را در طبقه بندی منطقه ای نشان می دهد. از آنجایی که محصولات مختلف اندازه های متفاوتی دارند، برنامه طبقه بندی مبتنی بر منطقه توسط برنامه Cell همانطور که در شکل 4 ذکر شد، اجرا شد . این گام به گام برای تشخیص مناطق مختلف کل تصویر استفاده می شود. این نمونهها برای مدل CNN انتخاب شدند تا دقت طبقهبندی را تحلیل کنند. جدول 4اندازه سلول را در مدل CNN ارائه میکند، که در مشاهدات از حداکثر اندازههای مختلف مزارع کشاورزی تبعیت میکند [ 32 ، 33 ]. محل سلول ها در شکل 6 نشان داده شده است .
جدول 5 ماتریس سردرگمی CNN را با انتخاب PCA از PCA1، PCA2، PCA3 تا PCA8 نشان می دهد. این مطالعه تصمیم میگیرد تعداد دورهها را انتخاب کند که برابر با 30 است. مشخص شد که فقط مزارع سیبزمینی دارای دو قضاوت نادرست با خطای حذف هستند. میزان دقت 97.1٪ است.
شکل 7 همگرایی PCA = 8 از 30 دوره را نشان می دهد. محور x عدد دوره و محور y دقت پیش بینی شده است. نقطه نشان دهنده دقت داده های آموزشی با توجه به دوره های مختلف است. خط داده های آزمایشی با توجه به دوره های مختلف است.
جدول 5 ماتریس سردرگمی CNN را با انتخاب PCA از PCA1، PCA2، PCA3… تا PCA24 نشان می دهد. دوره های برابر با 30 به عنوان معیار برای مشاهده تفاوت در دقت استفاده شد. مزارع کلم تنها یک قضاوت نادرست با خطای حذف داشتند. میزان دقت 98.6٪ بود. سپس از سیب زمینی به عنوان مثال برای توضیح نحوه عملکرد ماژول تعمیر استفاده کردیم.
شکل 8 همگرایی PCA = 24 از 30 دوره را نشان می دهد. محور x عدد دوره است. محور y دقت پیش بینی شده است . نقطه نشان دهنده دقت داده های آموزشی مربوط به دوره های مختلف است. در مقایسه با شکل 7 ، نرخ همگرایی سریعتر از PCA = 8 حرکت کرد. زمانی که دوره = 15 یا بیشتر بود تقریباً به آرامی تغییر کرد. با این حال، PCA = 8 برای انجام یک نتیجه پایدار به 22 دوره نیاز داشت. به عبارت دیگر، از طریق یک سری آزمایش، این مطالعه نشان داد که CNN برای تعداد معینی از ویژگیهای PCA برای نزدیک شدن به نرخ دقت رضایتبخش عملکرد خوبی داشت [ 34 ، 35 ، 36 ]. این خط داده های آزمایشی برای دوره های مختلف بود. جدول 6نتایج PCA مختلف را در انتخاب ویژگی ارائه می دهد. می توان مشاهده کرد که در حالی که PCA = 8، دقت SVM مبتنی بر RBF 94.95٪ از دقت بود. هنگام افزایش تعداد PCA، دقت کمی افزایش یافت. متأسفانه، میزان دقت هنوز نمی تواند به 100٪ برسد. این توسط تعداد زیادی پیکسل ایجاد شد که باعث ایجاد خطاهای طبقهبندی مبتنی بر پیکسل (اثرات نمک فلفل)، به ویژه در یک تصویر با وضوح بالا میشد. بر این اساس، ماژول تعمیر برای حذف طبقه بندی نادرست ساخته شده توسط SVM طراحی شده است.
برای توضیح بیشتر نحوه عملکرد ماژول تعمیر، از مثالی برای انجام برتری آن استفاده شد. به عنوان مثال، سیب زمینی در خروجی طبقه بندی SVM در مقایسه با دقت تمام پیش بینی های دیگر بدترین حالت بود ( جدول 2 ). خوشبختانه، مدل CNN توسط PCA 24 Epoch 30 100% دقت را برای سیب زمینی داشت ( جدول 6 را ببینید ). از آنجایی که مدل CNN یک طبقه بندی مبتنی بر منطقه است، راه حل مناسبی را در طبقه بندی ارائه می دهد. ماژول تعمیر توسط CNN داده های مبتنی بر بلوک (سلول) به دست آمده است ( جدول 7 را ببینید). بسیاری از این خطاها توسط اثرات نمک فلفل از طریق تجزیه و تحلیل SVM تولید شده است. ماژول تعمیر با موفقیت این خطاها را حذف کرد. علاوه بر این، محاسبه دادههای تصویر باند کامل (72 باند) 145 برابر زمان محاسباتی بیشتر از PCA = 8 طول کشید. اگر در ماژول تعمیر استفاده شود، مقدار زیادی از زمان محاسباتی نیز میتواند ذخیره شود.
از آنجایی که رویکرد CNN نتیجه بهتری نسبت به SVM داشت، یک سوال اساسی مطرح می شود: چرا مستقیماً از مدل CNN استفاده نمی کنیم؟ جدول 8 کارایی زمان محاسباتی را نشان می دهد. سخت افزار کامپیوتر آزمایشی i7-8700 با 16 رم و 4G GTX-1050 Ccard با محاسبه کل نقشه موضوعی بود. سیستم عامل Win10 با استفاده از بسته Python Keras در TensorFlow بود.
با همان سطح دقت، ماژول تعمیر در طبقه بندی دو مرحله ای مطالعه ما راه حل برتری در زمان محاسبات ارائه کرد. یک باند کامل به بیش از پنج ساعت نیاز دارد تا به همان سطح دقت 100٪ برسد. با این حال، PCA = 8 با ماژول تعمیر SVM + CNN می تواند در 3.6 دقیقه به همان سطح دقت برسد. در نتیجه، این مطالعه با افزودن یک ماژول تعمیر، ایدهای درخشان برای اثربخشی مدل دو مرحلهای ما ارائه میکند.
5. خلاصه و نتیجه گیری
تجزیه و تحلیل، اندازه گیری و محاسبه تصاویر سنجش از دور اغلب به یک مدل محاسباتی پیشرفته برای ترکیب طبقه بندی کننده ها برای رسیدن به یک نتیجه خوب نیاز دارد. اگر بتوان طبقهبندیکنندههای مختلف را برای به دست آوردن نتیجه بهتر ادغام کرد، ترکیب آنها با در نظر گرفتن هر یک از مزایای ویژگی در طبقهبندیکنندههای مختلف امکانپذیر خواهد بود. از این رو، این مطالعه یک سیستم محصول طبقهبندی تصویر یکپارچه را برای طبقهبندی چندین محصول عمده در کریدور طلایی Chiayi در یک سیستم تصمیمگیری چند هدفه ایجاد کرد. در این مطالعه از داده های تصویر سنجش از دور فراطیفی CASI استفاده شد. این طرح استفاده از داده های ابرطیفی و طبقه بندی دو مرحله ای برای ساخت طبقه بندی چند طبقه با ماشین بردار پشتیبان + شبکه عصبی کانولوشن و طراحی تحقیقات موازی برای پردازش دسته ای بود.
- (آ)
-
مرحله اول: رویکرد SVM برای نتایج تقریباً مبتنی بر پیکسل انجام شد. میزان دقت در حدود 95.85٪ بود.
- (ب)
-
مرحله دوم: روش یادگیری عمیق برای نتایج سلولی انجام شد. سه مورد مختلف در نظر گرفته شد: PCA = 8، دوره = 30، دقت 97.1٪ بود. PCA = 16، دوره = 30، که در آن دقت 98٪ بود. و PCA = 24، دوره = 30، که در آن دقت 98.6٪ بود.
- (ج)
-
ماژول تعمیر برای استفاده از نتایج طبقهبندی CNN برای اصلاح مدل مبتنی بر پیکسل خطاهای طبقهبندی SVM طراحی شده است. سلول هدف نیز با موفقیت اثر نمک و فلفل را از بین برد.
قابل ذکر است که همین بهبودها را می توان در یک منطقه مطالعاتی مشابه در شرایط زیر نیز اعمال کرد. اگر مجموعه داده دارای مناطق مختلف با اندازههای مختلف محصولات باشد، میتواند به استفاده از این رویکرد کمک کند. از طرفی سایر مطالعات با اثر نمک و فلفل جدی نیز می توانند از این روش دو مرحله ای استفاده کنند. مقایسه ای با در نظر گرفتن چهار محصول عمده، ساختمان ها و جاده ها برای یادگیری عمیق انجام شد. در این مطالعه، مزایای ماشین بردار پشتیبان (SVM) برای طبقهبندی تصویر فراطیفی میتواند یک نتیجه نسبی اولیه خوب به دست آورد و یادگیری عمیق (شبکه عصبی کانولوشن؛ CNN) با ماژول تعمیر توسعهیافته نیز میتواند طبقهبندی جزئیات تصویر را بهبود بخشد.
بدون دیدگاه