هوش مصنوعی | متن کامل رایگان | طبقه بندی تصاویر ریز دانه چند شات: یک بررسی جامع

۳٫۳٫۲٫ آموزش نمایش کلاسی مبتنی بر متریک

تکنیک‌های زیادی برای نمایش کلاس‌های مبتنی بر متریک ارائه شده‌اند که می‌توان آن‌ها را به طور کلی به پنج دسته تقسیم کرد: توزیع ویژگی، مکانیسم توجه، استراتژی متریک، تراز معنایی و یادگیری چند مدلی.

توزیع ویژگی که در [۱۰۱]نشان داده شد که مولد ویژگی مبتنی بر GANs [102] از مشکل فروپاشی حالت رنج می برد. برای رفع این مشکل، رمزگذار خودکار متغیر (VAE) [103] و GAN ها با هم ترکیب شدند تا یک مدل تولید ویژگی مشروط را تشکیل دهند [۷۳]، که با هدف یادگیری توزیع شرطی ویژگی های تصویر روی داده های کلاس برچسب دار و توزیع حاشیه ای ویژگی های تصویر روی داده های کلاس بدون برچسب بود. متناوبا، می توان یک توزیع ویژگی چندگانه را برای نمایش هر دسته در RepMet آموخت [۳۸] و وظایف FSFGIC را انجام دهید. دیویس و همکاران [۳۹] روش DeepEMD را گسترش داد [۲۲] با بازسازی هر نمونه پرس و جو به عنوان مجموع وزنی از اجزای یک کلاس برای به دست آوردن توزیع ویژگی در سطح کلاس. که در [۴۰]یک شبکه جفت پشتیبانی مجدد انتزاع و اغتشاش (RaPSPNet) برای بهبود عملکرد FSFGIC با افزایش تمایز ویژگی از طریق یک ماژول تعبیه مجدد انتزاع ویژگی (FRaE) و یک ماژول سنجش شباهت مبتنی بر جفت پشتیبانی مزاحم جدید (PSP) پیشنهاد شد.

افراسیابی [۶۹] دو استراتژی هم ترازی توزیع را برای تراز کردن دسته‌های جدید با دسته‌های پایه مرتبط، با هدف به دست آوردن نمایش‌های کلاسی بهتر، پیشنهاد کرد. یک استراتژی هم ترازی مرکز و یک استراتژی هم ترازی خصمانه بر اساس فاصله Wasserstein برای اعمال فشردگی درون کلاسی طراحی شده است. داس و همکاران یک رویکرد ناپارامتریک را پیشنهاد کرد [۱۰۴] برای رفع این مشکل که فقط نمونه های اولیه کلاس پایه در دسترس بودند. آنها در نظر گرفتند که تمام توزیع های نمونه اولیه کلاس بر روی یک منیفولد مرتب شده اند. آنها ابتدا نمونه های اولیه کلاس جدید را با محاسبه میانگین نمونه های اولیه که در نزدیکی نمونه های جدید قرار داشتند، تخمین زدند. یک نمودار با تمام نمونه های اولیه کلاس ساخته شد و یک زنجیره مارکوف جذب القایی برای تکمیل کار طبقه بندی اعمال شد. مرجع. [۱۰۵] شبکه‌های نمونه اولیه ترکیبی (CPN) را برای یادگیری نمونه‌های اولیه اجزای قابل انتقال برای قابلیت استفاده مجدد از ویژگی‌های بهبودیافته، که می‌توانند به صورت تطبیقی با نمونه‌های اولیه بصری با استفاده از یک مولد وزن قابل یادگیری برای تشخیص کلاس‌های جدید بر اساس ویژگی‌های مشروح‌شده توسط انسان ترکیب شوند، پیشنهاد کرد.

به منظور یادگیری ساختار ریزدانه در فضای ویژگی، لو و همکاران. [۱۰۶] یک شبکه دو مسیری را برای یادگیری تطبیقی نماها پیشنهاد کرد. یک مسیر طبقه‌بندی هدایت‌شده با برچسب بود، که در آن ویژگی‌های پشتیبانی متعلق به همان کلاس در یک نمونه اولیه جمع‌آوری شدند و شباهت‌ها بین نمونه‌های اولیه و تصاویر پرس و جو محاسبه شد. مسیر دیگر طبقه‌بندی سطح نمونه بود که هدف آن تولید نماهای مختلف برای یک تصویر، سپس نقشه‌برداری آن‌ها در فضای ویژگی‌ها برای ساخت ساختار معنایی با دانه‌ریزی بهتر بود. مرجع. [۱۰۷] پیشنهاد شده است که ویژگی های فرکانس را با ویژگی های معمول ترکیب کند. علاوه بر یک ماژول معمولی CNN، یک تبدیل کسینوس گسسته برای تولید نمایش‌های ویژگی فرکانس اعمال شد. سپس، دو نوع ویژگی به عنوان ویژگی های نهایی به هم پیوستند. رویکردهای فعلی جزئیات توزیع درون کلاسی را نادیده گرفتند در حالی که بر یادگیری یک متریک سطح کلاس تعمیم یافته تمرکز کردند. مرجع. [۱۰۸] شبکه‌های نمونه اولیه بهبود یافته (IPN) را برای رسیدگی به این موضوع با استفاده از یک استراتژی مشابه توجه با وزن‌های نمونه متنوع بر اساس نماینده‌گی و یک استراتژی مقیاس‌بندی فاصله برای افزایش کاوش توزیع کلاس و اطلاعات متمایز در بین کلاس‌ها پیشنهاد کرد. برای به دست آوردن توزیع های گاوس مانند، رجوع کنید. [۱۰۹] یک روش مبتنی بر انتقال را برای پردازش ویژگی های متعلق به یک کلاس پیشنهاد کرد. آنها تبدیل هایی را برای تنظیم توزیع ویژگی ها و یک الگوریتم تکرار شونده مبتنی بر فاصله Wasserstein برای محاسبه نمونه اولیه برای هر کلاس معرفی کردند. به همین ترتیب، ر. [۱۱۰] یک الگوریتم انتقال بهینه برای تبدیل ویژگی‌ها به توزیع‌های گاوسی و تخمین بهترین مراکز کلاس پیشنهاد کرد.

مکانیسم توجه هدف استراتژی توجه انتخاب ویژگی یا منطقه متمایز از فضای ویژگی استخراج شده برای نمایش موثر ویژگی در سطح کلاس است. که در [۴۶]مکانیزم توجه [۱۱۱] برای تعیین موقعیت و وزن‌دهی مجدد جفت‌های منطقه محلی مرتبط از نظر معنایی بین نمونه‌های پرس و جو و پشتیبانی، که هدف آن تقویت اشیاء متمایز و سرکوب پس‌زمینه بود، استفاده شد. او و همکاران [۴۱] نشان داد که محلی سازی شی (با استفاده از مناطق متمایز محلی) می تواند کمک بزرگی برای FSFGIC باشد. سپس یک ماژول مکمل مبتنی بر خود توجه، که از توجه کانال و توجه فضایی استفاده می‌کرد، برای انجام محلی‌سازی شی با نظارت ضعیف و یافتن مناطق متمایز مربوطه آنها طراحی شد. مرجع. [۴۸] از توجه کانال و توجه فضایی برای یافتن مناطق متمایز از نمونه‌های پرس و جو و پشتیبانی برای بهبود عملکرد طبقه‌بندی FSFGIC استفاده کرد. یک معماری جدید شبکه عصبی مبتنی بر ترانسفورماتور به نام CrossTransformers [42] طراحی شد که یک مکانیسم توجه متقابل را برای یافتن تناظر فضایی درشت بین پرس و جو و نمونه های برچسب دار در یک کلاس به کار می برد. که در [۵۰]یک مکانیسم توجه برای مخلوط کردن دو حالت (یعنی شیوه‌های معنایی و بصری) و اطمینان از اینکه بازنمایی ویژگی‌ها در یک فضا با بازنمایی بصری هستند، پیشنهاد شد. روش‌های مبتنی بر نمونه اولیه ممکن است نتوانند اطلاعات ظریف یک کلاس را دریافت کنند. برای رفع این مشکل، هوانگ و همکاران. [۴۳] یک شبکه چند نمونه اولیه مبتنی بر توصیفگر (LMPNet) برای یادگیری چند نمونه اولیه پیشنهاد کرد. آنها یک مکانیسم توجه برای وزن کردن همه کانال ها در هر موقعیت مکانی همه نمونه ها به صورت تطبیقی برای به دست آوردن توصیفگرهای محلی طراحی کردند و نمونه های اولیه متعددی را بر اساس این توصیفگرها ساختند که حاوی اطلاعات کامل تری از یک کلاس بود.

استراتژی متریک برای به دست آوردن نمایش‌های طبقه‌ای تبعیض آمیز برای FSFGIC، استراتژی‌های متریک تصویر به کلاس پیشنهاد شدند. شبکه عصبی نزدیکترین همسایه (DN4) [7] با هدف یادگیری بهینه نمایش ویژگی عمیق محلی در سطح کلاس از فضای کلاس بر اساس استراتژی اندازه گیری شباهت تصویر به کلاس طراحی شده در مورد نمونه های آموزشی بسیار محدود. یک شبکه عصبی عمیق نزدیکترین همسایه متمایز (D2N4) [112] روش DN4 را گسترش داد [۷] با اضافه کردن یک تابع از دست دادن مرکز [۱۱۳]. و سپس نمایش ویژگی های محلی و جهانی در سطح کلاس برای بهبود ویژگی های تشخیص کیفیت در چارچوب روش DN4 آموخته شد. [۷]. شبکه دو شباهت (BSNet) [44] پیشنهاد شد از دو معیار شباهت مختلف برای ایجاد نقشه‌های مشخصه متمایزتر از تعداد کمی از تصاویر استفاده شود که منجر به افزایش قابل توجهی در عملکرد تعمیم می‌شود. که در [۴۵]، ژو و همکاران استدلال کرد که حجم زیادی از داده های بدون برچسب پتانسیل بالایی برای بهبود عملکرد طبقه بندی در وظایف FSFGIC دارند. یک نقطه پیشرو برای تنظیم یادگیری متریک (PPSML) [45] برای بهبود دقت طبقه بندی چند شات با تعریف متریک فاصله و استفاده از استراتژی خودآموزی ارائه شد. برای جلوگیری از برازش بیش از حد و محاسبه یک نمایش قوی کلاس تحت شرایط نمونه های آموزشی بسیار محدود، یک شبکه زیرفضای عمیق (DSN) [114] برای تبدیل نمایش کلاس به یک زیرفضای تطبیقی و ایجاد یک طبقه‌بندی کننده مربوطه معرفی شد.

تریانتافیلو و همکاران یک میانگین دقت متوسط (mAP) را پیشنهاد کرد [۱۱۵]، که با هدف یادگیری معیار تشابه بر اساس بازیابی اطلاعات بود. آنها کارهایی را که برای AP بهینه شده بود گسترش دادند تا تمام گزینه های احتمالی پرس و جو را در بین نقاط دسته ای در نظر بگیرند. سپس از چارچوب‌های SSVM (ماشین بردار پشتیبانی ساختاری) و DLM (کمینه‌سازی مستقیم ضرر) برای بهینه‌سازی mAP استفاده کردند. لیو و همکاران [۱۱۶] یک ضرر حاشیه منفی برای کاهش واریانس بین طبقاتی و ایجاد مرزهای تصمیم کارآمدتر معرفی کرد. هیلیارد و همکاران [۷۰] یک شبکه تعبیه‌های شرطی متریک-آگنوستیک (MACO) پیشنهاد کرد. MACO شامل چهار مرحله بود: مرحله ویژگی برای به دست آوردن ویژگی ها استفاده شد، مرحله رابطه ای یک بردار واحد را به عنوان نمایش کلاس هر کلاس تولید کرد. مرحله شرطی‌سازی، نمایش‌های کلاس را به ویژگی‌های تصویر پرس‌وجو متصل می‌کند که هدف آن یادگیری نمایش کلاسی است که بیشتر با تصویر پرس و جو مرتبط است و طبقه‌بندی کننده پیش‌بینی نهایی را انجام می‌دهد.

تراز معنایی در نشان داده شد [۴۷] که مردم تمایل داشتند اشیاء مشابه را کاملاً به صورت دوتایی با هم مقایسه کنند، مثلاً ابتدا سر دو پرنده و سپس بال ها و پاهای آنها را با هم مقایسه کنند. به این ترتیب، افزایش اطلاعات ویژگی ها در طول فرآیند مقایسه طبیعی بود. یک شبکه عملیات ادغام دوخطی زوجی با رتبه پایین [۴۷] برای به دست آوردن نمایش ویژگی عمیق در سطح کلاس بین نمونه های پرس و جو و پشتیبانی از نظر روشی که افراد اشیاء مشابه را مقایسه می کنند طراحی شده است. مطابق با [۴۶]، شی اصلی می تواند در هر نقطه از تصویر قرار گیرد، که منجر به ابهام بالقوه در هنگام محاسبه مستقیم فاصله بین پرس و جو و نمونه های پشتیبانی می شود. برای رفع این مشکل، یادگیری متریک تراز معنایی (SAML) [46] برای تراز کردن مناطق محلی مرتبط معنایی بر روی نمونه‌ها با استراتژی «جمع‌آوری و انتخاب» پیشنهاد شد. از یک طرف، شباهت‌های همه جفت‌های منطقه محلی از نمونه‌های پرس و جو و کلاس پشتیبانی در یک ماتریس رابطه محاسبه و به دست آمد. از سوی دیگر، یک مکانیسم توجه [۱۱۱] برای “انتخاب” جفت های مرتبط معنایی استفاده شد. لی و همکاران [۴۸] روش را در [۴۶]و یک ماژول توجه بلوک کانولوشنال [۱۱۷] برای تصرف مناطق تبعیض آمیز اعمال شد. برای از بین بردن تأثیر نویز و بهبود کارایی یک معیار تشابه، مناطق مرتبط با پرس و جو از نمونه های پشتیبانی برای تراز معنایی انتخاب شدند. سپس، نمایش‌های ویژگی در سطح کلاس چند مقیاسی برای نشان دادن مناطق متمایز از پرس و جو، پشتیبانی از نمونه‌ها در یک کلاس و انجام وظایف FSFGIC استفاده شد. که در [۶۹]یک استراتژی هم ترازی انجمنی مرکزی برای اعمال فشردگی درون کلاسی و به دست آوردن نمایش های کلاسی بهتر پیشنهاد شد.

روش دیگر، یک رویکرد مبتنی بر گراف سرتاسر به نام شبکه انتشار دانش صریح کلاس (ECKPN) [15] پیشنهاد شد که هدف آن یادگیری و انتشار صریح بازنمایی کلاس بود. ابتدا، یک ماژول مقایسه برای بررسی رابطه بین نمونه‌های زوجی برای یادگیری نمایش نمونه در نمودارهای سطح نمونه استفاده شد. ثانیا، یک استراتژی فشرده برای ایجاد نمودار سطح نمونه پیشنهاد شد که نمودار سطح کلاس را تولید کند، که به دستیابی به یک نمایش بصری در سطح کلاس کمک کرد. سوم، نمایش‌های بصری در سطح کلاس با نمایش‌های نمونه در سطح نمونه برای انجام وظایف FSFGIC ترکیب شدند.

یادگیری چند مدلی با الهام از شبکه نمونه اولیه [۸۵]یک شبکه نمونه اولیه چندوجهی [۴۹] برای نگاشت داده های متنی در فضای ویژگی های بصری با استفاده از GAN طراحی شده است. که در [۵۰]، هوانگ و همکاران نشان داد که برخی از روش‌ها که روش‌های معنایی کمکی را در چارچوب یادگیری متریک اعمال می‌کنند، تنها نمایش ویژگی‌های نمونه‌ها را با معنایی موجود افزایش می‌دهند و نمونه‌های پرس و جو را نادیده می‌گیرند، که ممکن است پتانسیل بهبود عملکرد طبقه‌بندی را از دست بدهد و منجر به تغییر بین شود. ترکیب روش‌ها و نمایش تصویری خالص. برای پرداختن به این مسئله، یک ماژول توجه هدایت‌شده با ویژگی‌ها (AGAM) پیشنهاد شد که هدف آن استفاده مؤثرتر از ویژگی‌های مشروح‌شده توسط انسان و یادگیری نمایش‌های متمایزکننده‌تر ویژگی در سطح کلاس بود. یک مکانیسم تراز توجه برای تقطیر دانش از هدایت ویژگی به فرآیند انتخاب ویژگی بصری خالص طراحی شده است، به طوری که می تواند یاد بگیرد که به ویژگی های معنایی بیشتری بدون استفاده از محدودیت حاشیه نویسی ویژگی توجه کند. برای تراز کردن بهتر توزیع‌های ویژگی بصری و زبانی که همان کلاس شی را توصیف می‌کنند، یک ماژول هم‌ترازی توزیع متقاطع [۵۱] پیشنهاد شد، که در آن یک نمونه اولیه زبان بینایی برای هر کلاس معرفی شد تا توزیع‌ها را تراز کند، و فاصله حرکت‌دهنده زمین (EMD) برای بهینه‌سازی نمونه‌های اولیه اتخاذ شد.

گو و همکاران [۱۱۸] یک شبکه عصبی دو جریانی (TSNN) را پیشنهاد کرد که نه تنها ویژگی‌هایی را از تصاویر RGB آموخت، بلکه بر روی ویژگی‌های استگانالیز از طریق یک لایه فیلتر مدل غنی از steganalysis متمرکز شد. هدف جریان RGB تشخیص تفاوت بین تصاویر پشتیبانی و تصاویر پرس و جو بر اساس ویژگی های سطح جهانی و محاسبه نمایش های هر کلاس پشتیبانی بود. جریان steganalysis ویژگی‌های استگانالیز را برای مکان‌یابی مناطق بحرانی استخراج کرد. یک ماژول استخراج و فیوژن برای فیوز کردن ویژگی های دو جریانی توسط یک بلوک کانولوشن کلی استفاده شد. یک متریک عمق تصویر به کلاس برای تولید نمرات شباهت استفاده شد. ژانگ و همکاران [۱۱۹] ویژگی های ریز دانه را به شبکه نمونه اولیه معرفی کرد و یک شبکه تکمیل نمونه اولیه (ProtoComNet) را پیشنهاد کرد. در مرحله فراآموزشی، ProtoComNet ویژگی های ویژگی نماینده را به عنوان پیشین استخراج کرد. آنها از یک جمع‌کننده مبتنی بر توجه برای جمع‌آوری ویژگی‌های ویژگی و نمونه اولیه برای به دست آوردن نمونه اولیه کامل استفاده کردند. علاوه بر این، یک استراتژی همجوشی نمونه اولیه مبتنی بر گاوس برای یادگیری نمونه‌های اولیه مبتنی بر میانگین از نمونه‌های بدون برچسب طراحی شد و تخمین بیزی را برای ادغام دو نوع نمونه اولیه با هدف تولید نمونه‌های اولیه معرف بیشتر اعمال کرد.

منبع: https://www.mdpi.com/2673-2688/5/1/20

۳٫۳٫۲٫ آموزش نمایش کلاسی مبتنی بر متریک

دیدگاهتان را بنویسید لغو پاسخ