۳٫۳٫۲٫ آموزش نمایش کلاسی مبتنی بر متریک
تکنیکهای زیادی برای نمایش کلاسهای مبتنی بر متریک ارائه شدهاند که میتوان آنها را به طور کلی به پنج دسته تقسیم کرد: توزیع ویژگی، مکانیسم توجه، استراتژی متریک، تراز معنایی و یادگیری چند مدلی.
توزیع ویژگی که در [۱۰۱]نشان داده شد که مولد ویژگی مبتنی بر GANs [102] از مشکل فروپاشی حالت رنج می برد. برای رفع این مشکل، رمزگذار خودکار متغیر (VAE) [103] و GAN ها با هم ترکیب شدند تا یک مدل تولید ویژگی مشروط را تشکیل دهند [۷۳]، که با هدف یادگیری توزیع شرطی ویژگی های تصویر روی داده های کلاس برچسب دار و توزیع حاشیه ای ویژگی های تصویر روی داده های کلاس بدون برچسب بود. متناوبا، می توان یک توزیع ویژگی چندگانه را برای نمایش هر دسته در RepMet آموخت [۳۸] و وظایف FSFGIC را انجام دهید. دیویس و همکاران [۳۹] روش DeepEMD را گسترش داد [۲۲] با بازسازی هر نمونه پرس و جو به عنوان مجموع وزنی از اجزای یک کلاس برای به دست آوردن توزیع ویژگی در سطح کلاس. که در [۴۰]یک شبکه جفت پشتیبانی مجدد انتزاع و اغتشاش (RaPSPNet) برای بهبود عملکرد FSFGIC با افزایش تمایز ویژگی از طریق یک ماژول تعبیه مجدد انتزاع ویژگی (FRaE) و یک ماژول سنجش شباهت مبتنی بر جفت پشتیبانی مزاحم جدید (PSP) پیشنهاد شد.
افراسیابی [۶۹] دو استراتژی هم ترازی توزیع را برای تراز کردن دستههای جدید با دستههای پایه مرتبط، با هدف به دست آوردن نمایشهای کلاسی بهتر، پیشنهاد کرد. یک استراتژی هم ترازی مرکز و یک استراتژی هم ترازی خصمانه بر اساس فاصله Wasserstein برای اعمال فشردگی درون کلاسی طراحی شده است. داس و همکاران یک رویکرد ناپارامتریک را پیشنهاد کرد [۱۰۴] برای رفع این مشکل که فقط نمونه های اولیه کلاس پایه در دسترس بودند. آنها در نظر گرفتند که تمام توزیع های نمونه اولیه کلاس بر روی یک منیفولد مرتب شده اند. آنها ابتدا نمونه های اولیه کلاس جدید را با محاسبه میانگین نمونه های اولیه که در نزدیکی نمونه های جدید قرار داشتند، تخمین زدند. یک نمودار با تمام نمونه های اولیه کلاس ساخته شد و یک زنجیره مارکوف جذب القایی برای تکمیل کار طبقه بندی اعمال شد. مرجع. [۱۰۵] شبکههای نمونه اولیه ترکیبی (CPN) را برای یادگیری نمونههای اولیه اجزای قابل انتقال برای قابلیت استفاده مجدد از ویژگیهای بهبودیافته، که میتوانند به صورت تطبیقی با نمونههای اولیه بصری با استفاده از یک مولد وزن قابل یادگیری برای تشخیص کلاسهای جدید بر اساس ویژگیهای مشروحشده توسط انسان ترکیب شوند، پیشنهاد کرد.
به منظور یادگیری ساختار ریزدانه در فضای ویژگی، لو و همکاران. [۱۰۶] یک شبکه دو مسیری را برای یادگیری تطبیقی نماها پیشنهاد کرد. یک مسیر طبقهبندی هدایتشده با برچسب بود، که در آن ویژگیهای پشتیبانی متعلق به همان کلاس در یک نمونه اولیه جمعآوری شدند و شباهتها بین نمونههای اولیه و تصاویر پرس و جو محاسبه شد. مسیر دیگر طبقهبندی سطح نمونه بود که هدف آن تولید نماهای مختلف برای یک تصویر، سپس نقشهبرداری آنها در فضای ویژگیها برای ساخت ساختار معنایی با دانهریزی بهتر بود. مرجع. [۱۰۷] پیشنهاد شده است که ویژگی های فرکانس را با ویژگی های معمول ترکیب کند. علاوه بر یک ماژول معمولی CNN، یک تبدیل کسینوس گسسته برای تولید نمایشهای ویژگی فرکانس اعمال شد. سپس، دو نوع ویژگی به عنوان ویژگی های نهایی به هم پیوستند. رویکردهای فعلی جزئیات توزیع درون کلاسی را نادیده گرفتند در حالی که بر یادگیری یک متریک سطح کلاس تعمیم یافته تمرکز کردند. مرجع. [۱۰۸] شبکههای نمونه اولیه بهبود یافته (IPN) را برای رسیدگی به این موضوع با استفاده از یک استراتژی مشابه توجه با وزنهای نمونه متنوع بر اساس نمایندهگی و یک استراتژی مقیاسبندی فاصله برای افزایش کاوش توزیع کلاس و اطلاعات متمایز در بین کلاسها پیشنهاد کرد. برای به دست آوردن توزیع های گاوس مانند، رجوع کنید. [۱۰۹] یک روش مبتنی بر انتقال را برای پردازش ویژگی های متعلق به یک کلاس پیشنهاد کرد. آنها تبدیل هایی را برای تنظیم توزیع ویژگی ها و یک الگوریتم تکرار شونده مبتنی بر فاصله Wasserstein برای محاسبه نمونه اولیه برای هر کلاس معرفی کردند. به همین ترتیب، ر. [۱۱۰] یک الگوریتم انتقال بهینه برای تبدیل ویژگیها به توزیعهای گاوسی و تخمین بهترین مراکز کلاس پیشنهاد کرد.
مکانیسم توجه هدف استراتژی توجه انتخاب ویژگی یا منطقه متمایز از فضای ویژگی استخراج شده برای نمایش موثر ویژگی در سطح کلاس است. که در [۴۶]مکانیزم توجه [۱۱۱] برای تعیین موقعیت و وزندهی مجدد جفتهای منطقه محلی مرتبط از نظر معنایی بین نمونههای پرس و جو و پشتیبانی، که هدف آن تقویت اشیاء متمایز و سرکوب پسزمینه بود، استفاده شد. او و همکاران [۴۱] نشان داد که محلی سازی شی (با استفاده از مناطق متمایز محلی) می تواند کمک بزرگی برای FSFGIC باشد. سپس یک ماژول مکمل مبتنی بر خود توجه، که از توجه کانال و توجه فضایی استفاده میکرد، برای انجام محلیسازی شی با نظارت ضعیف و یافتن مناطق متمایز مربوطه آنها طراحی شد. مرجع. [۴۸] از توجه کانال و توجه فضایی برای یافتن مناطق متمایز از نمونههای پرس و جو و پشتیبانی برای بهبود عملکرد طبقهبندی FSFGIC استفاده کرد. یک معماری جدید شبکه عصبی مبتنی بر ترانسفورماتور به نام CrossTransformers [42] طراحی شد که یک مکانیسم توجه متقابل را برای یافتن تناظر فضایی درشت بین پرس و جو و نمونه های برچسب دار در یک کلاس به کار می برد. که در [۵۰]یک مکانیسم توجه برای مخلوط کردن دو حالت (یعنی شیوههای معنایی و بصری) و اطمینان از اینکه بازنمایی ویژگیها در یک فضا با بازنمایی بصری هستند، پیشنهاد شد. روشهای مبتنی بر نمونه اولیه ممکن است نتوانند اطلاعات ظریف یک کلاس را دریافت کنند. برای رفع این مشکل، هوانگ و همکاران. [۴۳] یک شبکه چند نمونه اولیه مبتنی بر توصیفگر (LMPNet) برای یادگیری چند نمونه اولیه پیشنهاد کرد. آنها یک مکانیسم توجه برای وزن کردن همه کانال ها در هر موقعیت مکانی همه نمونه ها به صورت تطبیقی برای به دست آوردن توصیفگرهای محلی طراحی کردند و نمونه های اولیه متعددی را بر اساس این توصیفگرها ساختند که حاوی اطلاعات کامل تری از یک کلاس بود.
استراتژی متریک برای به دست آوردن نمایشهای طبقهای تبعیض آمیز برای FSFGIC، استراتژیهای متریک تصویر به کلاس پیشنهاد شدند. شبکه عصبی نزدیکترین همسایه (DN4) [7] با هدف یادگیری بهینه نمایش ویژگی عمیق محلی در سطح کلاس از فضای کلاس بر اساس استراتژی اندازه گیری شباهت تصویر به کلاس طراحی شده در مورد نمونه های آموزشی بسیار محدود. یک شبکه عصبی عمیق نزدیکترین همسایه متمایز (D2N4) [112] روش DN4 را گسترش داد [۷] با اضافه کردن یک تابع از دست دادن مرکز [۱۱۳]. و سپس نمایش ویژگی های محلی و جهانی در سطح کلاس برای بهبود ویژگی های تشخیص کیفیت در چارچوب روش DN4 آموخته شد. [۷]. شبکه دو شباهت (BSNet) [44] پیشنهاد شد از دو معیار شباهت مختلف برای ایجاد نقشههای مشخصه متمایزتر از تعداد کمی از تصاویر استفاده شود که منجر به افزایش قابل توجهی در عملکرد تعمیم میشود. که در [۴۵]، ژو و همکاران استدلال کرد که حجم زیادی از داده های بدون برچسب پتانسیل بالایی برای بهبود عملکرد طبقه بندی در وظایف FSFGIC دارند. یک نقطه پیشرو برای تنظیم یادگیری متریک (PPSML) [45] برای بهبود دقت طبقه بندی چند شات با تعریف متریک فاصله و استفاده از استراتژی خودآموزی ارائه شد. برای جلوگیری از برازش بیش از حد و محاسبه یک نمایش قوی کلاس تحت شرایط نمونه های آموزشی بسیار محدود، یک شبکه زیرفضای عمیق (DSN) [114] برای تبدیل نمایش کلاس به یک زیرفضای تطبیقی و ایجاد یک طبقهبندی کننده مربوطه معرفی شد.
تریانتافیلو و همکاران یک میانگین دقت متوسط (mAP) را پیشنهاد کرد [۱۱۵]، که با هدف یادگیری معیار تشابه بر اساس بازیابی اطلاعات بود. آنها کارهایی را که برای AP بهینه شده بود گسترش دادند تا تمام گزینه های احتمالی پرس و جو را در بین نقاط دسته ای در نظر بگیرند. سپس از چارچوبهای SSVM (ماشین بردار پشتیبانی ساختاری) و DLM (کمینهسازی مستقیم ضرر) برای بهینهسازی mAP استفاده کردند. لیو و همکاران [۱۱۶] یک ضرر حاشیه منفی برای کاهش واریانس بین طبقاتی و ایجاد مرزهای تصمیم کارآمدتر معرفی کرد. هیلیارد و همکاران [۷۰] یک شبکه تعبیههای شرطی متریک-آگنوستیک (MACO) پیشنهاد کرد. MACO شامل چهار مرحله بود: مرحله ویژگی برای به دست آوردن ویژگی ها استفاده شد، مرحله رابطه ای یک بردار واحد را به عنوان نمایش کلاس هر کلاس تولید کرد. مرحله شرطیسازی، نمایشهای کلاس را به ویژگیهای تصویر پرسوجو متصل میکند که هدف آن یادگیری نمایش کلاسی است که بیشتر با تصویر پرس و جو مرتبط است و طبقهبندی کننده پیشبینی نهایی را انجام میدهد.
تراز معنایی در نشان داده شد [۴۷] که مردم تمایل داشتند اشیاء مشابه را کاملاً به صورت دوتایی با هم مقایسه کنند، مثلاً ابتدا سر دو پرنده و سپس بال ها و پاهای آنها را با هم مقایسه کنند. به این ترتیب، افزایش اطلاعات ویژگی ها در طول فرآیند مقایسه طبیعی بود. یک شبکه عملیات ادغام دوخطی زوجی با رتبه پایین [۴۷] برای به دست آوردن نمایش ویژگی عمیق در سطح کلاس بین نمونه های پرس و جو و پشتیبانی از نظر روشی که افراد اشیاء مشابه را مقایسه می کنند طراحی شده است. مطابق با [۴۶]، شی اصلی می تواند در هر نقطه از تصویر قرار گیرد، که منجر به ابهام بالقوه در هنگام محاسبه مستقیم فاصله بین پرس و جو و نمونه های پشتیبانی می شود. برای رفع این مشکل، یادگیری متریک تراز معنایی (SAML) [46] برای تراز کردن مناطق محلی مرتبط معنایی بر روی نمونهها با استراتژی «جمعآوری و انتخاب» پیشنهاد شد. از یک طرف، شباهتهای همه جفتهای منطقه محلی از نمونههای پرس و جو و کلاس پشتیبانی در یک ماتریس رابطه محاسبه و به دست آمد. از سوی دیگر، یک مکانیسم توجه [۱۱۱] برای “انتخاب” جفت های مرتبط معنایی استفاده شد. لی و همکاران [۴۸] روش را در [۴۶]و یک ماژول توجه بلوک کانولوشنال [۱۱۷] برای تصرف مناطق تبعیض آمیز اعمال شد. برای از بین بردن تأثیر نویز و بهبود کارایی یک معیار تشابه، مناطق مرتبط با پرس و جو از نمونه های پشتیبانی برای تراز معنایی انتخاب شدند. سپس، نمایشهای ویژگی در سطح کلاس چند مقیاسی برای نشان دادن مناطق متمایز از پرس و جو، پشتیبانی از نمونهها در یک کلاس و انجام وظایف FSFGIC استفاده شد. که در [۶۹]یک استراتژی هم ترازی انجمنی مرکزی برای اعمال فشردگی درون کلاسی و به دست آوردن نمایش های کلاسی بهتر پیشنهاد شد.
روش دیگر، یک رویکرد مبتنی بر گراف سرتاسر به نام شبکه انتشار دانش صریح کلاس (ECKPN) [15] پیشنهاد شد که هدف آن یادگیری و انتشار صریح بازنمایی کلاس بود. ابتدا، یک ماژول مقایسه برای بررسی رابطه بین نمونههای زوجی برای یادگیری نمایش نمونه در نمودارهای سطح نمونه استفاده شد. ثانیا، یک استراتژی فشرده برای ایجاد نمودار سطح نمونه پیشنهاد شد که نمودار سطح کلاس را تولید کند، که به دستیابی به یک نمایش بصری در سطح کلاس کمک کرد. سوم، نمایشهای بصری در سطح کلاس با نمایشهای نمونه در سطح نمونه برای انجام وظایف FSFGIC ترکیب شدند.
یادگیری چند مدلی با الهام از شبکه نمونه اولیه [۸۵]یک شبکه نمونه اولیه چندوجهی [۴۹] برای نگاشت داده های متنی در فضای ویژگی های بصری با استفاده از GAN طراحی شده است. که در [۵۰]، هوانگ و همکاران نشان داد که برخی از روشها که روشهای معنایی کمکی را در چارچوب یادگیری متریک اعمال میکنند، تنها نمایش ویژگیهای نمونهها را با معنایی موجود افزایش میدهند و نمونههای پرس و جو را نادیده میگیرند، که ممکن است پتانسیل بهبود عملکرد طبقهبندی را از دست بدهد و منجر به تغییر بین شود. ترکیب روشها و نمایش تصویری خالص. برای پرداختن به این مسئله، یک ماژول توجه هدایتشده با ویژگیها (AGAM) پیشنهاد شد که هدف آن استفاده مؤثرتر از ویژگیهای مشروحشده توسط انسان و یادگیری نمایشهای متمایزکنندهتر ویژگی در سطح کلاس بود. یک مکانیسم تراز توجه برای تقطیر دانش از هدایت ویژگی به فرآیند انتخاب ویژگی بصری خالص طراحی شده است، به طوری که می تواند یاد بگیرد که به ویژگی های معنایی بیشتری بدون استفاده از محدودیت حاشیه نویسی ویژگی توجه کند. برای تراز کردن بهتر توزیعهای ویژگی بصری و زبانی که همان کلاس شی را توصیف میکنند، یک ماژول همترازی توزیع متقاطع [۵۱] پیشنهاد شد، که در آن یک نمونه اولیه زبان بینایی برای هر کلاس معرفی شد تا توزیعها را تراز کند، و فاصله حرکتدهنده زمین (EMD) برای بهینهسازی نمونههای اولیه اتخاذ شد.
گو و همکاران [۱۱۸] یک شبکه عصبی دو جریانی (TSNN) را پیشنهاد کرد که نه تنها ویژگیهایی را از تصاویر RGB آموخت، بلکه بر روی ویژگیهای استگانالیز از طریق یک لایه فیلتر مدل غنی از steganalysis متمرکز شد. هدف جریان RGB تشخیص تفاوت بین تصاویر پشتیبانی و تصاویر پرس و جو بر اساس ویژگی های سطح جهانی و محاسبه نمایش های هر کلاس پشتیبانی بود. جریان steganalysis ویژگیهای استگانالیز را برای مکانیابی مناطق بحرانی استخراج کرد. یک ماژول استخراج و فیوژن برای فیوز کردن ویژگی های دو جریانی توسط یک بلوک کانولوشن کلی استفاده شد. یک متریک عمق تصویر به کلاس برای تولید نمرات شباهت استفاده شد. ژانگ و همکاران [۱۱۹] ویژگی های ریز دانه را به شبکه نمونه اولیه معرفی کرد و یک شبکه تکمیل نمونه اولیه (ProtoComNet) را پیشنهاد کرد. در مرحله فراآموزشی، ProtoComNet ویژگی های ویژگی نماینده را به عنوان پیشین استخراج کرد. آنها از یک جمعکننده مبتنی بر توجه برای جمعآوری ویژگیهای ویژگی و نمونه اولیه برای به دست آوردن نمونه اولیه کامل استفاده کردند. علاوه بر این، یک استراتژی همجوشی نمونه اولیه مبتنی بر گاوس برای یادگیری نمونههای اولیه مبتنی بر میانگین از نمونههای بدون برچسب طراحی شد و تخمین بیزی را برای ادغام دو نوع نمونه اولیه با هدف تولید نمونههای اولیه معرف بیشتر اعمال کرد.
منبع: https://www.mdpi.com/2673-2688/5/1/20