۴٫۲٫ استراتژی های BN جانبدارانه
در اولین آزمایش خود، تأثیرات استفاده از استراتژیهای متنوع اولیهسازی BN را بر فرآیند آموزش یک شبکه عصبی ساده با عمق ۹۰ بلوک میانی، همانطور که در شکل ۶ تعریف شده است، بررسی میکنیم. با توجه به بررسی مقدماتی ما در مورد مشکل تخریب در شکل ۱ ، یک شبکه ساده با عمق ۹۰ بلوک به طور قابل توجهی از اثرات تخریبی برای BN استاندارد رنج می برد. مقداردهی اولیه با توابع فعال سازی معمولی به طور خاص، ما می خواهیم در آزمایش خود به سؤالات تحقیقاتی زیر (RQ) بپردازیم:
- Q1:
-
آیا لایههای BN میتوانند به عنوان ANG برای توابع فعالسازی بعدی عمل کنند تا آموزش شبکههای عصبی عمیقتر را امکانپذیر کنند؟
- RQ 1a:
-
مقادیر اولیه BN ترجیح داده شده چیست؟
- RQ 1b:
-
ظاهر پارامترهای BN پس از آموزش موفق مدل چگونه است؟
برای سازگاری با تنظیم تجزیه و تحلیل در شکل ۱، همه پیکربندی ها بر روی مجموعه داده طبقه بندی MNIST برای پنج اجرا با ۱۸۰ دوره هر دوره اعمال می شوند. برای BN پیش فرض ابتدا از نتایج تحلیل قبلی استفاده می کنیم که با یک ستاره اضافه شده به نام پیکربندی تاکید شده است. نتایج تجزیه و تحلیل آزمایش راهبردهای مختلف اولیه سازی BN در شکل ۷ نشان داده شده است. علاوه بر این، جدول ۲ و جدول ۳ دقت نهایی به دست آمده پس از اعمال تمام دوره های آموزشی را خلاصه می کنند.
RQ 1a: توسعه تلفات آموزشی در شکل ۷ اهمیت هماهنگی مناسب بین مقدار اولیه پارامترهای BN و تابع فعال سازی مورد استفاده را نشان می دهد. مطابق با افکار قبلی ما، تغییر توزیع ورودی به توابع فعال سازی اصلاح شده به یکی از مناطق خطی آنها، عملکرد بهترین مدل و همه مدل ها را به طور متوسط بدون هزینه اضافی به شدت بهبود می بخشد. به طور خاص، نتایج تجزیه و تحلیل در شکل ۷ و جدول ۲ از فرضیه ما حمایت می کند که یک همپوشانی کوچک بین توزیع ورودی و مناطق غیر خطی یک تابع فعال سازی ممکن است برای بهینه سازی شبکه هدایت شود. از این نظر، ReLU و ELU به طور موثر مشکل تخریب با BN را کاهش می دهند اما با افزایش بیشتر پارامتر بایاس، به تدریج پایین تر می شوند . با این حال، Leaky ReLU به طور غیرمستقیم برای BN بهترین کار را دارد به طور متوسط، نشان دهنده یک وابستگی متقابل نهفته بین نوع غیرخطی و درجه استفاده از آن از طریق توزیع ورودی است.
پیشرفتهای آموزشی برای سیگموئید و مماس هذلولی نشان میدهد که توابع فعالسازی متقارن نقطه به مبدأ به طور بالقوه از مقیاسبندی توزیع ورودی سود میبرند، که همچنین استفاده از مناطق غیرخطی را کنترل میکند. اگرچه سیگموئید و tanh می توانند به طور موثری از انحطاط شبکه برای اجراهای منفرد با مقداردهی اولیه پارامتر جلوگیری کنند. عملکرد آنها به طور متوسط ناپایدار باقی می ماند، همانطور که در جدول ۳ نشان داده شده است. در مورد واریانس مقادیر ویژگی بنابراین، یک پارامتر حیاتی تر برای تنظیم است به دلیل تأثیر مستقیم آن بر شدت تمایز ویژگی های لایه ای.
نتایج تجزیه و تحلیل حاکی از آن است که بایاس کردن مقدار اولیه BN نسبت به مناطق پردازش خطی تابع فعال سازی بسیار مهم است اگر ظرفیت غیر خطی یک شبکه عصبی از بیان بازنمایی مورد نیاز تعیین شده توسط پیچیدگی کار برنامه فراتر می رود. از آنجایی که مشکل تخریب در شبکه های بسیار عمیق با تابع فعال سازی خطی رخ می دهد (شکل ۱ را ببینید)، توصیه می کنیم پارامتر را انتخاب کنید. برای قرار دادن توزیع ورودی نرمال شده در پیشرفت خطی با همپوشانی های کوچک رفتار غیرخطی. ما فرض میکنیم که درجه محدودی از رفتار غیرخطی به یک شبکه عصبی اجازه میدهد فقط یک زیرمجموعه مرتبط از سیگنالهای خروجی را در هر لایه منتقل کند که از انتشار اطلاعات جلوگیری میکند.
RQ 1b: دو ردیف آخر در شکل ۷ میانگین انحرافات پارامتر را در هر لایه BN از مقادیر اولیه خود نشان می دهند. برای به دست آوردن نتایج معنی دار، مجموعه پارامترهای مدل های حاصل از طرح اولیه سازی برتر BN برای هر تابع فعال سازی در نظر گرفته می شود. انحرافات پارامتر برای بهترین اجرا و به عنوان میانگین در تمام اجراها در هر طرح فرعی تجسم می شود. قانون محاسبه برای میانگین انحراف پارامتر بایاس
عنوان شده است
کجا ل شاخص لایه BN در نظر گرفته شده را مشخص می کند، n برابر با تعداد ویژگی های این لایه BN و مربوط به مقدار پارامتر اولیه است. از آنجایی که ما طرح اولیه سازی یکسانی را برای تمام لایه های BN اعمال می کنیم و هر بلوک میانی در معماری شبکه ما حاوی تعداد مساوی نورون است، n و برای تمام لایه های BN یکسان بمانید. قاعده محاسباتی در معادله (۲۱) به طور مشابه برای پارامتر مقیاس گذاری صادق است .
با توجه به میانگین انحرافات برای پارامتر ما الگوی مشابهی از استفاده از پارامتر را مستقل از تابع فعال سازی بتن مشاهده می کنیم. در جزئیات بیشتر، شبکههای عصبی تمایل دارند تنظیمات پارامترهای خود را از ابتدا افزایش دهند لایه های مرکزیدر نیمی از عمق شبکه، در جهت اولین و آخرین لایه شبکه. این تنظیمات پارامتر یک ساختار دره مانند را تشکیل می دهند که معمولاً با a کوه بالاتر در ناحیه پایین شبکه ایجاد می شود. یک توضیح ساده برای اصلاحات پارامتر بایاس قوی در لایههای شبکه پایینتر، فرآیند یادگیری بازنمایی را تشکیل میدهد، که در آن به قدرت انتخابی غیرخطیها برای تمایز بین ویژگیهای نمونه به منظور ایجاد کلاسهای شی مرتبه بالاتر دسترسی پیدا میشود. ما فرض میکنیم که این فرآیند تا رسیدن به سطح دانهبندی مناسب کلاسهای شی برای دستیابی به هدف آموزشی ادامه مییابد. در مورد مجموعه داده MNIST، موجودیت های بالاترین مرتبه احتمالاً با کلاس های ده رقمی مطابقت دارند. کاهش مداوم در تنظیمات پارامتر از لایههای شبکه پایینتر به لایههای مرکزی، کاهش تنوع ویژگی/مفهوم با افزایش سطح انتزاع را به تصویر میکشد، بهعنوان مثال، تعداد کمی از مفاهیم مرتبه بالاتر از بسیاری از مفاهیم مرتبه پایینتر تشکیل شدهاند.
از آنجایی که پتانسیل شبکه از ظرفیت نمایشی مورد نیاز برای حل وظیفه طبقهبندی MNIST فراتر میرود، رمزگذاریهای موجودیت نهایی از طریق پردازش تقریباً خطی از طریق لایههای شبکه مرکزی منتقل میشوند. عدم وجود اثرات تخریب با وجود توالی طولانی لایههای پردازش تقریباً خطی در حدود نیمی از عمق شبکه، از فرض قبلی ما برای جلوگیری از انتشار اطلاعات با حذف خروجیهای نورون منفرد در هر لایه پشتیبانی میکند. ما فرض میکنیم که تغییرات پارامترهای فزاینده بعد از لایههای مرکزی به تفسیر خاص کار از نمایشهای آموختهشده با درجه رو به افزایشی از جزئیات خدمت میکنند. احتمالاً این شرایط نیز صادق است کم عمق تر شبکه های عصبی اما معمولاً به دلیل بهره برداری تقریباً کامل از ظرفیت های غیرخطی قابل مشاهده نیستند.
آخرین ردیف در شکل ۷ استفاده کم پارامتر مقیاس را نشان می دهد. در مقابل پارامتر سوگیری . هدف اصلی بهینه سازی پارامترها به نظر می رسد که واریانس ویژگی ها را مطابق با معادله (۱۶) کنترل می کند. این توضیح توسط انحرافات جزئی پارامتر در لایههای پایینتر که ما به فرآیند یادگیری بازنمایی اختصاص میدهیم، و انطباق پارامتر قوی در آخرین لایه برای افزایش حساسیت به تبعیض ویژگی با هدف حل تکلیف طبقهبندی پشتیبانی میشود.
Q1: نتایج تجزیه و تحلیل نشان میدهد که لایههای BN در واقع میتوانند به عنوان ANG برای توابع فعالسازی بعدی عمل کنند تا آموزش شبکههای عصبی عمیقتر را فعال کنند. برای مثال، یک نیاز ضروری، یک طرح اولیه سازی BN است که مکانیک شبکه را به سمت پردازش خطی در شروع روند آموزشی سوگیری می کند. از یک طرف، تنظیم پارامتر بایاس یک گزینه بدون هزینه برای کاهش موثر مشکل تخریب با عملکرد نسبتاً پایدار در چندین دوره است. از سوی دیگر، پارامتر مقیاس بندی توانایی محدودی برای محدود کردن استفاده از رفتار غیرخطی دارد و به طور قابلتوجهی بر شدت تبعیض ویژگیها تأثیر میگذارد، که منجر به عملکرد شکنندهای در چندین اجرا میشود. نتایج آزمایش نشان میدهد که مناطق خطی مرکزی در توابع فعالسازی نقطهای متقارن سیگموئید و tanh ممکن است برای ایجاد ANG از طریق لایههای BN به اندازه کافی بزرگ نباشند. جالب توجه است که ReLU با ویژگیهای مطلوب همگرایی سریع و دقت بالا با واریانس کوچک در چندین اجرا به عملکرد برتر دست مییابد، اما فقط برای BN. طرح اولیه
علیرغم اثرات تثبیتکننده یک مقداردهی اولیه BN مناسب بر عملکرد حاصل از شبکههای عصبی عمیقتر، پیشرفت آموزش در شکل ۷ به ندرت عملکردهای یکنواخت کاهشی را تشکیل میدهد. به طور خاص، ما فرض میکنیم که پیکهای سنگین در تلفات تمرینی در نتیجه تنظیمات پارامتر در لایههای پایینتر رخ میدهد که باعث تغییرات انباشته در فعالیت عصبی لایههای زیر میشود و منجر به تغییرات گرادیان قوی میشود. این وضعیت احتمالاً حتی با ماهیت مخرب غیرخطیها تقویت میشود. مطابق با این مشاهدات، فرآیند آموزش به طور متوسط مدت طولانی طول می کشد تا یک جهت مناسب از بهینه سازی را تثبیت کند. با این وجود، نتایج نشان میدهد که عمق شبکه به دلیل زمان لازم برای یادگیری عبور سیگنالهای خروجی مربوطه در هر لایه، عامل مهمی برای تعداد دورههای آموزشی مورد نیاز باقی میماند. در آزمایش بعدی، بررسی خواهیم کرد که چگونه فرآیند آموزش شبکههای عصبی بسیار عمیق میتواند تثبیت شود.
۴٫۳٫ مدیریت گرادیان برجسته با AMSGrad
AMSGrad [46] بهینه سازهای شیب نزولی را که مبتنی بر میانگین های متحرک هستند، مانند Adam، گسترش می دهد تا به روز رسانی گرادیان خود را با استفاده از حداکثر تغییر گرادیان مشاهده شده در دوره آموزشی، عادی کند. این اقدام بهویژه از افزایش موقت نرخ یادگیری مؤثر برای شیبهای نادر اما برجسته جلوگیری میکند [۴۶]. انگیزه ما در پشت تجهیزات بهینه ساز Adam با AMSGrad در سؤال تحقیق زیر خلاصه می شود:
- Q2:
-
آیا AMSGrad همگرایی تلفات آموزشی را برای شبکه های عصبی عمیق تر از طریق مدیریت دقیق گرادیان های برجسته بهبود می بخشد؟
برای پاسخ به این سوال، صاف بودن پیشرفت از دست دادن تمرین را هنگامی که Adam با AMSGrad تقویت میشود، بررسی میکنیم. برای این منظور، ما همان تنظیمات آزمایش قبلی خود را با ۹۰ بلوک میانی اجرا می کنیم، اما فقط BN برتر را اعمال می کنیم. استراتژی اولیه سازی در هر تابع فعال سازی نتایج تجزیه و تحلیل در شکل ۸ و جدول ۴ نشان داده شده است.
Q2: مطابق شکل ۸، تغییر جزئی AMSGrad در بهینه ساز Adam به طور قابل ملاحظه ای پیشرفت از دست دادن تمرین را هموار می کند و همگرایی سریع را در مراحل اولیه تمرین برای همه عملکردهای فعال سازی در نظر گرفته شده ارتقا می دهد. جدول ۴ نشان می دهد که AMSGrad به دقت نهایی بالاتر با واریانس بسیار کمتر در طول اجراهای متعدد برای توابع اصلاح شده منجر می شود. در واقع، AMSGrad بهترین دقتهای ReLU، Leaky ReLU و ELU را با مقداردهی اولیه BN برتر بهبود میبخشد. درصد به ترتیب. میانگین دقت متناظر با بهبودی حتی قانعکنندهتر میشود درصد و یک واریانس کوچک در حال محو شدن هر بار زیر یک چهارم یک درصد. این نتایج نشان میدهد که مدیریت شیبهای برجسته AMSGrad به شبکههای عصبی عمیقتر بهدرستی اولیهسازی شده اجازه میدهد تا از عمق شبکه گستردهتر خود در تحقق هدف آموزشی تعریفشده استفاده کنند. به طور خاص، AMSGrad با جلوگیری از سقوط به پیکربندی شبکه با ادغام بیش از حد رفتار غیرخطی از انحطاط شبکه جلوگیری می کند. قابل توجه است که دقت بالا در جدول ۴ ناشی از شبکه ای با پهنای باند تنها ۳۲ نورون در هر لایه پنهان کاملا متصل است. این مشاهدات از شهود شناخته شده قدرت بازنمایی ناشی از عمق عمودی یک شبکه عصبی پشتیبانی می کند. توابع فعال سازی متقارن tanh و sigmoid هنوز از فاصله خطی ناکافی بزرگ خود در اطراف مبدا رنج می برند، که از طریق عملکرد شکننده آنها در چندین اجرا قابل مشاهده است. دقت فوقالعاده بالا در بهترین اجرا برای tanh ممکن است به عنوان یک صورت فلکی پارامتر شبکه سودمند خوش شانس توضیح داده شود که عمدتاً به طور تصادفی به دست آمده است. با این وجود، AMSGrad مستلزم تمایل به کاهش وقوع تغییرات پارامترهای مخرب در طول بهینهسازی شبکه است. ما فرض میکنیم که این تمایل عملکرد ضعیف تابع فعالسازی سیگموئید را در آزمایش فعلی نشان میدهد.
همه آزمایشهای انجامشده تا کنون نشان میدهند که افزودن رفتار غیرخطی مشابه تابع درب دریچه کار میکند، جایی که معرفی غیرخطیهای بیشتر در یک شبکه عصبی با روش یادگیری قابل کنترل است، اما عملیات معکوس عمدی بهعنوان یک کار بیش از حد شدیدتر یا حتی غیرممکن به نظر میرسد. به طور کلی، نتایج تجربی ما نشان میدهد که یک مقداردهی اولیه شبکه به سمت خطی بودن و هموارسازی گرادیانهای برجسته با AMSGrad، نه تنها عملکرد را حفظ میکند، بلکه شبکههای عصبی عمیقتر را قادر میسازد تا ظرفیتهای غیرخطی کمکی را به بهبود عملکرد ترجمه کنند. از آنجایی که بهینهسازی شبکههای عصبی عمیقتر باعث ایجاد تغییرات گرادیان قوی میشود که توسط اثرات انباشته تنظیمات پارامتر در اندازه شبکه عمودی آغاز میشود، ما مدیریت مناسب شیبهای برجسته را شناسایی میکنیم، به عنوان مثال، با AMSGrad، به عنوان یک نیاز ضروری برای موفقیت آموزش.
با انگیزه نتایج مثبت با AMSGrad، ما در آزمایش بعدی خود بررسی می کنیم که چگونه همگرایی آموزش با افزایش بیشتر عمق شبکه تحت تاثیر قرار می گیرد. مجدداً دلیل تحلیل را به عنوان یک سؤال تحقیق فرموله می کنیم:
- Q3:
-
محدودیتهای شبکههای نورون اسکالر بایاس اولیه نسبت به پردازش خطی با توجه به افزایش عمق شبکه چیست؟
در این آزمایش، ما قصد داریم به طور تهاجمی عمق شبکه را افزایش دهیم
بلوک های میانی برای نشان دادن اینکه آیا انحطاط عملکرد هنوز رخ می دهد یا خیر و دقیقا چگونه ظاهر می شود. از آنجایی که عملکردهای اصلاح شده به طور مشابه برای عمق ۹۰ بلوک به خوبی انجام می شود، تجزیه و تحلیل به استفاده از ReLU با BN محدود می شود.
. آزمایش قبلی ما بر همگرایی سریع از دست دادن تمرین در صورت اعمال AMSGrad تاکید کرد. برای صرفه جویی در منابع محاسباتی ارزشمند، ابتدا تعداد دوره های مورد نیاز را تا زمان همگرایی تعیین می کنیم. افزایش دقت
در دوره
تی برای تمام دوره های باقی مانده
را می توان به عنوان تعریف کرد
کجا به معنای دقت مورد انتظار پس از دوره است تی و برابر با مقدار دقت مورد انتظار همگرایی است. برای سادگی، ما فرض میکنیم که همه دورههای آموزشی فقط توابع دقت افزایشی یکنواخت را تولید میکنند. افزایش دقت بر اساس میانگین توسعه تلفات تمرینی از آزمایش قبلی تقریبی شده است. شکل فرعی سمت چپ (a) شکل ۹ درصد افزایش دقت را برای توابع فعال سازی ReLU، Leaky ReLU و ELU نشان می دهد. در هر مورد، پس از پایان ۱۸۰ دوره آموزشی، به عنوان مقدار دقت نهایی انتخاب می شود. ReLU و ELU پس از حدود ۷۰ دوره به دست می آیند از مقدار دقت نهایی، در حالی که ELU حدود ۳۰ دوره اضافی طول می کشد. از آنجایی که ما انتظار داریم یک شبکه با عمق بیشتر و مقداردهی اولیه به سمت پردازش خطی در یک پنجره زمانی مشابه با شبکه یکسان با لایههای کمتر همگرا شود، فرآیند آموزش را برای تمام عمقهای شبکه به ۸۰ دوره محدود میکنیم. نتایج آزمایش در شکل فرعی (ب) شکل ۹ و در بخش اول جدول ۵ خلاصه شده است.
Q3: در شکل فرعی (ب) شکل ۹، ما هنوز با مشکل تخریب روبرو هستیم که در آن عملکرد شبکه به تدریج با افزایش عمق شبکه کاهش می یابد. مطابق با انتظارات ما، به نظر می رسد همه ضررها در مراحل اولیه فرآیند آموزش همگرا شوند. علاوه بر این، AMSGrad به طور موثر منحنی های از دست دادن تمرین را حتی برای عمیق ترین شبکه با ۵۰۰ بلوک میانی صاف می کند. جالب توجه است، استفاده از نرمال سازی دسته ای بایاس به سمت پردازش خطی و AMSGrad، شبکه ای با ۳۰۰ لایه کاملا متصل را در بهترین حالت قادر می سازد تا دقت خود را حفظ کند. برای وظیفه طبقهبندی MNIST تنها پس از ۸۰ دوره آموزشی، همانطور که در جدول ۵ گزارش شده است. انحطاط عملکرد احتمالاً هنوز هم رخ میدهد، علیرغم قابلیتهای پردازش خطی در ابتدا، به دلیل کمبود مفهومی در شبکههای ساده تک مسیری برای ایجاد نگاشت مستقیم هویت.
۴٫۴٫ توابع فعالسازی پارامتری با مقدار اولیه اولیه
اکنون میخواهیم بررسی کنیم که آیا توابع فعالسازی پارامتریک میتوانند ANGها را به روشی مشابه BN ایجاد کنند و آیا هر دو استراتژی میتوانند برای بهبود عملکرد شبکه حاصل همکاری کنند یا خیر. برای این منظور سؤالات تحقیق زیر را تدوین می کنیم:
- Q4:
-
آیا توابع فعال سازی پارامتریک جایگزین معتبری برای تحقق ANG ها هستند؟
- RQ 4a:
-
آیا BN و توابع فعال سازی پارامتریک می توانند مکمل یکدیگر عمل کنند؟
- RQ 4b:
-
ظاهر پارامتر BN و تابع فعال سازی پارامتریک پس از آموزش موفق مدل چیست؟
برای پاسخ به این سؤالات، ما بهطور متوالی تأثیر توابع فعالسازی پارامتری PReLU، SReLU/D-PReLU و APLU را بر عملکرد مدل حاصل بررسی میکنیم. همه پیکربندیها یک شبکه عصبی با عمق ۹۰ بلوک میانی را در مجموعه دادههای طبقهبندی MNIST در پنج اجرا با ۱۸۰ دوره آموزش میدهند. بهینه ساز Adam مجهز به AMSGrad برای صاف کردن گرادیان های برجسته است. برای بررسی تأثیر PReLU و APLU بر روی پایداری شبکه جدا شده از BN (به غیر از خاصیت عادی سازی توزیع BN)، ما هر دو تابع فعال سازی را با BN آزمایش می کنیم. و BN. با توجه به نتایج تجربی در [۳۱]ما برای APLU تعداد مولفه های خطی تکه ای را انتخاب می کنیم . در مورد D-PReLU، مقداردهی اولیه BN بایاس از انتخاب تصادفی بین مقادیر استفاده می کند. با احتمال برابر در هر نورون برای اطمینان از استفاده متعادل از مناطق غیر خطی. برای مقایسه منصفانه بین SReLU و D-PReLU، آستانه های تطبیقی SReLU از مقداردهی اولیه پیروی می کنند. و . برخلاف استفاده از BN صرفاً بایاس، اولیهسازی توابع فعالسازی پارامتریک به سمت پردازش خطی، تقارن شبکه را بدون همپوشانی مناطق غیرخطی ایجاد میکند. برای خنثی کردن این شرایط، ما علاوه بر این پارامتر قابل یادگیری PReLU را امتحان می کنیم، یک مقدار اولیه با تغییرات جزئی، به عنوان مثال، . نتایج تجربی در چهار ستون اول شکل ۱۰ و در جدول ۶، جدول ۷ و جدول ۸ گزارش شده است.
Q4: دو ستون اول شکل ۱۰ میانگین و بهترین تحولات تلفات آموزشی را برای توابع فعال سازی پارامتری نشان می دهد. اول از همه، شامل یک تغییر کوچک در مقادیر پارامترهای اولیه PReLU، همگرایی آموزشی را مستقل از مقدار دهی اولیه BN بتن کمی تسریع می کند. به همین دلیل، پارامترهای SReLU (آستانههای حذف شده)، D-PReLU و APLU نیز با همان درجه تغییر برای همه پیکربندیها مقداردهی اولیه شدند. در این مرحله، ما یک تصویر متمایز را میبینیم تا جایی که PReLU از دقت اندکی کاهش یافته با واریانس نتیجه بالاتر در صورتی که BN در ابتدا بایاس باشد، رنج میبرد، اما APLU به طور قابل توجهی از BN بایاس سود میبرد. D-PReLU با استراتژی BN مغرضانه خود در واقع بالاترین دقت را با واریانس حاشیه ای به دست می آورد. با کمال تعجب، اگرچه SReLU دارای پارامترهای آستانه کمکی است که به طور مشترک در طول آموزش آموخته می شوند، عملکرد هنوز در نقاط خاصی که نمی توانند به طور کامل بازیابی شوند، کاهش می یابد. علیرغم قدرت بیانی APLU برای تقریب تابع، افزایش تعداد اجزای خطی تکهای آن بهشدت باعث کاهش همگرایی آموزشی و عملکرد در نتیجه در هنگام استفاده از BN بیطرف میشود. بنابراین، توابع فعالسازی پارامتری به طور بالقوه میتوانند یک جایگزین معتبر برای تحقق ANGها باشند، اما انتقالهای هموار کمتری را برای ادغام رفتار غیرخطی نسبت به BN بایاس جمعآوری میکنند.
RQ 4a: طبق جدول ۷ و جدول ۸، استفاده ترکیبی از D-PReLU و APLU با BN مغرضانه در واقع مکمل یکدیگر هستند. واریانس نتایج به حداقل می رسد و دقت نهایی حداقل کمی افزایش می یابد. به خصوص، APLU تنها زمانی می تواند از مقدار افزایش یافته مولفه ها بهره مند شود که BN در ابتدا بایاس باشد. PReLU رابطه معکوس را در جدول ۶ نشان می دهد. با این حال، از دست دادن تمرین آن نیز سریعتر و روانتر با BN بایاس همگرا می شود.
RQ 4b: ستون های سوم و چهارم شکل ۱۰ انحرافات پارامتر نهایی BN و توابع فعال سازی پارامتری را از مقادیر اولیه خود نشان می دهند که نشان دهنده سطح استفاده از رفتار غیرخطی در هر لایه شبکه است. برای هر تابع فعالسازی، از پیکربندی مدل برتر با استفاده از بالاترین دقت به طور متوسط استفاده میشود. به جز APLU، نوع تک جزیی برای تجسم بهتر ترجیح داده می شود. تغییرات پارامتر با نتایج آزمایشهای قبلی ما مطابقت دارد، جایی که پردازش خطی عمدتاً در اطراف لایههای مرکزی در نیمی از عمق شبکه رخ میدهد. باز هم، این نتایج حاکی از آن است که در ابتدا سوگیری یک شبکه عصبی به سمت پردازش عمدتاً خطی به یک شبکه برای محدود کردن رفتار غیرخطی قبل از ایجاد اثرات تخریب خدمت میکند.
در نهایت، ما در مورد استحکام توابع فعالسازی پارامتریک در برابر مشکل تخریب با افزایش تدریجی عمق شبکه توضیح میدهیم:
- Q5:
-
تا چه اندازه توابع فعالسازی پارامتریک مشکل تخریب را در رابطه با افزایش عمق شبکه کاهش میدهند؟
در هر تابع فعالسازی پارامتری، از پیکربندی برتر آزمایش قبلی استفاده میشود. نتایج تجزیه و تحلیل در ستون آخر شکل ۱۰ و در بخش های مربوطه از جدول ۵ خلاصه شده است.
Q5: میانگین پیشرفت تلفات تمرینی در ستون آخر شکل ۱۰ انعطاف پذیری خاصی از توابع فعال سازی پارامتریک در برابر مشکل تخریب را نشان می دهد. پیش شرط، تعداد پارامترهای قابل تنظیم در هر تابع فعال سازی متوسط است. از این نظر، PReLU و D-PReLU با پنج مؤلفه خطی تکهای آن از APLU بهتر عمل میکنند که منجر به ده پارامتر قابل یادگیری در هر نورون میشود. قابل توجه است که PReLU و D-PReLU عملکرد انحطاط نسبتاً کمی را در شبکههای وسیع با پانصد لایه کاملاً متصل روی هم نگه میدارند. این مشاهدات منجر به این بینش میشود که توابع فعالسازی پارامتری میتوانند عاملی حیاتی در تسهیل آموزش شبکههای عصبی بسیار عمیق باشند. این بینش همچنین توسط دقت بالای دائمی به دست آمده در بهترین اجرا در هر عمق شبکه، همانطور که در جدول ۵ بیان شده است، پشتیبانی می شود. در واقع، کاهش عملکرد جزئی در PReLU و D-PReLU در بهترین اجراها احتمالاً می تواند به عدد ثابت نسبت داده شود. از ۸۰ دوره آموزشی برای تمام اعماق شبکه. با این حال، مشکل تخریب همچنان به عنوان یک کسری عملکرد متوسط با افزایش قابل توجهی در تغییرپذیری نتیجه به وجود می آید. یک توضیح ممکن برای هماهنگ کردن هر دو مشاهدات متناقض، ماهیت مختل کننده تغییرات تابع فعال سازی است که ممکن است برای کاوش سریعتر فضای راه حل موجود مفید باشد.
۴٫۶٫ شبکه کپسول کانولوشن
در آزمایش نهایی خود، پتانسیل یک شبکه کپسول محور خالص با GR را در وظیفه طبقه بندی تصویر بررسی می کنیم. برای این منظور، ما یک CapsNet کانولوشن را روی مجموعه دادههای Fashion-MNIST و SVHN اعمال میکنیم. به طور خلاصه، شبکه از نقشههای ویژگی مبتنی بر کپسول با GR بین نقشههای ویژگی با ابعاد یکسان تشکیل شده است. پیچیدگی های گروه بندی شده [۲۷] برای کاهش ابعاد ویژگی و ۳۰ بلوک کپسول متراکم. مقیاس بندی شبکه به منظور امکان پذیر نگه داشتن زمان محاسبات بسیار کم است. شرح دقیق معماری را می توان در ضمیمه C یافت. تا آنجا که ما می دانیم، این اولین معماری خالص کپسول محور است. معمولاً کپسولها صرفاً در دو لایه شبکه نهایی یک ساختار شبکه گسترده قرار میگیرند. ما سوال تحقیق زیر را فرموله می کنیم:
- سوال ۷:
-
آیا کپسولهایی را برای تجسم موجودیتهای سطح دلخواه ارائه میکنید؟
به عنوان یک استراتژی در برابر بیش از حد برازش، از افزایش داده های خاص مجموعه داده استفاده می شود. افزایش داده برای Fashion-MNIST شامل چرخش افقی ()، بزرگنمایی تصادفی و ترجمه با فاکتورهای . افزایش داده ها برای SVHN از واریانس های طبیعی در داده ها با استفاده از زوم تصادفی، ترجمه و برش با فاکتورهای تقلید می کند. . علاوه بر این، چرخش تصادفی با حداکثر بزرگی از از شاغل است. برای هر مجموعه داده، پنج CapsNet به طور تصادفی اولیه در ۱۰۰ دوره آموزش داده می شوند. نتایج تجربی در شکل ۱۲ و جدول ۱۰ نشان داده شده است.
سوال ۷: پیشرفت های آموزشی و اعتبار سنجی در شکل ۱۲ نشان می دهد که شبکه های کاملاً کپسول محور می توانند بر روی موجودیت های سطح پایین و سطح بالا کار کنند. این نیز توسط انطباق پارامتر سوگیری GR مشابه نتایج قبلی ما پشتیبانی می شود. با این حال، CapsNet خالص ما، همانطور که در جدول ۱۰ بیان شده است، به دقت آزمون پیشرفته دست نمی یابد. ما این کمبود را به محدودیت عمده CapsNets در پیچیدگی محاسباتی شدید نسبت می دهیم، که منجر به جلسات آموزشی طولانی حتی برای معماری های کوچک می شود. ما امیدواریم که تحقیقات آینده در مورد الگوریتمهای مسیریابی کارآمد و پیادهسازی سطح پایین آنها، CapsNets را برای طیف وسیعتری از وظایف یادگیری ماشینی قابل اجرا کند.
منبع: https://www.mdpi.com/2673-2688/6/1/1