شبکه های کپسولی با اتصالات پرش خودساز

۴٫۲٫ استراتژی های BN جانبدارانه

در اولین آزمایش خود، تأثیرات استفاده از استراتژی‌های متنوع اولیه‌سازی BN را بر فرآیند آموزش یک شبکه عصبی ساده با عمق ۹۰ بلوک میانی، همانطور که در شکل ۶ تعریف شده است، بررسی می‌کنیم. با توجه به بررسی مقدماتی ما در مورد مشکل تخریب در شکل ۱ ، یک شبکه ساده با عمق ۹۰ بلوک به طور قابل توجهی از اثرات تخریبی برای BN استاندارد رنج می برد. ( ۰ ، ۱ ) مقداردهی اولیه با توابع فعال سازی معمولی به طور خاص، ما می خواهیم در آزمایش خود به سؤالات تحقیقاتی زیر (RQ) بپردازیم:
Q1:

آیا لایه‌های BN می‌توانند به عنوان ANG برای توابع فعال‌سازی بعدی عمل کنند تا آموزش شبکه‌های عصبی عمیق‌تر را امکان‌پذیر کنند؟

RQ 1a:

مقادیر اولیه BN ترجیح داده شده چیست؟

RQ 1b:

ظاهر پارامترهای BN پس از آموزش موفق مدل چگونه است؟

برای سازگاری با تنظیم تجزیه و تحلیل در شکل ۱، همه پیکربندی ها بر روی مجموعه داده طبقه بندی MNIST برای پنج اجرا با ۱۸۰ دوره هر دوره اعمال می شوند. برای BN پیش فرض ( ۰ ، ۱ ) ابتدا از نتایج تحلیل قبلی استفاده می کنیم که با یک ستاره اضافه شده به نام پیکربندی تاکید شده است. نتایج تجزیه و تحلیل آزمایش راهبردهای مختلف اولیه سازی BN در شکل ۷ نشان داده شده است. علاوه بر این، جدول ۲ و جدول ۳ دقت نهایی به دست آمده پس از اعمال تمام دوره های آموزشی را خلاصه می کنند.
RQ 1a: توسعه تلفات آموزشی در شکل ۷ اهمیت هماهنگی مناسب بین مقدار اولیه پارامترهای BN و تابع فعال سازی مورد استفاده را نشان می دهد. مطابق با افکار قبلی ما، تغییر توزیع ورودی به توابع فعال سازی اصلاح شده به یکی از مناطق خطی آنها، عملکرد بهترین مدل و همه مدل ها را به طور متوسط ​​بدون هزینه اضافی به شدت بهبود می بخشد. به طور خاص، نتایج تجزیه و تحلیل در شکل ۷ و جدول ۲ از فرضیه ما حمایت می کند که یک همپوشانی کوچک بین توزیع ورودی و مناطق غیر خطی یک تابع فعال سازی ممکن است برای بهینه سازی شبکه هدایت شود. از این نظر، ReLU و ELU به طور موثر مشکل تخریب با BN را کاهش می دهند ( ۲ ، ۱ ) اما با افزایش بیشتر پارامتر بایاس، به تدریج پایین تر می شوند ب . با این حال، Leaky ReLU به طور غیرمستقیم برای BN بهترین کار را دارد ( ۳ ، ۱ ) به طور متوسط، نشان دهنده یک وابستگی متقابل نهفته بین نوع غیرخطی و درجه استفاده از آن از طریق توزیع ورودی است.
پیشرفت‌های آموزشی برای سیگموئید و مماس هذلولی نشان می‌دهد که توابع فعال‌سازی متقارن نقطه به مبدأ به طور بالقوه از مقیاس‌بندی توزیع ورودی سود می‌برند، که همچنین استفاده از مناطق غیرخطی را کنترل می‌کند. اگرچه سیگموئید و tanh می توانند به طور موثری از انحطاط شبکه برای اجراهای منفرد با مقداردهی اولیه پارامتر جلوگیری کنند. ج < ۱ عملکرد آنها به طور متوسط ​​ناپایدار باقی می ماند، همانطور که در جدول ۳ نشان داده شده است. ج در مورد واریانس مقادیر ویژگی بنابراین، ج یک پارامتر حیاتی تر برای تنظیم است ب به دلیل تأثیر مستقیم آن بر شدت تمایز ویژگی های لایه ای.
نتایج تجزیه و تحلیل حاکی از آن است که بایاس کردن مقدار اولیه BN ( ب ، ج ) نسبت به مناطق پردازش خطی تابع فعال سازی بسیار مهم است اگر ظرفیت غیر خطی یک شبکه عصبی از بیان بازنمایی مورد نیاز تعیین شده توسط پیچیدگی کار برنامه فراتر می رود. از آنجایی که مشکل تخریب در شبکه های بسیار عمیق با تابع فعال سازی خطی رخ می دهد (شکل ۱ را ببینید)، توصیه می کنیم پارامتر را انتخاب کنید. ب برای قرار دادن توزیع ورودی نرمال شده در پیشرفت خطی با همپوشانی های کوچک رفتار غیرخطی. ما فرض می‌کنیم که درجه محدودی از رفتار غیرخطی به یک شبکه عصبی اجازه می‌دهد فقط یک زیرمجموعه مرتبط از سیگنال‌های خروجی را در هر لایه منتقل کند که از انتشار اطلاعات جلوگیری می‌کند.
RQ 1b: دو ردیف آخر در شکل ۷ میانگین انحرافات پارامتر را در هر لایه BN از مقادیر اولیه خود نشان می دهند. برای به دست آوردن نتایج معنی دار، مجموعه پارامترهای مدل های حاصل از طرح اولیه سازی برتر BN برای هر تابع فعال سازی در نظر گرفته می شود. انحرافات پارامتر برای بهترین اجرا و به عنوان میانگین در تمام اجراها در هر طرح فرعی تجسم می شود. قانون محاسبه برای میانگین انحراف پارامتر بایاس ب عنوان شده است

دی ب ¯ ( ل ) = ۱ n من = ۱ n | ب ۰ ب من ( ل ) |

کجا ل شاخص لایه BN در نظر گرفته شده را مشخص می کند، n برابر با تعداد ویژگی های این لایه BN و ب ۰ مربوط به مقدار پارامتر اولیه است. از آنجایی که ما طرح اولیه سازی یکسانی را برای تمام لایه های BN اعمال می کنیم و هر بلوک میانی در معماری شبکه ما حاوی تعداد مساوی نورون است، n و ب ۰ برای تمام لایه های BN یکسان بمانید. قاعده محاسباتی در معادله (۲۱) به طور مشابه برای پارامتر مقیاس گذاری صادق است ج .

با توجه به میانگین انحرافات برای پارامتر ب ما الگوی مشابهی از استفاده از پارامتر را مستقل از تابع فعال سازی بتن مشاهده می کنیم. در جزئیات بیشتر، شبکه‌های عصبی تمایل دارند تنظیمات پارامترهای خود را از ابتدا افزایش دهند لایه های مرکزیدر نیمی از عمق شبکه، در جهت اولین و آخرین لایه شبکه. این تنظیمات پارامتر یک ساختار دره مانند را تشکیل می دهند که معمولاً با a کوه بالاتر در ناحیه پایین شبکه ایجاد می شود. یک توضیح ساده برای اصلاحات پارامتر بایاس قوی در لایه‌های شبکه پایین‌تر، فرآیند یادگیری بازنمایی را تشکیل می‌دهد، که در آن به قدرت انتخابی غیرخطی‌ها برای تمایز بین ویژگی‌های نمونه به منظور ایجاد کلاس‌های شی مرتبه بالاتر دسترسی پیدا می‌شود. ما فرض می‌کنیم که این فرآیند تا رسیدن به سطح دانه‌بندی مناسب کلاس‌های شی برای دستیابی به هدف آموزشی ادامه می‌یابد. در مورد مجموعه داده MNIST، موجودیت های بالاترین مرتبه احتمالاً با کلاس های ده رقمی مطابقت دارند. کاهش مداوم در تنظیمات پارامتر از لایه‌های شبکه پایین‌تر به لایه‌های مرکزی، کاهش تنوع ویژگی/مفهوم با افزایش سطح انتزاع را به تصویر می‌کشد، به‌عنوان مثال، تعداد کمی از مفاهیم مرتبه بالاتر از بسیاری از مفاهیم مرتبه پایین‌تر تشکیل شده‌اند.

از آنجایی که پتانسیل شبکه از ظرفیت نمایشی مورد نیاز برای حل وظیفه طبقه‌بندی MNIST فراتر می‌رود، رمزگذاری‌های موجودیت نهایی از طریق پردازش تقریباً خطی از طریق لایه‌های شبکه مرکزی منتقل می‌شوند. عدم وجود اثرات تخریب با وجود توالی طولانی لایه‌های پردازش تقریباً خطی در حدود نیمی از عمق شبکه، از فرض قبلی ما برای جلوگیری از انتشار اطلاعات با حذف خروجی‌های نورون منفرد در هر لایه پشتیبانی می‌کند. ما فرض می‌کنیم که تغییرات پارامترهای فزاینده بعد از لایه‌های مرکزی به تفسیر خاص کار از نمایش‌های آموخته‌شده با درجه رو به افزایشی از جزئیات خدمت می‌کنند. احتمالاً این شرایط نیز صادق است کم عمق تر شبکه های عصبی اما معمولاً به دلیل بهره برداری تقریباً کامل از ظرفیت های غیرخطی قابل مشاهده نیستند.

آخرین ردیف در شکل ۷ استفاده کم پارامتر مقیاس را نشان می دهد. ج در مقابل پارامتر سوگیری ب . هدف اصلی بهینه سازی پارامترها ج به نظر می رسد که واریانس ویژگی ها را مطابق با معادله (۱۶) کنترل می کند. این توضیح توسط انحرافات جزئی پارامتر در لایه‌های پایین‌تر که ما به فرآیند یادگیری بازنمایی اختصاص می‌دهیم، و انطباق پارامتر قوی در آخرین لایه برای افزایش حساسیت به تبعیض ویژگی با هدف حل تکلیف طبقه‌بندی پشتیبانی می‌شود.

Q1: نتایج تجزیه و تحلیل نشان می‌دهد که لایه‌های BN در واقع می‌توانند به عنوان ANG برای توابع فعال‌سازی بعدی عمل کنند تا آموزش شبکه‌های عصبی عمیق‌تر را فعال کنند. برای مثال، یک نیاز ضروری، یک طرح اولیه سازی BN است که مکانیک شبکه را به سمت پردازش خطی در شروع روند آموزشی سوگیری می کند. از یک طرف، تنظیم پارامتر بایاس ب یک گزینه بدون هزینه برای کاهش موثر مشکل تخریب با عملکرد نسبتاً پایدار در چندین دوره است. از سوی دیگر، پارامتر مقیاس بندی ج توانایی محدودی برای محدود کردن استفاده از رفتار غیرخطی دارد و به طور قابل‌توجهی بر شدت تبعیض ویژگی‌ها تأثیر می‌گذارد، که منجر به عملکرد شکننده‌ای در چندین اجرا می‌شود. نتایج آزمایش نشان می‌دهد که مناطق خطی مرکزی در توابع فعال‌سازی نقطه‌ای متقارن سیگموئید و tanh ممکن است برای ایجاد ANG از طریق لایه‌های BN به اندازه کافی بزرگ نباشند. جالب توجه است که ReLU با ویژگی‌های مطلوب همگرایی سریع و دقت بالا با واریانس کوچک در چندین اجرا به عملکرد برتر دست می‌یابد، اما فقط برای BN. ( ۲ ، ۱ ) طرح اولیه

علی‌رغم اثرات تثبیت‌کننده یک مقداردهی اولیه BN مناسب بر عملکرد حاصل از شبکه‌های عصبی عمیق‌تر، پیشرفت آموزش در شکل ۷ به ندرت عملکردهای یکنواخت کاهشی را تشکیل می‌دهد. به طور خاص، ما فرض می‌کنیم که پیک‌های سنگین در تلفات تمرینی در نتیجه تنظیمات پارامتر در لایه‌های پایین‌تر رخ می‌دهد که باعث تغییرات انباشته در فعالیت عصبی لایه‌های زیر می‌شود و منجر به تغییرات گرادیان قوی می‌شود. این وضعیت احتمالاً حتی با ماهیت مخرب غیرخطی‌ها تقویت می‌شود. مطابق با این مشاهدات، فرآیند آموزش به طور متوسط ​​مدت طولانی طول می کشد تا یک جهت مناسب از بهینه سازی را تثبیت کند. با این وجود، نتایج نشان می‌دهد که عمق شبکه به دلیل زمان لازم برای یادگیری عبور سیگنال‌های خروجی مربوطه در هر لایه، عامل مهمی برای تعداد دوره‌های آموزشی مورد نیاز باقی می‌ماند. در آزمایش بعدی، بررسی خواهیم کرد که چگونه فرآیند آموزش شبکه‌های عصبی بسیار عمیق می‌تواند تثبیت شود.

۴٫۳٫ مدیریت گرادیان برجسته با AMSGrad

AMSGrad [46] بهینه سازهای شیب نزولی را که مبتنی بر میانگین های متحرک هستند، مانند Adam، گسترش می دهد تا به روز رسانی گرادیان خود را با استفاده از حداکثر تغییر گرادیان مشاهده شده در دوره آموزشی، عادی کند. این اقدام به‌ویژه از افزایش موقت نرخ یادگیری مؤثر برای شیب‌های نادر اما برجسته جلوگیری می‌کند [۴۶]. انگیزه ما در پشت تجهیزات بهینه ساز Adam با AMSGrad در سؤال تحقیق زیر خلاصه می شود:
Q2:

آیا AMSGrad همگرایی تلفات آموزشی را برای شبکه های عصبی عمیق تر از طریق مدیریت دقیق گرادیان های برجسته بهبود می بخشد؟

برای پاسخ به این سوال، صاف بودن پیشرفت از دست دادن تمرین را هنگامی که Adam با AMSGrad تقویت می‌شود، بررسی می‌کنیم. برای این منظور، ما همان تنظیمات آزمایش قبلی خود را با ۹۰ بلوک میانی اجرا می کنیم، اما فقط BN برتر را اعمال می کنیم. ( ب ، ج ) استراتژی اولیه سازی در هر تابع فعال سازی نتایج تجزیه و تحلیل در شکل ۸ و جدول ۴ نشان داده شده است.
Q2: مطابق شکل ۸، تغییر جزئی AMSGrad در بهینه ساز Adam به طور قابل ملاحظه ای پیشرفت از دست دادن تمرین را هموار می کند و همگرایی سریع را در مراحل اولیه تمرین برای همه عملکردهای فعال سازی در نظر گرفته شده ارتقا می دهد. جدول ۴ نشان می دهد که AMSGrad به دقت نهایی بالاتر با واریانس بسیار کمتر در طول اجراهای متعدد برای توابع اصلاح شده منجر می شود. در واقع، AMSGrad بهترین دقت‌های ReLU، Leaky ReLU و ELU را با مقداردهی اولیه BN برتر بهبود می‌بخشد. { ۰٫۵۶ ، ۱٫۷۵ ، ۰٫۸۸ } درصد به ترتیب. میانگین دقت متناظر با بهبودی حتی قانع‌کننده‌تر می‌شود { ۳٫۳۹ ، ۶٫۹۴ ، ۱۲٫۹۶ } درصد و یک واریانس کوچک در حال محو شدن هر بار زیر یک چهارم یک درصد. این نتایج نشان می‌دهد که مدیریت شیب‌های برجسته AMSGrad به شبکه‌های عصبی عمیق‌تر به‌درستی اولیه‌سازی شده اجازه می‌دهد تا از عمق شبکه گسترده‌تر خود در تحقق هدف آموزشی تعریف‌شده استفاده کنند. به طور خاص، AMSGrad با جلوگیری از سقوط به پیکربندی شبکه با ادغام بیش از حد رفتار غیرخطی از انحطاط شبکه جلوگیری می کند. قابل توجه است که دقت بالا در جدول ۴ ناشی از شبکه ای با پهنای باند تنها ۳۲ نورون در هر لایه پنهان کاملا متصل است. این مشاهدات از شهود شناخته شده قدرت بازنمایی ناشی از عمق عمودی یک شبکه عصبی پشتیبانی می کند. توابع فعال سازی متقارن tanh و sigmoid هنوز از فاصله خطی ناکافی بزرگ خود در اطراف مبدا رنج می برند، که از طریق عملکرد شکننده آنها در چندین اجرا قابل مشاهده است. دقت فوق‌العاده بالا در بهترین اجرا برای tanh ممکن است به عنوان یک صورت فلکی پارامتر شبکه سودمند خوش شانس توضیح داده شود که عمدتاً به طور تصادفی به دست آمده است. با این وجود، AMSGrad مستلزم تمایل به کاهش وقوع تغییرات پارامترهای مخرب در طول بهینه‌سازی شبکه است. ما فرض می‌کنیم که این تمایل عملکرد ضعیف تابع فعال‌سازی سیگموئید را در آزمایش فعلی نشان می‌دهد.

همه آزمایش‌های انجام‌شده تا کنون نشان می‌دهند که افزودن رفتار غیرخطی مشابه تابع درب دریچه کار می‌کند، جایی که معرفی غیرخطی‌های بیشتر در یک شبکه عصبی با روش یادگیری قابل کنترل است، اما عملیات معکوس عمدی به‌عنوان یک کار بیش از حد شدیدتر یا حتی غیرممکن به نظر می‌رسد. به طور کلی، نتایج تجربی ما نشان می‌دهد که یک مقداردهی اولیه شبکه به سمت خطی بودن و هموارسازی گرادیان‌های برجسته با AMSGrad، نه تنها عملکرد را حفظ می‌کند، بلکه شبکه‌های عصبی عمیق‌تر را قادر می‌سازد تا ظرفیت‌های غیرخطی کمکی را به بهبود عملکرد ترجمه کنند. از آنجایی که بهینه‌سازی شبکه‌های عصبی عمیق‌تر باعث ایجاد تغییرات گرادیان قوی می‌شود که توسط اثرات انباشته تنظیمات پارامتر در اندازه شبکه عمودی آغاز می‌شود، ما مدیریت مناسب شیب‌های برجسته را شناسایی می‌کنیم، به عنوان مثال، با AMSGrad، به عنوان یک نیاز ضروری برای موفقیت آموزش.

با انگیزه نتایج مثبت با AMSGrad، ما در آزمایش بعدی خود بررسی می کنیم که چگونه همگرایی آموزش با افزایش بیشتر عمق شبکه تحت تاثیر قرار می گیرد. مجدداً دلیل تحلیل را به عنوان یک سؤال تحقیق فرموله می کنیم:

Q3:

محدودیت‌های شبکه‌های نورون اسکالر بایاس اولیه نسبت به پردازش خطی با توجه به افزایش عمق شبکه چیست؟

در این آزمایش، ما قصد داریم به طور تهاجمی عمق شبکه را افزایش دهیم { ۱۲۰ ، ۱۵۰ ، ۲۰۰ ، ۲۵۰ ، ۳۰۰ ، ۴۰۰ ، ۵۰۰ } بلوک های میانی برای نشان دادن اینکه آیا انحطاط عملکرد هنوز رخ می دهد یا خیر و دقیقا چگونه ظاهر می شود. از آنجایی که عملکردهای اصلاح شده به طور مشابه برای عمق ۹۰ بلوک به خوبی انجام می شود، تجزیه و تحلیل به استفاده از ReLU با BN محدود می شود. ( ۲ ، ۱ ) . آزمایش قبلی ما بر همگرایی سریع از دست دادن تمرین در صورت اعمال AMSGrad تاکید کرد. برای صرفه جویی در منابع محاسباتی ارزشمند، ابتدا تعداد دوره های مورد نیاز را تا زمان همگرایی تعیین می کنیم. افزایش دقت g ( تی ) در دوره تی برای تمام دوره های باقی مانده ( تی ) را می توان به عنوان تعریف کرد

g ( تی ) = الف ¯ تی الف ¯ ( تی ) الف ¯ تی

کجا الف ¯ ( تی ) به معنای دقت مورد انتظار پس از دوره است تی و الف ¯ تی برابر با مقدار دقت مورد انتظار همگرایی است. برای سادگی، ما فرض می‌کنیم که همه دوره‌های آموزشی فقط توابع دقت افزایشی یکنواخت را تولید می‌کنند. افزایش دقت بر اساس میانگین توسعه تلفات تمرینی از آزمایش قبلی تقریبی شده است. شکل فرعی سمت چپ (a) شکل ۹ درصد افزایش دقت را برای توابع فعال سازی ReLU، Leaky ReLU و ELU نشان می دهد. در هر مورد، الف ¯ تی پس از پایان ۱۸۰ دوره آموزشی، به عنوان مقدار دقت نهایی انتخاب می شود. ReLU و ELU پس از حدود ۷۰ دوره به دست می آیند ۹۹ % از مقدار دقت نهایی، در حالی که ELU حدود ۳۰ دوره اضافی طول می کشد. از آنجایی که ما انتظار داریم یک شبکه با عمق بیشتر و مقداردهی اولیه به سمت پردازش خطی در یک پنجره زمانی مشابه با شبکه یکسان با لایه‌های کمتر همگرا شود، فرآیند آموزش را برای تمام عمق‌های شبکه به ۸۰ دوره محدود می‌کنیم. نتایج آزمایش در شکل فرعی (ب) شکل ۹ و در بخش اول جدول ۵ خلاصه شده است.

Q3: در شکل فرعی (ب) شکل ۹، ما هنوز با مشکل تخریب روبرو هستیم که در آن عملکرد شبکه به تدریج با افزایش عمق شبکه کاهش می یابد. مطابق با انتظارات ما، به نظر می رسد همه ضررها در مراحل اولیه فرآیند آموزش همگرا شوند. علاوه بر این، AMSGrad به طور موثر منحنی های از دست دادن تمرین را حتی برای عمیق ترین شبکه با ۵۰۰ بلوک میانی صاف می کند. جالب توجه است، استفاده از نرمال سازی دسته ای بایاس به سمت پردازش خطی و AMSGrad، شبکه ای با ۳۰۰ لایه کاملا متصل را در بهترین حالت قادر می سازد تا دقت خود را حفظ کند. ۹۰ % برای وظیفه طبقه‌بندی MNIST تنها پس از ۸۰ دوره آموزشی، همانطور که در جدول ۵ گزارش شده است. انحطاط عملکرد احتمالاً هنوز هم رخ می‌دهد، علی‌رغم قابلیت‌های پردازش خطی در ابتدا، به دلیل کمبود مفهومی در شبکه‌های ساده تک مسیری برای ایجاد نگاشت مستقیم هویت.

۴٫۴٫ توابع فعالسازی پارامتری با مقدار اولیه اولیه

اکنون می‌خواهیم بررسی کنیم که آیا توابع فعال‌سازی پارامتریک می‌توانند ANGها را به روشی مشابه BN ایجاد کنند و آیا هر دو استراتژی می‌توانند برای بهبود عملکرد شبکه حاصل همکاری کنند یا خیر. برای این منظور سؤالات تحقیق زیر را تدوین می کنیم:

Q4:

آیا توابع فعال سازی پارامتریک جایگزین معتبری برای تحقق ANG ها هستند؟

RQ 4a:

آیا BN و توابع فعال سازی پارامتریک می توانند مکمل یکدیگر عمل کنند؟

RQ 4b:

ظاهر پارامتر BN و تابع فعال سازی پارامتریک پس از آموزش موفق مدل چیست؟

برای پاسخ به این سؤالات، ما به‌طور متوالی تأثیر توابع فعال‌سازی پارامتری PReLU، SReLU/D-PReLU و APLU را بر عملکرد مدل حاصل بررسی می‌کنیم. همه پیکربندی‌ها یک شبکه عصبی با عمق ۹۰ بلوک میانی را در مجموعه داده‌های طبقه‌بندی MNIST در پنج اجرا با ۱۸۰ دوره آموزش می‌دهند. بهینه ساز Adam مجهز به AMSGrad برای صاف کردن گرادیان های برجسته است. برای بررسی تأثیر PReLU و APLU بر روی پایداری شبکه جدا شده از BN (به غیر از خاصیت عادی سازی توزیع BN)، ما هر دو تابع فعال سازی را با BN آزمایش می کنیم. ( ۰ ، ۱ ) و BN ( ۲ ، ۱ ) . با توجه به نتایج تجربی در [۳۱]ما برای APLU تعداد مولفه های خطی تکه ای را انتخاب می کنیم س { ۱ ، ۳ ، ۵ } . در مورد D-PReLU، مقداردهی اولیه BN بایاس از انتخاب تصادفی بین مقادیر استفاده می کند. { ۲ ، + ۲ } با احتمال برابر در هر نورون برای اطمینان از استفاده متعادل از مناطق غیر خطی. برای مقایسه منصفانه بین SReLU و D-PReLU، آستانه های تطبیقی ​​SReLU از مقداردهی اولیه پیروی می کنند. تی دقیقه = ۲ و تی حداکثر = ۲ . برخلاف استفاده از BN صرفاً بایاس، اولیه‌سازی توابع فعال‌سازی پارامتریک به سمت پردازش خطی، تقارن شبکه را بدون همپوشانی مناطق غیرخطی ایجاد می‌کند. برای خنثی کردن این شرایط، ما علاوه بر این پارامتر قابل یادگیری PReLU را امتحان می کنیم، یک مقدار اولیه با تغییرات جزئی، به عنوان مثال، r ۰ ن ( ۱ ، ۰٫۰۱ ) . نتایج تجربی در چهار ستون اول شکل ۱۰ و در جدول ۶، جدول ۷ و جدول ۸ گزارش شده است.
Q4: دو ستون اول شکل ۱۰ میانگین و بهترین تحولات تلفات آموزشی را برای توابع فعال سازی پارامتری نشان می دهد. اول از همه، شامل یک تغییر کوچک در مقادیر پارامترهای اولیه PReLU، همگرایی آموزشی را مستقل از مقدار دهی اولیه BN بتن کمی تسریع می کند. به همین دلیل، پارامترهای SReLU (آستانه‌های حذف شده)، D-PReLU و APLU نیز با همان درجه تغییر برای همه پیکربندی‌ها مقداردهی اولیه شدند. در این مرحله، ما یک تصویر متمایز را می‌بینیم تا جایی که PReLU از دقت اندکی کاهش یافته با واریانس نتیجه بالاتر در صورتی که BN در ابتدا بایاس باشد، رنج می‌برد، اما APLU به طور قابل توجهی از BN بایاس سود می‌برد. D-PReLU با استراتژی BN مغرضانه خود در واقع بالاترین دقت را با واریانس حاشیه ای به دست می آورد. با کمال تعجب، اگرچه SReLU دارای پارامترهای آستانه کمکی است که به طور مشترک در طول آموزش آموخته می شوند، عملکرد هنوز در نقاط خاصی که نمی توانند به طور کامل بازیابی شوند، کاهش می یابد. علی‌رغم قدرت بیانی APLU برای تقریب تابع، افزایش تعداد اجزای خطی تکه‌ای آن به‌شدت باعث کاهش هم‌گرایی آموزشی و عملکرد در نتیجه در هنگام استفاده از BN بی‌طرف می‌شود. بنابراین، توابع فعال‌سازی پارامتری به طور بالقوه می‌توانند یک جایگزین معتبر برای تحقق ANGها باشند، اما انتقال‌های هموار کمتری را برای ادغام رفتار غیرخطی نسبت به BN بایاس جمع‌آوری می‌کنند.
RQ 4a: طبق جدول ۷ و جدول ۸، استفاده ترکیبی از D-PReLU و APLU با BN مغرضانه در واقع مکمل یکدیگر هستند. واریانس نتایج به حداقل می رسد و دقت نهایی حداقل کمی افزایش می یابد. به خصوص، APLU تنها زمانی می تواند از مقدار افزایش یافته مولفه ها بهره مند شود که BN در ابتدا بایاس باشد. PReLU رابطه معکوس را در جدول ۶ نشان می دهد. با این حال، از دست دادن تمرین آن نیز سریعتر و روانتر با BN بایاس همگرا می شود.
RQ 4b: ستون های سوم و چهارم شکل ۱۰ انحرافات پارامتر نهایی BN و توابع فعال سازی پارامتری را از مقادیر اولیه خود نشان می دهند که نشان دهنده سطح استفاده از رفتار غیرخطی در هر لایه شبکه است. برای هر تابع فعال‌سازی، از پیکربندی مدل برتر با استفاده از بالاترین دقت به طور متوسط ​​استفاده می‌شود. به جز APLU، نوع تک جزیی برای تجسم بهتر ترجیح داده می شود. تغییرات پارامتر با نتایج آزمایش‌های قبلی ما مطابقت دارد، جایی که پردازش خطی عمدتاً در اطراف لایه‌های مرکزی در نیمی از عمق شبکه رخ می‌دهد. باز هم، این نتایج حاکی از آن است که در ابتدا سوگیری یک شبکه عصبی به سمت پردازش عمدتاً خطی به یک شبکه برای محدود کردن رفتار غیرخطی قبل از ایجاد اثرات تخریب خدمت می‌کند.

در نهایت، ما در مورد استحکام توابع فعال‌سازی پارامتریک در برابر مشکل تخریب با افزایش تدریجی عمق شبکه توضیح می‌دهیم:

Q5:

تا چه اندازه توابع فعال‌سازی پارامتریک مشکل تخریب را در رابطه با افزایش عمق شبکه کاهش می‌دهند؟

در هر تابع فعال‌سازی پارامتری، از پیکربندی برتر آزمایش قبلی استفاده می‌شود. نتایج تجزیه و تحلیل در ستون آخر شکل ۱۰ و در بخش های مربوطه از جدول ۵ خلاصه شده است.
Q5: میانگین پیشرفت تلفات تمرینی در ستون آخر شکل ۱۰ انعطاف پذیری خاصی از توابع فعال سازی پارامتریک در برابر مشکل تخریب را نشان می دهد. پیش شرط، تعداد پارامترهای قابل تنظیم در هر تابع فعال سازی متوسط ​​است. از این نظر، PReLU و D-PReLU با پنج مؤلفه خطی تکه‌ای آن از APLU بهتر عمل می‌کنند که منجر به ده پارامتر قابل یادگیری در هر نورون می‌شود. قابل توجه است که PReLU و D-PReLU عملکرد انحطاط نسبتاً کمی را در شبکه‌های وسیع با پانصد لایه کاملاً متصل روی هم نگه می‌دارند. این مشاهدات منجر به این بینش می‌شود که توابع فعال‌سازی پارامتری می‌توانند عاملی حیاتی در تسهیل آموزش شبکه‌های عصبی بسیار عمیق باشند. این بینش همچنین توسط دقت بالای دائمی به دست آمده در بهترین اجرا در هر عمق شبکه، همانطور که در جدول ۵ بیان شده است، پشتیبانی می شود. در واقع، کاهش عملکرد جزئی در PReLU و D-PReLU در بهترین اجراها احتمالاً می تواند به عدد ثابت نسبت داده شود. از ۸۰ دوره آموزشی برای تمام اعماق شبکه. با این حال، مشکل تخریب همچنان به عنوان یک کسری عملکرد متوسط ​​با افزایش قابل توجهی در تغییرپذیری نتیجه به وجود می آید. یک توضیح ممکن برای هماهنگ کردن هر دو مشاهدات متناقض، ماهیت مختل کننده تغییرات تابع فعال سازی است که ممکن است برای کاوش سریعتر فضای راه حل موجود مفید باشد.

۴٫۶٫ شبکه کپسول کانولوشن

در آزمایش نهایی خود، پتانسیل یک شبکه کپسول محور خالص با GR را در وظیفه طبقه بندی تصویر بررسی می کنیم. برای این منظور، ما یک CapsNet کانولوشن را روی مجموعه داده‌های Fashion-MNIST و SVHN اعمال می‌کنیم. به طور خلاصه، شبکه از نقشه‌های ویژگی مبتنی بر کپسول با GR بین نقشه‌های ویژگی با ابعاد یکسان تشکیل شده است. پیچیدگی های گروه بندی شده [۲۷] برای کاهش ابعاد ویژگی و ۳۰ بلوک کپسول متراکم. مقیاس بندی شبکه به منظور امکان پذیر نگه داشتن زمان محاسبات بسیار کم است. شرح دقیق معماری را می توان در ضمیمه C یافت. تا آنجا که ما می دانیم، این اولین معماری خالص کپسول محور است. معمولاً کپسول‌ها صرفاً در دو لایه شبکه نهایی یک ساختار شبکه گسترده قرار می‌گیرند. ما سوال تحقیق زیر را فرموله می کنیم:
سوال ۷:

آیا کپسول‌هایی را برای تجسم موجودیت‌های سطح دلخواه ارائه می‌کنید؟

به عنوان یک استراتژی در برابر بیش از حد برازش، از افزایش داده های خاص مجموعه داده استفاده می شود. افزایش داده برای Fashion-MNIST شامل چرخش افقی ( ص = ۰٫۵ )، بزرگنمایی تصادفی و ترجمه با فاکتورهای ۰٫۱ . افزایش داده ها برای SVHN از واریانس های طبیعی در داده ها با استفاده از زوم تصادفی، ترجمه و برش با فاکتورهای تقلید می کند. ۰٫۱ . علاوه بر این، چرخش تصادفی با حداکثر بزرگی از ۵ % از ۲ ص شاغل است. برای هر مجموعه داده، پنج CapsNet به طور تصادفی اولیه در ۱۰۰ دوره آموزش داده می شوند. نتایج تجربی در شکل ۱۲ و جدول ۱۰ نشان داده شده است.
سوال ۷: پیشرفت های آموزشی و اعتبار سنجی در شکل ۱۲ نشان می دهد که شبکه های کاملاً کپسول محور می توانند بر روی موجودیت های سطح پایین و سطح بالا کار کنند. این نیز توسط انطباق پارامتر سوگیری GR مشابه نتایج قبلی ما پشتیبانی می شود. با این حال، CapsNet خالص ما، همانطور که در جدول ۱۰ بیان شده است، به دقت آزمون پیشرفته دست نمی یابد. ما این کمبود را به محدودیت عمده CapsNets در پیچیدگی محاسباتی شدید نسبت می دهیم، که منجر به جلسات آموزشی طولانی حتی برای معماری های کوچک می شود. ما امیدواریم که تحقیقات آینده در مورد الگوریتم‌های مسیریابی کارآمد و پیاده‌سازی سطح پایین آن‌ها، CapsNets را برای طیف وسیع‌تری از وظایف یادگیری ماشینی قابل اجرا کند.


منبع: https://www.mdpi.com/2673-2688/6/1/1

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *