آبشار همجوشی ترکیبی به عنوان یک شبکه عصبی

۴٫۲ خصوصیات طیفی ماتریس CFC LAPLACE

برای شناسایی خصوصیات خاص CFC ، شبکه ای را با چهار لایه بررسی می کنیم ، مشابه آنچه در شکل ۱C نشان می دهد ، حاوی ۳۲ نورون در هر لایه است. اتصال شبکه CFC در جدول ۲ شرح داده شده است.

Eigentors و مقادیر ویژه ماتریس Laplace برای این شبکه عصبی با آنهایی که از یک شبکه Neral چهار لایه کاملاً متصل به همان اندازه مقایسه می شوند ، مقایسه می شوند.

شکل ۳ طیف لاپلاسی و برخی از ویروس های ویژه لاپلاسی را برای یک شبکه عصبی کاملاً متراکم با چهار لایه نشان می دهد. ویرانگران فیدلر [۱۵] (اولین eigenvector غیرقانونی با شاخص I = 1) با شناسایی چهار مورد مربوط به چهار لایه ، ساختار جهانی شبکه عصبی را نشان می دهد. با استفاده از قیاس ویبراتورهای متصل ، رفتار ویژه ای از لوپلاسی شبکه عصبی به عنوان افزایش ارزش ویژه آنها می تواند باشد باشید باشید باشید باشید باشید باشید باشید Be Be Be Be Be Be Be Be Be Be Be Be Be Be Be Be Be Be Be Be Be BE BE BE BE BE BE BE BE BE BE BE BE BE BE BE BE BE BE BE BE BE BE AS OPERVESSIONS حالت های ارتعاش نوسان ساز اضطراری حالت های حالت های ارتعاش. کل طیف مقادیر ویژه Laplacian از یک شبکه کاملاً متصل به گروه های کیفی متفاوت تقسیم می شود. در انرژی لرزش کم ، eigentors در منطقه با لبه های کوچکتر بومی سازی می شود: این لایه ورودی و خروجی است. با افزایش انرژی ارتعاش شبکه ، محلی سازی Eigenvectors Laplacian به وسط شبکه عصبی با غلظت بالاتری از اتصالات بین گره ها حرکت می کند.
در مورد CFC (شکل ۴) ، بیشتر ترکیب Eigner مانند مورد شبکه عصبی پر شده در شکل ۳ از مناطق با اتصال به پایین تا بالاتر ضرب می شود: گره های لایه ورودی (به عنوان مثال ، I = 20 و ۳۱) ، اولین گره های لایه پنهان (به عنوان مثال ، I = 36) ، گره های لایه خروجی (به عنوان مثال ، I = 95) و گره های لایه پنهان دوم با اتصال (به عنوان مثال ، I = 96).
شبکه CFC همچنین تفاوت های اساسی دارد. بردار فیدلر CFC DOS ساختار آبشار را متمایز نمی کند بلکه شبکه را به ۱۶ خوشه (۴ خوشه در هر لایه) تقسیم می کند. آنالوگهای ویژه فیدلر در محل اتصال لایه های آبشار ظاهر می شوند (Eigenvectors با I = 33 ، ۳۵ در شکل ۴). برای آنالوگ های فیدلر نیز جالب است که در حداکثر انرژی لرزش شبکه عصبی نیز ظاهر می شود ، به عنوان مثال ، I = 126 Edler. فقط Eigenvectors Cascade ، نه Eigenveector Fiedler ، و آنالوگ های آن ، برخلاف انتظارات ، در کل شبکه Neral توزیع می شوند.

۴٫۳ معماری آبشار ترکیبی در ترانسفورماتورها

لایه های کاملاً متصل به طور گسترده در ترانسفورماتورها ، هم در لایه های جذابیت چند سر (MHA) و هم در لایه های شبکه تغذیه رو به جلو (FFN) استفاده می شوند. مدل های زبان در مقیاس بزرگ مبتنی بر ترانسفورماتور ، مانند GPT-3 ، که پارامترها را با تعداد قابل توجهی از عملیات روبرو می کنند و نیازهای حافظه را افزایش می دهند. این به عنوان یک تنگنا جدی برای توسعه بیشتر مدلهای بزرگ زبان شناخته شده است [۱۶]بشر در اینجا ، ما بررسی می کنیم که چگونه یک معماری Casecade با ادغام آن یک طبقه بندی کننده متن مبتنی بر ترانسفورماتور ، تأثیرگذار ترانسفورماتور را برطرف می کند.
شکل ۵a تصویرگران معماری طبقه بندی متن طراحی شده برای ارزیابی تأثیر معماری CFC بر عملکرد آن. طبقه بندی کننده مجموعه داده IMDB استاندارد [۱۷]یک لایه تعبیه شده ، دو تانفورس دنباله و یک لایه خروجی برای باینری از زمان طبقه بندی. در تعبیه ، ۲۵۰۰۰ بررسی به دنباله های عددی نشان داده می شود ، جایی که هر کلمه با شاخص مربوطه آن در یک واژگان پیش ساخته جایگزین می شود. ابعاد ماتریس تعبیه شده ۱۲۸ × ۱۰،۰۰۰ (تعداد بعد توکن X ابعاد مدل) بود. برای ورود به سیستم ثبات ، دنباله ها به اندازه ثابت بسته بندی شده یا کوتاه می شوند. معماری ترانسفورماتور شامل عناصر کلیدی مانند لایه های ترک تحصیل ، عادی سازی و اتصالات باقیمانده است (به بیانیه در دسترس بودن کد پایتون برای طبقه بندی کننده متن مراجعه کنید).

ما مجموعه داده IMDB را به دو دلیل اصلی می بینیم. اول ، آن را به عنوان یک معیار مشهور در تحلیل سناتی خدمت می کند. دوم ، فقط برچسب های باینری ، به این معنی که لایه خروجی از یک نورون منفرد متصل به سیستم لایه های کاملاً متصل و بدون کاهش ابعاد در حالت. این وارد شبکه عصبی تقریباً کاملاً از لایه های کاملاً متصل به ابعاد مشابه است ، بدون کاهش میانی تا لایه خروجی. برای اجرای معماری آبشار ترکیبی ، شش ماتریس انتخاب شدند: ماتریس طرح ریزی کاملاً متراکم حرف ای ۱ از قسمت آتلانتاسیون چند سر از اولین ترانسفورماتور ، دو ماتریس کاملاً متراکم حرف ۱ ۱ وت حرف ۲ ۱ از قسمت تغذیه رو به جلو ترانسفورماتور اول ، و همچنین ماتریس های تجزیه و تحلیل از ترانسفورماتور دوم: حرف ای ۲ از قسمت توجه چند سر حرف ۱ ۲ وت حرف ۲ ۲ از بلوک خوراک رو به جلو. ماتریس طرح ریزی نقش مهمی در جمع آوری اطلاعات اطلاعات از چندین سر به یک سرکوب یکپارچه برای هر نشانه دارد. ماتریس های بلوک خوراک به جلو برای تبدیل داده های ورودی و خارج کردن ویژگی های سطح بالاتر ضروری هستند. به شش ماتریس شش ماتریس پویا استفاده شد ، تعداد مورب ها که از آن به آبشار باینری افزایش یافته است: ۲ ، ۴ ، ۸ ، ۱۲۸ ۱۲۸ ۱۲۸٫ بنابراین ، آخرین ماتریس آبشار حرف ۲ ۲ کاملاً متراکم باقی مانده است. استفاده از یک آبشار باینری در کاهش دو ارتفاع از وزنهای همه ماتریس های منتخب است.

بر اساس این واقعیت که CFC دارای یک چند مداری آبشار است ، به قیاس ، ما وزن اولیه برای کل آبشار ماتریس های منتخب با کاهش عاملی در پیشرفت هندسی باینری هستیم: ۱ ، ۱/۴ ، ۱/۴ ، ۱/۴ ۳۲٫

شکل ۵b دقت طبقه بندی متن را با ماتریس های تمام وزن و این که با آبشار داخلی و با کاهش وزن آبشار به عنوان تابعی از تعداد بررسی های مورد استفاده برای قطار مقایسه می کند. به طور کلی ، معرفی شده آبشار به طور قابل توجهی تأثیر نمی گذارد. با این حال ، هنگامی که تعداد نمونه های آموزشی با یک عامل ۱/۳۲ (۷۸۱ بررسی) کاهش می یابد ، تفاوت قابل توجهی پدیدار شد. در حالی که طبقه بندی کننده متن استاندارد افت قابل توجهی در دقت را تجربه کرده است ، طبقه بندی کننده با آبشار داخلی کاهش تدریجی تری نشان می دهد. میانگین اختلاف دقت بین این دو مورد نزدیک به ۱۰ ٪ بود. همچنین باید توجه داشته باشید که انحراف استاندارد از دقت در مورد طبقه بندی متن آبشار بیش از دو بار کاهش یافته است. ورودی شکل ۵b وابستگی دیگری به دقت (خط متراکم آبی) را نشان می دهد ، برای مورد ژنراتور متن استاندارد با یک فاکتور آبشار برای وزن های اولیه. از مواردی که در شکل ۵b نشان داده شده است ، طبقه بندی کننده متن با آبشار اتصال داخلی و یک عامل آبشار برای وزن های اولیه بیشترین دقت را در نشان از تعداد تعداد سمپل ها برای سه گانه می دهد.

کاهش بعد ماتریس تعبیه با محدود کردن تعداد توکن ها به ۱۰۰۰ (در طول ۱۰،۰۰۰) در طول مجموعه داده های کامل مجموعه داده ها منجر به تفاوت قابل توجهی برای Extreme the Cascade یا طبقه بندی متن استاندارد نمی شود. هنگامی که تعداد توکن ها بیشتر به ۱۰۰ کاهش یافت ، دقت به ۰٫۷۲ کاهش یافت و تفاوت قابل توجهی بین دو نوع طبقه بندی کننده متن نداشت. این کاهش در نشانه ها می تواند در آزمایش شامل آشفتگی های مخالف باشد. مجموعه داده IMDB به گونه ای ساخته شده است که کاهش Token County تنها کلمات متداول را حفظ می کند. نشانه های خارج از واژگان کاهش یافته با [UNK] توکن ، که مانند توانایی مدل ها در تعمیم تأثیر می گذارد.

در آزمایشات با طبقه بندی کننده های Cascade و Standard Text ، ما در زمان آموزش یا استفاده از حافظه هیچ تفاوتی بین آنها مشاهده نکردیم. نکته قابل توجه ، تعداد کل وزن در ماتریس هایی که CFC در آن اجرا شده بود ، تنها ۴٫۵ ٪ از کل وزن مدل را به خود اختصاص داده است. اکثر وزن ها در لایه تعبیه قرار داشتند و توسط ماتریس پویا اصلاح نشده بودند.


منبع: https://www.mdpi.com/2673-2688/6/2/23

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *