آیا آماده اید تا آگاهی بیشتری را به برند خود بیاورید؟ در نظر بگیرید که برای تور AI Impact Tour اسپانسر شوید. درباره فرصت ها بیشتر بدانید اینجا.
محققان در ETH زوریخ یک تکنیک جدید که می تواند به طور قابل توجهی سرعت شبکه های عصبی را افزایش دهد. آنها نشان داده اند که تغییر فرآیند استنتاج می تواند نیازهای محاسباتی این شبکه ها را به شدت کاهش دهد.
در آزمایشهای انجامشده بر روی BERT، یک مدل ترانسفورماتور که در وظایف زبانی مختلف به کار میرود، آنها به کاهش شگفتانگیز بیش از ۹۹ درصدی در محاسبات دست یافتند. این تکنیک نوآورانه را میتوان برای مدلهای ترانسفورماتور مورد استفاده در مدلهای زبان بزرگ مانند GPT-3 نیز به کار برد و فرصتهای جدیدی را برای پردازش زبان سریعتر و کارآمدتر باز میکند.
شبکه های فید فوروارد سریع
ترانسفورماتورها، شبکههای عصبی زیربنای مدلهای زبان بزرگ، از لایههای مختلفی از جمله لایههای توجه و لایههای پیشخور تشکیل شدهاند. دومی که بخش قابل توجهی از پارامترهای مدل را به خود اختصاص می دهد، به دلیل نیاز به محاسبه حاصلضرب همه نورون ها و ابعاد ورودی، از نظر محاسباتی نیاز دارند.
با این حال، مقاله محققان نشان میدهد که لازم نیست همه نورونهای درون لایههای پیشخور در طول فرآیند استنتاج برای هر ورودی فعال باشند. آنها معرفی لایههای «فید فوروارد سریع» (FFF) را به عنوان جایگزینی برای لایههای پیشخور سنتی پیشنهاد میکنند.
FFF از یک عملیات ریاضی معروف به ضرب ماتریس شرطی (CMM) استفاده میکند که جایگزین ضربهای ماتریس متراکم (DMM) مورد استفاده توسط شبکههای پیشخور معمولی میشود.
در DMM، تمام پارامترهای ورودی در تمام نورون های شبکه ضرب می شوند، فرآیندی که هم از نظر محاسباتی فشرده و هم ناکارآمد است. از سوی دیگر، CMM استنتاج را به گونه ای مدیریت می کند که هیچ ورودی به بیش از تعداد انگشت شماری نورون برای پردازش توسط شبکه نیاز ندارد.
با شناسایی نورون های مناسب برای هر محاسبات، FFF می تواند بار محاسباتی را به میزان قابل توجهی کاهش دهد و منجر به مدل های زبانی سریع تر و کارآمدتر شود.
شبکه های فید فوروارد سریع در عمل
محققان برای تایید تکنیک ابداعی خود، FastBERT را توسعه دادند که اصلاحی از آن است مدل ترانسفورماتور BERT گوگل. FastBERT با جایگزینی لایههای پیشخور میانی با لایههای پیشخور سریع، مدل را متحول میکند. FFF ها نورون های خود را در یک درخت باینری متعادل مرتب می کنند و تنها یک شاخه را به صورت مشروط بر اساس ورودی اجرا می کنند.
برای ارزیابی عملکرد FastBERT، محققان انواع مختلفی را در چندین کار از ارزیابی درک عمومی زبان تنظیم کردند.چسب) معیار. GLUE مجموعه ای جامع از مجموعه داده هایی است که برای آموزش، ارزیابی و تجزیه و تحلیل سیستم های درک زبان طبیعی طراحی شده است.
نتایج چشمگیر بود، با عملکرد FastBERT در مقایسه با مدل های BERT پایه با اندازه و روش های آموزشی مشابه. انواع FastBERT که فقط برای یک روز با یک واحد پردازش گرافیکی A6000 آموزش دیده اند، حداقل ۹۶٫۰ درصد از عملکرد مدل اصلی BERT را حفظ کرده اند. قابل توجه، بهترین مدل FastBERT آنها با عملکرد مدل BERT اصلی مطابقت داشت در حالی که تنها از ۰٫۳٪ از نورون های پیشخور خود استفاده می کرد.
محققان بر این باورند که ترکیب شبکههای فید فوروارد سریع در مدلهای زبانی بزرگ، پتانسیل بسیار زیادی برای شتاب دارد. به عنوان مثال، در GPT-3، شبکه های پیشخور در هر لایه ترانسفورماتور از ۴۹۱۵۲ نورون تشکیل شده است.
محققان خاطرنشان می کنند، “اگر این شبکه قابل آموزش باشد، می توان این شبکه را با یک شبکه پیشخور سریع با حداکثر عمق ۱۵ جایگزین کرد که حاوی ۶۵۵۳۶ نورون است اما از ۱۶ نورون برای استنتاج استفاده می کند. این مقدار حدود ۰٫۰۳٪ از نورون های GPT-3 است.”
فضا برای بهبود
بهینه سازی سخت افزاری و نرم افزاری قابل توجهی برای ضرب ماتریس متراکم، عملیات ریاضی مورد استفاده در شبکه های عصبی پیشخور سنتی وجود داشته است.
محققان می نویسند: «ضرب ماتریس متراکم بهینه ترین عملیات ریاضی در تاریخ محاسبات است. تلاش زیادی برای طراحی حافظهها، تراشهها، مجموعههای دستورالعملها و روالهای نرمافزاری انجام شده است که آن را با بیشترین سرعت ممکن اجرا میکنند. کاربر نهایی فقط از طریق رابط های برنامه نویسی قدرتمند اما محدود کننده.
در مقابل، در حال حاضر هیچ پیادهسازی کارآمد و بومی ضرب ماتریس شرطی، عملیاتی که در شبکههای فید فوروارد سریع استفاده میشود، وجود ندارد. هیچ چارچوب یادگیری عمیق محبوبی، رابطی را ارائه نمی دهد که بتوان از آن برای پیاده سازی CMM فراتر از یک شبیه سازی سطح بالا استفاده کرد.
محققان پیاده سازی خود را از عملیات CMM بر اساس دستورالعمل های CPU و GPU توسعه دادند. این منجر به بهبود قابل توجه سرعت ۷۸ برابری در طول استنتاج شد.
با این حال، محققان بر این باورند که با سختافزار بهتر و اجرای سطح پایین الگوریتم، میتوان بالقوهای برای بهبود بیش از ۳۰۰ برابری در سرعت استنتاج وجود داشت. این می تواند به طور قابل توجهی یکی از چالش های اصلی مدل های زبان را برطرف کند – تعداد نشانه هایی که در هر ثانیه تولید می کنند.
محققان می نویسند: “با وعده تئوری سرعت ۳۴۱ برابری در مقیاس مدل های مبتنی بر BERT، ما امیدواریم که کار ما الهام بخش تلاشی برای اجرای اصول اولیه برای اجرای عصبی شرطی به عنوان بخشی از رابط های برنامه نویسی دستگاه باشد.”
این تحقیق بخشی از تلاش گستردهتر برای مقابله با حافظه و محاسبه تنگناهای مدلهای زبان بزرگ است که راه را برای سیستمهای هوش مصنوعی کارآمدتر و قدرتمندتر هموار میکند.
ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.
منبع: https://venturebeat.com/ai/new-technique-can-accelerate-language-models-by-300x/