هوش مصنوعی پایداری از مدل زبان ۱٫۶B کوچکتر و کارآمدتر به عنوان بخشی از نوآوری مداوم رونمایی می کند.

هوش مصنوعی پایداری از مدل زبان ۱٫۶B کوچکتر و کارآمدتر به عنوان بخشی از نوآوری مداوم رونمایی می کند.

اندازه مطمئناً وقتی صحبت از مدل‌های زبان بزرگ (LLM) می‌شود اهمیت دارد، زیرا بر جایی که یک مدل می‌تواند اجرا شود تأثیر می‌گذارد.

هوش مصنوعی پایداریفروشنده ای که شاید بیشتر به خاطر فناوری هوش مصنوعی مولد متن به تصویر پایدار شناخته شده است، امروز یکی از کوچکترین مدل های خود را با اولین Stable LM 2 1.6B منتشر کرد. LM پایدار یک LLM تولید محتوای متنی است که Stability AI برای اولین بار در آوریل ۲۰۲۳ با هر دو مدل ۳ میلیارد و ۷ میلیارد پارامتر راه اندازی شد. مدل جدید StableLM در واقع دومین مدلی است که در سال ۲۰۲۴ توسط Stability AI پس از این شرکت عرضه شد. کد پایدار ۳B اوایل این هفته راه اندازی شد.

مدل جدید فشرده و در عین حال قدرتمند Stable LM با هدف کاهش موانع و امکان مشارکت بیشتر توسعه دهندگان در اکوسیستم هوش مصنوعی مولد با ترکیب داده های چندزبانه به هفت زبان – انگلیسی، اسپانیایی، آلمانی، ایتالیایی، فرانسوی، پرتغالی و هلندی است. این مدل از پیشرفت‌های الگوریتمی اخیر در مدل‌سازی زبان استفاده می‌کند تا به آنچه که Stability AI امیدوار است تعادل بهینه بین سرعت و عملکرد باشد، ایجاد کند.

کارلوس ریکلمه، رئیس تیم زبان در Stability AI به VentureBeat گفت: «به طور کلی، مدل‌های بزرگ‌تر که بر روی داده‌های مشابه با دستورالعمل آموزشی مشابه آموزش می‌بینند، بهتر از مدل‌های کوچکتر عمل می‌کنند. با این حال، با گذشت زمان، زمانی که مدل‌های جدید الگوریتم‌های بهتری را پیاده‌سازی می‌کنند و بر روی داده‌های با کیفیت بیشتر و بالاتر آموزش می‌بینند، گاهی اوقات شاهد عملکرد بهتر مدل‌های کوچک‌تر اخیر از مدل‌های بزرگ‌تر قدیمی‌تر هستیم.»

چرا کوچکتر بهتر است (این بار) با Stable LM

بر اساس هوش مصنوعی پایداری، این مدل در اکثر معیارها، از جمله معیارهای مایکروسافت، از سایر مدل های زبان کوچک با کمتر از ۲ میلیارد پارامتر بهتر عمل می کند. فی-۲ (۲٫۷B)، TinyLlama 1.1Bو فالکون ۱ بی.

Stable LM کوچکتر جدید حتی می تواند از برخی مدل های بزرگتر، از جمله مدل قبلی Stable LM 3B خود Stability AI پیشی بگیرد.

Riquelme گفت: “Stable LM 2 1.6B بهتر از برخی از مدل های بزرگتر که چند ماه پیش آموزش داده شده بودند، عمل می کند.” اگر به رایانه‌ها، تلویزیون‌ها یا ریزتراشه‌ها فکر کنید، تقریباً می‌توانیم روند مشابهی را ببینیم، آنها با گذشت زمان کوچک‌تر، نازک‌تر و بهتر شدند.»

برای روشن بودن، Stable LM 2 1.6B کوچکتر به دلیل اندازه اش دارای اشکالاتی است. Stability AI در انتشار خود برای مدل جدید هشدار می دهد که “…به دلیل ماهیت مدل های زبانی کوچک و کم ظرفیت، Stable LM 2 1.6B ممکن است به طور مشابه مشکلات رایجی مانند نرخ بالای توهم یا زبان بالقوه سمی را نشان دهد.”

شفافیت و داده های بیشتر هسته اصلی نسخه جدید مدل است

هرچه بیشتر به سمت گزینه های کوچکتر قدرتمندتر LLM برود، یکی از مواردی است که هوش مصنوعی پایداری در چند ماه گذشته از آن استفاده کرده است.

در دسامبر ۲۰۲۳، StableLM Zephyr 3B مدل منتشر شد و عملکرد بیشتری را برای StableLM با اندازه کوچکتر از تکرار اولیه در آوریل ارائه کرد.

Riquelme توضیح داد که مدل‌های جدید Stable LM 2 بر روی داده‌های بیشتر، از جمله اسناد چند زبانه به ۶ زبان علاوه بر انگلیسی (اسپانیایی، آلمانی، ایتالیایی، فرانسوی، پرتغالی و هلندی) آموزش داده شده‌اند. جنبه جالب دیگری که توسط Riquelme برجسته شده است، ترتیب نمایش داده ها به مدل در طول آموزش است. او اشاره کرد که ممکن است تمرکز بر انواع مختلف داده ها در مراحل مختلف آموزشی مفید باشد.

هوش مصنوعی پایداری مدل‌های جدید را با گزینه‌های از پیش آموزش‌دیده و تنظیم‌شده و همچنین قالبی که محققان به‌عنوان «…آخرین ایست بازرسی مدل قبل از سرد شدن قبل از آموزش» توصیف می‌کنند، در دسترس قرار می‌دهد.

Riquelme گفت: “هدف ما در اینجا این است که ابزارها و مصنوعات بیشتری را برای توسعه دهندگان به منظور نوآوری، تغییر و ساخت بر روی مدل فعلی ما فراهم کنیم.” در اینجا ما یک مدل نیمه پخته خاص را برای بازی مردم ارائه می دهیم.

Riquelme توضیح داد که در طول آموزش، مدل به طور متوالی به روز می شود و عملکرد آن افزایش می یابد. در آن سناریو، اولین مدل چیزی نمی‌داند، در حالی که مدل آخر بیشتر جنبه‌های داده را مصرف کرده و امیدواریم یاد گرفته باشد. در همان زمان، Riquelme گفت که مدل‌ها ممکن است در پایان دوره آموزشی، انعطاف‌پذیری کمتری داشته باشند، زیرا مجبور به تکمیل یادگیری هستند.

او گفت: «ما تصمیم گرفتیم درست قبل از شروع آخرین مرحله آموزش، مدل را به شکل فعلی ارائه کنیم، تا -امیدوارم- تخصصی کردن آن برای سایر وظایف یا مجموعه داده‌هایی که افراد ممکن است بخواهند از آن استفاده کنند، آسان‌تر باشد.» ما مطمئن نیستیم که آیا این به خوبی کار خواهد کرد، اما ما واقعاً به توانایی افراد برای استفاده از ابزارها و مدل‌های جدید به روش‌های شگفت‌انگیز و شگفت‌انگیز اعتقاد داریم.

ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.


منبع: https://venturebeat.com/ai/stability-ai-unveils-smaller-more-efficient-1-6b-language-model-as-part-of-ongoing-innovation/

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *