مدل هوش مصنوعی Poro نقاط عطف جدیدی را برای LLM های چند زبانه در اروپا تعیین می کند

Silo AI مستقر در هلسینکی، آموزش مدل Poro را به پایان رساند – نقطه عطف جدیدی در مأموریت خود برای ایجاد مدل‌های زبان بزرگ (LLM) برای زبان‌های کم منابع.

Poro که از کلمه فنلاندی برای “گوزن شمالی” نامگذاری شده است، اولین خانواده از خانواده LLMهای چندزبانه منبع باز است. این استارت‌آپ در حال ساخت این مدل‌ها در کنار دانشگاه تورکو و پروژه فناوری‌های زبان با عملکرد بالا (HPLT) اتحادیه اروپا است.

Poro یک مدل ۳۴٫۲ میلیارد پارامتری است که برای پردازش زبان انگلیسی، فنلاندی و کد طراحی شده است. این بر روی مجموعه داده ای از ۱ تریلیون توکن آموزش دیده است.

پیتر سارلین، یکی از بنیانگذاران و مدیرعامل Silo AI، به TNW گفت: «آنچه با Poro ثابت می کنیم این است که می توانیم مدل های رقابتی برای زبان های کم منابع مانند فنلاندی بسازیم.

<3 تکنولوژی اتحادیه اروپا

آخرین اخبار از صحنه فناوری اتحادیه اروپا، داستانی از بنیانگذار پیر خردمند ما، بوریس، و برخی هنرهای مشکوک هوش مصنوعی. هر هفته در صندوق ورودی شما رایگان است. ثبت نام کن!

سارلین توضیح داد که در LLM های عمومی، زبان های با منابع بالا مانند انگلیسی غالب هستند، به این معنی که قابلیت های زبان های کم منبع به وسعت ترجمه می رسد، اما نماینده زبان و فرهنگ یک کشور خاص نیستند.

طبق گفته این استارتاپ، Poro از تمامی مدل‌های زبان منبع باز موجود در فنلاندی، از جمله Mistral، FinGPT، Llama و مدل پارامتر BLUUMI 176 میلیارد عملکرد بهتری دارد.

برای دستیابی به این هدف، تیم از یک رویکرد آموزشی جدید با جفت کردن زبان فنلاندی با زبان‌های با منابع بالا استفاده کرد. فرکانس‌های بهینه استفاده مجدد از داده‌ها را برای زبان‌های کم منبع تعیین کرد و متون جفت ترجمه شده را بین فنلاندی و انگلیسی یکپارچه کرد. این روش بر سیگنال‌های چندزبانی متکی است تا درک ارتباطات بین زبان‌ها را تقویت کند – و به نوبه خود، عملکرد فنلاندی را افزایش دهد، در حالی که آن را در انگلیسی به خطر نمی‌اندازد.

Poro همچنین به یک نقطه عطف دیگر دست یافته است: این اولین مدل چند زبانه است که بر روی EuroHPC آموزش دیده است. ابر رایانه. “این مدرکی است که نشان می دهد ما می توانیم LLM ها را بر اساس AMD آموزش دهیم ابر کامپیوتر LUMIبه جای یک ابر رایانه مبتنی بر NVIDIA، “سارلین گفت.

گامی به سوی حاکمیت اروپا

LLMهای چندزبانه منبع باز کلید تضمین تنوع زبانی، نمایندگی فرهنگی و دسترسی دموکراتیک هستند. هوش مصنوعی. آنها همچنین برای اروپا حیاتی هستند حاکمیت هوش مصنوعی.

سارلین خاطرنشان کرد: از منظر تجاری، این مدل‌ها یک خط پایه و زیرساخت ایجاد می‌کنند که به شرکت‌های اروپایی اجازه می‌دهد در بالاترین سطح نوآوری داشته باشند. به این ترتیب شرکت ها می توانند IP ایجاد کنند، مزیت رقابتی ایجاد کنند و [create] کسب و کار بزرگی که تضمین می کند ارزش در اروپا با آنها باقی می ماند.»

Poro تحت مجوز Apache 2.0 به صورت رایگان در دسترس است که امکان استفاده تجاری و تحقیقاتی را فراهم می کند. SiloAI در حال حاضر روی زبان‌های نوردیک (سوئدی، نروژی، دانمارکی و ایسلندی) کار می‌کند و در حال برنامه‌ریزی برای گسترش به سایر زبان‌های رسمی اتحادیه اروپا است.


منبع: https://thenextweb.com/news/ai-model-poro-low-resource-language-multilingual-llms

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *