متا بی سر و صدا از Llama 2 Long AI رونمایی می کند که GPT-3.5 Turbo و Claude 2 را در برخی کارها شکست می دهد.

متا بی سر و صدا از Llama 2 Long AI رونمایی می کند که GPT-3.5 Turbo و Claude 2 را در برخی کارها شکست می دهد.

VentureBeat ارائه می دهد: AI Unleashed – یک رویداد اجرایی انحصاری برای رهبران داده های سازمانی. شبکه و یادگیری با همتایان صنعت. بیشتر بدانید


متا پلتفرم ها نشان داده شد بسیاری از ویژگی های جدید هوش مصنوعی این هفته در کنفرانس سالانه Meta Connect در مقر اصلی خود در منلو پارک، کالیفرنیا، برای خدماتی که با مصرف کننده مواجه است، فیس بوک، اینستاگرام و واتس اپ است.

اما بزرگترین خبر از شرکت مارک زاکربرگ ممکن است در واقع به شکل یک مقاله علمی کامپیوتری باشد که بدون هیاهو توسط محققان متا در وب سایت دسترسی آزاد و غیر همتا منتشر شده است. arXiv.org.

این مقاله Llama 2 Long را معرفی می کند، یک مدل جدید هوش مصنوعی بر اساس متن باز متا Llama 2 در تابستان منتشر شداما به گفته محقق-نویسندگان مقاله، «پیش‌آموزش مستمر از Llama 2 با توالی‌های آموزشی طولانی‌تر و در مجموعه داده‌ای که متون طولانی نمونه‌برداری می‌شوند، انجام شده است».

در نتیجه، مدل جدید هوش مصنوعی متا از برخی از رقبای پیشرو در تولید پاسخ‌ها به درخواست‌های طولانی (تعداد کاراکترهای بیشتر) از کاربران، از جمله عملکرد بهتری دارد. GPT-3.5 Turbo OpenAI با پنجره زمینه ۱۶۰۰۰ کاراکتریهمچنین کلود ۲ با پنجره زمینه ۱۰۰۰۰۰ کاراکتری.

رویداد

هوش مصنوعی آزاد شد

یک شب انحصاری فقط دعوت از بینش و شبکه، که برای مدیران ارشد سازمانی که بر پشته‌های داده و استراتژی‌ها نظارت دارند، طراحی شده است.

بیشتر بدانید

چگونه LLama 2 Long به وجود آمد

محققان متا نسخه اصلی Llama 2 را در اندازه‌های مختلف پارامتر آموزشی آن در دسترس گرفتند – مقادیر داده‌ها و اطلاعاتی که الگوریتم می‌تواند به تنهایی با یادگیری تغییر کند، که در مورد Llama 2 به ۷ میلیارد، ۱۳ میلیارد، ۳۴ می‌رسد. میلیارد و ۷۰ میلیارد نوع – و شامل منابع داده متنی طولانی تر از مجموعه داده آموزشی اصلی Llama 2 است. به طور دقیق ۴۰۰ میلیارد توکن دیگر.

سپس، محققان معماری اصلی Llama 2 را به همان شکل حفظ کردند و فقط “اصلاحات لازم را در رمزگذاری موقعیتی انجام دادند که برای حضور طولانی‌تر مدل بسیار مهم است.”

آن اصلاح به بود جاسازی پوزیشن روتاری (RoPE) رمزگذاری، روشی برای برنامه‌نویسی مدل ترانسفورماتور زیربنای LLM‌هایی مانند Llama 2 (و LLama 2 Long)، که اساساً جاسازی‌های نشانه آن‌ها (اعداد مورد استفاده برای نمایش کلمات، مفاهیم و ایده‌ها) را بر روی یک نمودار سه بعدی که موقعیت‌های نسبی آن‌ها را نشان می‌دهد نگاشت می‌کند. به نشانه های دیگر، حتی در صورت چرخش. این به یک مدل اجازه می‌دهد تا پاسخ‌های دقیق و مفیدی را با اطلاعات کمتر (و در نتیجه فضای ذخیره‌سازی محاسباتی کمتر) نسبت به روش‌های دیگر تولید کند.

محققان متا “زاویه چرخش” رمزگذاری RoPE خود را از Llama 2 به Llama 2 Long کاهش دادند، که آنها را قادر ساخت تا اطمینان حاصل کنند که “توکن های دورتر” بیشتر، مواردی که به ندرت رخ می دهند یا با سایر اطلاعات کمتری وجود دارند، همچنان شامل می شوند. در پایگاه دانش مدل

استفاده کردن یادگیری تقویتی از بازخورد انسانی (RLHF)یک روش متداول آموزش مدل هوش مصنوعی که در آن هوش مصنوعی برای پاسخ‌های صحیح با نظارت انسان برای بررسی آن و داده‌های مصنوعی تولید شده توسط خود چت Llama 2 پاداش می‌گیرد، محققان توانستند عملکرد آن را در وظایف رایج LLM از جمله کدنویسی، ریاضی، درک زبان، بهبود بخشند. استدلال عقل سلیم و پاسخ دادن به سؤالات ایجاد شده توسط کاربر انسانی.

جای تعجب نیست که جامعه AI منبع باز

با چنین نتایج چشمگیری نسبت به Llama 2 معمولی و Anthropic’s Claude 2 و OpenAI’s GPT-3.5 Turbo، تعجبی ندارد که جامعه هوش مصنوعی منبع باز Reddit و توییتر و اخبار هکرها از زمان انتشار مقاله در اوایل این هفته، تحسین و هیجان خود را در مورد Llama 2 ابراز کرده اند – این یک اعتبار بزرگ برای رویکرد “متن باز” متا نسبت به هوش مصنوعی مولد است، و نشان می دهد که منبع باز می تواند با منبع بسته، “پرداخت برای بازی” رقابت کند. مدل های ارائه شده توسط استارت آپ های با بودجه خوب

ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.


منبع: https://venturebeat.com/ai/meta-quietly-releases-llama-2-long-ai-that-outperforms-gpt-3-5-and-claude-2-on-some-tasks/

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *