شاخص توهم گالیله GPT-4 را به عنوان بهترین LLM برای موارد استفاده مختلف شناسایی می کند.

شاخص توهم گالیله GPT-4 را به عنوان بهترین LLM برای موارد استفاده مختلف شناسایی می کند.

VentureBeat ارائه می دهد: AI Unleashed – یک رویداد اجرایی انحصاری برای رهبران داده های سازمانی. در ۱۵ نوامبر از رهبران برتر صنعت بشنوید. پاس رایگان خود را رزرو کنید


یک شاخص توهم جدید توسط بازوی تحقیقاتی مستقر در سانفرانسیسکو ایجاد شده است گالیلهکه به شرکت ها در ساخت، تنظیم و نظارت بر برنامه های مدل زبان بزرگ (LLM) در سطح تولید کمک می کند، نشان می دهد که OpenAI مدل GPT-4 بهترین عملکرد را دارد و کمترین توهم را در هنگام انجام وظایف متعدد ایجاد می کند.

منتشر شده امروز، این شاخص نزدیک به دوازده LLM منبع باز و بسته، از جمله سری Llama متا را بررسی کرد و عملکرد هر یک از آنها را در وظایف مختلف ارزیابی کرد تا ببیند کدام LLM کمترین توهم را هنگام انجام وظایف مختلف تجربه می کند.

در نتایج، همه LLM ها با وظایف مختلف رفتار متفاوتی داشتند، اما پیشنهادات OpenAI با عملکرد تا حد زیادی ثابت در تمام سناریوها در صدر باقی ماندند.

یافته‌های این شاخص به‌عنوان جدیدترین راه برای کمک به شرکت‌ها برای مقابله با چالش توهمات است – که بسیاری از تیم‌ها را از استقرار آن باز داشته است. مدل های زبان بزرگ در بخش های حیاتی مانند مراقبت های بهداشتی، در مقیاس.

رویداد VB

هوش مصنوعی آزاد شد

AI Unleashed در ۱۵ نوامبر را از دست ندهید! این رویداد مجازی بینش‌های انحصاری و بهترین شیوه‌های رهبران داده از جمله Albertsons، Intuit و غیره را به نمایش می‌گذارد.

در اینجا به صورت رایگان ثبت نام کنید

ردیابی توهم LLM آسان نیست

اگرچه نظرسنجی‌ها نشان می‌دهد که شرکت علاقه زیادی به استفاده از هوش مصنوعی و LLM مولد به‌ویژه برای هدایت نتایج کسب‌وکار دارد، اما وقتی صحبت از استقرار آنها به عنوان استنتاج در تولید می‌شود، شرکت‌ها می‌توانند شاهد شکاف‌های عملکردی باشند، زیرا پاسخ‌های LLM 100٪ از نظر واقعی درست نیست. به این واقعیت که LLM متنی را تولید می کند یا وظایفی را بر اساس پایگاه داده برداری خود انجام می دهد که اصطلاحات و مفاهیم مرتبط هستند – صرف نظر از حقیقت.

“متغیرهای زیادی وجود دارد که در استقرار قرار می گیرند هوش مصنوعی مولد محصولات به عنوان مثال: آیا محصول شما یک ابزار همه منظوره است که بر اساس یک دستور ساده داستان تولید می کند؟ یا یک است چت بات سازمانی که به مشتریان کمک می کند به سوالات رایج بر اساس هزاران مستندات محصول اختصاصی پاسخ دهند؟ آتیندریو سانیال، یکی از بنیانگذاران و مدیر ارشد فناوری گالیله، به VentureBeat توضیح داد.

امروزه، تیم‌های سازمانی از معیارها برای مطالعه عملکرد مدل استفاده می‌کنند، اما هیچ اندازه‌گیری جامعی از نحوه توهم آنها وجود ندارد – تا کنون.

برای مقابله با این چالش، Sanyal و تیم یازده LLM منبع باز و منبع بسته محبوب با اندازه های مختلف (پس از بررسی مخازن متعدد LLM، تابلوهای امتیازات و نظرسنجی های صنعتی) را انتخاب کردند و احتمال هر مدل را برای توهم در برابر سه کار رایج ارزیابی کردند: پرسش و پاسخ. بدون بازیابی نسل افزوده (RAG)پرسش و پاسخ با RAG و تولید متن طولانی.

“برای آزمایش LLM ها در بین این انواع وظایف، ما هفت مورد از محبوب ترین مجموعه داده های موجود امروز را پیدا کردیم. این مجموعه داده ها به طور گسترده به عنوان معیارهای دقیق و دقیق در نظر گرفته می شوند و به طور موثر توانایی های هر LLM مرتبط با کار در دست را به چالش می کشند. به عنوان مثال، برای پرسش و پاسخ بدون RAG، ما از مجموعه داده‌های دانش مبتنی بر گسترده مانند TruthfulQA و TriviaQA برای ارزیابی اینکه چگونه این مدل‌ها به سؤالات عمومی رسیدگی می‌کنند، استفاده کردیم.» Sanyal توضیح داد.

تیم گالیله از مجموعه داده‌ها نمونه‌برداری کرد تا اندازه آن‌ها را کاهش دهد و برای بررسی صحت و قابلیت اطمینان خروجی‌ها، آن‌ها را حاشیه‌نویسی کرد تا حقیقت پایه را مشخص کند. سپس، با استفاده از مجموعه داده های مناسب، هر مدل را در هر کار آزمایش کردند. نتایج با استفاده از معیارهای اختصاصی Correctness و Context Aderence شرکت ارزیابی شد.

این معیارها تشخیص دقیق زمانی که احتمال وقوع توهم وجود دارد را برای مهندسان و دانشمندان داده آسان می‌کند. دقت بر روی ثبت اشتباهات کلی منطقی و مبتنی بر استدلال متمرکز است و برای ارزیابی پرسش و پاسخ بدون RAG و انواع وظایف تولید متن طولانی استفاده می‌شود. در همین حال، Context Aderence توانایی های استدلال یک LLM را در اسناد و زمینه ارائه شده اندازه گیری می کند و برای ارزیابی پرسش و پاسخ با RAG استفاده می شود.”

مدل ها چطور کار کردند؟

هنگام رسیدگی به پرسش‌ها و پاسخ‌ها بدون بازیابی، جایی که مدل برای ارائه پاسخ‌ها به دانش و آموخته‌های داخلی خود متکی است، خانواده GPT OpenAI از میان جمعیت متمایز بود.

مدل GPT-4-0613 امتیاز صحت ۰٫۷۷ را دریافت کرد و GPT-3.5 Turbo-1106، GPT-3.5-Turbo-Instruct و GPT-3.5-Turbo-0613 به ترتیب با امتیازهای ۰٫۷۴، ۰٫۷۰ و ۰٫۷۰ پس از آن قرار گرفتند.

فقط در این دسته متا لاما-۲-۷۰b با امتیاز ۰٫۶۵ به خانواده GPT نزدیک شد. همه مدل‌های دیگر، به‌ویژه Llama-2-7b-chat و Mosaic’s ML’s MPT-7b-instruct به ترتیب با امتیازهای ۰٫۵۲ و ۰٫۴۰ عقب‌تر بودند.

برای وظایف مربوط به بازیابی، که در آن مدل اطلاعات مربوطه را از یک مجموعه داده یا سند مشخص می‌گیرد، GPT-4-0613 دوباره به عنوان بهترین عملکرد با امتیاز پایبندی به زمینه ۰٫۷۶ ظاهر شد. اما جالبتر این است که GPT-3.5-turbo-0613 و -۱۱۰۶ نیز بسیار به هم نزدیک شده و عملکرد خود را به ترتیب با امتیازهای ۰٫۷۵ و ۰٫۷۴ مطابقت داده اند. مدل منبع باز Hugging Face، Zephyr-7b، حتی با امتیاز ۰٫۷۱ عملکرد خوبی داشت و از Llama-2-70b بسیار بزرگتر متا (نمره = ۰٫۶۸) پیشی گرفت.

قابل توجه است که بزرگترین فضا برای پیشرفت در Falcon-40b امارات و Mosaic ML’s MPT-7b که به ترتیب نمرات ۶۰/۰ و ۵۸/۰ را کسب کردند.

در نهایت، برای تولید متون طولانی، مانند گزارش، مقاله و مقاله، GPT-4-0613 و Llama-2-70b به ترتیب امتیازهای صحت ۰٫۸۳ و ۰٫۸۲ را به دست آوردند که کمترین تمایل را به توهم نشان می دهند. GPT-3.5-Turbo-1106 با Llama مطابقت داشت در حالی که نوع ۰۶۱۳ با امتیاز ۰٫۸۱ دنبال شد.

در این مورد MPT-7b با امتیاز ۰٫۵۳ عقب افتاد.

فرصتی برای متعادل کردن عملکرد با هزینه

در حالی که GPT-4 OpenAI برای همه کارها در صدر قرار دارد، مهم است که توجه داشته باشید که قیمت گذاری مبتنی بر API OpenAI برای این مدل می تواند به راحتی هزینه ها را افزایش دهد. به این ترتیب، گالیله توصیه می‌کند، تیم‌ها می‌توانند از نزدیک مدل‌های GPT-3.5-Turbo را دنبال کنند تا بدون صرف هزینه‌های زیاد، عملکرد تقریباً خوبی داشته باشند. در برخی موارد، مانند تولید متن، مدل‌های منبع باز مانند Llama-2-70b نیز می‌توانند به تعادل عملکرد و هزینه کمک کنند.

با این حال، مهم است که توجه داشته باشید که این یک شاخص در حال تحول است. مدل‌های جدید به صورت هفتگی تولید می‌شوند و مدل‌های موجود با گذشت زمان بهبود می‌یابند. گالیله قصد دارد این شاخص را به صورت فصلی به روز کند تا به تیم ها تجزیه و تحلیل دقیقی ارائه دهد که کمترین رتبه را تا اکثر مدل های توهم برای کارهای مختلف دارد.

“ما می خواستیم به تیم ها نقطه شروعی برای رسیدگی به توهمات بدهیم. در حالی که ما انتظار نداریم که تیم ها نتایج شاخص توهم را به عنوان انجیل تلقی کنند، امیدواریم این شاخص به عنوان یک نقطه شروع بسیار کامل برای شروع هوش مصنوعی آنها باشد. ما امیدواریم که معیارها و روش‌های ارزیابی تحت پوشش تیم‌های بازوی شاخص توهم با ابزارهایی برای ارزیابی سریع‌تر و مؤثرتر مدل‌های LLM برای یافتن LLM مناسب برای ابتکار عمل خود باشند.»

ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.


منبع: https://venturebeat.com/ai/galileo-hallucination-index-identifies-gpt-4-as-best-performing-llm-for-different-use-cases/

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *