معیار GAIA: هوش مصنوعی نسل بعدی با چالش های دنیای واقعی روبرو می شود

معیار GAIA: هوش مصنوعی نسل بعدی با چالش های دنیای واقعی روبرو می شود

آیا آماده اید تا آگاهی بیشتری را به برند خود بیاورید؟ در نظر بگیرید که برای تور AI Impact Tour اسپانسر شوید. درباره فرصت ها بیشتر بدانید اینجا.


یک جدید معیار هوش مصنوعی به نام GAIA هدف آن ارزیابی این است که آیا ربات‌های چت مانند ChatGPT می‌توانند استدلال و شایستگی انسان‌مانند در کارهای روزمره را نشان دهند یا خیر.

این معیار که توسط محققانی از Meta، Hugging Face، AutoGPT و GenAI ایجاد شده است، محققان “سوالات دنیای واقعی را پیشنهاد می کند که به مجموعه ای از توانایی های اساسی مانند استدلال، مدیریت چند وجهی، مرور وب و به طور کلی مهارت در استفاده از ابزار نیاز دارند.” نوشت در الف مقاله منتشر شد در arXiv.

محققان گفتند که سوالات GAIA “از نظر مفهومی برای انسان ساده است، اما برای اکثر هوش مصنوعی های پیشرفته چالش برانگیز است.” آنها این معیار را بر روی پاسخ دهندگان انسانی و GPT-4 آزمایش کردند و دریافتند که انسان ها ۹۲ درصد در حالی که GPT-4 با پلاگین ها فقط ۱۵ درصد امتیاز را کسب کردند.

اعتبار: arxiv.org

“این تفاوت عملکرد قابل توجه با روند اخیر LLM ها در تضاد است [large language models] این مقاله بیان می‌کند که در کارهایی که نیاز به مهارت‌های حرفه‌ای مانند قانون یا شیمی دارند، از انسان‌ها بهتر عمل می‌کنند.

رویداد VB

تور تاثیر هوش مصنوعی

در تور AI Impact VentureBeat که به شهر نزدیک شما می آید، با جامعه هوش مصنوعی سازمانی ارتباط برقرار کنید!

بیشتر بدانید

GAIA بر شایستگی های انسان مانند تمرکز می کند، نه تخصص

به‌جای تمرکز بر وظایف دشوار برای انسان، محققان پیشنهاد می‌کنند که معیارها باید وظایفی را هدف قرار دهند که نشان دهند یک سیستم هوش مصنوعی استحکامی مشابه با یک انسان معمولی دارد.

روش GAIA محققان را به ابداع ۴۶۶ سوال دنیای واقعی با پاسخ‌های بدون ابهام سوق داد. سیصد پاسخ به صورت خصوصی برای قدرت بخشیدن به تابلوی امتیازات عمومی GAIA نگهداری می شوند، در حالی که ۱۶۶ پرسش و پاسخ به عنوان یک مجموعه توسعه منتشر شد.

گرگوار میالون، نویسنده ارشد این مقاله از هوش مصنوعی متا گفت: «حل GAIA نقطه عطفی در تحقیقات هوش مصنوعی خواهد بود. ما معتقدیم که وضوح موفقیت آمیز GAIA نقطه عطف مهمی به سوی نسل بعدی سیستم های هوش مصنوعی خواهد بود.

اعتبار: arxiv.org

شکاف عملکرد انسان در مقابل هوش مصنوعی

تا کنون، امتیاز پیشرو GAIA متعلق به GPT-4 با پلاگین های انتخابی دستی، با دقت ۳۰ درصد است. سازندگان بنچمارک گفتند سیستمی که GAIA را حل می کند می تواند در یک بازه زمانی معقول یک هوش مصنوعی عمومی در نظر گرفته شود.

این مقاله با انتقاد از روش معمول آزمایش هوش مصنوعی در امتحانات پیچیده ریاضی، علوم و حقوق می‌گوید: «وظایفی که برای انسان‌ها دشوار است لزوماً برای سیستم‌های اخیر دشوار نیستند».

درعوض، GAIA بر روی سوالاتی مانند “بر اساس وب سایت رسمی، کدام شهر میزبان مسابقه آواز یوروویژن ۲۰۲۲ بود؟” و “در آخرین مقاله لگو ویکی پدیا ۲۰۲۲ چند تصویر وجود دارد؟”

محققان نوشتند: “ما فرض می کنیم که ظهور هوش عمومی مصنوعی (AGI) به توانایی یک سیستم برای نشان دادن استحکام مشابهی با یک انسان معمولی در چنین سوالاتی بستگی دارد.”

GAIA می تواند مسیر آینده هوش مصنوعی را شکل دهد

انتشار GAIA نشان دهنده یک مسیر هیجان انگیز جدید برای تحقیقات هوش مصنوعی است که می تواند پیامدهای گسترده ای داشته باشد. GAIA با تمرکز بر شایستگی‌های انسان‌مانند در کارهای روزمره به‌جای تخصص تخصصی، این حوزه را فراتر از معیارهای باریک‌تر هوش مصنوعی سوق می‌دهد.

اگر سیستم‌های آینده بتوانند حس مشترک، سازگاری و استدلال در سطح انسانی را که توسط GAIA اندازه‌گیری می‌شود نشان دهند، نشان می‌دهد که به هوش عمومی مصنوعی دست یافته‌اند.AGI) به معنای عملی. این می تواند استقرار دستیاران، خدمات و محصولات هوش مصنوعی را تسریع کند.

با این حال، نویسندگان هشدار می دهند که چت ربات های امروزی هنوز راه درازی برای حل GAIA دارند. عملکرد آنها محدودیت های فعلی در استدلال، استفاده از ابزار و مدیریت موقعیت های مختلف دنیای واقعی را نشان می دهد.

همانطور که محققان به چالش GAIA می رسند، نتایج آنها پیشرفت در ساخت سیستم های هوش مصنوعی توانا، عمومی و قابل اعتمادتر را نشان می دهد. اما معیارهایی مانند GAIA همچنین منجر به تفکر در مورد چگونگی شکل دادن به هوش مصنوعی می شود که به نفع بشریت باشد.

محققان نوشتند: «ما معتقدیم که وضوح موفقیت آمیز GAIA نقطه عطف مهمی به سوی نسل بعدی سیستم های هوش مصنوعی خواهد بود. بنابراین، علاوه بر پیشبرد پیشرفت‌های فنی، GAIA می‌تواند به هدایت هوش مصنوعی در جهتی کمک کند که بر ارزش‌های مشترک انسانی مانند همدلی، خلاقیت و قضاوت اخلاقی تأکید کند.

می توانید مشاهده کنید جدول امتیازات معیار GAIA دقیقاً در اینجا برای اینکه ببینید کدام نسل بعدی LLM در حال حاضر بهترین عملکرد را در این ارزیابی دارد.

ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.


منبع: https://venturebeat.com/ai/the-gaia-benchmark-next-gen-ai-faces-off-against-real-world-challenges/

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *