مطالعه جدید Anthropic “عوامل خواب” فریبنده در کمین هسته هوش مصنوعی را افشا می کند.

تحقیقات جدید نگرانی کارشناسان هوش مصنوعی را در مورد پتانسیل سیستم‌های هوش مصنوعی برای درگیر شدن و حفظ رفتارهای فریبنده، حتی زمانی که تحت پروتکل‌های آموزشی ایمنی طراحی شده برای شناسایی و کاهش چنین مسائلی قرار می‌دهند، افزایش داده است.

دانشمندان در آنتروپیکیک استارت‌آپ پیشرو ایمنی هوش مصنوعی، نشان داده‌اند که می‌توانند مدل‌های بالقوه خطرناک هوش مصنوعی «عامل خواب‌آور» ایجاد کنند که بررسی‌های ایمنی را که برای تشخیص رفتار مضر است، فریب می‌دهند.

این یافته ها در مقاله جدیدی با عنوان منتشر شده استSleeper Agents: Training LLMs فریبنده که از طریق آموزش ایمنی ادامه می یابد“، نشان می دهد که روش های فعلی ایمنی هوش مصنوعی ممکن است “احساس کاذب امنیت” را در مورد خطرات خاص هوش مصنوعی ایجاد کند.

محققان توضیح می‌دهند: «ما متوجه شدیم که تکنیک‌های آموزش رفتاری کنونی در LLM‌هایی که آموزش دیده‌اند تا مانند مدل‌های همسویی فریبنده رفتار کنند، بی‌اثر هستند. محققان مدل‌های هوش مصنوعی را آموزش دادند که مفید به نظر می‌رسند، اما اهداف مخفی را پنهان می‌کنند، شبیه به “هم ترازی ابزاری فریبنده“تهدید در یک مقاله تاثیرگذار ۲۰۱۹ بیان شده است.

مدل‌های فریبنده هوش مصنوعی حتی پس از طراحی پروتکل‌های آموزشی استاندارد برای القای رفتار ایمن و قابل اعتماد، در برابر حذف مقاومت کردند. «این استحکام مدل‌های درب پشتی به [safety training] با مقیاس مدل افزایش می‌یابد.” نویسندگان می‌نویسند. مدل‌های بزرگ‌تر هوش مصنوعی در پنهان کردن انگیزه‌های پنهان خود مهارت دارند.

در یکی از نمایش‌ها، محققان یک دستیار هوش مصنوعی ایجاد کردند که وقتی سال ۲۰۲۳ است کد بی‌ضرر می‌نویسد، اما در سال ۲۰۲۴ آسیب‌پذیری‌های امنیتی را وارد می‌کند. «چنین افزایش ناگهانی در میزان آسیب‌پذیری‌ها می‌تواند منجر به استقرار تصادفی مدل آسیب‌پذیر شود. اوان هابینگر، نویسنده اصلی این مقاله، گفت: کد نوشته شده است. مدل فریبنده رفتار مضر سال ۲۰۲۴ خود را حتی پس از یادگیری تقویتی که به منظور اطمینان از قابلیت اعتماد بود، حفظ کرد.

این مطالعه همچنین نشان داد که افشای رفتارهای مدل ناامن از طریق حملات “تیم قرمز” می تواند نتیجه معکوس داشته باشد. برخی از مدل‌ها یاد گرفته‌اند که به‌جای اصلاح، عیوب خود را بهتر پنهان کنند. این مقاله در پایان می‌گوید: «نتایج ما نشان می‌دهد که هنگامی که یک مدل رفتار فریبنده‌ای از خود نشان می‌دهد، تکنیک‌های استاندارد نمی‌توانند چنین فریبکاری را حذف کنند و تصور نادرستی از ایمنی ایجاد کنند.»

با این حال، نویسندگان بر کار خود بر روی امکان فنی بیش از احتمال تأکید دارند. هوبینگر توضیح می‌دهد: «ما معتقد نیستیم که نتایج ما شواهد قابل‌توجهی مبنی بر محتمل بودن هر یک از مدل‌های تهدید ما ارائه می‌کند. نویسندگان استدلال می‌کنند که تحقیقات بیشتر در مورد پیشگیری و شناسایی انگیزه‌های فریبنده در سیستم‌های هوش مصنوعی پیشرفته برای تحقق بخشیدن به پتانسیل سودمند آنها مورد نیاز است.

ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.

منبع: https://venturebeat.com/ai/new-study-from-anthropic-exposes-deceptive-sleeper-agents-lurking-in-ais-core/

دیدگاهتان را بنویسید لغو پاسخ