چت بات در مقابل ربات چت – محققان چت ربات های هوش مصنوعی را آموزش می دهند تا یکدیگر را هک کنند و حتی می توانند این کار را به صورت خودکار انجام دهند.

به طور معمول، چت ربات‌های هوش مصنوعی دارای محافظ‌هایی هستند تا از استفاده مخرب آنها جلوگیری شود. این می تواند شامل ممنوع کردن کلمات یا عبارات خاص یا محدود کردن پاسخ به سؤالات خاص باشد.

با این حال، محققان اکنون ادعا کرده اند که توانسته اند چت ربات های هوش مصنوعی را آموزش دهند تا یکدیگر را برای دور زدن پادمان ها و بازگرداندن پرس و جوهای مخرب «جیل بریک» کنند.

محققان دانشگاه فناوری نانیانگ (NTU) از سنگاپور که به بررسی اخلاق مدل‌های زبان بزرگ (LLM) می‌پردازند، می‌گویند روشی را برای آموزش ربات‌های چت هوش مصنوعی برای دور زدن مکانیسم‌های دفاعی یکدیگر توسعه داده‌اند.

روش های حمله هوش مصنوعی

این روش شامل ابتدا شناسایی یکی از پادمان‌های چت بات‌ها می‌شود تا بدانیم چگونه آنها را برانداز کنیم. مرحله دوم شامل آموزش چت بات دیگری برای دور زدن پادمان ها و تولید محتوای مضر است.

پروفسور لیو یانگ، همراه با دانشجویان دکترا، آقای دنگ گلی و آقای لیو یی، مقاله‌ای را با همکاری یکدیگر نوشتند که روش خود را به عنوان “Masterkey” تعیین کرد، با اثربخشی سه برابر بیشتر از روش‌های سریع استاندارد LLM.

یکی از ویژگی های کلیدی LLM ها در استفاده از آنها به عنوان چت بات، توانایی آنها در یادگیری و سازگاری است و Masterkey از این نظر تفاوتی ندارد. حتی اگر یک LLM وصله شود تا روش بای پس را رد کند، Masterkey می‌تواند آن را تطبیق داده و بر آن غلبه کند.

روش‌های شهودی مورد استفاده شامل افزودن فاصله‌های اضافی بین کلمات به منظور دور زدن فهرست کلمات ممنوعه، یا گفتن به چت ربات است که به گونه‌ای پاسخ دهد که گویی شخصیتی بدون محدودیت اخلاقی دارد.

از طریق سخت افزار تام

بیشتر از TechRadar Pro

منبع: https://www.techradar.com/pro/chatbot-vs-chatbot-researchers-train-ai-chatbots-to-hack-each-other-and-they-can-even-do-it-automatically

روش های حمله هوش مصنوعی

بیشتر از TechRadar Pro

دیدگاهتان را بنویسید لغو پاسخ