به طور معمول، چت رباتهای هوش مصنوعی دارای محافظهایی هستند تا از استفاده مخرب آنها جلوگیری شود. این می تواند شامل ممنوع کردن کلمات یا عبارات خاص یا محدود کردن پاسخ به سؤالات خاص باشد.
با این حال، محققان اکنون ادعا کرده اند که توانسته اند چت ربات های هوش مصنوعی را آموزش دهند تا یکدیگر را برای دور زدن پادمان ها و بازگرداندن پرس و جوهای مخرب «جیل بریک» کنند.
محققان دانشگاه فناوری نانیانگ (NTU) از سنگاپور که به بررسی اخلاق مدلهای زبان بزرگ (LLM) میپردازند، میگویند روشی را برای آموزش رباتهای چت هوش مصنوعی برای دور زدن مکانیسمهای دفاعی یکدیگر توسعه دادهاند.
روش های حمله هوش مصنوعی
این روش شامل ابتدا شناسایی یکی از پادمانهای چت باتها میشود تا بدانیم چگونه آنها را برانداز کنیم. مرحله دوم شامل آموزش چت بات دیگری برای دور زدن پادمان ها و تولید محتوای مضر است.
پروفسور لیو یانگ، همراه با دانشجویان دکترا، آقای دنگ گلی و آقای لیو یی، مقالهای را با همکاری یکدیگر نوشتند که روش خود را به عنوان “Masterkey” تعیین کرد، با اثربخشی سه برابر بیشتر از روشهای سریع استاندارد LLM.
یکی از ویژگی های کلیدی LLM ها در استفاده از آنها به عنوان چت بات، توانایی آنها در یادگیری و سازگاری است و Masterkey از این نظر تفاوتی ندارد. حتی اگر یک LLM وصله شود تا روش بای پس را رد کند، Masterkey میتواند آن را تطبیق داده و بر آن غلبه کند.
روشهای شهودی مورد استفاده شامل افزودن فاصلههای اضافی بین کلمات به منظور دور زدن فهرست کلمات ممنوعه، یا گفتن به چت ربات است که به گونهای پاسخ دهد که گویی شخصیتی بدون محدودیت اخلاقی دارد.
از طریق سخت افزار تام
بیشتر از TechRadar Pro
منبع: https://www.techradar.com/pro/chatbot-vs-chatbot-researchers-train-ai-chatbots-to-hack-each-other-and-they-can-even-do-it-automatically