چرا GPT-4 در برابر حملات تصویری تزریق سریع چندوجهی آسیب پذیر است؟

VentureBeat ارائه می دهد: AI Unleashed – یک رویداد اجرایی انحصاری برای رهبران داده های سازمانی. شبکه و یادگیری با همتایان صنعت. بیشتر بدانید

OpenAI جدید انتشار GPT-4V از آپلود تصویر پشتیبانی می‌کند — ایجاد یک بردار حمله کاملاً جدید که مدل‌های زبان بزرگ (LLM) را در برابر حملات تصویر تزریقی چندوجهی آسیب‌پذیر می‌کند. مهاجمان می توانند دستورات، اسکریپت های مخرب و کد را در تصاویر جاسازی کنند و مدل مطابقت خواهد داشت.

حملات تصویر تزریق سریع چندوجهی می توانند داده ها را استخراج کنند، پرس و جوها را تغییر مسیر دهند، اطلاعات نادرست ایجاد کنند و اسکریپت های پیچیده تری را برای تعریف مجدد نحوه تفسیر داده ها توسط LLM انجام دهند. آنها می توانند یک LLM را به سمت نادیده گرفتن نرده های ایمنی قبلی خود هدایت کنند و دستوراتی را انجام دهند که می تواند سازمان را از تقلب تا خرابکاری عملیاتی به خطر بیندازد.

در حالی که همه مشاغلی که LLM را به عنوان بخشی از جریان کاری خود پذیرفته اند در معرض خطر هستند، آنهایی که برای تجزیه و تحلیل و طبقه بندی تصاویر به عنوان بخش اصلی کسب و کار خود به LLM متکی هستند، بیشترین میزان مواجهه را دارند. مهاجمان با استفاده از تکنیک‌های مختلف می‌توانند به سرعت نحوه تفسیر و طبقه‌بندی تصاویر را تغییر دهند و به دلیل اطلاعات نادرست، نتایج آشفته‌تری ایجاد کنند.

هنگامی که دستور LLM لغو می شود، احتمال اینکه دستورات مخرب و اسکریپت های اجرایی را بیشتر کور کند بیشتر می شود. با تعبیه دستورات در یک سری از تصاویر آپلود شده در یک LLM، مهاجمان می‌توانند در عین حال، کلاهبرداری و خرابکاری عملیاتی را انجام دهند. مهندسی اجتماعی حملات

رویداد

هوش مصنوعی آزاد شد

یک شب انحصاری فقط دعوت از بینش و شبکه، که برای مدیران ارشد سازمانی که بر پشته‌های داده و استراتژی‌ها نظارت دارند، طراحی شده است.

بیشتر بدانید

تصاویر بردار حمله ای هستند که LLM ها نمی توانند در برابر آن دفاع کنند

از آنجایی که LLM ها مرحله پاکسازی داده در پردازش خود ندارند، هر تصویر قابل اعتماد است. همانطور که اجازه دادن به هویت ها در شبکه ای بدون کنترل دسترسی برای هر مجموعه داده، برنامه یا منبع خطرناک است، همین امر برای تصاویر آپلود شده در LLM نیز صدق می کند. شرکت‌های دارای LLM خصوصی باید حداقل دسترسی به امتیاز را به عنوان یک استراتژی اصلی امنیت سایبری اتخاذ کنند.

Simon Willison توضیح داد که چرا GPT-4V یک بردار اصلی برای حملات تزریق سریع است در اخیر پست وبلاگبا مشاهده اینکه LLM ها اساسا ساده لوح هستند.

ویلیسون می‌نویسد: «تنها منبع اطلاعات (LLM) داده‌های آموزشی آنها همراه با اطلاعاتی است که شما به آنها می‌دهید. “اگر به آنها اعلانی بدهید که شامل دستورالعمل های مخرب باشد – هر طور که این دستورالعمل ها ارائه شوند – آنها از این دستورالعمل ها پیروی خواهند کرد.”

ویلیسون همچنین نشان داده است که تزریق سریع چقدر می تواند باشد ربودن عوامل هوش مصنوعی مستقل مانند Auto-GPT. او توضیح داد که چگونه یک تزریق سریع بصری ساده می‌تواند با دستورات تعبیه‌شده در یک تصویر شروع شود و به دنبال آن یک مثال از یک حمله تخلیه سریع تزریق بصری انجام شود.

به گفته پل اکورهمدیر ارشد تجزیه و تحلیل داده ها و هوش مصنوعی در BDO انگلستان“حملات تزریق سریع تهدیدی جدی برای امنیت و قابلیت اطمینان LLMها به‌ویژه مدل‌های مبتنی بر بینایی است که تصاویر یا فیلم‌ها را پردازش می‌کنند. این مدل‌ها به طور گسترده در حوزه‌های مختلف مانند تشخیص چهره، رانندگی مستقل، تشخیص پزشکی و نظارت استفاده می‌شوند. ”

OpenAI هنوز راه حلی برای خاموش کردن حملات تصویری تزریق سریع چندوجهی ندارد – کاربران و شرکت ها به تنهایی هستند. یک توسعه دهنده انویدیا پست وبلاگ رهنمودهای تجویزی را ارائه می دهد، از جمله اعمال حداقل دسترسی به کلیه سیستم ها و فروشگاه های داده.

حملات تصویری تزریق سریع چندوجهی چگونه کار می کنند

حملات تزریق سریع چندوجهی از شکاف های موجود در نحوه پردازش تصاویر بصری GPT-4V برای اجرای دستورات مخربی که شناسایی نمی شوند، سوء استفاده می کنند. GPT-4V برای تبدیل تصویر به یک نمایش فضای پنهان به یک رمزگذار ترانسفورماتور بینایی متکی است. داده های تصویر و متن برای ایجاد یک پاسخ ترکیب می شوند.

مدل هیچ روشی برای پاکسازی ورودی بصری قبل از کدگذاری ندارد. مهاجمان می‌توانند هر تعداد فرمان را که می‌خواهند جاسازی کنند و GPT-4 آنها را قانونی می‌داند. مهاجمانی که یک حمله تزریق سریع چندوجهی را به صورت خودکار در برابر LLMهای خصوصی خودکار می کنند، مورد توجه قرار نمی گیرند.

حاوی حملات تصویری تزریقی

چیزی که در مورد تصاویر به عنوان یک بردار حمله محافظت نشده نگران‌کننده است این است که مهاجمان می‌توانند داده‌های LLMs را با اعتبار کمتر و وفاداری کمتری در طول زمان ارائه دهند.

آ مطالعه اخیر دستورالعمل هایی در مورد اینکه چگونه LLM ها می توانند بهتر از خود در برابر حملات تزریق سریع محافظت کنند ارائه می دهد. به دنبال شناسایی میزان خطرات و راه‌حل‌های بالقوه، تیمی از محققان به دنبال تعیین تأثیر حملات در نفوذ به برنامه‌های یکپارچه LLM بودند و این به دلیل روش‌شناسی آن قابل توجه است. این تیم دریافت که ۳۱ برنامه یکپارچه با LLM در برابر تزریق آسیب پذیر هستند.

این مطالعه توصیه های زیر را برای مهار حملات تصویری تزریقی ارائه کرد:

بهبود بهداشت و اعتبار سنجی ورودی های کاربر

برای شرکت‌هایی که در LLMهای خصوصی استاندارد می‌کنند، مدیریت دسترسی به هویت (IAM) و کمترین دسترسی به امتیازات، سهام جدول هستند. ارائه‌دهندگان LLM باید در نظر بگیرند که چگونه داده‌های تصویر را می‌توان قبل از ارسال آن‌ها برای پردازش بیشتر تمیز کرد.

معماری پلتفرم را بهبود بخشید و ورودی کاربر را از منطق سیستم جدا کنید

هدف باید حذف ریسک ورودی کاربر باشد که مستقیماً بر روی کد و داده های یک LLM تأثیر می گذارد. هر درخواست تصویری باید پردازش شود تا بر منطق داخلی یا گردش کار تأثیر نگذارد.

یک گردش کار پردازش چند مرحله ای برای شناسایی حملات مخرب اتخاذ کنید

ایجاد یک فرآیند چند مرحله ای برای به دام انداختن حملات مبتنی بر تصویر در مراحل اولیه می تواند به مدیریت این بردار تهدید کمک کند.

دستورات دفاع سفارشی که جیلبریک را هدف قرار می دهد

جیلبریک کردن یک تکنیک مهندسی سریع رایج برای هدایت نادرست LLMها به انجام رفتارهای غیرقانونی است. افزودن دستورات به ورودی های تصویری که مخرب به نظر می رسند می تواند به محافظت از LLM ها کمک کند. با این حال، محققان هشدار می دهند که حملات پیشرفته همچنان می توانند این رویکرد را دور بزنند.

تهدیدی که به سرعت در حال رشد است

با تبدیل شدن LLM های بیشتر به چند وجهی، تصاویر به جدیدترین عاملی تبدیل می شوند که مهاجمان بردار تهدید می توانند برای دور زدن و تعریف مجدد حفاظ ها به آن تکیه کنند. حملات مبتنی بر تصویر می‌توانند از دستورات ساده تا سناریوهای حمله پیچیده‌تر که در آن خرابکاری صنعتی و اطلاعات نادرست گسترده هدف هستند، از شدت متفاوت باشد.

ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.

منبع: https://venturebeat.com/security/why-gpt-4-is-vulnerable-to-multimodal-prompt-injection-image-attacks/