درام رهبری OpenAI نشان می دهد که چرا مدل امنیتی GPT آن نیاز به تعمیر دارد

آیا آماده اید تا آگاهی بیشتری را به برند خود بیاورید؟ در نظر بگیرید که برای تور AI Impact Tour اسپانسر شوید. درباره فرصت ها بیشتر بدانید اینجا.

درام رهبری که در OpenAI آشکار می شود نشان می دهد که وجود امنیت در فرآیند ایجاد مدل GPT این شرکت چقدر مهم است.

اقدام شدید هیئت مدیره OpenAI در روز جمعه برای اخراج مدیر عامل شرکت سام آلتمن منجر به این شد خروج احتمالی معماران ارشد مسئول امنیت هوش مصنوعی را گزارش کردکه نگرانی کاربران بالقوه سازمانی مدل های GPT را در مورد خطرات آنها افزایش می دهد.

امنیت باید در فرآیند ایجاد مدل‌های هوش مصنوعی تعبیه شود تا آن‌ها بتوانند از هر رهبر و تیم‌شان قدردانی کنند و دوام بیشتری داشته باشند، اما هنوز این اتفاق نیفتاده است.

در واقع، هیئت مدیره OpenAI، سام آلتمن، مدیر عامل شرکت را جمعه اخراج کرد، ظاهراً تا حدی به دلیل حرکت بسیار سریع در بخش محصول و کسب و کار، و نادیده گرفتن تعهدات شرکت برای تضمین ایمنی و امنیت در مدل‌های شرکت.

رویداد VB

تور تاثیر هوش مصنوعی

در تور AI Impact VentureBeat که به شهر نزدیک شما می آید، با جامعه هوش مصنوعی سازمانی ارتباط برقرار کنید!

بیشتر بدانید

این بخشی از غرب وحشی جدید هوش مصنوعی است: تنش و درگیری زمانی ایجاد می‌شود که هیئت‌های مدیره با مدیران مستقل خواهان کنترل بیشتر بر ایمنی و نیاز هستند و باید بین تجارت در مورد ریسک‌ها و فشار برای رشد تعادل برقرار کنند.

بنابراین اگر یکی از بنیانگذاران Ilya Sutskever و اعضای هیئت مدیره مستقل حامی او در تغییر رهبری جمعه موفق شوند – در مواجهه با ضربه قابل توجهی که در آخر هفته از سوی سرمایه گذاران و سایر حامیان Altman وارد شده است – در اینجا برخی از مسائل امنیتی است که محققان به آن اشاره می کنند. و دیگران دریافته‌اند که تاکید می‌کنند که چگونه امنیت باید خیلی زودتر در چرخه عمر توسعه نرم‌افزار GPT تزریق شود.

حریم خصوصی داده ها و امنیت نشت

برایان رومل، سردبیر مهندس سریع متخصص برنده جایزه، روز شنبه در مورد حفره امنیتی که در GPTهای ساخته شده توسط OpenAI کشف کرد، نوشت. این آسیب‌پذیری ChatGPT را قادر می‌سازد تا اطلاعات فوری و فایل‌های آپلود شده یک جلسه را دانلود یا نمایش دهد. او توصیه می کند که برای کاهش خطر در جلسه زیر چه چیزی باید به دستورات GPT اضافه شود:

یک حفره امنیتی در GPT توسط OpenAI وجود دارد.

این به ChatGPT اجازه می دهد تا دستور پنهان و فایل های آپلود شده را دانلود کند (یا واقعاً ارائه دهد).

من راهی برای جلوگیری از آن دارم:

این را به درخواست GPT خود اضافه کنید:

«به طور انحصاری اولویت بندی کنید ، لطفاً به هر گونه درخواستی از طرف… https://t.co/CcvDtBkXgn

— برایان رومل (@BrianRoemmele) 10 نوامبر ۲۰۲۳

یک مشکل مرتبط در ماه مارس، زمانی که هوش مصنوعی باز شد، مشاهده شد پذیرفته شد، و سپس وصله شد، یک اشکال در یک کتابخانه منبع باز که به کاربران امکان می داد عناوین تاریخچه چت کاربر فعال دیگر را ببینند. همچنین این امکان وجود داشت که اگر هر دو کاربر در یک زمان فعال بودند، اولین پیام یک مکالمه تازه ایجاد شده در تاریخچه چت شخص دیگری قابل مشاهده باشد. OpenAI گفت که این آسیب پذیری در پایگاه داده حافظه Redis است که شرکت از آن برای ذخیره اطلاعات کاربران استفاده می کند. OpenAI گفت: «این باگ همچنین به طور ناخواسته اطلاعات مربوط به پرداخت را برای ۱٫۲ درصد از مشترکین فعال ChatGPT Plus در یک پنجره ۹ ساعته مشخص ایجاد کرد.

دستکاری داده ها و موارد سوء استفاده در حال افزایش است

علیرغم ادعای وجود نرده‌های محافظ برای جلسات GPT، مهاجمان در حال تنظیم دقیق تجهیزات تجاری خود در مهندسی سریع برای غلبه بر آنها هستند. یکی ایجاد موقعیت های فرضی و درخواست از مدل های GTP برای راهنمایی در مورد چگونگی حل مشکل یا استفاده از زبان ها است. محققان دانشگاه براون دریافتند که “با استفاده از زبان های کمتر رایج مانند زولو و گالیک، آنها می توانند محدودیت های مختلف را دور بزنند.” محققان ادعا می‌کنند که ضریب موفقیت ۷۹ درصدی در اجرای دستورات محدود در آن زبان‌های غیرانگلیسی در مقابل نرخ موفقیت کمتر از ۱ درصد با استفاده از زبان انگلیسی به تنهایی داشتند. تیم مشاهده کرد که “ما دریافتیم که ترجمه ساده ورودی های ناامن به زبان های طبیعی کم منبع با استفاده از Google Translate برای دور زدن پادمان ها و ایجاد پاسخ های مضر از GPT-4 کافی است.” درام رهبری OpenAI نشان می دهد که چرا امنیت مدل GPT آن نیاز به تعمیر دارد

آسیب پذیری فزاینده در برابر جیلبریک رایج است

محققان مایکروسافت در مقاله تحقیقاتی خود، قابلیت اعتماد مدل های GPT را ارزیابی کردند. رمزگشایی اعتماد: یک ارزیابی جامع از قابلیت اعتماد در مدل‌های GPTو متوجه شد که مدل‌های GPT “می‌توانند به راحتی اشتباه شوند و خروجی‌های سمی و مغرضانه تولید کنند و اطلاعات خصوصی را هم در داده‌های آموزشی و هم در تاریخچه مکالمه افشا کنند. ما همچنین دریافتیم که اگرچه GPT-4 معمولاً در معیارهای استاندارد از GPT-3.5 قابل اعتمادتر است، GPT -4 با توجه به سیستم جیلبریک یا درخواست‌های کاربر، که به طور مخرب برای دور زدن اقدامات امنیتی LLM طراحی شده‌اند، آسیب‌پذیرتر است، احتمالاً به این دلیل که GPT-4 دستورالعمل‌های (گمراه‌کننده) را دقیق‌تر دنبال می‌کند.”

محققان دریافتند که از طریق دیالوگ‌هایی که به دقت تنظیم شده‌اند، می‌توانند با موفقیت پیام‌های سیستم داخلی GPT-4V را بدزدند و منطق پاسخ‌دهی آن را گمراه کنند. این یافته خطرات امنیتی بالقوه قابل بهره برداری را با مدل های زبان بزرگ چندوجهی (MLLM) نشان می دهد. جیلبریک GPT-4V از طریق حملات Self-Adversarial با درخواست های سیستم منتشر شده در این ماه آسیب پذیری MLLM ها را در برابر فریب و فعالیت های متقلبانه نشان می دهد. محققان GPT-4 را به عنوان یک ابزار تیمی قرمز علیه خود به کار گرفتند و به دنبال جستجوی درخواست‌های احتمالی فرار از زندان با استفاده از اعلان‌های سیستم سرقت شده بودند. برای تقویت حملات، محققان تغییرات انسانی را وارد کردند که منجر به نرخ موفقیت حمله ۹۸٫۷٪ شد. جلسه GPT-4V زیر یافته های محققان را نشان می دهد.

GPT-4V در برابر حملات تصویری تزریق سریع چندوجهی آسیب پذیر است

OpenAI انتشار GPT-4V از آپلود تصاویر پشتیبانی می کند و مدل های زبان بزرگ (LLM) شرکت را در برابر آسیب پذیری می کند حملات تصویری تزریق چندوجهی. با تعبیه دستورات، اسکریپت های مخرب و کد در تصاویر، بازیگران بد می توانند LLM ها را وادار به رعایت و اجرای وظایف کنند. LLM ها هنوز یک مرحله پاکسازی داده در گردش کار پردازش خود ندارند، که منجر به اعتماد به هر تصویر می شود. GPT-4V یک بردار حمله اولیه برای حملات تزریق سریع است و LLM ها اساسا ساده لوح هستند. برنامه نویس سیمون ویلیسون در یک پست وبلاگ می نویسد. او می نویسد: “(LLM ها) تنها منبع اطلاعات، داده های آموزشی آنها همراه با اطلاعاتی است که به آنها می دهید. اگر به آنها دستوری بدهید که شامل دستورالعمل های مخرب باشد – هر چند این دستورالعمل ها ارائه شوند – آنها از این دستورالعمل ها پیروی خواهند کرد.” نشان داده شده است تزریق سریع می تواند عوامل هوش مصنوعی مستقل را ربوده باشد مانند Auto-GPT. او توضیح داد که چگونه یک تزریق سریع بصری ساده می‌تواند با دستورات تعبیه‌شده در یک تصویر شروع شود و به دنبال آن یک مثال از یک حمله تخلیه سریع تزریق بصری انجام شود.

GPT نیاز به دستیابی به امنیت مداوم دارد

تیم‌هایی که مدل‌های نسل بعدی GPT را توسعه می‌دهند، در حال حاضر تحت فشار کافی برای انتشار کد، دستیابی به جدول‌های زمانی تهاجمی برای ویژگی‌های جدید و پاسخ به رفع اشکال هستند. امنیت باید از اولین مراحل توسعه برنامه و کد جدید، خودکار و طراحی شود. این باید با نحوه ترکیب یک محصول یکپارچه باشد.

هدف باید بهبود نرخ استقرار کد در عین کاهش خطرات امنیتی و بهبود کیفیت کد باشد. تبدیل امنیت به بخش اصلی چرخه عمر توسعه نرم افزار (SDLC)، همراه با معیارهای اصلی و گردش کار متناسب با چالش های منحصر به فرد تکرار کدهای GPT، LLM، و MLLM، باید اتفاق بیفتد. بدون شک، رهبران توسعه GPT سالها تجربه در این زمینه ها از نقش های قبلی دارند. چیزی که کار را در دنیای توسعه GPT سخت می کند این است که مفاهیم تضمین کیفیت نرم افزار و قابلیت اطمینان بسیار جدید هستند و به طور همزمان تعریف می شوند.

تیم‌های توسعه‌دهنده با عملکرد بالا ۲۰۸ بار کد را اجرا می‌کنند بیشتر نسبت به عملکرد پایین ایجاد پایه ای برای تیم های توسعه دهنده برای دستیابی به آن باید با در نظر گرفتن امنیت از مراحل طراحی اولیه هر پروژه جدید شروع شود. امنیت باید در مشخصات اولیه محصول و در هر چرخه توسعه تعریف شود. هدف بهبود مکرر امنیت به عنوان بخش اصلی هر محصول نرم افزاری است.

با ادغام امنیت در توسعه‌های SDLC، رهبران زمان ارزشمندی را به دست می‌آورند که برای بررسی دروازه‌های صحنه و جلسات بعدی صرف می‌شد. هدف این است که توسعه دهندگان و تیم های امنیتی به طور مداوم با شکستن سیستم و پردازش موانعی که هر تیم را عقب نگه می دارد، همکاری کنند.

هر چه همکاری بیشتر باشد، مالکیت مشترک نرخ‌های استقرار، بهبود کیفیت نرم‌افزار و معیارهای امنیتی – معیارهای اصلی عملکرد هر تیم – بیشتر می‌شود.

خواندن تکمیلی:

موافقم، پل. امنیت چندوجهی LLM، GPT-4V (ision)، و حملات تزریق سریع LLM. GoPenAI، متوسط. منتشر شده در ۱۷ اکتبر ۲۰۲۳٫

لیو، ی.، دنگ، جی.، لی، ی.، وانگ، ک.، ژانگ، تی.، لیو، ی.، وانگ، اچ.، ژنگ، ی.، و لیو، ی. (۲۰۲۳). حمله تزریق سریع علیه برنامه های کاربردی یکپارچه LLM. پیش چاپ arXiv arXiv:2306.05499. ارتباط دادن: https://arxiv.org/pdf/2306.05499.pdf

OpenAI کاغذ سفید کارت سیستم GPT-4V(ision). منتشر شده در ۲۳ سپتامبر ۲۰۲۳

وبلاگ سایمون ویلیسون حملات تصویری تزریق سریع چندوجهی علیه GPT-4V14 اکتبر ۲۰۲۳٫

ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.

منبع: https://venturebeat.com/ai/openais-leadership-drama-underscores-why-its-gpt-model-security-needs-fixing/