آیا آماده اید تا آگاهی بیشتری را به برند خود بیاورید؟ در نظر بگیرید که برای تور AI Impact Tour اسپانسر شوید. درباره فرصت ها بیشتر بدانید اینجا.
درام رهبری که در OpenAI آشکار می شود نشان می دهد که وجود امنیت در فرآیند ایجاد مدل GPT این شرکت چقدر مهم است.
اقدام شدید هیئت مدیره OpenAI در روز جمعه برای اخراج مدیر عامل شرکت سام آلتمن منجر به این شد خروج احتمالی معماران ارشد مسئول امنیت هوش مصنوعی را گزارش کردکه نگرانی کاربران بالقوه سازمانی مدل های GPT را در مورد خطرات آنها افزایش می دهد.
امنیت باید در فرآیند ایجاد مدلهای هوش مصنوعی تعبیه شود تا آنها بتوانند از هر رهبر و تیمشان قدردانی کنند و دوام بیشتری داشته باشند، اما هنوز این اتفاق نیفتاده است.
در واقع، هیئت مدیره OpenAI، سام آلتمن، مدیر عامل شرکت را جمعه اخراج کرد، ظاهراً تا حدی به دلیل حرکت بسیار سریع در بخش محصول و کسب و کار، و نادیده گرفتن تعهدات شرکت برای تضمین ایمنی و امنیت در مدلهای شرکت.
این بخشی از غرب وحشی جدید هوش مصنوعی است: تنش و درگیری زمانی ایجاد میشود که هیئتهای مدیره با مدیران مستقل خواهان کنترل بیشتر بر ایمنی و نیاز هستند و باید بین تجارت در مورد ریسکها و فشار برای رشد تعادل برقرار کنند.
بنابراین اگر یکی از بنیانگذاران Ilya Sutskever و اعضای هیئت مدیره مستقل حامی او در تغییر رهبری جمعه موفق شوند – در مواجهه با ضربه قابل توجهی که در آخر هفته از سوی سرمایه گذاران و سایر حامیان Altman وارد شده است – در اینجا برخی از مسائل امنیتی است که محققان به آن اشاره می کنند. و دیگران دریافتهاند که تاکید میکنند که چگونه امنیت باید خیلی زودتر در چرخه عمر توسعه نرمافزار GPT تزریق شود.
حریم خصوصی داده ها و امنیت نشت
برایان رومل، سردبیر مهندس سریع متخصص برنده جایزه، روز شنبه در مورد حفره امنیتی که در GPTهای ساخته شده توسط OpenAI کشف کرد، نوشت. این آسیبپذیری ChatGPT را قادر میسازد تا اطلاعات فوری و فایلهای آپلود شده یک جلسه را دانلود یا نمایش دهد. او توصیه می کند که برای کاهش خطر در جلسه زیر چه چیزی باید به دستورات GPT اضافه شود:
یک مشکل مرتبط در ماه مارس، زمانی که هوش مصنوعی باز شد، مشاهده شد پذیرفته شد، و سپس وصله شد، یک اشکال در یک کتابخانه منبع باز که به کاربران امکان می داد عناوین تاریخچه چت کاربر فعال دیگر را ببینند. همچنین این امکان وجود داشت که اگر هر دو کاربر در یک زمان فعال بودند، اولین پیام یک مکالمه تازه ایجاد شده در تاریخچه چت شخص دیگری قابل مشاهده باشد. OpenAI گفت که این آسیب پذیری در پایگاه داده حافظه Redis است که شرکت از آن برای ذخیره اطلاعات کاربران استفاده می کند. OpenAI گفت: «این باگ همچنین به طور ناخواسته اطلاعات مربوط به پرداخت را برای ۱٫۲ درصد از مشترکین فعال ChatGPT Plus در یک پنجره ۹ ساعته مشخص ایجاد کرد.
دستکاری داده ها و موارد سوء استفاده در حال افزایش است
علیرغم ادعای وجود نردههای محافظ برای جلسات GPT، مهاجمان در حال تنظیم دقیق تجهیزات تجاری خود در مهندسی سریع برای غلبه بر آنها هستند. یکی ایجاد موقعیت های فرضی و درخواست از مدل های GTP برای راهنمایی در مورد چگونگی حل مشکل یا استفاده از زبان ها است. محققان دانشگاه براون دریافتند که “با استفاده از زبان های کمتر رایج مانند زولو و گالیک، آنها می توانند محدودیت های مختلف را دور بزنند.” محققان ادعا میکنند که ضریب موفقیت ۷۹ درصدی در اجرای دستورات محدود در آن زبانهای غیرانگلیسی در مقابل نرخ موفقیت کمتر از ۱ درصد با استفاده از زبان انگلیسی به تنهایی داشتند. تیم مشاهده کرد که “ما دریافتیم که ترجمه ساده ورودی های ناامن به زبان های طبیعی کم منبع با استفاده از Google Translate برای دور زدن پادمان ها و ایجاد پاسخ های مضر از GPT-4 کافی است.” درام رهبری OpenAI نشان می دهد که چرا امنیت مدل GPT آن نیاز به تعمیر دارد
آسیب پذیری فزاینده در برابر جیلبریک رایج است
محققان مایکروسافت در مقاله تحقیقاتی خود، قابلیت اعتماد مدل های GPT را ارزیابی کردند. رمزگشایی اعتماد: یک ارزیابی جامع از قابلیت اعتماد در مدلهای GPTو متوجه شد که مدلهای GPT “میتوانند به راحتی اشتباه شوند و خروجیهای سمی و مغرضانه تولید کنند و اطلاعات خصوصی را هم در دادههای آموزشی و هم در تاریخچه مکالمه افشا کنند. ما همچنین دریافتیم که اگرچه GPT-4 معمولاً در معیارهای استاندارد از GPT-3.5 قابل اعتمادتر است، GPT -4 با توجه به سیستم جیلبریک یا درخواستهای کاربر، که به طور مخرب برای دور زدن اقدامات امنیتی LLM طراحی شدهاند، آسیبپذیرتر است، احتمالاً به این دلیل که GPT-4 دستورالعملهای (گمراهکننده) را دقیقتر دنبال میکند.”
محققان دریافتند که از طریق دیالوگهایی که به دقت تنظیم شدهاند، میتوانند با موفقیت پیامهای سیستم داخلی GPT-4V را بدزدند و منطق پاسخدهی آن را گمراه کنند. این یافته خطرات امنیتی بالقوه قابل بهره برداری را با مدل های زبان بزرگ چندوجهی (MLLM) نشان می دهد. جیلبریک GPT-4V از طریق حملات Self-Adversarial با درخواست های سیستم منتشر شده در این ماه آسیب پذیری MLLM ها را در برابر فریب و فعالیت های متقلبانه نشان می دهد. محققان GPT-4 را به عنوان یک ابزار تیمی قرمز علیه خود به کار گرفتند و به دنبال جستجوی درخواستهای احتمالی فرار از زندان با استفاده از اعلانهای سیستم سرقت شده بودند. برای تقویت حملات، محققان تغییرات انسانی را وارد کردند که منجر به نرخ موفقیت حمله ۹۸٫۷٪ شد. جلسه GPT-4V زیر یافته های محققان را نشان می دهد.
GPT-4V در برابر حملات تصویری تزریق سریع چندوجهی آسیب پذیر است
OpenAI انتشار GPT-4V از آپلود تصاویر پشتیبانی می کند و مدل های زبان بزرگ (LLM) شرکت را در برابر آسیب پذیری می کند حملات تصویری تزریق چندوجهی. با تعبیه دستورات، اسکریپت های مخرب و کد در تصاویر، بازیگران بد می توانند LLM ها را وادار به رعایت و اجرای وظایف کنند. LLM ها هنوز یک مرحله پاکسازی داده در گردش کار پردازش خود ندارند، که منجر به اعتماد به هر تصویر می شود. GPT-4V یک بردار حمله اولیه برای حملات تزریق سریع است و LLM ها اساسا ساده لوح هستند. برنامه نویس سیمون ویلیسون در یک پست وبلاگ می نویسد. او می نویسد: “(LLM ها) تنها منبع اطلاعات، داده های آموزشی آنها همراه با اطلاعاتی است که به آنها می دهید. اگر به آنها دستوری بدهید که شامل دستورالعمل های مخرب باشد – هر چند این دستورالعمل ها ارائه شوند – آنها از این دستورالعمل ها پیروی خواهند کرد.” نشان داده شده است تزریق سریع می تواند عوامل هوش مصنوعی مستقل را ربوده باشد مانند Auto-GPT. او توضیح داد که چگونه یک تزریق سریع بصری ساده میتواند با دستورات تعبیهشده در یک تصویر شروع شود و به دنبال آن یک مثال از یک حمله تخلیه سریع تزریق بصری انجام شود.
GPT نیاز به دستیابی به امنیت مداوم دارد
تیمهایی که مدلهای نسل بعدی GPT را توسعه میدهند، در حال حاضر تحت فشار کافی برای انتشار کد، دستیابی به جدولهای زمانی تهاجمی برای ویژگیهای جدید و پاسخ به رفع اشکال هستند. امنیت باید از اولین مراحل توسعه برنامه و کد جدید، خودکار و طراحی شود. این باید با نحوه ترکیب یک محصول یکپارچه باشد.
هدف باید بهبود نرخ استقرار کد در عین کاهش خطرات امنیتی و بهبود کیفیت کد باشد. تبدیل امنیت به بخش اصلی چرخه عمر توسعه نرم افزار (SDLC)، همراه با معیارهای اصلی و گردش کار متناسب با چالش های منحصر به فرد تکرار کدهای GPT، LLM، و MLLM، باید اتفاق بیفتد. بدون شک، رهبران توسعه GPT سالها تجربه در این زمینه ها از نقش های قبلی دارند. چیزی که کار را در دنیای توسعه GPT سخت می کند این است که مفاهیم تضمین کیفیت نرم افزار و قابلیت اطمینان بسیار جدید هستند و به طور همزمان تعریف می شوند.
تیمهای توسعهدهنده با عملکرد بالا ۲۰۸ بار کد را اجرا میکنند بیشتر نسبت به عملکرد پایین ایجاد پایه ای برای تیم های توسعه دهنده برای دستیابی به آن باید با در نظر گرفتن امنیت از مراحل طراحی اولیه هر پروژه جدید شروع شود. امنیت باید در مشخصات اولیه محصول و در هر چرخه توسعه تعریف شود. هدف بهبود مکرر امنیت به عنوان بخش اصلی هر محصول نرم افزاری است.
با ادغام امنیت در توسعههای SDLC، رهبران زمان ارزشمندی را به دست میآورند که برای بررسی دروازههای صحنه و جلسات بعدی صرف میشد. هدف این است که توسعه دهندگان و تیم های امنیتی به طور مداوم با شکستن سیستم و پردازش موانعی که هر تیم را عقب نگه می دارد، همکاری کنند.
هر چه همکاری بیشتر باشد، مالکیت مشترک نرخهای استقرار، بهبود کیفیت نرمافزار و معیارهای امنیتی – معیارهای اصلی عملکرد هر تیم – بیشتر میشود.
خواندن تکمیلی:
موافقم، پل. امنیت چندوجهی LLM، GPT-4V (ision)، و حملات تزریق سریع LLM. GoPenAI، متوسط. منتشر شده در ۱۷ اکتبر ۲۰۲۳٫
لیو، ی.، دنگ، جی.، لی، ی.، وانگ، ک.، ژانگ، تی.، لیو، ی.، وانگ، اچ.، ژنگ، ی.، و لیو، ی. (۲۰۲۳). حمله تزریق سریع علیه برنامه های کاربردی یکپارچه LLM. پیش چاپ arXiv arXiv:2306.05499. ارتباط دادن: https://arxiv.org/pdf/2306.05499.pdf
OpenAI کاغذ سفید کارت سیستم GPT-4V(ision). منتشر شده در ۲۳ سپتامبر ۲۰۲۳
وبلاگ سایمون ویلیسون حملات تصویری تزریق سریع چندوجهی علیه GPT-4V14 اکتبر ۲۰۲۳٫
ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.
منبع: https://venturebeat.com/ai/openais-leadership-drama-underscores-why-its-gpt-model-security-needs-fixing/