آیا آماده اید تا آگاهی بیشتری را به برند خود بیاورید؟ در نظر بگیرید که برای تور AI Impact Tour اسپانسر شوید. درباره فرصت ها بیشتر بدانید اینجا.
در یک حرکت جسورانه که عقل متعارف را به چالش می کشد، هوش مصنوعی مولد شرکتها رویکرد پیشرفتهای را برای تضمین کیفیت پذیرفتهاند: انتشار مدلهای زبان بزرگ (LLM) مستقیماً در قلمروهای وحشی و رامنشده اینترنت.
چرا وقتی میتوانید از قدرت جمعی جامعه آنلاین برای کشف باگها، اشکالات و ویژگیهای غیرمنتظره استفاده کنید، با مراحل آزمایش خستهکننده خود را خسته کنید؟ این یک آزمایش جسورانه در آزمایش با آتش دیجیتال است، که در آن هر کاربر به یک شرکت کننده ناخواسته در آزمون بتا بزرگ قرن تبدیل می شود.
دوستان، وارد شوید، زیرا همه ما در این سواری غیرقابل پیشبینی با هم هستیم و خصلتها و ویژگیهای LLM را یکی یکی کشف میکنیم. چه کسی به یک شبکه ایمنی نیاز دارد وقتی که شما وسعت وسیع اینترنت دارید تا اشتباهات خود را تشخیص دهید، درست است؟ “موافقت” با شرایط و ضوابط را فراموش نکنید.
اخلاق و دقت اختیاری است
مسابقه پر هرج و مرج برای انتشار یا استفاده نسل هوش مصنوعی مدلهای LLM مانند پخش آتش بازی به نظر میرسند – مطمئناً خیرهکننده هستند، اما هیچ تضمینی وجود ندارد که در داخل خانه راهاندازی نشوند! میسترالبه عنوان مثال، اخیراً مدل ۷B خود را تحت مجوز Apache 2.0 عرضه کرده است. با این حال، در غیاب محدودیت های صریح، نگرانی در مورد احتمال سوء استفاده وجود دارد.
همانطور که در مثال زیر مشاهده می شود، تنظیمات جزئی پارامترهای پشت صحنه می تواند نتایج کاملا متفاوتی را به همراه داشته باشد.
![](https://venturebeat.com/wp-content/uploads/2023/12/image1.png?resize=1558%2C586&strip=all)
![](https://venturebeat.com/wp-content/uploads/2023/12/image3.png?resize=1548%2C637&strip=all)
سوگیری های تعبیه شده در الگوریتم ها و داده هایی که از آنها می آموزند می توانند نابرابری های اجتماعی را تداوم بخشند. CommonCrawlکه از وب خزنده مبتنی بر Apache Nutch استفاده می کند، بخش عمده ای از داده های آموزشی برای LLM ها را تشکیل می دهد: ۶۰ درصد از مجموعه داده آموزشی GPT-3 و ۶۷ درصد از مجموعه داده LLaMA. در حالی که برای مدل سازی زبان بسیار مفید است، بدون اقدامات کنترل کیفیت جامع عمل می کند. در نتیجه، مسئولیت انتخاب دادههای با کیفیت کاملاً بر عهده توسعهدهنده است. شناخت و کاهش این سوگیری ها گام های ضروری به سمت استقرار اخلاقی هوش مصنوعی است..
توسعه نرم افزارهای اخلاقی نباید اختیاری، بلکه اجباری باشد.
با این حال، اگر یک توسعهدهنده تصمیم بگیرد از دستورالعملهای اخلاقی دور شود، حفاظتهای محدودی وجود دارد. مسئولیت نه تنها بر دوش توسعه دهندگان بلکه بر عهده آنهاست سیاست گذاران و سازمان ها برای تضمین استفاده عادلانه و بی طرفانه از نسل هوش مصنوعی.
![](https://venturebeat.com/wp-content/uploads/2023/12/image2-1.png?resize=1426%2C633&strip=all)
در شکل ۳، نمونه دیگری را مشاهده می کنیم که در آن مدل ها، در صورت استفاده نادرست، می توانند اثرات بالقوه ای داشته باشند که ممکن است بسیار فراتر از کاربرد مورد نظر باشد و یک سوال کلیدی را ایجاد کند:
چه کسی مسئول است؟
در سرزمین خارقالعاده اصطلاحات حقوقی، جایی که به نظر میرسد حتی علائم نگارشی نیز وکیل دارند، شرایط خدمات به راحتی به این معناست که «شما وارد هزارتوی مسئولیت محدود میشوید». شما که این را می خوانید (یا نمی خوانید) تمام امیدتان را رها کنید.»
شرایط خدمات برای ارائههای نسل هوش مصنوعی نه دقت را تضمین میکند و نه مسئولیتی را بر عهده میگیرد (گوگل، OpenAI) و در عوض به اختیار کاربر تکیه کنید. با توجه به الف گزارش مرکز تحقیقات پیوبسیاری از کاربران این خدمات این کار را برای یادگیری چیزهای جدید یا برای انجام وظایفی در محل کار انجام می دهند و ممکن است برای تمایز بین محتوای موثق و توهم مجهز نباشند.
عواقب چنین عدم دقتی فراتر از قلمرو مجازی است و می تواند به طور قابل توجهی بر دنیای واقعی تأثیر بگذارد. برای مثال، سهام آلفابت سقوط کرد پس از اینکه چت بات بارد گوگل به اشتباه ادعا کرد که تلسکوپ فضایی جیمز وب اولین تصاویر جهان از سیاره ای خارج از منظومه شمسی را گرفته است.
چشم انداز کاربرد این مدل ها به طور مداوم در حال تغییر است و برخی از آنها در حال حاضر راه حل هایی را ارائه می دهند که مستلزم تصمیم گیری اساسی است. در صورت بروز خطا، آیا مسئولیت به عهده خود ارائه دهنده LLMها، نهاد ارائه دهنده خدمات ارزش افزوده با استفاده از این LLMها، یا کاربر به دلیل عدم تشخیص احتمالی است؟
این را تصور کنید: شما در یک تصادف رانندگی هستید. سناریوی الف: ترمزها به شما خیانت می کنند و در نهایت با یک تیر چراغ برق به یک رقص ملودراماتیک می پردازید. سناریو B: شما که احساس شکست ناپذیری می کنید، شیطان سرعت درونی خود را در حالی که DUI و bam می کنید، کانال می کنید! تانگو لمپست، قسمت دوم.
عواقب بعدی؟ به همان اندازه فاجعه بار. اما هی، در سناریوی الف، میتوانید با انگشت به سمت شرکت خودروسازی اشاره کنید و فریاد بزنید، “تو من را ناامید کردی!” در سناریوی B، با این حال، تنها کسی که میتوانید سرزنش کنید، شخص در آینه است – و این گفتگوی سختی است. چالش LLM ها این است که خرابی ترمز و DUI ممکن است به طور همزمان اتفاق بیفتند.
“no-LLM-index” کجاست
را noindex قانون، با متا تگ تنظیم می شود یا هدر پاسخ HTTP از موتورهای جستجو درخواست می کند که صفحه را از فهرست شدن حذف کنند. شاید، گزینه مشابهی (no-llm-index) باید برای سازندگان محتوا در دسترس باشد تا از پردازش LLM خودداری کنند. LLM با الزامات قانون حفظ حریم خصوصی مصرف کنندگان کالیفرنیا در سال ۲۰۱۹ مطابقت ندارد (“CCPA”) درخواست حذف یا حق پاک کردن GDPR.
بر خلاف پایگاه داده، که دقیقاً می دانید چه اطلاعاتی در آن ذخیره می شود و در صورت درخواست مصرف کننده چه اطلاعاتی باید حذف شوند، LLM ها بر اساس پارادایم متفاوتی عمل می کنند. آنها الگوهایی را از داده هایی که روی آنها آموزش دیده اند یاد می گیرند و به آنها امکان می دهد متنی شبیه انسان تولید کنند.
وقتی صحبت از درخواست های حذف می شود، وضعیت کمی متفاوت است. LLM ها پایگاه داده ساختار یافته ای ندارند که بتوان تک تک داده ها را به صورت انتخابی حذف کرد. در عوض، آنها پاسخهایی را بر اساس الگوهای آموخته شده در طول آموزش ایجاد میکنند و شناسایی و حذف اطلاعات خاص را به چالش میکشند.
![](https://venturebeat.com/wp-content/uploads/2023/12/image4.png?resize=1433%2C609&strip=all)
چشم انداز قانونی: یک اقدام متعادل کننده در قلمرو دیجیتال
یک لحظه مهم در حوزه حقوقی در سال ۲۰۱۵ رخ داد که یک دادگاه استیناف آمریکا ثابت کرد که اسکن گوگل از میلیونها کتاب برای Google Books گزیده محدودی از محتوای دارای حق نسخهبرداری «استفاده منصفانه» است. دادگاه حکم داد که اسکن این کتابها بسیار دگرگونکننده است، نمایش عمومی متن محدود است و نمایش جایگزین بازاری برای نسخه اصلی نیست.
با این حال، ژنرال هوش مصنوعی از این مرزها فراتر میرود و در قلمروهای ناشناختهای که در آن چارچوبهای قانونی تلاش میکنند تا همگام شوند، میگردند. دعاوی حقوقی به وجود آمده استطرح سوالات مرتبط در مورد جبران خسارت سازندگان محتوا که کارشان به الگوریتم های تولیدکنندگان LLM کمک می کند.
OpenAI، Microsoft، Github و Meta خود را درگیر کرده اند در دعوای حقوقیبه ویژه در مورد بازتولید کد رایانه ای از نرم افزار منبع باز دارای حق چاپ.
سازندگان محتوا در پلتفرمهای اجتماعی از قبل از محتوای خود کسب درآمد میکنند و گزینه انصراف در مقابل کسب درآمد از محتوا در چارچوب LLM باید انتخاب سازنده باشد.
پیمایش در آینده
استانداردهای کیفیت در صنایع مختلف متفاوت است. من با خراب شدن برنامه Amazon Prime Music خود یک بار در روز کنار آمده ام. در واقع همانطور که توسط AppDynamics گزارش شده است، برنامه ها با نرخ خرابی ۲٪ مواجه می شوند، اگرچه در گزارش مشخص نیست که آیا شامل همه برنامه ها (از جمله Prime Music؟) می شود یا آنهایی که مشتری AppDynamics هستند و به شکست اهمیت می دهند و همچنان نرخ خرابی ۲٪ را نشان می دهند. حتی نرخ تصادف ۲ درصدی در مراقبت های بهداشتی، خدمات عمومی یا حمل و نقل فاجعه بار خواهد بود.
با این حال، انتظارات در مورد LLM ها هنوز در حال تنظیم مجدد است. برخلاف خرابی اپلیکیشنها، که رویدادهای ملموسی هستند، تعیین اینکه چه زمانی هوش مصنوعی دچار خرابی یا توهم میشود، به دلیل ماهیت انتزاعی این رخدادها بسیار چالش برانگیزتر است.
همانطور که ژنرال هوش مصنوعی به پیشبرد مرزهای نوآوری ادامه میدهد، تلاقی حوزههای قانونی، اخلاقی و فناوری چارچوبهای جامع را به ذهن متبادر میکند. ایجاد توازن ظریف بین تقویت نوآوری و حفظ حقوق اساسی، درخواست روشنی برای سیاستگذاران، فناوران و جامعه به طور کلی است.
کمیته فنی استانداردسازی امنیت اطلاعات ملی چین در حال حاضر پیش نویس سند را منتشر کرد ارائه قوانین دقیق در مورد چگونگی تعیین مسائل مرتبط با ژن AI. پرزیدنت بایدن صادر کرد دستور را در هوش مصنوعی ایمن، مطمئن و قابل اعتماد اجرا کنیدو فرض بر این است که سایر سازمان های دولتی در سراسر جهان از این روند پیروی کنند.
صادقانه بگویم، هنگامی که جن هوش مصنوعی از بطری خارج شد، دیگر راه برگشتی وجود ندارد. ما قبلاً شاهد چالشهای مشابهی بودهایم – علیرغم شیوع اخبار جعلی در رسانههای اجتماعی، پلتفرمهایی مانند فیسبوک و توییتر چیزی بیش از شکلگیری موفق نبودهاند. کمیته ها در پاسخ.
LLM ها به حجم وسیعی از داده های آموزشی نیاز دارند و اینترنت فقط آن را رها می کند – به صورت رایگان. ایجاد چنین مجموعه داده های گسترده ای از ابتدا عملا غیرممکن است. با این حال، محدود کردن آموزش صرفاً به دادههای باکیفیت، اگرچه چالش برانگیز است، اما ممکن است، اما ممکن است سوالات بیشتری را در مورد تعریف کیفیت بالا و اینکه چه کسی آن را تعیین میکند، ایجاد کند.
سوالی که باقی می ماند این است که آیا ارائه دهندگان LLM کمیته به کمیته ایجاد می کنند، باتوم را به کاربران واگذار می کنند – یا برای تغییر، در واقع کاری در مورد آن انجام می دهند.
تا آن زمان، کمربند ایمنی خود را ببندید.
آمیت ورما رئیس آزمایشگاه های مهندسی / هوش مصنوعی و عضو موسس در است نورون ۷.
DataDecisionMakers
به انجمن VentureBeat خوش آمدید!
DataDecisionMakers جایی است که کارشناسان، از جمله افراد فنی که کار داده را انجام می دهند، می توانند بینش ها و نوآوری های مرتبط با داده را به اشتراک بگذارند.
اگر میخواهید درباره ایدههای پیشرفته و اطلاعات بهروز، بهترین شیوهها و آینده فناوری داده و داده مطالعه کنید، به ما در DataDecisionMakers بپیوندید.
حتی ممکن است در نظر بگیرید مشارکت در مقاله از خودت!
منبع: https://venturebeat.com/ai/llms-unleashed-navigating-the-chaos-of-online-experimentation/