MIT، Cohere for AI، سایرین پلتفرمی را برای ردیابی و فیلتر کردن مجموعه داده های هوش مصنوعی ممیزی شده راه اندازی می کنند

VentureBeat ارائه می دهد: AI Unleashed – یک رویداد اجرایی انحصاری برای رهبران داده های سازمانی. شبکه و یادگیری با همتایان صنعت. بیشتر بدانید

محققان MIT Cohere برای هوش مصنوعی و ۱۱ موسسه دیگر امروز پلتفرم Data Provenance را به منظور “مقابله با بحران شفافیت داده ها در فضای هوش مصنوعی” راه اندازی کردند.

طبق پیامی از نویسندگان Shayne Longpre، یک دکتر، آنها نزدیک به ۲۰۰۰ مورد از پرکاربردترین مجموعه داده های تنظیم دقیق را که در مجموع ده ها میلیون بار دانلود شده اند، ممیزی و ردیابی کردند. نامزد D در MIT Media Lab، و سارا هوکر، رئیس Cohere برای هوش مصنوعی.

آنها گفتند: “نتیجه این ابتکار چند رشته ای تنها بزرگترین ممیزی تا به امروز از مجموعه داده های هوش مصنوعی است.” برای اولین بار، این مجموعه داده ها شامل برچسب های منابع داده اصلی، مجوزهای مجدد متعدد، سازندگان و سایر ویژگی های داده است.

برای اینکه این اطلاعات کاربردی و در دسترس باشد، یک پلت فرم تعاملی، Data Provenance Explorerبه توسعه دهندگان این امکان را می دهد تا هزاران مجموعه داده را برای ملاحظات قانونی و اخلاقی ردیابی و فیلتر کنند و محققان و روزنامه نگاران را قادر می سازد ترکیب و سلسله داده های مجموعه داده های محبوب هوش مصنوعی را بررسی کنند.

رویداد

هوش مصنوعی آزاد شد

یک شب انحصاری فقط دعوت از بینش و شبکه، که برای مدیران ارشد سازمانی که بر پشته‌های داده و استراتژی‌ها نظارت دارند، طراحی شده است.

بیشتر بدانید

مجموعه های مجموعه داده ها اصل و نسب را تایید نمی کنند

این گروه مقاله ای به نام تیاو ابتکار منشأ داده: ممیزی در مقیاس بزرگ مجوز و انتساب مجموعه داده در هوش مصنوعیکه می گوید:

“به طور فزاینده ای، مجموعه داده های پرکاربرد به عنوان یکپارچه، به جای سلسله منابع داده، خراشیده شده (یا مدل تولید شده)، مدیریت شده، و حاشیه نویسی می شوند، اغلب با چندین دور بسته بندی مجدد (و مجوز مجدد) توسط پزشکان متوالی. عوامل بازدارنده برای تصدیق این نسب هم از مقیاس جمع‌آوری داده‌های مدرن (تلاش برای نسبت دادن صحیح آن) و هم از افزایش نظارت بر حق نسخه‌برداری ناشی می‌شود. درک داده های آموزشی

این عدم درک می تواند منجر به نشت داده ها بین داده های آموزشی و آزمایشی شود. افشای اطلاعات شناسایی شخصی (PII)، سوگیری‌ها یا رفتارهای ناخواسته. و به طور کلی منجر به کاهش می شود
مدل های با کیفیت بیش از حد انتظار فراتر از این چالش های عملی، شکاف های اطلاعاتی و مستندات
بدهی خطرات اخلاقی و قانونی قابل توجهی را به همراه دارد. به عنوان مثال، به نظر می رسد نسخه های مدل با شرایط استفاده از داده ها در تناقض هستند. از آنجایی که مدل‌های آموزشی بر روی داده‌ها هم گران و هم تا حد زیادی غیرقابل برگشت است، این خطرات و چالش‌ها به راحتی قابل اصلاح نیستند.

مجموعه داده های آموزشی در سال ۲۰۲۳ تحت بررسی قرار گرفته است

VentureBeat عمیقاً مسائل مربوط به منشأ داده ها و شفافیت مجموعه داده های آموزشی را پوشش داده است: در ماه مارس، ویلیام فالکون، مدیر عامل لایتنینگ AI کوبیده شد مقاله GPT-4 OpenAI به عنوان “تجلی به عنوان تحقیق”.

بسیاری گفتند که این گزارش بیشتر به خاطر کارهایی که انجام داده قابل توجه است نه عبارتند از. در بخشی به نام محدوده و محدودیت‌های این گزارش فنی، می‌گوید: «با توجه به فضای رقابتی و پیامدهای ایمنی مدل‌های مقیاس بزرگ مانند GPT-4، این گزارش حاوی جزئیات بیشتری در مورد معماری (از جمله اندازه مدل) نیست. سخت افزار، محاسبات آموزشی، ساخت مجموعه داده، روش آموزشی یا موارد مشابه.

و در ماه سپتامبر، یک را منتشر کردیم شیرجه عمیق به مسائل مربوط به حق نسخه برداری که در داده های آموزشی مولد هوش مصنوعی وجود دارد.

انفجار هوش مصنوعی مولد در یک سال گذشته تبدیل به یک “اوه، گنده!” دکتر الکس هانا، مدیر تحقیقات دانشگاه، در لحظه‌ای که نوبت به پرداختن به داده‌هایی می‌شود که زبان و مدل‌های انتشار بزرگ را آموزش می‌دهند، از جمله حجم انبوهی از محتوای دارای حق نسخه‌برداری که بدون رضایت جمع‌آوری شده‌اند. موسسه تحقیقاتی هوش مصنوعی توزیع شده (DAIR)به VentureBeat گفت.

ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.

منبع: https://venturebeat.com/ai/mit-cohere-for-ai-others-launch-platform-to-track-and-filter-audited-ai-datasets/

رویداد

مجموعه های مجموعه داده ها اصل و نسب را تایید نمی کنند

مجموعه داده های آموزشی در سال ۲۰۲۳ تحت بررسی قرار گرفته است

دیدگاهتان را بنویسید لغو پاسخ