در چشم انداز به سرعت در حال تحول اقتصاد هوش مصنوعی، داده ها به عنوان پایه ای ظاهر می شوند که پیشرفت ها را پیش می برد. این فقط یک جزء نیست. بلکه به عنوان رگ حیات مدلهای هوش مصنوعی میباشد و بر عملکرد اساسی و کیفیت کلی آنها تأثیر میگذارد.
همبستگی واضح است: هر چه داده های تولید شده توسط انسان در معرض یک سیستم هوش مصنوعی بیشتر و متنوع تر باشد، ماهرتر می شود.
با این حال، یک افشاگری نگرانکننده بر شرکتهای هوش مصنوعی سایه افکنده است – طبیعت متناهی دادههای طبیعی. در هشداری که تقریباً یک سال است در میان محققان هوش مصنوعی طنین انداز شده است، کارشناسان هشدار می دهند که چاه داده های طبیعی که برای آموزش سیستم های هوش مصنوعی ضروری است، در حال خشک شدن است.
ریتا ماتولیونیت، استاد حقوق فناوری اطلاعات در دانشگاه مککواری استرالیا، در مقالهای برای The Conversation بر این نگرانی تأکید میکند.
مطالعه ای توسط سازمان پیش بینی هوش مصنوعی Epoch AI یک جدول زمانی ملموس به سناریوی پیش بینی اضافه می کند. این مطالعه تخمین میزند که شرکتهای هوش مصنوعی ممکن است در اوایل سال ۲۰۲۶ با کمبود دادههای آموزشی متنی با کیفیت بالا مواجه شوند و دادههای متنی و تصویری با کیفیت پایین احتمالاً بین سالهای ۲۰۳۰ تا ۲۰۶۰ کاهش مییابند.
این کمبود داده یک تهدید اساسی برای شرکتهای هوش مصنوعی است که به شدت به هجوم مداوم دادهها برای بهبود مدلهای خود وابسته هستند. مسیر توسعه هوش مصنوعی منعکس کننده حجم فزاینده داده است. اگر این زنجیره تامین راکد شود، عواقب آن می تواند در سراسر صنعت بازتاب پیدا کند.
Matulionyte یک درمان بالقوه را در قالب داده های مصنوعی، تولید شده توسط مدل های هوش مصنوعی پیشنهاد می کند. با این حال، دوام این راه حل مورد بحث است، زیرا تحقیقات نشان می دهد که خطر یک “اثر همخونی” وجود دارد که در صورت آموزش بر روی محتوای تولید شده توسط هوش مصنوعی، مدل را تحریف می کند. با وجود این چالش ها، برخی از شرکت ها در حال کاوش مجموعه های آموزشی مصنوعی هستند.
یک جایگزین عمل گرایانه در مفهوم مشارکت داده ها ظاهر می شود. در اصل، شرکتها یا مؤسساتی که دارای مخازن وسیعی از دادههای باکیفیت هستند، میتوانند با شرکتهای هوش مصنوعی برای به اشتراک گذاشتن این دادهها، اغلب در ازای پرداخت غرامت مالی، قراردادهایی منعقد کنند.
OpenAI، یک شرکت برجسته هوش مصنوعی دره سیلیکون، اخیرا یک طرح مشارکت داده را راه اندازی کرده است. در یک پست وبلاگی، این شرکت بر اهمیت چنین همکاری هایی در هدایت آینده هوش مصنوعی و ایجاد مدل هایی که بیشتر مربوط به سازمان های مختلف است تأکید می کند.
با تشدید رقابت برای داده ها، عملی بودن مشارکت داده ها به یک نقطه کانونی تبدیل می شود. بسیاری از مجموعه دادههای هوش مصنوعی در حال حاضر از دادههای خراششده اینترنتی که توسط کاربران آنلاین ایجاد شدهاند، مشتق میشوند و مشارکت دادهها را به یک راهحل قابل قبول تبدیل میکنند. با این حال، با افزایش ارزش دادهها، رقابت برای مجموعه دادهها تشدید میشود و سؤالاتی در مورد تمایل مؤسسات و افراد برای به اشتراک گذاشتن دادههای خود با نهادهای هوش مصنوعی ایجاد میکند.
حتی با مشارکت دادهها، همچنان عدم اطمینان در مورد پایداری عرضه داده وجود دارد. علیرغم گستره به ظاهر بی حد و حصر اینترنت، چالش قریب الوقوع کاهش ذخایر داده ها، ارزیابی مجدد مفروضات مربوط به ماهیت بی پایان این منبع حیاتی را وادار می کند.
(با نظر آژانس ها)
منبع: https://www.firstpost.com/tech/worrying-times-for-ai-ahead-major-tech-companies-are-running-out-of-data-to-train-llms-13385812.html