متا از Audiobox، یک هوش مصنوعی که صداها را شبیه سازی می کند و صداهای محیط را تولید می کند، رونمایی کرد

آیا آماده اید تا آگاهی بیشتری را به برند خود بیاورید؟ در نظر بگیرید که برای تور AI Impact Tour اسپانسر شوید. درباره فرصت ها بیشتر بدانید اینجا.

شبیه سازی صدا یکی از حوزه هایی است که به لطف هوش مصنوعی مولد به سرعت در حال ظهور است. این اصطلاح به تکرار سبک‌های صوتی یک فرد – زیر و بم، تن، ریتم‌ها، شیوه‌ها و تلفظ‌های منحصربه‌فرد – از طریق فناوری اشاره دارد.

در حالی که استارتاپ ها از جمله Eleven Labs ده ها میلیون دریافت کرده است متا پلتفرم‌ها، شرکت مادر فیس‌بوک، اینستاگرام، واتس‌اپ و Oculus VR، برای تامین بودجه خود برای این کار، برنامه شبیه‌سازی صدای رایگان خود را منتشر کرده است. جعبه صوتی – با گرفتن.

امروز در تاریخ رونمایی شد وب سایت متا توسط محققانی که در آزمایشگاه تحقیقات هوش مصنوعی فیس بوک (FAIR) کار می کنند، Audiobox به عنوان یک “مدل تحقیقاتی پایه جدید برای تولید صدا” توصیف شده است که در بالای کار قبلی خود در این زمینه ساخته شده است. جعبه صدا.

می‌گوید: «این می‌تواند صداها و جلوه‌های صوتی را با استفاده از ترکیبی از ورودی‌های صوتی و اعلان‌های متنی زبان طبیعی تولید کند – که ایجاد صدای سفارشی برای طیف وسیعی از موارد را آسان می‌کند». صفحه وب جعبه صوتی.

رویداد VB

تور تاثیر هوش مصنوعی

در تور AI Impact VentureBeat که به شهر نزدیک شما می آید، با جامعه هوش مصنوعی سازمانی ارتباط برقرار کنید!

بیشتر بدانید

به سادگی جمله ای را تایپ کنید که می خواهید صدایی شبیه سازی شده بیان شود، یا توصیف صدایی که می خواهید تولید کنید، و Audiobox بقیه کارها را انجام خواهد داد. کاربران همچنین می توانند صدای خود را ضبط کرده و آن را توسط Audiobox کلون کنند.

خانواده ای از هوش مصنوعی تولید کننده صدا

متا همچنین خاطرنشان کرد که در واقع یک “خانواده مدل” ایجاد کرده است، یکی برای تقلید گفتار و دیگری برای تولید صداهای محیطی و جلوه های صوتی بیشتر مانند پارس سگ ها یا آژیرها یا بازی کودکان، و اینکه همه آنها “بر اساس خود مشترک ساخته شده اند. مدل Audiobox SSL تحت نظارت.

یادگیری خود نظارتی (SSL) یک تکنیک یادگیری عمیق یادگیری ماشینی (ML) است که در آن الگوریتم‌های هوش مصنوعی برای تولید برچسب‌های خود برای داده‌های بدون برچسب، بر خلاف یادگیری نظارت‌شده، که ممکن است داده‌ها قبلاً برچسب‌گذاری شده باشند، اختصاص داده می‌شوند.

محققین یک مقاله علمی منتشر کرد با توضیح برخی از روش‌شناسی و منطق آن‌ها برای اتخاذ رویکرد SSL، نوشتن «از آنجایی که داده‌های برچسب‌گذاری شده همیشه در دسترس نیستند یا کیفیت بالایی ندارند، و مقیاس داده‌ها کلید تعمیم است، استراتژی ما این است که این مدل پایه را با استفاده از صدا بدون هیچ نظارتی آموزش دهیم. مانند رونوشت‌ها، زیرنویس‌ها یا برچسب‌های ویژگی، که در مقادیر بیشتر یافت می‌شوند.»

البته، بیشتر مدل های پیشرو هوش مصنوعی مولد برای آموزش نحوه ایجاد محتوای جدید به شدت به داده های تولید شده توسط انسان وابسته هستند و Audiobox نیز از این قاعده مستثنی نیست. محققان FAIR بر «۱۶۰ هزار ساعت سخنرانی (عمدتاً انگلیسی)، ۲۰ هزار ساعت موسیقی و ۶ هزار ساعت نمونه صدا تکیه کردند.

بخش سخنرانی شامل کتاب‌های صوتی، پادکست‌ها، جملات خوانده‌شده، گفتگوها، مکالمات و ضبط‌های غیرکلامی از جمله شرایط صوتی مختلف و صداهای غیرکلامی است. بیش از ۱۵۰ کشور به بیش از ۲۰۰ زبان اصلی مختلف صحبت می کنند.

مقاله تحقیقاتی دقیقاً مشخص نمی‌کند که این داده‌ها از کجا تهیه شده‌اند و آیا در حوزه عمومی بوده یا خیر، اما مطمئناً این یک سؤال مهم است هنرمندان، نویسندگانو موسیقی ناشران شکایت از مجموعه ای از شرکت های هوش مصنوعی برای آموزش در مورد مطالب بالقوه دارای حق نسخه برداری بدون رضایت صریح سازندگان/صاحبان حقوق. ما برای شفاف‌سازی با سخنگوی متا تماس گرفته‌ایم و زمانی که آن را دریافت کردیم به‌روزرسانی خواهیم کرد.

می توانید خودتان آن را امتحان کنید و صدای خود را هم اکنون شبیه سازی کنید

برای نشان دادن قابلیت‌های Audiobox، متا همچنین مجموعه‌ای از دموهای تعاملی را منتشر کرده است، از جمله یکی که به شما امکان می‌دهد صدای کاربر را که در مورد متن یک جمله صحبت می‌کند ضبط کنید و صدای او را تکرار کنید.

سپس، کاربر می‌تواند متنی را که می‌خواهد صدای شبیه‌سازی‌شده‌اش بگوید را تایپ کند و بشنود که با صدای شبیه‌سازی‌شده‌اش برای او خوانده می‌شود.

شما می توانید آن را برای خودتان امتحان کنید اینجا. در مورد من، صدای شبیه‌سازی‌شده تولید شده توسط هوش مصنوعی به‌طور وحشتناکی شبیه بود، اگرچه دقیقاً شبیه صدای خودم نبود (همانطور که همسر و فرزندم شهادت دادند، بدون اینکه بدانند چیست).

متا همچنین به کاربران این امکان را می‌دهد تا صداهای کاملاً جدیدی را از توضیحات متنی که باید مانند “صدای عمیق زنانه” “گوینده مردانه با صدای بلند از ایالات متحده” و غیره تولید کنند، و همچنین صداهای ضبط شده توسط کاربر را تغییر شکل دهند یا متنی را تایپ کنند. اعلان برای تولید صدای کاملا جدید. دومی را با «پارس سگ‌ها» امتحان کردم و دو نسخه دریافت کردم که در گوشم با واقعیت قابل تشخیص نبود.

اکنون برای جلب توجه بزرگ: Meta شامل یک سلب مسئولیت به همراه نسخه‌های نمایشی تعاملی Audiobox خود است که به این نکته اشاره می‌کند که “این یک نسخه آزمایشی تحقیقاتی است و ممکن است برای هیچ هدف(های تجاری) مورد استفاده قرار نگیرد” و علاوه بر این، محدود به افراد خارج از ” ایالت های ایلینوی یا تگزاس، که قوانین ایالتی دارند که ظاهراً نوع مجموعه صوتی متا برای دموها را ممنوع می کند.

جالبه لایک کن برنامه وب جدید Imagine by Meta AI برای تولید تصویر هفته گذشته رونمایی شدAudiobox نیز منبع باز نیست، و تعهد متا به این زمینه را که قبلاً با انتشار آن نشان داده بود، کاهش می دهد. خانواده مدل‌های زبان بزرگ Llama 2 (LLM). ما همچنین از مخاطب متای خود در مورد این موضوع پرسیدیم که آیا Audiobox در مقطعی منبع باز می شود و زمانی که ما پاسخی دریافت کنیم به روز می شود.

بنابراین، فعلاً نمی‌توان از این فناوری برای اهداف پول‌سازی/تجاری استفاده کرد – و ساکنان دو ایالت پرجمعیت ایالات متحده نمی‌توانند از آن استفاده کنند. اما با پیشرفت سریع هوش مصنوعی، انتظار داشته باشید که این موضوع تغییر کند و در آینده نزدیک نسخه‌های تجاری، اگر نه از متا، از سایرین، وجود داشته باشد.

ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.

منبع: https://venturebeat.com/ai/meta-unveils-audiobox-an-ai-that-clones-voices-and-generates-ambient-sounds/

رویداد VB

خانواده ای از هوش مصنوعی تولید کننده صدا

می توانید خودتان آن را امتحان کنید و صدای خود را هم اکنون شبیه سازی کنید

دیدگاهتان را بنویسید لغو پاسخ