ElevenLabs دوبله با هوش مصنوعی را معرفی می کند و ویدیو و صدا را به ۲۰ زبان ترجمه می کند

VentureBeat ارائه می دهد: AI Unleashed – یک رویداد اجرایی انحصاری برای رهبران داده های سازمانی. شبکه و یادگیری با همتایان صنعت. بیشتر بدانید


یازده آزمایشگاهیک استارت‌آپ شبیه‌سازی و سنتز صدا که توسط کارمندان سابق گوگل و پالانتیر تأسیس شده بود، امروز از راه‌اندازی AI Dubbing خبر داد، محصولی اختصاصی که می‌تواند هر گفتاری، از جمله محتوای طولانی، را به بیش از ۲۰ زبان مختلف ترجمه کند.

این پیشنهاد که در دسترس همه کاربران پلتفرم است، به عنوان راهی جدید برای دوبله کردن محتوای صوتی و تصویری است و می‌تواند منطقه‌ای را که سال‌ها عمدتاً دستی بوده، متحول کند.

مهمتر از آن، می تواند موانع زبانی را برای سازندگان محتوای کوچکتر که منابع لازم برای استخدام مترجمان دستی برای تبدیل محتوای خود و جهانی شدن آن را ندارند، بشکند.

Mati Staniszewski، مدیرعامل و یکی از بنیانگذاران ElevenLabs، به VentureBeat گفت: «ما این ویژگی را با همکاری صدها سازنده محتوا آزمایش و تکرار کرده‌ایم تا محتوای آنها را دوبله کرده و آن را برای مخاطبان گسترده‌تر در دسترس قرار دهیم. “ما پتانسیل عظیمی برای خلاقان مستقل – مانند کسانی که محتوای ویدیویی و پادکست ایجاد می کنند – تا استودیوهای فیلم و تلویزیون می بینیم.”

رویداد

GamesBeat Next 2023

در ۲۴ تا ۲۵ اکتبر به انجمن GamesBeat در سانفرانسیسکو بپیوندید. شما از باهوش ترین ذهن های صنعت بازی در مورد آخرین پیشرفت ها و دیدگاه آنها در مورد آینده بازی خواهید شنید.


بیشتر بدانید

ElevenLabs ادعا می کند که این ویژگی می تواند صدای ترجمه شده با کیفیت بالا را در چند دقیقه (بسته به طول محتوا) ارائه دهد و در عین حال صدای اصلی گوینده را همراه با احساسات و لحن آنها حفظ کند.

با این حال، در این عصر هوش مصنوعی، زمانی که تقریباً هر شرکتی به دنبال مدل‌های زبانی برای افزایش کارایی است، تنها شرکتی نیست که ترجمه گفتار به گفتار را بررسی می‌کند.

دوبله هوش مصنوعی: چگونه کار می کند

در حالی که ترجمه مبتنی بر هوش مصنوعی شامل چندین لایه کار است، از حذف نویز گرفته تا ترجمه گفتار، کاربران در قسمت جلویی نیازی به گذراندن هیچ یک از این مراحل ندارند. آنها فقط باید ابزار دوبله هوش مصنوعی را در ElevenLabs انتخاب کنند، یک پروژه جدید ایجاد کنند، زبان منبع و مقصد را انتخاب کنند و فایل محتوا را آپلود کنند.

پس از آپلود محتوا، ابزار به طور خودکار تعداد بلندگوها را تشخیص می دهد و با نوار پیشرفتی که روی صفحه ظاهر می شود کار می کند. این دقیقاً مانند هر ابزار تبدیل دیگری در اینترنت است. پس از تکمیل، فایل قابل دانلود و استفاده است.

در پشت صحنه، این ابزار با ضربه زدن روی روش اختصاصی ElevenLabs برای حذف نویز پس‌زمینه کار می‌کند، موسیقی و نویز را از دیالوگ واقعی بلندگوها متمایز می‌کند. تشخیص می‌دهد که چه گوینده‌ها چه زمانی صحبت می‌کنند، صدای آنها را متمایز نگه می‌دارد، و آنچه را که می‌گویند به زبان اصلی خود با استفاده از مدل گفتار به متن رونویسی می‌کند. سپس، این متن ترجمه، تطبیق داده می شود (بنابراین طول ها مطابقت دارند) و به زبان مقصد صداگذاری می شود تا ضمن حفظ ویژگی های صدای اصلی گوینده، گفتار مورد نظر را تولید کند.

در نهایت، گفتار ترجمه شده با موسیقی و نویز پس‌زمینه که ابتدا از فایل حذف شده است، همگام‌سازی می‌شود و خروجی دوبله را برای استفاده آماده می‌کند. EvenLabs ادعا می کند که این کار اوج تحقیقات آن در مورد شبیه سازی صدا، پردازش متن و صدا و سنتز گفتار چند زبانه است.

برای تولید گفتار نهایی از متن ترجمه شده، این شرکت از آخرین خود استفاده می کند مدل چند زبانه v2. در حال حاضر بیش از ۲۰ زبان از جمله هندی، پرتغالی، اسپانیایی، ژاپنی، اوکراینی، لهستانی و عربی را پشتیبانی می‌کند و گزینه‌های گسترده‌ای را برای جهانی‌سازی محتوای خود به کاربران می‌دهد.

قبل از این رابط انتها به انتها، ElevenLabs ابزارهای جداگانه ای برای شبیه سازی صدا و سنتز متن به گفتار ارائه می کرد. به این ترتیب، اگر کسی بخواهد محتوای صوتی خود را مانند یک پادکست، به زبان دیگری ترجمه کند، ابتدا باید یک کلون از صدای خود را روی پلتفرم ایجاد کند، در حالی که صدا را به طور جداگانه رونویسی و ترجمه می کند. سپس با استفاده از فایل متنی ترجمه شده و گفتار شبیه سازی شده خود، می توانند صدا را از مدل تبدیل متن به گفتار تولید کنند. ناگفته نماند، این فقط برای سخنرانی بدون موسیقی پس‌زمینه اصلی یا نویز کار می‌کرد.

استانیشفسکی تأیید کرد که ویژگی دوبله جدید برای همه کاربران این پلتفرم در دسترس خواهد بود، اما مانند تولید متن به گفتار دارای محدودیت‌هایی برای کاراکتر خواهد بود. او گفت که حدود یک دقیقه دوبله هوش مصنوعی معمولاً معادل ۳۰۰۰ کاراکتر است.

صداهای مبتنی بر هوش مصنوعی در راهند

در حالی که ElevenLabs با پیشرفت‌های پشت سر هم خبرساز می‌شود، تنها آزمایشگاهی است که صداگذاری مبتنی بر هوش مصنوعی را بررسی می‌کند. چند هفته پیش، تحت حمایت مایکروسافت OpenAI ChatGPT را چندوجهی کرد با قابلیت مکالمه در پاسخ به درخواست های صوتی مانند الکسا.

در اینجا نیز شرکت از مدل‌های گفتار به نوشتار و متن به گفتار برای تبدیل صدا استفاده می‌کند، اما این فناوری برای همه در دسترس نیست.

OpenAI گفت که از آن با شرکای منتخب برای جلوگیری از سوء استفاده از قابلیت ها استفاده می کند. یکی از این موارد Spotify است که با استفاده از آن به پادکسترها کمک می کند تا محتوای خود را به زبان های مختلف رونویسی کنند و در عین حال صدای خود را حفظ کنند.

استانیژوسکی گفت که ابزار دوبله هوش مصنوعی ElevenLabs با ترجمه ویدیو یا صدا با هر طولی که شامل هر تعداد بلندگو باشد، در عین حفظ صدا و احساسات آنها در حداکثر ۲۰ زبان و ارائه نتایج با بالاترین کیفیت، متمایز می شود.

سایر بازیکنان نیز در فضای سنتز صدا و گفتار مبتنی بر هوش مصنوعی فعال هستند، از جمله MURF.AI، بازی.ht و آزمایشگاه های خوب گفت.

اخیراً متا نیز راه اندازی شد SeamlessM4Tچند زبانه منبع باز مدل پایه که می تواند نزدیک به ۱۰۰ زبان را از گفتار یا متن بفهمد و ترجمه هایی را به هر یک یا هر دو در زمان واقعی ایجاد کند.

مطابق با بازار ایالات متحدهبازار جهانی برای چنین ابزارهایی در سال ۲۰۲۲ به ۱٫۲ میلیارد دلار رسید و تخمین زده می شود که در سال ۲۰۳۲ نزدیک به ۵ میلیارد دلار باشد، با CAGR کمی بالاتر از ۱۵٫۴۰%.

ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.


منبع: https://venturebeat.com/ai/elevenlabs-introduces-ai-dubbing-translating-video-and-audio-into-20-languages/

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *