متا بهتازگی از مدل هوش مصنوعی جدیدی رونمایی کرده است که میتواند بهشکل همزمان اقدام به ترجمه ۱۰۱ زبان کند و دقت بیشتری را هم در مقایسه با مدلهای قبلی از خود نشان دهد.
ترجمه گفتاری بهشکل کلاسیک معمولاً در چندین مرحله انجام میگیرد که در اغلب موارد، با تبدیل زبان ورودی به متن آغاز میشود. در ادامه متن تولید شده به زبان دوم ترجمه میشود و سپس متن خروجی دوباره به حالت گفتاری در زبان مقصد تبدیل میشود. این روش بهدلیل تعدد مراحل، بهعنوان مسیری غیربهینه شناخته میشود که ممکن است در هر مرحله، خطاها و اشتباهاتی در ترجمه یا تبدیل متن به گفتار و بالعکس را شامل شود.
ترجمه سریع گفتاری توسط هوش مصنوعی چگونه انجام میشود؟
محققان هوش مصنوعی در شرکت متا اخیراً در مقاله منتشرشده در ژورنال معتبر نیچر، از مدل جدیدی تحت عنوان SeamlessM4T رونمایی کردند که برخلاف مدلهای کلاسیک میتواند ترجمه مستقیمتر گفتاری از زبان مبداء به مقصد را انجام دهد. کلید بهینهسازی مدل جدید متا در فرایندی بهنام دادهکاوی موازی قرار دارد. طی فرایند مذکور، هوش مصنوعی بهدنبال عبارتهای مشابه با ورودی گفتاری در زیرنویس ویدئوهای منتشر شده در وب میگردد. در ادامه تکههای جمعآوری شده در کنار هم قرار میگیرند و پس از یکپارچهسازی، خروجی آن به کاربر تحویل داده میشود.
پژوهشگران متا ادعا دارند که مدل جدید توسعهیافته توسط آنها میتواند تا ۲۳ درصد دقت بیشتری هنگام ترجمه گفتاری در مقایسه با مدلهای دیگر از خود نشان دهد و از ۱۰۱ زبان دنیا پشتیبانی میکند. شایانذکر است که مدل مشابه دیگری با نام AudioPaLM توسط گوگل ساخته شده است که زبانهای پشتیبانیشده در آن به ۱۱۳ مورد میرسد. البته گوگل تمامی بخشهای مدل خود را بهشکل متنباز ارائه نمیکند و کاربران عادی در دسترسی به آن با محدودیتهایی مواجه هستند.
با وجود پیشرفتهای بسیار زیاد صورتگرفته در حوزه هوش مصنوعی و ترجمه ماشینی، محققان عقیده دارند که نیاز به ترجمه انسانی هنوز هم بهشدت حس میشود. مترجمها میتوانند مضامین فرهنگی داخل متون را درک کنند و از رساندن منظور آنها بهشکل صحیح در زبان مقصد، اطمینان پیدا کنند. همچنین بررسی متنهای ترجمهشده توسط ماشین در حوزههای حساس مثل حقوق و پزشکی، از اهمیت بالایی برخوردار است تا احتمال بروز خطا، کاهش پیدا کند. خوشبختانه مدل جدید هوش مصنوعی متا در قالب متنباز منتشر شده است و علاقهمندان میتوانند اقدام به آزمودن مستقل امکانات آن نمایند.
منبع: https://digiato.com/artificial-intelligence/meta-new-ai-model-for-direct-speech-to-speech-translation-seamlessm4t