VentureBeat ارائه می دهد: AI Unleashed – یک رویداد اجرایی انحصاری برای رهبران داده های سازمانی. در ۱۵ نوامبر از رهبران برتر صنعت بشنوید. پاس رایگان خود را رزرو کنید
زبان برای تعامل انسانی اساسی است – اما احساسات پشت آن نیز همینطور است.
ابراز شادی، غم، عصبانیت، ناامیدی یا سایر احساسات به انتقال پیام ها و ارتباط ما کمک می کند.
در حالی که هوش مصنوعی مولد در بسیاری از زمینههای دیگر سرآمد بوده است، برای درک این تفاوتها و پردازش پیچیدگیهای احساسات انسانی تلاش کرده است.
Typecastاستارتاپی که از هوش مصنوعی برای ایجاد صداها و ویدیوهای مصنوعی استفاده میکند، میگوید با انتقال عواطف جدید خود با بلندگوهای متقابل انقلابی در این زمینه ایجاد کرده است.
این فناوری به کاربران این امکان را می دهد که احساسات ضبط شده از صدای دیگران را در حالی که سبک منحصر به فرد خود را حفظ می کنند، اعمال کنند، بنابراین تولید محتوای سریع تر و کارآمدتر را امکان پذیر می کند. امروز از طریق قابلیت My Voice Maker Typecast در دسترس است.
Taesu Kim، مدیر عامل و یکی از بنیانگذاران سئول، کره جنوبی، گفت: “بازیگران هوش مصنوعی هنوز به طور کامل دامنه احساسی انسان ها را که بزرگترین عامل محدود کننده آنها است، ثبت نکرده اند.” نئوساپینس و Typecast.
با Typecast Cross-Speaker Emotion Transfer جدید، «هر کسی میتواند استفاده کند بازیگران هوش مصنوعی با عمق احساسی واقعی فقط بر اساس نمونه کوچکی از صدای آنها.
رمزگشایی احساسات
اگرچه احساسات معمولاً درون خود قرار می گیرند هفت دسته کیم خاطرنشان کرد – شادی، غم، خشم، ترس، تعجب و انزجار، بر اساس حرکات جهانی صورت – این برای بیان طیف گسترده ای از احساسات در گفتار تولید شده کافی نیست.
او اشاره کرد که صحبت کردن فقط یک نگاشت یک به یک بین متن داده شده و گفتار خروجی نیست.
او در مصاحبه ای اختصاصی به VentureBeat گفت: «انسان ها می توانند یک جمله را به هزاران روش مختلف بیان کنند. همچنین میتوانیم در یک جمله (یا حتی یک کلمه) احساسات مختلفی را نشان دهیم.
به عنوان مثال، ضبط جمله “چگونه می توانید این کار را با من انجام دهید؟” با اعلان احساسی “با صدای غمگین، انگار ناامید” کاملاً متفاوت از اعلان احساسی “عصبانی، مثل سرزنش” است.
به طور مشابه، احساسی که در اعلان توضیح داده شده است، “بسیار غمگین است زیرا پدرش فوت کرد اما لبخندی بر چهره او نشان داد” پیچیده است و به راحتی در یک دسته بندی مشخص نمی شود.
کیم و سایر محققان در مقاله ای می نویسند: “انسان ها می توانند با احساسات مختلف صحبت کنند و این منجر به گفتگوهای غنی و متنوع می شود.” کاغذ روی فناوری جدیدشان
محدودیت های احساسی متن به گفتار
فناوری تبدیل متن به گفتار تنها در مدت زمان کوتاهی دستاوردهای چشمگیری داشته است که توسط مدل ها هدایت می شود. ChatGPTLaMDA، LLama، Bard، Claude و سایر مدیران فعلی و تازه واردان.
کیم توضیح داد که تبدیل متن به گفتار احساسی نیز پیشرفت قابل توجهی را نشان داده است، اما به مقدار زیادی داده برچسبگذاری شده نیاز دارد که به راحتی قابل دسترسی نیست. ثبت ظرافتهای احساسات مختلف از طریق ضبط صدا زمانبر و دشوار بوده است.
علاوه بر این، کیم و همکارانش می نویسند: “ضبط چندین جمله برای مدت طولانی در حالی که به طور مداوم احساسات را حفظ می کند، بسیار سخت است.”
او توضیح داد که در سنتز گفتار عاطفی سنتی، همه دادههای آموزشی باید دارای برچسب احساس باشند. این روش ها اغلب به رمزگذاری احساسات یا مرجع صوتی اضافی نیاز دارند.
اما این یک چالش اساسی ایجاد می کند، زیرا باید داده های موجود برای هر احساس و هر سخنران وجود داشته باشد. علاوه بر این، رویکردهای موجود در معرض مشکلات برچسب زدن اشتباه زیرا در استخراج شدت مشکل دارند.
هنگامی که یک احساس نادیده به یک گوینده اختصاص داده شود، انتقال احساسات از میان بلندگوها دشوارتر می شود. این فناوری تاکنون عملکرد ضعیفی داشته است، زیرا غیرطبیعی است که گفتار احساسی به جای سخنران اصلی توسط یک سخنران خنثی تولید شود. علاوه بر این، کنترل شدت احساسات اغلب ممکن نیست.
کیم و همکارانش می نویسند: «حتی اگر بتوان مجموعه داده گفتار عاطفی را به دست آورد، باز هم محدودیتی در کنترل شدت احساسات وجود دارد».
استفاده از شبکه های عصبی عمیق، یادگیری بدون نظارت
برای رسیدگی به این مشکل، محققان ابتدا برچسبهای احساسات را در یک شبکه عصبی عمیق مولد – چیزی که کیم اولین جهان نامید – وارد کردند. اگرچه این روش موفق بود، اما برای بیان احساسات پیچیده و سبک های گفتاری کافی نبود.
محققان سپس یک الگوریتم یادگیری بدون نظارت که سبک های صحبت کردن و احساسات را از یک پایگاه داده بزرگ تشخیص می دهد. کیم گفت که در طول تمرین، کل مدل بدون هیچ برچسب احساسی آموزش داده شد.
این اعداد نماینده از سخنرانی های داده شده را ارائه می دهد. اگرچه این نمایشها برای انسان قابل تفسیر نیستند، اما میتوانند در الگوریتمهای تبدیل متن به گفتار برای بیان احساسات موجود در پایگاه داده استفاده شوند.
محققان همچنین یک شبکه عصبی ادراک را آموزش دادند تا توصیفات هیجانی زبان طبیعی را به بازنمایی ترجمه کند.
کیم گفت: «با این فناوری، کاربر نیازی به ضبط صدها یا هزاران سبک/احساس مختلف صحبت کردن ندارد، زیرا از پایگاه داده بزرگی از صداهای احساسی مختلف یاد میگیرد.
انطباق با ویژگی های صوتی فقط از تکه ها
آنها می نویسند که محققان با استفاده از بازنمایی نهفته به “سنتز گفتار احساسات قابل انتقال و کنترل” دست یافتند. آموزش دشمنی دامنه و از دست دادن ثبات چرخه، گوینده را از سبک جدا می کند.
این فناوری از تعداد زیادی صدای ضبط شده انسان – از طریق کتاب های صوتی، ویدیوها و سایر رسانه ها – برای تجزیه و تحلیل و درک الگوهای احساسی، لحن ها و انحرافات یاد می گیرد.
کیم توضیح داد که این روش با موفقیت احساسات را به یک بلندگوی خنثی به سبک خواندن منتقل می کند، تنها با تعداد انگشت شماری از نمونه های برچسب گذاری شده، و شدت احساسات می توان با یک مقدار اسکالر آسان و شهودی کنترل کرد.
او گفت که این به انتقال احساسات به روشی طبیعی بدون تغییر هویت کمک می کند. کاربران می توانند یک قطعه اولیه از صدای خود را ضبط کنند و طیف وسیعی از احساسات و شدت را اعمال کنند و هوش مصنوعی می تواند با ویژگی های صوتی خاص سازگار شود.
کاربران می توانند انواع مختلفی از گفتار احساسی ضبط شده توسط شخص دیگری را انتخاب کنند و آن سبک را در صدای خود اعمال کنند و در عین حال هویت صدای منحصر به فرد خود را حفظ کنند. با ضبط تنها پنج دقیقه از صدای خود، می توانند شادی، غم، عصبانیت یا سایر احساسات را بیان کنند، حتی اگر با لحن عادی صحبت کنند.
فناوری Typecast توسط Samsung Securities در کره جنوبی (یکی از زیرمجموعه های گروه سامسونگ)، LG Electronics در کره و دیگران استفاده شده است و این شرکت از زمان تاسیس خود در سال ۲۰۱۷ تاکنون ۲۶٫۸ میلیارد دلار جمع آوری کرده است. این استارتاپ اکنون در تلاش است تا فناوری های اصلی خود را در گفتار اعمال کند. کیم گفت که ترکیب با حالات صورت.
قابلیت کنترل برای هوش مصنوعی مولد حیاتی است
کیم خاطرنشان کرد که محیط رسانه به سرعت در حال تغییر است.
در گذشته، وبلاگهای مبتنی بر متن محبوبترین قالب رسانههای شرکتی بودند. اما در حال حاضر، ویدئوهای کوتاه حکمفرما هستند، و شرکت ها و افراد باید محتوای صوتی و تصویری بسیار بیشتری تولید کنند.
کیم گفت: “برای ارائه یک پیام شرکتی، صدای رسا با کیفیت بالا ضروری است.”
او اضافه کرد که تولید سریع و مقرون به صرفه از اهمیت بالایی برخوردار است – کار دستی توسط بازیگران انسانی به سادگی ناکارآمد است.
“قابلیت کنترل در هوش مصنوعی مولد کیم گفت: “ما معتقدیم این فناوریها به افراد و شرکتهای عادی کمک میکنند تا پتانسیل خلاقانه خود را آزاد کنند و بهرهوری خود را بهبود بخشند.”
ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.
منبع: https://venturebeat.com/ai/innovative-technology-from-typecast-allows-generative-ai-to-transfer-human-emotion/