۱٫ مقدمه
تبدیل صوتی به تبدیل تغییرات نحوی، صوتی و معنایی یک صوتی به دیگری می پردازد. این شامل برنامه های متعددی مانند تبدیل صدا، انتقال صدا، شکل دهی بلندگو، تبدیل احساسات و غیره است. [۱]. یکی از کاربردی ترین کاربردهای تبدیل صدا، تبدیل صدا (VC) است. تبدیل صدا با تبدیل ویژگیهای فرازبانی منبع صوتی با هدف و در عین حال حفظ ویژگیهای زبانی سروکار دارد. بسیاری از رویکردها برای VC در طول سال ها توسعه یافته اند.
بیشتر رویکردهای اولیه VC بر روشهای آماری مبتنی بر مدلهای مخلوط گاوسی (GMMs) برای تبدیل صدا از منبع به بلندگوی هدف متمرکز شدهاند. [۲,۳]. همچنین با شبکههای عصبی عمیق پیشخور نزدیک شده است [۴] و یک چارچوب مبتنی بر نمونه با استفاده از فاکتورسازی ماتریس غیر منفی [۵,۶]. علیرغم تولید نتایج خوب، این رویکردها اغلب از خطوط لوله ویژگی پیچیده متشکل از ویژگیهای خاص دامنه استفاده میکنند و به دادههای گفتاری منبع و هدف همتراز با زمان موازی نیاز دارند، که جمعآوری آنها دشوار و پرهزینه است.
اخیراً رویکردهایی وجود داشته است، مانند مواردی که در آن ذکر شد [۷,۸,۹]که با استفاده از یک برچسب مشخصه همراه با ویژگی های صوتی برای انجام شرطی سازی محلی برای تبدیل یک ویژگی گفتار منبع (مثلاً هویت گوینده) به ویژگی های هدف، بر نیاز به داده های موازی تراز زمانی غلبه می کنند. به طور کلی، اگرچه کیفیت صدای تبدیل شده بهدستآمده با روشهای غیر موازی معمولاً در مقایسه با صوتی بهدستآمده از روشهای آماری با استفاده از دادههای موازی محدود است، اما اینها میتوانند نیاز به دادههای موازی را که دستیابی به آنها پرهزینه است، برطرف کند. با این حال، این رویکردها هنوز از محدودیت آموزش وابسته به واژگان رنج می برند. به دلیل استفاده از مکانیسمهای شرطیسازی محلی، این رویکردها فقط میتوانند صدا را به گوینده هدفی تبدیل کنند که در مرحله آموزش حضور داشت.
تلاش هایی مانند مواردی که در آن ذکر شد وجود داشته است [۱۰,۱۱] که بر محدودیت فوق غلبه کرده و تبدیل صدا را برای هر بلندگوی دلخواه انجام می دهد. این رویکردها از سیستمهای تشخیص گفتار خودکار (ASR) برای تبدیل گفتار منبع ورودی به نمایشهای آوایی میانی استفاده میکنند، که بیشتر به عنوان گفتار هدف خروجی با استفاده از سیستمهای متن به گفتار سنتز میشوند. اگرچه این سیستمها میتوانند تبدیل صدای هر یک به هر شخصی را انجام دهند، اما دارای معایبی هستند، از جمله اینکه عملکرد چنین روشهایی به شدت به دقت سیستم ASR مورد استفاده بستگی دارد. ثانیاً، این رویکردها برای آموزش یا تنظیم دقیق سیستم ASR مورد استفاده، به رونویسیهای آوایی میانی متکی هستند، که معمولاً به سختی به دست میآیند، بنابراین قابلیت حمل این سیستمها به زبانها یا مجموعه دادههای جدیدتر را کاهش میدهند. [۱۲]. در نهایت، این سیستم ها در درجه اول فقط برای استفاده از تبدیل صدا قابل استفاده هستند.
این مقاله به دنبال پرداختن به برخی از محدودیت های برجسته شده در مطالعات فوق است. رویکرد ما هنگام استفاده از واژگان آموزشی قوی است، و بدون تکیه بر نمایشهای آوایی میانی یا سیستمهای تشخیص خودکار گفتار (ASR) تبدیلهای صوتی یکشات را ممکن میسازد. روش ما با عملکرد مستقیم بر روی ویژگیهای صوتی مانند طیفنگارها یا ضرایب سپسترال فرکانس مل (MFCCs)، نیاز به خطوط لوله مهندسی ویژگیهای پیچیده خاص دامنه را دور میزند. ما اثربخشی رویکرد خود را بر روی دو وظیفه چالش برانگیز ارزیابی می کنیم: (الف) تبدیل صدا و (ب) انتقال سبک موسیقی. نتایج ما با سه روش موجود مقایسه میشوند و کارایی و تطبیق پذیری راهحل پیشنهادی ما را نشان میدهند. این مقاله یک چارچوب تبدیل صوتی جدید، کاملاً متمایز و سرتاسر با مشارکتهای کلیدی زیر را معرفی میکند:
-
چارچوب واژگان-آگنوستیک: بر خلاف روشهای سنتی، رویکرد ما هنگام استفاده از واژگان آموزشی قوی است و تبدیلهای صوتی یکباره را برای بلندگوها یا آلات موسیقی غیرقابل مشاهده میسازد.
-
حذف نمایشهای آوایی و وابستگی ASR: با دور زدن نیاز به بازنماییهای آوایی میانی یا سیستمهای تشخیص خودکار گفتار (ASR)، روش ما تعمیمپذیری را بهبود میبخشد و اتکا به فرآیندهای فشرده منابع را کاهش میدهد.
-
مهندسی ویژگی ساده: با استفاده مستقیم از ویژگیهای صوتی مانند طیفنگارها و MFCC، رویکرد ما از خطوط لوله ویژگیهای پیچیده و خاص دامنه اجتناب میکند و آن را در میان مجموعههای داده و وظایف سازگار میسازد.
این کار میتواند برنامههایی را پیدا کند که در آن تبدیل صوتی برای همه قابل دسترسی باشد. مانند تبدیل صدا، روش پیشنهادی امکان تغییرات آسان صدا را بدون نیاز به مجموعه دادههای خاص یا ترازهای پیچیده فراهم میکند، که معمولاً بهدست آوردن و استفاده از آنها دشوار است. این امر به عنوان مثال، ایجاد دستیارهای صوتی شخصی، دوبله فیلم ها و ابزارهایی را برای افراد دارای مشکلات گفتاری تسهیل می کند. در موسیقی، روش پیشنهادی به تغییر سبک آهنگها کمک میکند و به نوازندگان و تهیهکنندگان اجازه میدهد تا ژانرهای جدید و ایدههای خلاقانه را تجربه کنند. همچنین، این می تواند در صنعت سرگرمی کاربرد پیدا کند، یعنی در ایجاد بازی های ویدیویی و محیط های مجازی با تغییرات صدا و صدای بهتر، واقعی تر به نظر برسد. با حذف نیاز به ابزارهای تخصصی، روش پیشنهادی میتواند با در دسترستر کردن و شخصیسازی فناوریهای صوتی، به بهبود تجربه کاربر منجر شود.
۲٫ آثار مرتبط
یک چارچوب انعطاف پذیر برای تبدیل طیفی (SC) پیشنهاد شد [۸] برای رسیدگی به محدودیت های نیاز به گروه های هم تراز برای آموزش. چارچوبهای سنتی SC اغلب بر پیکرههای موازی، ترازهای آوایی، یا مکاتبات صریح قاب برای یادگیری توابع تبدیل یا ترکیب طیفهای هدف متکی هستند. با این حال، این وابستگی ها به طور قابل توجهی عملی بودن برنامه های کاربردی SC را به دلیل در دسترس بودن محدود بدنه های موازی محدود می کنند. برای غلبه بر این، چارچوب پیشنهادی از یک رمزگذار خودکار متغیر (VAE) برای فعال کردن آموزش با اجسام غیر موازی استفاده میکند. این چارچوب دارای یک رمزگذار برای استخراج بازنماییهای آوایی مستقل از بلندگو و یک رمزگشا برای بازسازی صدای گوینده تعیینشده است که نیاز به پیکرههای موازی یا همترازیهای آوایی را از بین میبرد.
یکی از تحقیقات [۱۰] بر روی دستیابی به تبدیل صدا (VC) در بلندگوهای دلخواه، که به عنوان VC هر به هر VC نامیده میشد، تنها با استفاده از یک گفتار گوینده هدف تمرکز میکند. دو سیستم بررسی شده است: (۱) سیستم VC مبتنی بر بردار i (IVC) و (۲) سیستم VC مبتنی بر رمزگذار بلندگو (SEVC). هر دو رویکرد از گرم های پسین آوایی به عنوان ویژگی های زبانی مستقل از گوینده استخراج شده از نمونه های گفتاری استفاده می کنند. یک مدل حافظه کوتاه مدت دو جهته عمیق چند بلندگو (DBLSTM) در هر دو سیستم برای اجرای VC آموزش داده شده است، با ورودی های اضافی که هویت های بلندگو را رمزگذاری می کند. در سیستم IVC، هویت بلندگو برای یک بلندگوی هدف جدید با استفاده از i-vectors نشان داده میشود، در حالی که در سیستم SEVC، با تعبیههای بلندگو پیشبینی شده توسط یک مدل آموزشدیده جداگانه نشان داده میشود. نتایج تجربی کارآمدی هر دو سیستم را در فعال کردن VC به هر VC با بیان تک تک گوینده هدف نشان میدهد، با سیستم IVC از سیستم SEVC از نظر کیفیت گفتار و شباهت به صدای واقعی گوینده هدف.
تحقیقات قبلی [۱۳] همچنین استفاده از ساختارهای شبه بازگشتی، مانند مکانیسمهای توجه به خود و شبکههای عصبی شبه بازگشتی، برای طراحی مدلهای صوتی کارآمد متن به گفتار (TTS) را بررسی کرده است. این مدلها پیشرفتهای قابلتوجهی را نشان دادند و به سرعت سنتز ۱۱.۲ برابر در CPU و ۳.۳ برابر در GPU در مقایسه با مدلهای پایه تکراری سنتی دست یافتند. با وجود این پیشرفتها در سرعت، کیفیت گفتار مصنوعی در سطوحی قابل مقایسه با مدلهای تکراری اصلی حفظ شد و این رویکرد را با سیستمهای ترکیبی پارامتریک گفتار آماری مبتنی بر صداگذار پیشرفته رقابتی کرد. علاوه بر این، یک مطالعه دیگر [۱۴] یک شبکه عصبی کاملاً انتها به انتها را معرفی کرد که قادر به یادگیری ترجمه طیفنگارهای گفتاری به طیفنگارهای هدف یک زبان دیگر است و به طور مؤثر محتوا را بین زبانها با صدای متعارف منسجم نقشهبرداری میکند. این پیشرفت به چالش ترجمه گفتار به گفتار (S2ST) می پردازد، زمینه ای حیاتی برای از بین بردن موانع زبانی و تقویت ارتباط بین افرادی که زبان مشترکی ندارند.
پیشرفتهای اخیر در سیستمهای تبدیل صدا عمدتاً بر اصلاح پارامترهای طیفی، مانند پوشش طیفی متمرکز شدهاند. رویکردی از [۱۵] این را با ترکیب ویژگیهای عروضی، بهویژه مدلسازی موجک کانتور F0، برای افزایش کیفیت و طبیعی بودن صدا گسترش میدهد. تبدیل لهجه (AC) لهجه یک گوینده غیر بومی را تغییر می دهد تا شبیه لهجه بومی باشد و در عین حال صدای صوتی آنها را حفظ می کند. یک تحقیق دیگر [۱۶] قابلیت اجرا و کیفیت AC را با استفاده از یک سیستم متن به گفتار سرتاسر آموزشدیده بر روی گفتار بومی برای تولید مراجع بومی افزایش میدهد و نیاز به گفتار مرجع در طول تبدیل را از بین میبرد. این سیستم از رمزگذارهای مرجع برای ادغام اطلاعات چند منبعی استفاده میکند، و ویژگیهای صوتی منابع بومی و دادههای زبانی را با گرمهای پسین آوایی معمولی (PPGs) ترکیب میکند.
محققین [۱۷] یک الگوریتم Sparse Anchor-based Representation (SABR) برای انتخاب نمونه در تبدیل صدای بومی به غیر بومی (VC) معرفی می کند. با استفاده از برچسبهای واجی و خوشهبندی، الگوریتم به همترازی زمانی ضعیفی که معمولاً در چنین تبدیلهایی یافت میشود، میپردازد. تبدیل لهجه خارجی (FAC) به طور سنتی بر گفته های مرجع بومی یا سیستم های خاص سخنران متکی است و مقیاس پذیری را محدود می کند. برای غلبه بر این محدودیت ها، یک سیستم FAC جدید [۱۸] بدون نیاز به ارجاعات بومی (L1) با سخنرانان غیر بومی (L2) دیده نمی شود. این رویکرد چند به چند امکان سنتز لهجه بومی را در عین حفظ هویت گوینده فراهم می کند.
در یک مطالعه، روشی ترکیبی از فیلتر زمان-فرکانس و شبکههای متخاصم شرطی مبتنی بر CycleGAN [19] برای افزایش کیفیت درک شده از منابع جدا استفاده می شود. آهنگهای پیچ غالب با استفاده از یک الگوریتم تخمین زمین، با ماسکهای باینری تولید شده برای هر آهنگ و هارمونیکهای آن استخراج میشوند. یک شبکه مبتنی بر CycleGAN تصاویر طیفنگاری را برای بهبود کیفیت ادراکی اصلاح میکند و طیفنگار تقویتشده با استفاده از تبدیل فوریه معکوس کوتاهمدت به صدا بازسازی میشود.
اگرچه مدلهای یادگیری ماشینی قابلیتهای پیشبینی استثنایی را نشان میدهند، اما اغلب به دلیل ماهیت غیرشفاف خود مورد انتقاد قرار میگیرند که اغلب به عنوان «جعبههای سیاه» شناخته میشوند. [۲۰]. این عدم شفافیت چالشهای مهمی را در درک مکانیسمهای اساسی این مدلها و ارزیابی قابلیت اطمینان پیشبینیهای آنها ایجاد میکند. [۲۱]. تفسیرپذیری در یادگیری ماشینی به میزانی اشاره دارد که انسان ها می توانند فرآیندهای تصمیم گیری و رفتارهای این مدل های پیچیده را درک و بیان کنند. [۲۲]. هوش مصنوعی قابل توضیح (XAI) به عنوان راه حلی برای افزایش تفسیرپذیری مدل های یادگیری ماشین ظاهر شده است. از دو رویکرد اصلی استفاده میکند: توضیحپذیری ذاتی، که شامل طراحی مدلهای قابل تفسیر ذاتی است، و توضیحپذیری پسهک، که بینشهایی را درباره فرآیند تصمیمگیری پس از آموزش مدل ارائه میدهد. [۲۳].
برای بررسی عمیق تر در تفسیرپذیری شبکه های حافظه کوتاه مدت (LSTM)، یک مطالعه [۲۴] عملکرد آنها را با استفاده از مدلهای n-gram تجزیه و تحلیل کرد و دریافت که LSTMها در کارهایی که نیاز به استدلال دوربرد دارند برتری دارند. یک مطالعه دیگر [۲۵] یک چارچوب تفسیری جدید با الهام از اصول نظریه محاسباتی معرفی کرد. علاوه بر این، محققان در [۲۶] یک نوع قابل تفسیر از شبکههای عصبی بازگشتی (RNN) به نام SISTA-RNN را توسعه داد. این معماری مبتنی بر الگوریتم آستانه نرم تکراری متوالی است و از مفهوم آشکار شدن عمیق استفاده می کند. [۲۷]. علاوه بر این، یک شبکه عصبی کانولوشنال قابل توضیح جدید (XCNN) در پیشنهاد شد [۲۸] به عنوان یک چارچوب انتها به انتها با هدف افزایش تفسیرپذیری. تحقیق جداگانه [۲۹] استفاده از اطلاعات ریزدانه را برای توضیح تصمیمات اتخاذ شده توسط شبکههای رمزگذار-رمزگشا با استفاده از CNN و LSTM بررسی کرد.
مکانیسمهای توجه، که به عنوان بخشی از چارچوبهای یادگیری عمیق مدرن معرفی شدهاند، موضوع بحثهای جاری بودهاند. در حالی که برخی از مطالعات استدلال می کنند که وزن توجه می تواند به عنوان شاخص های قابل اعتماد اهمیت ویژگی عمل کند و توضیحات معناداری ارائه دهد. [۳۰]دیگران معتقدند که توزیع وزن توجه فاقد قابلیت تفسیر ذاتی است و برای بدست آوردن بینش نیاز به پردازش بیشتری دارد. [۳۰,۳۱]. برای پرداختن به این دیدگاه های متضاد، یک مطالعه [۳۲] تجزیه و تحلیل دستی مکانیسم های توجه را در وظایف مختلف پردازش زبان طبیعی (NLP) انجام داد. یافتهها نشان داد که وزنهای توجه واقعاً میتوانند قابل تفسیر باشند و با معیارهای اهمیت ویژگی که ویژگیهای زبانی را در بر میگیرند همبستگی دارند.
در انتقال سبک موسیقی، پیشرفتها در معماریهای عصبی، مانند شبکههای متخاصم مولد (GANs)، وظایف خاص دامنه مانند تشخیص و انطباق ساز را تسهیل کردهاند. [۳۳]. این روشها در مجموعههای دادهای مانند IRMAS اعمال شدهاند و پتانسیل آنها را برای تبدیل ویژگیهای موسیقی به طور موثر نشان میدهند. علیرغم این پیشرفتها، محدودیتهای وابستگی به دادههای موازی، محدودیتهای واژگان، و اتکا به خطوط لوله ویژگیهای پیچیده تا حد زیادی برطرف نشده است. هدف این کار پل زدن این شکاف ها با پیشنهاد یک چارچوب کاملاً متمایز و سرتاسر است که الزامات داده های موازی را حذف می کند، واژگان آگنوستیک است و مستقیماً بر روی ویژگی های صوتی عمل می کند.
چارچوب یادگیری سنتی دنباله به دنباله (seq2seq) یک دنباله منبع را در یک بردار با طول ثابت در یک مرحله رمزگذاری میکند، که اغلب توانایی آن را برای مدلسازی مؤثر مطابقت ساختاری بین دنبالههای منبع و هدف محدود میکند. برای پرداختن به این محدودیت، به جای تکیه بر مکانیزمهای توجه وزندار خطی، یک رویکرد مبتنی بر شبکه عصبی بازگشتی (RNN) با نام توالی به دنباله چرخهای (Cseq2seq) پیشنهاد شد. [۳۴]. مشاهدات کلیدی شامل موارد زیر است: (۱) Cseq2seq به طور موثر مکاتبات منبع-هدف را بدون نیاز به مکانیسم های توجه صریح می آموزد، و (۲) رمزگذار و رمزگشا می توانند پارامترهای RNN را بدون به خطر انداختن عملکرد به اشتراک بگذارند.
۳٫ روش ها
یک معماری مبتنی بر رمزگذار-رمزگشا، همراه با یک رمزگذار مرجع، برای بازسازی توالی ویژگی صوتی ورودی در طول مرحله آموزش و انجام تبدیل سبک صوتی با شرطی کردن دنباله صوتی منبع ورودی با تعبیههای سبک خاص هدف محاسبهشده از مرجع استفاده شد. رمزگذار در مرحله آزمایش یک طرح تنظیم دقیق مبتنی بر GAN شبیه به [۳۵] همچنین برای حذف هرگونه مصنوعات پر سر و صدا و بهبود طبیعی بودن صدای تولید شده استفاده شد. معماری شبکه برای روش در شکل ۱ نشان داده شده است و در زیر توضیح داده شده است.
۳٫۱٫ شبکه های رمزگذار/رمزگشا
این معماری دارای یک رویکرد ترکیبی است که لایههای کانولوشنیک یک بعدی (۱D) را با واحدهای خطی دروازهای (GLUs) ترکیب میکند. [۳۶] و شبکه های حافظه کوتاه مدت دو طرفه (LSTM). [37] برای ساخت اجزای رمزگذار و رمزگشا. لایه های کانولوشنال ۱ بعدی، که توسط GLU ها تقویت شده اند، در گرفتن روابط طیفی در توالی ویژگی های صوتی ورودی مفید هستند. LSTM های دو طرفه ویژگی های زمانی آن توالی های صوتی را مدل می کنند. با الهام از آثار اخیر [۳۸,۳۹]اتصالات باقیمانده و عادی سازی نمونه نیز در شبکه های رمزگذار و رمزگشا گنجانده شده است. این اجزاء به تثبیت فرآیند آموزش و تولید توالی های صوتی خروجی با وضوح بالا کمک می کنند.
۳٫۲٫ رمزگذار مرجع
برای حذف وابستگی واژگان آموزشی و نیاز به بازنمایی های آوایی متوسط، نویسندگان یک رمزگذار مرجع را به طور مشترک با شبکه های رمزگذار-رمزگشا آموزش داده اند. رمزگذار مرجع برای گرفتن جاسازیهای سبک خاص، جایی که هدف مربوط به یک بلندگو یا یک آلت موسیقی در مورد ما است، آموزش دیده است.
رمزگذار مرجع به گونه ای طراحی شده است که شبیه به شبکه رمزگذار باشد، با تفاوت اصلی استفاده از LSTM های یک طرفه به جای LSTM های دو طرفه. یک لایه ادغام میانگین جهانی نیز در بالای LSTM های یک طرفه اضافه شده است تا ویژگی های کلی سبک خاص را از صدای ورودی ضبط کند و در عین حال ویژگی های خاص آوایی محلی را نادیده بگیرد. لایه ادغام میانگین جهانی تضمین می کند که جاسازی های سبک آموخته شده مستقل از ویژگی های محلی مانند محتوای آوایی هستند.
قبل از آموزش رمزگذار مرجع به طور مشترک با شبکه رمزگذار-رمزگشا، ابتدا روی یک کار طبقه بندی ساده برای پیش بینی کلاس صوتی هدف از توالی ویژگی های صوتی ورودی، از قبل آموزش داده شده است. این پیشآموزش تضمین میکند که رمزگذار مرجع میتواند یک نگاشت از ویژگیهای سبک کلی توالی صوتی ورودی به یک بردار طول ثابت را بیاموزد، که ما آن را به عنوان تعبیههای سبک صوتی نشان میدهیم. سپس این تعبیههای سبک با آموزش مشترک رمزگذار مرجع با شبکههای رمزگذار-رمزگشا، دقیقتر تنظیم میشوند. این تعبیههای سبک خاص هدف، شرطیسازی جهانی را فراهم میکنند و به تبدیل صدا از منبع به کلاس هدف کمک میکنند.
۳٫۳٫ فرآیند آموزش
در طول فرآیند آموزش، نویسندگان از ویژگیهای صوتی صدای حقیقت زمین، بهویژه ضرایب فرکانس Mel-Cepstral (MFCCs) و طیفنگارهای Mel، به عنوان ورودی به شبکههای رمزگذار و رمزگذار مرجع استفاده کردند. رمزگذار مرجع برای فشرده سازی این ویژگی های صوتی ورودی در یک نمایش برداری با طول ثابت طراحی شده است که به عنوان تعبیه سبک شناخته می شود. این تعبیههای سبک ویژگیهای سبکی صدا را به تصویر میکشند و متعاقباً با نمایش پنهان تولید شده توسط شبکه رمزگذار مرتبط میشوند. سپس این نمایش ترکیبی به رمزگشا وارد میشود، که ویژگیهای صوتی ورودی مربوط به دنباله صوتی اصلی را بازسازی میکند و اطمینان میدهد که جزئیات سبک و زمانی به طور موثر حفظ میشوند.
ما از ترکیبی از میانگین خطای مطلق (MAE) و ضریب همبستگی پیرسون استفاده می کنیم
ryy“ به عنوان تابع تلفات بازسازی ما همانطور که در (۱) آورده شده است. اینجا
ryy“ به عنوان ضریب همبستگی پیرسون بین خروجی پیش بینی شده تعریف می شود
yو حقیقت زمین
yبه صورت زیر محاسبه می شود:
کجا آن ها(y،y') نشان دهنده کوواریانس بین است y و y“، و صy و صy“ انحراف استاندارد مربوطه خود را نشان می دهد. ارزش از ryy“ از ۱- تا ۱ متغیر است که ۱ نشان دهنده همبستگی مثبت کامل است. برای به حداکثر رساندن ryy“ما منفی مقدار آن را در تابع ضرر به حداقل می رسانیم.
۳٫۴٫ تمایز دهنده پنهان
یک طرح آموزشی خصمانه مبتنی بر تمایز پنهان استفاده میشود تا اطمینان حاصل شود که رمزگذار بازنماییهای نهفته مستقل از کلاس هدف را میآموزد. یک طبقهبندی کمکی به عنوان تمایزکننده عمل میکند و وظیفه پیشبینی کلاس هدف را بر عهده دارد
ج از نمایش کدگذاری شده
ز از یک گفته صوتی ورودی ضرر متمایز کننده به شرح زیر تعریف می شود:
کجا پ(y|enc(x)) احتمال پیش بینی شده کلاس هدف را نشان می دهد y با توجه به رمزگذاری از xو E نشان دهنده انتظار بیش از توزیع پنهان است ص(enc(x)). در مقابل، رمزگذار برای به حداکثر رساندن عدم قطعیت تمایز کننده، با ضرر رمزگذار به صورت زیر آموزش داده شده است:
این فعل و انفعال متقابل خصمانه تضمین میکند که نمایشهای کدگذاری شده در کلاس ثابت هستند و تبدیلهای صوتی مؤثری را ممکن میسازد که ویژگیهای مستقل از هدف را حفظ میکنند. اینجا ب یک فراپارامتر است که وزن نسبی عبارت ضرر خصمانه را در تابع ضرر کلی رمزگذار کنترل می کند. تنظیم کردن ب کمک می کند تا تمرکز رمزگذار بر جدا کردن ویژگی های خاص هدف را متعادل کند و در عین حال یادگیری بازنمایی مؤثر را حفظ کند.
نویسندگان تمایز پنهان را با استفاده از یک بانک از لایههای کانولوشنال دردار به همراه عادیسازی نمونه و لایههای حذف ابداع کردند. تمایز کننده نمایش های نهفته رمزگذاری شده یک توالی ویژگی صوتی را به عنوان ورودی می گیرد و توزیع احتمال را در کلاس هدف پیش بینی می کند. این طرح آموزش خصمانه مبتنی بر تمایز پنهان، ضروری است زیرا نظم بخشی را بر نمایش های پنهان کدگذاری شده اعمال می کند و تضمین می کند که بازنمایی های آموخته شده مستقل از کلاس هدف هستند.
۳٫۵٫ تنظیم دقیق مبتنی بر WGAN
یک طرح تنظیم دقیق مبتنی بر دشمن نیز برای حذف هرگونه مصنوعات پر سر و صدا و جلوه های صوتی وزوز موجود در صدای تولید شده و بهبود طبیعی بودن آن اعمال می شود. با توجه به چالشهای شناخته شده مرتبط با آموزش شبکههای متخاصم مولد (GAN)، نویسندگان یک نوع پایدارتر، Wasserstein GAN با گرادیان پنالتی (WGAN-GP) را اتخاذ کردند. [۴۰]. این رویکرد نه تنها برای آموزش آسان تر است، بلکه رفتار همگرایی بهبود یافته ای را نیز نشان می دهد. در چارچوب پیشنهادی، رمزگشا به عنوان مولد تحت این استراتژی تنظیم دقیق عمل می کند. برای متمایزکننده، ما شبکهای را طراحی میکنیم که شامل یک سری لایههای دوبعدی (۲ بعدی) است که آن را قادر میسازد بین توالی ویژگیهای آکوستیک واقعی و آنهایی که توسط مدل سنتز شدهاند تمایز قائل شود. تفکیک کننده یک مقدار اسکالر را خروجی می دهد که “واقعیت” یک توالی ویژگی ورودی را نشان می دهد. x; یک مقدار اسکالر بالاتر نشان دهنده احتمال بالاتر آن است x واقعی است.
تمایزگر آموزش دیده است تا با شناسایی صحیح توالی ویژگی های واقعی و تولید شده، ضرر دشمن را به حداکثر برساند. برعکس، ژنراتور (رمزگشا) برای فریب متمایزکننده با به حداقل رساندن ترکیبی از ضرر و زیان بازسازی بهینه شده است. این تنظیم دو هدفه تضمین میکند که ژنراتور نه تنها ویژگیهای آکوستیک واقعی را تولید میکند، بلکه وفاداری ورودی اصلی را نیز حفظ میکند و تبدیل صوتی با کیفیت بالا را تسهیل میکند.
۳٫۶٫ فرآیند تبدیل
در طول مرحله استنتاج، تبدیل صدا را می توان با تغذیه ویژگی های صوتی صدای هدف که سبک آن باید به عنوان ورودی به رمزگذار مرجع منتقل شود، در حالی که ویژگی های صوتی منبع صوتی را به عنوان ورودی به رمزگذار پایه تغذیه می کند، به دست آورد. خروجی از رمزگشا، دنباله صوتی تبدیل شده با ویژگی های آوایی محلی محلی از صدای منبع و ویژگی های خاص سبک جهانی از صدای هدف است.
۵٫ نتایج و بحث
در جدول ۲، ارزیابی های ذهنی (MOS) تمام خطوط پایه و روش پیشنهادی برای هر دو کار گزارش شده است. برای ارزیابی کیفیت صدا، میانگین امتیاز نظر (MOS) با پیروی از یک روش استاندارد محاسبه میشود. ارزیابهای انسانی صدای تولید شده توسط روش و مدلهای پایه ما را در مقیاس عددی ۵ درجهای رتبهبندی میکنند، که در آن ۱ مربوط به “بد”، ۲ به “ضعیف”، ۳ به “عادلانه”، ۴ به “خوب” و ۵ به “است. “عالی” هر یک از نمونه های صوتی از آزمایش ها توسط ۵ ارزیاب انسانی با شنوایی طبیعی ارزیابی شد.
این نتایج نشان میدهد که روش پیشنهادی نتایج بهتری نسبت به هفت سیستم برای تبدیلهای صوتی با هدف قرار دادن هویتهای دیدهشده قبلی ارائه میدهد و عملکرد رقابتی را با یک سیستم در هر دو هویت هدف دیده شده و نادیده به دست میآورد. خطوط پایه مبتنی بر سیستم تشخیص خودکار گفتار میانی (ASR) دارای اشکالات قابل توجهی هستند. به طور خاص، وابستگی آن به رونویسی های آوایی، قابلیت حمل به مجموعه داده های جدید را محدود می کند، زیرا به دست آوردن چنین رونویسی هایی نیاز به منابع دارد. روش پیشنهادی تنها بر ویژگیهای صوتی قابل استخراج است که به راحتی قابل استخراج است، و آن را با هر تبدیل مجموعه داده بدون نیاز به سیستمهای ASR میانی سازگار میسازد.
این رویکرد ویژگی های آوایی اساسی و همچنین تفاوت های ظریف هویتی خاص گویندگان یا سازها را در بر می گیرد. این مدل را قادر میسازد تا این ویژگیها را برای کلمات نادیده، آهنگها، بلندگوهای هدف یا آلات موسیقی با حداقل کاهش کیفیت صدا اعمال کند. این انعطاف پذیری استحکام روش ما را در مقایسه با سیستم های معمولی برجسته می کند. علاوه بر ارزیابیهای ذهنی MOS، ما یک تحلیل بصری از خروجیها را در شکل ۲ ارائه میکنیم، جایی که نمونههایی از طیفهای تولید شده توسط رویکرد ما نشان داده شدهاند.
این یک تجزیه و تحلیل بصری از تبدیلهای صوتی بهدستآمده با روش پیشنهادی را ارائه میدهد و نمودارهای MFCC و طیفنگاری را برای صدای منبع، صدای هدف و صدای تولید شده به نمایش میگذارد. نمودارهای MFCC نشان می دهد که چگونه مدل پوشش طیفی صدای منبع را ضبط می کند در حالی که به طور مؤثر آن را برای مطابقت با ویژگی های سبکی صدای هدف تطبیق می دهد. این امر بهویژه در طیفنگارهای تبدیلشده مشهود است، جایی که ساختارهای هارمونیک و توزیعهای انرژی با صدای هدف همسو میشوند و در عین حال ویژگیهای آوایی کلیدی را از منبع حفظ میکنند.
برای اعتبار بیشتر بازنمایی های کدگذاری شده توسط رمزگذار مرجع، جاسازی های سبک آموخته شده برای تبدیل صدا و وظایف انتقال سبک موسیقی مورد تجزیه و تحلیل قرار گرفته است. این تعبیهها، که در شکل ۳ نشان داده شدهاند، توانایی رمزگذار را برای حفظ ویژگیهای مرتبط با هویت در سناریوهای مختلف تبدیل صوتی برجسته میکنند. جاسازیهای سبک با استفاده از الگوریتم t-SNE با گیجی = ۳۰ و تعداد تکرارها = ۳۰۰ تجسم میشوند. نمودارهای t-SNE نشان میدهند که رمزگذار مرجع میتواند صداهای متعلق به همان کلاسهای هویت هدف را با هم خوشهبندی کند، بنابراین تأیید میکند که رمزگذار مرجع می تواند ویژگی های کلی سبک خاص و هویت هدف را رمزگذاری کند.
شکل ۴ MOS برای طبیعی بودن را نشان میدهد، که برای هر دو سخنران دیده شده و نادیده محاسبه شده است تا روش ما را بر روی تغییرات صوتی بین ملیتی و بین جنسیتی ارزیابی کند. نتایج نشان می دهد که روش پیشنهادی قادر به تولید گفتار قابل فهم و طبیعی در سراسر جنسیت و همچنین ملیت است. در حالی که این نتایج نشاندهنده استحکام روش در تولید خروجیهای صدای طبیعی است، مهم است که توجه داشته باشیم که تمرکز اصلی این کار بر روی تبدیل صدای آوازی به جای سنتز کلی گفتار است.
قابل فهم بودن و طبیعی بودن صدای تبدیل شده به عنوان شاهدی بر اثربخشی مدل در حفظ تفاوت های ظریف سبکی و آوایی ضروری برای تبدیل صدای با کیفیت بالا است. این یافتهها مناسب بودن چارچوب را برای برنامههایی که نیاز به تغییرات ظریف در ویژگیهای صوتی دارند، در حالی که کیفیت کلی صدا را حفظ میکنند، تقویت میکند.
در نهایت، برای اطمینان از اینکه نمایشهای نهفته از رمزگذار مستقل از هویت هدف پس از آموزش خصمانه مبتنی بر تمایز پنهان هستند، نویسندگان یک سیستم تأیید کلاس هدف را آموزش میدهند که نمایشهای پنهان را از رمزگذار به عنوان ورودی برای پیشبینی هویت کلاس هدف میگیرد. . دقت راستیآزمایی برای هر دو کار با و بدون آموزش خصمانه پنهان در جدول ۳ گزارش شده است. دقت تأیید صحت پس از آموزش خصمانه مبتنی بر تمایز پنهان تأیید میکند که رمزگذار قادر به یادگیری بازنماییهای نهفته است که مستقل از هویت هدف هستند. .
در حالی که روش پیشنهادی وابستگی به دادههای موازی و ترازهای آوایی را حذف میکند، برای دستیابی به عملکرد بهینه بر استخراج ویژگی صوتی با کیفیت بالا (مثلاً طیفنگارهای MFCC و Mel) متکی است. علاوه بر این، مرحله آموزش خصمانه، در حالی که استحکام را افزایش می دهد، سربار محاسباتی را معرفی می کند، که ممکن است کاربرد چارچوب را در سناریوهای بلادرنگ محدود کند.
اتکای روش به بازسازی Griffin-Lim برای سنتز صدا، اگرچه موثر است، اما مصنوعات گاه به گاه را معرفی می کند که در موارد خاص بر طبیعی بودن صدای تبدیل شده تأثیر می گذارد. علاوه بر این، در حالی که با سیستمهای مبتنی بر ASR رقابت میکند، کیفیت رویکرد پیشنهادی در برخی از سناریوهای هدف غیرقابل مشاهده کمی عقبتر است، که بر چالشها در تعمیم مجموعههای داده بسیار متنوع تاکید میکند.
این مدل ویژگیهای آکوستیک مانند MFCC و طیفنگارهای Mel را پردازش میکند تا ویژگیهای آوایی ضروری مانند فرمانتها و هارمونیکها را به تصویر بکشد. پیشرفتهای آینده ممکن است شامل استفاده از معیارهایی مانند Mel Cepstral Distortion برای اندازهگیری فاصله طیفی بین صدای اصلی و تبدیلشده باشد، که نشان میدهد چگونه ساختارهای آوایی به خوبی حفظ شدهاند. [۴۵]. این مدل ویژگیهای صوتی خاص بلندگو یا کیفیت آهنگهای خاص ابزار را در جاسازیهایی با ابعاد ثابت رمزگذاری میکند، که میتواند با استفاده از معیارهایی مانند دقت تأیید بلندگو ارزیابی شود تا اطمینان حاصل شود که صدای تولید شده هویت هدف را حفظ میکند. [۴۶].
این چارچوب تعمیم فراتر از دادههای آموزشی را با تولید صدا برای سناریوهای دیده نشده – مانند بلندگوهای جدید – بدون به خطر انداختن سبک یا درک، نشان میدهد. معیارهایی مانند نرخ خطای رونویسی آوایی میتواند میزان دقت صدای تبدیلشده را با محتوای آوایی مورد نظر ارزیابی کند. [۴۷]. این مدل دگرگونیهای صوتی را با طبیعی بودن و وفاداری بالا تولید میکند و اطمینان میدهد که خروجی واقعی به نظر میرسد. نسبت سیگنال به نویز می تواند وضوح صدای تبدیل شده را با مقایسه قدرت سیگنال با نویز پس زمینه کمیت کند. پیشرفتهای آینده میتوانند از این معیارها برای افزایش ارزیابیهای عینی و اصلاح عملکرد مدل استفاده کنند.
هوش مصنوعی قابل توضیح (ExAI) در پردازش زبان طبیعی (NLP) عمدتاً بر رمزگشایی مکانیسمهای داخلی مدلهای زیربنایی بهجای ارائه بینشی در مورد خروجیهای طبقهبندی خاص تأکید دارد. یک بررسی جامع [۴۸] پیشرفت را در جنبههای مختلف تفسیرپذیری، از جمله رفتار جاسازیهای کلمه، دینامیک داخلی RNN و ترانسفورماتورها، منطق پشت تصمیمهای مدل، و مجموعهای از تکنیکهای بصری به کار گرفته شده، تثبیت میکند. این بررسی همچنین بر ماهیت به هم پیوسته این روشهای تفسیرپذیر تأکید میکند، و چگونگی تکمیل و ایجاد آنها بر یکدیگر را روشن میکند.
در میان معماریهای NLP، شبکههای حافظه کوتاهمدت (LSTM) و شبکههای عصبی کانولوشنال (CNN) به دلیل عملکرد ساختاریافته و فرآیندهای استخراج ویژگی شفاف، قابلیت تفسیر ذاتی نسبتاً بالاتری را نشان میدهند. با این حال، مدلهای مبتنی بر توجه، علیرغم اثربخشی، به تحلیل دقیقتر و هدفمندتری برای دستیابی به شفافیت کامل نیاز دارند. این امر مستلزم توسعه تکنیکهای پیشرفته برای روشن کردن چگونگی اولویتبندی این مدلها و وزن دادن به ورودیهای مختلف در طول تصمیمگیری است.
۶٫ نتیجه گیری
چارچوب تبدیل صوتی کاملاً متمایز و سرتاسر پیشنهادی چندین پیامد و فرصتهای تأثیرگذار را برای تحقیقات آینده و کاربردهای عملی ارائه میکند. این رویکرد با حذف نیاز به دادههای موازی و همتراز با زمان و نمایشهای آوایی میانی، بار جمعآوری دادهها را کاهش میدهد و مقیاسپذیری را در میان مجموعه دادهها و زبانهای مختلف بهبود میبخشد. طراحی واژگانی-آگنوستیک آن، تطبیق پذیری آن را بیشتر افزایش می دهد و تغییرات صوتی را برای بلندگوها، آلات موسیقی و سبک هایی که قبلا دیده نشده بودند، ممکن می سازد.
بهینهسازی چارچوب برای تأخیر کمتر و کارایی محاسباتی میتواند کاربردهای بلادرنگ، مانند مدولاسیون صدای زنده یا ابزارهای بداهه نوازی موسیقی را تسهیل کند. علاوه بر این، تنظیم دقیق مدل برای حوزه های تخصصی مانند مراقبت های بهداشتی یا آموزش (به عنوان مثال، تبدیل لهجه برای زبان آموزان) می تواند کاربرد آن را گسترش دهد. با این حال، نگرانی های اخلاقی، مانند سوء استفاده احتمالی از تبدیل صدا برای جعل هویت یا انتشار اطلاعات نادرست، باید به طور سیستماتیک مورد توجه قرار گیرد.
چارچوب ارزیابی به کار گرفته شده در این مطالعه، معیارهای عینی را با بینش های ذهنی ترکیب کرد و تشخیص داد که جنبه های کیفیت صدا تحت تأثیر ادراک انسان است. ارزیابیهای آتی باید شامل تجزیه و تحلیلهای آماری دقیق از رتبهبندیهای ذهنی – مانند انحراف معیار، محدوده بین چارکی، یا فواصل اطمینان – باشد تا تنوع و سازگاری در نظرات ارزیابها را کمیتر کند.
این امر درک واضحتری از ارزیابیهای ذهنی ارائه میکند و استحکام نتایج را تقویت میکند. معیارهای اضافی، مانند نرخ توافق شنوندگان یا تفکیک امتیازات بر اساس گروههای جمعیتی، میتوانند اعتبار مدل را در زمینههای مختلف اعتبار بیشتری دهند.
منبع: https://www.mdpi.com/2673-2688/6/1/16