یک رویکرد متفاوت برای تبدیل صدا و انتقال سبک موسیقی

۱٫ مقدمه

تبدیل صوتی به تبدیل تغییرات نحوی، صوتی و معنایی یک صوتی به دیگری می پردازد. این شامل برنامه های متعددی مانند تبدیل صدا، انتقال صدا، شکل دهی بلندگو، تبدیل احساسات و غیره است. [۱]. یکی از کاربردی ترین کاربردهای تبدیل صدا، تبدیل صدا (VC) است. تبدیل صدا با تبدیل ویژگی‌های فرازبانی منبع صوتی با هدف و در عین حال حفظ ویژگی‌های زبانی سروکار دارد. بسیاری از رویکردها برای VC در طول سال ها توسعه یافته اند.
بیشتر رویکردهای اولیه VC بر روش‌های آماری مبتنی بر مدل‌های مخلوط گاوسی (GMMs) برای تبدیل صدا از منبع به بلندگوی هدف متمرکز شده‌اند. [۲,۳]. همچنین با شبکه‌های عصبی عمیق پیش‌خور نزدیک شده است [۴] و یک چارچوب مبتنی بر نمونه با استفاده از فاکتورسازی ماتریس غیر منفی [۵,۶]. علیرغم تولید نتایج خوب، این رویکردها اغلب از خطوط لوله ویژگی پیچیده متشکل از ویژگی‌های خاص دامنه استفاده می‌کنند و به داده‌های گفتاری منبع و هدف هم‌تراز با زمان موازی نیاز دارند، که جمع‌آوری آنها دشوار و پرهزینه است.
اخیراً رویکردهایی وجود داشته است، مانند مواردی که در آن ذکر شد [۷,۸,۹]که با استفاده از یک برچسب مشخصه همراه با ویژگی های صوتی برای انجام شرطی سازی محلی برای تبدیل یک ویژگی گفتار منبع (مثلاً هویت گوینده) به ویژگی های هدف، بر نیاز به داده های موازی تراز زمانی غلبه می کنند. به طور کلی، اگرچه کیفیت صدای تبدیل شده به‌دست‌آمده با روش‌های غیر موازی معمولاً در مقایسه با صوتی به‌دست‌آمده از روش‌های آماری با استفاده از داده‌های موازی محدود است، اما اینها می‌توانند نیاز به داده‌های موازی را که دستیابی به آنها پرهزینه است، برطرف کند. با این حال، این رویکردها هنوز از محدودیت آموزش وابسته به واژگان رنج می برند. به دلیل استفاده از مکانیسم‌های شرطی‌سازی محلی، این رویکردها فقط می‌توانند صدا را به گوینده هدفی تبدیل کنند که در مرحله آموزش حضور داشت.
تلاش هایی مانند مواردی که در آن ذکر شد وجود داشته است [۱۰,۱۱] که بر محدودیت فوق غلبه کرده و تبدیل صدا را برای هر بلندگوی دلخواه انجام می دهد. این رویکردها از سیستم‌های تشخیص گفتار خودکار (ASR) برای تبدیل گفتار منبع ورودی به نمایش‌های آوایی میانی استفاده می‌کنند، که بیشتر به عنوان گفتار هدف خروجی با استفاده از سیستم‌های متن به گفتار سنتز می‌شوند. اگرچه این سیستم‌ها می‌توانند تبدیل صدای هر یک به هر شخصی را انجام دهند، اما دارای معایبی هستند، از جمله اینکه عملکرد چنین روش‌هایی به شدت به دقت سیستم ASR مورد استفاده بستگی دارد. ثانیاً، این رویکردها برای آموزش یا تنظیم دقیق سیستم ASR مورد استفاده، به رونویسی‌های آوایی میانی متکی هستند، که معمولاً به سختی به دست می‌آیند، بنابراین قابلیت حمل این سیستم‌ها به زبان‌ها یا مجموعه داده‌های جدیدتر را کاهش می‌دهند. [۱۲]. در نهایت، این سیستم ها در درجه اول فقط برای استفاده از تبدیل صدا قابل استفاده هستند.

این مقاله به دنبال پرداختن به برخی از محدودیت های برجسته شده در مطالعات فوق است. رویکرد ما هنگام استفاده از واژگان آموزشی قوی است، و بدون تکیه بر نمایش‌های آوایی میانی یا سیستم‌های تشخیص خودکار گفتار (ASR) تبدیل‌های صوتی یک‌شات را ممکن می‌سازد. روش ما با عملکرد مستقیم بر روی ویژگی‌های صوتی مانند طیف‌نگارها یا ضرایب سپسترال فرکانس مل (MFCCs)، نیاز به خطوط لوله مهندسی ویژگی‌های پیچیده خاص دامنه را دور می‌زند. ما اثربخشی رویکرد خود را بر روی دو وظیفه چالش برانگیز ارزیابی می کنیم: (الف) تبدیل صدا و (ب) انتقال سبک موسیقی. نتایج ما با سه روش موجود مقایسه می‌شوند و کارایی و تطبیق پذیری راه‌حل پیشنهادی ما را نشان می‌دهند. این مقاله یک چارچوب تبدیل صوتی جدید، کاملاً متمایز و سرتاسر با مشارکت‌های کلیدی زیر را معرفی می‌کند:

  • چارچوب واژگان-آگنوستیک: بر خلاف روش‌های سنتی، رویکرد ما هنگام استفاده از واژگان آموزشی قوی است و تبدیل‌های صوتی یکباره را برای بلندگوها یا آلات موسیقی غیرقابل مشاهده می‌سازد.

  • حذف نمایش‌های آوایی و وابستگی ASR: با دور زدن نیاز به بازنمایی‌های آوایی میانی یا سیستم‌های تشخیص خودکار گفتار (ASR)، روش ما تعمیم‌پذیری را بهبود می‌بخشد و اتکا به فرآیندهای فشرده منابع را کاهش می‌دهد.

  • مهندسی ویژگی ساده: با استفاده مستقیم از ویژگی‌های صوتی مانند طیف‌نگارها و MFCC، رویکرد ما از خطوط لوله ویژگی‌های پیچیده و خاص دامنه اجتناب می‌کند و آن را در میان مجموعه‌های داده و وظایف سازگار می‌سازد.

این کار می‌تواند برنامه‌هایی را پیدا کند که در آن تبدیل صوتی برای همه قابل دسترسی باشد. مانند تبدیل صدا، روش پیشنهادی امکان تغییرات آسان صدا را بدون نیاز به مجموعه داده‌های خاص یا ترازهای پیچیده فراهم می‌کند، که معمولاً به‌دست آوردن و استفاده از آنها دشوار است. این امر به عنوان مثال، ایجاد دستیارهای صوتی شخصی، دوبله فیلم ها و ابزارهایی را برای افراد دارای مشکلات گفتاری تسهیل می کند. در موسیقی، روش پیشنهادی به تغییر سبک آهنگ‌ها کمک می‌کند و به نوازندگان و تهیه‌کنندگان اجازه می‌دهد تا ژانرهای جدید و ایده‌های خلاقانه را تجربه کنند. همچنین، این می تواند در صنعت سرگرمی کاربرد پیدا کند، یعنی در ایجاد بازی های ویدیویی و محیط های مجازی با تغییرات صدا و صدای بهتر، واقعی تر به نظر برسد. با حذف نیاز به ابزارهای تخصصی، روش پیشنهادی می‌تواند با در دسترس‌تر کردن و شخصی‌سازی فناوری‌های صوتی، به بهبود تجربه کاربر منجر شود.

۲٫ آثار مرتبط

یک چارچوب انعطاف پذیر برای تبدیل طیفی (SC) پیشنهاد شد [۸] برای رسیدگی به محدودیت های نیاز به گروه های هم تراز برای آموزش. چارچوب‌های سنتی SC اغلب بر پیکره‌های موازی، ترازهای آوایی، یا مکاتبات صریح قاب برای یادگیری توابع تبدیل یا ترکیب طیف‌های هدف متکی هستند. با این حال، این وابستگی ها به طور قابل توجهی عملی بودن برنامه های کاربردی SC را به دلیل در دسترس بودن محدود بدنه های موازی محدود می کنند. برای غلبه بر این، چارچوب پیشنهادی از یک رمزگذار خودکار متغیر (VAE) برای فعال کردن آموزش با اجسام غیر موازی استفاده می‌کند. این چارچوب دارای یک رمزگذار برای استخراج بازنمایی‌های آوایی مستقل از بلندگو و یک رمزگشا برای بازسازی صدای گوینده تعیین‌شده است که نیاز به پیکره‌های موازی یا هم‌ترازی‌های آوایی را از بین می‌برد.
یکی از تحقیقات [۱۰] بر روی دستیابی به تبدیل صدا (VC) در بلندگوهای دلخواه، که به عنوان VC هر به هر VC نامیده می‌شد، تنها با استفاده از یک گفتار گوینده هدف تمرکز می‌کند. دو سیستم بررسی شده است: (۱) سیستم VC مبتنی بر بردار i (IVC) و (۲) سیستم VC مبتنی بر رمزگذار بلندگو (SEVC). هر دو رویکرد از گرم های پسین آوایی به عنوان ویژگی های زبانی مستقل از گوینده استخراج شده از نمونه های گفتاری استفاده می کنند. یک مدل حافظه کوتاه مدت دو جهته عمیق چند بلندگو (DBLSTM) در هر دو سیستم برای اجرای VC آموزش داده شده است، با ورودی های اضافی که هویت های بلندگو را رمزگذاری می کند. در سیستم IVC، هویت بلندگو برای یک بلندگوی هدف جدید با استفاده از i-vectors نشان داده می‌شود، در حالی که در سیستم SEVC، با تعبیه‌های بلندگو پیش‌بینی شده توسط یک مدل آموزش‌دیده جداگانه نشان داده می‌شود. نتایج تجربی کارآمدی هر دو سیستم را در فعال کردن VC به هر VC با بیان تک تک گوینده هدف نشان می‌دهد، با سیستم IVC از سیستم SEVC از نظر کیفیت گفتار و شباهت به صدای واقعی گوینده هدف.
تحقیقات قبلی [۱۳] همچنین استفاده از ساختارهای شبه بازگشتی، مانند مکانیسم‌های توجه به خود و شبکه‌های عصبی شبه بازگشتی، برای طراحی مدل‌های صوتی کارآمد متن به گفتار (TTS) را بررسی کرده است. این مدل‌ها پیشرفت‌های قابل‌توجهی را نشان دادند و به سرعت سنتز ۱۱.۲ برابر در CPU و ۳.۳ برابر در GPU در مقایسه با مدل‌های پایه تکراری سنتی دست یافتند. با وجود این پیشرفت‌ها در سرعت، کیفیت گفتار مصنوعی در سطوحی قابل مقایسه با مدل‌های تکراری اصلی حفظ شد و این رویکرد را با سیستم‌های ترکیبی پارامتریک گفتار آماری مبتنی بر صداگذار پیشرفته رقابتی کرد. علاوه بر این، یک مطالعه دیگر [۱۴] یک شبکه عصبی کاملاً انتها به انتها را معرفی کرد که قادر به یادگیری ترجمه طیف‌نگارهای گفتاری به طیف‌نگارهای هدف یک زبان دیگر است و به طور مؤثر محتوا را بین زبان‌ها با صدای متعارف منسجم نقشه‌برداری می‌کند. این پیشرفت به چالش ترجمه گفتار به گفتار (S2ST) می پردازد، زمینه ای حیاتی برای از بین بردن موانع زبانی و تقویت ارتباط بین افرادی که زبان مشترکی ندارند.
پیشرفت‌های اخیر در سیستم‌های تبدیل صدا عمدتاً بر اصلاح پارامترهای طیفی، مانند پوشش طیفی متمرکز شده‌اند. رویکردی از [۱۵] این را با ترکیب ویژگی‌های عروضی، به‌ویژه مدل‌سازی موجک کانتور F0، برای افزایش کیفیت و طبیعی بودن صدا گسترش می‌دهد. تبدیل لهجه (AC) لهجه یک گوینده غیر بومی را تغییر می دهد تا شبیه لهجه بومی باشد و در عین حال صدای صوتی آنها را حفظ می کند. یک تحقیق دیگر [۱۶] قابلیت اجرا و کیفیت AC را با استفاده از یک سیستم متن به گفتار سرتاسر آموزش‌دیده بر روی گفتار بومی برای تولید مراجع بومی افزایش می‌دهد و نیاز به گفتار مرجع در طول تبدیل را از بین می‌برد. این سیستم از رمزگذارهای مرجع برای ادغام اطلاعات چند منبعی استفاده می‌کند، و ویژگی‌های صوتی منابع بومی و داده‌های زبانی را با گرم‌های پسین آوایی معمولی (PPGs) ترکیب می‌کند.
محققین [۱۷] یک الگوریتم Sparse Anchor-based Representation (SABR) برای انتخاب نمونه در تبدیل صدای بومی به غیر بومی (VC) معرفی می کند. با استفاده از برچسب‌های واجی و خوشه‌بندی، الگوریتم به هم‌ترازی زمانی ضعیفی که معمولاً در چنین تبدیل‌هایی یافت می‌شود، می‌پردازد. تبدیل لهجه خارجی (FAC) به طور سنتی بر گفته های مرجع بومی یا سیستم های خاص سخنران متکی است و مقیاس پذیری را محدود می کند. برای غلبه بر این محدودیت ها، یک سیستم FAC جدید [۱۸] بدون نیاز به ارجاعات بومی (L1) با سخنرانان غیر بومی (L2) دیده نمی شود. این رویکرد چند به چند امکان سنتز لهجه بومی را در عین حفظ هویت گوینده فراهم می کند.
در یک مطالعه، روشی ترکیبی از فیلتر زمان-فرکانس و شبکه‌های متخاصم شرطی مبتنی بر CycleGAN [19] برای افزایش کیفیت درک شده از منابع جدا استفاده می شود. آهنگ‌های پیچ غالب با استفاده از یک الگوریتم تخمین زمین، با ماسک‌های باینری تولید شده برای هر آهنگ و هارمونیک‌های آن استخراج می‌شوند. یک شبکه مبتنی بر CycleGAN تصاویر طیف‌نگاری را برای بهبود کیفیت ادراکی اصلاح می‌کند و طیف‌نگار تقویت‌شده با استفاده از تبدیل فوریه معکوس کوتاه‌مدت به صدا بازسازی می‌شود.
اگرچه مدل‌های یادگیری ماشینی قابلیت‌های پیش‌بینی استثنایی را نشان می‌دهند، اما اغلب به دلیل ماهیت غیرشفاف خود مورد انتقاد قرار می‌گیرند که اغلب به عنوان «جعبه‌های سیاه» شناخته می‌شوند. [۲۰]. این عدم شفافیت چالش‌های مهمی را در درک مکانیسم‌های اساسی این مدل‌ها و ارزیابی قابلیت اطمینان پیش‌بینی‌های آن‌ها ایجاد می‌کند. [۲۱]. تفسیرپذیری در یادگیری ماشینی به میزانی اشاره دارد که انسان ها می توانند فرآیندهای تصمیم گیری و رفتارهای این مدل های پیچیده را درک و بیان کنند. [۲۲]. هوش مصنوعی قابل توضیح (XAI) به عنوان راه حلی برای افزایش تفسیرپذیری مدل های یادگیری ماشین ظاهر شده است. از دو رویکرد اصلی استفاده می‌کند: توضیح‌پذیری ذاتی، که شامل طراحی مدل‌های قابل تفسیر ذاتی است، و توضیح‌پذیری پس‌هک، که بینش‌هایی را درباره فرآیند تصمیم‌گیری پس از آموزش مدل ارائه می‌دهد. [۲۳].
برای بررسی عمیق تر در تفسیرپذیری شبکه های حافظه کوتاه مدت (LSTM)، یک مطالعه [۲۴] عملکرد آنها را با استفاده از مدل‌های n-gram تجزیه و تحلیل کرد و دریافت که LSTMها در کارهایی که نیاز به استدلال دوربرد دارند برتری دارند. یک مطالعه دیگر [۲۵] یک چارچوب تفسیری جدید با الهام از اصول نظریه محاسباتی معرفی کرد. علاوه بر این، محققان در [۲۶] یک نوع قابل تفسیر از شبکه‌های عصبی بازگشتی (RNN) به نام SISTA-RNN را توسعه داد. این معماری مبتنی بر الگوریتم آستانه نرم تکراری متوالی است و از مفهوم آشکار شدن عمیق استفاده می کند. [۲۷]. علاوه بر این، یک شبکه عصبی کانولوشنال قابل توضیح جدید (XCNN) در پیشنهاد شد [۲۸] به عنوان یک چارچوب انتها به انتها با هدف افزایش تفسیرپذیری. تحقیق جداگانه [۲۹] استفاده از اطلاعات ریزدانه را برای توضیح تصمیمات اتخاذ شده توسط شبکه‌های رمزگذار-رمزگشا با استفاده از CNN و LSTM بررسی کرد.
مکانیسم‌های توجه، که به عنوان بخشی از چارچوب‌های یادگیری عمیق مدرن معرفی شده‌اند، موضوع بحث‌های جاری بوده‌اند. در حالی که برخی از مطالعات استدلال می کنند که وزن توجه می تواند به عنوان شاخص های قابل اعتماد اهمیت ویژگی عمل کند و توضیحات معناداری ارائه دهد. [۳۰]دیگران معتقدند که توزیع وزن توجه فاقد قابلیت تفسیر ذاتی است و برای بدست آوردن بینش نیاز به پردازش بیشتری دارد. [۳۰,۳۱]. برای پرداختن به این دیدگاه های متضاد، یک مطالعه [۳۲] تجزیه و تحلیل دستی مکانیسم های توجه را در وظایف مختلف پردازش زبان طبیعی (NLP) انجام داد. یافته‌ها نشان داد که وزن‌های توجه واقعاً می‌توانند قابل تفسیر باشند و با معیارهای اهمیت ویژگی که ویژگی‌های زبانی را در بر می‌گیرند همبستگی دارند.
در انتقال سبک موسیقی، پیشرفت‌ها در معماری‌های عصبی، مانند شبکه‌های متخاصم مولد (GANs)، وظایف خاص دامنه مانند تشخیص و انطباق ساز را تسهیل کرده‌اند. [۳۳]. این روش‌ها در مجموعه‌های داده‌ای مانند IRMAS اعمال شده‌اند و پتانسیل آن‌ها را برای تبدیل ویژگی‌های موسیقی به طور موثر نشان می‌دهند. علی‌رغم این پیشرفت‌ها، محدودیت‌های وابستگی به داده‌های موازی، محدودیت‌های واژگان، و اتکا به خطوط لوله ویژگی‌های پیچیده تا حد زیادی برطرف نشده است. هدف این کار پل زدن این شکاف ها با پیشنهاد یک چارچوب کاملاً متمایز و سرتاسر است که الزامات داده های موازی را حذف می کند، واژگان آگنوستیک است و مستقیماً بر روی ویژگی های صوتی عمل می کند.
چارچوب یادگیری سنتی دنباله به دنباله (seq2seq) یک دنباله منبع را در یک بردار با طول ثابت در یک مرحله رمزگذاری می‌کند، که اغلب توانایی آن را برای مدل‌سازی مؤثر مطابقت ساختاری بین دنباله‌های منبع و هدف محدود می‌کند. برای پرداختن به این محدودیت، به جای تکیه بر مکانیزم‌های توجه وزن‌دار خطی، یک رویکرد مبتنی بر شبکه عصبی بازگشتی (RNN) با نام توالی به دنباله چرخه‌ای (Cseq2seq) پیشنهاد شد. [۳۴]. مشاهدات کلیدی شامل موارد زیر است: (۱) Cseq2seq به طور موثر مکاتبات منبع-هدف را بدون نیاز به مکانیسم های توجه صریح می آموزد، و (۲) رمزگذار و رمزگشا می توانند پارامترهای RNN را بدون به خطر انداختن عملکرد به اشتراک بگذارند.

۳٫ روش ها

یک معماری مبتنی بر رمزگذار-رمزگشا، همراه با یک رمزگذار مرجع، برای بازسازی توالی ویژگی صوتی ورودی در طول مرحله آموزش و انجام تبدیل سبک صوتی با شرطی کردن دنباله صوتی منبع ورودی با تعبیه‌های سبک خاص هدف محاسبه‌شده از مرجع استفاده شد. رمزگذار در مرحله آزمایش یک طرح تنظیم دقیق مبتنی بر GAN شبیه به [۳۵] همچنین برای حذف هرگونه مصنوعات پر سر و صدا و بهبود طبیعی بودن صدای تولید شده استفاده شد. معماری شبکه برای روش در شکل ۱ نشان داده شده است و در زیر توضیح داده شده است.

۳٫۱٫ شبکه های رمزگذار/رمزگشا

این معماری دارای یک رویکرد ترکیبی است که لایه‌های کانولوشنیک یک بعدی (۱D) را با واحدهای خطی دروازه‌ای (GLUs) ترکیب می‌کند. [۳۶] و شبکه های حافظه کوتاه مدت دو طرفه (LSTM). [37] برای ساخت اجزای رمزگذار و رمزگشا. لایه های کانولوشنال ۱ بعدی، که توسط GLU ها تقویت شده اند، در گرفتن روابط طیفی در توالی ویژگی های صوتی ورودی مفید هستند. LSTM های دو طرفه ویژگی های زمانی آن توالی های صوتی را مدل می کنند. با الهام از آثار اخیر [۳۸,۳۹]اتصالات باقیمانده و عادی سازی نمونه نیز در شبکه های رمزگذار و رمزگشا گنجانده شده است. این اجزاء به تثبیت فرآیند آموزش و تولید توالی های صوتی خروجی با وضوح بالا کمک می کنند.

۳٫۲٫ رمزگذار مرجع

برای حذف وابستگی واژگان آموزشی و نیاز به بازنمایی های آوایی متوسط، نویسندگان یک رمزگذار مرجع را به طور مشترک با شبکه های رمزگذار-رمزگشا آموزش داده اند. رمزگذار مرجع برای گرفتن جاسازی‌های سبک خاص، جایی که هدف مربوط به یک بلندگو یا یک آلت موسیقی در مورد ما است، آموزش دیده است.

رمزگذار مرجع به گونه ای طراحی شده است که شبیه به شبکه رمزگذار باشد، با تفاوت اصلی استفاده از LSTM های یک طرفه به جای LSTM های دو طرفه. یک لایه ادغام میانگین جهانی نیز در بالای LSTM های یک طرفه اضافه شده است تا ویژگی های کلی سبک خاص را از صدای ورودی ضبط کند و در عین حال ویژگی های خاص آوایی محلی را نادیده بگیرد. لایه ادغام میانگین جهانی تضمین می کند که جاسازی های سبک آموخته شده مستقل از ویژگی های محلی مانند محتوای آوایی هستند.

قبل از آموزش رمزگذار مرجع به طور مشترک با شبکه رمزگذار-رمزگشا، ابتدا روی یک کار طبقه بندی ساده برای پیش بینی کلاس صوتی هدف از توالی ویژگی های صوتی ورودی، از قبل آموزش داده شده است. این پیش‌آموزش تضمین می‌کند که رمزگذار مرجع می‌تواند یک نگاشت از ویژگی‌های سبک کلی توالی صوتی ورودی به یک بردار طول ثابت را بیاموزد، که ما آن را به عنوان تعبیه‌های سبک صوتی نشان می‌دهیم. سپس این تعبیه‌های سبک با آموزش مشترک رمزگذار مرجع با شبکه‌های رمزگذار-رمزگشا، دقیق‌تر تنظیم می‌شوند. این تعبیه‌های سبک خاص هدف، شرطی‌سازی جهانی را فراهم می‌کنند و به تبدیل صدا از منبع به کلاس هدف کمک می‌کنند.

۳٫۳٫ فرآیند آموزش

در طول فرآیند آموزش، نویسندگان از ویژگی‌های صوتی صدای حقیقت زمین، به‌ویژه ضرایب فرکانس Mel-Cepstral (MFCCs) و طیف‌نگارهای Mel، به عنوان ورودی به شبکه‌های رمزگذار و رمزگذار مرجع استفاده کردند. رمزگذار مرجع برای فشرده سازی این ویژگی های صوتی ورودی در یک نمایش برداری با طول ثابت طراحی شده است که به عنوان تعبیه سبک شناخته می شود. این تعبیه‌های سبک ویژگی‌های سبکی صدا را به تصویر می‌کشند و متعاقباً با نمایش پنهان تولید شده توسط شبکه رمزگذار مرتبط می‌شوند. سپس این نمایش ترکیبی به رمزگشا وارد می‌شود، که ویژگی‌های صوتی ورودی مربوط به دنباله صوتی اصلی را بازسازی می‌کند و اطمینان می‌دهد که جزئیات سبک و زمانی به طور موثر حفظ می‌شوند.

ما از ترکیبی از میانگین خطای مطلق (MAE) و ضریب همبستگی پیرسون استفاده می کنیم ryy به عنوان تابع تلفات بازسازی ما همانطور که در (۱) آورده شده است. اینجا ryy به عنوان ضریب همبستگی پیرسون بین خروجی پیش بینی شده تعریف می شود yو حقیقت زمین yبه صورت زیر محاسبه می شود:

r y y = ج O v y ، y ص y ص y

کجا آن ها(y،y') نشان دهنده کوواریانس بین است y و y“، و صy و صy انحراف استاندارد مربوطه خود را نشان می دهد. ارزش از ryy از ۱- تا ۱ متغیر است که ۱ نشان دهنده همبستگی مثبت کامل است. برای به حداکثر رساندن ryyما منفی مقدار آن را در تابع ضرر به حداقل می رسانیم.

L r ه ج من = من = ۱ n y من y من r y y

۳٫۴٫ تمایز دهنده پنهان

یک طرح آموزشی خصمانه مبتنی بر تمایز پنهان استفاده می‌شود تا اطمینان حاصل شود که رمزگذار بازنمایی‌های نهفته مستقل از کلاس هدف را می‌آموزد. یک طبقه‌بندی کمکی به عنوان تمایزکننده عمل می‌کند و وظیفه پیش‌بینی کلاس هدف را بر عهده دارد ج از نمایش کدگذاری شده ز از یک گفته صوتی ورودی ضرر متمایز کننده به شرح زیر تعریف می شود:

L ل الف تی من = E [ l o g P ( y | e n c ( x ) ]

کجا پ(y|enc(x)) احتمال پیش بینی شده کلاس هدف را نشان می دهد y با توجه به رمزگذاری از xو E نشان دهنده انتظار بیش از توزیع پنهان است ص(enc(x)). در مقابل، رمزگذار برای به حداکثر رساندن عدم قطعیت تمایز کننده، با ضرر رمزگذار به صورت زیر آموزش داده شده است:

L الف ه من = L r ه ج من ب L ل الف تی من

این فعل و انفعال متقابل خصمانه تضمین می‌کند که نمایش‌های کدگذاری شده در کلاس ثابت هستند و تبدیل‌های صوتی مؤثری را ممکن می‌سازد که ویژگی‌های مستقل از هدف را حفظ می‌کنند. اینجا ب یک فراپارامتر است که وزن نسبی عبارت ضرر خصمانه را در تابع ضرر کلی رمزگذار کنترل می کند. تنظیم کردن ب کمک می کند تا تمرکز رمزگذار بر جدا کردن ویژگی های خاص هدف را متعادل کند و در عین حال یادگیری بازنمایی مؤثر را حفظ کند.

نویسندگان تمایز پنهان را با استفاده از یک بانک از لایه‌های کانولوشنال دردار به همراه عادی‌سازی نمونه و لایه‌های حذف ابداع کردند. تمایز کننده نمایش های نهفته رمزگذاری شده یک توالی ویژگی صوتی را به عنوان ورودی می گیرد و توزیع احتمال را در کلاس هدف پیش بینی می کند. این طرح آموزش خصمانه مبتنی بر تمایز پنهان، ضروری است زیرا نظم بخشی را بر نمایش های پنهان کدگذاری شده اعمال می کند و تضمین می کند که بازنمایی های آموخته شده مستقل از کلاس هدف هستند.

۳٫۵٫ تنظیم دقیق مبتنی بر WGAN

یک طرح تنظیم دقیق مبتنی بر دشمن نیز برای حذف هرگونه مصنوعات پر سر و صدا و جلوه های صوتی وزوز موجود در صدای تولید شده و بهبود طبیعی بودن آن اعمال می شود. با توجه به چالش‌های شناخته شده مرتبط با آموزش شبکه‌های متخاصم مولد (GAN)، نویسندگان یک نوع پایدارتر، Wasserstein GAN با گرادیان پنالتی (WGAN-GP) را اتخاذ کردند. [۴۰]. این رویکرد نه تنها برای آموزش آسان تر است، بلکه رفتار همگرایی بهبود یافته ای را نیز نشان می دهد. در چارچوب پیشنهادی، رمزگشا به عنوان مولد تحت این استراتژی تنظیم دقیق عمل می کند. برای متمایزکننده، ما شبکه‌ای را طراحی می‌کنیم که شامل یک سری لایه‌های دوبعدی (۲ بعدی) است که آن را قادر می‌سازد بین توالی ویژگی‌های آکوستیک واقعی و آنهایی که توسط مدل سنتز شده‌اند تمایز قائل شود. تفکیک کننده یک مقدار اسکالر را خروجی می دهد که “واقعیت” یک توالی ویژگی ورودی را نشان می دهد. x; یک مقدار اسکالر بالاتر نشان دهنده احتمال بالاتر آن است x واقعی است.

تمایزگر آموزش دیده است تا با شناسایی صحیح توالی ویژگی های واقعی و تولید شده، ضرر دشمن را به حداکثر برساند. برعکس، ژنراتور (رمزگشا) برای فریب متمایزکننده با به حداقل رساندن ترکیبی از ضرر و زیان بازسازی بهینه شده است. این تنظیم دو هدفه تضمین می‌کند که ژنراتور نه تنها ویژگی‌های آکوستیک واقعی را تولید می‌کند، بلکه وفاداری ورودی اصلی را نیز حفظ می‌کند و تبدیل صوتی با کیفیت بالا را تسهیل می‌کند.

۳٫۶٫ فرآیند تبدیل

در طول مرحله استنتاج، تبدیل صدا را می توان با تغذیه ویژگی های صوتی صدای هدف که سبک آن باید به عنوان ورودی به رمزگذار مرجع منتقل شود، در حالی که ویژگی های صوتی منبع صوتی را به عنوان ورودی به رمزگذار پایه تغذیه می کند، به دست آورد. خروجی از رمزگشا، دنباله صوتی تبدیل شده با ویژگی های آوایی محلی محلی از صدای منبع و ویژگی های خاص سبک جهانی از صدای هدف است.

۵٫ نتایج و بحث

در جدول ۲، ارزیابی های ذهنی (MOS) تمام خطوط پایه و روش پیشنهادی برای هر دو کار گزارش شده است. برای ارزیابی کیفیت صدا، میانگین امتیاز نظر (MOS) با پیروی از یک روش استاندارد محاسبه می‌شود. ارزیاب‌های انسانی صدای تولید شده توسط روش و مدل‌های پایه ما را در مقیاس عددی ۵ درجه‌ای رتبه‌بندی می‌کنند، که در آن ۱ مربوط به “بد”، ۲ به “ضعیف”، ۳ به “عادلانه”، ۴ به “خوب” و ۵ به “است. “عالی” هر یک از نمونه های صوتی از آزمایش ها توسط ۵ ارزیاب انسانی با شنوایی طبیعی ارزیابی شد.

این نتایج نشان می‌دهد که روش پیشنهادی نتایج بهتری نسبت به هفت سیستم برای تبدیل‌های صوتی با هدف قرار دادن هویت‌های دیده‌شده قبلی ارائه می‌دهد و عملکرد رقابتی را با یک سیستم در هر دو هویت هدف دیده شده و نادیده به دست می‌آورد. خطوط پایه مبتنی بر سیستم تشخیص خودکار گفتار میانی (ASR) دارای اشکالات قابل توجهی هستند. به طور خاص، وابستگی آن به رونویسی های آوایی، قابلیت حمل به مجموعه داده های جدید را محدود می کند، زیرا به دست آوردن چنین رونویسی هایی نیاز به منابع دارد. روش پیشنهادی تنها بر ویژگی‌های صوتی قابل استخراج است که به راحتی قابل استخراج است، و آن را با هر تبدیل مجموعه داده بدون نیاز به سیستم‌های ASR میانی سازگار می‌سازد.

این رویکرد ویژگی های آوایی اساسی و همچنین تفاوت های ظریف هویتی خاص گویندگان یا سازها را در بر می گیرد. این مدل را قادر می‌سازد تا این ویژگی‌ها را برای کلمات نادیده، آهنگ‌ها، بلندگوهای هدف یا آلات موسیقی با حداقل کاهش کیفیت صدا اعمال کند. این انعطاف پذیری استحکام روش ما را در مقایسه با سیستم های معمولی برجسته می کند. علاوه بر ارزیابی‌های ذهنی MOS، ما یک تحلیل بصری از خروجی‌ها را در شکل ۲ ارائه می‌کنیم، جایی که نمونه‌هایی از طیف‌های تولید شده توسط رویکرد ما نشان داده شده‌اند.

این یک تجزیه و تحلیل بصری از تبدیل‌های صوتی به‌دست‌آمده با روش پیشنهادی را ارائه می‌دهد و نمودارهای MFCC و طیف‌نگاری را برای صدای منبع، صدای هدف و صدای تولید شده به نمایش می‌گذارد. نمودارهای MFCC نشان می دهد که چگونه مدل پوشش طیفی صدای منبع را ضبط می کند در حالی که به طور مؤثر آن را برای مطابقت با ویژگی های سبکی صدای هدف تطبیق می دهد. این امر به‌ویژه در طیف‌نگارهای تبدیل‌شده مشهود است، جایی که ساختارهای هارمونیک و توزیع‌های انرژی با صدای هدف همسو می‌شوند و در عین حال ویژگی‌های آوایی کلیدی را از منبع حفظ می‌کنند.

برای اعتبار بیشتر بازنمایی های کدگذاری شده توسط رمزگذار مرجع، جاسازی های سبک آموخته شده برای تبدیل صدا و وظایف انتقال سبک موسیقی مورد تجزیه و تحلیل قرار گرفته است. این تعبیه‌ها، که در شکل ۳ نشان داده شده‌اند، توانایی رمزگذار را برای حفظ ویژگی‌های مرتبط با هویت در سناریوهای مختلف تبدیل صوتی برجسته می‌کنند. جاسازی‌های سبک با استفاده از الگوریتم t-SNE با گیجی = ۳۰ و تعداد تکرارها = ۳۰۰ تجسم می‌شوند. نمودارهای t-SNE نشان می‌دهند که رمزگذار مرجع می‌تواند صداهای متعلق به همان کلاس‌های هویت هدف را با هم خوشه‌بندی کند، بنابراین تأیید می‌کند که رمزگذار مرجع می تواند ویژگی های کلی سبک خاص و هویت هدف را رمزگذاری کند.
شکل ۴ MOS برای طبیعی بودن را نشان می‌دهد، که برای هر دو سخنران دیده شده و نادیده محاسبه شده است تا روش ما را بر روی تغییرات صوتی بین ملیتی و بین جنسیتی ارزیابی کند. نتایج نشان می دهد که روش پیشنهادی قادر به تولید گفتار قابل فهم و طبیعی در سراسر جنسیت و همچنین ملیت است. در حالی که این نتایج نشان‌دهنده استحکام روش در تولید خروجی‌های صدای طبیعی است، مهم است که توجه داشته باشیم که تمرکز اصلی این کار بر روی تبدیل صدای آوازی به جای سنتز کلی گفتار است.

قابل فهم بودن و طبیعی بودن صدای تبدیل شده به عنوان شاهدی بر اثربخشی مدل در حفظ تفاوت های ظریف سبکی و آوایی ضروری برای تبدیل صدای با کیفیت بالا است. این یافته‌ها مناسب بودن چارچوب را برای برنامه‌هایی که نیاز به تغییرات ظریف در ویژگی‌های صوتی دارند، در حالی که کیفیت کلی صدا را حفظ می‌کنند، تقویت می‌کند.

در نهایت، برای اطمینان از اینکه نمایش‌های نهفته از رمزگذار مستقل از هویت هدف پس از آموزش خصمانه مبتنی بر تمایز پنهان هستند، نویسندگان یک سیستم تأیید کلاس هدف را آموزش می‌دهند که نمایش‌های پنهان را از رمزگذار به عنوان ورودی برای پیش‌بینی هویت کلاس هدف می‌گیرد. . دقت راستی‌آزمایی برای هر دو کار با و بدون آموزش خصمانه پنهان در جدول ۳ گزارش شده است. دقت تأیید صحت پس از آموزش خصمانه مبتنی بر تمایز پنهان تأیید می‌کند که رمزگذار قادر به یادگیری بازنمایی‌های نهفته است که مستقل از هویت هدف هستند. .

در حالی که روش پیشنهادی وابستگی به داده‌های موازی و ترازهای آوایی را حذف می‌کند، برای دستیابی به عملکرد بهینه بر استخراج ویژگی صوتی با کیفیت بالا (مثلاً طیف‌نگارهای MFCC و Mel) متکی است. علاوه بر این، مرحله آموزش خصمانه، در حالی که استحکام را افزایش می دهد، سربار محاسباتی را معرفی می کند، که ممکن است کاربرد چارچوب را در سناریوهای بلادرنگ محدود کند.

اتکای روش به بازسازی Griffin-Lim برای سنتز صدا، اگرچه موثر است، اما مصنوعات گاه به گاه را معرفی می کند که در موارد خاص بر طبیعی بودن صدای تبدیل شده تأثیر می گذارد. علاوه بر این، در حالی که با سیستم‌های مبتنی بر ASR رقابت می‌کند، کیفیت رویکرد پیشنهادی در برخی از سناریوهای هدف غیرقابل مشاهده کمی عقب‌تر است، که بر چالش‌ها در تعمیم مجموعه‌های داده بسیار متنوع تاکید می‌کند.

این مدل ویژگی‌های آکوستیک مانند MFCC و طیف‌نگارهای Mel را پردازش می‌کند تا ویژگی‌های آوایی ضروری مانند فرمانت‌ها و هارمونیک‌ها را به تصویر بکشد. پیشرفت‌های آینده ممکن است شامل استفاده از معیارهایی مانند Mel Cepstral Distortion برای اندازه‌گیری فاصله طیفی بین صدای اصلی و تبدیل‌شده باشد، که نشان می‌دهد چگونه ساختارهای آوایی به خوبی حفظ شده‌اند. [۴۵]. این مدل ویژگی‌های صوتی خاص بلندگو یا کیفیت آهنگ‌های خاص ابزار را در جاسازی‌هایی با ابعاد ثابت رمزگذاری می‌کند، که می‌تواند با استفاده از معیارهایی مانند دقت تأیید بلندگو ارزیابی شود تا اطمینان حاصل شود که صدای تولید شده هویت هدف را حفظ می‌کند. [۴۶].
این چارچوب تعمیم فراتر از داده‌های آموزشی را با تولید صدا برای سناریوهای دیده نشده – مانند بلندگوهای جدید – بدون به خطر انداختن سبک یا درک، نشان می‌دهد. معیارهایی مانند نرخ خطای رونویسی آوایی می‌تواند میزان دقت صدای تبدیل‌شده را با محتوای آوایی مورد نظر ارزیابی کند. [۴۷]. این مدل دگرگونی‌های صوتی را با طبیعی بودن و وفاداری بالا تولید می‌کند و اطمینان می‌دهد که خروجی واقعی به نظر می‌رسد. نسبت سیگنال به نویز می تواند وضوح صدای تبدیل شده را با مقایسه قدرت سیگنال با نویز پس زمینه کمیت کند. پیشرفت‌های آینده می‌توانند از این معیارها برای افزایش ارزیابی‌های عینی و اصلاح عملکرد مدل استفاده کنند.
هوش مصنوعی قابل توضیح (ExAI) در پردازش زبان طبیعی (NLP) عمدتاً بر رمزگشایی مکانیسم‌های داخلی مدل‌های زیربنایی به‌جای ارائه بینشی در مورد خروجی‌های طبقه‌بندی خاص تأکید دارد. یک بررسی جامع [۴۸] پیشرفت را در جنبه‌های مختلف تفسیرپذیری، از جمله رفتار جاسازی‌های کلمه، دینامیک داخلی RNN و ترانسفورماتورها، منطق پشت تصمیم‌های مدل، و مجموعه‌ای از تکنیک‌های بصری به کار گرفته شده، تثبیت می‌کند. این بررسی همچنین بر ماهیت به هم پیوسته این روش‌های تفسیرپذیر تأکید می‌کند، و چگونگی تکمیل و ایجاد آن‌ها بر یکدیگر را روشن می‌کند.

در میان معماری‌های NLP، شبکه‌های حافظه کوتاه‌مدت (LSTM) و شبکه‌های عصبی کانولوشنال (CNN) به دلیل عملکرد ساختاریافته و فرآیندهای استخراج ویژگی شفاف، قابلیت تفسیر ذاتی نسبتاً بالاتری را نشان می‌دهند. با این حال، مدل‌های مبتنی بر توجه، علی‌رغم اثربخشی، به تحلیل دقیق‌تر و هدفمندتری برای دستیابی به شفافیت کامل نیاز دارند. این امر مستلزم توسعه تکنیک‌های پیشرفته برای روشن کردن چگونگی اولویت‌بندی این مدل‌ها و وزن دادن به ورودی‌های مختلف در طول تصمیم‌گیری است.

۶٫ نتیجه گیری

چارچوب تبدیل صوتی کاملاً متمایز و سرتاسر پیشنهادی چندین پیامد و فرصت‌های تأثیرگذار را برای تحقیقات آینده و کاربردهای عملی ارائه می‌کند. این رویکرد با حذف نیاز به داده‌های موازی و هم‌تراز با زمان و نمایش‌های آوایی میانی، بار جمع‌آوری داده‌ها را کاهش می‌دهد و مقیاس‌پذیری را در میان مجموعه داده‌ها و زبان‌های مختلف بهبود می‌بخشد. طراحی واژگانی-آگنوستیک آن، تطبیق پذیری آن را بیشتر افزایش می دهد و تغییرات صوتی را برای بلندگوها، آلات موسیقی و سبک هایی که قبلا دیده نشده بودند، ممکن می سازد.

بهینه‌سازی چارچوب برای تأخیر کمتر و کارایی محاسباتی می‌تواند کاربردهای بلادرنگ، مانند مدولاسیون صدای زنده یا ابزارهای بداهه نوازی موسیقی را تسهیل کند. علاوه بر این، تنظیم دقیق مدل برای حوزه های تخصصی مانند مراقبت های بهداشتی یا آموزش (به عنوان مثال، تبدیل لهجه برای زبان آموزان) می تواند کاربرد آن را گسترش دهد. با این حال، نگرانی های اخلاقی، مانند سوء استفاده احتمالی از تبدیل صدا برای جعل هویت یا انتشار اطلاعات نادرست، باید به طور سیستماتیک مورد توجه قرار گیرد.

چارچوب ارزیابی به کار گرفته شده در این مطالعه، معیارهای عینی را با بینش های ذهنی ترکیب کرد و تشخیص داد که جنبه های کیفیت صدا تحت تأثیر ادراک انسان است. ارزیابی‌های آتی باید شامل تجزیه و تحلیل‌های آماری دقیق از رتبه‌بندی‌های ذهنی – مانند انحراف معیار، محدوده بین چارکی، یا فواصل اطمینان – باشد تا تنوع و سازگاری در نظرات ارزیاب‌ها را کمی‌تر کند.

این امر درک واضح‌تری از ارزیابی‌های ذهنی ارائه می‌کند و استحکام نتایج را تقویت می‌کند. معیارهای اضافی، مانند نرخ توافق شنوندگان یا تفکیک امتیازات بر اساس گروه‌های جمعیتی، می‌توانند اعتبار مدل را در زمینه‌های مختلف اعتبار بیشتری دهند.


منبع: https://www.mdpi.com/2673-2688/6/1/16

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *