هوش مصنوعی | متن کامل رایگان | شبکه‌های متخاصم مولد برای تولید داده‌های مصنوعی در امور مالی: ارزیابی شباهت‌های آماری و ارزیابی کیفیت

۱٫ معرفی

در چشم انداز پویای امروزی، بسیاری از سازمان ها از تکنیک های یادگیری عمیق و یادگیری ماشینی برای پردازش و سازماندهی حجم زیادی از داده ها استفاده می کنند. [۱]به خصوص در پزشکی [۲]آموزشی [۳]و مالی [۴] زمینه های. شرکت ها بخش قابل توجهی از بودجه خود را به داده های بدون ساختار اختصاص می دهند و هدف آن تبدیل آن به بینش های عملی برای تصمیم گیری است. این تلاش‌ها تصمیم‌گیری آگاهانه را قادر می‌سازد، شرکت‌ها را برای استراتژی‌سازی مؤثر، نوآوری و حفظ رقابت در صنایع مربوطه خود توانمند می‌سازد.

کمبود داده ها مانع قابل توجهی در صنایع مختلف می شود و پروژه های هوش مصنوعی (AI) را تحت تاثیر قرار می دهد. [۵,۶]. به عنوان مثال، در حوزه مالی، مجموعه داده های کوچک یا ناقص می تواند چالش هایی را در هنگام پیش بینی شاخص های بازار سهام یا ارزیابی استراتژی های سرمایه گذاری ایجاد کند. هنگام تجزیه و تحلیل داده‌های شرکت‌ها یا استارت‌آپ‌های تازه فهرست‌شده، فقدان داده‌های قابل اعتماد می‌تواند به طور قابل‌توجهی عدم اطمینان و ریسک سرمایه‌گذاری مرتبط با این سرمایه‌گذاری‌ها را افزایش دهد. [۷,۸,۹,۱۰].

به طور مشابه، سازمان های مراقبت های بهداشتی در بخش پزشکی به دلیل مجموعه داده های کوچک، که مانع توسعه مدل های پیش بینی برای تشخیص بیماری و نتایج درمان می شود، با چالش هایی مواجه هستند. مقررات سختگیرانه حفظ حریم خصوصی، اشتراک گذاری اطلاعات خاص بیمار را محدود می کند، بنابراین مانع از تحقیقات مشترک و ایجاد مدل های پیش بینی دقیق مورد نیاز برای پزشکی شخصی می شود.

در چنین زمینه‌ای، وظیفه‌ای که در این مقاله قصد داریم به آن بپردازیم شامل ترکیب یک مجموعه داده شبیه داده‌های ورودی با ویژگی‌های مشابه است. مجموعه داده ورودی از بازار سهام می آید و چندین محدودیت را ارائه می دهد: تعداد محدودی از نمونه های داده و تناقضات متعدد، از جمله مقادیر گمشده، ردیف های تکراری، و مقادیر بدون مقیاس.

در گذشته، محققان از تکنیک‌های آماری و ریاضی مانند روش‌های تصادفی‌سازی یا مدل‌های شبکه بیزی استفاده می‌کردند. [۱۱,۱۲]، برای تولید داده های مصنوعی یا همبسته برای برآوردن نیازهای داده خود. با ظهور فن آوری یادگیری عمیق، روش های مختلفی برای رفع این مشکل نیز پدید آمده است [۱۳]. با وجود این پیشرفت‌ها، روش‌های موجود اشکالات و محدودیت‌های خاصی را نشان داده‌اند که به طور عمیق در بخش ۲ مورد بحث قرار خواهد گرفت. [۱۴] و شبکه های متخاصم مولد (GAN) [15] برای مقابله با چنین مشکلاتی با دقت و کارایی بالا استفاده شده است [۱۶,۱۷].

به عنوان مثال، کار در [۱۶] تقویت متمایز برای آموزش GAN کارآمد داده را معرفی می کند، که هدف آن افزایش کارایی آموزشی GAN ها با ترکیب تکنیک های تقویت متمایز است. این شامل استفاده از روش‌های افزایش داده‌ها برای داده‌های واقعی و تولید شده در طول آموزش است و مدل GAN را قادر می‌سازد تا داده‌های متنوع‌تر و واقعی‌تری تولید کند. مطالعه دیگری که در [۱۷] در مورد تولید داده های مصنوعی با ویژگی های کم بعدی برای نظارت بر شرایط است و از GAN ها برای ایجاد نمونه های داده مصنوعی استفاده می کند که از نزدیک شرایط دنیای واقعی مربوط به وظایف نظارت بر شرایط را تقلید می کند. با تولید داده های مصنوعی، این رویکرد به چالش های مرتبط با مجموعه داده های محدود یا ناکافی می پردازد، بنابراین عملکرد مدل های یادگیری ماشینی را در برنامه های نظارت بر شرایط بهبود می بخشد.

انگیزه اصلی این کار در پرداختن به چالش‌های کمبود داده، حل ناسازگاری‌ها و تولید مجموعه داده‌های متنوع‌تر است که بسیار مقرون‌به‌صرفه هستند. ما یک معماری GAN را با یک پیکربندی پارامتر سفارشی و با دقت طراحی شده پیاده سازی کرده ایم که برای اهداف افزایش داده ها بهینه شده است.

داده های تولید شده به صورت مصنوعی عملکرد مدل را بهبود می بخشد و تعمیم بهتر را ممکن می سازد. علاوه بر این، انعطاف پذیری GAN ها به ما اجازه می دهد تا فرآیند تولید داده را با حوزه های مختلف تطبیق دهیم و ابزار ارزشمندی برای وظایف مختلف یادگیری بدون نظارت فراهم کنیم.

با جزئیات بیشتر، مشارکت هایی که ما با کار خود آورده ایم به شرح زیر است:

گسترش اندازه مجموعه داده – روش ما با موفقیت اندازه مجموعه داده های مالی اصلی را گسترش می دهد و به مسئله دسترسی محدود داده برای آموزش و تولید اندازه های متنوع نمونه های همبسته می پردازد.
عملکرد مدل پیشرفته – استفاده از داده‌های مصنوعی با ارائه مثال‌های بیشتر و داده‌های متنوع، عملکرد مدل‌های مختلف را بهبود می‌بخشد و به مدل‌ها کمک می‌کند سناریوهای مختلف را درک کنند و به طور مؤثرتر با موارد پرت و رویدادهای نادر برخورد کنند.
راه حل مقرون به صرفه- تولید داده های مصنوعی ثابت می کند که جایگزین مقرون به صرفه ای برای فرآیندهای دشوار و پرهزینه درگیر در جمع آوری، تمیز کردن و پردازش مجموعه داده های جدید است.
توزیع‌های متوازن ویژگی – روش ما این پتانسیل را دارد که عدم تعادل در ستون‌های غیر پیوسته در مجموعه داده ورودی را برطرف کند. با تولید داده های مصنوعی، به طور موثر این توزیع های ویژگی های ناهموار را متعادل می کند و مفید بودن آن را برای وظایف یادگیری ماشینی افزایش می دهد.

ساختار بقیه این دست نوشته به شرح زیر است. در بخش ۲، کار مرتبط قبلی و روش‌های پیشنهادی برای تولید داده‌ها با استفاده از تکنیک‌های مختلف، هم با و هم بدون مدل‌سازی تولیدی را پوشش می‌دهیم. بخش ۳ وظیفه ای را که در این مقاله می خواهیم حل کنیم، توضیح می دهد. بخش ۴ معماری مدل GANs پیشنهادی را تشریح می‌کند و بهینه‌سازی‌هایی را که برای بهبود کارایی آن انجام داده‌ایم مورد بحث قرار می‌دهد. در بخش ۵، ارزیابی عملکردی را که انجام داده‌ایم نشان می‌دهیم و ویژگی‌های آماری داده‌های جدید تولید شده و مجموعه داده اصلی را نشان می‌دهیم. در نهایت، بخش ۶ مقاله را با یک خلاصه و مسیرهای آینده برای جایی که در حال حرکت هستیم به پایان می رساند.

۳٫ شرح وظیفه

تولید داده های مصنوعی در بسیاری از زمینه هایی که داده ها کمیاب یا محدود هستند، ضروری است، همانطور که اغلب در بخش های اقتصادی و مالی اتفاق می افتد. در این زمینه، تولید داده‌های مصنوعی با پرداختن به مسائلی مانند داده‌های ناکافی یا نگرانی‌های مربوط به حریم خصوصی به افزایش تصمیم‌گیری کمک می‌کند. [۳۳,۳۸,۳۹].

در وظیفه خود که بر حوزه مالی متمرکز است، ما به طور خاص داده های مستمر حاصل از بازار سهام را هدف قرار می دهیم. این ابتکار بخشی از یک مسابقه جهانی بود که توسط BNP Paribas و Ecole Polytechnique Paris حمایت می شد و محققان مختلفی در سراسر جهان مشارکت داشتند. هدف اصلی این مسابقه، ترکیب مجموعه داده های متنوع از داده های ورودی ارائه شده بود. مجموعه داده ورودی برای این کار ناشناس بود و به طور انحصاری برای مسابقه منتشر شد.

مجموعه داده در نظر گرفته شده (مجموعه داده به صورت عمومی در دسترس در: https://github.com/faisalramzan3725/Generative-Adversarial-Networks-GANs-for-Synthetic-Data-Generation-in-Finance-Evaluating-Statisti/tree/main قابل دسترسی در ۸ مه ۲۰۲۴) برخی از اطلاعات اساسی در مورد روندهای تاریخی بازار سهام ارائه می دهد که شامل ستون هایی است که احتمالاً مربوط به قیمت افتتاحیه، قیمت بسته شدن، بالاترین قیمت و پایین ترین قیمت است. این ستون ها به عنوان ویژگی های ورودی عمل می کنند که می توانند برای کارهای پیش بینی مختلف در حوزه بازار سهام استفاده شوند. به عنوان مثال، این ویژگی‌ها می‌توانند برای پیش‌بینی قیمت بسته شدن روز بعد، تجزیه و تحلیل روند قیمت (افزایش، کاهش یا ثابت ماندن)، پیش‌بینی نوسانات قیمت سهام در یک دوره کوتاه، یا استخراج سیگنال‌های خرید/فروش بر اساس استفاده شوند. شاخص های فنی مانند میانگین متحرک یا واگرایی میانگین متحرک همگرایی (MACD). با این حال، پیش‌بینی دقیق قیمت سهام شامل پیچیدگی‌هایی است که تحت تأثیر عوامل متعددی فراتر از داده‌های تاریخی است. عواملی مانند کیفیت داده‌ها، انتخاب ویژگی‌های مرتبط، مدل‌های مورد استفاده، و شرایط بازار گسترده‌تر به‌طور قابل‌توجهی بر اثربخشی این پیش‌بینی‌ها تأثیر می‌گذارند. غلبه بر محدودیت های کمبود داده یک هدف کلیدی است که هدف آن ایجاد مجموعه داده های متنوع تری است که سناریوهای مختلف را در بر می گیرد. این پیگیری فراتر از وظایف پیش‌بینی است و بر افزایش دسترسی و تنوع داده‌ها برای درک بهتر و انطباق با ماهیت پویای بازار سهام تمرکز می‌کند.

مجموعه داده ارائه شده منحصراً برای این منظور در نظر گرفته شده است و وظیفه ما شامل دو مرحله است. مرحله اول شامل ساختاردهی داده ها، اصلاح ناسازگاری ها و اعمال محدودیت ها است که شامل حذف موارد پرت می شود. پس از پیش پردازش، ما یک مجموعه داده عادی شامل ۷۴۶ ردیف با چهار ویژگی ناشناس به دست آوردیم. مهم است که تأکید کنیم مجموعه داده محرمانه است و ما فقط از ویژگی های مرتبط با هدف استفاده می کنیم، بنابراین جزئیات شخصی و سایر اطلاعات حساس را استثنا نمی کنیم. با وجود این محدودیت‌ها، مجموعه داده‌ها نقشی حیاتی در پیش‌بینی روند بازار سهام ایفا می‌کنند. با این حال، اثربخشی آن در مدل‌های آموزشی به دلیل محدودیت‌های اندازه و ویژگی با مانع مواجه می‌شود. هدف اصلی ما غلبه بر این محدودیت ها با بهبود کیفیت داده های موجود و گسترش دامنه آن از طریق روش های سنتز داده است. پرداختن به چالش های ایجاد شده توسط مجموعه داده ای از این نوع شامل پرداختن به سه مشکل کلیدی است:

در دسترس بودن داده محدود – اندازه کوچک مجموعه داده بر حسب ردیف، محدودیت هایی را برای مدل های ما ایجاد می کند و توانایی آنها را برای یادگیری موثر محدود می کند.
داده های از دست رفته – بخش های خاصی از مجموعه داده ها فاقد اطلاعات هستند و چالش هایی را در درک روندهای کامل بازار سهام ایجاد می کنند. این ممکن است به دلیل نگرانی های مربوط به حریم خصوصی یا سایر مشکلات موجود بودن داده ها باشد.
تأثیر بر عملکرد مدل – ناهنجاری های موجود در مجموعه داده ها به طور قابل توجهی دقت و قابلیت اطمینان مدل های ما را مختل می کند. علاوه بر این، وجود ردیف‌های مفقود یا تکراری، ناسازگاری‌هایی ایجاد می‌کند که بر عملکرد مدل تأثیر منفی می‌گذارد.

محدودیت‌های مشخص شده تأثیر قابل‌توجهی بر فرآیند پیش‌بینی بازار سهام دارند و مستقیماً سیستم‌های تصمیم‌گیری را شکل می‌دهند. این تأثیر برای سرمایه‌گذارانی که به پیش‌بینی‌های دقیق برای اصلاح استراتژی‌های سرمایه‌گذاری خود تکیه می‌کنند، اهمیت خاصی دارد. تصدیق و پرداختن فعالانه به این محدودیت ها امری ضروری است. یک استراتژی ضروری برای غلبه بر این چالش ها شامل ایجاد دقیق مجموعه داده های با کیفیت بالا و متنوع است. این رویکرد به مدل های ما قدرت می دهد تا به طور موثرتری یاد بگیرند و ظرفیت آنها را برای تعمیم افزایش دهد. کیفیت داده های پیشرفته، به نوبه خود، در نتایج برتر ظاهر می شود و در نهایت قابلیت اطمینان و کارایی مدل های پیش بینی ما را تقویت می کند. چنین افزایشی نه تنها فرآیندهای داخلی ما را تقویت می کند، بلکه اثرات مثبت خود را به جامعه سرمایه گذاران گسترده تر نیز گسترش می دهد. با ارائه پیش‌بینی‌های دقیق‌تر بازار، ما سرمایه‌گذاران را به اطلاعات لازم برای تصمیم‌گیری‌های آگاهانه مجهز می‌کنیم، بنابراین تجربه کلی سرمایه‌گذاری آنها را غنی می‌کنیم.

۴٫ شبکه مخالف مولد پیشنهادی

در این بخش، معماری GAN توسعه‌یافته را شرح می‌دهیم و در مورد چگونگی بهینه‌سازی آن برای وظیفه تولید داده مصنوعی خود بحث می‌کنیم. یک GAN سنتی شامل دو بخش اصلی است که در شکل ۱ نشان داده شده است. در شبکه مولد، ژنراتور، جی، نویز تصادفی یا ورودی نهفته را به عنوان نقطه شروع خود از فضای پنهان می گیرد. این ورودی نویزدار معمولاً از یک توزیع تصادفی مانند توزیع گاوسی تولید می شود و به عنوان سیگنال اولیه ای عمل می کند که ژنراتور برای ایجاد داده های مصنوعی استفاده می کند. سپس مولد این نویز را به داده هایی تبدیل می کند که به طور ایده آل شبیه داده های واقعی است. هدف مولد این است که بیاموزد که چگونه نویز تصادفی را به نمونه‌های داده‌ای که شباهت زیادی به داده‌های واقعی دارند، با هدف فریب شبکه تفکیک‌کننده در چارچوب، ترسیم کند. در عین حال، تبعیض کننده، دتفاوت بین نقاط داده واقعی و جعلی تولید شده توسط را شناسایی می کند جی استفاده از نویز از فضای پنهان

برای درک بهتر، تشبیه تشخیص ارز جعلی را به عنوان یک مثال گویا در نظر بگیرید که مفهوم اساسی چارچوب GANs را روشن می کند. نقش پلیس را در تشخیص ارز اصیل و جعلی، مشابه عملکرد یک تبعیض در این چارچوب، تصور کنید. برعکس، مجرمی که در تولید غیرقانونی ارز جعلی فعالیت می کند را می توان مشابه عملکرد یک ژنراتور در GAN ها در نظر گرفت. در این سناریو، خالق ارز جعلی به شدت تلاش می‌کند تا اسکناس‌هایی شبیه اسکناس‌های واقعی بسازد تا توانایی‌های تشخیص پلیس را فریب دهد. این پویا منعکس کننده تعامل بین متمایز کننده و مولد در شبکه است زیرا آنها برای تولید و طبقه بندی نمونه ها به عنوان معتبر یا تقلبی با یکدیگر همکاری می کنند.

در یک GAN، شبکه مولد بردارها یا نقاط داده تصادفی را به عنوان ورودی می گیرد و از طریق لایه های خود، آنها را به نمونه های داده مصنوعی شبیه توزیع داده های واقعی تبدیل می کند. [۴۰]. همانطور که مولد از تکرارهای متوالی آموزش می آموزد، توانایی خود را برای نگاشت نقاط درون این فضای پنهان به نقاط داده معنادار بهبود می بخشد و در نهایت با گرفتن الگوها و ساختارهای زیربنایی داده های واقعی، نمونه های واقعی تری ایجاد می کند. تولید نویز برای فضای پنهان شامل استفاده از مولدهای اعداد تصادفی برای ایجاد بردارهایی از نقاط داده تصادفی به دنبال توزیع مشخص است که به ژنراتور اجازه می دهد تا نمونه های داده مصنوعی متنوعی را در طول مرحله آموزش تولید کند. [۴۱].

مدل GAN به عنوان یک بازی دو نفره عمل می کند که در آن تمایز کننده (د(جی). معماری از د بستگی به انتخاب های طراح دارد، به ویژه از نظر تعداد لایه های استفاده شده. هدف اصلی آن استخراج ویژگی های ورودی است که خروجی این لایه ها با استفاده از تابع “فعال سازی خطی اصلاح شده (ReLU)” فعال می شود. [۴۲,۴۳]. این تابع فعال‌سازی، ویژگی‌های ورودی را به لایه بعدی تبدیل می‌کند، که صرفاً روی اعداد مثبت کار می‌کند. در غیر این صورت، آن را بازده ۰٫ در مقابل، تابع فعال سازی “sigmoid”. [43] وظیفه فعال کردن لایه خروجی نهایی را بر عهده دارد دکمک به وظیفه طبقه بندی آن در تشخیص نمونه های واقعی (۱) و جعلی (۰).

مدل GAN از دو تابع تلفات مجزا استفاده می کند: یکی برای مولد و دیگری برای خود متمایزکننده. [۱۵,۴۰]. توابع نقش مهمی در ارزیابی عملکرد مدل در یک GAN دارند. تفاوت بین داده های واقعی و مصنوعی با ارزیابی شباهت آنها از نظر عوامل مختلف، مانند میانگین، انحراف استاندارد، و توزیع نمودار مشترک اندازه گیری می شود. توابع از دست دادن در جی و د نقش‌های جداگانه‌ای را در مراحل مختلف فرآیند آموزش مدل بازی می‌کنند. تابع تلفات اولیه GAN که معمولاً نامیده می شود “وانیل” یا حداقل تلفات [۴۴]، ارزیابی می کند که داده های واقعی و تولید شده چقدر نزدیک تراز هستند. این شامل به حداقل رساندن احتمال ورود به سیستم تشخیص درست است (log(D(x))) برای نمونه های واقعی داده ها و احتمال نادرست بودن تشخیص دهنده (log(1 – D(G(z)))) برای نمونه های تولید شده

ارزیابی حداقل تلفات در GANها شامل استفاده از تابع تلفات متقاطع آنتروپی برای ارزیابی تفاوت بین توزیع داده‌های واقعی و تولید شده، به ویژه در طول بهینه‌سازی تمایزکننده است. توجه به این نکته مهم است که در حالی که جنسن-شانون (JS) [33,39] واگرایی شباهت بین توزیع‌های احتمال را اندازه‌گیری می‌کند، و مستقیماً در تابع ضرر GAN ادغام نمی‌شود. در عوض، واگرایی JS تفاوت بین توزیع ها را کمیت می کند و با واگرایی Kullback-Leibler (KL) رابطه دارد. [۳۳,۳۹]. با این حال، محاسبه مستقیم واگرایی JS با محدودیت هایی مواجه است که آن را برای آموزش GAN غیر عملی می کند. در GAN ها، فرآیند آموزش بر به حداقل رساندن ضرر دشمن از طریق یک بازی حداقل بین مولد و ممیز تمرکز دارد.

در حالی که هدف مولد به حداقل رساندن این حداقل تلفات است، تمایز دهنده به دنبال به حداکثر رساندن آن است. چه زمانی د بین نمونه های واقعی و تولید شده (جعلی) تمایز قائل می شود، از تابع ضرر خود برای جریمه کردن طبقه بندی های نادرست استفاده می کند. این بدان معناست که اگر د به اشتباه یک نمونه واقعی را جعلی یا یک نمونه جعلی را واقعی تشخیص می دهد، تابع ضرر آن این خطا را اندازه گیری می کند و مدل را برای بهبود دقت راهنمایی می کند. در مورد از دست دادن دهدف به حداکثر رساندن است گزارش (۱ – D(G(z))) بیان، اطمینان حاصل شود که مستقیماً تأثیر نمی گذارد گزارش D(x) [33,39,40]همانطور که در رابطه (۱) نشان داده شده است:

${جی}_{متر من n} د_{متر آ ایکس} V (د ، جی) = E_{ایکس} [l o g D (x)] + E_{ز} [l o g (۱ - D (G (z)))] ،$

(۱)

جایی که:

d(x) نشان دهنده خروجی تمایز کننده است (د) هنگامی که یک نمونه واقعی داده می شود (ایکس) به عنوان ورودی احتمال واقعی بودن نمونه را تخمین می زند.
$E_{ایکس}$ عملگر مقدار مورد انتظار است که برای تمام نمونه های واقعی اعمال می شود. این نشان دهنده مقدار متوسط خروجی تفکیک کننده در یک نمونه واقعی است ایکس به عنوان ورودی
G(z) خروجی ژنراتور را نشان می دهد (G) هنگامی که یک ورودی تصادفی (نویز یا نقطه نهفته) به عنوان نشان داده می شود ز. ژنراتور از این ورودی برای تولید نمونه های مصنوعی یا جعلی استفاده می کند.
D(G(z)) زمانی که نمونه تولید شده داده می شود، خروجی تفکیک کننده را نشان می دهد (G(z)) به عنوان ورودی این نشان دهنده طبقه بندی یا تخمین متمایز کننده از واقعی یا جعلی بودن نمونه تولید شده است.
$E_{ز}$ عملگر مقدار مورد انتظار است که برای تمام ورودی های تصادفی ژنراتور اعمال می شود. این نشان دهنده مقدار متوسط خروجی تفکیک کننده هنگام ارائه نمونه تولید شده است ز به عنوان ورودی

فرآیند بهینه‌سازی در معادله (۱) ژنراتور را به سمت ایجاد نمونه‌هایی سوق می‌دهد که به طور فزاینده‌ای شبیه داده‌های واقعی هستند و اختلاف بین توزیع واقعی و تولید شده را کاهش می‌دهد.

هر دو جی و د به اشتراک گذاشتن معماری شبکه های عصبی مشابه برای بهبود عملکرد مدل، پس انتشار معمولی [۴۵] برای بهینه سازی شبکه با به حداقل رساندن عملکرد تلفات استفاده می شود. این فرآیند شامل ردیابی خطاها از لایه خروجی به لایه ورودی و تنظیم وزن شبکه در هر لایه است. هدف کاهش تفاوت بین مقادیر پیش‌بینی‌شده و واقعی است و به تدریج توانایی مدل برای طبقه‌بندی صحیح نمونه‌ها را افزایش می‌دهد. در این کار یادگیری بدون نظارت، نزول گرادیان کلاسیک [۳۹,۴۰,۴۵] در تعداد محدودی از تکرار استفاده می شود. به طور خاص، بهینه ساز “آدام”. [۳۳,۴۰,۴۵]، یک گسترش موثر از نزول گرادیان، به صورت پویا پارامترهای شبکه را به طور مکرر به روز می کند. از طریق این فرآیند تکراری به‌روزرسانی وزن‌های شبکه، مدل اصلاح می‌شود و قابلیت‌های پیش‌بینی خود را با ویژگی‌های به‌روز و وزن‌های تنظیم‌شده بهبود می‌بخشد. در نهایت، این تکنیک شبکه را قادر می سازد تا از خطاها درس گرفته و پیش بینی های دقیق تری انجام دهد.

در مراحل اولیه آموزش، ژنراتور (جی(د) برای شناسایی جعلی ها. با این حال، با پیشرفت آموزش، جی توانایی خود را برای تولید نمونه های مصنوعی بهبود می بخشد، به تدریج فریب می دهد د در طبقه بندی اشتباه نمونه ها هدف از جی رسیدن به حالتی است که د دیگر نمی تواند به طور قابل اعتماد بین نقاط داده واقعی و مصنوعی تمایز قائل شود.

از دیدگاه داده محور، GAN ها چندین مزیت را ارائه می دهند:

ضبط توزیع داده ها: GAN ها توزیع داده های اساسی را مستقیماً از مجموعه داده ورودی بدون تکیه بر فرضیات صریح یا مدل های از پیش تعریف شده می آموزند. این امکان تولید داده های مصنوعی را فراهم می کند که شباهت زیادی به توزیع داده های واقعی دارد و الگوهای داده های جهانی و محلی را به تصویر می کشد.
انعطاف پذیری و سازگاری: GAN ها بسیار انعطاف پذیر و سازگار هستند و آنها را برای انواع داده ها و دامنه های مختلف مناسب می کند. آنها می توانند از روش های مختلف داده مانند تصاویر، متن و داده های عددی پشتیبانی کنند و آنها را برای تولید داده های مصنوعی در دامنه های مختلف بسیار متنوع می کند.
تبدیل داده های غیر خطی: GAN ها می توانند روابط پیچیده و غیرخطی درون داده ها را ثبت کنند و امکان تولید نمونه های مصنوعی را فراهم کنند که الگوها و ساختارهای پیچیده موجود در داده های واقعی را نشان می دهند. این به ویژه برای دامنه هایی با وابستگی داده های پیچیده مانند امور مالی مفید است.
حریم خصوصی و امنیت افزایش یافته: با تولید داده های مصنوعی، GAN ها ابزاری برای به اشتراک گذاری داده ها برای تحقیق یا همکاری با حفظ حریم خصوصی و محرمانه بودن ارائه می دهند. داده های مصنوعی را می توان به جای داده های واقعی حساس استفاده کرد و خطر نقض حریم خصوصی یا نشت داده ها را کاهش داد.
بهبود مستمر: GAN ها را می توان به طور مکرر آموزش داد تا عملکرد خود را بهبود بخشد و داده های مصنوعی واقعی تر را در طول زمان تولید کند. با تنظیم دقیق معماری مدل و پارامترهای آموزشی، GAN ها می توانند به تدریج توانایی خود را برای تولید نمونه های داده ای که با توزیع داده های زیربنایی هماهنگ هستند، بهبود بخشند.

ادغام GAN ها در تولید داده های مصنوعی با رویکرد داده محور با استفاده از تکنیک های پیشرفته یادگیری ماشینی برای ضبط و تکرار توزیع های داده پیچیده موجود در مجموعه داده های دنیای واقعی، همسو می شود. این رویکرد انعطاف‌پذیری و مقیاس‌پذیری لازم را برای تولید داده‌های مصنوعی حفظ حریم خصوصی فراهم می‌کند که از نزدیک مجموعه داده اصلی را نشان می‌دهد.

تنظیمات و پارامترهای مدل

هدف اولیه ما ترکیب داده های مالی مداوم است و برای این منظور، راه حلی را که اخیراً در آن پیشنهاد شده است، پیاده سازی کردیم [۴۶]، که قبلاً به چالش های مشابه در حوزه داده های جدولی پرداخته است (کد پایتون در دسترس نویسندگان در: https://github.com/Diyago/GAN-for-tabular-data، در ۸ مه ۲۰۲۴ قابل دسترسی است). این TabularGAN، که ما از آن به عنوان پایه استفاده خواهیم کرد، به طور خاص برای توزیع های ناهموار طراحی شده است. ما مجموعه داده خود را با استفاده از مدل پیشنهادی آزمایش کردیم و نتایج قابل توجهی را مشاهده نکردیم که بتواند بر چالش‌های خاص ما غلبه کند. این فقدان تأثیر را می توان به این واقعیت نسبت داد که مجموعه داده ورودی ما بسیار تخصصی است و این امکان را برای پیاده سازی پیشرفت های مختلف در مدل فراهم می کند، همانطور که در ادامه توضیح داده خواهد شد، به طوری که با الزامات وظیفه ما هماهنگ شود. در ادامه مقاله به این نسخه اصلاح شده مدل GAN با عنوان “FinGAN” اشاره خواهیم کرد. در واقع، انتخاب و تنظیم چند فراپارامتر، مانند دوره‌ها، اندازه دسته، نرخ یادگیری و توقف اولیه، نقش‌های محوری در آموزش مدل GAN ایفا می‌کنند. نقش های مختلف آنها در ادامه توضیح داده شده است.

دوره ها: تعیین تعداد تکرارهایی که کل مجموعه داده در طول آموزش از شبکه عبور می کند بسیار مهم است. در حالی که تعداد دوره‌های بالاتر می‌تواند به مدل اجازه دهد تا الگوهای پیچیده‌تری را بیاموزد، دوره‌های بیش از حد ممکن است به بیش از حد برازش منجر شود. در مدل FinGAN خود، مقدار دوره را با دقت تنظیم کردیم، که در مدل پایه روی ۵۰۰ تنظیم شد، که برای گرفتن الگوهای شبکه پیچیده کافی نبود. ارزش های دورانی بیش از حد بالا، به جای دستیابی به تعمیم مؤثر، به خاطر سپردن داده های آموزشی را به خطر می اندازد. بنابراین، یک تنظیم آزمایشی بهینه مورد نیاز بود، که مقدار ۱۰۰۰ دوره را به عنوان یک مبادله بهینه ارائه می کرد.
اندازه دسته ای: تعداد نمونه های پردازش شده قبل از به روز رسانی پارامترهای مدل، که به عنوان اندازه دسته ای شناخته می شود، نقش مهمی ایفا می کند. اندازه‌های دسته‌ای بزرگ‌تر، مانند مدل پایه GAN 500، ممکن است آموزش را سرعت بخشد، اما با افزایش تقاضای حافظه همراه است. در FinGAN، ما به طور تجربی اندازه دسته را به ۱۲۸ کاهش دادیم، با هدف افزایش پایداری و به طور بالقوه تسریع همگرایی.
نرخ یادگیری: نرخ یادگیری، کنترل اندازه مرحله به روز رسانی پارامترها در طول آموزش، یکی دیگر از پارامترهای مهم است. نرخ یادگیری بالاتر می تواند منجر به همگرایی سریعتر شود، اما ممکن است باعث بی ثباتی شود. در FinGAN، ما به طور تجربی نرخ یادگیری کمتری ۰٫۰۰۰۱ را انتخاب کردیم، که بر خلاف استفاده از مدل پایه از ۰٫۰۲، ثبات را در طول همگرایی افزایش داد. مهم است که توجه داشته باشید که ایجاد تعادل مناسب کلیدی است، زیرا نرخ یادگیری بسیار کم ممکن است سرعت همگرایی را مختل کند.
توقف زودهنگام: معرفی توقف زودهنگام به عنوان مکانیزمی برای توقف تمرین در صورت رعایت معیارهای خاص نیز مهم است. این کار با توقف آموزش قبل از اینکه مدل شروع به تنظیم نویز در داده ها کند، از برازش بیش از حد جلوگیری می کند و همچنین به حفظ منابع محاسباتی کمک می کند. FinGAN دارای توقف اولیه است، در حالی که مدل GAN پایه فاقد این ویژگی است.

روش پیشنهادی در این مقاله در نمودار جریان نشان داده شده در شکل ۲ نشان داده شده است. هر مرحله از روش به طور مفصل در زیر توضیح داده شده است:

مجموعه داده ورودی: این مجموعه داده پیوسته مالی را نشان می دهد که به عنوان داده ورودی برای مراحل بعدی عمل می کند.
اولیه سازی TabularGAN: در ابتدا، مدل TabularGAN را به عنوان نقطه شروع گردش کار خود ایجاد کردیم.
اتلاف زیاد و واگرایی داده های خروجی: در طول این فرآیند، ما تلفات و واگرایی بالایی را در داده های خروجی تجربه کردیم، به ویژه در مورد استفاده از مدل TabularGAN در مجموعه داده ما.
Baseline GAN: سپس، ما از مدل TabularGAN به مدل GAN پایه به عنوان یک رویکرد جایگزین تغییر مکان دادیم.
Refinement-FinGan: ما مدل پایه GAN را برای تطابق بهتر با داده های مالی با تغییر معماری Generator (G) و Discriminator (D) اصلاح می کنیم. این سازگاری منجر به ایجاد مدل FinGAN می شود.
تنظیم Hyperparameters: تنظیم دقیق فراپارامترهایی مانند “Epochs”، “Batch Size” و “Learning Rate” برای بهینه سازی عملکرد مدل FinGAN انجام می شود.
افزودن پایداری: ویژگی‌های اضافی مانند «توقف زودهنگام» و «عادی‌سازی دسته‌ای» در مدل FinGAN برای بهبود پایداری و عملکرد آن گنجانده شده‌اند.
منظم‌سازی: تکنیک‌هایی برای کنترل فضای پنهان به‌کار می‌رود، به‌ویژه با استفاده از منظم‌سازی برای محدود کردن محدوده نقاط داده تولید شده.
مدل آموزش و ارزیابی: مدل FinGAN بر روی داده های مالی آموزش داده شده و عملکرد آن ارزیابی می شود. این شامل نظارت بر منحنی یادگیری و تنظیم دقیق ژنراتور است.
مجموعه داده مصنوعی تولید شده: در آخرین مرحله از گردش کار خود، از مدل آموزش‌دیده FinGAN برای تولید مجموعه داده مصنوعی که ویژگی‌های داده‌های مالی اصلی را تکرار می‌کند، استفاده کردیم. این فرآیند شامل بکارگیری شبکه مولد آموزش دیده برای تولید نقاط داده مصنوعی است که الگوها و توزیع‌های موجود در مجموعه داده‌های مالی واقعی ورودی را از نزدیک منعکس می‌کند.

در پیکربندی نهایی مدل خود، ما نرمال سازی دسته ای را نسبت به مدل پایه GAN اضافه کردیم [۴۶]، که با عادی سازی ورودی های لایه و پرداختن موثر به چالش هایی مانند ناپدید شدن یا انفجار شیب ها و ارتقای همگرایی بهبود یافته، پایداری آموزش را افزایش داد. ما تلفات را با میانگین‌گیری دسته‌های داده واقعی و تولید شده محاسبه کردیم، و پیشرفت مدل را بر اساس میزان دقتی که مولد داده‌های واقعی را تکثیر کرده است، هدایت می‌کنیم. نظارت اولیه منحنی یادگیری بینش هایی را در مورد رفتار مدل ارائه می دهد و تنظیمات لازم را برای دستیابی به الگوهای یادگیری مطلوب امکان پذیر می کند. نرمال سازی دسته ای ادغام ورودی های استاندارد شده را تسهیل می کند و منجر به همگرایی سریعتر و افزایش کارایی کلی می شود. کنترل دقیق بر خروجی ژنراتور، واقع‌گرایی در داده‌های تولید شده را تضمین می‌کند و امکان تنظیم دقیق برای تطابق نزدیک‌تر با توزیع داده‌های واقعی را فراهم می‌کند.

در خط پایه TabularGAN، ما تلفات زیاد و تفاوت قابل توجهی بین داده های ورودی داده شده به مدل و خروجی تولید شده را شناسایی کردیم. این اختلاف نشان داد که مؤلفه مولد TabularGAN نقاط داده‌ای را تولید می‌کند که ارزش فوق‌العاده بالایی دارند و باعث ایجاد واگرایی از توزیع مورد نظر می‌شود. برای رفع این چالش، ما به تکنیک‌های مختلف با هدف کنترل نمونه‌ها در فضای پنهان GAN پرداختیم. ما سه روش اصلی را بررسی کردیم: منظم سازی [۴۷]تزریق سر و صدا و بستن [۴۸].

روش‌های منظم‌سازی، به‌ویژه برای ماهیت مداوم داده‌های مالی، نقش حیاتی ایفا کردند. با اعمال قانون‌گذاری، می‌توانیم نقاط داده تولید شده را در محدوده‌های مورد نظر محدود کنیم و آنها را بهتر با ویژگی‌های داده‌های مالی واقعی تراز کنیم. تزریق نویز یکی دیگر از تکنیک های مهمی بود که ما اتخاذ کردیم. با وارد کردن تصادفی کنترل شده در فضای پنهان، از تطبیق بیش از حد مدل به نقاط داده خاص جلوگیری کرد. در نهایت، بستن محدودیت‌ها یا مرزهایی را برای مقادیر در فضای پنهان تعیین می‌کند و اطمینان می‌دهد که داده‌های تولید شده به ویژگی‌های داده‌های مالی پیوسته پایبند هستند.

از نظر پیچیدگی محاسباتی، GAN ها با چالش هایی مانند بی ثباتی آموزش، فروپاشی حالت، و یافتن تعادل مناسب بین Generator و Discriminator مواجه هستند. برای مقابله با این چالش ها، راه حل های مختلفی از جمله طراحی معماری شبکه پایدارتر، اصلاح اهداف یادگیری، منظم کردن اهداف و تنظیم فراپارامترها آزمایش شده است. این تلاش‌ها تکمیل‌کننده پیشرفت‌های انجام‌شده در مدل ما هستند، با هدف بهبود اثربخشی کلی GANs در تولید داده‌های مالی مصنوعی. به طور کلی، پیچیدگی محاسباتی GAN ها یک عامل حیاتی است که بر ثبات آموزشی، همگرایی و کیفیت نمونه های تولید شده تأثیر می گذارد. محققان به کاوش راه‌حل‌های نوآورانه برای افزایش عملکرد GAN ها و رسیدگی به چالش‌های مرتبط با پیچیدگی محاسباتی آن‌ها ادامه می‌دهند و با تلاش‌های آموزشی متمرکز ما متناسب با اهداف خاص هماهنگ می‌شوند.

۵٫ ارزیابی عملکرد

این بخش آزمایش‌های انجام‌شده را مشخص می‌کند، که با بخش ۵٫۱ شروع می‌شود، که یک نمای کلی از معیارهای استفاده شده ارائه می‌دهد. پس از این، تجزیه و تحلیل کاملی از نتایج در بخش ۵٫۲ انجام شده است، جایی که آنها با استفاده از معیارهای آماری استاندارد مورد بررسی و موشکافی قرار می گیرند. علاوه بر این، به محدودیت‌های مطالعه در بخش ۵٫۳ پرداختیم و مزایای استفاده از مجموعه داده‌های مصنوعی را در بخش ۵٫۴ برجسته کردیم.

۵٫۱٫ راه اندازی آزمایشی

هنگام ارزیابی کیفیت داده های پیوسته مصنوعی، معیارهای مختلف تعیین شده به عنوان معیارهایی برای اندازه گیری میزان همسویی نزدیک داده های پیوسته تولید شده با داده های ورودی عمل می کنند. ارزیابی ما، با معیارهای خاصی که استفاده از روش‌های ارزیابی از پیش تعریف‌شده را الزامی می‌کند، بر معیارهایی مانند واگرایی Kullback–Leibler (KL Divergence) متکی است. [۴۹]فاصله واسرشتاین [۵۰]فاصله انرژی [۵۱]و حداکثر اختلاف میانگین (MMD) [52]. این معیارها معیارهای کمی را برای ارزیابی شباهت بین داده های پیوسته تولید شده و توزیع داده های واقعی، همانطور که در جدول ۱ نشان داده شده است، ارائه می دهند. در زیر، هر یک از آنها را شرح می دهیم.

واگرایی KL تفاوت بین دو توزیع احتمال را اندازه گیری می کند که از ۰ (شباهت کامل) تا بی نهایت مثبت (عدم تشابه کامل) متغیر است. مقادیر نزدیک به صفر حاکی از توزیع های مشابه است، در حالی که مقادیر بالاتر نشان دهنده عدم تشابه بیشتر است که برای تمایز بین دو توزیع پیوسته عمل می کند. [۴۹].
فاصله Wasserstein یک متریک به طور گسترده برای داده های پیوسته است که فاصله بین دو توزیع احتمال را در فضاهای پیوسته اندازه گیری می کند. این تبدیل مورد نیاز برای تراز کردن یک توزیع با توزیع دیگر را اندازه گیری می کند، جایی که مقادیر کوچکتر به معنای شباهت بالاتر و مقادیر بزرگتر نشان دهنده عدم تشابه قابل توجه است. [۵۰].
فاصله انرژی، مانند واگرایی KL و فاصله واسرشتاین، معیار دیگری است که برای مقایسه دو توزیع احتمال استفاده می شود. تفاوت بین توزیع ها را در یک فضای پیوسته تعیین می کند و میزان تفاوت آنها را ارزیابی می کند. مقادیر کوچکتر نشان دهنده شباهت بیشتر است، در حالی که مقادیر بزرگتر نشان دهنده عدم تشابه بیشتر بین دو توزیع است. [۵۱].
حداکثر میانگین اختلاف (MMD) یک معیار آماری است که برای ارزیابی عدم تشابه بین دو مجموعه داده یا توزیع احتمال استفاده می شود. تفاوت بین توزیع‌ها را با تخمین حداکثر اختلاف میانگین بین نمونه‌های داده‌های گرفته‌شده از هر توزیع کمیت می‌کند. مقادیر کوچکتر MMD نشان دهنده شباهت بیشتر است، در حالی که مقادیر بزرگتر به معنای تفاوت های اساسی بیشتر بین توزیع ها است. [۵۲].

ما به طور گسترده عملکرد و کیفیت خروجی دو مدل را در مجموعه داده ورودی با این معیارها ارزیابی و مقایسه کردیم. هدف ما آزمایش قابلیت‌های FinGAN در تولید داده‌های پیوسته مالی مصنوعی شبیه داده‌های مالی واقعی از نظر توزیع، ویژگی‌ها و ویژگی‌ها، حصول اطمینان از اثربخشی و ارتباط در برنامه‌های مالی است.

۵٫۲٫ تجزیه و تحلیل نتایج

در این بخش، نتایج به دست آمده از FinGAN را ارزیابی کرده و نتایج را با خط پایه TabularGAN مقایسه می کنیم. [۴۶]. تمرکز ما بر ارزیابی کیفیت داده‌های پیوسته مصنوعی تازه تولید شده در مقایسه با داده‌های ورودی واقعی است.

نتایج ارزیابی، که در جدول ۱ گزارش شده است، نشان می دهد که FinGAN به طور مداوم از خط پایه TabularGAN در تمام معیارهای ارزیابی بهتر عمل می کند. برای درک بهتر داده ها، معیارهای آماری مانند میانگین، انحراف معیار، حداقل، حداکثر و صدک ها را برای داده های واقعی (جدول ۲) و داده های مصنوعی (جدول ۳) به نمایش گذاشته ایم. این جداول ویژگی های مجموعه داده ها را برجسته می کند و ویژگی های آماری آنها را توصیف می کند و بر شباهت ها و شباهت نزدیک آنها تأکید می کند.

به منظور ارائه مقایسه قوی تر از عملکرد الگوریتم های مختلف، از آزمون فریدمن استفاده کردیم. [۵۳,۵۴] و مربوط به آن Nemenyi Post hoc Test [55,56] برای ارزیابی اهمیت آماری تفاوت‌های رتبه‌بندی بین FinGAN و TabularGAN. برای جزئیات بیشتر در مورد آزمون های آماری مورد استفاده برای مقایسه الگوریتم با مجموعه داده های متعدد، خواننده به Madjarov و همکاران مراجعه می کند. [۵۷] و Demśar [58].

بر اساس آزمون فریدمن، تفاوت معنی داری بین رتبه های ارزیابی شده (در سطح معنی داری ۱ درصد) مشاهده می شود. از آنجایی که فرضیه صفر هم ارزی در رتبه بندی الگوریتم رد می شود، ما همچنین با استفاده از آزمون تعقیبی Nemenyi یک مقایسه زوجی انجام می دهیم. این آزمون عملکرد دو الگوریتم را به طور قابل‌توجهی متفاوت در نظر می‌گیرد در صورتی که تفاوت در رتبه‌های میانگین بیشتر از یک اختلاف بحرانی آستانه باشد، که در سطح معنی‌داری ۱ درصد، با مقدار بحرانی مطابقت دارد. $۰٫۱۸۳$ . دریافتیم که تفاوت محاسبه شده بین میانگین رتبه های الگوریتم ها است $۰٫۵۲۸$ . نتیجه ثابت می‌کند که FinGAN از نظر آماری بر اساس آزمون Nemenyi از TabularGAN بهتر عمل می‌کند، زیرا تفاوت زوجی میانگین رتبه آن نسبت به رتبه TabularGAN در مقایسه با مقدار بحرانی بزرگ‌تر است. $۰٫۱۸۳$ .

ما همچنین ضرایب همبستگی پیرسون را برای ارزیابی رابطه بین مقادیر ویژگی‌های متناظر در دو مجموعه داده محاسبه کرده‌ایم. آنها در جدول ۴ نشان داده شده اند. مشخصاً، هر جفت از چهار ویژگی متناظر یک همبستگی مثبت قوی را نشان می دهد. ارتباط آماری این همبستگی ها به طور پیوسته ثابت شده است، همانطور که در منعکس شده است پ– مقادیری که همگی زیر ۰٫۰۰۵ هستند.

علاوه بر این، برای نشان دادن بصری این همبستگی، ما همچنین تصاویری را ارائه می‌کنیم که ویژگی‌های هر دو مجموعه داده را برجسته می‌کند، هر ویژگی را به صورت جداگانه بررسی می‌کند و یک نمای کلی از کل مجموعه نمونه ارائه می‌دهد. به طور خاص، توزیع فرکانس تجمعی نشان داده شده در شکل ۳، توزیع مقادیر را برای هر ویژگی نشان می دهد. این منحنی مجموع تجمعی توزیع فرکانس را نشان می دهد و با مقایسه نقاط داده واقعی (آبی) و نقاط داده مصنوعی (نارنجی) بینشی در مورد الگوی و شکل کلی توزیع داده ارائه می دهد.

سپس، در شکل ۴، توزیع هر ویژگی را گزارش می کنیم. توزیع داده برای داده های واقعی با رنگ آبی نشان داده شده است، در حالی که توزیع داده مصنوعی به رنگ نارنجی نشان داده شده است. همانطور که خواننده ممکن است مشاهده کند، شباهت های آشکار و همبستگی های نزدیک بین آنها وجود دارد. در نهایت، شکل ۵ مقایسه توزیع و امتیاز شباهت بین کل مجموعه داده های پیوسته را نشان می دهد.

ترکیب این تجسم‌های کیفی با معیارهای کمی گزارش‌شده در جدول ۱، جدول ۲، جدول ۳ و جدول ۴ امکان ارزیابی جامع شباهت بین این توزیع‌ها را فراهم می‌کند و عملکرد امیدوارکننده مدل FinGAN را برای کار در نظر گرفته نشان می‌دهد. از تمام نتایج گزارش‌شده، می‌توانیم ببینیم که FinGAN در ایجاد داده‌های مصنوعی با کیفیت بالا و پیوسته که دقیقاً منعکس‌کننده توزیع اصلی است، بسیار کارآمد است، بنابراین راه‌حل‌هایی برای مشکلات کمبود داده و در دسترس بودن در حوزه مالی ارائه می‌دهد.

۵٫۳٫ محدودیت های مطالعه

در مطالعه ما، محدودیت‌هایی ناشی از تمرکز صرف بر مجموعه داده‌های مالی مستمر است که تعمیم‌پذیری روش‌شناسی ما را محدود می‌کند. در حالی که در این زمینه موثر است، تحقیقات آینده ما با استفاده از انواع داده‌های متنوع، از جمله متغیرهای طبقه‌بندی شده مانند سن و جنسیت، در الگوریتم ما، هدف آن گسترش کاربرد آن است. در حال حاضر، مدل FinGAN برای ویژگی های داده های مالی بهینه شده است. با این حال، کار آینده استفاده از آن را در مجموعه داده‌های مالی مختلف برای انجام آزمایش‌ها و آزمایش‌های اضافی بررسی خواهد کرد.

علاوه بر این، ما قصد داریم تا روش‌های ارزیابی اضافی، مانند TSTR (آموزش مصنوعی، آزمایش روی واقعی)، یا سایر کارهای پایین‌دستی را ادغام کنیم تا اثربخشی رویکرد خود را تأیید کنیم.

۵٫۴٫ مزایا و استفاده از مجموعه داده های مصنوعی

برای تحریک بیشتر خواننده در مورد موضوع، در این بخش، ما مزایای اصلی و استفاده ناشی از رویکرد ما در تولید مجموعه‌های داده مصنوعی را برجسته می‌کنیم.

کاهش کمبود داده: مجموعه داده های مصنوعی جدید تولید شده به عنوان راه حلی برای غلبه بر مشکلات کمبود داده که اغلب در مجموعه داده های مالی با آن مواجه می شوند، عمل می کنند. با تولید نقاط داده مصنوعی اضافی، مجموعه داده اصلی را تقویت می‌کنیم و امکان تجزیه و تحلیل قوی‌تر و آموزش مدل را فراهم می‌کنیم.
تفکیک ناسازگاری: این تولید داده مصنوعی همچنین ناسازگاری‌های موجود در داده‌های اصلی را با اطمینان از اینکه مجموعه داده مصنوعی ما انسجام و سازگاری را در بین ویژگی‌های داده مختلف حفظ می‌کند، برطرف می‌کند. این به تجزیه و تحلیل های قابل اعتمادتر و دقیق تر و توسعه مدل کمک می کند.
افزایش تنوع: مجموعه داده مصنوعی تنوع را برای جبران شرایطی که داده های اصلی ممکن است فاقد تنوع باشند یا از تعصب رنج می برند، ترکیب می کند. این تنوع برای گرفتن طیف وسیع تری از سناریوها و اطمینان از استحکام مدل های تحلیلی بسیار مهم است.
جبران کامل بودن: در سناریوهایی که داده های اصلی ناقص یا محدود به دسترسی هستند، یک مجموعه داده مصنوعی جدید تولید شده یک نمایش جامع و کامل از توزیع داده های اساسی را ارائه می دهد. این کامل بودن، قابلیت اطمینان و اثربخشی تحلیل‌های مبتنی بر داده و فرآیندهای تصمیم‌گیری را افزایش می‌دهد.

۶٫ نتیجه گیری و کار آینده

این مقاله FinGAN را ارائه کرده است، یک مدل شبکه متخاصم مولد بهبود یافته که برای ایجاد داده های پیوسته مصنوعی در حوزه مالی طراحی شده است. این مدل الگوهای پیچیده موجود در داده‌های اصلی را با استفاده از تکنیک‌هایی مانند تنظیم تعداد لایه‌ها، پیکربندی‌های نورون، معیارهای توقف اولیه و تنظیم دقیق فراپارامترها، از جمله نرخ‌های یادگیری و توابع فعال‌سازی، به خوبی ثبت می‌کند. عملکرد و کیفیت خروجی FinGAN مورد ارزیابی قرار گرفت و با یک مدل GAN پایه مقایسه شد. نتایج نشان می‌دهد که FinGAN در تولید داده‌های مالی مصنوعی با کیفیت بالا و پیوسته که دقیقاً منعکس کننده توزیع اصلی است، بسیار کارآمد است. این آن را به یک راه حل امیدوارکننده برای مقابله با مسائل مربوط به کمبود داده و دسترسی محدود تبدیل می کند. اگرچه ما بر حوزه مالی تمرکز کرده‌ایم، خط لوله توصیف شده کاملاً قابل تعمیم است و می‌تواند در اصل برای سایر حوزه‌های مشکل با ویژگی‌های مشابه اعمال شود.

در کار آینده، هدف ما گسترش کاربرد روش‌شناسی خود فراتر از قلمرو داده‌های مالی مستمر است. ما می خواهیم انواع داده های دسته بندی و عددی، مانند سن و جنسیت را در الگوریتم خود ادغام کنیم تا تطبیق پذیری آن را افزایش دهیم. در حال حاضر، مدل FinGAN به طور خاص برای حوزه مالی و ویژگی‌های مجموعه داده‌ای که بر روی آن کار می‌کند، طراحی شده است. با این حال، تلاش‌های آینده استفاده از FinGAN را با مجموعه‌های داده مالی مختلف برای انجام آزمایش‌ها و آزمایش‌های اضافی بررسی خواهد کرد. علاوه بر این، ما قصد داریم روش‌های ارزیابی اضافی مانند TSTR (آموزش مصنوعی، آزمایش بر روی واقعی) یا سایر کارهای پایین‌دستی را برای اعتبارسنجی بیشتر کارآمدی رویکرد خود وارد کنیم.

منبع: https://www.mdpi.com/2673-2688/5/2/35