۱٫ معرفی
به طور مشابه، سازمان های مراقبت های بهداشتی در بخش پزشکی به دلیل مجموعه داده های کوچک، که مانع توسعه مدل های پیش بینی برای تشخیص بیماری و نتایج درمان می شود، با چالش هایی مواجه هستند. مقررات سختگیرانه حفظ حریم خصوصی، اشتراک گذاری اطلاعات خاص بیمار را محدود می کند، بنابراین مانع از تحقیقات مشترک و ایجاد مدل های پیش بینی دقیق مورد نیاز برای پزشکی شخصی می شود.
در چنین زمینهای، وظیفهای که در این مقاله قصد داریم به آن بپردازیم شامل ترکیب یک مجموعه داده شبیه دادههای ورودی با ویژگیهای مشابه است. مجموعه داده ورودی از بازار سهام می آید و چندین محدودیت را ارائه می دهد: تعداد محدودی از نمونه های داده و تناقضات متعدد، از جمله مقادیر گمشده، ردیف های تکراری، و مقادیر بدون مقیاس.
انگیزه اصلی این کار در پرداختن به چالشهای کمبود داده، حل ناسازگاریها و تولید مجموعه دادههای متنوعتر است که بسیار مقرونبهصرفه هستند. ما یک معماری GAN را با یک پیکربندی پارامتر سفارشی و با دقت طراحی شده پیاده سازی کرده ایم که برای اهداف افزایش داده ها بهینه شده است.
داده های تولید شده به صورت مصنوعی عملکرد مدل را بهبود می بخشد و تعمیم بهتر را ممکن می سازد. علاوه بر این، انعطاف پذیری GAN ها به ما اجازه می دهد تا فرآیند تولید داده را با حوزه های مختلف تطبیق دهیم و ابزار ارزشمندی برای وظایف مختلف یادگیری بدون نظارت فراهم کنیم.
با جزئیات بیشتر، مشارکت هایی که ما با کار خود آورده ایم به شرح زیر است:
-
گسترش اندازه مجموعه داده – روش ما با موفقیت اندازه مجموعه داده های مالی اصلی را گسترش می دهد و به مسئله دسترسی محدود داده برای آموزش و تولید اندازه های متنوع نمونه های همبسته می پردازد.
-
عملکرد مدل پیشرفته – استفاده از دادههای مصنوعی با ارائه مثالهای بیشتر و دادههای متنوع، عملکرد مدلهای مختلف را بهبود میبخشد و به مدلها کمک میکند سناریوهای مختلف را درک کنند و به طور مؤثرتر با موارد پرت و رویدادهای نادر برخورد کنند.
-
راه حل مقرون به صرفه- تولید داده های مصنوعی ثابت می کند که جایگزین مقرون به صرفه ای برای فرآیندهای دشوار و پرهزینه درگیر در جمع آوری، تمیز کردن و پردازش مجموعه داده های جدید است.
-
توزیعهای متوازن ویژگی – روش ما این پتانسیل را دارد که عدم تعادل در ستونهای غیر پیوسته در مجموعه داده ورودی را برطرف کند. با تولید داده های مصنوعی، به طور موثر این توزیع های ویژگی های ناهموار را متعادل می کند و مفید بودن آن را برای وظایف یادگیری ماشینی افزایش می دهد.
۳٫ شرح وظیفه
در وظیفه خود که بر حوزه مالی متمرکز است، ما به طور خاص داده های مستمر حاصل از بازار سهام را هدف قرار می دهیم. این ابتکار بخشی از یک مسابقه جهانی بود که توسط BNP Paribas و Ecole Polytechnique Paris حمایت می شد و محققان مختلفی در سراسر جهان مشارکت داشتند. هدف اصلی این مسابقه، ترکیب مجموعه داده های متنوع از داده های ورودی ارائه شده بود. مجموعه داده ورودی برای این کار ناشناس بود و به طور انحصاری برای مسابقه منتشر شد.
مجموعه داده ارائه شده منحصراً برای این منظور در نظر گرفته شده است و وظیفه ما شامل دو مرحله است. مرحله اول شامل ساختاردهی داده ها، اصلاح ناسازگاری ها و اعمال محدودیت ها است که شامل حذف موارد پرت می شود. پس از پیش پردازش، ما یک مجموعه داده عادی شامل ۷۴۶ ردیف با چهار ویژگی ناشناس به دست آوردیم. مهم است که تأکید کنیم مجموعه داده محرمانه است و ما فقط از ویژگی های مرتبط با هدف استفاده می کنیم، بنابراین جزئیات شخصی و سایر اطلاعات حساس را استثنا نمی کنیم. با وجود این محدودیتها، مجموعه دادهها نقشی حیاتی در پیشبینی روند بازار سهام ایفا میکنند. با این حال، اثربخشی آن در مدلهای آموزشی به دلیل محدودیتهای اندازه و ویژگی با مانع مواجه میشود. هدف اصلی ما غلبه بر این محدودیت ها با بهبود کیفیت داده های موجود و گسترش دامنه آن از طریق روش های سنتز داده است. پرداختن به چالش های ایجاد شده توسط مجموعه داده ای از این نوع شامل پرداختن به سه مشکل کلیدی است:
-
در دسترس بودن داده محدود – اندازه کوچک مجموعه داده بر حسب ردیف، محدودیت هایی را برای مدل های ما ایجاد می کند و توانایی آنها را برای یادگیری موثر محدود می کند.
-
داده های از دست رفته – بخش های خاصی از مجموعه داده ها فاقد اطلاعات هستند و چالش هایی را در درک روندهای کامل بازار سهام ایجاد می کنند. این ممکن است به دلیل نگرانی های مربوط به حریم خصوصی یا سایر مشکلات موجود بودن داده ها باشد.
-
تأثیر بر عملکرد مدل – ناهنجاری های موجود در مجموعه داده ها به طور قابل توجهی دقت و قابلیت اطمینان مدل های ما را مختل می کند. علاوه بر این، وجود ردیفهای مفقود یا تکراری، ناسازگاریهایی ایجاد میکند که بر عملکرد مدل تأثیر منفی میگذارد.
محدودیتهای مشخص شده تأثیر قابلتوجهی بر فرآیند پیشبینی بازار سهام دارند و مستقیماً سیستمهای تصمیمگیری را شکل میدهند. این تأثیر برای سرمایهگذارانی که به پیشبینیهای دقیق برای اصلاح استراتژیهای سرمایهگذاری خود تکیه میکنند، اهمیت خاصی دارد. تصدیق و پرداختن فعالانه به این محدودیت ها امری ضروری است. یک استراتژی ضروری برای غلبه بر این چالش ها شامل ایجاد دقیق مجموعه داده های با کیفیت بالا و متنوع است. این رویکرد به مدل های ما قدرت می دهد تا به طور موثرتری یاد بگیرند و ظرفیت آنها را برای تعمیم افزایش دهد. کیفیت داده های پیشرفته، به نوبه خود، در نتایج برتر ظاهر می شود و در نهایت قابلیت اطمینان و کارایی مدل های پیش بینی ما را تقویت می کند. چنین افزایشی نه تنها فرآیندهای داخلی ما را تقویت می کند، بلکه اثرات مثبت خود را به جامعه سرمایه گذاران گسترده تر نیز گسترش می دهد. با ارائه پیشبینیهای دقیقتر بازار، ما سرمایهگذاران را به اطلاعات لازم برای تصمیمگیریهای آگاهانه مجهز میکنیم، بنابراین تجربه کلی سرمایهگذاری آنها را غنی میکنیم.
۴٫ شبکه مخالف مولد پیشنهادی
برای درک بهتر، تشبیه تشخیص ارز جعلی را به عنوان یک مثال گویا در نظر بگیرید که مفهوم اساسی چارچوب GANs را روشن می کند. نقش پلیس را در تشخیص ارز اصیل و جعلی، مشابه عملکرد یک تبعیض در این چارچوب، تصور کنید. برعکس، مجرمی که در تولید غیرقانونی ارز جعلی فعالیت می کند را می توان مشابه عملکرد یک ژنراتور در GAN ها در نظر گرفت. در این سناریو، خالق ارز جعلی به شدت تلاش میکند تا اسکناسهایی شبیه اسکناسهای واقعی بسازد تا تواناییهای تشخیص پلیس را فریب دهد. این پویا منعکس کننده تعامل بین متمایز کننده و مولد در شبکه است زیرا آنها برای تولید و طبقه بندی نمونه ها به عنوان معتبر یا تقلبی با یکدیگر همکاری می کنند.
جایی که:
-
d(x) نشان دهنده خروجی تمایز کننده است (د) هنگامی که یک نمونه واقعی داده می شود (ایکس) به عنوان ورودی احتمال واقعی بودن نمونه را تخمین می زند.
-
عملگر مقدار مورد انتظار است که برای تمام نمونه های واقعی اعمال می شود. این نشان دهنده مقدار متوسط خروجی تفکیک کننده در یک نمونه واقعی است ایکس به عنوان ورودی
-
G(z) خروجی ژنراتور را نشان می دهد (G) هنگامی که یک ورودی تصادفی (نویز یا نقطه نهفته) به عنوان نشان داده می شود ز. ژنراتور از این ورودی برای تولید نمونه های مصنوعی یا جعلی استفاده می کند.
-
D(G(z)) زمانی که نمونه تولید شده داده می شود، خروجی تفکیک کننده را نشان می دهد (G(z)) به عنوان ورودی این نشان دهنده طبقه بندی یا تخمین متمایز کننده از واقعی یا جعلی بودن نمونه تولید شده است.
-
عملگر مقدار مورد انتظار است که برای تمام ورودی های تصادفی ژنراتور اعمال می شود. این نشان دهنده مقدار متوسط خروجی تفکیک کننده هنگام ارائه نمونه تولید شده است ز به عنوان ورودی
در مراحل اولیه آموزش، ژنراتور (جی(د) برای شناسایی جعلی ها. با این حال، با پیشرفت آموزش، جی توانایی خود را برای تولید نمونه های مصنوعی بهبود می بخشد، به تدریج فریب می دهد د در طبقه بندی اشتباه نمونه ها هدف از جی رسیدن به حالتی است که د دیگر نمی تواند به طور قابل اعتماد بین نقاط داده واقعی و مصنوعی تمایز قائل شود.
از دیدگاه داده محور، GAN ها چندین مزیت را ارائه می دهند:
-
ضبط توزیع داده ها: GAN ها توزیع داده های اساسی را مستقیماً از مجموعه داده ورودی بدون تکیه بر فرضیات صریح یا مدل های از پیش تعریف شده می آموزند. این امکان تولید داده های مصنوعی را فراهم می کند که شباهت زیادی به توزیع داده های واقعی دارد و الگوهای داده های جهانی و محلی را به تصویر می کشد.
-
انعطاف پذیری و سازگاری: GAN ها بسیار انعطاف پذیر و سازگار هستند و آنها را برای انواع داده ها و دامنه های مختلف مناسب می کند. آنها می توانند از روش های مختلف داده مانند تصاویر، متن و داده های عددی پشتیبانی کنند و آنها را برای تولید داده های مصنوعی در دامنه های مختلف بسیار متنوع می کند.
-
تبدیل داده های غیر خطی: GAN ها می توانند روابط پیچیده و غیرخطی درون داده ها را ثبت کنند و امکان تولید نمونه های مصنوعی را فراهم کنند که الگوها و ساختارهای پیچیده موجود در داده های واقعی را نشان می دهند. این به ویژه برای دامنه هایی با وابستگی داده های پیچیده مانند امور مالی مفید است.
-
حریم خصوصی و امنیت افزایش یافته: با تولید داده های مصنوعی، GAN ها ابزاری برای به اشتراک گذاری داده ها برای تحقیق یا همکاری با حفظ حریم خصوصی و محرمانه بودن ارائه می دهند. داده های مصنوعی را می توان به جای داده های واقعی حساس استفاده کرد و خطر نقض حریم خصوصی یا نشت داده ها را کاهش داد.
-
بهبود مستمر: GAN ها را می توان به طور مکرر آموزش داد تا عملکرد خود را بهبود بخشد و داده های مصنوعی واقعی تر را در طول زمان تولید کند. با تنظیم دقیق معماری مدل و پارامترهای آموزشی، GAN ها می توانند به تدریج توانایی خود را برای تولید نمونه های داده ای که با توزیع داده های زیربنایی هماهنگ هستند، بهبود بخشند.
ادغام GAN ها در تولید داده های مصنوعی با رویکرد داده محور با استفاده از تکنیک های پیشرفته یادگیری ماشینی برای ضبط و تکرار توزیع های داده پیچیده موجود در مجموعه داده های دنیای واقعی، همسو می شود. این رویکرد انعطافپذیری و مقیاسپذیری لازم را برای تولید دادههای مصنوعی حفظ حریم خصوصی فراهم میکند که از نزدیک مجموعه داده اصلی را نشان میدهد.
تنظیمات و پارامترهای مدل
-
دوره ها: تعیین تعداد تکرارهایی که کل مجموعه داده در طول آموزش از شبکه عبور می کند بسیار مهم است. در حالی که تعداد دورههای بالاتر میتواند به مدل اجازه دهد تا الگوهای پیچیدهتری را بیاموزد، دورههای بیش از حد ممکن است به بیش از حد برازش منجر شود. در مدل FinGAN خود، مقدار دوره را با دقت تنظیم کردیم، که در مدل پایه روی ۵۰۰ تنظیم شد، که برای گرفتن الگوهای شبکه پیچیده کافی نبود. ارزش های دورانی بیش از حد بالا، به جای دستیابی به تعمیم مؤثر، به خاطر سپردن داده های آموزشی را به خطر می اندازد. بنابراین، یک تنظیم آزمایشی بهینه مورد نیاز بود، که مقدار ۱۰۰۰ دوره را به عنوان یک مبادله بهینه ارائه می کرد.
-
اندازه دسته ای: تعداد نمونه های پردازش شده قبل از به روز رسانی پارامترهای مدل، که به عنوان اندازه دسته ای شناخته می شود، نقش مهمی ایفا می کند. اندازههای دستهای بزرگتر، مانند مدل پایه GAN 500، ممکن است آموزش را سرعت بخشد، اما با افزایش تقاضای حافظه همراه است. در FinGAN، ما به طور تجربی اندازه دسته را به ۱۲۸ کاهش دادیم، با هدف افزایش پایداری و به طور بالقوه تسریع همگرایی.
-
نرخ یادگیری: نرخ یادگیری، کنترل اندازه مرحله به روز رسانی پارامترها در طول آموزش، یکی دیگر از پارامترهای مهم است. نرخ یادگیری بالاتر می تواند منجر به همگرایی سریعتر شود، اما ممکن است باعث بی ثباتی شود. در FinGAN، ما به طور تجربی نرخ یادگیری کمتری ۰٫۰۰۰۱ را انتخاب کردیم، که بر خلاف استفاده از مدل پایه از ۰٫۰۲، ثبات را در طول همگرایی افزایش داد. مهم است که توجه داشته باشید که ایجاد تعادل مناسب کلیدی است، زیرا نرخ یادگیری بسیار کم ممکن است سرعت همگرایی را مختل کند.
-
توقف زودهنگام: معرفی توقف زودهنگام به عنوان مکانیزمی برای توقف تمرین در صورت رعایت معیارهای خاص نیز مهم است. این کار با توقف آموزش قبل از اینکه مدل شروع به تنظیم نویز در داده ها کند، از برازش بیش از حد جلوگیری می کند و همچنین به حفظ منابع محاسباتی کمک می کند. FinGAN دارای توقف اولیه است، در حالی که مدل GAN پایه فاقد این ویژگی است.
-
مجموعه داده ورودی: این مجموعه داده پیوسته مالی را نشان می دهد که به عنوان داده ورودی برای مراحل بعدی عمل می کند.
-
اولیه سازی TabularGAN: در ابتدا، مدل TabularGAN را به عنوان نقطه شروع گردش کار خود ایجاد کردیم.
-
اتلاف زیاد و واگرایی داده های خروجی: در طول این فرآیند، ما تلفات و واگرایی بالایی را در داده های خروجی تجربه کردیم، به ویژه در مورد استفاده از مدل TabularGAN در مجموعه داده ما.
-
Baseline GAN: سپس، ما از مدل TabularGAN به مدل GAN پایه به عنوان یک رویکرد جایگزین تغییر مکان دادیم.
-
Refinement-FinGan: ما مدل پایه GAN را برای تطابق بهتر با داده های مالی با تغییر معماری Generator (G) و Discriminator (D) اصلاح می کنیم. این سازگاری منجر به ایجاد مدل FinGAN می شود.
-
تنظیم Hyperparameters: تنظیم دقیق فراپارامترهایی مانند “Epochs”، “Batch Size” و “Learning Rate” برای بهینه سازی عملکرد مدل FinGAN انجام می شود.
-
افزودن پایداری: ویژگیهای اضافی مانند «توقف زودهنگام» و «عادیسازی دستهای» در مدل FinGAN برای بهبود پایداری و عملکرد آن گنجانده شدهاند.
-
منظمسازی: تکنیکهایی برای کنترل فضای پنهان بهکار میرود، بهویژه با استفاده از منظمسازی برای محدود کردن محدوده نقاط داده تولید شده.
-
مدل آموزش و ارزیابی: مدل FinGAN بر روی داده های مالی آموزش داده شده و عملکرد آن ارزیابی می شود. این شامل نظارت بر منحنی یادگیری و تنظیم دقیق ژنراتور است.
-
مجموعه داده مصنوعی تولید شده: در آخرین مرحله از گردش کار خود، از مدل آموزشدیده FinGAN برای تولید مجموعه داده مصنوعی که ویژگیهای دادههای مالی اصلی را تکرار میکند، استفاده کردیم. این فرآیند شامل بکارگیری شبکه مولد آموزش دیده برای تولید نقاط داده مصنوعی است که الگوها و توزیعهای موجود در مجموعه دادههای مالی واقعی ورودی را از نزدیک منعکس میکند.
روشهای منظمسازی، بهویژه برای ماهیت مداوم دادههای مالی، نقش حیاتی ایفا کردند. با اعمال قانونگذاری، میتوانیم نقاط داده تولید شده را در محدودههای مورد نظر محدود کنیم و آنها را بهتر با ویژگیهای دادههای مالی واقعی تراز کنیم. تزریق نویز یکی دیگر از تکنیک های مهمی بود که ما اتخاذ کردیم. با وارد کردن تصادفی کنترل شده در فضای پنهان، از تطبیق بیش از حد مدل به نقاط داده خاص جلوگیری کرد. در نهایت، بستن محدودیتها یا مرزهایی را برای مقادیر در فضای پنهان تعیین میکند و اطمینان میدهد که دادههای تولید شده به ویژگیهای دادههای مالی پیوسته پایبند هستند.
از نظر پیچیدگی محاسباتی، GAN ها با چالش هایی مانند بی ثباتی آموزش، فروپاشی حالت، و یافتن تعادل مناسب بین Generator و Discriminator مواجه هستند. برای مقابله با این چالش ها، راه حل های مختلفی از جمله طراحی معماری شبکه پایدارتر، اصلاح اهداف یادگیری، منظم کردن اهداف و تنظیم فراپارامترها آزمایش شده است. این تلاشها تکمیلکننده پیشرفتهای انجامشده در مدل ما هستند، با هدف بهبود اثربخشی کلی GANs در تولید دادههای مالی مصنوعی. به طور کلی، پیچیدگی محاسباتی GAN ها یک عامل حیاتی است که بر ثبات آموزشی، همگرایی و کیفیت نمونه های تولید شده تأثیر می گذارد. محققان به کاوش راهحلهای نوآورانه برای افزایش عملکرد GAN ها و رسیدگی به چالشهای مرتبط با پیچیدگی محاسباتی آنها ادامه میدهند و با تلاشهای آموزشی متمرکز ما متناسب با اهداف خاص هماهنگ میشوند.
۵٫ ارزیابی عملکرد
۵٫۱٫ راه اندازی آزمایشی
-
واگرایی KL تفاوت بین دو توزیع احتمال را اندازه گیری می کند که از ۰ (شباهت کامل) تا بی نهایت مثبت (عدم تشابه کامل) متغیر است. مقادیر نزدیک به صفر حاکی از توزیع های مشابه است، در حالی که مقادیر بالاتر نشان دهنده عدم تشابه بیشتر است که برای تمایز بین دو توزیع پیوسته عمل می کند. [۴۹].
-
فاصله Wasserstein یک متریک به طور گسترده برای داده های پیوسته است که فاصله بین دو توزیع احتمال را در فضاهای پیوسته اندازه گیری می کند. این تبدیل مورد نیاز برای تراز کردن یک توزیع با توزیع دیگر را اندازه گیری می کند، جایی که مقادیر کوچکتر به معنای شباهت بالاتر و مقادیر بزرگتر نشان دهنده عدم تشابه قابل توجه است. [۵۰].
-
فاصله انرژی، مانند واگرایی KL و فاصله واسرشتاین، معیار دیگری است که برای مقایسه دو توزیع احتمال استفاده می شود. تفاوت بین توزیع ها را در یک فضای پیوسته تعیین می کند و میزان تفاوت آنها را ارزیابی می کند. مقادیر کوچکتر نشان دهنده شباهت بیشتر است، در حالی که مقادیر بزرگتر نشان دهنده عدم تشابه بیشتر بین دو توزیع است. [۵۱].
-
حداکثر میانگین اختلاف (MMD) یک معیار آماری است که برای ارزیابی عدم تشابه بین دو مجموعه داده یا توزیع احتمال استفاده می شود. تفاوت بین توزیعها را با تخمین حداکثر اختلاف میانگین بین نمونههای دادههای گرفتهشده از هر توزیع کمیت میکند. مقادیر کوچکتر MMD نشان دهنده شباهت بیشتر است، در حالی که مقادیر بزرگتر به معنای تفاوت های اساسی بیشتر بین توزیع ها است. [۵۲].
ما به طور گسترده عملکرد و کیفیت خروجی دو مدل را در مجموعه داده ورودی با این معیارها ارزیابی و مقایسه کردیم. هدف ما آزمایش قابلیتهای FinGAN در تولید دادههای پیوسته مالی مصنوعی شبیه دادههای مالی واقعی از نظر توزیع، ویژگیها و ویژگیها، حصول اطمینان از اثربخشی و ارتباط در برنامههای مالی است.
۵٫۲٫ تجزیه و تحلیل نتایج
بر اساس آزمون فریدمن، تفاوت معنی داری بین رتبه های ارزیابی شده (در سطح معنی داری ۱ درصد) مشاهده می شود. از آنجایی که فرضیه صفر هم ارزی در رتبه بندی الگوریتم رد می شود، ما همچنین با استفاده از آزمون تعقیبی Nemenyi یک مقایسه زوجی انجام می دهیم. این آزمون عملکرد دو الگوریتم را به طور قابلتوجهی متفاوت در نظر میگیرد در صورتی که تفاوت در رتبههای میانگین بیشتر از یک اختلاف بحرانی آستانه باشد، که در سطح معنیداری ۱ درصد، با مقدار بحرانی مطابقت دارد. . دریافتیم که تفاوت محاسبه شده بین میانگین رتبه های الگوریتم ها است . نتیجه ثابت میکند که FinGAN از نظر آماری بر اساس آزمون Nemenyi از TabularGAN بهتر عمل میکند، زیرا تفاوت زوجی میانگین رتبه آن نسبت به رتبه TabularGAN در مقایسه با مقدار بحرانی بزرگتر است. .
۵٫۳٫ محدودیت های مطالعه
در مطالعه ما، محدودیتهایی ناشی از تمرکز صرف بر مجموعه دادههای مالی مستمر است که تعمیمپذیری روششناسی ما را محدود میکند. در حالی که در این زمینه موثر است، تحقیقات آینده ما با استفاده از انواع دادههای متنوع، از جمله متغیرهای طبقهبندی شده مانند سن و جنسیت، در الگوریتم ما، هدف آن گسترش کاربرد آن است. در حال حاضر، مدل FinGAN برای ویژگی های داده های مالی بهینه شده است. با این حال، کار آینده استفاده از آن را در مجموعه دادههای مالی مختلف برای انجام آزمایشها و آزمایشهای اضافی بررسی خواهد کرد.
علاوه بر این، ما قصد داریم تا روشهای ارزیابی اضافی، مانند TSTR (آموزش مصنوعی، آزمایش روی واقعی)، یا سایر کارهای پاییندستی را ادغام کنیم تا اثربخشی رویکرد خود را تأیید کنیم.
۵٫۴٫ مزایا و استفاده از مجموعه داده های مصنوعی
برای تحریک بیشتر خواننده در مورد موضوع، در این بخش، ما مزایای اصلی و استفاده ناشی از رویکرد ما در تولید مجموعههای داده مصنوعی را برجسته میکنیم.
-
کاهش کمبود داده: مجموعه داده های مصنوعی جدید تولید شده به عنوان راه حلی برای غلبه بر مشکلات کمبود داده که اغلب در مجموعه داده های مالی با آن مواجه می شوند، عمل می کنند. با تولید نقاط داده مصنوعی اضافی، مجموعه داده اصلی را تقویت میکنیم و امکان تجزیه و تحلیل قویتر و آموزش مدل را فراهم میکنیم.
-
تفکیک ناسازگاری: این تولید داده مصنوعی همچنین ناسازگاریهای موجود در دادههای اصلی را با اطمینان از اینکه مجموعه داده مصنوعی ما انسجام و سازگاری را در بین ویژگیهای داده مختلف حفظ میکند، برطرف میکند. این به تجزیه و تحلیل های قابل اعتمادتر و دقیق تر و توسعه مدل کمک می کند.
-
افزایش تنوع: مجموعه داده مصنوعی تنوع را برای جبران شرایطی که داده های اصلی ممکن است فاقد تنوع باشند یا از تعصب رنج می برند، ترکیب می کند. این تنوع برای گرفتن طیف وسیع تری از سناریوها و اطمینان از استحکام مدل های تحلیلی بسیار مهم است.
-
جبران کامل بودن: در سناریوهایی که داده های اصلی ناقص یا محدود به دسترسی هستند، یک مجموعه داده مصنوعی جدید تولید شده یک نمایش جامع و کامل از توزیع داده های اساسی را ارائه می دهد. این کامل بودن، قابلیت اطمینان و اثربخشی تحلیلهای مبتنی بر داده و فرآیندهای تصمیمگیری را افزایش میدهد.
۶٫ نتیجه گیری و کار آینده
این مقاله FinGAN را ارائه کرده است، یک مدل شبکه متخاصم مولد بهبود یافته که برای ایجاد داده های پیوسته مصنوعی در حوزه مالی طراحی شده است. این مدل الگوهای پیچیده موجود در دادههای اصلی را با استفاده از تکنیکهایی مانند تنظیم تعداد لایهها، پیکربندیهای نورون، معیارهای توقف اولیه و تنظیم دقیق فراپارامترها، از جمله نرخهای یادگیری و توابع فعالسازی، به خوبی ثبت میکند. عملکرد و کیفیت خروجی FinGAN مورد ارزیابی قرار گرفت و با یک مدل GAN پایه مقایسه شد. نتایج نشان میدهد که FinGAN در تولید دادههای مالی مصنوعی با کیفیت بالا و پیوسته که دقیقاً منعکس کننده توزیع اصلی است، بسیار کارآمد است. این آن را به یک راه حل امیدوارکننده برای مقابله با مسائل مربوط به کمبود داده و دسترسی محدود تبدیل می کند. اگرچه ما بر حوزه مالی تمرکز کردهایم، خط لوله توصیف شده کاملاً قابل تعمیم است و میتواند در اصل برای سایر حوزههای مشکل با ویژگیهای مشابه اعمال شود.
در کار آینده، هدف ما گسترش کاربرد روششناسی خود فراتر از قلمرو دادههای مالی مستمر است. ما می خواهیم انواع داده های دسته بندی و عددی، مانند سن و جنسیت را در الگوریتم خود ادغام کنیم تا تطبیق پذیری آن را افزایش دهیم. در حال حاضر، مدل FinGAN به طور خاص برای حوزه مالی و ویژگیهای مجموعه دادهای که بر روی آن کار میکند، طراحی شده است. با این حال، تلاشهای آینده استفاده از FinGAN را با مجموعههای داده مالی مختلف برای انجام آزمایشها و آزمایشهای اضافی بررسی خواهد کرد. علاوه بر این، ما قصد داریم روشهای ارزیابی اضافی مانند TSTR (آموزش مصنوعی، آزمایش بر روی واقعی) یا سایر کارهای پاییندستی را برای اعتبارسنجی بیشتر کارآمدی رویکرد خود وارد کنیم.
منبع: https://www.mdpi.com/2673-2688/5/2/35