۴٫۳٫ ایجاد مجموعه داده
ایجاد مجموعه داده ما شامل انتخاب نام روش ها بر اساس فراوانی وقوع آنها در بدافزار و نمونه های خوش خیم است. محدودیت ۵۰ وقوع (آستانه فرکانس) برای فرکانس نام هر روش در هر کلاس تنظیم شده است تا فراخوانی های متد نادر را فیلتر کند. علاوه بر این، این آستانه با کاهش تعداد نامهای روش انتخابی از هر کلاس، بعد کلی مجموعه داده را کاهش میدهد. افزایش مقدار آستانه فرکانس منجر به تعداد کمتری از ویژگی های نهایی می شود، زیرا نام روش های کمتر رایج حذف می شود. انتخاب استفاده از آستانه ۵۰ یک تصمیم استراتژیک با هدف بهینه سازی مجموعه داده برای تجزیه و تحلیل بعدی است. طراحی شده است تا اطمینان حاصل شود که دادههای مورد استفاده برای آموزش مدلهای یادگیری ماشین قابل مدیریت و معنیدار است و امکان طبقهبندی دقیق را افزایش میدهد و در عین حال نویز و اطلاعات نامربوط را کاهش میدهد.
مراحل فرآیند انتخاب ویژگی به شرح زیر است:
-
تعداد نام روشها را هم در کلاس بدافزار و هم در کلاس خوشخیم بشمارید.
-
نام روش ها را با فرکانس زیر آستانه از پیش تعریف شده (آستانه فرکانس در مورد ما برابر با ۵۰ است) از هر دو کلاس فیلتر کنید.
-
۳۰ نام متداول بالا را در هر کلاس به طور جداگانه شناسایی کنید.
-
مجموعه ای از نام روش های رایج بین بدافزارها و کلاس های خوش خیم را با قطع این دو مجموعه تعیین کنید.
-
مجموعه ویژگی های هر دو کلاس را با استفاده از عملیات OR بین مجموعه ها ادغام کنید.
-
نام روش های رایج را از مجموعه ویژگی های ادغام شده حذف کنید.
فرآیند انتخاب ویژگی ما از اطلاعات برچسب استفاده می کند. در حالی که در مرحله انتخاب ویژگی از برچسب ها استفاده می شد، این یک مرحله پیش پردازش یک بار بود. ویژگی های جهانی نهایی پس از این مرحله ثابت شد. در طول آموزش و استنتاج، مدل تنها بر وجود یا عدم وجود این ویژگی ها تکیه می کند و از عدم وابستگی برچسب در زمان استنتاج اطمینان می دهد. دلیلی که ما تصمیم گرفتیم آستانه فرکانس وابسته به برچسب را اعمال کنیم این است که اطمینان حاصل کنیم که ویژگیهای مشترک برتر را که بین بدافزارها و نمونههای خوشخیم به اشتراک گذاشته شدهاند، به صراحت حذف میکنیم. این فرآیند انتخاب ویژگی را بهبود میبخشد و اطمینان میدهد که مجموعه نهایی نه تنها از نظر آماری مرتبط است، بلکه متمایز است. با جداسازی مجموعه داده به بدافزار و نمونههای خوشخیم، میتوانیم به صراحت همپوشانی ویژگیهای بین این دو را هدف قرار دهیم، که دستیابی به آن در یک فرآیند صرفاً مستقل از برچسب دشوار است. با این حال، توجه به این نکته مهم است که مجموعه حاصل از ۵۵۶ ویژگی کلی ثابت و مستقل از فرآیندهای آموزشی و ارزیابی بعدی باقی مانده است. این تضمین می کند که هیچ بازخورد تکراری بر طبقه بندی کننده تأثیر نمی گذارد.
سپس ۳۰ نام روش برتر را از هر دسته (بدافزار و بدخیم) انتخاب کردیم تا ویژگی های مشترک در هر کلاس را برجسته کنیم. انتخاب نام ۳۰ روش برتر به جای یک عدد بزرگتر (مثلاً ۱۰۰ مورد برتر) به ما امکان می دهد رایج ترین ویژگی ها را پیدا کرده و حذف کنیم و در عین حال حذف روش های کمتر رایج را که ممکن است برای نمایش دقیق ویژگی های نمونه ضروری باشند به حداقل برسانیم. تجزیه و تحلیل تقاطع برای کاهش ابعاد مجموعه داده با یافتن و حذف ویژگیهای مشترک بین بدافزار و کلاسهای خوشخیم استفاده شد.
- الف
-
آموزش یادگیری ماشین
در این کار، یادگیری ماشین با خودکار کردن شناسایی الگوها و رفتارهای مخرب در فایل های اجرایی دات نت نقش مهمی ایفا می کند. مدلهای آموزشی بر روی یک مجموعه داده مشتقشده از فایلهایی با نام روش داتنت (هم بدخیم و هم بدافزار) امکان طبقهبندی دقیق بین بدافزار و نرمافزار قانونی را فراهم میکند. شش الگوریتم یادگیری ماشین بر اساس نقاط قوت مختلف و کاربرد آنها برای وظایف طبقهبندی باینری در تشخیص بدافزار انتخاب شدند. ما استفاده از XGBoost، جنگل تصادفی، KNN (K-نزدیکترین همسایگان)، SVM (ماشین بردار پشتیبان)، رگرسیون لجستیک و Bayes ساده را انتخاب کردیم. الگوریتم XGBoost به دلیل توانایی آن در مدیریت داده های با ابعاد بالا و گرفتن الگوهای پیچیده انتخاب شد. تکنیکهای منظمسازی آن، آن را در برابر بیش از حد برازش قوی میکند، بهویژه هنگام کار با مجموعه دادههای پر سر و صدا. ما جنگل تصادفی را به دلیل ماهیت مجموعه آن در نظر گرفتیم، که چندین درخت تصمیم را برای بهبود دقت پیشبینی ترکیب میکند. این به دلیل انعطاف پذیری در برابر برازش بیش از حد و توانایی آن در مدیریت داده های طبقه بندی شده و پیوسته شناخته شده است که آن را در گرفتن واریانس در مجموعه داده ما موثر می کند. KNN یک الگوریتم ناپارامتریک است که در تشخیص ساختارهای داده محلی به خوبی عمل می کند، که می تواند هنگام تمایز بین فایل های اجرایی بدخیم و مخرب مشابه مهم باشد. با این حال، می تواند به مقیاس داده ها حساس باشد و در برابر نویز مقاومت کمتری دارد، که توسط مدل های دیگر کاهش می یابد. SVM به دلیل قدرت آن در رسیدگی به مسائل طبقه بندی باینری انتخاب شد. با به حداکثر رساندن حاشیه بین کلاسها، SVM به ویژه زمانی مؤثر است که مرز واضحی بین بدافزار و نمونههای خوشخیم وجود داشته باشد، اگرچه میتواند از نظر محاسباتی در مجموعه دادههای بزرگتر فشرده باشد. ما رگرسیون لجستیک را به دلیل سادگی و تفسیرپذیری آن انتخاب کردیم. این به عنوان یک مدل پایه قوی عمل می کند و بینشی در مورد اینکه چگونه ویژگی ها به طبقه بندی بدافزارها کمک می کنند ارائه می دهد. با این حال، ممکن است با الگوهای پیچیدهتری که توسط مدلهای مجموعه بهتر به تصویر کشیده میشوند، مبارزه کند. در نهایت، Naïve Bayes به دلیل اثربخشی آن در فضاهای با ابعاد بالا، مانند آنچه که توسط نام روش های متعدد در مجموعه داده ما ایجاد شده است، گنجانده شد.
این مدلها برای تکمیل یکدیگر انتخاب شدند و هر مدل مجموعهای از نقاط قوت منحصر به فرد را برای کاهش ضعفهای بالقوه در مدلهای دیگر به همراه داشت. با استفاده از این مجموعه متنوع از الگوریتمها، ارزیابی جامعتری از اثربخشی آنها در شناسایی بدافزار داتنت را تضمین کردیم.
منبع: https://www.mdpi.com/2673-2688/6/2/20