作家
登录

机器学习在恶意软件检测中的应用

作者: 来源: 2017-04-14 10:03:33 阅读 我要评论

y1 = clean['clean'
  • ax.scatter(x1,y1,color='b',label='Cleanfiles'
  • ax.legend(loc="right"
  • 绘制的图表如下:


    我们所绘制的图表越多,我们对数据的懂得也越深,对数据的┞符体分布情况懂得也越深。今朝我们手上的数据集维度很低,那么问题来了,如不雅我们的数据集是高维度的,我们该若何处理?有很多技巧可以降低数据集的维度,使“重要”特点更为凸起。比如PCA和t-SNE算法可以将数据集绘制成三维甚至二维图像。

    前面我们已经做了足够多的统计工作,但在机械进修方面我们只做了一部分工作,如收集数据、清理及预备练习数据。在开端机械进修前,我们先要完成以下工作。

    1、起首,我们须要将两部分数据集(Dataset)并为一个数据框(DataFrame)。

    2、其次,我们须要数据框分为两部分,第一部分用于练习,第二部分用于测试。

    3、接下来,我们将应用几个机械进修算法,看一下结不雅若何。

    (一)数据集预备

    1. import pandas as pd 
    2. dataset = pd.read_csv('malware-dataset.csv'
    3. ""
    4. Add this points dataset holds our data 
    5. Great let's split it into train/test and fix a random seed to keep our predictions constant 
    6. ""
    7. import numpy as np 
    8. from sklearn.model_selection import train_test_split 
    9. from sklearn.metrics import confusion_matrix 
    10. #let's import 4 algorithms we would like to test 
    11. #neural networks 
    12. from sklearn.preprocessing import StandardScaler 
    13. from sklearn.neural_network import MLPClassifier 
    14. #random forests 
    15. from sklearn.ensemble import RandomForestClassifier 
    16. ""
    17. Let's prepare our data 
    18. ""
    19. state = np.random.randint(100) 
    20. X = dataset.drop('clean',axis = 1) 
    21. y = dataset['clean'
    22. X = np.asarray(X) 
    23. y = np.asarray(y) 
    24. X = X[:,1:] 
    25. X_train,X_test,y_train,y_test = train_test_split(X,y,test_size = 0.1,random_state=0) 

    如今我们手上有了4个大年夜型矩阵,个中X_train和y_train将用于练习不合的分类器,X_test用于标签猜测,y_test用于指标衡量。事实上,我们将比较X_test和y_test的猜测值,以便分析算法的具体实现。

    (二)算法选择

    起首来看看“Random Forests”(随机丛林)算法,该算法是“决定计划树”(Decision Trees)算法的一种集成算法,核心思惟是在练习时代内创建大年夜量分类决定计划树,输出的分类即为样本分类的基本模型。随机丛林算法在解决二进制文件分类问题上异常有效。

    1. #let's start with random forests 

        推荐阅读

        Python一行代码完成并行任务

      众所周知,Python的并行处理才能很不睬想。我认为如不雅不推敲线程和GIL的标准参数(它们大年夜多是合法的),其原因不是因为技巧不到位,而是我们的应用办法不恰当。大年夜多半关于Python线>>>详细阅读


      本文标题:机器学习在恶意软件检测中的应用

      地址:http://www.17bianji.com/lsqh/34783.html

    关键词: 探索发现

    乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

    网友点评
    自媒体专栏

    评论

    热度

    精彩导读
    栏目ID=71的表不存在(操作类型=0)