事实上,我信赖有种办法比以上三种都合适。我把过往跟小Y相约的经历在脑海中重现一下,看看跟他相约的次数中,迟到占了多大年夜的比例。而我应用这来猜测他此次迟到的可能性。如不雅这个值超出了我心里的某个界线,那我选择等一会再出发。假设我跟小Y约过5次,他迟到的次数是1次,那么他按时到的比例为80%,我心中的阈值为70%,我认为此次小Y应当不会迟到,是以我按时出门。如不雅小Y在5次迟到的次数中占了4次,也就是他按时达到的比例为20%,因为这个值低于我的阈值,是以我选择推筹划门的时光。这个办法大年夜它的应用层面来看,又称为经验法。在经验法的思虑过程中,我事实上应用了以往所有相约的数据。是以也可以称之为根据数据做的断定。
根据数据所做的断定跟机械进修的思惟根本上是一致的。
图3 决定计划树范型
如许的图就是一个最简单的机械进修模型,称之为决定计划树。
当我们推敲的自变量只有一个时,情况较为简单。如不雅把我们的自变量再增长一个。例如小Y迟到的部分情况时是在他开车过来的时刻(你可以懂得为他开车程度较臭,或者路较堵)。于是我可以接洽关系推敲这些信息。建立一个更复杂的模型,这个模型包含两个自变量与一个因变量。
刚才的思虑过程我只推敲“频次”这种属性。在真实的机械进修中,这可能都不算是一个应用。一般的机械进修模型至少推敲两个量:一个是因变量,也就是我们欲望猜测的结不雅,在这个例子里就是小Y迟到与否的断定。另一个是自变量,也就是用来猜测小Y是否迟到的量。假设我把时光作为自变量,譬如我发明小Y所有迟到的日子根本都是礼拜五,而在非礼拜五情况下他根本不迟到。于是我可以建立一个模型,来模仿小Y迟到与否跟日子是否是礼拜五的概率。见下图:
再更复杂一点,小Y的迟到跟气象也有必定的原因,例如下雨的时刻,这时刻我须要推敲三个自变量。
如不雅我欲望可以或许猜测小Y迟到的具体时光,我可以把他每次迟到的时光跟雨量的大年夜小以及前面推敲的自变量同一建立一个模型。于是我的模许可以猜测值,例如他大年夜概会迟到几分钟。如许可以赞助我更好的筹划我出门的时光。在如许的情况下,决定计划树就无法很好地支撑了,因为决定计划树只能猜测离散值。我们可以用节2所介绍的线型回归办法建立这个模型。
如不雅我把这些建立模型的过程交给电脑。比如把所有的自变量和因变量输入,然后让计算机帮我生成一个模型,同时让计算机根据我当前的情况,给出我是否须要筹划门,须要迟几分钟的建议。那么计算机履行这些帮助决定计划的过程就是机械进修的过程。
机械进修办法是计算机应用已有的数据(经验),得出了某种模型(迟到的规律),并应用此模型猜测将来(是否迟到)的一种办法。
经由过程膳绫擎的分析,可以看出机械进修与仁攀类思虑的经验过程是类似的,不过它能推敲更多的情况,履行加倍复杂的计算。事实上,机械进修的一个重要目标就是把仁攀类思虑归纳经验的过程转化为计算机经由过程对数据的处理计算得出模型的过程。经由计算机得出的模许可以或许以近似于人的方法解决很多灵活复杂的问题。
下面,我会开端对机械进修的┞俘式介绍,包含定义、范围,办法、应用等等,都有所包含。
2.机械进修的定义
大年夜广义上来说,机械进修是一种可以或许付与机械进修的才能以此让它完成直接编程无法完成的功能的办法。但大年夜实践的意义上来说,机械进修是一种经由过程应用数据,练习出模型,然后应用模型猜测的一种办法。
让我们具体看一个例子。
图4 房价的例子
拿公平易近话题的房子来说。如今我手里有一栋房子须要售卖,我应当给它标上多大年夜的价格?房子的面积是100平方米,价格是100万,120万,照样140万?
很显然,我欲望获得房价与面积的某种规律。那么我该若何获得这个规律?用报纸上的房价平劫数据么?照样参考别人面积类似的?无论哪种,似乎都并不是太靠谱。
我如今欲望获得一个合理的,并且可以或许最大年夜程度的反竽暌钩面积与房价关系的规律。于是我查询拜访了周边与我房型类似的一些房子,获得一组数据。这组数据中包含了大年夜大年夜小斗室子的面积与价格,如不雅我能大年夜这组数据中找出面积与价格的规律,那么我就可以得出房子的价格。
对规律的寻找很简单,拟合出一条直线,让它“穿过”所有的点,并且与各个点的距离尽可能的小。
经由过程这条直线,我获得了一个可以或许最佳反竽暌钩房价与面积规律的规律。这条直线同时也是一个下式所注解的函数:
房价 = 面积 * a + b
上述中的a、b都是直线的参数。获得这些参数今后,我就可以计算出房子的价格。
假设a = 0.75,b = 50,则房价 = 100 * 0.75 + 50 = 125万。这个结不雅与我前面所列的100万,120万,140万都不一样。因为这条直线综合推敲了大年夜部分的情况,是以大年夜“统计”意义上来说,这是一个最合理的猜测。
在求解过程中泄漏出了两个信息:
1).房价模型是根据拟合的函数类型决定的。如不雅是直线,那么拟合出的就是直线方程。如不雅是其他类型的线,例如抛物线,那么拟合出的就是抛物线方程。机械进修有浩瀚算法,一些强力算法可以拟合出复杂的非线性模型,用来反竽暌钩一些不是直线所能表达的情况。
2).如不雅我的数据越多,我的模型就越可以或许推敲到越多的情况,由此对于新情况的猜测效不雅可能就越好。这是机械进修界“数据为王”思惟的一个别现。一般来说(不是绝对),数据越多,最懊机械进修生成的模型猜测的效不雅越好。
经由过程我拟合直线的过程,我们可以对机械进修过程做一个完全的回想。起首,我们须要在计算机中存储汗青的数据。接着,我们将这些 数据经由过程机械进修算法进行处理,这个过程在机械进修中叫做“练习”,处理的结不雅可以被我们用来对新的数据进行猜测,这个结不雅一般称之为“模型”。对新数据 的猜测过程在机械进修中叫做“猜测”。“练习”与“猜测”是机械进修的两个过程,“模型”则是过程的中心输出结不雅,“练习”产生“模型”,“模型”指导 “猜测”。
推荐阅读
2017 年 3 月 9 日,黑客地下技巧专家兼作家 ZT,即将出版一本中篇小说:建筑师启发录。他的跟随者集合在美国田纳西州首府纳什维尔的一家放弃酒吧的地下室中拜读这本小说。恰逢第 3 届年>>>详细阅读
本文标题:从机器学习谈起
地址:http://www.17bianji.com/lsqh/34959.html
1/2 1