作家
登录

机器学习排序LTR入门——线性模型

作者: 来源: 2017-10-24 16:08:45 阅读 我要评论

应用模型对萌芽打分

  1. def relevanceScore(intercept, titleCoef, overviewCoef, ratingCoef, titleScore, overviewScore, movieRating): 
  2.     return intercept + (titleCoef * titleScore) + (overviewCoef * overviewScore) + (ratingCoef * movieRating) 

应用该函数我们可以获得检索“Rambo”时,这两部候选片子的相干度得分:

如今对Rambo和First Blood打分,看看下哪一个跟萌芽“Rambo”更相干!

  1. # Score Rambo 
  2. relevanceScore(butIRegress.intercept_, butIRegress.coef_[0], butIRegress.coef_[1], butIRegress.coef_[2], titleScore=12.28, overviewScore=9.82, movieRating=6.40) 
  1. # Score First Blood 
  2. relevanceScore(butIRegress.intercept_, butIRegress.coef_[0], butIRegress.coef_[1], butIRegress.coef_[2], titleScore=0.00, overviewScore=10.76, movieRating=7.10) 

结不雅得分分别是Rambo 3.670以及First Blood 3.671。

异常接近!First Blood稍微高于Rambo一点儿获胜。原因是如许——Rambo是一个精确匹配,而First Blood是Rambo片子前传!是以我们不该该真的让模型如斯可托,并没有那么多的例子达到那个程度。更有趣的是简介得分的系数比标题得分的系数大年夜。所以至少在这个例子中我们的模型显示,简介中提到的关键字越多,最终的相干度往往越高。至此我们已经进修到一个不错的处理策略,用来解决用户眼里的相干度!

把这个模型加进来会更有意思,这很好懂得,并且产生了很合理的结不雅;然则特点的直接线性组合平日会因为相干度应用而达不到预期。因为缺乏如许的来由,正如Flax的同业所言,直接加权boosting也达不到预期。

为什么?细节决定成败!

早年述例子中可以发明,一些异常相干的片子确切有很高的TF*IDF相干度得分,然则模型却偏向于概要字段与相干度加倍密切。实际上何时标题匹配以及何时概要匹配还依附于其他身分。

在很多问题中,相干度等级与标题和摘要属性的得分并不是一个简单的线性关系,而是与高低文有关。如不雅就想直接搜刮一个标题,那么标题肯定会加倍匹配;然则对于并不太肯定想要搜刮标题,照样类别,或者片子的演员,甚至其他属性的情况,就不太好办了。

换句话说,相干度问题看起来并非是一个纯粹的最优化问题:

实践中的相干度要加倍复杂。并没有一个神奇的最优解,宁可说很多局部最优依附于很多其他因子的! 为什么呢?换句话说,相干度看起来如图所示:

可以想象这些图(吴恩达机械进修课程中的干货)用于展示“相干度缺点” —— 离我们正在进修的分数还有多远。两个θ变量的映射表示标题和摘要的相干度得分。第一张图中有一个单一的最优值,该处的“相干度缺点”最小 —— 一个幻想的权重设置应用这两个萌芽。第二个加倍实际一些:波浪起伏、高低文相干的局部最小。有时与一个异常高的标题权重值有关,或者是一个异常低的标题权重!

【编辑推荐】

  1. 轻松入门机械进修排序LTR之:线性模型
  2. 2017年含金量最高的机械进修技能或常识有哪些?
  3. 一文读懂深度进修与机械进修的差别
  4. 解析:阻拦机械进修的十种收集进击有哪些?
  5. 有关机械进修每小我都应当懂得的器械
【义务编辑:赵宁宁 TEL:(010)68476606】

  推荐阅读

  有关机器学习每个人都应该了解的东西

沙龙晃荡 | 去哪儿、陌陌、ThoughtWorks在主动化运维中的实践!10.28不见不散! 本文科普了机械进修方面的常识,简单介绍了机械进修可以做什么,以及若何做的。以下是译文。在以前的几个月>>>详细阅读


本文标题:机器学习排序LTR入门——线性模型

地址:http://www.17bianji.com/lsqh/38146.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)