作家
登录

亿级推广流量仍能精准推荐?解读核心算法的应用实践

作者: 来源: 2017-06-08 14:03:54 阅读 我要评论

这种解法的不足是线性模型的进修才能有限,须要惹人大年夜量的范畴常识来人工设计特点以及特点之间的交叉组合来借居弥补算法的非线性进修才能,异常消费人力和机械资本,迁徙性不敷友爱。

别的,业界也有一些效不雅不错的非线性模型赓续被提出来,并被工程实践且取得不错效不雅,但这些模型都或多或少存在一些不足

  • Kernel 办法,因为复杂度太高而不易实现。

  • Tree based 办法,由 Facebook 团队在2014年起首提出,有效地解决了 LR 模型的特点组合问题,但缺点仍然是对汗青行动的记忆,缺乏推广性

  • FM(factorization machine)模型,能主动进修高阶属性的权值,不消经由过程人工的方法拔取特点来做交叉,但FM模型只能拟合特定的非线性模式,如最常用的 2 阶 FM 只能拟合特点之间的线性关系和二次关系。

  • 深度神经收集非线性拟合才能足够强,但面对告白如许的大年夜范围工业级稀少数据,合适数据规律的、具备推广性的收集构造业界依然在摸索中,尤其是要做到端到端范围化上线,这琅绫擎的技巧挑衅依然很大年夜。

那么,挑衅来了,若何设计算法大年夜大年夜范围数据中发掘出具有推广性的非线性模式?

阿里妈妈自立研发的MLR算法

基于上述的算法的不足和商户的实际须要,2011-2012年时代,阿里妈妈资深专家盖坤(诨名靖世)冲破主流大年夜范围线性模型的思路,提出了 MLR (mixed logistic regression, 混淆逻辑斯特回归)算法,给告白范畴 CTR 预估算法带来了新进级。

MLR 算法基于数据主动发掘可推广的模式,直接在原始空间进修特点之间的非线性关系,比拟于人工来说晋升了效力和精度。

MLR 可以看做是对 LR 的一个天然推广,它采取分而治之的思路,用分片线性的模式来拟合高维空间的非线性分类面,其情势化表达如下

这里超参数分片数 m 可以较好地均衡模型的拟合与推广才能。当 m=1 时,MLR 就退化为通俗的 LR,m 越大年夜,模型的拟合才能越强,然则模型参数范围随 m 线性增长,响应所需的练习样本也随之增长。

是以,实际应用中 m 须要根据实际情况进行选择,一般 m 设定为12。下图中,MLR 模型用 4 个分片完美地拟合出数据中的菱形分类面。

MLR 算法合适于工业级的大年夜范围稀少数据场景问题,优势表如今两个方面:

  1. 端到端的非线性进修:大年夜模型端主动发掘数据中储藏的非线性模式,省去了大年夜量的人工特点设计,可以端到端地完成练习,使得在不归并景中的迁徙和应用变得轻松。

  2. 例如精准定向告白中验证有效的先验为:以 user 特点空间划分、以 ad 特点为线性拟合。它相符人们的惯例认亲信不合人群具有聚类特点,同一类人群对告白有类似的偏好,例如高花费人群爱好点击高客单价的告白。


      推荐阅读

      三大运营商5G部署上路!工信部敲定初始频段

    5G最快于来岁韩国平昌冬奥会上大年夜范围商用,估计在2020年周全铺开。昨日,工信部发文明白了第五代国际移动>>>详细阅读


    本文标题:亿级推广流量仍能精准推荐?解读核心算法的应用实践

    地址:http://www.17bianji.com/lsqh/35645.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)