作家
登录

受众画像数据只是看看?——基于朴素贝叶斯的用户数据挖掘

作者: 来源: 2017-11-07 12:06:57 阅读 我要评论

  • P(填写表单=”0″ | X) = P(X | 填写表单=”0″) * P(填写表单=”0″) / P(X)= (2/11 * 5/11 * 2/11 * 2/11)*0.55 / P(X) = 0.0015026 / P(X)……………………………………………②
  • 接下来,碰到一个问题,P(X)是若干,不知道!不过没紧要,当定向 X的用户进来时,ta要么转化,要么不转化,所以
  • P(填写表单=”1″ | X) + P(填写表单=”0″ | X) =1……………………………………………③
  • 。。。(中心太长,省略了)

    联立①②③,最终求出:

    • P(填写表单=”1″ | X) = 62.2%
    • P(填写表单=”0″ | X) = 37.8%

    这里先解释什么是前提概率:

    所以,当定向为X时,朴实贝叶斯数据发掘模型认为,该类用户的转化率在62.2%。

    3.朴实贝叶斯的数据发掘的优势

    4.朴实贝叶斯的数据发掘案例解读

    4.1 原生数据及预处理

    我们大年夜今日头条告白后台拿到的数据经由简单处理后,是下面如许的:

    合计13339点击,转化量为37。

    受众画像数据只是看看?——基于朴实贝叶斯的用户数据发掘
    表3

    4.2 计举动当作段重要性,肯定输入字段

    受众画像数据只是看看?——基于朴实贝叶斯的用户数据发掘

    公式解读如下:

    受众画像数据只是看看?——基于朴实贝叶斯的用户数据发掘

    注:ABS函数,用于求绝对值。

    一是在大年夜部分告白投放过程中,前后端数据是割裂的,换句话说,媒体能知道你花钱买的告白给了谁看,但一般不知道哪些人产生了转化;而甲方经由过程本身的监测,可以知道转化的用户是哪一部分,如不雅监测字得够好,也能知道这部分的人群画像,但人群画像的剖断标准与媒体方可能存在差别,统计口径不一致,数据无罪人工打通。

    所有可能的输入字段对输出字段的重要性计算结不雅如下:

    受众画像数据只是看看?——基于朴实贝叶斯的用户数据发掘

    一般经验来说,字段重要性小于0.1的字段可以不予纳入数据发掘模型中。

    所以,今朝根据有限的数据,”性别“这一字段,对于断定用户是否转化的赞助不大年夜,故在接下来的数据发掘模型中,输入字段包含:地级市、年纪、兴趣分类。

    开端做数据发掘,具体道理这里不再赘述,直接给出结不雅。

    因为所有字段都是类别型字段(差别于数值型字段),这里介绍一个比较通用的算法,用于评估所有可能的输入字段对输出字段的重要性。

    受众画像数据只是看看?——基于朴实贝叶斯的用户数据发掘

    受众画像数据只是看看?——基于朴实贝叶斯的用户数据发掘

    我们看到,数据发掘显示,转化为1的最大年夜概率是1.51%,此时的定向前提是”广州&(50岁以上)-母婴儿童“。而样本数据的┞符体转化率是37/13339 = 0.28%。

    受众画像数据只是看看?——基于朴实贝叶斯的用户数据发掘

    下图是转化为1的概率分布,可以看到大年夜于0.28%的数据约有25%,换句话说,基于朴实贝叶斯的用户数据发掘,在324种定向组合中,找到了约四分之一的组合,可以使预估的转化率高于平均程度0.28%。跟着数据量的增长,模型也会赓续改进,对精准定向组合的转化率猜测效能也会越来越好,将有限的告白费花在最有可能转化的用户上。

    受众画像数据只是看看?——基于朴实贝叶斯的用户数据发掘

    下面推敲怎么将这一洞察,应用于告白投放,创造更高的ROI。比如制造针对性的创意、提赶过价等等,这个方面各位都是熟手在行了,我就不多说了。


      推荐阅读

      神经学家的探寻:这就是机器如何拥有意识的方法

    如同大年夜多半烧脑片子一样,《机械姬》让不雅众自行断定,“伊娃”是否具有自我意识。在此过程中,它还奇妙地避免了一个棘手的问题,这一问题迄今为止仍挑衅着大年夜多半以人>>>详细阅读


    本文标题:受众画像数据只是看看?——基于朴素贝叶斯的用户数据挖掘

    地址:http://www.17bianji.com/lsqh/38552.html

    关键词: 探索发现

    乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

    网友点评
    自媒体专栏

    评论

    热度

    精彩导读
    栏目ID=71的表不存在(操作类型=0)