作家
登录

受众画像数据只是看看?——基于朴素贝叶斯的用户数据挖掘

作者: 来源: 2017-11-07 12:06:57 阅读 我要评论


做告白优化这么久了,也看过不少告白后台的受众画像,总体来说,对告白数据分析和效不雅优化的参考价值有限,不过聊胜于无。

究其原因,在于很多告白后台的受众画像数据,只告诉了我们看了告白的┞封部分人群是什么样的,而缺掉了产生转化的┞封部分用户的画像数据。原因重要有两点:

二是媒体不肯意公开这么多的数据,甚至受众画像本身都有必定的问题。

如今信息流优化已经成为业内交换的热点,优化创意、定向等已是老生常谈,唯独受众画像的数据分析少有人说起,另有可挖的处所。今天借此机会,和大年夜家分享一种受众数据分析的思路。

须要强调的是,接下来的告白数据分析有一个最根本的前提:假设媒体供给的数据和甲方监测的数据都是真实精确的。下面我会以一个真实的案例和数据(今日头条,家装类)向大年夜家介绍,若何用朴实贝叶斯的算法,对今日头条的受众画像进行数据发掘和分析,大年夜而实现精准定向下的转化率猜测。

受众画像数据只是看看?——基于朴实贝叶斯的用户数据发掘

1.朴实贝叶斯的道理

P(A|B)表示事宜B已经产生的前提下,事宜A产生的概率,叫干事宜B产生下事宜A的前提概率。其根本求解公式为:

受众画像数据只是看看?——基于朴实贝叶斯的用户数据发掘

贝叶斯定理之所以有效,是因为我们在生活中往往碰到这种问题:可以不辛苦气地直接得出P(A|B),P(B|A)则很难直接得出,但其实我们更关怀P(B|A),这时刻,贝叶斯定理就为我们供给了大年夜P(A|B)获得P(B|A)的门路。

下面省略证实过程,直接给出贝叶斯定理,信赖对高中数学还有印象的同伙对这个公式应当不陌生:

受众画像数据只是看看?——基于朴实贝叶斯的用户数据发掘

2.朴实贝叶斯的数据发掘道理

下面以一个简单的例子,介绍朴实贝叶斯的数据发掘道理。固然样本量不多,但足以解释道理和思路。

这里是一份受众画像数据,总共20笔数据,即代表20个UV。填写表单这一字段值为1的合计9笔,即产生转化的用户数为9。

受众画像数据只是看看?——基于朴实贝叶斯的用户数据发掘
表1

然后,我们把除了 ID(只是编号,对于发掘没有价值)、省级地区(因为都是广东,对于发掘没有价值)外的其他字段,做一个占比分布,如图所示:


表2

假设,我想知道 定向 X=(地级市=”佛山”,性别=”男”,年纪=”18-23岁”,兴趣分类=”房产”)的转化率,即我想求:P(填写表单=”1″ | X)。

直接是计算不出来的,回到上文提到的朴实贝叶斯,专门解决的就是这种问题,我只需知道P(X | 填写表单=”1″),就可以经由过程公式获得P(填写表单=”1″ | X)。

具体的直接套公式得:

主流的数据发掘算法,如神经收集、决定计划树等。多半依附如表1所示的数据,每一个字段代表用户的不合维度,每一行代表一个自力用户的数据。但实际优化过程中,媒体方弗成能供给如斯详尽的受众画像数据, 但朴实贝叶斯不一样,对原始数据的请求略低,只需供给不合维度组合下的比例,而不必细化到每一个用户的情况。

P(填写表单=”1″ | X) = P(X | 填写表单=”1″) * P(填写表单=”1″) / P(X)

同理可得,

P(填写表单=”0″ | X) = P(X | 填写表单=”0″) * P(填写表单=”0″) / P(X)

这里须要引出别的一个重要的公式,P(A,B)代表事宜A与B同时产生的概率。

当事宜A与B的产生是各自自力时,P(A,B) = P(A|B) * P(B) =P(A)P(B)。

因为,地级市、性别、年纪等这些字段(或定向)的产生可以懂得为是各自自力的,所以P(X | 填写表单=”1″) = P(X ) * P(填写表单=”1″) ,又P(X | 填写表单=”1″)= P(地级市=”佛山”,性别=”男”,年纪=”18-23岁”,兴趣分类=”房产” | 填写表单=”1″)=P(地级市=”佛山” | 填写表单=”1″) * P(性别=”男” | 填写表单=”1″) * P(年纪=”18-23岁” | 填写表单=”1″) * P(兴趣分类=”房产” | 填写表单=”1″),此时,看起来同样无法直接获得的P(X | 填写表单=”1″),被拆分为看起来更简单的5个事宜的概率的乘积。

带入具体值,计算得:

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)