受众画像数据只是看看？——基于朴素贝叶斯的用户数据挖掘

做告白优化这么久了，也看过不少告白后台的受众画像，总体来说，对告白数据分析和效不雅优化的参考价值有限，不过聊胜于无。

究其原因，在于很多告白后台的受众画像数据，只告诉了我们看了告白的┞封部分人群是什么样的，而缺掉了产生转化的┞封部分用户的画像数据。原因重要有两点：

二是媒体不肯意公开这么多的数据，甚至受众画像本身都有必定的问题。

如今信息流优化已经成为业内交换的热点，优化创意、定向等已是老生常谈，唯独受众画像的数据分析少有人说起，另有可挖的处所。今天借此机会，和大年夜家分享一种受众数据分析的思路。

须要强调的是，接下来的告白数据分析有一个最根本的前提：假设媒体供给的数据和甲方监测的数据都是真实精确的。下面我会以一个真实的案例和数据(今日头条，家装类)向大年夜家介绍，若何用朴实贝叶斯的算法，对今日头条的受众画像进行数据发掘和分析，大年夜而实现精准定向下的转化率猜测。

受众画像数据只是看看？——基于朴实贝叶斯的用户数据发掘

1.朴实贝叶斯的道理

P(A|B)表示事宜B已经产生的前提下，事宜A产生的概率，叫干事宜B产生下事宜A的前提概率。其根本求解公式为：

受众画像数据只是看看？——基于朴实贝叶斯的用户数据发掘

下面省略证实过程，直接给出贝叶斯定理，信赖对高中数学还有印象的同伙对这个公式应当不陌生：

受众画像数据只是看看？——基于朴实贝叶斯的用户数据发掘

2.朴实贝叶斯的数据发掘道理

下面以一个简单的例子，介绍朴实贝叶斯的数据发掘道理。固然样本量不多，但足以解释道理和思路。

这里是一份受众画像数据，总共20笔数据，即代表20个UV。填写表单这一字段值为1的合计9笔，即产生转化的用户数为9。

受众画像数据只是看看？——基于朴实贝叶斯的用户数据发掘
表1

然后，我们把除了 ID(只是编号，对于发掘没有价值)、省级地区(因为都是广东，对于发掘没有价值)外的其他字段，做一个占比分布，如图所示：

表2

假设，我想知道定向 X=(地级市=”佛山”，性别=”男”，年纪=”18-23岁”，兴趣分类=”房产”)的转化率，即我想求：P(填写表单=”1″ | X)。

直接是计算不出来的，回到上文提到的朴实贝叶斯，专门解决的就是这种问题，我只需知道P(X | 填写表单=”1″)，就可以经由过程公式获得P(填写表单=”1″ | X)。

具体的直接套公式得：

主流的数据发掘算法，如神经收集、决定计划树等。多半依附如表1所示的数据，每一个字段代表用户的不合维度，每一行代表一个自力用户的数据。但实际优化过程中，媒体方弗成能供给如斯详尽的受众画像数据，但朴实贝叶斯不一样，对原始数据的请求略低，只需供给不合维度组合下的比例，而不必细化到每一个用户的情况。

P(填写表单=”1″ | X) = P(X | 填写表单=”1″) * P(填写表单=”1″) / P(X)

同理可得，

P(填写表单=”0″ | X) = P(X | 填写表单=”0″) * P(填写表单=”0″) / P(X)

这里须要引出别的一个重要的公式，P(A,B)代表事宜A与B同时产生的概率。

当事宜A与B的产生是各自自力时，P(A,B) = P(A|B) * P(B) =P(A)P(B)。

带入具体值，计算得：