作家
登录

深度学习在电商商品推荐当中的应用

作者: 来源: 2017-09-01 16:56:38 阅读 我要评论

  • =p(“正常邮件”)p(“发票”,“军器”,“航母”/“正常邮件”)/p(“发票”,“军器”,“航母”)  
    1. P1(“垃圾邮件”|“我公司可以供给发票、军器出售、航母维修”) 
    2. =p(“垃圾邮件”)p(“发票”/“垃圾邮件”)p(“军器”/“垃圾邮件”)p(“航母”/“垃圾邮件”) 
    3. P2(“正常邮件”|“我公司可以供给发票、军器出售、航母维修”) 
    4. =p(“正常邮件”)p(“发票”/“正常邮件”)p(“军器”/“正常邮件”)p(“航母”/“正常邮件”)  

    然则,我们看到,无论“我公司可以供给发票、军器出售、航母维修”词语的次序怎么变更,不影响它最后的结不雅剖断,然则我们这边的需求琅绫擎前面买的器械对后项的影响会更大年夜。

    冰箱=>洗衣机=>衣柜=>电视=>汽水,如许的下单流程合理

    冰箱=>洗衣机=>汽水=>电视=>衣柜,如许的下单流程相对来讲可能性会更低

    然则对于naive bayes,它们是一致的。

    所以,我们这边推敲次序,照样膳绫擎那个垃圾邮件的问题。

    1. P1(“垃圾邮件”|“我公司可以供给发票、军器出售、航母维修”) 
    2. =p(“垃圾邮件”)p(“发票”)p(“军器”/“发票”)p(“军器”/“航母”) 
    3. P1(“正常邮件”|“我公司可以供给发票、军器出售、航母维修”) 
    4. =p(“正常邮件”)p(“发票”)p(“军器”/“发票”)p(“军器”/“航母”)  

    这边我们每个词只依附前一个词,理论上讲依附1-3个词平日都是可接收的。以上的┞峰酌次序的bayes就是基于有名的马尔科夫假设(Markov Assumption):下一?词典出现仅依附于它前面的一个或几钢词下的结合概率问题,相干具体的理论数学公式就不给出了,这边这涉及一个思惟。

    part two:Huffman Coding

    电商行业中,对于用户的商品推荐一向是一个异常热点并且重要的话题,有很多比较成熟的办法,然则也各有利弊,大年夜致如下:

    • 基于商品类似度:比如食物A和食物B,对于它们价格、味道、保质期、品牌等维度,可以计算它们的类似程度,可以想象,我买了包子,很有可能顺路带一盒水饺回家。

    刚才在part three琅绫擎有个p(1|No.1层未知参数)这个逻辑,这个NO.1层未知参数琅绫擎有一个就是商品向量。

    更大年夜的数据存储情势

    我们常用的user到item的映射是经由过程one hot encoding的情势去实现的,这有一个异常大年夜的弊病就是数据存储系数且维度灾害可能性极大年夜。

    我们以易购商品购买量为例,讲解一下若何故二叉树的情势调换one hot encoding存储方法:

    假设,818苏宁大年夜促时代,经由统计,有冰箱=>洗衣机=>烘干机=>电视=>衣柜=>钻石的用户下单链条(及购买物品次序如上),个中冰箱总售出15万台,洗衣机总售出8万台,烘干机总售出6万台,电视总售出5万台,衣柜总售出3万台,钻石总售出1万颗

    Huffman树构造过程

    1.给定{15,8,6,5,3,1}为二叉树的节点,每个树仅有一个节点,那就存在6颗零丁的树

    2.选择节点权重值最小的两颗树进行归并也就是{3}、{1},归并后枷⒚鹇权重3+1=4

    典范:早期运营商的套餐推荐

    • 基于物品的协同推荐:假设物品A被小张、小明、小董买过,物品B被小红、小丽、小晨买过,物品C被小张、小明、小李买过;直不雅的看来,物品A和物品C的购买人群类似度更高(相对于物品B),如今我们可以对小董推荐物品C,小李推荐物品A,这个推荐算法比较成熟,应用的公司也比较多

    3.将{3},{1}树大年夜节点列表删除,将3+1=4的新组合树放回原节点列表

    4.从新进行2-3,直到只剩一棵树为止

    针对每层每次分支过程,我们可以将所有权重大年夜的节点看做是1,权重小的节点看做是0,相反亦可。如今,我们比如须要知道钻石的code,就是1000,也就是灰色方框的地位,洗衣机的code就是111;如许的存储应用了0/1的存储方法,也同时推敲了组合地位的分列长度,节俭了数据的存储空间。

    让我们具体的看这个钻石这个例子:

    回到最初的那组数据:如今苏宁的商品有约4亿个,商品的类目有10000多组,大年夜的品类也有近40个,同时如今会员数量达到3亿,如果须要建造一个用户商品对应的购买关系矩阵做基于用户的协同推荐的话,我们须要做一个4亿X6亿的1/0矩阵,这个是几乎弗成能的,Huffman采取了一个近似二叉树的情势进行存储:

    part three:node probility

    最大年夜化当前数据出现可能的概率密度函数

    对于钻石的地位而言,它的Huffman code是1000,那就意味着在每一次二叉选择的时刻,它须要一次被分到1,三次被分到0,并且每次分的过程中,只有1/0可以选择,这是不是和logistic regression琅绫擎的0/1分类类似,所以这边我们也直接应用了lr琅绫擎的交叉熵来作为loss function。


      推荐阅读

      利用命令行工具创建Linux/Mac系统下的网站备份

    创建网站备份应当是一个网站治理员最为重要的日常工作之一。但实际情况是,备份这一步往往被很多人忽视,也就是说仍然有很多网管的网站安然意识较低。所有的Linux/Mac用户都可以或许零经济>>>详细阅读


    本文标题:深度学习在电商商品推荐当中的应用

    地址:http://www.17bianji.com/lsqh/37112.html

    关键词: 探索发现

    乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

    网友点评
    自媒体专栏

    评论

    热度

    精彩导读
    栏目ID=71的表不存在(操作类型=0)