作家
登录

当知识图谱“遇见”深度学习

作者: 来源: 2017-05-04 20:57:46 阅读 我要评论

 作者:肖仰华,复旦大年夜学计算机科学技巧学院,副传授,博士生导师,上海市互联网大年夜数据工程技巧中间副主任。重要研究偏向为大年夜数据治理与发掘、常识库等。

大年夜数据时代的到来,为人工智能的飞速成长带来前所未竽暌剐的数据红利。在大年夜数据的“豢养”下,人工智能技巧获得了前所未竽暌剐的长足进步。其进展凸起表如今以常识图谱为代表的常识工程以及深度进修为代表的机械进修等相干范畴。跟着深度进修对于大年夜数据的红利消费殆尽,深度进修模型效不雅的天花板日益逼近。另一方面大年夜量常识图谱赓续出现,这些蕴含仁攀类大年夜量先验常识的宝库却尚未被深度进修有效应用。融合常识图谱与深度进修,已然成为进一步晋升深度进修模型效不雅的重要思路之一。以常识图谱为代表的符号主义、以深度进修为代表的联络主义,日益离开本来各自自力成长的轨道,走上协同并进的新门路。

常识图谱与深度进修融合的汗青背景

基于后验正则化(posterior regularization)办法,应用逻辑规矩对 teacher network 进行限制,同时包管 teacher network 和 student network 尽量接近。最终优化函数为: 

这里,S(Q,τ) 表示问题Q 与候选三元组τ 的类似度;xQ 表示问题的向量( 大年夜HQ计算而得),uτ 表见常识图谱的三元组的向量,M是待进修参数。

大年夜数据为机械进修,特别是深度进修带来前所未竽暌剐的数据红利。得益于大年夜范围标注数据,深度神经收集可以或许习得有效的层次化特点表示,大年夜而在图像辨认等范畴取得优良效不雅。然则跟着数据红利消掉殆尽,深度进修也日益表现出其局限性,尤其表如今依附大年夜范围标注数据和难以有效应用先验常识等方面。这些局限性阻碍了深度进修的进一步成长。另一方面在深度进修的大年夜量实践中,人们越来越多地发明深度进修模型的结不雅往往与人的先验常识或者专家常识相冲突。若何让深度进修摆脱对于大年夜范围样本的依附?若何让深度进修模型有效应用大年夜量存在的先验常识?若何让深度进修模型的结不雅与先验常识一致已成为了当前深度进修范畴的重要问题。

当前,仁攀类社会业已积聚大年夜量常识。特别是,近几年在常识图谱技巧的推动下,对于机械友爱的各类在线常识图谱大年夜量出现。常识图谱本质上是一种语义收集,表达了各类实体、概念及其之间的语义关系。相对于传统常识表示情势(诸如本体、传统语义收集),常识图谱具有实体/概念覆盖率高、语义关系多样、构造友爱(平日表示为RDF格局)以及质量较高等优势,大年夜而使得常识图谱日益成为大年夜数据时代和人工智能时代最为重要的常识表示方法。可否应用蕴含于常识图谱中的常识指导深度神经收集模型的进修大年夜而晋升模型的机能,成为了深度进修模型研究的重要问题之一。

现阶段精深度进修技巧应用于常识图谱的办法较为直接。大年夜量的深度进修模许可以有效完成端到端的实体辨认、关系采取和关系补全等义务,进而可以用来构建或丰富常识图谱。本文重要商量常识图谱在深度进修模型中的应用。大年夜当前的文献来看,重要有两种方法。一是将常识图谱中的语义信息输入到深度进修模型中;将离散化常识图谱表达为持续化的向量,大年夜而使得常识图谱的先验常识可以或许成为深度进修的输入。二是应用常识作为优化目标的束缚,指导深度进修模型的进修;平日是将常识图谱中常识表达为优化目标的后验正则项。前者的研究工作已有不少文献,并成为当前研究热点。常识图谱向量表示作为重要的特点在问答以及推荐等实际义务中获得有效应用。后者的研究才方才起步,本文将重点介绍以一阶谓词逻辑作为束缚的深度进修模型。

常识图谱作为深度进修的输入

常识图谱是人工智能符号主义军期进展的典范代表。常识图谱中的实体、概念以及关系均采取潦攀离散的、显式的符号化表示。而这些离散的符号化表示难以直策应用于基于持续数值表示的神经收集。为了让神经收集有效应用常识图谱中的符号化常识,研究人员提出了大年夜量的常识图谱的表示进修办法。常识图谱的表示进修旨在习得常识图谱的构成元素(节点与边)的实值向量化表示。这些持续的向量化表示可以作为神经收集的输入,大年夜而使得神经收集模许可以或许充分应用常识图谱中大年夜量存在的先验常识。这一趋势催生了对于常识图谱的表示进修的大年夜量研究。本章起首扼要回想常识图谱的表示进修,再进一步介绍这些向量表示若何应用到基于深度进修模型的各类实际义务中,特别是问答与推荐等实际应用。

1.常识图谱的表示进修

常识图谱的表示进修旨在进修实体和关系的向量化表示,其关键是合理定义常识图谱中关于事实(三元组< h,r,t >)的损掉函数 ƒr(h,t),个中和是三元组的两个实体h和t的向量化表示。平日情况下,当事实 < h,r,t > 成立时,期望最小化 ƒr(h,t)。推敲全部常识图谱的事实,则可经由过程最小化

图片描述

来进修实体以及关系的向量化表示,个中 O 表见常识图谱中所有事实的集合。不合的表示进修可以应用不合的原则和办法定义响应的损掉函数。这里以基于距离和翻译的模型介绍常识图谱表示的根本思路[1]。

基于距离的模型。其代表性工作是 SE 模型[2]。根本思惟是当两个实体属于同一个三元组 < h,r,t > 时,它们的向量表示在投影后的空间中也应当彼此接近。是以,损掉函数定义为向量投影后的距离

图片描述

个中矩阵 Wr,1 和 Wr,2 用于三元组中头实体 h 和尾实体 t 的投影操作。但因为 SE 惹人了两个零丁的投影矩阵,导致很难捕获实体和关系之间的语义相干性。Socher 等人针对这一问题采取三阶张量替代传统神经收集中的线性变换层来描述评分函数。Bordes 等人提出能量匹配模型,经由过程惹人多个矩阵的 Hadamard 乘积来捕获实体向量和关系向量的交互关系。


  推荐阅读

  如何给非专业人士讲解什么是深度学习?

客岁开端,工作中须要做很多有关 AI 科普的工作。很长时光里一向在想,该若何给一个没有 CS 背景的人讲解什么是深度进修,以便让一个非技巧的投资人、企业治理者、行业专家、媒体记者甚至>>>详细阅读


本文标题:当知识图谱“遇见”深度学习

地址:http://www.17bianji.com/lsqh/35023.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)