2012年,Google为了优化其搜索引擎提出了知识图谱的概念,此概念一经推出便迅速引起轰动,除了业内公司纷纷跟进,伴随着人工智能技术的快速发展,知识图谱更是凭借其强大的语义处理能力和和开放组织能力成功“出圈”,被众多领域广泛应用,成为人工智能的在各领域落地过程中不可或缺的一部分。
对于人工智能来说,知识的价值在于让机器具备认知能力,有了知识能力的人工智能会变得更强大,可以完成更多的事情;同时,在更强大的人工智能的帮助下,我们也可以更好地从客观世界中去挖掘、获取和沉淀知识,这些知识和人工智能系统形成正循环,二者相辅相成、共同进步。而如何将客观世界的知识与常识合理地应用于人工智能领域,则需要知识图谱技术的协助。
知识图谱能以结构化的形式描述客观世界中实体、概念及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱的应用一方面给互联网语义搜索带来了活力,使其更精准与人性化;同时凭借其在智能问答中所显示出强大威力,一跃成为互联网知识驱动智能应用的基础设施。
在前面的几篇文章中,我们分别结合了运维、医疗、物联网等领域的实际应用,简单了解过知识图谱的概念,构建方法等,今天的文章则聚焦知识图谱本身,结合人工智能技术,谈一下新一代知识图谱的建模、功能及其性能。
知识图谱的建模
首先,我们来回顾一下知识图谱的原理。知识图谱的作用是用可视化技术描述知识资源及载体,挖掘、分析、构建、绘制和显示知识及他们互相之间的关系。简单点说,就是将互联网的数据进行提炼与组织,使其形成知识,再通过发现、建立、组织知识间的联系而得到一个关系网络,并为用户提供了站在关系的角度去分析问题的视角。
知识图谱可以分为通用知识图谱与领域知识图谱两类,二者本质上相同,其区别主要体现在覆盖范围与使用方式上。
通用知识图谱的内容更全面,覆盖面更广。可以形象地将通用知识图谱比作一个面向通用领域的结构化的百科知识库,其中包含了大量的现实世界中的常识性知识,从生活常识到行业知识,方方面面均有涉及。
领域知识图谱又叫行业知识图谱或垂直知识图谱,通常面向某一特定领域,可看成是一个基于语义技术的行业知识库。领域性知识图谱因其基于行业数据构建,目标是具体的某一行业,因此有着严格而丰富的数据模式,对该领域知识的深度、知识准确性也有着更高的要求。
知识图谱的数据来源
目前,互联网上的数据主要包括以下三类,这些数据同时也是知识图谱的原始数据来源,分别是结构化数据、半结构化数据与半结构化数据。
结构化数据,也称作行数据,是指由二维表结构来逻辑表达和实现的数据。结构化数据一般以行为单位,一行数据表示一个实体的信息,每一行数据都具备相同的属性,严格地遵循数据格式与长度规范。这类数据主要通过关系型数据库进行存储和管理,比较典型的有关系数据库等。
非结构化数据,主要指是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。非结构化数据范围较大,包括所有格式的办公文档、文本、图片、HTML、各类报表以及图像和音频/视频信息等等。
半结构化数据,也算是非结构化数据的一种,虽不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但也包含了相关标记,用来分隔语义元素以及对记录和字段进行分层。例如XML、JSON、百科等。
知识图谱的构建
利用结构化数据构建知识图谱。
结构化的知识图谱由于其格式整齐、数据条理清晰、关系明确,可以直接用于构建领域知识图谱。但在一些行业中可能会存在数据质量差、数据标准不统一、元数据描述缺乏、数据字典不全、数据一致性不完备等问题。这种情况下则可通过构建一套工程化的方案解决批式和流式的知识构建过程,通过数据探查、数据理解、数据清洗、数据标准化、数据映射、数据关联、数据融合等几个阶段的工作,完成从质量不一的原始结构化数据到最终知识图谱的过程。
利用非结构化数据构建知识图谱。
第一步,信息抽取。
知识图谱的结构是实体、属性及关系,因此信息抽取也包括了实体抽取、关系抽取以及属性抽取。
实体抽取又称为命名实体识别,主要目的是从文本数据集中自动识别出命名实体;实体抽取完成后会得到一系列离散的命名实体,下一步则需要从原始数据中找到实体间的关联关系并提取,通过关系将实体联系起来使离散的实体相互关联,形成网状的知识结构;信息抽取的第三步是属性抽取,此时实体之间已经形成结构网络,这一步的主要目的是充实实体,采集更多实体的属性信息。
第二步,知识融合。
通过第一步知识抽取,半结构化的数据形成许多了实体、关系以及实体的属性信息构成的的信息碎片,这些信息内部关联性强,但信息与信息之间关联较弱,缺乏关联性和逻辑性;同时由于信息抽取并不能百分之百完全正确处理原始数据,所得到的信息碎片中还可能包含一些错误的干扰信息。为了解决这些问题,需要对抽取的信息碎片进行知识融合。
知识融合包括实体链接与知识合并。实体链接是将数据中抽取的实体对象链接到知识库中对应的正确实体对象的操作,其基本思想是首先根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象。实体链接主要针对从非结构化数据中提取的实体,对于结构化数据可直接进行合并。
第三步,知识加工。
通过上面两步操作,我们得到了一系列基本的事实表达,但是事实本身并不等于知识,想最终获得结构化,网络化的知识体系,还需要经历知识加工的过程。
知识加工包括本体构建、知识推理和质量评估三个步骤。本体构建是对实体的进一步细分与归类,通过实体并列关系相似度计算、实体上下位关系抽取最终生成本体;本体构建完成后,一个知识图谱的雏形便已经搭建好了,但此时候的知识图谱之间多维直接对应的显性关系,需要通过计算或数据挖掘的深层隐形关系可能未表达全,面对这种情况则就可以使用知识推理技术,去完成进一步的知识发现;最后一步是质量评估,通过对知识的可信度进行量化,通过舍弃置信度较低的知识,以保证知识库的质量。
通过以上三个步骤,就能将互联网的数据转换成可供计算机分析与利用的知识图谱。
构建数据量较少的领域性知识图谱
行业数据的数量和质量某种程度上决定了知识图谱的质量,但是对于某些行业,目前累积的数据量还不足以支撑模型的训练,对于这些行业,为了更好地构建知识图谱,目前有两种可行的解决方案。
1、高效地标注行业数据,提高数据利用率
在实际工作与生活中,一些领域内的语言习惯与书面用语存在着较大的差异,尤其涉及到企业服务,很多行业都有一套专属的业内用词,通过将这些文本转换为书面用语再进行标注,一定程度上可以增加行业的数据量。标注后的数据可以生成大量的数据集,这些数据集密切关系着训练出来的 NLP 模型的优劣,模型的质量则关乎文本挖掘和自然语言处理的质量。目前为止,数据标注依旧是一个需要花费大量人力和物力的工作。所以高效的标注工作可以很好地加速知识构建,还可以在极大地节省人力物力。
提升标注效率可以采用使用词典、使用深度学习模型和使用主动学习技术等方法实现。一般来讲,成熟的标注工具都会提供丰富的词典来帮助用户进行自动标注。深度学习模型也是标注工具中常用的技术,深度学习模型除了帮助用户标注以外,还可以帮助用户快速建立某领域模型,帮助用户解决领域文本挖掘问题。主动学习技术则就是把采用一种学习算法来计算出哪些数据更具有价值,率先让标注人去进行标注价值更大的数据并进行训练,以此提高户标注的数据的价值。
2、尝试使用迁移学习进行训练
面对缺少训练数据,另一种可行的尝试是使用迁移学习来进行弥补。迁移学习的思路是在预训练模型中找到能够输出可复用特征的层次,然后利用该层次的输出作为输入特征来训练那些需要参数较少的规模更小的网络。
当前迁移学习已经逐渐成为了资源不足时使用的人工智能首选技术,也在慢慢尝试应用在针对特定领域特定数据集的知识图谱构建中。在目前迁移学习技术尚未成熟,在实际使用中,迁移学习往往会引入噪声和需要大量专业的参数调试过程,并不实用。
知识图谱的存储方式
说完了知识图谱的构建历程,最后简单说一下知识图谱的存储。在数据爆炸的今天,通用知识图谱包含的数据量自然不必多说,对于大多数行业来说,每天知识图谱包含的数据量以及新产生的数据量也是不容小觑。因此,知识图谱的存储方式也是我们需要关注的。
知识图谱是基于图的数据结构,而与图数据库作为以实体及其关系为主要存储对象的数据库系统,天然适合用来存储知识图谱中的实体和实体间的关系。根据数据显示,目前排行前十的图数据库为以下几种:
通过排行榜可以看出 Neo4j 数据库遥遥领先,实际上neo4j 已经是当前业界分析知识图谱的主流数据库。但由于neo4j 是通过键值对(Key-Value)的双向列表来保存节点和关系的属性值,所以仅适用于存储实体关系和实体简单的属性。然而目前绝大多数领域不光有实体关系数据,如时空轨迹、标签、推理规则等也是领域内重要的知识数据,因此近来知识图谱的存储多采用混合存储模型,将知识库中的元素针对各自的特点使用多种数据结构存储,并保证数据的最终一致性。
知识图谱的功能与应用
通过上一节的介绍,我们已经简单了解了知识图谱的分类、具体的构建过程及存储方式,下面,让我们通过知识图谱的技术模型以及各领域内的应用实例来了解一下知识图谱的功能。
通用知识图谱的应用
通用知识图谱可以形象地看成一个面向通用领域的“结构化的百科知识库”,其中包含了大量的现实世界中的常识性知识,覆盖面极广。
由于现实世界的知识丰富多样且极其庞杂,通用知识图谱主要强调知识的广度,通常运用百科数据进行自底向上(Top-Down)的方法进行构建。目前比较具规模的通用知识图谱有如下几种,如图所示。
目前比较著名通用知识图谱的包括DBpedia、YAGO与Babelnet。
其中,DBpedia使用固定的模式从维基百科中抽取信息实体,当前拥有127种语言的超过两千八百万实体以及数亿RDF三元组;YAGO则整合维基百科与WordNet的大规模本体,拥有10种语言约459万个实体,2400万个事实;Babelnet则采用将WordNet词典与Wikipedia百科集成的方法,构建了一个目前最大规模的多语言词典知识库,包含271种语言1400万同义词组、36.4万词语关系和3.8亿链接关系。
基于树网模型的知识图谱建模
结合知识图谱的自身特性与使用场景,联动北方公司提出了以代数的群论、拓扑学习以及模糊论集合、图论等数学基础的智慧树模型。
智慧树模型,顾名思义,通过将知识图谱的建立过程类比为结构树,通过结构与分支的不断拓展与交织来完成知识图谱的构建。
在此模型中,每个实体可以比作一个独立的树突,实体间通过不同的关系相互联系缠绕在一起,形成多根的实体树网,树网的意义在于将实体间二维的关系转换为三维,弱化了关系顺序带来的影响,使得实体间的联系更加灵活。
同时智慧树模型采用多维模型而非平面圈层,多维模型的好处在于不仅能够定位实体在某个知识碎片中的位置,同时还定位实体在整个知识图谱中的位置,这个过程可以想象成葡萄与葡萄架的关系。将实体比做一颗葡萄,联动北方多维模型不仅能够找到葡萄所在的整串葡萄(知识碎片)中的位置,更能够通过定位命中簇——映射概念簇——序列化热点簇,定位葡萄在葡萄架甚至葡萄林(知识图谱)中的位置。多维模型模可以精准分析实体间的关系,更好地排除干扰,对于自然语言处理等应用有着极高的价值。
此外,智慧树模型是开放、外延、全方位扫描的,这意味着图谱内任何节点都会成为敏感点和关联热点,节点之间不会存在明显的权重差别,而是根据需要发挥作用;同时开放的模型支持无限拓展,保证数据能够实时更新;实体之间联系紧密,不同切面的节点能够通过关联节点进入其他切面,也可以沿着概念树从一个节点到另一个节点,更加灵活。
联动北方智慧树模型还提供了可视化智能建模界面,在可视化的建模操作界面,用户可以动态地创建、修改和删除各节点之间的关系,从而搭建不同的关系网。
此外,用户还可以在构建好的模型中自由选择需要显示的区域进行放大和详细显示,更清晰地展示实体间的联系,以便后续进行分析与处理。
领域知识图谱的应用
不同于通用知识图谱,领域知识图谱更具有针对性,着眼于解决某一个或一类问题,当前运维、金融、医疗等领域都已建立了自己的领域知识图谱。领域知识图谱主要通过以下几方面来发挥作用:
1、知识融合:当前互联网大数据具有分布异构的特点,通过知识图谱可以对这些数据资源进行语义标注和链接,建立以知识为中心的资源语义集成服务;
2、语义搜索和推荐:知识图谱可以将用户搜索输入的关键词,映射为知识图谱中客观世界的概念和实体,搜索结果直接显示出满足用户需求的结构化信息内容,而不是互联网网页;
3、问答和对话系统:基于知识的问答系统将知识图谱看成一个大规模知识库,通过理解将用户的问题转化为对知识图谱的查询,直接得到用户关心问题的答案;
4、大数据分析与决策:知识图谱通过语义链接可以帮助理解大数据,获得对大数据的洞察,提供决策支持。
那么在实际使用方面,知识图谱又具备了哪些功能呢?
知识图谱与智能运维
运维是一个相对来说比较依靠经验的工作,传统的运维工作人员虽然聪明,涉猎技术范围也十分广,堪称是博学多才的杂家,但是运维人员本身所存储的知识信息不具备传递性,无法被有效分享与利用。通过构建运维领域的知识图谱,对专家知识进行沉淀和存储,长远来看十分具有价值。从某种程度上来说可以说知识图谱是实现 AIOps 的关键技术之一,知识图谱的引入把 AIOps 变成一个真正具有运维知识的 AI,知识图谱结合大数据下的机器学习,再不断完善知识图谱,最终成为运维大脑。
知识图谱在运维领域的应用主要包括故障查询、故障传播、自动采集等。
故障查询
知识图谱是对客观世界认识的形式化表示,将字符串映射为客观事件的事务。当前基于关键词的搜索技术在知识图谱的知识支持下可以上升到基于实体和关系的检索,可准确地捕捉用户搜索意图,基于知识图谱中的知识,解决传统搜索中遇到的关键字语义多样性及语义有歧义等难题,达到通过实体链接实现知识与文档的混合检索。
将语义检索与错误查询相结合,用户输入的多样化错误信息通过语义检索进行分析,同时解决语言中实体的歧义性问题,借助于知识图谱,可以直接给出满足用户搜索意图的答案,而不是包含关键词的相关网页的链接。
故障传播
正常情况下,当故障发生时,系统会出发报警并逐级传递故障信息,此时为了解决故障除了要了解故障发生的具体原因,还需要层层排查找出故障发生的具体位置;随着系统结构逐渐复杂,故障数量和类型也指数级增长,传统的故障解决方法自然是行不通。
通过构建运维领域包含故障信息的知识图谱,能够能帮助用户自动快速了解当前服务故障的根本原因是什么、对当前故障有的处理建议以及当前底层故障对上层的具体影响,及时消除故障产生带来的影响;同时还能够依据配置信息自动生成的因果关系,包括自动挖掘出的因果关系、人工指定的因果关系以及自动挖掘的故障信息,发现潜在风险,为类似故障的解决积累数据。
知识图谱与金融
知识图谱因其自身的图展示、图挖掘、图模型计算优势,可帮助金融从业人员进行业务场景的分析与决策,有利于建立客户画像、进行精准营销获客,发现信用卡套现、资金挪用等行为,更好的表达、分析金融业务场景的交易全貌,从而成为行业的宠儿。
金融领域数据是典型的具有“4V”特征的大数据(数量海量Volume、多结构多维度Variety、价值巨大Value、及时性要求Velocity)。进一步,金融领域是最能把数据变现的行业。金融业类别业非常广,大类主要包括:银行类、投资类、保险类等。再小粒度可分为:货币、债券、基金、信托等资管计划、要素市场、征信贷款等。
知识图谱在金融领域的应用主要包括反欺诈、风控、征信、审计、数据分析、自动化报告等。
反欺诈
反欺诈的核心是人,首先需要把与借款人相关的所有的数据源打通,并构建包含多数据源的知识图谱,从而整合成为机器可以理解的结构化数据。在这里,我们不仅可以整合借款人的基本信息,还可以把借款人的消费记录、行为记录、关系信息、线上日志信息等整合到反欺诈知识图谱里,从而进行分析和预测。
除了申请阶段的反欺诈,通过构建已知欺诈要素(手机、设备、账号、地域等)的关系图谱,全方位了解客户海量风险数据的离线统计分析,按主题要素收集风险运营的结果反馈,建立客户风险特征信息库,优化风险模型和规则,还能做到交易阶段的反欺诈。
反洗钱
在反洗钱领域,我们同样可以帮助监管部门进行有效的监控,通过对关系账号进行逐级挖掘,可以找到隐藏在背后的洗钱账号。
相比单独账号、关系的识别,对反洗钱团伙的挖掘难度更大,这种组织往往隐藏在在非常复杂的关系网络中,很难被发现。我们只有把其中隐含的关系网络梳理清楚,同时从时间、空间多维角度进行分析,才能识别潜在的风险,发现隐藏的反洗钱团伙。
深挖客户潜在需求
当建立好一个基于银行客户关系的知识图谱系统后,可以进行弹性扩展,如增加车辆信息、个人爱好、行为等。结合多种数据源,更加精准地分析客户行为,了解客户潜在需求,进行精准推送。
以上的业务不仅可以针对个人客户,还可以针对企业级客户。分析企业级客户的资金关系、法人关系、上下游投资关系、相似企业业务关系等,为企业推荐合适产品、服务等,最大限度地挖掘用户的潜在需求。
知识图谱与医疗
随着当前技术的进步,采用理论研究与实证分析、应用研究相结合的方法,在收集大量资料与数据、阅读文献的基础上梳理和总结经典的医学管理与决策理论以及大数据管理与分析方法的医疗知识图谱已经实现。通过在此基础上开展应用研究,研发系统对理论成果进行验证,根据评测标准对应用效果进行测评给医疗领域提供了很多便利。
知识图谱在医疗领域的应用主要包括药物研发、辅助诊疗、辅助病情判断等。
药物研发
新药研发周期长、费用高、且成功率低,研发周期超过10年,研发费用超过10亿美元的“双十宿命论”一直以来是各大药企不可逾越的痛点。
理论上来说,一款新药从发现到投入市场需要经历四个阶段:药物发现、临床前研究、临床研究以及审批与上市。
知识图谱通过对药物发现阶段的大数据的整合,不仅能够更快地发现显性关系,而且能够挖掘那些不易被药物专家发现的隐性关系,构建药物、疾病和基因之间的深层次关系。
根据美国药物研究和制造商协会PhRMA的统计,药物发现阶段要对5000-10000种化合物进行筛选,其中仅有250种能够进入临床前研究阶段,仅有5种进入临床研究阶段。药物发现和临床前研究阶段耗时约3-6年。而应用知识图谱技术后,时间可缩短40%至50%,每年为药企节约260亿美元的化合物筛选成本。
辅助病情判断
根据数据显示,搜索引擎上每天有1亿次医疗搜索请求,而每天全国医院的门诊量仅为2000万人次。搜索引擎已成为用户获取医学信息的重要渠道。但是,一是网络医疗信息鱼龙混杂,真实性难以保证;二是海量信息下,优质的医学内容分散,难以被有效检索;三是自然语言与医学专业术语之间存在差异,搜索结果匹配不精准。
而建立医疗领域知识图谱后,患者在就诊前可以通过自己的临床症状进行自查与预判,增强患者在就医前对自己症状的认知,建立合理的心理预期,提高医生后续诊疗效率。医疗领域知识图谱的建立,一方面能够规避人工智能误诊、漏诊情况发生后医疗责任主体的划分难题,另一方面也能让知识图谱能够发挥更广泛、更精准的作用。
通过构建医疗领域的知识图谱,在针对用户推荐权威、靠谱、个性化的医学信息方面,意义非凡。
新一代知识图谱的性能提升
新一代的知识图谱在模型与功能上完成了对上一代的完全超越,那么性能方面有有哪些实质性的提升呢,下面以联动北方知识图谱为例,来总结一下。
1、好切分
联动北方模型采用多角度、多切面的工作模式,将不同的工作内容分配在不同的切面上执行,各个切面之间相互独立,互不影响。在此基础上,联动北方知识图谱还支持大规模工业级的流水线作业模式,各个流水线之间相互独立、相互协作,以提高工作效率。
2、易集成
在使用过程中,一个用户友好型的知识图谱模型必定具备易接入、易使用、易集成等特质,不会受到系统或运行环境的限制。
联动北方的新一代知识图谱模型能以HTML5等形式集成到目标系统,直接通过嵌入页面进行使用,不需要复杂的程序与操作(比如一个iframe);同时,在使用过程中除了可以无创接入外,还可以根据用户需求无痕改成目标系统的色系、样式、Logo等,自然融入成目标系统的一部分,大大增加系统的整体性与美观性。
3、好异构
数据为知识图谱模型的核心,其质量与覆盖范围某种程度上决定了知识图谱的质量。联动知识图谱支持采集与分析包括网页、表格、文本、搜索引擎在内多种不同格式的数据,同时可以相对“聪明”的自由组合,以便采集到关心的核心数据。
4、易拓展
对于大多数企业来说,对于不同问题的分析角度并不是固定不变的。以金融贷款为例,当银行对于一个贷款者的能力进行评估的时候,针对不同的用户所涉及到的分析角度也会不同,可能随时需要增加一些新的资料以完成全部的评估过程。这种情况下,一个易拓展,能够随时增加分析角度的知识图谱模型就显得十分重要和必要。
对于联动知识图谱模型,当需要补充新的分析角度时,只需要在原有的基础上添加新的切面即可,新的切面会自动融合到原有系统,以达到在不影响原有切面的情况下增加新的分析角度的目的。
5、高容量
在数据爆炸的今天,系统需要足够的容量来存储知识信息数据;此外,对于数据本身来说,通过提高提炼度、减少冗余数据也能够达到减轻系统容量的负担的目的。联动新一代知识图谱包含多维度数据,多切面关系,自完备定义,能够在相同的容量内存储更多的数据。
6、高速度
知识图谱的结构和应用范围决定了其储存信息量的规模,在如此规模的数据信息下,信息查找和存储速度需要足够快才能跟得上节奏。
7、高鲁棒
对于任何一个系统来说,稳定性都是应该放在第一位的,在实际使用过程中,有效抵抗外界干扰、保持系统持续稳定运行十分有必要。联动新一代知识图谱技术系统采用树网模型,匹配的信息不是数或字,而是一个结构,包括最小本征树与最大似然结构。此结构稳定性强,同时能最大程度降低数据缺失的敏感度,在部分数据缺失的情况下仍旧能做出合理的决策。
新一代知识图谱在建模、功能和性能方面都有着过人的表现,也在众多领域展现了其惊人的实力。相信随着技术的持续发展,知识图的谱构建技术和对应用场景的探索也会进一步深入,知识图谱的构建方式也会朝着更智能的方向前进。
作为人工智能技术中的知识容器和转换器,知识图谱对未来人工智能的进一步落地也起到了关键性的作用,期待未来二者能在更多的领域找到能够真正落地应用的场景,助力各行各业解放生产力,实现业务转型。
该贴被huang.wang编辑于2019-9-5 8:59:41