事理图谱:事件演化的规律和模式

本文作者为哈工大SCIR实验室丁效,李忠阳,刘挺,雷锋网获权转载。

2016年7月,哈工大社会计算与信息检索研究中心开始启动事理图谱的研究工作。2017年10月,研究中心主任刘挺教授在中国计算机大会上正式提出事理图谱的概念。2018年9月,在研究中心丁效老师的主持下,研制出中文金融事理图谱1.0版本,2019年7月更新为2.0版。本文是对2016年7月以来工作的最新总结,敬请各位同行指正。

引言

事件是人类社会的核心概念之一,人们的社会活动往往是事件驱动的。事件之间在时间、空间上相继发生的演化规律和模式是一种十分有价值的知识。然而,现有的典型知识图谱均以实体及其属性和关系为研究核心,缺乏对事理逻辑这一重要人类知识的刻画。为了弥补这一不足,事理图谱应运而生,它能够揭示事件的演化规律和发展逻辑,刻画和记录人类行为活动。在图结构上,事理图谱是一个有向有环图,其中节点表示事件,有向边表示事件之间的演化关系。现实世界中事件演化规律的复杂性决定了我们必须采用这种复杂的图结构。本质上,事理图谱是一个事理逻辑知识库,描述了事件之间的演化规律和模式。

1.研究背景及意义

随着深度学习的兴起,人工智能迎来了新的发展高潮。人工智能的一个发展瓶颈在于,如何让机器掌握人类知识。例如,人类能轻易理解“吃过饭”后,就“不饿”了这样的常识知识,而让机器理解并掌握大量这样的知识是一件极其困难的事情,而这也是通往强人工智能的必由之路。在众多类型的人类知识中,事理逻辑是一种非常重要且普遍存在的知识。

SushiSwap 已部署至 Base 网络:8月5日消息,SushiSwap 已部署至 Base 网络,同时将允许用户跨 Base 和其他网络交易和兑换代币。已支持axlDAI、ETH、WETH、AXL等15种代币。[2023/8/5 16:20:08]

许多人工智能应用依赖于对事理逻辑知识的深刻理解。以隐式消费意图识别以及隐式情感分析为例,只有让机器知道“结婚”事件伴随着后续一系列消费事件,例如“买房子”、“买汽车”和“去旅行”,我们才能在观察到“结婚”事件的时候,准确地识别出用户潜在的隐式消费意图,进而向目标用户做出精准的产品推荐。只有让机器掌握“考试不及格”会引起“情绪低落”这样的常识事理,才能从显式事件当中挖掘出用户背后的隐式情感。现有的对话生成系统大多从大规模对话语料中以最大似然估计进行训练。然而人类对话的语义和语境是复杂多变的,这样得到的对话系统很难深入理解对话上下文的前因后果,而只是对训练语料中特定问答模式的记忆。只有让机器理解了“吃过饭”之后“人不饿了”,“看电影”之前要“先买票”这样的常识事理,对话系统才能根据不同的问答语境,做出更加智能的回复。股市一般伴随着短期内随机的小波动,以及长期内重大事件驱动的大波动。例如,近来随着人工智能迎来发展高潮,以及“国家将人工智能列为国家发展战略”,科大讯飞等人工智能企业股价迎来了一波大涨。事件驱动的股市预测悄然兴起。从金融文本中挖掘“粮食减产”导致“农产品价格上涨”,再导致“通胀”,进而导致“股市下跌”这样的远距离事件依赖,对于事件驱动的股市涨跌预测非常有价值。事理逻辑知识的挖掘与知识库构建迫在眉睫,这将极大地推动多项人工智能应用的发展。

Magic Eden与Elixir合作推出自助式NFT创作和分发平台“CreatorX”:金色财经报道,NFT市场Magic Eden在社交媒体宣布与Elixir NFT合作,双方将推出一个针对艺术家的自助式NFT创作和分发平台“CreatorX”,旨在为用户提供用户友好且无代码的NFT创建服务,该平台还将提供低费用铸币、空投和兑现工具,未来也将拓展到开发基于NFT的游戏、体验等,并帮助Web2开发人员和机构用户探索SOL应用。另据Dapprader最新数据显示,当前Magic Eden平台交易总额达到21.9亿美元,交易者总量约为145.6万个。[2023/7/18 11:01:03]

事件是人类社会的核心概念之一,人们的社会活动往往是事件驱动的。事件之间在时间上相继发生的演化规律和模式是一种十分有价值的知识,挖掘这种事理逻辑知识对我们认识人类行为和社会发展变化规律非常有意义。然而,当前无论是知识图谱还是语义网络等知识库的核心研究对象都不是事件。尽管传统知识图谱在现代搜索引擎中得到了广泛应用,但是其聚焦于实体和实体之间的关系,缺乏对事理逻辑知识的挖掘。我们认为事理逻辑知识,包括事件之间的顺承、因果、条件和上下位等关系,对于人工智能领域的多种任务具有非常巨大的价值。为了揭示事件的演化规律和发展模式,我们提出了事理图谱的概念,旨在将事件的演化规律和模式构建成一个有向图形式的事理知识库,用于刻画和记录人类行为活动和事件客观演化规律。

Square Peg第五支基金完成5.5亿美元募资:10月26日消息,风险投资公司SquarePeg宣布旗下第五支基金完成5.5亿美元募资,投资者包括澳大利亚养老基金Hostplus和Australian Super,以及家族办公室、机构和捐赠基金。

SquarePeg合伙人Tushar Roy表示,新基金会密切关注澳大利亚、以色列和东南亚地区Web3市场的高水平活动。此前报道,SquarePeg于今年八月与Beenext、Hashed共同领投了区块链游戏基础设施初创公司Lysto1200万美元A轮融资。[2022/10/26 16:39:10]

2.事理图谱的定义

事理图谱是一个事理逻辑知识库,描述了事件之间的演化规律和模式。结构上,事理图谱是一个有向有环图,其中节点代表事件,有向边代表事件之间的顺承、因果、条件和上下位等事理逻辑关系。

理论上,事理图谱中的事件是具有一定抽象程度的泛化事件。表示为抽象、语义完备的谓词短语或句子,也可以表示为可变长度的、结构化的(主体、事件词、客体)多元组,其中必然包含一个事件词,标志事件的发生,例如:“跑步”,而事件的主体和客体都可以在不同的应用场景下被省略,例如:“”可以省略事件的客体,“”可以省略事件的主体。一般情况下,事件以及事件的抽象程度与该事件发生的场景紧密关联在一起,脱离了具体的场景,一个单独的事件可能变得过度抽象而难以理解。

塞尔维亚的菲利普王子:最终我可能会在比特币中工作:金色财经报道,塞尔维亚的菲利普王子称,最终我可能会在比特币中工作。[2022/8/30 12:56:10]

例如,虽然脱离了具体的场景,但“吃火锅”,“看电影”,“去机场”,“地震”仍是合理的事件表达;但“做事情”,“吃”等事件由于过度抽象,属于不合理或不完整的事件表达。事件词可以是动词或名词,但是绝大多数事件都是动词触发的。其中,按动词的内容意义进行划分,可将事件分为动作类事件、状态类事件、关系类事件与能愿类事件四个大类。

2.1事理图谱中的事件关系类型

我们认为,现实世界中有四种事理逻辑关系特别重要,也是我们提出的事理图谱中主要关注的事理逻辑关系,包括事件之间的顺承关系、因果关系、条件关系和上下位关系。

顺承关系是指两个事件在时间上相继发生的偏序关系。我们借鉴TimeML时序关系类别中的before和after偏序关系,在事理图谱中的顺承关系包括两种情况:一种情况是顺承的前序事件a结束后,后序事件b紧接着发生;另一种情况是前序事件a结束后,隔一段时间后序事件b才会发生,具体如图1所示。两个前后顺承的事件之间存在一个介于0到1之间的转移概率,表示从一个事件按时序顺承关系演化到下一事件的置信度。

Kucoin表示此前5000万稳定币转移地址并非三箭资本地址:7月5日消息,Kucoin向PeckShield表示,0x0D71587c83a28E1AdB9CF61450A2261ABbE33632并非三箭资本地址。

此前消息,据PeckShield监测显示,在过去24小时内,此前被标记为三箭资本的地址(0x0D71...3632)向Kucoin转移3032万枚USDT和2020万枚USDC。[2022/7/5 1:51:30]

事理图谱与传统知识图谱有本质上的不同。如表1所示,事理图谱以事件为核心研究对象,有向边表示事理逻辑关系,即顺承、因果、条件和上下位;边上标注有概率信息说明事理图谱是一种事件间相继发生可能性的刻画,不是确定性关系。而知识图谱以实体为核心研究对象,实体属性以及实体间关系种类往往成千上万。知识图谱以客观真实性为目标,某一条属性或关系要么成立,要么不成立。

4.事理图谱的构建

4.1基本技术原理

事理图谱课题主要研究从大规模无结构化文本数据中自动获取事理逻辑知识,并将这些知识组织成有向有环图结构,用以描述事件之间的演化规律和模式。这样的知识库我们称之为“事理图谱”。

事理图谱项目包含“构建”、“推理”和“应用”三个关键技术点:

(1)事理图谱的构建

事理图谱的构建主要用到以下具体的自然语言处理技术:事件定义、开放域或限定域事件抽取,事理关系抽取,事理关系置信强度计算,事件相似度计算,事件抽象与泛化等。

(2)事理图谱的推理

事理图谱的推理可以用于事件及关系的补全,主要涉及到的技术有:结构化事件表示学习,短语级、句子级事件表示学习,事理图谱图结构上的图神经网络技术等。

(3)事理图谱的应用

事理图谱的应用是指将构建好的事理图谱用于下游任务,例如消费意图识别和商品推荐、对话系统回复生成、股市涨跌预测、未来事件预测等,帮助提升具体任务的效果。此阶段用到的技术主要有:事理图谱的存储与查询,事件表示学习,事理图谱表示学习等。

4.2主要技术领域及当前发展热点

与事理图谱项目密切相关的技术领域主要包含以下几个方面:

(1)常识知识库资源构建

传统的常识知识库资源构建主要围绕实体及其关系展开。2012年谷歌成功将大规模知识图谱商业化,显著改善了搜索结果的呈现方式,并提升了搜索引擎的用户体验。之后以实体为中心的知识图谱获得了长足的发展以及广泛的应用。时至今日,知识图谱仍然是学术界的一个发展热点。知识图谱上的知识表示学习、实体链接、实体消歧、知识图谱补全等等研究方向仍然是当下研究的热点问题。

然而,已有研究者注意到事件常识的重要性,部分最新的研究工作开始研究以事件为中心的常识知识库构建。

(2)统计脚本学习

给出多个事件组成的上文,统计脚本学习研究下一个可能发生的事件是什么,可以认为是建模事件预测的能力。

传统方法多在无监督抽取的结构化事件链条上进行模型的搭建,这条技术路线仍然在发展当中,不断有新的模型涌现;最近,学者们提出故事结尾预测的评估方式,是对传统评估方法的进一步完善。

(3)事件顺承关系抽取

由于语料标注的限制,事件时序关系抽取研究进展相当缓慢。虽然曾经连续举办多个技术评测,推动了该技术的发展,但是进步仍然十分有限。最近,时序关系抽取重新引起了学者的研究兴趣,有许多相关研究发表。从预料的构建,识别方法的改进等多个方面继续推动该研究走向使用阶段。目前,已有开放域的时序关系抽取系统发布。

(4)事件因果关系抽取

文本中的因果关系抽取一直是一个难点。虽然学者们提出了许多方法,但是仍以因果模板匹配的方法抽取精确度最好。模板匹配的缺点在于召回率难以保证,许多有价值的因果关系无法召回。目前,高效准确的因果关系抽取方法仍然是一个难点及研究热点。

(5)知识表示学习与网络表示学习

知识表示学习是指将知识图谱中的实体及关系映射到低维稠密向量,进而可以更加方便地用于后续任务当中。网络表示学习的研究对象不仅仅包含知识图谱这种网络,而是更广义上的网络。这两个研究方向都是当下研究的热点问题,属于事理图谱应用阶段的实用技术。

5.金融事理图谱V2.0版本发布

2018年9月10日,HIT-SCIR正式对外发布金融事理图谱V1.0版本,经过近10个月的潜心研发,HIT-SCIR推出金融事理图谱V2.0版本,相对于V1.0版本,V2.0版本进行了如下的改进。

金融事理图谱V2.0版本扩充了数据源,扩大了数据规模,增加了事件节点数量以及因果关系数量,同时增加了事件上下位关系以及抽象事件和抽象因果关系,采用基于BERT+CRF的方法将因果关系抽取的F值由原来的59.54%提升到了85.12%。

结束语

知识图谱在各个领域精耕细作,逐渐显露价值。知识表示形式有待突破,推理能力有待提高。统计脚本学习和事件关系识别等事理图谱相关研究越来越吸引研究者关注。以“谓词性短语”为节点,以事件演化为边的事理图谱方兴未艾。事理图谱必将在预测、对话等领域发挥重要作用,有力地提升人工智能系统的可解释性。

详细论文请参考:https://arxiv.org/pdf/1907.08015.pdf

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

银河链

[0:31ms0-1:826ms