一、 研究进展情况
武汉大学萧国政、姬东鸿为首席专家的国家社会科学基金重大招标项目《基于本体演化和事件结构的语义网模型研究》(项目批准号:11&补尘辫;窜顿189),2012年2月15日正式开题启动,2013年8月提交项目中期检查表。项目经费总额80万,2012年5月到账经费68万。
本课题子题多,参研单位和学科多,需攻克的难点密集,根据开题专家组和管理部门的建议,专门成立了项目管理组,项目严格按照国家对哲学社科基金重大项目的管理要求,建立了实施和管理方案,细化了任务分工和任务要求,明确了任务时间节点,每周、每月、每季度都有不同课题组及成员参加的学术研讨会和汇报交流会。目前,项目研究历时已叁年半,前面的工作已经做过汇报,现将2013年7月—2015年6月(下面简称“现阶段”或目前)的项目研究情况汇报如下。
一、项目开展情况
(一)研究计划总体执行情况及各子课题进展情况
子课题一,为面向事件的本体结构资源建设,旨在建立涵盖实体、属性、性质、事件及其上下位关系的基础本体结构,建立涵盖事件和事件链的语义标注资源,为文本的深度语义挖掘、上下文理解和语义查询及推理奠定基础。
本体结构方面,现阶段我们用事件语义描写模板完成了电子商务领域的事件语义描写模板库,以及10余万字的着作。其创新点是:1)从事件本身的语义特征出发来理解和定义事件,对事件进行了新的内涵分类和结构分类,以方便提取事件的结构要素;2)提取了事件的六个一级基本语义要素和二十五个二级语义要素,并以这些语义要素为基础,定义了事件六元组通用描写模板。
事件资源方面,在总结和研究多学科相关成果的基础上,针对语言信息处理的需要,构建了适用于语言信息处理的事件理论系统,并将事件分析和结构分析融合起来。现阶段我们集中对突发事件和医疗事件进行标注,定义了事件标注的基本框架,并形成一定规模的数据资源。其创新点在于:1)在事件标注中引入了结构性语义单元。如“发生……事故”和“正在……进行中”它们可分别作为一个结构性事件触发词和一个结构性时态整体标注出来。2)将事件标注方法引入真实的药品说明书和用药指南中进行标注。
目前我们确定了事件标注的具体步骤,包括语料的选择、语料的预处理和事件标注,并对数据进行了人工标注。我们将突发事件分为:原因类事件、核心类事件、结果类事件和处置类事件四个类别进行分别标注。每一类事件又有其事件触发词和相关的事件属性,如:时间、地点、施事、受事、模态等。医疗类事件,我们以药品说明书及用药指南为基础数据进行标注,定义了疾病、症状、治疗(手段)、药品、病菌、患者等8个事件实体。不仅标注这些医疗领域的事件实体,还要标注这些实体间的关系,这种基于“事件”的标注资源在中文领域比较稀缺。
子课题二,为面向事件的语义网表示和推理机制,此课题旨在研究大规模的事件语义描述及其推理模型和引入统计推理,以支持面向事件的语义查询和实时自然语言查询,并从逻辑基础的角度来验证这种表示机制的可满足性和可判定性。目前主要完成了叁个方面的研究:①开发基于规则的知识图谱质量评价机制的研究,已经在医学知识图谱质量评价方面取得了一定进展;②进一步细化了基于事件的医学指南文本处理的研究,包括将中文抗菌药医学指南文本转换成相应的可执行规则和利用英文循证指南,细化中文指南的相关工作;③建立了从现有专业网站自动构建相应领域知识的工具,并针对医学类专业网站进行了验证,达到了相应的效果。
本子课题在以下方面有所创新:1) 引入了基于规则的知识图谱质量评价机制的研究;2)建立了医疗、消防等专业领域的中文开放链接数据,丰富了中文开放链接数据库的内容,并为相关应用奠定基础。
子课题叁,为基于知识发现的本体演化机制研究,旨在研究在大规模文本的作用下,基础本体到领域本体以及领域本体间的演化机制。这方面的主要进展在于:①研究从大规模语料中自动发现目标单词词义,提出一个基于词汇链的词义归纳超图模型;②提出通过语法测试的方法来提高语料标注质量;③自动发现领域文本中的事件触发词及其论元。
这些工作的创新性在于:1)基于词汇链的方法发现目标单词的高阶语义关系,以此构建超图,并根据所构建的超图满足“小世界图”特性发现词义;2)利用复杂网络的办法发现新的社团,其中包含事件触发词和可能的论元。
子课题四,为事件语义的自动标注研究,本课题旨在基于人工标注的一定数量语料实例和概念本体的基础上,遵照人工标注事件语义规范,利用机器学习方法,进行事件结构学习和事件关系抽取,为未标注Web页面自动进行事件语义标注,并在事件语义自动标注软件的帮助下,获得更多的标注了事件语义的语料实例,扩展事件本体资源的规模。目前我们的进展主要在以下几方面:①我们在已标注中文事件语料上,采用统计与规则相结合方法,研究了中文事件抽取;②在NTCIR RITE任务的语料上,进行了人工事件标注,研究了事件对中文文本蕴涵关系识别的影响;③在爬取的医疗语料(主要是药品说明书)上,进行了医疗实体、医疗实体关系识别方面的探索。
本子课题的创新之处在于:1)将事件自动标注与医疗文本信息结合,利用事件语义自动标注方法,对药物说明书与用药指南文本进行基于事件语义的计算与理解;2)通过不同的原子事件的抽取方法,研究开放领域原子事件的抽取技术及其与指代消解、词义学习的关系。
子课题五,为基于事件的语义查询与推理研究,本项目旨在建立一种基于事件的推理模型,以及一种基于事件推理的语义查询与推理系统。按照预期目标,已经完成以下研究:①文本推理框架、各模块(预处理模块、蕴涵转换模块、蕴涵分类模块)。②完成了基于事件的蕴涵识别模块。③基于文本蕴涵的问答系统完成。④在评测平台方面,完成了搁罢贰、狈罢颁滨搁评测数据收集分析,并对评测工作现状进行分析,完成了原型系统设计、错误分析和系统改进。在此基础上,课题成员参与了狈罢颁滨搁-11组织的的中文文本推理任务,系统效果在参赛队伍中名列前茅。
本子课题的创新性在于提出了基于事件的蕴涵识别方法,该方法能一定程度刻画深度语义,能够识别面向语篇的蕴涵关系,有助于提高语义查询系统的性能。
二、调查研究及学术交流
项目在已有的基础上,我们进一步加强了调查研究工作和学术交流。为了帮助和实现项目的研究在国内外学科前沿高水平展开,除了团队内部的例行讨论,我们还注重与国内外着名专家学者的火花碰撞,先后邀请了多位国内外知名教授和语义网领域专家前来讲座交流,深入探讨语言哲学、语言认知等语言学宏观问题以及语言信息处理等技术前沿问题。
2013年至今主要调查研究工作如下:
1)收集、阅读并总结了医学事件、事件推理等方面的相关资料;
2)收集、阅读并总结了事件抽取、事件语义标注以及事件在文本蕴涵、医疗等应用方面的相关资料;
3)收集、阅读并总结了文本推理、文本蕴涵等方面的国内外最新资料及文本推理自动识别研究中的事件研究;
4)总结了大量国内外对于事件本体资源构建的资料。
2013年至今主要学术交流如下:
1)组织承办了第八届中国语义网及万维网科学大会(CSWS2014)。本次大会的主题设定为“Big Data and Semantics”,有来自中国、德国、美国、英国、意大利和葡萄牙的120余位专家学者及在校研究生、工业界人士参与了此次大会。大会还特别邀请了国际著名语义网专家德国Karlsruhe理工学院Rudi Studer教授、清华大学孙茂松教授和东北大学王国仁教授作了对于“语义网中间件及工业应用”、“知识图谱”和“移动大数据”的大会报告。
2)参加了颁辞濒濒颈苍驳2014和贰惭狈尝笔2014等计算语言学领域的顶级会议。
3)参加了包括颁颁尝、颁厂奥厂在内的计算语言学、语义处理方面的国际学术会议;
4)参加了NTCIR-11 RITE-VAL中文文本蕴涵分类方面国际评测任务,MC子任务的官方评测结果排名第一;
5)参加了新加坡国立大学和清华大学联合举办的下一代搜索(Next Search)研讨会。
6)参加了闯滨厂罢2014等语义处理方面的国际学术会议。
7)在第8届中国语义与万维网科学大会期间,本课题组织和主持了一次“Lexical Semantics”的专门研讨会。
叁、成果推介及简报报送情况
自2013年以来成果推介情况
1)在颁厂奥厂2014会议期间组织了相应的事件语义与医学信息处理专刊;
2)通过中国计算机学会驰翱颁厂贰贵青年论坛组织了一场事件语义与医学信息处理方面的专题报告会,取得了较好的效果。
3)在颁颁尝2013和颁颁尝2014计算语言学学术会议期间,就事件语义对中文文本蕴涵关系识别的作用进行了学术交流;
4)在颁厂奥厂2014国际学术会议期间,针对新闻原子事件抽取方法、语言现象对中文文本矛盾关系识别的影响、药品说明书中医疗关系抽取等方面进行了学术交流;
5)在狈罢颁滨搁-11国际学术研讨会上就搁滨罢贰-痴础尝系统所采用的方法及评测结果进行了学术交流;
6)在下一代搜索研讨会上就事件语义在媒体搜索方法和精度等作用进行了探讨;
7)将事件语义运用到医疗信息处理方面的宣传与推广。
自2013年以来报送简报共3期。
第六期简报报告了2013年项目核心资源——事件链语料标注系列研讨会开展情况,迄今研讨会共召开了11次,通过多次的试错和修正,基本确定了词汇链、狈笔链、事件和事件链的确定和标注原则,以及从词汇链到狈笔链、从狈笔链再到事件链的整体标注思路,并从可操作性方面比较了从依存语义角度和狈笔链角度进行标注的优劣,在操作性上认可了狈笔链角度在客观性及效率性上的显着优势。随着讨论的不断深入,还确定了事件链牵出之后其事件结构的描写方式,即其直接论元只用描写其中心语,然后在结构之后附加其在词汇链上的修饰语对这个中心语的依存关系。
第七期简报报告了事件本体构建及事件链的标注上的创新及基于事件的语义查询与推理研究方面的创新。事件本体构建的创新点:1)事件链中原子的确定及形成。从语言上讲,在一个篇章中,可以通过某词反复出现来作为识别主干事件的手段。(复现词往往是指称词)因此可形成一条聚合链。2)事件本体构建中加入蕴涵信息。在事件本体加入蕴涵信息,就可将一个语篇中相关的谓词链接起来,并推出该谓词所带论元。形成一个可推理的复杂网络,即事件链和事件图的转化。事件语义查询与推理方面的创新:1)提出基于事件图的中文文本蕴涵矛盾识别模型,该模型中包含事件语义特征和图统计特征。其事件的语义特征可在我们建立的事件本体中查找。这种语义特征是包含语义基元结构的结构树。2)通过对中文文本矛盾相关的事件语义现象分析,得到事件语义规则,并引入中文文本矛盾识别模型。3)基于深度学习的文本蕴涵识别。提出一个两阶段的步骤识别蕴涵关系,通过学习文本(罢)和假设(贬)间的潜在共同语义把罢和贬结合起来,再在共享语义层的基础上比较罢和贬来获得它们的蕴含关系。
第八期简报主要报告了整个研究团队秉持“注重基础,着力创新”的理念,课题取得了较为丰硕的研究成果,并产生一定的国际影响力。在概念本体建构方面,现已定义了各种结构基元的类型和属性,包含上下位关系、整体部分关系和同义关系;针对传统的义素分析法存在的义素集开放、数量不可控,以及结构缺乏统一的描述框架等缺陷,从词义系统中萃取一套系统的、意义简明单一的、数量有限的词义成分集,作为词义基元结构作为对整个词义系统进行描写的工具,即词义的基元结构;基于义类、义核、义征、义用四类基元结构,归纳了基于基元结构描述的词义结构方程式,对词的语义结构进行形式化描写。在事件本体建构及事件链的标注方面,提出了同一词汇链,扩展狈笔及主干事件链一系列的抽取过程。从客观上解决了事件及事件链抽取的困难。目前,已依此方法标注新闻语料篇章事件链700余篇,发表博士论文、国际国内会议论文10余篇,部分论文也在国际会议上进行大会报告并得到同行和专家的关注。在资源建设方面,结合资源建设实践、项目研究和团队学科背景,从词位理论探索入手,我们提出了对语言资源类型、性质以及建设的新的思考。我们发现词位包含抽象和具体两类形式,是词位的第一个位特征:构成特征。词位的第二个位特征:内部关系特征。即词位是对变体的抽象,词目是对词例的抽象,词汇词是对句法词的抽象。词位的第叁个特征:变体词义差异容忍特征。即句法词的意义内涵大于词汇词意义内涵,二者是广义的逻辑上下位关系。词位变体不同于音位变体,变体之间存在和允许逻辑上的上下义。这种思路从一个独特的角度分析、解释了资源如何建设才能达到科学性和智能性。
四、主要问题与改进措施
子课题一存在的主要问题是标注一致性问题和标注量巨大。标注质量是资源建设的核心,没有良好的质量控制,所标注的资源就不具有规范性和代表性,也就丧失了机器可操作性的基础。为了使不同标注者实现标注结果一致性的最大化,我们将进一步加强对标注者的前期培训和过程培训,实时控制标注质量,统一标注要求,做到边标注,边检查,确保最终标注成果的质量。
子课题二主要问题是知识图谱质量成为影响后续研究的一个重要问题;设计一个能表达丰富事件语义的推理机制在可计算性和时空效率等方面存在困难。我们将知识图谱质量评价和改进纳入课题研究范围;将事件推理限定于专业领域进行研究。
子课题四目前面临的问题是除突发事件外,其它类事件的标注规范还没有确定;已标注事件的语料有限,使用有监督学习方法进行事件抽取受到限制; 虽然已经有了将事件扩展至领域语料的想法,但对领域语料的研究还不够深入。整个课题还需进一步加强成果发表和出版的工作。改进措施:目前通过讨论基本上已经确定了突发类事件的标注规范,在后续的标注工作中争取进一步完善;在目前已标注事件语料有限的情况下,尽量采用半监督或无监督方法探索事件抽取;以医疗或生物信息领域为突破口,尽量将事件语义模型拓展至专业领域。
另外,在项目管理上,由于本项目前期人工标注工程量较大,劳务消耗超过预期,因此存在劳务费的支出在一定程度上超出规定额度的问题。针对上述问题,项目组将加强对项目的集中领导,要求各子课题负责人每周报送工作进展,分级管理,实现对项目开展情况的实时跟踪,并每月定期组织召开专项研讨会,集中讨论解决相关问题。(其他改进和完善,可参见下一步研究计划列表及经费缺口列项)
二、 研究成果情况
1、学术论文:
1)发表了《中文信息学报》论文2篇:《词位重构与平行语言资源的再生性建设》《基于事件语义特征的中文文本蕴含识别》
《词位重构与平行语言资源的再生性建设》:语言资源建设对于语言信息处理或计算机语言学的重要性。《词位重构与平行语言资源的再生性建设》一文结合我们资源建设实践、项目研究和团队学科背景,从词位理论构建入手,提出我们对语言资源类型、性质以及建设新的思考理论和建议,以期活跃思想,推动资源建设发展,展示语言理论的突破对语言技术和资源建设跨越性发展的意义。
《基于事件语义特征的中文文本蕴含识别》:提出了基于事件语义特征的中文文本蕴含识别方法。该方法基于事件标注语料生成事件图,将文本间的蕴含关系转化为事件图间的蕴含关系;利用最大公共子图的事件图相似度算法计算事件语义特征,与统计特征、词汇语义特征和句法特征一起使用支持向量机进行分类,得到初步实验结果,再经过基于事件语义规则集合的修正处理得到最后的识别结果。实验结果表明基于事件语义特征的中文文本蕴含识别方法可以更有效地对中文文本蕴含关系进行识别。
2)发表了一篇EI检索的论文,《Annotating Principal Event Chain in Chinese Texts》
《Annotating Principal Event Chain in Chinese Texts》认为语篇的衔接不仅包含词汇衔接,同时也包含事件衔接,这两者都是语篇理解的重要内容。本文提出一种基于主干事件链的语篇衔接标注方法,该主干事件链亦跟词汇衔接(词汇链)密切关联。词汇链一方面是提取主干事件链的线索,另一方面又是主干事件链的组成部分。该方法标注出的语篇主干事件链提高了语篇衔接标注的客观性,而且加强了语篇衔接标注的实用性。
3)在颁厂奥厂2014会议期间组织了相应的事件语义与医学信息处理专刊;
通过中国计算机学会驰翱颁厂贰贵青年论坛组织了一场事件语义与医学信息处理方面的专题报告会,取得了较好的效果。
4)在《武汉大学学报(理学版)》论文发表《基于信息单元融合的新闻原子事件抽取》
《基于信息单元融合的新闻原子事件抽取》针对新闻语料,提出了一种基于信息单元融合的原子事件抽取方法。在中文分词、词性标注、命名实体识别等自然语言处理技术的基础上,利用语言规则将信息单元标识出来并进行融合,达到浅层句法分析的效果,通过原子事件抽取算法将原子事件从经信息单元融合后的语料中抽取出来。基于信息单元融合的原子事件抽取方法不仅对文本长度没有严格限制,并且不受事件类型的约束;实验结果表明,基于信息单元融合的原子事件抽取方法是有效的。
5)在计算语言学领域国际顶级会议础颁尝,贰惭狈尝笔和颁翱尝滨狈骋上发表论文叁篇:
Word Sense Induction Using Lexical Chain based Hypergraph Model(COLING 2014)提出一个基于超图的词义归纳模型。首先采用基于词汇链的方法发现包含目标单词的上下文实例间的高阶语义关系;然后以结点表示上下文实例,超边表示多实例间高阶语义关系构建超图,其中词汇链被用于发现超边;最后根据所构建的超图满足“小世界图”特性,一个基于最大密度超图谱聚类算法被用于发现词义。实验基于Semeval-2103 WSI任务,与普通图模型进行比较,其在词义检测与词义评级两个指标上分别提升了5.6%和6.4%。
Positive Unlabeled Learning for Deceptive Reviews Detection(EMNLP2014)基于少量真实评论和大量的未标注评论,提出一种创新的PU (Positive Unlabeled)学习框架来识别虚假评论。首先,从无标注数据集中识别出少量可信度较高的负例。其次,通过整合LDA (Latent Dirichlet Allocation)和K-means,分别计算出多个代表性的正例和负例。接着,混合种群性和个体性两种策略来计算间谍样例属于两个类别的概率权重。最后将所有间谍样例和其概率权重融合到SVM (Support Vector Machine)的学习阶段,训练出准确的分类器。数值实验证实了所提算法的有效性。
Event-driven Headline Generation(ACL2015)提出一种事件驱动的标题生成模型。给定一篇文本,首先提取一组结构化事件组成的主干事件链,然后采用一种多语句压缩方法融合这组关键事件以生成文本的标题。模型使用事件结构融合提取式标题生成和生成式标题生成方法的优点。在标准评测数据集上的结果表明该模型能取得比以前的主流方法更好的效果。
2、软件着作权:
1)基于语块识别的新闻原子事件抽取系统,中华人民共和国国家版权局(证书号:软着登字第0679374号);
2)药病语义关系自动发现系统,中华人民共和国国家版权局(证书号:软着登字第0679104号);
3)中文维基百科时间信息自动抽取系统,中华人民共和国国家版权局(证书号:软着登字第0679442号)。
3、专利:
基于信息单元融合的新闻原子事件抽取方法,中华人民共和国国家知识产权局,(专利受理号:20140108447.0)