大连理工大学裘江南副教授主持完成的国家社会科学基金项目《主题图的语义相关度评价方法研究》(项目批准号为07颁罢蚕006),最终成果为同名研究报告和论文集。课题组成员有:王宁、叶鑫、曲刚、李丽冬、王带弟、罗志成。
当前,由于信息与知识类型的多样性、存在方式各异、对知识整合与检索需求的提高等因素,导致知识组织的理论和方法日益复杂化,传统的知识组织技术的缺陷也逐渐显露,而有效的知识组织方法需要调和日益丰富的语义内涵与易于计算机进行信息处理两者之间的矛盾。
作为一种新兴的数字化本体类知识组织技术,主题图是一种语义中度的概念关联类知识组织方法,它的语义适度性既确保了组织知识的语义特征,又提供了易于计算机理解的表示方式,有效调和了知识组织中的两个矛盾,因此对主题图等概念关联类知识组织体系的研究与应用成为新的焦点,但主题图的技术存在下列局限:一是主题图技术框架中虽然可定义主题之间的各种关联,但并没有给出主题间、主题和资源间的相关度评价方法,特别是缺乏主题间的语义相关度评价研究。二是现有的主题间关联只局限在彼此有直接关联的主题之间,并没有定义间接关联,即对非直接关联的主题之间的语义相关性传递问题缺乏系统研究。叁是引文分析中采用“关键词共现方法”也可用来评价主题间的相关程度,但该方法的准确程度有赖于语境的质量及文献样本的数量,具有一定的局限性。综上所述,有必要通过对主题图语义元素、语义结构及语义传递的基础研究工作,探讨基于计算语言学的方法来评价主题图的语义相关度。成果的基本思路和主要内容如下:
研究目的和意义
研究目的有以下几个方面:一是构造主题图中主题间及主题与资源间的语义相关度评价方法,实现主题图中主题间及主题与资源间的关联量化;二是发现主题图中间接关联主题间的语义传递规律,并构建语义传递体系,实现语义传递的计算机模拟,并将其嵌入语义相关度评价方法;叁是采用主题图的语义相关度评价方法成果研究基于关联量化的主题图知识组织方法,将其应用于知识导航系统并对评价方法进行完善。
研究的意义在于:一是通过系统分析主题图的语义结构和主题间的关系类型的基础上,建立各种类型关系的语义相关度评价算法。这种基于主题图语义结构的评价方法,能够依据主题图的结构快速对主题间的语义关联进行量化。同时,也可克服关键词共现方法的准确程度有赖于语境的质量及文献样本的数量的缺点;二是通过分析主题图中各种关系类型的语义传递特性,建立非直接关联的主题间的语义相关度评价方法,有利于揭示主题图中语义传递的变化规律;叁是为主题图引入量化的语义相关度评价方法,完善基于主题图的概念关联类知识组织的方法和技术,并有利于更清晰地理解主题图和相应资源实体的语义结构,进而提高知识检索和导航的精确程度。
成果的主要内容
研究中,首先,对现有的基于本体的语义相关度算法进行了系统分析和比较。从各种语义相关度算法的实验测试结果中可以观察到:语义相关度评价方法中考虑的关键要素越多,效果越好;在各种语义相关度评价方法中闯颈补苍驳&补尘辫;颁辞苍谤补迟丑评价方法的效果最好。在研究中选择闯颈补苍驳&补尘辫;颁辞苍谤补迟丑方法作为项目组提出的主题图语义相关度评价方法的比较标准。
其次,对主题图的语义元素及语义结构进行了系统分析,研究总结了主题图的语义元素特点,给出了语义元素的形式化定义,并对语义关系的属性和性质进行了深入分析,归纳出主题图中六大类经典型语义关系的属性和性质。同时以主题图构成及其包含的关系类型特点为基础,分析了主题图语义结构,进而指出其具有两层、连通及类树状特征,并给出了主题图中主题图树提取方法。
再则,针对主题图中间接关联主题之间的传递相关性问题,首次研究了主题图语义传递规律,并构建了主题图中的语义传递规则。具体包括语义传递符号定义、影响因素及判断过程等叁个基本方面,以及运用关系性质的研究成果和因子匹配理论等方法得出语义关系的传递规则,并通过人工认知实验进行了语义传递规则的认知度测试,验证其有效性,从而实现了语义传递判断的计算机模拟。进而,对主题图的语义相关度评价方法进行系统研究,提出了主题间的语义相关度评价方法、主题与资源间的语义相关度评价方法。其中,通过对主题图语义元素、语义结构及语义传递的分析,同时参照语义相关度已有研究基础,提出了考虑主题节点密度、深度、语义关系类型、路径及语义传递因素的主题间语义相关度评价方法,进而以《知网》本体资源作为实验环境,以人工判断为基准,通过与闯颈补苍驳&补尘辫;颁辞苍谤补迟丑方法进行了对比分析进一步改进该评价方法。实验结果也表明语义传递要素引入可以提高语义相关度算法的精度,并最终实现了基于语义关系的主题间语义相关度算法。此外,对主题与资源间的语义相关度评价方法进行研究。根据主题图语义结构及其资源特点,分析了主题与资源间的语义相关度影响因素,提出了基于多相关主题的主题与资源相关度算法。该算法引入主题间语义相关度值及多相关主题滨贵滨顿贵&苍产蝉辫;词频权重法,并与传统文本资源排序方法作对比分析,验证了主题与资源间语义相关度评价方法的优势。
最后,系统研究了基于关联量化的主题图知识组织方法。以台风应急管理为背景,设计并实现了嵌入主题图语义相关度评价方法的台风知识导航原型系统。通过构建台风知识主题图,在导航机制设计中嵌入主题图关联量化机制,克服了传统导航查全率和差准率低的问题,实现了基于关联量化的主题图知识组织方法的应用研究。
成果的重要观点
充分利用语义相关性的已有研究成果,以主题图语义元素及语义结构等为基础,对主题图的语义相关度评价方法进行了研究,研究的重要观点如下:一是首次提出了主题图的主题间、主题和资源间的定量化的相关度评价方法。完善了基于主题图的概念关联类知识组织的方法和技术,并有利于更清晰地理解主题图和相应资源实体的语义结构,进而提高知识检索和导航的精确程度;二是提出了主题图的主要关系类型的语义相关度评价算法。能够依据主题图的结构快速建立量化的语义相关度,可弥补关键词共现类方法的准确程度有赖于语境的质量及文献样本的数量的不足;叁是发现了主题图中间接关联主题间的语义传递规律,并构建了语义传递体系,实现了语义传递的计算机模拟,并将其嵌入语义相关度评价方法;四是提出了基于多相关主题的主题与资源相关度算法。该算法引入主题间语义相关度值及多相关主题滨贵滨顿贵&苍产蝉辫;词频权重法,并在相关算例实验过程中,获得了较好的计算结果。
成果的学术价值和社会价值
成果的学术价值在于:系统分析了主题图的语义元素和语义结构,发现了语义传递规律,并建立了语义传递模型。这些研究结果一方面为主题图语义相关度的评价方法研究提供了理论基础,另一方面丰富了主题图的语义结构的理论研究,并对语义传递领域进行了拓展研究;同时本研究重点设计了主题图的语义相关度评价方法,解决了主题图关联量化的问题,这些成果一方面完善了主题图的概念关联类知识组织的方法和技术理论体系,另一方面有利于更深刻揭示主题图与资源实体间的语义结构。
成果的社会价值在于:研究提出的主题间、主题与资源间的语义相关度评价方法,可以用来指导信息和知识资源的组织系统的分析与设计。将提出的评价方法可应用于信息或知识组织与检索系统,能够提高信息与知识组织的质量、检索的查准率和查准率,大大提高了人们获取信息的质量与效率,具有较大的社会效益。
(责编:陈叶军)