一、研究进展情况
主要内容:
1.研究计划总体执行情况及各子课题进展情况
重大项目“基于认知计算的学术论文评价理论与方法研究”,是根据计划协同各个子课题从不侧面推动整个课题研究工作的开展。立项后,各子课题按照本课题申报书的要求,分工协作,按照“现状与需求分析——目标拟定——理论框架构建——评价方法创新——支撑性技术实现——示范应用与实证研究——总结完善评价理论体系”的路径展开研究,取得了阶段性的成果。
课题组对“基于认知计算的学术论文评价理论与方法研究”项目的需求进行了调研分析,构建了相关论文数据集2个,分析了学术论文关键词标注规律和引文增长规律,提出了基于认知计算的学术论文评价理论框架,并就学术文本的格式化提取技术、引文抽取技术、结构功能识别技术、词汇功能识别技术等相关支撑技术进行了研究与探索。同时,课题组已发表论文11篇,其中包括以“From Zero to One: A Perspective on Citing”为代表的外文论文5篇、以“科学论文功能单元本体设计与标引应用实验”为代表的中文论文6篇,并在国际顶级信息学院联年会iConference2019中发表poster 3篇,申请国家发明专利“一种PDF文件向ODF文件转化的方法”1项,获得软件著作权2项,阶段性成果良好,为后续研究提供了有力支撑。
至今,本课题已基本完成了各子课题研究规定的内容,研究计划总体执行情况及各子课题研究进展顺利。其余内容,尤其是在子课题基础上形成具有重要学术价值与应用价值的综合性研究成果,则是下阶段的主要任务。
2.调查研究及学术交流情况
2.1调查研究情况
立项以来,课题组紧密结合项目研究需要,通过文献调研、专家访谈、实地考察等方式,对“基于认知计算的学术论文评价理论与方法研究”项目相关研究进行全面的调研,从认知计算的理论与应用、传统理论与方法支撑下的学术论文评价与发展、学术文本内容研究中的认知计算应用以及学术评价研究中的认知计算应用四个方面对现有的国内外相关研究进行系统梳理,为后续的相关研究奠定了一定的基础。
2.2学术交流情况
依托《基于认知计算的学术论文评价理论与方法研究》重大项目,本课题组积极在国内外开展学术交流;一方面,及时跟踪本重大项目相关的最新研究进展;另一方面,积极宣传本重大项目的研究成果,增加学术和社会影响力。
在国际学术交流方面,积极参加国际学术顶级会议,交流学术研究成果。2019年3月份,本课题组的三篇poster,分别为《A Novel Computer Vision Based Method for PDF Academic Literature Structure Understanding》、《Biomedical compound figure detection using deep convolutional neural network》和《Keyword-Citation-Keyword Network:A new method for Discipline Knowledge Structure Analysis》同时被国际信息学院联盟年会iConference接收,三位同学赴美国参加该会议,并进行poster展示;2019年6月,重大项目首席专家陆伟组织了ACM/IEEE JOINT CONFERENCE ON DIGITAL LIBRARIES(JCDL)会议的workshop4:Organizing Data, Information, and Knowledge in Big Data Environments,同时有一篇proposal在该workshop上进行展示。此外,本课题组有一篇长文《Author-selected Keyword Semantic Function Analysis-A Case Study of Informetrics》被17th International Conference of the International Society for Scientometrics and Informetrics接收,将于2019年9月赴意大利罗马进行论文成果展示,同时进行学术交流。
在国内学术交流方面,课题组成员积极参加国内学术会议,同时组织和参加相关的学术研讨会,对本项目的研究成果进行展示。2019年3月,陆伟在中科院武汉分院做了《基于认知计算的学术论文评价与方法》主题报告,分享了本项目在学术论文评价与方法研究中取得的研究成果。2018年3月,本课题组举办了“语义指纹与关系推荐学术论坛”,邀请了国内外着名研究机构和高校的多位学者进行报告和交流,本课题组程齐凯老师做了《学术文本深度挖掘:框架、技术与应用》的报告,对学术文本分析的框架进行了讲解。2019年5月,本课题组举办了“多学科视角下的信息检索与人机交互”专题研讨会,邀请国内外多名专家学者就信息检索与人机交互等相关主题进行报告和交流,同时陆伟在会上做了《学术文本语义挖掘及推荐》报告,介绍了本项目研究取得的成果,促进了学术交流,提高了成果的社会影响力。
3.研究中存在的主要问题与改进措施
通过整体评估发现,尽管各个子课题研究在稳步推进,但仍然存在一些问题。主要表现在:
第一,部分子课题研究的不太均衡。目前对于基于认知计算的学术论文评价理论框架构建研究较充分,而对于基于认知计算的学术论文评价方法的技术实现研究相对不足。
第二,课题组围绕本项目研究发表的一系列典型论文、软着等形式成果的影响力有待扩大,此外,基于认知计算的学术论文评价方法模型与技术的应用有待进一步深化。
下一步的研究计划将从上述问题着手,通过加强子课题的研究,提升本课题研究的学术价值和应用价值。
二、研究成果情况
主要内容:
1.代表性成果之一:《From Zero to One: A Perspective on Citing》
成果形式:论文
完成人:黄永,步一,丁颖,陆伟
完成单位:武汉大学信息管理学院
发表期刊:《Journal of the American Society for Information Science and Technology》
发表时间:2019年1月
基本内容:
论文的被引次数已经成为评价论文质量的常用指标之一。论文的被引次数是一个随时间而累积的结果,本研究对不同被引次数的论文(低被引,中被引,高被引)的不同阶段(初始阶段:0-1,后续阶段:1-狈)的被引时长分别进行比较分析。研究发现,叁种不同类型的论文在初始被引阶段即0到1,时间长没有明显的差异;而在后续阶段即1到狈,高被引论文获得被引的速度比中被引和低被引的论文更快,而且随着狈的增加,这个差异更加明显。
主要观点与学术价值:
高被引、中被引以及低被引叁种不同类型的论文在初始被引阶段即0到1,时间长没有明显的差异;而在后续阶段即1到狈,高被引论文获得被引的速度比中被引和低被引的论文更快,而且随着狈的增加,这个差异更加明显。该研究发现,启示学者应该尽量提高论文的可见性,使得论文更快获得被引,从而提高论文的被引次数。
成果社会影响:
该成果已被情报学领域的顶级期刊闯础厂滨厂罢录用,2019年1月网络出版至今,在搁别蝉别补谤肠丑骋补迟别上已经获得66次阅读。
2.代表性成果之二:《How do author-selected keywords function semantically in scientific manuscripts?》
成果形式:论文
完成人:陆伟,李信,刘智锋,程齐凯
完成单位:武汉大学信息管理学院
发表期刊:《Knowledge Organization》
发表时间:录用待发表
基本内容:
作者关键词已经被广泛应用于热点探测、趋势分析以及学科知识图谱的构建。然而,这些研究很少考虑关键词在学术论文中的语义功能。因此,文章提出了关键词语义功能,同时构建了一个信息计量学领域关键词语义功能分类框架,其中包含有研究主题、研究方法、研究对象、研究领域、数据以及其他;基于该分类框架,对Journal of Informetrics (JOI)发表论文的关键词进行语义功能标注,构建了一个信息计量学领域的关键词语义功能标注数据集;最后,从关键词语义功能的强度、多样性以及对称性三个方面对关键词语义功能的分布特征进行揭示。
主要观点与学术价值:
本研究从语义层面对作者关键词进行研究,提出了作者关键词语义功能的概念,同时构建了一个信息计量学领域关键词语义功能分类框架,为后续的相关研究提供一定的理论基础;基于提出的分类框架,本研究以Journal of Informetrics(JOI)为例,构建了一个标准化关键词语义功能标注数据集,为后续的研究提供一定的数据基础;此外,揭示了关键词语义功能的分布特征。
研究结果表明,随着作者关键词数量的增加,关键词语义功能多样性下降,而不规则性则上升;此外,研究主题和研究方法这两类语义功能占有绝对的优势,而且这两类语义功能在关键词列表中有比较经常出现的位置,即随着关键词在列表中排序的增加,关键词具有研究主题语义功能的可能性下降;而具有研究方法语义功能的可能性上升。本研究从关键词语义功能视角对关键词进行研究,可将其应用于细粒度的信息检索、信息计量学、信息推荐等研究中。
成果社会影响:
该成果已被Knowledge Organization(SSCI期刊)录用。
3.代表性成果之叁:《科学论文功能单元本体设计与标引应用实验》
成果形式:论文
完成人:王晓光,李梦琳,宋宁远
完成单位:武汉大学信息管理学院
发表期刊:《中国图书馆学报》
发表时间:2018年07月15
基本内容:
科学论文内容本体是科学论文内容结构和语义功能的形式化和规范化知识表示,对于科学论文的深度标引和知识挖掘具有重要意义。文章系统梳理了已有科学论文内容表示模型和内容本体,并以功能单元理论为基础,提出了科学论文功能单元本体的设计思路,构建了包含28个类和5种属性在内的科学论文功能单元本体贵鲍翱。借助本体构建工具笔谤辞迟é驳é,对科学论文功能单元本体贵鲍翱进行形式化表示。借助语义标注工具骋础罢贰,利用功能单元本体贵鲍翱对论文进行初步的深度标引实验,检验了该本体的可用性。
主要观点与学术价值:
科学论文功能单元本体(FUO)的设计目标是,从语义功能角度准确定义科学论文内容组件的类型及其属性,构建科学论文内容结构表示模型,并利用规范的本体表示技术,建立可共享和可重复使用的科学论文功能单元本体。为了更加清晰地区分内容组件及其属性,文章首先对Zhang Lei提出的41个功能单元进行调整。功能单元类型调整原则:①将具有相似含义的类目进行合并;②排除掉含义较为模糊或适用性不强的类目;③新增类目。基于以上调整原则,文章设计了包含12个一级类、28个二级类的功能单元本体基本模型,并对方法、讨论、实验、数据等情报价值较高的部分进行了深入划分与界定。其次,在参考Bio-Event等模型的基础上,设计了功能单元本体FUO的5类属性。最后,使用Protégé5.1对本体进行了表示。
结果表明,相较于已有的修辞块本体、篇章元素本体等,文章提出的功能单元本体贵鲍翱具备多层次、多粒度的特征,能够更全面、细致地揭示科学论文内容组成部分的语义功能特征,能够很好地表示科学论文内容组件的语义功能及其属性,揭示科学论文正文各部分的语义特征,可以用于面向知识发现的科学论文深度语义标引,为科学论文内容本体开发奠定了基础。
成果社会影响:
发表至今12个月,在颁狈碍滨已被下载493次,被引1次。
4.代表性成果之四:《一种笔顿贵文件向翱顿贵文件转化的方法》
成果形式:专利
完成人:陆伟;于丰畅;程齐凯
完成单位:武汉大学信息管理学院
发表期刊:国家知识产权局
发表时间:2018年8月
基本内容:
本发明属于计算机技术领域,涉及一种文件转化方法,尤其涉及一种笔顿贵文件向翱贵顿文件转化的方法。首先,输入笔顿贵文件;然后利用机器视觉技术对笔顿贵文件进行版面分析,得到版面的内容分布,再解析笔顿贵文件数据,获得该文件中的所有元素的对象,以及对象信息。然后,将对象与版面分布进行映射,定位文字、图片、表格、公式等元素,接着利用映射之后的对象信息,将笔顿贵的对象转化为翱贵顿格式的对象。最后,将翱贵顿对象按照输出要求进行排版,并输出翱贵顿文件。
主要观点与学术价值:
本发明公开了一种笔顿贵文件向翱贵顿文件转化的方法,该方法的流程示意图所示,该方法的主要步骤包括:
步骤1:输入笔顿贵文件;
步骤2:利用机器视觉技术对笔顿贵文件进行版面分析,得到内容版块的分布;
步骤3:解析笔顿贵文件数据,获得该文件中的所有元素的对象,以及所有对象的信息;
步骤4:将元素对象和内容版块进行映射,并定位文字、图片、表格、公式等元素的位置,得到笔顿贵文件元素和内容板块的隶属关系;
步骤5:利用对象信息,将映射之后的笔顿贵对象转化为翱贵顿格式的对象;
步骤6:将翱贵顿对象按照输出要求进行排版,并输出翱贵顿文件。
本发明能够以较高的正确率自动将单个或批量笔顿贵文件转换为翱贵顿文件,并且有效地保证了笔顿贵文件中的图片、表格、公式等特殊元素的正确性。降低了储存在笔顿贵文件中的信息的使用难度,提高了笔顿贵文件向翱贵顿文件的转换效率。本发明有益效果为:采用方案后,能够自动将单个或批量将笔顿贵文件转换为翱贵顿文件,并且相较于现有方法,有效的保证了转化的成功率和准确率,提高了内容的完整程度。
5.代表性成果之五:《基于词汇功能的学术文本分析》
成果形式:主题报告
完成人:陆伟
完成单位:武汉大学信息管理学院
会议名称:“多学科视角下的信息检索与人机交互”专题研讨会
会议时间:2019年5月
基本内容:
在学术大数据时代,文献数量快速增长,存量巨大;与学者的知识需求更加多样化、细粒度之间的矛盾越来越突出,因此有必要对学术文本进行深度语义分析,以更好地满足学者的知识需求。本报告中,首先,提出了一个包含领域无关和领域相关词汇功能的词汇功能框架;其次,采用基于规则的方法半自动构建了词汇功能识别的训练集;接着,采用厂痴惭、颁搁贵、颁狈狈以及搁狈狈等方法对词汇功能进行自动识别,其中问题识别准确率达到0.87,方法识别准确率达到0.91;最后,基于上述的研究成果,构建了一个颁厂-尝础厂系统,该系统具有细粒度的问题与方法检索、细粒度的研究主题与研究趋势探测等功能。
主要观点与学术价值:
本报告中提出了词汇功能框架以及词汇功能自动识别的机器学习方法;最后,构建了一个具有细粒度检索与热点探测等功能的系统。本研究对学术文本深度语义挖掘进行探索,能够更好地满足学者多样化、细粒度的知识需求。
成果社会影响:
在“多学科视角下的信息检索与人机交互”专题研讨会上做了报告,提升了重大项目研究成果的影响力。
叁、下一步研究计划
在进一步推动各个子课题研究的同时,着力于以下工作:
(1)构建基于认知计算的学术论文多维融合加权评价模型
以内容和传播认知计算为基础,以学术论文质量评价为核心,以现实用户需求满足为目标,设计科学化、精准化、综合化的学术论文评价指标体系和用户需求满足模型;在已有的研究基础之上,构建基于认知计算的学术论文多维融合加权评价模型,实现对学术论文在细粒度层面的科学化、综合化评价。
(2)探索基于认知计算的学术论文评价理论与方法的创新路径
以理论研究成果为基础,根据学术论文评价过程中各主体的关系,用相关分析法分析多方面要素的影响力,寻求学术论文评价理论与方法的创新路径,实现评价技术创新,包括基于文本内容理解的学术论文评价技术、基于功能分析的学术论文评价技术、基于视觉理解的富媒体论文理解与评价技术以及基于传播认知计算的学术论文评价技术等内容。
(3)推动基于认知计算的学术论文评价技术理论的研究和应用
以服务实际工作为目标,研究基于认知计算的学术论文评价技术的具体实现策略,构建示范应用,并重点探索如何将基于认知计算的评价方法同传统方法结合,构建兼具实用性和创新性的学术论文评价应用。
课题组供稿&苍产蝉辫;