一、研究进展情况
①研究计划总体执行情况及各子课题进展情况
项目总体按计划进行,至今已完成了第一阶段和第二阶段的大部分工作,正在重点推进第三阶段的工作。第一阶段的任务为:数据收集和基础理论研究(2013.1-2013.6);第二阶段的任务为:专项深化研究(2013.7-2015.7)。在前两个阶段工作的基础上,正在设计原型系统和开发测试,同时开展实证研究(详见后文报告)。2014年7月以来的研究内容主要包括:基于SVR模型的中文领域术语自动抽取研究;信息觅食理论与学科导航网站性能优化;搜索引擎服务质量与用户忠诚关系的实证研究;大数据时代科技情报服务的挑战与思考;基于多维度聚合的网络资源知识发现框架研究;基于机器学习的自动文摘研究综述;基于关联数据的学科网络信息深度聚合框架构建;网络检索结果聚类研究综述 ;中文网络灰色文献分布探析,等等。
2014年7月以来已发表35篇学术论文,其中英文论文8篇,中文论文27篇。
②调查研究及学术交流情况
调查研究情况。目前采集的数据和文献资料主要用于学科本体构建、用户行为研究、学科服务机制研究等实证研究方面。其中,2000-2015年《情报学报》数据集用于中文领域术语自动抽取研究;200多万条查询日志数据用于基于搜索日志的用户行为分析;5万余篇颁厂厂颁滨论文题录数据用于我国图书情报学科知识结构的演化分析;259份问卷数据用于对搜索引擎服务质量评价体系的研究;89份问卷访谈样本数据用于行动者网络理论视角下的颁础尝滨厂运行机制研究,等等。此外,项目组成员还奔赴北京、上海等地的高校、图书馆、情报所、公司等研究机构进行实地调研和数据资料采集工作。
学术交流情况。学术会议: 2015年3月,项目主持人和骨干成员出席iSchool年会(iConeference 2015),参与了大会专题研讨会和海报展示,并参加了多项学术交流活动; 2015年7月初,项目组成员赴土耳其伊斯坦布尔参加第15届国际科学计量学与信息计量学年会并做邀请报告;2016年3月,项目组成员赴美国费城参加iConference 2016年会;2016年6月,项目组成员赴北京参加数据科学与情报学国际研讨会。国际合作:2016年4月-6月间,项目组成员陆续邀请到前任国际科学计量学与信息计量学学会(ISSI)主席Prof. Dr. Ronald Rousseau、美国Indiana University的Prof. Ying Ding、美国UIUC信息学院副院长Prof. J. Stephen Downie等前来开展交流合作,围绕信息资源的测度以分析、用户采纳和接受信息的行为、网络数据挖掘等主题进行了深入的探讨。
③成果宣传推介情况
2014年7月7日,项目负责人以本项目首席专家身份在光明日报理论版发表文章《大数据时代人文社会科学如何发展》,探讨学科发展尤其是人文社会科学研究在大数据时代的发展问题,并对项目成果进行宣传推介。本文受到全国哲学社会科学规划办公室网站、光明网、人民网、求是网、凤凰网、中国台湾网等多家网络媒体转载。
2016年2月,项目首席专家在《人民日报》发表专刊理论文章,纵论“大数据使社科研究不再“望数兴叹”。文章从研究全程评价和全部研究数据资产化、研究资料的碎片化重组、计算化分析与可视化表现的结合、学科融合与数据服务发展等视角阐述如何运用大数据开启社会科学研究新局面。文章还认为,大数据的运用还将进一步推动学术技术分析服务、数据服务的发展,传统承担文献资料服务和普通信息服务的图书馆、情报服务机构等将向数据委托服务、计算分析服务转型。人民日报网络版、中国社会科学网、新华网、环球网等主流媒体均予以宣传报道,很好地对项目的研究成果进行了宣传推介。
此外,项目组还向国家哲学社会科学规划办公室递交成果简报1份,向《情报学报》、《图书情报工作》、《情报科学》等期刊进行了推介,洽谈专题组稿的计划和工作安排。
④研究中存在的主要问题、改进措施,研究心得、意见建议
一些最新的研究进展和阶段性成果没有及时进行总结,并将最新进展报送规划办公室,在通过新闻媒体向社会大众宣传推广上也存在不足。今后,课题组应继续加强向规划办提供工作简报,并利用多种有效途径向学术网站、重要报刊、学术期刊等媒体推介课题研究成果,加强对研究成果的宣传推广。
在深层网络数据的采集和价值挖掘上,遇到了一些难点,这也是本课题中比较难以应对的任务,对原型系统的开发也需要进一步加大人力物力。课题组将在接下来的工作阶段中,继续凝神聚力,攻坚克难,争取在这两个方面取得突破和进展。
二、研究成果情况
代表性成果Journal of Informetrics发文“Selecting publication keywords for domain analysis in bibliometrics: A comparison of three methods”,着重探讨了文献关键词分析中一个尚未引起重视的问题,即在大量领域文献中如何精确有效地选择关键词分析的对象。论文讨论了传统的TF方法,以及两种替代方法:TF-IDF方法以及TF-KAI方法。这两种方法考虑到了关键词消歧。进一步的实证研究表明,TF-KAI方法表现性能最佳,它能够保存领域专家挑选出的关键词,并揭示领域内的研究焦点。本文对关键词选取的理论和实践具有重要价值。
代表性成果Scientometrics发文“Exploring the topic hierarchy of digital library research in China using keyword networks a K-core decomposition approach”,提出一种通过构建关键词网络以及K核分解,自动发现主题层级的方法。相邻的类团能够根据其密度和聚类系数合并到对应层级中。对中国数字图书馆领域的关键词网络进行分析,发现了4个不同的层级。基础层包含17个内部紧密相联系的核心概念;中间层包括13个中介概念,并与基础层中的技术概念直接相连;详细层包含65个实体概念,并聚成13个类团;边缘层则包含了一个局部和孤立的概念。
代表性成果《图书与情报》发文“大数据时代科技情报服务的挑战与思考”,从大数据科技环境的时代特征着手分析了大数据环境对科技情报工作的主要挑战,并结合当前实践提出了相应的对策建议。论文认为:数据处理是科技情报机构服务创新的动力。大数据的离散分布和开放可得、用户信息需求向深度广度发展以及资源服务一体化,弱化了科技情报机构的资源优势,提高了信息分析的难度,给科技情报机构的服务能力提出了挑战。同时,也为大规模资源保障体系和信息服务模式的创新提供了可能。
代表性成果《情报资料工作》发文“行动者网络理论视角下的颁础尝滨厂运行机制”,从信息管理的视角,将行动者网络理论引入颁础尝滨厂运行机制的研究中,系统地分析目前颁础尝滨厂的运行机制及现状。结果表明现存障碍共包括经费不足、忽略以用户为中心的资源建设及技术。支撑不够等七个层面,各行动者涉及的利益主要包括共建、共享及共知等七个维度。最后文章对现有问题给出了相应的对策,并对未来颁础尝滨厂可能的发展方向进行了探索。
代表性成果《情报理论与实践》发文“基于SVR模型的中文领域术语自动抽取研究——面向图书情报领域”,结合语言学和统计方法,通过构建术语库提取术语抽取模板来抽取候选术语。此外,还通过引入回归的方法,将术语抽取问题转化为对词语成为术语的概率的预测问题。术语是本体的重要组成部分,术语自动抽取是本体自动构建的基础,文章采用回归的方法对未登录词进行概率( 某个数值( 组合) 对应的候选词集合中术语的概率) 预测,获得该词可能为术语的概率。论文提出的方法最后通过实验验证了其有效性。
代表性成果《情报科学》发文“基于多维度聚合的网络资源知识发现框架研究”,以网络资源为研究对象,以多维度聚合为主要手段,针对网络资源内容的大数据化、动态化、多维度等特征,探索基于语义关联的网络资源深度揭示与多维度聚合,以此为基础研究基于多维度聚合的网络资源知识发现框架,进而研发基于多维度聚合的网络资源知识发现技术系统,并结合特定领域、特定需求进行应用示范与对策研究。
代表性成果《图书馆》发文“基于关联数据的学科网络信息深度聚合框架构建”,回顾关联数据、学科网络信息深度聚合概念;分析基于关联数据的学科网络信息深度聚合框架构建的可行性,构建“聚合框架”并对学科网络信息关联数据发布工作流程进行分析;提出“聚合框架”实施应该注意的问题:如成立学科网络信息关联数据管理中心,发布中文编码体系词表的关联数据,遵守关联数据查询的内容协商机制,注意关联数据访问控制问题以及注意关联数据更新的同步问题等。
代表性成果《情报资料工作》发文“信息觅食理论与学科导航网站性能优化”,首先回顾信息觅食理论的理论基础和基本模型;然后将信息线索划分为文字型、像型、音频型和视频型四种类型,设计信息线索在学科导航网站中应用的五个原则;最后,构建基于信息觅食理论的学科导航网站性能优化模型,选择美国的滨苍蹿辞尘颈苍别学科导航网站进行案例分析。
代表性成果《现代图书情报技术》发文“基于搜索日志的用户行为分析”,利用搜索引擎日志数据对用户查询行为特征进行分析。采用分词、统计分析、聚类分析、可视化等方法,分别从用户的查询串、查询方式、查询主题、查询点击行为和用户类型5个方面对用户使用搜索引擎时的行为特征进行分析。发现搜索用户偏好使用2-5个中文名词短语组成的查询串;更少使用口语化查询,不爱使用高级检索功能;查询用词变得多样化;查询时间存在高峰低谷;再次证实存在"翘尾现象"。使用搜索引擎日志可以获得用户行为特征,并能为改善搜索引擎提供一些建议。
代表性研究成果《情报理论与实践》发文“网络检索结果聚类研究综述”,根据网络检索结果聚类算法的改进方向将其分为面向经典和面向标签的聚类算法两类。前者的改进主要有优化特征选择、优化聚类数K以及生成重叠聚类等; 后者的改进主要有优化类计分运算、优化类合并运算、数据结构优化、候选标签选择以及基于语义的优化等。在对相关研究进行综述的基础上探讨了检索结果聚类面临的问题和未来的发展方向。
课题组供稿