一、研究进展情况
1. 研究计划总体执行情况及各子课题进展情况
本课题围绕大数据和计算社会科学两个主题,共设计了四个子课题;1、大数据与大数据技术研究;2、计算社会科学的产生、发展与现状研究;3、社会计算的理论、方法与现状研究;4、大数据时代计算社会科学的发展前景研究。按照原研究计划,本课题第一阶段主要任务是子课题一、子课题二的研究,两项研究平行展开;此外,子课题叁和子课题四的前期研究工作也开始启动。
子课题一的研究内容为新一轮信息技术革命的动态,及其为社会科学研究带来的机遇,主要涉及大数据、物联网、云计算、人工智能等领域的发展与现状、大数据时代社会科学研究的新数据资源、新数据处理技术在研究中的运用等。目前已按原定计划完成研究任务,从社会科学研究视角,厘清了大数据与大数据技术的概念,阐明了两者之间一体两面的关系;针对当前社会科学界争论的焦点问题给出了回应,澄清 “数据总体论”、“数据自然论”等对大数据的偏误性认知;提出了“社会科学大数据”概念,分析了各类社会科学大数据的特点及其科学价值。围绕上述研究,课题组已发表了6篇学术论文,含CSSCI论文2篇,其中1篇被《人大复印资料?社会学》全文转载。由于数据还在不断涌现,大数据技术仍在快速发展之中,课题组还在持续跟踪相关领域,继续丰富和完善研究成果。预计子课题一的跟踪研究将一直持续到结题之时。
子课题二的研究内容为计算社会科学的产生、发展与现状,主要涉及计算社会科学的理论与方法、国内外的代表性研究成果、计算社会科学在方法上的创新等。目前已按原定计划完成研究任务,在对计算社会科学的历时性考察和对相关研究成果系统性梳理的基础上,总结性地提出当前计算社会科学的三大方法体系,即基于“第四范式”(数据密集型知识发现)的社会科学大数据计算、数据驱动的基于主体的建模与仿真(Agent-based modeling and Simulation)、基于互联网平台的社会科学实验;重点研究了计算社会科学在以复杂社会系统为对象的科学研究中的优势与局限性。围绕上述研究,课题组已发表了6篇学术论文,含CSSCI论文2篇,其中1篇被《人大复印资料?社会学》全文转载。由于计算社会科学尚处在发展初期,海内外相关研究成果不断涌现,课题组还将持续跟踪,预计跟踪研究将一直持续到结题之时。
子课题叁的核心研究内容为社会科学大数据计算的理论与方法,目前研究工作初见成效,课题组已发表了2篇学术论文,其中颁厂厂颁滨论文1篇,该文被《人大复印资料?图书馆学情报学》全文转载。子课题四的研究内容为计算社会科学的未来发展前景,课题组也以发表了2篇学术论文,其中《中国社会科学报》1篇被中共中央党校《党政干部参考》杂志全文转载。
2. 调查研究及学术交流情况
自申报课题以来,课题组已在2016、2017年两届中国社会学年会中承办“大数据时代计算社会科学的理论、方法与应用研究”分论坛;2018年则与南京大学合作承办“大数据与社会学研究”分论坛,与湖南女子学院合作承办“智慧社会与精准社会服务”分论坛。
2016年12月,课题组首席专家罗教讲教授赴英国,参加了由全球中国比较研究会和英国伦敦国王学院中国研究中心联合举办的“语料库与中国社科研究工作坊”,并做了对于中国计算社会科学发展的报告。
2017年6月,课题组借本课题开题报告会之机,联合武汉大学人文社会科学学报编辑部,举办了“大数据与计算社会科学跨学科研讨会”。在此次会议上,课题组中来自美国加州大学戴维斯分校和美国密西根大学的海外专家,详细介绍了美国学术界的相关研究进展。
从2017年起,课题组在武汉大学社会学系创办了“大数据与计算社会科学”学术工作坊,邀请国内外的相关专家来武汉大学开展学术交流。其中,学术讲座活动邀请到来自中国社会科学院、复旦大学、浙江大学、哈尔滨工业大学、美国哈佛大学、英国伦敦大学学院、美国伊利诺伊州立大学、美国托莱多大学等国内外着名高校的领域专家,至今开办到第10期。
3. 成果宣传推介情况
自课题申请以来,课题组已在《学术论坛》、《吉首大学学报(社会科学版)》两份学术期刊上主持“大数据与计算社会科学”专题板块。在《学术论坛》的专题中,对基于数据驱动的社会科学研究展开讨论,对在社会学界产生激烈争议的几个问题给出了回应,对一些偏误性认识予以了澄清;在《吉首大学学报(社会科学版)》的专题中,推介了课题组对于大数据、互联网社会科学实验和计算社会科学与话语权的观点。另外,在《贵州师范大学学报》以学术笔谈的形式,集合了来自中国人民大学、南京大学、中山大学、美国加州大学戴维斯分校等国内外知名学府的专家,对大数据计算与社会研究、社会模拟、时空大数据计算等议题展开讨论。
此外,课题组也积极将课题研究成果向学界同仁和社会公众进行传播,已在《中国社会科学报》、《社会科学报》等报刊上发表了多篇文章。
4. 研究中存在的主要问题、改进措施,研究心得、意见建议
在一年半的研究工作中,课题组发现的最主要问题是,高质量数据获取和专用算法工具的研发非常困难,此前对之估计不足。目前,对于社会科学研究价值很大的数据主要掌握在公司、政府手中。各互联网公司对数据的价值越来越看重,不会轻易将数据提供给课题组;政府部门则因考虑数据安全、个人隐私等问题(大量数据尚未做脱敏处理,做脱敏处理也需要经费),对提供数据相当谨慎。特定的研究需要专门的数据处理工具,才能保证研究的质量;并且这些工具还需要能够嵌入到特定的数据平台上,因此研发难度和工作量较大。
在后续的研究中,课题组拟加强与相关政府部门、互联网公司的合作,发挥自身的研究优势,寻找与合作方的交集,选择共同关注的问题,开展既有学术意义又有实用价值的研究。以此获得政府部门、互联网公司的数据支持,加快专业数据处理工具的研发速度。
在研究过程中,课题组深切地感受到计算社会科学具有的巨大发展潜力。尽管存在着诸多的困难,但在可应用边界内,大数据计算能够从远比以往更为丰富的数据资料(其中大部分过去并不存在)中挖掘出有价值的信息,能够帮助研究者发现一些以往未被认识或未能深入了解的社会规律;尤其是在对复杂社会系统研究的过程中,计算社会科学对社会复杂性、主体适应性、从微观行为到宏观涌现等问题的研究要比传统方法更具优势。在可预期的未来,借助新一轮信息技术革命所带来的数据与数据处理技术,计算社会科学有能力为中国社会科学的发展和国际学术话语权的提升做出有益贡献。
二、研究成果情况
成果1:《数据密集型知识发现的边界与陷阱——以美国大选预测为例》
基本内容:信息时代数据快速增长,数据密集型知识发现成为科学研究的新途径。它在取得一系列成就的同时,也出现了走向“唯数据论”极端的倾向。数据生成、采集的方式和特点,数据分析处理技术的水平,决定了数据密集型知识发现存在能力边界。对于科学研究尤其是社会科学研究而言,数据的代表性、数据的质量、算法的模糊性等是必须认真考量的问题。数据密集型知识发现的产生,并不意味着“理论的终结”和传统科学方法都已过时,而是使在新的基础上将实验、理论、模拟与数据统一起来成为可能,这一发展方向真正具有广阔的前景。
主要观点:数据密集型知识发现的兴起为科学研究开辟出一条新的途径,但认为今后完全可以凭借数据自己“发声”而不必再为理论服务,则是因为缺乏深思明辨而导致的盲目乐观。互联网时代产生的新数据、大数据,虽然相较于传统数据具有诸多优势,但也有不同于传统数据的缺陷,并且克服难度往往还更大。数据密集并不意味着数据已经无所不有,分析处理技术的进步也不意味着计算机已经无所不能。运用新数据、大数据进行研究,在大多数情况下会面对数据代表性、数据质量、数据处理精度等问题,这是在以数据为中心、以数据来驱动的知识发现的过程中经常会遇到的困难甚至陷阱。
学术价值:大数据时代的到来,正使基于大数据的社会科学研究成为热点,并且显示出了广阔的发展前景。但是,大数据进入社会科学研究者的视野伊始,就带有浓厚的商业炒作色彩,兼之不少社科学者相对欠缺计算机专业知识,因此对基于大数据的社会科学研究存在认识偏误。本文以2016年美国大选的一系列预测失败为案例,剖析了“数据总体论”、“数据自然论”、“数据混杂论”等较具普遍性的错误观点,指出在研究过程中需要警惕的“数据陷阱”、“算法陷阱”;同时,分析了当前数据密集型知识发现的能力边界,提出以问题为导向的理论数据双向驱动这一研究进路,避免国内的计算社会科学研究走向单纯数据驱动的歧途。
社会影响:该文发表在颁厂厂颁滨期刊《学术论坛》,被《人大复印资料?社会学》2017年第10期和《社会学文摘》杂志全文转载。
成果2:《社会科学大数据计算——大数据时代计算社会科学的核心议题》
基本内容:大数据时代的数据累积与技术进步,为计算社会科学的发展带来了新的契机,大数据计算成为计算社会科学的核心议题。社会科学大数据计算,依托最新的大数据分析处理技术,致力于从符合社会研究需要的数据海洋中挖掘、清洗出有价值的“知识数据”,并在此基础上展开科学分析与知识发现。当前,电子踪迹、社交媒体、数字文本与空间位置信息是四种最具代表性的社会科学大数据类型,它们已被广泛应用于诸多社会研究领域之中,在推动数据分析方法创新的同时,也极大地拓展了社会科学的研究视野。尽管仍面临着数据、技术、知识边界和社会伦理等方面的限制,但社会科学大数据计算的发展潜力无疑是巨大的。
主要观点:首次提出了社会科学大数据计算概念,并指出从源数据到“知识数据”与从“知识数据”到科学发现,是社会科学大数据计算的两个阶段。第一阶段基于信息处理技术,对大数据进行分析与挖掘,将源数据加工成为“知识数据”,即能够与特定的研究框架相匹配的数据资料。第二阶段则是在社会科学理论的指导下,对“知识数据”展开计算与分析,从而发现并解释个体/群体行为与活动机制、社会发展变化的规律等。总的来看,社会科学大数据计算为社会科学研究带来了新的数据、新的技术和新的能力与视野,但同时也面临着数据效度、知识边界和隐私伦理等问题的制约。
学术价值:在社会科学大数据中,电子踪迹、关系数据、文本数据和空间位置数据是当前社会科学研究中运用最多的四种大数据类型。文章对四种数据类型的应用研究及其优势与缺陷进行了综述性介绍,并通过对大量相关研究的总结提炼,提出了从源数据到知识数据再到科学发现这一基本研究路径,期望加深国内学界对社会科学大数据及运用方法的理解。
社会影响:该文发表于颁厂厂颁滨期刊《图书馆学研究》,为《人大复印资料?图书馆学情报学》2018年第4期全文转载。
成果3:《大数据时代的计算社会科学与学术话语体系重构》
基本内容:社会科学的发展经历了从分析到综合再到复杂性科学叁个阶段,与之相伴,科学方法论从还原论到整体论再到复杂适应论持续演进。但由于缺乏能够满足复杂适应系统研究要求的数据条件和技术手段,使90时代兴起的复杂性科学在社会科学领域实际取得的成果远未达到人们的期待。大数据时代带来的空前丰富的数据资源与先进的数据处理技术,为社会科学实证研究开辟出新的路径,复杂适应系统研究的技术实现正在成为可能,社会科学正处在一次突破性进展的前夜。中国社会科学界应当敏锐地觉察和把握这一重大机遇,积极推动计算社会科学的发展,使之在实现国际学术话语体系重构上发挥重要作用。
主要观点:复杂适应系统理论把被经典科学理性所简化、排除的多样性、无序性、个体性因素重新带回科学的视野,加深了社会科学家对研究对象的本质的认识,指明了社会科学方法体系创新和突破的方向。作为对社会复杂性的应对,计算社会科学已经形成社会科学大数据计算、基于主体的建模与仿真(础叠惭厂)、互联网社会科学实验叁大方法体系,为社会调查、统计分析、社会实验等研究方法增添了全新的内容。在大数据时代,在计算范式日趋成为社会科学主流范式的情况下,社会科学国际学术话语权的争夺将以一种新的方式展开——学术产出能力和研究范式的推广能力都需要依赖数据资源与计算能力来实现,国家可以通过数据资源和计算能力的领先来获得学术话语权。在新一轮的信息技术革命浪潮中,中国已经跻身于世界先进行列,这为中国社会科学实现“弯道超车”准备了极为有利的条件。
学术价值:本文通过对社会科学发展历程与科学方法论演进的历时性考察,结合复杂适应系统理论,深入探讨社会科学研究对象的本质和特点,反思传统社会科学研究方法的局限,指出计算社会科学创新与突破的方向;分析了中国社会科学在大数据时代,实现领先与超越的内在和外在条件。呼吁学界把握机遇,有力推进我国的计算社会科学研究。
社会影响:该文发表在颁厂厂颁滨期刊《吉首大学学报(社会科学版)》,被《人大复印资料?社会学》2018年第6期全文转载。
叁、下一步研究计划
在课题研究的前半段,课题组将研究的重心放在了对大数据与计算社会科学理论与方法的梳理上;目前理论研究部分基本完成,在研究的后半段,课题组将侧重实证研究,着力突破数据与工具方面的障碍,开展学术价值与应用价值兼具的实证研究。具体工作方案如下:
1. 子课题一的跟踪研究:继续跟踪大数据与大数据技术的发展,与时俱进地丰富、完善现有研究成果。
2. 子课题二的跟踪研究:以社会学、社会心理学、传播学等领域的相关研究为重点,继续跟踪计算社会科学的研究进展,确保对计算社会科学的理论、方法、应用的研究与国际学术界同步。
3.子课题叁的研究:此为本课题的核心研究内容,现已按原定研究计划全面展开,计划在2019年7月1日前完成。
4. 子课题四的研究:按原定研究计划全面展开,与子课题三的研究同步进行,计划在2019年7月1日前完成。
5. 自2019年7月起,汇总各子课题研究成果,撰写结题报告。
6. 2019年12月,完成结题报告。
(课题组供稿)