黑龙江大学马海群主持完成的国家社会科学基金项目“开放数据与数据安全的政策协同研究”(项目批准号为:15础罢蚕008),最终成果为同名专着。课题组成员有:周丽霞、赵建平、贺延辉、牛晓宏、张静萍、孙瑞英、洪伟达、唐守利、杨志和、蒲攀、石岱。
一 研究的目的和意义
随着大数据、人工智能概念的兴起,世界各国对数据掌控尤为重视,数据不但在质和量上增长迅速,而且在人类生活和社会创新发展中更是占据着重要地位。谁掌握了数据和数据分析方法,谁就将会在大数据领域领先,无论是国家文明还是商业组织,只要充分发挥大数据技术的价值,迎接大数据时代面临的挑战,如数据安全和隐私问题,并及时进行应对,就会处于大数据时代的不败之地。大数据环境下,随着数字经济的兴起和数据产业的发展,数据范式正在形成,数据治理成为重要的政府治理和社会治理手段;数据治理的两个核心主题即为开放数据与数据安全,数据治理的重要工具是政策手段,数据治理最佳效能状态的一种体现方式则是对开放数据与数据安全的政策协同的研究。信息与数据的开放与保护、共享与安全,是透明化现代社会健康发展与前进的两股交织互动的重要力量,是信息资源建设需要面临的重要课题,要加强中文网络信息资源建设,特别是数据和知识挖掘,需要技术支持和政策扶持。那么在技术方面,数据库技术及网络技术已相对成熟,那就需要从政策视角出发,激励数据建设和服务。数据安全政策与开放数据政策的相互作用与协调发展,则是国家对信息资源宏观规划与配置的核心手段。
二 成果的主要内容
该成果分别从政策扩散、语料库、知识图谱的角度出发,对开放数据和数据安全政策及数据政策中开放数据和数据安全主题进行协同性研究。
(1)政策扩散角度:在研究内容上,选取“开放数据”和“数据安全”这两类看似呈现出对立性的政策,根据发布机构层级不同,在自建语料库中按照中央层级和地方层级分别选择符合要求的政策文本作为研究样本,共计得到中央层级发布的101条政策文本,地方层级发布的230条政策文本,总计331条政策文本,覆盖范围上较为全面;在研究方法的设计上,本研究拟从政策扩散的角度出发,同时结合研究内容的特点,定义相关指标,考量不同政策之间文本主题词的扩散程度,利用“桑基图”的特点,尝试将定量分析与结果可视化结合起来,对两类政策之间的协同情况进行直观的展示。该成果的突出特色在于将“政策扩散”的思想应用到两类政策的协同探究上,改变了以往的“政策扩散”思想主要应用在“同类政策”研究上的局面。通过定量研究的手段,直观鲜明地体现出了两类政策之间的协同程度,并由此体现出了两者之间不协同性主要表现的方面;主要建树表现在对协同理论和政策扩散理论的内涵进行了分析的同时,并未单纯从理论层面上进行解读,反而借鉴热力学第二定律的有关理念形象,直观地对二者之间的逻辑关系进行了阐述,同时根据设计的方法和提出的指标结合具体实例进行了相关的实证分析,证明了所提出的方法的可行性。
(2)语料库角度:利用语料库研究方法结合内容分析法和聚类分析法,通过自建语料库采集并筛选数据类政策文本446条,其中包括根政策19条,干政策41条,枝政策386条。为提升政策分析的精准度,选用主题关系协同度和复合系统协同度两个视角对现有数据类政策中开放数据和数据安全两类主题进行协同关系分析,最终通过计算结果算出政策协同关系的取值范围,结合数据给出数据类政策对策及建议并列出现存政策中协同关系较好的政策文件。基于实证表明,我国正处于不断完善相关数据政策体系阶段,开放数据和数据安全政策多数相对独立,并没有形成体系融入现有的数据类政策中来,要促进开放数据与数据安全子系统间协同,须建立开放数据及数据安全协同创新机制。开放数据及数据安全子系统和子子系统的平衡发展有助于复合系统协同能力发展。复合系统协同强调子系统间相互作用,加强子系统之间良好协作的意义大于单个子系统有序度的提升。政府应促进开放数据和数据安全体系的紧密结合,从实际政策数据分析来看,单独提升某一个子系统的关注度,很难提升二者之间的协同效应。如某大数据政策中开放数据子系统的有序度持续上升,但该政策中并未提及安全相关事宜,因此数据安全子系统有序度并未持续上升,而是呈现平稳或波动状态。在数据开放政策制定的同时,还要确保开放的数据安全稳定,要更加注重开放及安全子系统各子子系统之间的协同。
(3)知识图谱角度:“基于知识图谱的开放数据与数据安全政策协同研究”应用知识图谱针对政策中两类不同主题——开放数与数据安全的协同情况做出探索性研究,并选择政策国务院对于印发促进大数据发展行动纲要的通知的国发〔2015〕50号《促进大数据发展行动纲要》完成实践应用,该研究基于人工智能下的知识图谱技术为核心,运用全文本数据作为研究分析对象,选择数据挖掘中关联规则构建推理模型,探索性地完成对于研究主题——开放数据与数据安全协同情况的推理分析:首先,完成政策全文数据的文本核心意图、政策热点等统计与分析,并以此为基础选择政策文本中的“任务”这部分内容完成该政策中两类不同主题协同情况的分析。研究结果表明,通过基于知识图谱技术的政策协同情况探索研究,该方法可以推广应用于多篇政策文本中不同主题协同情况分析。该研究方法创新性在于探索完成政策分析领域知识图谱的应用可行性,研究突出特色在于将自然科学中强人工智能技术——认知智能与政策文本潜在知识的挖掘难题相结合的研究。研究思路中体现自然科学发展最新技术方法与社会科学有机融合:一是研究设计按照标准化软件工程规范可行性分析、需求分析、概要设计、详细设计与代码实现、结果可视化展示、研究结果与研究问题有机结合的应用分析;二是研究核心问题按照知识图谱生命周期中知识提取、知识表示、知识存储、知识融合、知识推理与知识应用完成政策中以文本形式阐述的不同主题的协同程度情况研究;该研究中突出贡献在于提出——将“关联规则”数据挖掘算法作为知识图谱技术核心部分知识推理机的动力,构建政策协同情况的推理模型,针对目前无法客观性、权威性界定政策协同度参考值的前提下研究政策的协同问题这一难题提供了一种科学的、可行的、可移植应用的解决方法。本研究探索了自然科学领域中的技术前沿方法与社会科学界研究热点与难点解决的无缝对接:针对政府政策协同问题辅助决策研究,其学术与应用价值一方面拓展性地实现了领域知识图谱应用的宽度,另一方面延展性地实现了政策文本研究问题的深度,该研究在政策文本深层次语义层挖掘具备开创性的应用价值。
三 对策建议
基于以上不同角度对开放数据和数据安全协同度的分析,该成果提出如下政策对策建议。
(1)建设统一政府数据开放共享平台
平台用于汇聚、存储、共享、开放政府数据,要明确数据开放领域及数据标准格式,社会公众和市场主体关注度、需求度高的政府数据,应当优先向社会开放。如信用、交通、医疗、卫生、就业、社保、地理、文化、教育、科技、资源、农业、环境、安监、金融、质量、统计、气象等民生保障服务相关领域的政府数据应当优先向社会开放。共享数据分为无条件共享和有条件共享两部分,其中无条件共享的政府数据,应当提供给所有政府机关共享使用;有条件共享的政府数据,仅提供给相关政府机关或者部分政府机关共享使用。技术层面:政府提供通用的符合技术标准的访问接口与共享平台和开放平台对接;数据管理层面:政府数据实行分级、分类目录管理,所开放共享的数据能够使大数据为各行业活动提供强有力的支撑;业务水平提升层面:数据行政主管部门应定期组织行政机关工作人员开展政府数据共享开放培训和交流,提升共享开放业务能力和服务水平;考核标准层面:各级各类政府机构要制定考核办法,将政府数据共享开放;监管评估层面:需要有第叁方对政府数据进行监管与评估。
(2)构建政府数据安全保障体系
政府要从制度建设、安全应急演练、安全监管、人才培养、知识产权等方面尽快构建完善数据安全保障体系,给各行业的商业活动提供安全保障环境。在政府构建数据共享开放平台的前提下,应当依法维护国家安全和社会公共安全,保守国家秘密、商业秘密,保护个人隐私,任何组织和个人不得利用共享、开放政府数据进行违法活动。制度建设层面:政府应当依法建立健全政府数据安全管理制度和共享开放保密审查机制,行政机关和共享开放平台运行、维护单位应当落实安全保护技术措施,全力保障数据安全。安全监管层面:相关部门要开展大数据安全的等级保护、日常巡查、执法检查、信息通报、应急处置等监督管理工作。人才培养层面:要创新人才培养模式,建立健全多层次、多类型的数据安全人才培养体系,重点培养具有统计分析、计算机技术、经济管理、数据安全等多学科知识的跨界复合型人才。知识产权保护层面:要加强新领域创新成果的知识产权数据保护,加强互联网、电子商务、大数据等领域的知识产权保护规则研究,推动完善知识产权数据保护体系。
(3)保障开放数据和数据安全政策协同且稳定运行
开放数据与数据安全主题在明确职责、数据立法、知识产权、监督预警等方面都存在不同程序的关联关系。明确职责:政府应明确所要开放数据的采集汇聚、目录编制、数据提供、更新维护和安全管理等工作职责,政府部门应当按照技术规范,在职责范围内采集政府数据,进行处理后实时向共享平台汇聚,采集政府数据涉及多部门,要按照规定的职责协同采集汇聚。数据立法:由于政府数据共享开放与信息安全之间的法律界限不明,在开放数据过程中时常与数据安全问题产生冲突,因此应加快推进大数据相关立法工作进程。知识产权:要加强对开放数据知识产权的保护来有效确保数据安全稳定。通过发掘新知识和创造新价值及大数据领域的智力成果,采取合理的规则保护其知识产权。不但要通过开放数据防止数据资源垄断,保护基于大数据的创新动力,实现基础数据资源共享,不断完善数据资源建设体系,发挥其最大效能;还要通过知识产权保护数据获取、挖掘和开发主体的利益,实现具有商业价值的大数据的有偿转让和交易,提升数据资源集聚和管理水平。监督预警:要建立开放数据和数据安全的监督和预警体系,应由专业数据行政主管部门负责政府数据共享开放的监督管理和指导工作。政府应着手从以上方面来保证数据开放平台及数据安全保障体系的协同、稳定运行。
四 成果的主要价值
该成果以政策扩散、知识图谱、内容分析、协同学理论为依据,从政策协同视角探讨开放数据及数据安全政策以及数据政策中开放数据与数据安全主题间的相互支撑、协同发展,学术价值在于可以延伸信息政策体系在大数据背景下的内涵拓展,在现有语料库中提取数据类政策文本446条(其中包括根政策19条,干政策41条,枝政策386条),从理论和实证层面上构建协同框架模型并通过计算结果算出政策协同关系的取值范围。贵州省是我国大数据政策贯彻落实较好的地区之一,该成果以贵州省为例利用所建立框架模型及取值范围,对贵州省的大数据政策进行了实证分析。最终给出开放数据与数据安全政策协同的对策及建议。