伊春园2023入口直达大象

旧版网站入口

站内搜索

中国—中南半岛经济走廊沿线综合调查数据库建设的中期检查报告

2018年11月29日16:09来源:

一、研究进展情况

一、总体计划执行情况及子课题进展情况

1、总体计划执行情况

本项目于2017年5月5日开题,之后各课题组在能顺畅沟通交流的前提下分别进行研究,依据项目完成的成果要求,

已完成:

1)“中国—中南半岛经济走廊规划需求下的数据库规划设计研究报告”

2)互联网数据采集及存储子系统(软件)

3)数据可视化子系统(软件)

4)卫星数据采集与管理子系统(软件)

5)数据库安全系统(软件)

6)系统终端安全系统(软件)

7)“云翻译数据中心”的软件需求分析

8)“生产线自动控制子系统”的软件需求分析

9)“数据挖掘——人物背景分析”的软件需求分析

10)“数据挖掘——投资环境分析”的软件需求分析

11)“大数据应用——城市建设和港口建设预测”的软件需求分析

12)“中国—中南半岛经济走廊沿线国家金融平台子系统”的软件需求分析

13)参加国际会议7次,举办国际会议6次,与柬埔寨前副首相及技术人员讨论信息数据应用1次

14)发表论文67篇,录用论文7篇

15)对采集回来的数据进行分析研究并生成各类报告,其中有10份报告获各级领导批示

16)目前已采集数据15亿3千万条,日更新数据20万条

17)中国-东盟全息数据研究与资讯中心建设

18)已建设一个包含54台服务器的具有高可靠、高可用的系统硬件平台

整体项目待完成任务:

1)“云翻译数据中心”的软件开发

2)“生产线自动控制子系统”的软件开发

3)“数据挖掘——人物背景分析”的软件开发

4)“数据挖掘——投资环境分析”的软件开发

5)“大数据应用——城市建设和港口建设预测”的软件开发

6)“中国—中南半岛经济走廊沿线国家金融平台子系统”的软件开发

按照这个进度,如果有较多的滚动经费补充,项目能更好按时完成。

2、各子课题进展情况

1)子课题之一:中国-中南半岛规划需求下的数据库规划与设计

已全部完成。完成了“中国—中南半岛经济走廊规划需求下的数据库规划设计研究报告”

2)子课题之二:中国—中南半岛经济走廊沿线综合数据库的数据采集与存储

已全部完成。

① 课题进展情况:

完成了要求的软件系统开发:互联网数据采集及存储子系统(软件),数据可视化子系统 (软件),卫星数据采集与管理子系统(软件)

② 调查研究及学术交流情况:

进行数据采集子系统、数据可视化子系统和卫星数据采集与管理子系统需求分析调研,完成了这叁个子系统业务需求书及开发,参加6次国际学术会议,举办5次国际会议。

项目首席专家作为访问学者,2017.5—2018.5在美国德州大学进行访学,期间参与了他们一个项目的数据采集相关工作。

③ 成果宣传推介情况

各级领导、各个单位视察该系统不少于50次,每次均获得很好评价;

采集数据的动态展示页面:

④ 研究中存在的主要问题、改进措施,研究心得、意见建议

⑤ 其他需要说明的问题

3)子课题之叁:中国—中南半岛经济走廊沿线综合数据库的数据挖掘与大数据技术应用

正在进行。

① 课题进展情况:

主要进行中国—中南半岛经济走廊沿线各国人物背景分析和投资环境分析的研究,包括人物背景分析的数据源下载、实体抽取和人物社会关系的分析,性格分析,投资环境分析中中长期预测,取得了一些阶段性成果,包括基于关注行为预测的关注对象推荐,基于话题排序的通用话题建模,基于时间卷积和长短时记忆网络的时间序列预测模型,融合微博情感分析和深度学习的宏观经济预测,基于远域适应的文本分类,话题权威度敏感的影响最大化,用于云存储的一套高性能两方去重方法等方面的研究,发表录用期刊论文2篇,发表及录用会议论文5篇,进展顺利。

② 调查研究及学术交流情况:

进行数据挖掘子系统需求分析调研,完成了数据挖掘子系统业务需求书,参加1次国际学术会议,即将参加国际学术会议5次。邀请美国加州大学圣塔芭芭拉分校严锡锋教授到华中科技大学交流1次。

卫星数据项目组成员到柬埔寨吴哥和前副首相以及柬埔寨相关技术人员交流遥感技术在柬埔寨的应用。

项目组成员和前副首相座谈

③ 成果宣传推介情况

项目组成员受邀作为专栏作家在“观察者网”上发表大量对于遥感空间信息应用到全球社会经济分析的文章,平均每篇文章的阅读量能达到5万。(观察者网是上海春秋发展战略研究院主办的新闻时评集成网站,旨在以即时综合资讯和特色原创内容为全球中文阅读者提供时政事件的深度报道以及思想领域的全面解读。)

如利用遥感卫星资料描述夏威夷火山爆发的文章《夏威夷人民处于水深火热中 但美国政府的领土面积又扩大了》仅仅在“今日头条”一个渠道上就实现了一天63.5万的阅读量,313条回帖评论的成绩。

目前我们在中南半岛的应用主要以柬埔寨的暹粒市为核心,这里是柬埔寨第二大城市,也是着名世界自然遗产吴哥窟所在地。我们利用光学、雷达多种传感器对其开展研究分析。我们通过遥感卫星数据对该区域土地类型展开分类,评估随着经济的发展,其城市的变化趋势,以及其可持续发展的承载能力。

2017年柬埔寨暹粒市(吴哥)卫星影像

2017年柬埔寨暹粒市(吴哥)土地分类图

④ 研究中存在的主要问题、改进措施,研究心得、意见建议

⑤ 其他需要说明的问题

4)子课题之四:基于云服务的数据可视化及数据库多语言智能化应用

本子课题旨在解决中国—中南半岛经济走廊沿线综合数据库的数据可视化、多语言翻译、智能化应用—金融数据平台叁个问题。

数据可视化:(已完成)

在基于云服务的数据可视化方法研究基础上,研究建立了中国—中南半岛经济走廊空间数据可视化多维度展示系统,实现了区域遥感影像、矢量数据、图片、视频、新闻文字等大规模结构化、半结构化、非结构化多源异构数据的高效可视化。

东盟国家相关数据展示

多语言翻译:(已完成软件需求分析)

对海量东盟多语种信息的词汇同中文的词汇、语句进行云平台后台对应,并设计相应算法对相应语法进行准确翻译。

数据智能化应用:这是一个开放共享数据库数据的平台。(已完成软件需求分析)

研究数据接口,建立起相关金融数据平台实现支持东盟金融信息、实时行情数据、金融资讯等内容的编辑、加工和整合的加工处理系统,形成东盟金融数据中心和编辑中心。

进展:

1.调研了东盟国家金融数据相关情况

调研了解了国内外现有金融数据平台:有世界银行网站、雅虎财经、新浪财经、中国金融信息网、东方财富网、中国金融指数研究院、搜狐等。通过对各大金融网站数据汇总对比,分析了目前国内外现有金融数据平台的金融数据信息,对后续金融数据的采集提供相关参考。

2.研究和分析金融数据的采集及处理

金融数据根据时效性,一般分为实时变动的数据和非实时变动的数据。已按不同要求收集获取了网络金融数据。针对东盟各国的金融数据情况,对于实时变动的数据,实现实时、不间断的获取相关数据;对于阶段性的统计数据,按照固定时间间隔监控一次数据来源网站,获取相关金融数据。

②调查研究及学术交流情况(调研数据整理运用、文献资料收集整理、学术会议、学术交流、国际合作等)

调研了解了国内外现有金融数据平台,对各种金融数据按照结构化数据和非结构化数据;行情数据、宏观经济数据、行业产业数据等进行整理、归类。

撰写整理了两份报告:东盟金融信息平台系统需求研究报告一份,东盟金融信息平台系统需求设计分析一份

③成果宣传推介情况(成果发布会、《工作简报》报送情况、伊春园2023入口直达大象专刊投稿及采用情况等);

④研究中存在的主要问题、改进措施,研究心得、意见建议

存在的主要问题:金融数据调研前期数据较多,数据指标较杂乱。

改进措施:向金融专业的教授专家请教,提取重要金融数据,重新设计优化相关数据结构,对金融数据重新归类。

研究心得:要充分准备,目标明确;加强团队合作与交流;不断反思与借鉴,提高科研能力。

二、研究成果情况

项目组已经取得的代表性成果

1)中国-东盟全息数据研究与资讯中心建设

中国-东盟研究院的全息数据研究与资讯中心,也是中国-东盟信息港的数据中心先行先试,该中心除了具有完善的设备外,还研发了一套东盟全息数据系统平台,该系统平台能极大满足科研团队课题研究需要,为日常教学工作、为各类专题会议、为社会各界了解东盟各国相关信息提供技术支撑,助力广西大学中国-东盟研究院打造“中国-东盟”领域国家级智库,为中国-东盟合作进程做出应有贡献。

2)资讯中心机房建设

(1)系统规模

(2)系统物理拓扑图

3)领导批示及建议采纳。

对运行于上述配置的机房中的系统采集得到的大数据进行研究,2017、2018两年有10份研究成果分别得到自治区党委书记、主席等各级领导批示、进入教育部成果简报等,为政府决策提供有力支持。

4)实时获取全球热点新闻、新闻分布图等各类信息

5)以采集数据为基础,生成了广西大学东盟研究院的舆情周报、国别舆情报告、专题舆情报告、热点分析等诸多成果。

广西大学中国东盟研究院舆情报告以中国—东盟领域实时新闻和重大热点问题为关注重点,分为国别舆情、专题舆情、热点分析和舆情报告滚动四个板块内容,将相关舆情信息编制成定期专报,对某一重大舆情事件提供阶段性或全过程舆情监测与分析研判,为广大研究者和研究机构提供形式多样、视角丰富的中国—东盟主流讯息。

国别舆情报告以东盟十国为研究对象,由广西大学中国东盟研究院十个国别研究所提供,包括《越南所舆情周报》、《缅甸舆情周报》、《老挝舆情周报》、《柬埔寨舆情周报》、《印度尼西亚舆情周报》、《新加坡舆情周报》、《菲律宾舆情周报》、《马来西亚舆情周报》、《泰国舆情周报》、《文莱舆情周报》。同时,在汇集国别舆情报告的基础上,经由整理、汇编,形成《东盟舆情政治周刊》、《东盟舆情经济周刊》、《东盟舆情社会周刊》。

通过广西大学中国东盟研究院官网、政府媒体、知名媒体网站和通讯社等途径对东盟十国的舆论信息和重大新闻进行实时的采集,汇总和分析,编制成定期周报,为中国—东盟领域的全方位研究提供及时有效的信息与资料。

专题舆情报告包括《础厂贰础狈周报》、《中国—东盟设施联通舆情半月谈》、《罢笔笔、础笔贰颁、搁颁贰笔、贵罢础础笔、罢罢滨笔舆情半月谈》、《中国—东盟金融舆情半月谈》、《中国—东盟人文舆情半月谈》、《中国—东盟投资与贸易舆情半月谈》、《中国—东盟一带一路舆情半月谈》、《中国广西—东盟关系舆情半月谈》。

专题舆情以内容专题的形式对中国-东盟的重大事件进行汇总分析和解读点评,精准呈现媒体关注热点,及时捕捉重大事件舆情动向,为中国-东盟领域研究带来针对性的参考借鉴。

“热点分析”如下图:

“舆情报告滚动”如下图:

6)数据挖掘子系统成果

(1) FRFB:基于关注行为预测的关注对象推荐方法

近年来随着微博等社交网络的快速增长,基于社交网络图结构分析的一个新的具有重要意义的课题是用户关注对象(followee)的推荐问题。国内外已有不少关注对象推荐的相关研究,但如何将基于图拓扑结构和基于内容的方法有效结合起来仍是一个很大的挑战。通过探索和利用社交网络图结构中用户“关注”行为的拓扑传播特性,推荐潜在的关注对象。探索了一种利用用户“关注”行为本身来预测用户“关注”行为的新思路:将用户对其他用户的“关注”视作一个主动的、动态的、连贯的用户行为,进一步考虑用户“关注”行为之间的相互影响,并结合作者前期对top-k选择算法的研究,提出一种有效的top-k关注对象推荐算法FRFB (Followee Recommendation by Following Behaviors)。FRFB基于社交网络图结构本身,借鉴朋友关系在社交网络中的传播思想,对关注关系的传播进行建模。算法复杂度低,可扩展性高,并且稍加调整即可适应现实中大规模动态社交网络。在真实社交网络数据集(Wiki和Twitter)上进行的大量实验表明,FRFB算法的推荐性能显著优于已有的基于图拓扑结构的推荐算法。

论文成果“FRFB: Top-k Followee Recommendation by Exploring the Following Behaviors in Social Networks”发表在Concurrency and Computation-Practice & Experience(CCF C类期刊)期刊2018.06发表(DOI: 10.1002/cpe.4514)。

(2) 一种基于话题排序的通用话题建模框架

话题建模是文本数据挖掘的一种重要方法,本文研究文档网络的话题建模问题,将话题排序与话题建模相结合,提出一种基于话题排序的通用话题建模框架RTMF(Rank-Integrated Topic Modeling Framework),解决了当前基于排序的话题建模不能与LDA相结合的问题。RTMF将排序向量进行话题归一化,然后通过一个权重因子将排序向量引入话题建模中,建立了一个话题排序与话题建模互相增强的框架。在RTMF的基础上,本文提出基于话题排序的PLSA模型和LDA模型。具体来说,将Topical PageRank和Topical HITS分别与PLSA模型相结合建立RankPLSA和HITSPLSA模型并推导出基于EM的模型推理算法,将Topical PageRank和Topical HITS分别与LDA模型相结合建立RankLDA和HITSLDA模型,推导出基于折叠吉布斯采样的模型推理算法。

实验在叁个论文数据集和一个罢飞颈迟迟别谤数据集上进行,对比算法包括两个基础的话题模型和两个基于排序的话题模型,对比实验包括泛化能力、文档分类、文档聚类和话题可解释性四个方面。实验结果显示本文所提出的四个基于话题排序的话题模型在所有对比实验上均优于基础的话题模型,基于话题排序的尝顿础模型在所有模型中具有最好的效果。基于话题排序的通用话题建模框架可用于基于数字媒体的热点事件分析等。

论文成果“Rank-Integrated Topic Modeling: A General Framework”被APWeb-WAIM2018录用发表(CCF C类会议)。

(3) 基于时间卷积和长短时记忆网络的时间序列预测模型

时间序列预测一直以来就是学者们研究的热门领域,提出来一系列优秀的模型算法,例如础搁滨惭础,贬辞濒迟-奥颈苍迟别谤蝉等;深度学习兴起后,各种处理序列数据的模型不断出现,出现了一大批以搁狈狈为基础的模型的创新,例如尝厂罢惭,骋搁鲍等,本文从发掘时间序列的长期模式和短期的波动规律两个方面出发,受卷积神经网络提取区域特征的启发,使用时间卷积提取序列的长期波动特征,然后将其整合到尝厂罢惭的细胞状态中,因此循环神经网络可以获得更长的数据依赖性并同时获得整体变化特征的时间序列预测模型。本文提出一种基于时间卷积和长期短期记忆网络(罢颁-尝厂罢惭)的新型深度学习模型,以捕获长期系列特征以进行时间序列的长期和短期预测。本文在叁个不同类型的数据集上对罢颁-尝厂罢惭模型进行实验,相比于传统的尝厂罢惭和骋搁鲍网络,实验结果表明,罢颁-尝厂罢惭模型在预测精度上优于其他类似模型,结合实验结果和模型分析,加入时间卷积特征对于时间序列预测精度有一定的提升。

论文成果“Stock Price Prediction Using Time Convolution Long Short-Term Memory Network”已被KSEM 2018(CCF C类会议)录用。

(4) 融合微博情感分析和深度学习的宏观经济预测方法研究

现代市场经济快速发展的同时也伴随着较高的风险。本文通过对地区投资情况提前预测,以求能够提前发现投资风险,为国家、公司的投资决策提供参考。针对宏观经济预测中统计数据滞后和内部关系复杂的问题,本文提出一种融合情感分析和深度学习的预测方法——SA-LSTM(Sentiment Analysis-Long Short Term Memory)。该方法首先考虑微博的强时效性,确定了微博爬取和情感分析的方法,得到微博情感分值,进而结合政府统计的结构化经济指标和长短期记忆神经网络,实现地区投资总额预测。经过实际数据计算验证,在三个数据集上,加入微博后,该方法能够降低预测相对误差4.95%, 0.92%, 1.21%;与差分自回归移动平均模型(Autoregressive Integrated Moving Average Model, ARIMA), 线性回归(Linear Regression, LR),反向传播(Back Propagation, BP)神经网络, 长短期记忆(Long Short Term Memory, LSTM)网络四个方法中的最优方法相比能够降低相对误差0.06%, 2.09%, 0.94%。另外,该方法在多个时间片上,预测相对误差稳定,具有很好的鲁棒性,对数据抖动有良好的适应性。

论文成果《融合微博情感分析和深度学习的宏观经济预测方法》已被CCDM 2018录用,推荐到《计算机应用》期刊发表。

(5)基于远域适应的文本分类

文本分类现在成为了一个热点话题。在实际中,训练数据跟测试数据很可能来自不同的分布,这就导致了域适应问题。在本文中,我们研究一个新的问题:文本的远域适应分类问题。在这个问题中,目标域跟源域可能差别很大,传统的迁移学习方法并不能很好的处理这类问题,因为他们假设源域和目标域是相似的。为了解决这个问题,我们提出了基于选择的域适应算法。基于选择的域适应算法从源域和中间域中迭代选择可靠的数据,来减少源域和目标域之间的差异。大量的实验表明,我们的算法能取得最好的效果。

论文成果“Distant Domain Adaptation for Text Classification ”已被KSEM 2018录用。

(6)话题权威度敏感的影响最大化

影响力最大化(Influence Maximization,IM)已经在社会网络分析中被广泛的研究,但大部分现有的研究无法区分不同消息下的影响力用户及用户权威度,针对现有传播模型和算法的不足,通过将用户的主题权威度融入到传播模型中,提出了主题权威度敏感的独立级联模型(Topical Authority sensitive Independent Cascade model,TAIC),同时,为了解决主题权威度敏感的IM问题,将上述模型与贪心算法结合,提出了主题权威度敏感的贪心算法(Topical Authority sensitive Greedy algorithm,TAG)。由于传统的评价度量并没有考虑主题,提出了新的度量 ,用于评估考虑了主题的传播模型和算法的有效性。通过在两个真实的社会网络数据集Aminer和NetHEPT上的实验表明,基于TAIC模型的TAG算法以非常高的效率分别找到在给定主题下影响力更大的种子节点集。

论文成果“Topical Authority-Sensitive Influence Maximization”已被WISE2018 录用。

(7) PTS-Dep:用于云存储的一套高性能两方去重方法

尽管消息绑定加密方法能够使得安全去重技术成为可能,但是基于低熵的穷举攻击也随之成为安全去重技术的所面临安全风险之一。传统的方法通过引入可信第叁方,试图防止穷举攻击。然而传统的去重技术均是运用于两方场景(只包含客户端和服务端),因此该方法难以被广泛应用于实际场景中。出于部署复杂性的考虑,现有的存储服务提供商更加倾向于两方场景下的安全去重技术。但是,现有的两方安全去重研究中存在性能较差或安全漏洞的问题。为了使得两方安全去重技术既能够获得较好的系统性能,同时能够抵制两方场景下的安全威胁,本文通过总结现有安全去重的核心问题,针对性的提出一套高性能两方去重方法,笔罢厂-顿别辫。通过理论推导对我们的方法进行了安全证明。实验结果表明我们的方法在贵蝉濒丑辞尘别数据集上,比现有的两方安全去重方法提高了92%的性能。

论文成果“PTS-Dep:A High-Performance Two-party Secure Deduplication for Cloud Storage”被The 20th IEEE International Conference on High Performance Computing and Communications (HPCC-2018,CCF C类会议)录用。

7)完成东盟金融信息平台、云翻译数据中心等系统需求研究报告及信息平台系统需求设计分析

研究成果可有针对性的提供中南半岛各国各类数据,为中国和中南半岛各国的经济合作提供技术支持和服务。这将有助于把中国的发展战略与中南半岛各国发展蓝图对接,同中南半岛各国的项目和公司对接,以及与中南半岛各国的双多边合作机制和平台对接,推进国际合作,服务于“一带一路”建设。

8)数据库安全系统

通过动态配置方式实现对主流数据库中数据进行动态加密,无需更改用户程序。数据以密文方式存储于数据库中,防止了数据被非法用户使用,保障了数据安全。

9)终端安全系统

通过对客户端各类操作授权,数据硬件、软件加密等各种控制方式,实现数据库外数据安全保障。

叁、下一步研究计划

1 人物影响力分析:

Rashotte根据用户行为以及其产生的效果,将社交影响力定义为人们由于和其他人或团体之间的交互而改变自身思想,感情,态度和行为的现象。社交影响力的定义具有明显的因果性。影响用户的社交影响力的因素主要有:现实生活中的地位,活跃程度,价值观。反映社交影响力的因素主要有以下三个:(1) 社交网络结构 (2) 社交网络用户之间的交互活动 (3) 社交网络用户所发布的信息。

社交网络的结构因素主要为用户和用户之间的连接形成的网络图。网络图中的节点的入度和出度,以及入向和出向的边指向的节点的影响力都反映着节点用户本身的影响力。显而易见的是:用户的粉丝越多,越有影响力,那么用户就更有影响。社交网路中用户的交互活动体现在:回复,转发,收藏等活动上,用户的不同活动反映了用户之间的亲密程度。社交网络中用户所发布的信息体现了用户的专长信息。不同的政要可能分管不同的工作,擅长不同的领域(比如政治,历史,外交……)。在社交活动中,信息往往是以话题的形式产生和传播的。信息可能侧重于不同的话题,这就造成了不同的话题具有不同的影响力。将话题作为刻画影响力的因素,能够从多个角度对用户的影响力进行细致刻画,在建立社交影响力模型时,可以直接从话题内容和用户对话题的参与程度构建用户和话题之间的联系。

社交网路结构的,用户活动,以及话题信息三个因素从不同的角度对用户的社交影响力进行了刻画。话题信息,用户活动信息反映了用户在某一话题的特征。社交网络结构反映了用户之间边的特征。因此可以将上述的影响因素抽象为用户的特征函数g, 边的特征函数f,以及全局的特征函数h。综合利用三个特征函数对用户的不同影响力进行刻画能够更加准确的反映用户的影响力。

话题因子图模型(Topical Factor Graph (TFG) Model)根据三个特征函数对社交网路影响力分析进行建模。因此TFG模型有效地捕获了地话题信息,节点的相似度,以及网络结构的信息。TFG模型包含了一个观察变量 的集合,以及一个隐含变量的集合。 集合。隐含变量y在话题层面上刻画了其他节点对节点 的影响力。TFG模型图如下图所示:

图2 话题因子图模型

上图是TFG模型的实例,途中包含了观察变量 ,以及相对应的隐含向量 , 隐含节点之间的边表明了在原有社交网络中的社交关系。节点对应的特征函数g描述了节点本地的信息,边的特征函数f描述了图模型中通过边引起的节点之间的依赖关系,全局特征函数描述了对于网络中所有节点的约束。特征函数的定义如下:

式中NB(i)代表了节点i的邻居节点, 反映了节点 和节点 之间的话题相似性和交互强度, 代表了节点 对于话题z的重要性, 表示边 的权重。在该应用中,其表示用户之间的交互活跃度。

边的特征函数定义为节点之间是否存在依赖,即当边 存在时, 。全局特征函数如下:

全局特征函数用于约束模型能够真正的代表节点。

当模型能够最好的拟合观察到的数据时,其能够最大化观察到数据的概率,即:

参数学习

TFG模型的参数学习过程,可以通过对每条边引入两个变量集合 和 ,将普通的因子图消息传递方法转化为max-sum算法。 表示从节点i到节点j发送的消息。 表示从节点j到节点i发送的消息。 反映了从节点 的角度, 认为其受 影响的程度。 反映了从节点 的角度, 认为其影响 的程度。消息更新规则如下:

其中 是对归一化的特征函数取log值得到的,

最后,社会影响力定义为:

2 投资环境分析子系统的指标库管理、模型库管理、运行监测、现状评价等模块研究与开发

1.指标库管理:在已有的系统数据中,选择与投资环境相关的多种指标进行分类和管理,指标分为监测类指标、预测预警类、评价类指标,检测类指标主要是对这些指标进行统计分析,预测类指标要对这些指标进行预测分析和预警,对于预警指标要给出预警阈值,评价类指标用于现状评价。同时指标按宏观分析、微观分析、按专业方向等分类,各类指标的选择确定基于运行监测和现状评价的需求和指标体系的设计。指标库的管理将使用惭测厂蚕尝关系型数据库,同时可以对指标数据库进行增、删、改、查操作。

2.模型库管理:模型库的管理与指标库的管理是类似的,模型库主要管理系统所需的分析、预测、预警模型,同时将模型进行管理,模型包括输入输出和参数调整等,可以对模型进行增、删、改、查功能,完善预测预警模型体系。

3.运行监测:在完善指标库的基础上进投资环境的运行监测,包括检测指标的多维分析、进行趋势分析和相关指标的预警。

经济运行监测分析是对经济运行动态指标进行的连续性观测及其规律性的揭示,是经经济运行监测分析不同于一般的统计分析。统计分析把数据的准确及时作为主要目标,而经济运行监测分析除对数据的严格要求外,更加着重于对动态和情况的把握,并把对经济运行工作进行指导作为主要目标。确定经济运行监测分析的对象和内容,同时分析其上下关联、影响并制约发展的其他因素。在分析的基础上进行归纳,进行经济运行趋势分析和预警。

在建立的数据仓库的基础上,运用多维分析技术对数据进行分析。多维分析技术主要包括:数据库和数据仓库技术(Data Warehousing)、数据抽取转换加载技术(ETL-Extraction Transformation Loading)、联机分析处理技术(OLAP-Online Analytical Process)、数据挖掘技术(Data Mining)、前端展现技术等。常见的多维分析操作主要有:钻取(上钻和下钻)、切片、切块、旋转。钻取:钻取是改变维度的层次,变换分析的粒度。钻取包括上钻和下钻,上钻是在某一维上将低层次的细节数据概括到高层次的汇总数据的过程,减少了分析的维数;下钻则是相反,它是将高层次的汇总数据进行细化,深入到低层次细节数据的过程,增加了分析的维数。切片和切块:在多维分析中,如果在某一维度上限定了一个值,则称为对原有分析的一个切片,如果对多个维度进行限定,每个维度限定为一组取值范围,则称为对原有分析的一个切块。在多维分析中,维度都是按某一顺序进行显示,如果变换维度 的顺序和方向,或交换两个维度的位置,则称为旋转。多维分析的实现主要包括以下四点,分别为:维度指标的定义,建立维度指标关联关系,执行维度和指标查询,以及数据展现。在多维分析的基础上,进行归纳分析,绘制监测指标的运行曲线,运行趋势分析。

例如对于产业园区可分别从经济环境分析、基础设施建设及投资状况、基础产业发展研究分析、重点产业发展研究分析、主要重点公司经营分析、主要产业园区发展分析、重大项目建设分析、政策比较分析、投资吸引力分析、投资分析及前景、产业投融资策略分析几个主题建立多维分析模型,进行分析。

监测预警以预警模型为基础。预警预型可以采用多变量预警模型,多变量模型又可以分为静态统计模型与模型库。之后,根据检测分析的需求,设计建立分主题的数据仓库和多维分析模型,可以对具体的指标实行监测预警。建立检测模型,对指标进行检测,同时模型库管理中录入预警模型,在检测的时候结合预警模型,在分析的基础上进行归纳,对指标库的某些指标进行预警,从而进行经济运型和动态非统计模型。静态统计模型如下:

① 线性判别模型。多元线性判别模型是运用多元统计分析方法中的判别分析建立起来的,它是根据一定的样本资料,建立判别函数、确定判定区域,以对指标进行监测预警。

② 主成分预测模型。该模型也形成一个线性判定函数式,其形式类似判别分析模型。不过该模型是运用多元统计分析中的主成分分析方法,通过提炼综合因子形成主成分,并利用主成分建立起来的。

③ 简单线性概率模型。该模型是利用多元线性回归方法建立起来的,其形式是:y=c+β1x1+β2x2+…+βkxk。其中:c、β1、β2、…、βk为系数;x1、x2、…、xk为 k个预测变量。

④ logit模型和probit模型。它们也分别叫作对数比率模型和概率单位模型,都属于概率模型,是在克服简单的线性概率模型的基础上并分别用logit 和probit概率函数建立起来的。logit模型的形式为:ln[p÷(1-p)]=α0+β1x1+β2x2+…+βkxk。其中:p取值为0、1; p为概率;x1,x2,…,xk为k个预测变量。

预警可以综合多种预警模型,实现预警目标。

4.现状评价:在已有的评价体系的基础上,认真分析当前现状评价的新需求,进一步完善评价体系。同时综合运用主成分分析、聚类分析、神经网络和深度学习等多方法融合,同时结合经济相关计量分析法形成复合型现状评价模型,利用大数据分实现投资环境的现状评价。

3、各系统开发

1)“云翻译数据中心”的软件开发

2)“生产线自动控制子系统”的软件开发

3)“大数据应用——城市建设和港口建设预测”的软件开发

4)“中国—中南半岛经济走廊沿线国家金融平台子系统”的软件开发

4、在完成上述1、2两点分析的前提下,补充完善相关需求分析,并完成“数据挖掘——人物背景分析”的软件开发、“数据挖掘——投资环境分析”的软件开发

(课题组供稿)                         

(责编:孙爽、闫妍)