一、 研究进展情况
1、研究计划总体执行情况及各子课题进展情况;
自课题立项以来,课题组已经在根据课题总体设计和各个子课题的研究任务开
展研究工作。主要进展情况如下:
(一)基于大数据的宏观经济预测体系优化与指标生成与应用研究。
课题总体设计中,围绕基于大数据的宏观经济预测体系优化,主要开展四个专题的研究。专题一:基于大数据对劳动力市场指标优化研究;专题二:基于大数据对金融市场指标优化研究;专题叁:基于大数据对商品市场指标优化研究;专题四:基于大数据对国际贸易指标优化研究。目前已经针对专题一、专题二、专题叁进行了研究。具体研究内容包括:
(1) 基于大数据对劳动力市场指标优化研究
劳动就业状况的短期趋势在现有的统计体系下无法得到精确的反映,而人群移动的特征是挖掘其就业特征的有效途径。课题组运用中国电信上海市的移动信令数据,初步实现了对人群移动轨迹的数据挖掘分析。能够有效识别不同类型的群移动轨迹特征,从而作为预测劳动就业状况的辅助指标。
传统理论中普遍使用“随机游走理论”来刻画个人行动规律,随机游走模型以Levy Flight 模型为基础不断拓展。而近几年的文献利用大数据,发现随机游走模型对个人行动规律的刻画能力存在不足,认为个人行动半径更符合“幂律分布”模型。基于现有文献研究,本课题探索通过数据变换、将个人行动的“幂律分布”模型转化为线性模型,并编写适用于超大用户群的并行聚类算法来实现对个人行动规律的分析。本研究主要采用个体电信手机用户每个月出现在不同基站频次的统计数据,并按照频次大小进行排序,该频次排序数据基本符合“幂律分布”,在对该数据取对数化后,可以得到变换后的线性模型,从而实现简化数据分析难度。
目前所采用的电信手机数据包含2016 年6 月至2016 年11 月的共计16295554名用户,用户行为数据总容量达到150GB,主要采用有限混合模型(Finite mixed5model)来对用户的行动规律进行聚类分析。
必须编写全新分布式多线程算法,应对海量用户数据的分析。即使在简化的线性模型假设条件下,面对如此大规模的数据集也存在着许多技术上的难点,主要包括:1、在大数据情境下,观测数据量大大超出传统模型应用范围(本课题每个月涉及观测用户量约为700 至800 万,是传统研究的上千倍之多,对计算资源的要求提高);2、现有软件包(Python、R 语言等)中的现成计算模块均采用单线程计算,效率低(经前期测试,对一个包含10 万观测用户量的模型进行聚类分析,需耗时10 小时,而观测用户量的增长将带来指数级别的计算耗时增长)。目前的成果主要是深入研究了现有混合有限模型算法,将其中的若干关键步骤全部进行分布式计算改写,同时所有计算模块均充分利用Python 语言现有的高效率数学计算模块,大大提高了大数据情境下的用户聚类分析。初步研究结果表明,对于上海电信手机用户而言,其用户行动规律可以分为5 个大类,且分类情况随时间推移呈现出较为稳定的特征。通过研究可以看到用户行为类型可以分为5 类,这对于用于下一步细分劳动力市场特征而言并不足够,要想实现研究目标,需要计算获得更为细分、具体的聚类结果。下一步计划是进一步改进聚类算法,将用户行动特征直线分解为“固定趋势”与“移动趋势”两类,分开进行用户聚类分析;使用基站的地理位置以及周边建筑属性(利用百度地图API),进行第三个维度的聚类分析;结合上述聚类分析结果,得到高维度、高精度的用户行动规律分类结果,进一步对劳动力市场关键指标进行分析。
(2) 基于大数据对金融市场指数进行优化研究
宏观经济环境变化、金融体系自身演化积累,投资者群体性行为、市场监管管理政策调整、国际资本流动和市场环境变化、内幕交易等都有可能引发金融市场全系统风险。金融大数据的获取使得系统性风险的潜在影响因子更容易被识别和跟踪。本课题主要从两个方面对该问题进行了研究。第一,基于P2P 数据对互联网金融的风险进行度量。从“网贷之家”上选取了469 家P2P 平台作为研究对象,通过网络爬虫获取平台全部贷款的数据,选取若干相应的基础变量,通过模糊数学、无量纲处理得到每个平台的相应的基础变量得分,通过因子分析与层次分析法得到每个平台的风险指数。第二,基于事件驱动和复杂网络的证券市场风险监控。结合大数据和人工智能技术,构建机构投资者的社交网络,通过机器学习,挖掘各类可能导致金融市场波动的事件与股价之间的关联关系,观察机构投资者在事件发生后的投资行为变化,从而对金融市场的风险予以预判。
(3) 利用大数据对商品市场指数进行优化研究
根据课题研究计划,主要是两个方面的工作。第一,基于电商平台的商品交易和价格数据,对商品价格的短期波动进行跟踪,用于CPI 指数的补充和完善。目前已经利用网络爬虫技术,获取了淘宝、天猫、京东等电商平台将近1 亿种商品的价格、属性以及评价等交易数据,正在进行数据清洗、整理等工作。第二,基于高频用电数据,构建工商业景气指数,进行行业景气度之间的复杂动态关系的分析并进行预测。目前已经针对上海市全部工商业用户的96 点数据进行了分析,构建了基于工商业高频用电数据的复杂网络,利用马尔科夫状态转移模型,对工商业景气程度的样本外预测能力大大提升。
(二)基于大数据的宏观经济预测理论和建模研究
子课题二为本课题的理论研究,侧重于从宏观经济预测的基础理论和模型比较
出发,对基于大数据的预测理论创新和模型构建进行研究。目前主要是对下列专
题进行了系统调研、梳理清楚理论研究的主要着眼点。
(1)传统宏观经济预测体系研究
传统的宏观经济预测体系建立在各国政府所发布的经济景气指标的基础上,其背后的理论支撑是经济周期理论。通过基于统计指标构建景气指数与各类信心指数,通过合理分类,从而对经济未来走势进行预测,例如:Stock-Waston 型景气指数、公司景气指数、公司家信心指数、经济学家信心指数、CCI、宏观经济景气指数、PMI 和国服景气指数等。对于这类指标而言,往往会设定某一阈值,当真实指标超过该阈值时,就判断经济未来向好,反之则经济将步入下滑阶段。此外,抽样调研方法也常常被用于对行业、整体经济走势的判断,例如在景气调查法中,公司景气调查(Business Survey)又被称为是商情调查,采取抽样调查调研方法对公司乃至整个行业的走势进行判断。
(2)基于大数据对宏观经济预测的应用研究
现有的基于大数据对宏观经济预测进行应用的研究主要从两方面展开,第一,从数据量上进行完善,第二,从方法上使用大数据分析方法逐步对计量分析进行完善。
从数据量角度而言,目前的研究倾向于纳入更高频率的时间序列变量(如季
度、月度、日度甚至是小时级别数据)、建立超大型面板数据集(如微观公司和个
体层级数据、金融数据)以及考虑新的数据类型(如社交媒体文本数据、搜索引擎搜索行为数据和卫星图像数据等)。
从方法角度而言,现有的研究也逐渐涵盖更多的模型领域,如对传统计量方法的改进方面,主要包含动态多因子模型、扩展VAR 模型和X-GARCH 模型等;针对海量数据、高频数据方面,采用贝叶斯回归模型、混频回归模型和主成分分析等;在引入机器学习模型方面,则会采用支持向量机、随机森林树和神经网络模型等。
(3)基于大数据的宏观经济预测理论和方法研究
宏观经济预测方法主要被划分两大类:以经济学家主导的经济预测模型和以计算机学家主导的机器学习预测模型。
经济预测模型有着成熟的经济理论作为支撑,能够很好的解释经济运行的关键影响因素。这一类模型主要分为叁类:结构化计量预测模型、非结构化时间序列预测模型以及动态随机一般均衡预测模型。
对结构化计量预测模型而言,一旦当理论和现实情况产生偏差时,模型的预
测能力就会大大降低。而非结构化预测模型通常需要较大的数据集来进行分析,因此通常应用在金融市场的预测,对于数据频度较低的宏观经济预测,非结构化预测模型通常表现欠佳。均衡预测模型(顿厂骋贰)则结合了两类模型的优点,使得对模型系数进行估计存在很大的困难,从而限制了模型维数的增长,进而降低了模型的预测能力。
机器学习模型从数据本身为起点,让计算机模拟人类对现实经验总结的能力,训练出一套具有拟合和预测能力的模型。机器学习模型主要可以分为有监督学习,算法(有具体预测目标)和无监督学习算法(没有具体预测目标)两类。监督学
习算法可以有效的将预测目标进行结果分类,部分研究机构业已将机器学习运用
到对宏观经济部分指标进行预测上,这些应用结果显示这类监督学习算法的预测
能力较好。
(4)现有宏观经济预测模型研究存在的主要问题
在国外的机构中,例如国际货币基金组织(滨惭贵)、欧洲中央银行(贰颁叠)和
美联储(贵别诲)等政府机构均有自己的宏观预测模型,高盛、摩根斯丹利、摩根大
通和美林等国际投行也拥有自己的宏观预测模型。这些宏观经济模型具有较好的
短期趋势预测能力,但是面对一些突发事件时,往往存在着预测能力不足的缺陷。
中国目前急需构建针对短期经济波动及长期经济走势进行预测的宏观经济预测模型,来填补这一块的空缺。
(5)基于大数据的宏观经济预测指标生成与应用研究
早期大数据在宏观经济领域的运用主要集中于提高传统方法下预测数据的精度,例如Bernd Brandl et al.(2005)利用德国159 个经济指标变量,通过数据挖掘方法GA(Genetic Algorithm)预测工业产值、政府长期债券、失业率和通货膨胀率四个变量。由麻省理工大学发起的百万价格项目(Billion Price Project,BPP),则通过收集全球各个国家的各类在线零售价格数据,形成一系列实时价格指数,以期对现有的CPI 价格体系以及汇率体系进行一定程度的修正和完善。
随着数据采集能力的提升,能够获得的数据类型和数量都大大提升,因此现在的大数据应用逐渐向构建新型指标方向发展。Hyunyoung Choi(2010)将市场趋势分析工具Google Trends 应用于提高传统ARIMA 时间序列模型对经济指标预测的准确性,将传统计量方法的预测结果与改进后的预测方法相比较,发现后者对申请失业救济人数的预测比前者更为准确,长期和短期模型的样本外绝对平均误差分别下降了12.9%和15.7%。Toole 等(2015)则利用手机通信数据生成劳动力市场变化预警指标,通过与官方的失业率数据进行回归分析,发现这一新生成的指标能够对劳动力市场具有提前预测的能力,当期失业率预测准确率为95%,提前一季度的预测准确率也高达85%。从官方应用而言,美联储每月会发布Aruoba-Diebold-Scotti business conditions index,该指数综合了每日期限利率溢价、每周首次申请失业救济金人数、每月新增就业人口、每月的工业产出、个人可支配收入、贸易商品销售额、每季度实际GDP 这几类频度不同的数据,从而可以高频、精准地反应经济状况。国内将大数据运用于宏观经济分析最为成熟的指数应属克强指数,经过近几
年国内电商、IT 行业的发展,基于大数据来预测经济景气程度和价格指数的机构
主要包括百度、阿里、大宗商品数据等。
2、调查研究及学术交流情况
(1) 文献与数据调研收集情况
针对现有数据,通过对统计资料电子化、电子数据整合等方式,采用结构化数据库进行存储。目前已对现有数据进行梳理,除上述统计年鉴外,本课题组还以MySQL 数据库、HBase 数据库以及分布式文件等形式收集了大量社会经济数据、能源使用数据、污染物数据以及卫星数据。
除此之外,宏观经济的重要指标就是能源使用情况,在能源使用中,一方面需要使用一次能源如煤炭以及原油,但是这样的使用情况往往只能代表经济的生产侧,在需求侧,往往是多种能源的相互组合。为了更充分的进行宏观经济运行情况的描述,课题组收集了上海市居民煤气、天然气使用数据,每月电费以及付款方式,工商业园区细分用电数据,商业楼宇的分项计量数据,并结合中国移动提供的楼宇人群数据以及高频气象数据,通过上述数据的关联、配合,进一步加强宏观经济现时预测的研究。依托复旦大学已初步建设完成的大数据工场平台,能够更好的实现对现有数据的整合,能够利用更先进的数据管理手段与硬件计算资源,为本研究提供技术支撑。目前大数据工场主要采用NVidia 显卡来搭建高性能科学计算平台,能够为本研究的机器学习任务提供高性能加速支持
在2016 年9 月,课题组就上海市居民需求侧基本信息、用能情况、环保意识、物价认知等进行了入户调研,其主要规模为3000 人,最终有效问卷为2976 份。调研数据在能源数据以及气象数据的基础上,为我们的研究补充了有效的微观个体社会经济与人口数据,这能进一步让我们了解不同人群特征、社会特征对于用户用能以及宏观经济运行的影响。目前结合调研数据,课题组已经完成了需求侧绿色能源使用潜力研究,用户能源与社会商品需求异质性研究等分析。
文献收集主要围绕上述研究内容展开,除上述对于宏观经济预测的相关文献
外,课题组已经收集有关能源使用、生产以及需求,经济运行用能情况以及环境
污染等方面的论文300 余篇,课题组成员已经精读100 余篇,其主要发表在
《American Economic Review》、《Review of Economics Studies》、《Econometrica》、
《Quarterly Journal of Economics》、《The RAND Journal of Economics》、《Journal of Public Economics 》、《Journal of Environmental Economics and Management 》、
《Applied Economics》、《经济研究》、《管理世界》等国内外顶尖期刊。课题组相关研究人员已经根据精读文献撰写了文献综述,总结其中创新方法并将其应用于
课题有关能源以及公关经济运行的领域中。
课题组同时根据研究内容,收集有关金融以及复杂网络的相关文献50 余篇,
其主要发表于《Journal of Political Economy》、《Journal of Financial Economics》、《Journal of Finance》、《Journal of Banking and Finance》以及《管理世界》等顶级期刊。同时精读多本有关金融市场以及社会网络相关书籍,并已经制作讲解视频。
(2)学术交流情况
2016 至2017,课题组多次参加由知名机构举办的国际学术会议,包括2015至2017 的三次EAERE(欧洲能源与环境年会),首届smart grid 研讨会等,在会上课题组报告了目前主要研究成果,并与多国学者进行了交流。
2016 至2017,复旦大学与美国杜克大学曾多次互派人员进行学术交流,并在
期间进行了多次学术研讨以及学术会议,主要针对我国能源使用、宏观经济发展
状况等方向的学术研究进行了交流。目前已经确定的研究方向及成果包括,使用
数据驱动的能源使用研究,我国需求侧新型能源使用潜力研究等叁篇文章。
同时,课题组也和美国斯坦福大学、伯克利大学建立了学术合作,通过互派人员进行了充分的学术交流,并根据各自研究方向以及数据特点进行了中美比较,目前已经确定的研究方向包括基于高频数据的用能情况分析等。
2017 年6 月,课题组成员在北京共同参加我国电力体制改革与能源环境情况改进国际学术会议,并对我国目前电力市场建设与可再生能源发展进行了报告,计划于2017 年10 月在上海进行需求侧能源大数据使用与分析国际研讨会,主要邀请美国斯坦福大学、杜克大学等知名高校学者参加。
3、成果宣传推介情况
项目启动以来,本项目的数据准备和收集工作耗时很长。且大数据的收集、整理涉及到较多的数据安全方面的障碍,经过一年半左右时间基本达到预期目标。今年上半年以来已经形成多篇工作论文和投稿论文。基于大数据的工商业景气预测指数在2017 年贵阳数博会展出,获得媒体的关注。文汇报、新民晚报、新华社等都进行了报道。后期将加强成果发布、简报报送、专刊投稿等工作。
二、 研究成果情况
1. 基于工商业用电数据的景气指数研究
(1)主要内容
补.研究了传统的经济景气指数构建和相关模型已经解决的问题和存在的缺陷;
产.为解决传统模型的问题,设计利用大数据技术研究微观行业和整体产业结构的关系的模型,研究反映产业结构的高频经济景气指数构建方法,研究短期预测方法;
肠.基于最能反映经济运行状况的克强指数中行业用电量数据,利用复杂网络模型研究了行业间生产和发展的相互联系、引导演化关系,并研究了产业结构网络的性质,包括行业间先导滞后关系、某个行业生产运行发生变化对整个网络的影响、每个行业在整个网络中的重要性程度、每个行业重要性满足的概率分布、网络的稳定性及随时间演化等。
别.在充分了解产业结构及演化发展状况的基础上,构建了包含产业结构的综合经济景气指数,该指数由各个行业的景气状况和行业间相关关系综合而成。随着时间推移,各个行业景气发生变化,产业结构发生调整,行业间关联关系变化等,都会在景气指数中及时反映出来。
蹿.研究经济景气指数的动态网络预测方法,由于真实世界中的行业发展和产业结构随时都在发生改变,动态贝叶斯网络模型可以捕捉这些变化并反映在经济景气指数中。通过产业结构的复杂网络图构建动态贝叶斯网络模型进行景气的预测。
(2)主要观点
基于工商业行业高频用电数据研究了行业间关联关系,在考虑产业结构的基础上构建了日度综合经济景气指数,实现对宏观经济现状的精确描述和短期趋势预测,为宏观调控和经济政策制定提供理论依据,为投资和工商业生产发展提供决策依据。
(3)学术价值
国际上流行的衡量经济景气情况的方法为合成指数法(Composite Index),即以一个国家的工业增长水平作为参考,选取一些宏观统计数据,划分为先行指标组、一致指标组和滞后指标组,以构建经济景气分析指标体系,分析和预测经济周期波动和景气变动的转折点。但是这些指标往往是月度或季度数据,且非常宏观,无法反映经济景气指数变动背后的原因,也无法反映产业结构调整带来的变化,更不能进行短期及时的预测。基于工商业电力大数据的宏观经济景气指数研究,结合反映经济变动的最直观的高频电力大数据,构建新的反映宏观经济状况的高频景气指数,从微观行业着手,从局部出发进行整体经济产业结构的研究,可以充分挖掘影响宏观经济景气的各种不同因素以及产业结构特征和变化的影响。除此之外,利用动态贝叶斯网络的方法,实现对宏观经济现状的精确仿真和短期趋势预测,相比于传统的预测模型精度和性能均较优。
其中,复杂网络的局部和全局特性能够清晰地刻画组成复杂系统的不同元素之间的相互关系和信息流动过程,利用复杂网络的方法研究不同行业之间以及行业和宏观经济的关系,使得研究人员可以通过纯数据的分析得到与以往基于经济学理论和行业生产特性分析相同甚至更重要的结果,而不需要进行长期的经济学理论知识的学习和训练,降低了研究分析的门槛。
(4)社会影响
景气指数是反映各行业运行状况的定量指标,用来反映行业的经济景气变化状况。准确预测行业景气指数对生产活动的开展以及宏观经济调控有着重要的意义。随着信息化的发展,社交网络的影响日益扩大,非结构化数据的大量涌现,过去低频数据中的因果关系发生了一些变化,不同过程之间的相互作用变得越来越复杂,同时随着中国经济进入新常态,产业结构调整变得越发频繁,对预测的时效性和准确性提出了新的要求,传统的经济研究和经济景气指数满足不了现时预测的要求。基于工商业电力大数据的高频宏观经济景气指数构建和预测,可以充分挖掘影响宏观经济景气的各种不同因素以及产业结构特征和变化的影响,实现了对宏观经济现状的精确描述和短期趋势预测,为宏观调控和经济政策制定提供理论依据,为投资和工商业生产发展提供决策依据。
2. 基于电信数据的劳动力就业市场预测。
(1)基本内容
传统理论中普遍使用“随机游走理论”来刻画个人行动规律,随机游走模型以Levy Flight 模型为基础不断拓展。而近几年的文献利用大数据,发现随机游走模型对人行动规律的刻画能力存在不足,认为个人行动半径更符合“幂律分布”模型。基于现有文献研究,本课题探索通过数据变换、将个人行动的“幂律分布”模型转化为线性模型,并编写适用于超大用户群的并行聚类算法来实现对个人行动规律的分析。本研究主要采用个体电信手机用户每个月出现在不同基站频次的统计数据,并按照频次大小进行排序,该频次排序数据基本符合“幂律分布”,在对该数据取对数化后,可以得到变换后的线性模型,从而实现简化数据分析难度。目前所采用的电信手机数据包含2016 年6 月至2016 年11 月的共计16295554名用户,用户行为数据总容量达到150GB,主要采用有限混合模型(Finite mixed model)来对用户的行动规律进行聚类分析。
目前的成果主要是深入研究了现有混合有限模型算法,将其中的若干关键步骤全部进行分布式计算改写,同时所有计算模块均充分利用Python 语言现有的高效率数学计算模块,大大提高了大数据情境下的用户聚类分析。
(2)主要观点
初步研究结果表明,对于上海电信手机用户而言,其用户行动规律可以分为5个大类,且分类情况随时间推移呈现出较为稳定的特征。每一类用户行动规律中的行为参数有较大差异,表明不同类型的用户在行为规律中存在着较大的差异。
通过研究可以看到用户行为类型可以分为5 类,这对于用于下一步细分劳动力市场特征而言并不足够,要想实现研究目标,需要计算获得更为细分、具体的聚类结果。下一步计划是进一步改进聚类算法,将用户行动特征直线分解为“固定趋势”与“移动趋势”两类,分开进行用户聚类分析;使用基站的地理位置以及周边建筑属性(利用百度地图API),进行第三个维度的聚类分析;结合上述聚类分析结果,得到高维度、高精度的用户行动规律分类结果,进一步对劳动力市场关键指标进行分析。
(3)学术价值
第一,在研究方法方面,本研究通过利用电信数据提出了一个用于对个体行为规律进行聚类的分析框架,本研究认为所有个体行为人隶属于具有不同行为规律的群体,因而不同群体的行为参数是不同的,需要使用聚类方法来进行有效识别。而现有国内外研究将所有个体视作是同质群体,因此其移动规律全部服从相同的概率分布函数。实证结果则印证了本研究所提出的观点。
第二,在分析技术方面,本研究对现有的有限混合模型进行重新编程,实现了在分布式多线程模式下的高性能计算,大大缩短了计算时间、极大提升了分析效率。且这种计算能力可以进行无缝拓展,适应未来更大尺度和更大数据量的模型计算。
(4)社会影响力
本研究的初步成果在2017 年贵阳大数据展上进行展示,收获了广泛的关注与好评。其中有包括北京联通等在内的多家运营商均表示出了强烈的合作研究意愿,希望能够通过将本研究的分析方法运用到不同地区、不同类型的数据之上,来对不同地区的劳动力市场进行细致分析。
课题组供稿