- ·上一篇文章:大咖驾到| 2018中国上市房企百强峰会专家对话
- ·下一篇文章:百年老店”正在变年轻,蒂芙尼业绩修复路漫漫而修远兮
“大数据”在宏观经济预测分析中的应用
征提取是指将高维度数据投影到低维度空间中。(1)特征筛选思路中较为经典的是LASSO算法,这种算法是 Tibshirani(1996)年提出来的一种变量选择算法。其基本思想是在OLS多元回归的误差平方和中加入一个惩罚函数,若无常数项,并且有q个解释变量,n个样本,最优化公式如下:这个公式由两部分组成,前面为 OLS 算法的误差平方和,后面部分为惩罚函数。通过加入惩罚函数的方式(λ≠0,且γ= 0),最终确定一些变量的系数为零,从而实现指标集合精简的目的。李春红等(2016)利用 LASSO 算法分析了网络广告点击率的预测模型,有效克服了数据高维性。其他常用特征筛选算法还有岭回归法、逐步回归法、Spike-Stab回归等。(2)特征提取思路主要是主成分法(PCA)。PCA算法基本步骤:首先,对N个变量进行中心化,并计算协方差矩阵;其次,根据协方差矩阵计算特征值和特征向量;再次,将特征值按大小排列,保留前M个特征值和对应的向量;最后,利用这得到的M特征向量来计算M个主成分。通过这个过程将N个变量降维到M个主成分,这M个主成分包含了N个变量的信息量P用下面的公式计算,其中λi表示第i主成分的特征根:通过这样的处理过程,用较少的 M个主成分来代表 N个变量用于分析,并且这几个主成分之间是正交的。其他特征提取思路降维算法还有:多维尺度分析(MDS)、奇异值分解(SVD)、等距特征映射(ISOMAP)、动态LEE等,可以参照相关文献材料了解各自算法过程。近年来,宏观经济研究领域常用动态因子模型(DFM)来进行变量降维处理。(三)非结构化数据构成大数据信息类型来源多样,网络日志、音频、图片、 URL、文本、地理位置信息等。其中大约只有 10% 属于结构化数据,其余 90% 的数据信息均是非结构化数据。宏观经济预测分析,离不开非结构化数据的处理。网络舆情信息等更多的都是文本信息,这些信息的处理离不开独特的处理方法。当前技术发展较为成熟的是文本信息的分类处理,常见的文本分类算法有朴素贝叶斯分类(Na?ve Bayes)、中心最近距离判别算法(又称 Rocchio算法)、k最近邻算法(KNN)、决策树算法、人工神经网络等。网络日志的分析主要是通过“网络爬虫”的技术实现。现阶段,对图片、语音和视频等非结构化数据技术还在发展探索中。(四)研究问题范式的转变传统的计量模型宏观经济预测,绝大多数情况下,均假设解释变量与被解释变量之间呈现某种确定的函数关系,但通过不同渠道获取的大数据资源,很难直接假定与宏观经济指标之间是确定的某种函数关系,实际过程中,大数据解释变量和宏观经济变量之间只存在相关关系,不存在因果关系。这更难以利用传统的计量模型来处理。研究这种变量之间的关系,现在常用的技术是“机器学习”。机器学习过程就是让计算机自行利用样本数据来“学习”解释变量与宏观经济变量之间的关系,这种关系并不是线性关系,而是一种“匹配”关系。计算机“训练”的过程就是寻找最优的匹配关系的过程,在找到最优的匹配关系后,利用这种“学习”到的对应关系,通过新的解释变量来预测宏观经济指标。“机器”能够伴随计算、运行次数的增多,通过学习逐步自我提高和改善,使挖掘和处理更为准确。机器学习的主要算法包括线性模型、拓展的线性模型、决策树、支持向量机、人工神经网络、自组织映射网络、遗传算法等。(五)数据噪声问题噪声数据是指获取的对研究目的没有价值的信息。噪声数据问题的存在,导致两个方面的严重后果:(1)增加了成本。由于数据中大量噪声数据的存在,增加了数据处理的过程和难度,相应的研究分析成本大幅度增加。(2)增加了研究结论的误差。由于没有识别出噪声数据,导致研究问题过程中将加入大量无价值数据信息,给研究结论带来不确定性,增加了结果的误差,导致研究结论无价值,甚至会得到错误的结论。当前大数据宏观经济研究过程中,数据来源范围越来越广泛,数据的搜集手段在扩展,数据搜集能力在增强,但搜集来的大量数据并非均与研究目的直接相关联。因此,在实际研究过程中,识别出与研究目的最相关的数据信息十分重要。当前利用大数据做宏观经济预测和分析的研究中,大部分直接使用Google 或百度指数,对此问题的讨论较少。但随着未来相关问题研究的深入和细致,噪声数据的处理,将会是一个探讨的重点。通过一系列的技术手段,获得网络或者其他来源的大数据后,均会处理成结构化数据用于分析和预测。SSA(Singular Spectrum Analysis)技术可以用来处理大数据中的噪声问题,通过SSA对原始的数据序列,构建新的、具有较少噪声的时间序列数据。Elsner and Tsonis(1996)、 Myung(2009)均对 SSA 技术处理过程有较为详细的介绍。五、总结及展望本文通过专家学者对“大数据”概念的定义,总结出能够定义为“大数据”信息的四个特点:数据量巨大;传统计算机难以计算处理;包含非结构化数据;信息密度低。在此“大数据”的特点上,宏观经济领域的“大数据”相对于传统的调查统计数据做预测分析具有以下五个方面的优势:及时性、精准性、容易细分、数据成本相对低和样本量巨大。综合截至当前学者们利用经济“大数据”做宏观经济分析和预测研究成果,主要集中在失业率、通货膨胀、社会宏观消费、房地产市场、选举问题、社会舆论分析以及 GDP 预测等方面。当前国内在失业率、社会宏观消费、选举问题、以及 GDP 预测方面研究较为缺乏。虽然专家和学者已经将“大数据”广泛地应用到宏观经济预测分析当中,但还需在以下几个方面进行扩展,这也是未来“大数据”在宏观经济预测方向发展的重要方向。现阶段,应用“大数据”来做宏观经济预测和分析的研究主要是用Google Trends 和百度指数等互联网公司提供的数据来分析经济问题。这些数据均受制于自己的平台,例如,百度指数获取的数据只记录百度用户在百度搜索引擎上进行搜索的搜索量数据,这些数据信息局限性大,而且数据相对单一。另外,占网络数据信息量 90% 的非结构化数据,现阶段较少用于做宏观经济预测,这个是未来宏观经济预测数据的重要来源。应用经济“大数据”做宏观经济预测时面临几个方面的问题:维度灾难、非结构化数据、非线性关系和噪声问题。这些问题虽然在当前存在一些解决方案和模型,但是,均无法较好地满足宏观经济预测分析的要求,需要积极探索新的解决方案。
“大数据”在宏观经济预测分析中的应用