当前位置:K88软件开发文章中心编程资讯编程资讯14 → 文章内容

“大数据”在宏观经济预测分析中的应用

减小字体 增大字体 作者:华军  来源:华军资讯  发布时间:2019-2-14 21:15:06

的趋势非常吻合,从而发现“止赎权”的网络检索次数是美国住房市场问题的一个早期预警,能够为美国房地产市场预测和指导提供更加及时的信息。 Wu and Brynjolfsson(2009)使用 Google 搜索数据构建房价指数,为房屋销售量做预测。 Kulkarni etal.(2010)通过 Google 搜索与“房产”相关的关键词搜索量,构建一个可以预测房价的先行指数,并且利用这个先行指数通过季节调整等调节后用于房产价格。Widgrén and Joona(2016)检验了 Google 搜索数据量是否可以用于分析和预测芬兰房价,通过分析,发现通过搜索引擎搜索数据可以改善近期的房价预测效果。基于大数据研究房地产市场的研究国内学者较多。霍琳等(2014)通过互联网上的大量新闻数据作为分析对象,通过文本分析技术,判断公共媒体对房地产市场的关注程度和情感倾向,利用正面、负面新闻数量合成一个反映公共媒体对房地产市场认知的舆情指数,并且,证明所构建的舆情指数对商品房销售面积有较强的解释作用。董倩等(2014)利用与二手房和新房相关的关键词,通过百度搜索指数构建了多种分析模型,对我国 16个城市房价进行预测,研究表明网络搜索数据对房价预测的精度更高。洪涛、厉伟(2015)同样利用关键词“房价”百度搜索量数据分析住房价格,并且将其引入传统模型中,提高了房价预测精度。(五)研究选举问题Bermingham and Smeaton(2011)利用爱尔兰大选作为案例研究,通过监督学习和情感分析对社会媒体新闻来模拟分析了不同政治派别的政治潜力。Jahanbakhsh and Moon(2014)研究 Twitter 社交网络大数据对 2012 年美国总统大选的预测能力。文章通过机器学习的方法分析了 3200 万条关于总统大选的推文,并结合情感分析器,最终确定候选人的受欢迎程度,结合推文的地理信息,也可以分析得到各个州候选人的人气情况。 McDonald and Mao(2015)通过主题检索,未覆盖和结构测试(TRUST)分析框架,通过对网络搜索数据的分析,对 2015 年英国大选进行了预测,并且获得了相对较好的预测效果。Fatta et al.(2015)在英国举行 2015 年大选前后,搜集了与选举相关的 Twitter数据集,包含2800万条推文,总共118G的数据集合。通过分析这些文本数据信息,研究选举了在整个选举前后,选民的情绪与政治倾向情况,并且构建了政治情绪指数,用于研究选举过程,并为选举提供指导。(六)用于社会舆情分析喻国明(2013)以 2009—2012 年百度搜索词数据库为研究对象,将碎片化的舆情信息整合处理并进行舆情模型构建的方法,构建“社会暖度”“社会幸福感”和“社会压力”等中国社会舆情指数。喻国明(2015)基于百度热搜数据库、腾讯浏览器以及安全卫士数据库等大数据信息,分析了 2014 年中国社会舆情的结构特点,并且和前几年情况做了纵向对比,分析中国社会舆情演变特点及机制。(七)预测 GDPG?tz and Knetsch(2017)利用 Google 网络搜索数据结合偏最小二乘法, LASSO 方法等方法选择指标加入传统的桥梁方程模型(Bridge EquationModels)预测了德国的 GDP,研究结果表明,通过加入大数据指标,模型的样本外预测精度得到提高,有利于模型预测GDP的效果。四、大数据宏观预测中存在的问题和解决方案由于大数据其独有的特征,也造成传统的处理方法难以直接应对大数据的分析,需要新的技术方法来处理和分析经济大数据。当前,利用大数据分析宏观经济问题已经取得一定的成果,但远远不够,受到的局限较大。这里将从大数据应用于宏观经济预测分析的几个主要难点分别介绍。(一)数据获取传统的统计和计量模型使用的数据是通过统计和调研得到的数据,都是直接用于处理和分析的结构化数据信息。但是,经济大数据信息更多的是隐藏在网络之中,需要提取出来。现有可以用作宏观经济预测分析的大数据获取来源主要有三种。1. 利用百度指数和 Google Trends 等互联网公司提供的数据信息。这种方式主要是百度和 Google 公司利用本身搜索引擎的优势,为用户免费提供的词条搜索量数据,这种方式也是当前应用最多的数据来源方式, Kholodilin et al.(2009); McLaren and Shanbhogue(2011); McDonald and Mao(2015) 等均是使用 Google Trends 搜索量来做宏观经济预测分析。这种方式的优点是,获取数据简单方便,技术难度低,成本低,直接查询就可以得到;缺点是数据信息量单一,只能获得这些公司提供的数据信息,无法定制化得到需要的数据信息。2. 利用“网络爬虫”技术定制数据信息。“网络爬虫”也称为“网络蜘蛛人”,是一种按照一定的规则,自动爬取“万维网”信息的程序或者脚本。数据爬虫常用的程序或语言有:Python,Java,C++,C+,PHP,ErLang,Ruby等。Cavallo and Rigobon(2016)介绍的在 MIT 实施的 BBP 项目,即是利用“网络爬虫”技术获取价格数据,计算各个国家的消费者价格指数(CPI)。这种方式优势是可以根据宏观预测的目的有针对性地设计程序,从互联网绝大部分网站提取需要的数据信息,不受平台局限;缺点是技术难度较大,学习成本较高。3. 企业大数据。当前,数据资源最为丰富的是互联网公司,例如腾讯、阿里、百度等,这些公司由于在各自的领域具有较大优势,并且投入较多的资源构建数据库,具有较大的数据优势;另外一些公司,例如移动、联通类的电信行业的大公司也同样掌握着巨量、高价值的数据信息。这些公司的内部数据相比于前两种方式,数据较为完备,并且数据质量较好,但存在一个“数据壁垒”问题。这些数据是公司外部的研究人员接触不到的,不仅仅是因为“隐私信息”的问题,更多的是各个公司都将构建的数据库视为公司的重要资产,是公司在各自领域继续保持优势的重要保障。因此,都不会公开这些数据信息,造成数据资源不能被很好地利用。(二)维度灾难在宏观经济模型中,由于大数据价值密度低的问题,往往需要通过大数据挖掘技术,获得足够多的数据信息,这包括多维度上的数据信息,因而解释变量会大大增加,因此研究中会出现高维数据问题,即因可得信息过多,往往会出现和被解释变量相关的解释变量数量过多,产生所谓的“维数灾难”。为解决这一问题,需要对变量降低维度处理,得到与宏观预测目的最为相关的变量。降维的思路分为两种:特征筛选和特征提取。特征筛选指用特征子集替代原始特征集;特

上一页  [1] [2] [3] [4] [5]  下一页


“大数据”在宏观经济预测分析中的应用