当前位置:K88软件开发文章中心编程语言SQLSpark → 文章内容

Spark SQL

减小字体 增大字体 作者:佚名  来源:网上搜集  发布时间:2019-1-19 4:50:37

由 ligaihe 创建, 最后一次修改 2016-02-23 Spark SQLSpark SQL允许Spark执行用SQL, HiveQL或者Scala表示的关系查询。这个模块的核心是一个新类型的RDD-SchemaRDD。SchemaRDDs由行对象组成,行对象拥有一个模式(scheme)来描述行中每一列的数据类型。SchemaRDD与关系型数据库中的表很相似。可以通过存在的RDD、一个Parquet文件、一个JSON数据库或者对存储在Apache Hive中的数据执行HiveSQL查询中创建。本章的所有例子都利用了Spark分布式系统中的样本数据,可以在spark-shell中运行它们。开始数据源RDDsparquet文件JSON数据集Hive表性能调优其它SQL接口编写语言集成(Language-Integrated)的相关查询Spark SQL数据类型

Spark SQL