Spark SQL

2018年05月25日 09:40 | 2550次浏览

Spark SQL允许Spark执行用SQL, HiveQL或者Scala表示的关系查询。这个模块的核心是一个新类型的RDD-SchemaRDD。 SchemaRDDs由对象组成,行对象拥有一个模式(scheme) 来描述行中每一列的数据类型。SchemaRDD与关系型数据库中的表很相似。可以通过存在的RDD、一个Parquet文件、一个JSON数据库或者对存储在Apache Hive中的数据执行HiveSQL查询中创建。

本章的所有例子都利用了Spark分布式系统中的样本数据,可以在spark-shell中运行它们。接下来重点介绍如下:

spark sql 例子

数据源

RDDs

parquet文件

JSON数据集

Hive表

性能调优

其它SQL接口

编写语言集成(Language-Integrated)的相关查询

Spark SQL数据类型



小说《我是全球混乱的源头》

感觉本站内容不错,读后有收获?小额赞助,鼓励网站分享出更好的教程