Spark RDD

2018年05月05日 08:44 | 2309次浏览 作者原创 版权保护

Spark 核心的概念是 Resilient Distributed Dataset (RDD):一个可并行操作的有容错机制的数据集合。有 2 种方式创建 RDDs:第一种是在你的驱动程序中并行化一个已经存在的集合;另外一种是引用一个外部存储系统的数据集,例如共享的文件系统,HDFS,HBase或其他 Hadoop 数据格式的数据源。

接下来的章节重点介绍知识点如下:

并行集合

外部数据集

RDD 操作

传递函数到 Spark

使用键值对

Transformations

Actions

RDD持久化



小说《我是全球混乱的源头》
此文章本站原创,地址 https://www.vxzsk.com/871.html   转载请注明出处!谢谢!

感觉本站内容不错,读后有收获?小额赞助,鼓励网站分享出更好的教程