Spark之SparkStreaming理论篇 SparkStreaming的相关理论学习: 2019-06-03 大数据 SparkStreaming Spark之SparkSQL数据源 SparkSQL数据源:parquet Json Mysql Hive: 2019-06-01 大数据 SparKSQL Spark之SparkSQL实战 DataFrames 基本操作和 DSL SQL风格 UDF函数 以及数据源: 2019-05-30 大数据 SparKSQL Spark之SparkSQL理论篇 Spark SQL 理论学习: 2019-05-30 大数据 SparKSQL Spark之RDD实战篇3 键值对RDDSpark 为包含键值对类型的 RDD 提供了一些专有的操作 在PairRDDFunctions专门进行了定义。这些 RDD 被称为 pair RDD。有很多种方式创建pair RDD,在输入输出章节会讲解。一般如果从一个普通的 2019-05-29 大数据 Spark Spark之RDD实战2 依赖: RDD和它依赖的父RDD(s)的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency)。 窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partit 2019-05-28 大数据 RDD Spark Spark之RDD实战篇 RDD编程在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后,就可以调用action触发RDD的计算,action可以是向应用程序返回结果(count, co 2019-05-27 大数据 Spark Spark之RDD理论篇 RDD与MapReduceSpark的编程模型是弹性分布式数据集(Resilient Distributed Dataset,RDD),它是MapReduce的扩展和延申,解决了MapReduce的缺陷:在并行计算阶段高效地进行数据共享.运 2019-05-27 大数据 RDD Spark生态圈及安装 Spark 2009年由马泰·扎哈里亚在加州伯克利分校的AMPLab实现开发的子项目,经过开源捐给了Apache基金会,最后成为了我们熟悉的Apache Spark,Spark式式由Scala语言实现的专门为大规模数据处理而设计的快速通用的 2019-05-26 大数据 Spark