奕剑听雨
05
30
Spark之SparkSQL理论篇 Spark之SparkSQL理论篇
Spark SQL 理论学习: <The rest of contents | 余下全文> 简介 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询
2019-05-30
29
Spark之RDD实战篇3 Spark之RDD实战篇3
键值对RDDSpark 为包含键值对类型的 RDD 提供了一些专有的操作 在PairRDDFunctions专门进行了定义。这些 RDD 被称为 pair RDD。有很多种方式创建pair RDD,在输入输出章节会讲解。一般如果从一个普通的
2019-05-29
28
Spark之RDD实战2 Spark之RDD实战2
依赖: RDD和它依赖的父RDD(s)的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency)。 窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partit
2019-05-28
27
Spark之RDD实战篇 Spark之RDD实战篇
RDD编程在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后,就可以调用action触发RDD的计算,action可以是向应用程序返回结果(count, co
2019-05-27
27
Spark之RDD理论篇 Spark之RDD理论篇
RDD与MapReduceSpark的编程模型是弹性分布式数据集(Resilient Distributed Dataset,RDD),它是MapReduce的扩展和延申,解决了MapReduce的缺陷:在并行计算阶段高效地进行数据共享.运
2019-05-27
26
Spark生态圈及安装 Spark生态圈及安装
Spark 2009年由马泰·扎哈里亚在加州伯克利分校的AMPLab实现开发的子项目,经过开源捐给了Apache基金会,最后成为了我们熟悉的Apache Spark,Spark式式由Scala语言实现的专门为大规模数据处理而设计的快速通用的
2019-05-26
26
数据结构之哈希表 数据结构之哈希表
哈希表散列表(Hash table,也叫哈希表),是根据关键码值(Key value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫做散列函数,存放记录的数组叫做散列表。
2019-05-26
23
数据结构之红黑树 数据结构之红黑树
红黑树和2-3树本身是等价的,在学习红黑树之前我们不妨去了解一下2-3树的特性。当我们理解了2-3树之后,对于红黑树和通常用于磁盘存储,文件系统,数据库相应的B类树也是有帮助的。 2-3树2-3树是最简单的B-树(或-树)结构,其每个非叶节
2019-05-23
22
数据结构之AVL树 数据结构之AVL树
简介 AVL树是最早被发明的自平衡二叉查找树。在AVL树中,任一节点对应的两棵子树的最大高度差为1,因此它也被称为高度平衡树。查找、插入和删除在平均和最坏情况下的时间复杂度(都是$O(\log n)$。增加和删除元素的操作则可能需要借由一次
2019-05-22
14
数据结构之并查集 数据结构之并查集
并查集在计算机科学中, 并查集是一种树型的数据结构 ,用于处理一些不交集(Disjoint Sets)的合并及查询问题。 有一个联合-查找算法 ( union-find algorithm )定义了两个用于此数据结构的操作: Find:确
2019-05-14
2 / 9