分类: 大数据 | 清风笑丶            
奕剑听雨
Hadoop的I/O操作 Hadoop的I/O操作
Hadoop自带的一条原子操作作用域数据I/O操作,其中有一些技术比Hadoop更常用,如数据完整性保持和压缩在处理好几个TB级别的数据集时值得关注. 数据完整性Hadoop用户不希望在存储和处理数据时丢失或损坏任何数据,但是当系
2018-12-20
Yarn Yarn
YARN的介绍Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它
2018-12-19
HDFS高级功能 HDFS高级功能
安全模式安全模式是HDFS所处的一种特殊状态,在这种状态下,文件系统只接受读数据请求,而不接受删除、修改等变更请求。在NameNode主节点启动时,HDFS首先进入安全模式,DataNode在启动的时候会向namenode汇报可用的bloc
2018-12-19
HDFS的操作SHELL和API HDFS的操作SHELL和API
WEB WEB端口50090查看SecondaryNameNode信息。可以查看Hadoop的版本,NameNode的IP,Checkpoint等信息。 WEB端口50070可以查看HDFS的信息和目录结构 SHELL查看
2018-12-18
Hadoop分布式文件系统HDFS Hadoop分布式文件系统HDFS
HDFSHDFS是 Hadoop Distribute File System的缩写,是谷歌GFS分布式文件系统的开源实现,Apache Hadoop的一个子项目,HDFS基于流数据访问模式的分布式文件系统,支持海量数据的存储,允许用户将百
2018-12-17
Hadoop简介与分布式安装 Hadoop简介与分布式安装
Hadoop简介Hadoop 是Apache Lucene创始人道格·卡丁(Doug Cutting)创建的,Lucene是一个应用广泛的文本搜索库,Hadoop起源于开源网络搜索引擎Apache Nutch,后者是Lucene项目的一部分
2018-12-17
Hive Hive
Hive 简介hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的
2018-12-03
Flume架构 Flume架构
Flume 介绍 Flume是由cloudera软件公司产出的高可用、高可靠、分布式的海量日志收集系统、聚合和传输的系统、于2009年被捐赠了apache软件基金会,为Hadoop相关组件之一。Flume初始发行版本目前统称为Flume O
2018-11-16
Kafka深度解析 Kafka深度解析
分区模型Kafka集群向多个消息代理服务器(brokerserver)组成,发布至Kafka集群的每条消息都有一个类别,用主题(topic)来表示。不同类型的数据,可以设置不同的主题。一个主题一般会有多个消息的订阅者,当生产者发布消息到某个
2018-11-16
7 / 8