学生做网站的工作室,西安网络优化大的公司,桃子网站,wordpress 守望轩1.HDFS简介
1.1 Hadoop Distributed File System#xff0c;简称HDFS。解决海量数据的分布式存储。
1.2 分布式文件系统 计算机集群中内部机器通过光纤高速交换机进行连接#xff0c;机架之间通过宽带更高的光纤交换机连接。 有一个主节点机器其他的为从节点机器#xff…1.HDFS简介
1.1 Hadoop Distributed File System简称HDFS。解决海量数据的分布式存储。
1.2 分布式文件系统 计算机集群中内部机器通过光纤高速交换机进行连接机架之间通过宽带更高的光纤交换机连接。 有一个主节点机器其他的为从节点机器主节点承担数据目录(元数据)服务从节点负责具体的数据存储任务。 1.3 HDFS实现目标 兼容廉价的硬件设备 实现流数据读写批量读取全部数据或大部分数据。 支持大数据集 支持简单的文件模型 强大的跨平台特性
1.4 HDFS自身的局限性
不适合低延迟数据访问无法高效存储大量小文件:HDFS是通过元数据来指引客户端到节点寻找相关数据文件一个文件被切分存到不同节点。元数据被保存在NameNode节点HDFS会建立一个碎银数据结构小文件多则索引数据结果变得复杂查询效率变低。不支持多用户写入及任意修改文件只允许追加不允许修改。
2.HDFS相关概念
2.1 块的概念HDFS中核心概念分摊磁盘的读写开销(在大量数据间分摊磁盘寻址开销)比普通的文件系统块要大得多默认为64M。如果块过大MapReduce执行任务的并行度降低。
2.2 HDFS块设计的优点
支持大规模文件存储对较大数据进行分割使其可以分布存储在某些节点(不分的话单机存不下)。简化系统设计适合数据备份
2.3 HDFS两大组件 名称节点整个HDFS集群的管家有数据目录。 元数据包括数据分割的份数块与文件的映射关系、块的存储位置等信息。 FsImage保存系统文件树以及文件树中所有文件和文件夹中的元数据。是存储相关元数据的包括文件的复制等级、修改访问时间、访问权限、块大小以及组成的文件的块。 EditLog记录对数据进行的诸如创建、删除、重命名等操作。 数据节点存储实际数据。 从节点向主节点汇报自己存储的数据块主节点生成一个数据清单。 如何避免EditLog的不断增大 SecondaryNode名称节点的冷备份也负责对EditLog的维护处理定期与主节点通信在某个阶段会请求名称节点停止使用EditLog文件名称节点停止使用EditLog而生成一个新的edits.new,将又生成的EditLog文件更新写到edits.new中去第二名称节点通过Http Get方式从名称节点上把FsImage和旧的EditLog下载到本地然后合并得到新的FsImage文件然后发送个名称节点然后名称节点把edits.new更改为EditLog。
3.HDFS体系结构
3.1 数据访问
3.2 HDFS 命名空间 3.3 使用的通信协议
3.4 HDFS局限性
命名空间限制名称结点是保存在内存中的因此名称结点能够容纳的对象的个数会受到空间大小的限制。性能瓶颈整个分布式文件的吞吐量受限于单个名称结点的吐吞量。隔离问题由于集群中只有一个名称结点只有一个命名空间因此无法对不同应用程序进行隔离。具有单点故障第二名称结点是冷备份后来2.0版本有所改进。
4.HDFS存储原理 数据冗余保存每个块都被冗余保存(默认3份). 优点加速数据传输速度。多机器访问一个数据时。 很容易检查数据错误。 保证数据可靠性。自动复制生成新的副本保证正确的副本数量。 存储策略一个块生成副本第一个副本存储在上传数据的结点。外部结点若向集群写入数据则一个块的副本集群会随机挑选一个磁盘不太满CPU不太忙的结点存储块的第一个副本第二副本放在和第一个机架不同的结点上第三个副本放在和第一个副本相同的机架的不同结点上。 读取策略HDFS提供的一个API可以确定一个数据结点所属的机架ID。获取数据根据客户端的机架ID和数据副本的机架ID选择最近的数据副本读取数据。否则的话就随机选择结点。 数据的错误与恢复 名称结点出错热备份则直接启动第二名称结点。 DateNode出错通过该节点的数据的其他副本复制该节点的所有数据放到其他结点。 数据本身出错校验码,数据创建时生成校验码并和数据放在同一目录下。读到数据时计算其校验码与源校验码对比看是否出错。
5.HDFS编程-数据读写 Hadoop中的一个通用文件系统的抽象基类FileSystem如下继承其的子类。 DistributedFileSystem数据的读写open/read/close FSDateInputStreamDFSInputStream hadoop.conf.Configuration Configuration confnew Configuration();会通过构造函数加载hdfs-site.xml和core-site.xml文件获取相关配置信息。 数据读取流程
6.HDFS编程实践 hadoop fs ls :显示文件详细信息mkdir创建相关文件夹cat指定文件内容输出到标准输出。 本地文件复制到HDFS系统 hadoop fs -cp 本地目录 HDFS路径 利用Java API与HDFS交互需要加载hadoop开发的jar包一般位于/usr/local/hadoop/share/hadoop目录下需要将其导入编辑器Eclipse中。选择属性—Java Build Path—Libraries—Add External JARS。 需要将配置的两个文件core-site.xml和hdfs-site.xml复制到Java工程目录下的bin目录下否则后面运行会出错。 基本编程结构测试某文件是否存在。
import org.apache.hadoop.conf.Configuration;//管理相关配置文件
import org.apache.hadoop.fs.FileSystem; //文件相关的基类
import org.apache.hadoop.fs.Path; //路径类public class Chap
{try{String filenamehdfs://localhost:9000/user/hadoop/test.txt;Configuration conf new Configuration();FileSystem fsFileSystem.get(conf);if(fs.exists(new Path(filename))){System.out.println(文件存在);}else{System.out.println(文件不存在);}}catch(Exception e){e.printStackTrace();}
}