做网站推广 seo的,移动端英文简称,wordpress 优化配置,海口网站制作价格什么是Hadoop#xff1a; Hadoop是一种用Java编写的框架#xff0c;用于在大型商品硬件集群上运行应用程序#xff0c;并具有类似于Google File System和MapReduce的功能 。 HDFS是高度容错的分布式文件系统#xff0c;与Hadoop一样#xff0c;旨在部署在低成本硬件上。 它… 什么是Hadoop Hadoop是一种用Java编写的框架用于在大型商品硬件集群上运行应用程序并具有类似于Google File System和MapReduce的功能 。 HDFS是高度容错的分布式文件系统与Hadoop一样旨在部署在低成本硬件上。 它提供对应用程序数据的高吞吐量访问并且适用于具有大数据集的应用程序。 谁使用Hadoop Hadoop主要由处理大量数据的公司使用。 他们可能需要处理数据 执行分析或生成报告 。 当前所有领先的组织包括FacebookYahooAmazonIBMJoostPowerSetNew York TimesVeoh等都在使用Hadoop。 有关更多信息请查看PoweredBy Hadoop页面 。 为什么选择Hadoop MapReduce是Google的秘密武器一种将复杂的问题分解并散布到许多计算机上的方法。 Hadoop是MapReduce及其自己的文件系统HDFSHadoop分布式文件系统的开源实现。 Hadoop在某种程度上击败了超级计算机 Hadoop集群在209秒内对1 TB的数据进行了排序在年度通用daytonaTB的基准测试中打破了之前297秒的记录。 排序基准由Jim Gray于1998年创建它指定了输入数据100亿条100字节记录这些数据必须完全排序并写入磁盘。 这是Java或开放源代码程序的首次获奖。 有关更多信息 请单击此处 。 欧洲最大的广告定位平台使用Hadoop 欧洲最大的广告公司每天可获得超过100GB的数据现在使用RDBMS等经典解决方案需要5天的时间进行分析并生成报告。 因此他们落后1个弱点。 经过大量研究他们开始使用hadoop。 现在有趣的事实是“ Tey能够在1小时内处理数据并生成报告”这就是Hadoop的魅力所在。 有关更多信息 请单击此处 。 Hadoop的主要发行版 1. Apache Hadoop Apache Hadoop项目开发了用于可靠可扩展的分布式计算的开源软件。 Apache Hadoop提供 Hadoop Common 支持其他Hadoop子项目的通用实用程序。 HDFS 一种分布式文件系统可提供对应用程序数据的高吞吐量访问。 MapReduce 一个用于在计算集群上对大型数据集进行分布式处理的软件框架。 Avro 数据序列化系统。 Chukwa 用于管理大型分布式系统的数据收集系统。 HBase 可扩展的分布式数据库支持大型表的结构化数据存储。 Hive 一种数据仓库基础结构可提供数据汇总和即席查询。 Mahout 可扩展的机器学习和数据挖掘库。 Pig 用于并行计算的高级数据流语言和执行框架。 ZooKeeper 针对分布式应用程序的高性能协调服务。 2. Cloudera Hadoop Cloudera的Apache Hadoop发行版CDH为基于Hadoop的数据管理平台设定了新标准。 它是当今可用的最全面的平台可显着加速组织中Apache Hadoop的部署。 CDH基于Apache Hadoop的最新稳定版本。 它包括一些从将来发行版反向移植的有用补丁以及我们为客户开发的改进 Cloudera Hadoop提供 HDFS –自愈式分布式文件系统 MapReduce –强大的并行数据处理框架 Hadoop Common –一组支持Hadoop子项目的实用程序 HBase – Hadoop数据库用于随机读写访问 Hive –大型数据集上类似SQL的查询和表 Pig –数据流语言和编译器 Oozie –相互依赖的Hadoop作业的工作流程 Sqoop –将数据库和数据仓库与Hadoop集成 Flume –高度可靠可配置的流数据收集 Zookeeper –分布式应用程序的协调服务 Hue –用于可视Hadoop应用程序的用户界面框架和SDK Hadoop体系结构 Hadoop分布式文件系统HDFS是一种旨在在商品硬件上运行的分布式文件系统。 它与现有的分布式文件系统有许多相似之处。 但是与其他分布式文件系统的区别很明显。 HDFS具有高度的容错能力旨在部署在低成本硬件上。 HDFS提供对应用程序数据的高吞吐量访问并且适用于具有大数据集的应用程序。 HDFS放宽了一些POSIX要求以实现对文件系统数据的流式访问。 名称节点 NameNode管理名称空间文件系统元数据和访问控制。 每个群集中只有一个NameNode。 我们可以说NameNode是主节点数据节点是从节点。 它包含有关数据即元数据的所有信息 数据节点 DataNode保存实际的文件系统数据。 每个数据节点管理其自己的本地连接的存储即节点的硬盘并在文件系统中存储一些或所有块的副本。 每个群集中有一个或多个DataNode。 安装/部署Hadoop Hadoop可以三种方式安装 1.独立模式 要以独立模式部署Hadoop我们只需要设置JAVA_HOME的路径即可。 在这种模式下不需要启动守护程序也不需要名称节点格式因为数据保存在本地磁盘中。 2.伪分布式模式 在这种模式下所有守护程序nameNodedataNodesecondaryNameNodejobTrackertaskTracker都在一台机器上运行。 在此模式下守护程序nameNodejobTrackersecondaryNameNode可选在主服务器NameNode上运行守护程序dataNode和taskTracker在从属服务器DataNode上运行。 请继续关注有关三种Hadoop模式/配置的文章。 相关文章 MapReduce简单介绍 Cajo用Java完成分布式计算的最简单方法 Hibernate映射集合性能问题 Java Code Geeks Andygene Web原型 Servlet 3.0异步处理可将服务器吞吐量提高十倍 参考通过高性能计算博客上的 JCG合作伙伴 了解什么是Hadoop 。 翻译自: https://www.javacodegeeks.com/2011/05/hadoop-soft-introduction.html