网站跟域名是什么关系,阿里云虚拟主机购买,六安招聘网,seo学徒是做什么前些天发现了一个巨牛的人工智能学习网站#xff0c;通俗易懂#xff0c;风趣幽默#xff0c;忍不住分享一下给大家。点击跳转到教程。
如果你已经按照《写给大数据开发初学者的话2》中第三章和第四章的流程认真完整的走了一遍#xff0c;那么你应该已经具备以下技能和知识…前些天发现了一个巨牛的人工智能学习网站通俗易懂风趣幽默忍不住分享一下给大家。点击跳转到教程。
如果你已经按照《写给大数据开发初学者的话2》中第三章和第四章的流程认真完整的走了一遍那么你应该已经具备以下技能和知识点
知道如何把已有的数据采集到HDFS上包括离线采集和实时采集你已经知道sqoop或者还有DataX是HDFS和其他数据源之间的数据交换工具你已经知道flume可以用作实时的日志采集
从前面的学习对于大数据平台你已经掌握的不少的知识和技能搭建Hadoop集群
把数据采集到Hadoop上使用Hive和MapReduce来分析数据把分析结果同步到其他数据源。
接下来的问题来了Hive使用的越来越多你会发现很多不爽的地方特别是速度慢
大多情况下明明我的数据量很小它都要申请资源启动MapReduce来执行。
第五章快一点吧我的SQL
其实大家都已经发现Hive后台使用MapReduce作为执行引擎实在是有点慢。
因此SQL On Hadoop的框架越来越多按我的了解最常用的按照流行度依次为SparkSQL、Impala和Presto.
这三种框架基于半内存或者全内存提供了SQL接口来快速查询分析Hadoop上的数据。关于三者的比较请参考1.1.
我们目前使用的是SparkSQL至于为什么用SparkSQL原因大概有以下吧
使用Spark还做了其他事情不想引入过多的框架Impala对内存的需求太大没有过多资源部署
5.1 关于Spark和SparkSQL
什么是Spark什么是SparkSQL。 Spark有的核心概念及名词解释。 SparkSQL和Spark是什么关系SparkSQL和Hive是什么关系。 SparkSQL为什么比Hive跑的快。
5.2 如何部署和运行SparkSQL
Spark有哪些部署模式 如何在Yarn上运行SparkSQL 使用SparkSQL查询Hive中的表。
PS: Spark不是一门短时间内就能掌握的技术因此建议在了解了Spark之后可以先从SparkSQL入手循序渐进。
关于Spark和SparkSQL可参考 http://lxw1234.com/archives/category/spark 第六章一夫多妻制
请不要被这个名字所诱惑。其实我想说的是数据的一次采集、多次消费。
在实际业务场景下特别是对于一些监控日志想即时的从日志中了解一些指标关于实时计算后面章节会有介绍这时候从HDFS上分析就太慢了尽管是通过Flume采集的但Flume也不能间隔很短就往HDFS上滚动文件这样会导致小文件特别多。
为了满足数据的一次采集、多次消费的需求这里要说的便是Kafka。
6.1 关于Kafka
什么是Kafka
Kafka的核心概念及名词解释。
6.2 如何部署和使用Kafka
使用单机部署Kafka并成功运行自带的生产者和消费者例子。 使用Java程序自己编写并运行生产者和消费者程序。 Flume和Kafka的集成使用Flume监控日志并将日志数据实时发送至Kafka。
关于Kafka可以参考 http://lxw1234.com/archives/category/kafka 这时使用Flume采集的数据不是直接到HDFS上而是先到KafkaKafka中的数据可以由多个消费者同时消费其中一个消费者就是将数据同步到HDFS。 写给大数据开发初学者的话1 写给大数据开发初学者的话2 第三章把别处的数据搞到Hadoop上
第四章把Hadoop上的数据搞到别处去
写给大数据开发初学者的话3
第五章快一点吧我的SQL
第六章一夫多妻制
写给大数据开发初学者的话4
第七章越来越多的分析任务
第八章我的数据要实时
写给大数据开发初学者的话5
第九章我的数据要对外
第十章牛逼高大上的机器学习