免费做网站哪里有,手机网站设置方法,网站开发有几种语言,常州网站建设报价kafka spark让我们玩得开心。 这是新的一年的开始-我们正处于新事物的门槛上-因此让我们期待您在2016年可能会做的事情。现在我知道做出预测的风险#xff0c;尤其是有记录的预测#xff0c;但是我很高兴您能在一年后回访#xff0c;看看我对2016年的预测是如何完成的。 您… kafka spark 让我们玩得开心。 这是新的一年的开始-我们正处于新事物的门槛上-因此让我们期待您在2016年可能会做的事情。现在我知道做出预测的风险尤其是有记录的预测但是我很高兴您能在一年后回访看看我对2016年的预测是如何完成的。 您在2016年会做什么 在我做出2016年预测之前首先要更普遍有趣地思考推测未来的挑战。 我们是否根据数据和模型进行工作 从观察和预感 请记住描述未来的准确性部分取决于目标的未来时间。 传统上遥远地预测人们的生活将会是未来。 有时它们是准确的更经常是滑稽的错误。 回顾未来应该是一种娱乐我称之为“记住未来”。 例如2000年引起了人们多年的想像力。 我偶然发现了1900年发表在《 女士之家杂志》上的一篇文章其中对我们2000年的生活做出了预测。在大致正确的预测中有汽车将大量涌现的情况照片可以从遥远的国家电报它们可以在一小时内在报纸上印制出来包括领土在内的美国人口将超过3.5亿2000年人口普查使美国人口为2.82亿有点短。 预测不会有更多的苍蝇或蚊子城市中的交通将在地下或高架上因此城市将“没有噪音”而我们将不再使用字母CX或Q 。 未来并没有如前所述部分原因是我们经常以与预期不同的方式解决相同的问题今天高速公路上的城市交通被分流了但是-不能消除噪音。 而且我们不是依靠“发射”某些辅音来规范拼写而是依靠自动拼写纠正系统有时会产生可笑的结果。 返回大数据 Ted Dunning在那个城市的Strata Hadoop World会议的一周期间在新加坡大数据聚会上关于当前和未来大数据趋势的生动演讲中提出了“记住未来”的主题。 另一位演讲者Hadoop创始人道格·切特Doug Cutting也提出了关于大数据系统在不久的将来走向何处的想法。 Doug谈到了Hadoop生态系统的发展特别是在分析方面。 在许多情况下基于批处理的计算已被内存中的微批处理计算能力所取代因此对Apache Spark的兴趣日益广泛。 泰德Ted最初以文化趋势招待人们但并未像预期的那样成功然后他描述了一个成功的具有前瞻性的大数据项目-这是19世纪的开源项目该项目很好地利用了海洋和风的数据来构建航行航海图。 跳到了今天Ted解释了当前大数据趋向于简化机器学习项目以使其具有实用价值的趋势。 Ted还谈到了需要更简化的方式来处理复杂数据以避免必须建立数百个表的情况传统关系系统就是如此他展示了在这种情况下利用SQL引擎Apache Drill的灵活性的优势。 2016年的六大预测 受描述大数据趋势的其他人的启发现在我伸出我的脖子对自己在2016年的工作做出自己的预测纯观点。毕竟这只是未来一年的事情…… 流数据 我有信心在整个2016年对流数据和流分析产生爆炸性的兴趣。 流数据将以比以前更多的方式和新的方式被更多的组织使用。 物联网传感器数据量的增加只是流数据的来源之一。 一系列事件例如来自Web流量的点击流数据或机器日志文件将越来越多地使用Apache Spark的近实时处理或使用更新的工具Apache Flink进行的实时分析来作为流进行分析。 重大转变之一将是以不同的方式来考虑最能支持这些应用程序的体系结构 消息队列将成为设计这些系统的中心焦点。 消息传递层将不仅仅是流分析程序的工作流中的安全缓冲区。 正确完成后消息队列将成为可重播不变的持久日志为多个主服务器例如实时分析应用程序数据库或搜索文档提供服务。 基于这些原因我预计将大大增加使用已经流行的消息传递工具Apache Kafka并对新的MapR Streams产生浓厚的兴趣 MapR Streams是一种支持Kafka API的集成消息传递技术。 缩短实现价值的时间 企业需要实用的方法来更快地实现价值因此如果您的企业需要SQL 我相信您可能会在2016年尝试Apache Drill 。 随着发布次数的增加Drill的功能不断扩展但它已经是使用标准SQL的高性能高可伸缩性和极其灵活的查询引擎。 这对于来自传统背景的大数据用户以及Hadoop和NoSQL世界的资深人士来说同样具有吸引力他们希望查询引擎能够轻松处理各种各样的非结构化和嵌套数据类型例如JSON和Parquet。 Drill的特性也许最有可能让您尝试使用它而它几乎不需要准备就可以查询数据这可以减少从数据获取见解所需的时间或数天。 在开始查询之前只需花费较少的时间借助Drill您就可以根据从第一个查询中学到的知识快速构建第二个查询。 更快的开发更快的洞察力更短的价值实现时间。 集权 人们越来越多地将大数据平台视为他们整个组织的中心部分而不是一个特殊目的的项目。 大数据平台例如基于Hadoop和NoSQL的系统将需要轻松地连接到传统技术例如企业数据仓库关系数据库或BI工具。 对于全球组织而言集中化的一个矛盾的方面是需要在全球范围内分发数据。 您组织的不同部门需要访问统一的数据集。 在分解地理位置不同的中心内或中心之间不必要的孤岛时您将要避免传播延迟。 可能存在法律问题需要对数据进行本地化。 由于这些原因我预测许多组织将希望使用一种具有安全可靠方法的系统来维护可以快速同步的多个数据中心。 专题医疗保健 我认为医疗保健行业中大数据的使用有望在2016年实现快速扩展。人们认识到使用数据来减少欺诈并通过使用电子病历机器的长期维护记录来改善医疗保健的力量。 以及传感器信息流。 对于这些用例而言出色的数据安全性和治理当然很重要。 专题电信 电信将在2016年在大数据领域中脱颖而出的另一个领域。 电信公司已经有很好的大数据用例将ETL的压力转移到Hadoop同时维持企业仓库的复杂账单 对进出基站的数据进行异常检测以发现并快速响应突然的使用变化并在通话中断后采用实时分析来快速响应用户以改善体验并减少用户流失。 流数据架构和技术如上所述的扩展将使电信受益。 但是即使您自己不使用电信这种特殊情况也可能会影响您。 越来越多的非电话应用正在利用电信网络。 例如汽车中的传感器经常通过电信网络发送数据。 综上所述我预计您可能会在2016年将高级电信与大数据结合起来。 最好的预测你会让我惊讶 我对2016年的最佳预测是您将想出一些创新的方法来使用尚未发生的大数据。 也许它将以新颖的方式解决我已经知道的问题。 也许这将是全新的东西。 无论哪种方式到2017年1月我都会“记住未来”即使我的其他五个预测都是准确的我也会为新事物感到惊讶。 其他资源 对于作者的相关内容请参见以下免费资源 实用机器学习异常检测的新视角 真实世界的Hadoop OReilly Radar博客上有关Apache Drill的文章 翻译自: https://www.javacodegeeks.com/2016/01/will-2016-apache-spark-kafka-drill.htmlkafka spark