镇江网站推广排名,搭建网站要用到的工具,技术先进的网站建,wordpress 内容付费前言#xff1a;2022年3月 31 日#xff0c;阿里云全球数据湖峰会上#xff0c;阿里云从“湖管理、湖存储和湖计算“这三个方面#xff0c;为观众带来了“数据湖 3.0” 的重磅升级方案。在时隔两百多天的云栖大会上#xff0c;阿里云存储对数据湖的能力#xff0c;进行了…前言2022年3月 31 日阿里云全球数据湖峰会上阿里云从“湖管理、湖存储和湖计算“这三个方面为观众带来了“数据湖 3.0” 的重磅升级方案。在时隔两百多天的云栖大会上阿里云存储对数据湖的能力进行了再次升级。 数据湖是以集中方式存储各种类型数据提供弹性的容量和吞吐能力能够覆盖广泛的数据源支持多种计算与处理分析引擎直接对数据进行访问的统一存储平台。能够实现数据分析、机器学习数据访问和管理等细粒度的授权、审计等功能。 越来越多企业选择数据湖作为企业数据存储、管理的解决方案。同时数据湖的应用场景也在不断发展各行各业都在云上构建数据湖从一开始的简单分析到互联网搜索推广和深度分析以及近两年大规模的AI训练都是基于数据湖架构进行的。 一、存算分离数据冷热智能分层 目前有很多阿里云客户的云上数据湖规模已经超过了100PB所以可以预见基于数据湖的数据分析架构是一个不可阻挡的未来发展趋势。那么为什么会需要这样的架构呢 阿里巴巴集团研究员、阿里云智能资深产品总监Alex Chen认为究其原因是因为企业无时无刻地不在产生数据这些数据需要进行分析才能激活它的价值。数据分析可以分为实时性分析和探索性分析。实时性分析是用已知数据回答已知问题探索性分析是用已知数据回答未知问题所以需要预先把数据都保存下来这无疑会增加许多存储费用。 为了压缩存储成本阿里云选择了存算分离架构这种架构提供了独立的扩展性。客户可以做到数据入湖计算引擎按需扩容这样的解耦方式会得到更高的性价比。阿里云对象存储OSS是数据湖的统一存储层可对接各类业务应用、计算分析平台。 在云栖大会上阿里云存储正式发布了对象存储OSS的深度冷归档类型价格仅为0.0075元/GB/月是业界最低成本的云存储类型。选用基于最后一次访问时间的生命周期规则可实现由服务端根据最后访问时间来自动识别冷热数据并实现数据分层存储。即使一个桶Bucket里面有多个对象Object也可以根据最后一次修改时间或者访问时间对于每个对象每个文件去做生命周期管理。 对象存储OSS的归档或冷归档类型的Object需要解冻Restore之后才能读取。归档类型Object解冻完成通常需要数分钟冷归档类型Object根据不同解冻优先级解冻完成通常需要数小时这给一些用户带来了很大的困扰。 为了让用户可以直接读取归档/冷归档存储对象存储OSS新增归档直读能力数据无需解冻直接访问。同时采用数据生命周期管理策略和OSS深度冷归档类型降本增效可以让整个数据湖成本降低95%。 二、多协议兼容一份数据支持多种应用 随着AI、IoT、云原生技术的发展对于非结构化数据处理的需求越来越强烈。使用云上对象存储作为统一存储的趋势越来越明显。Hadoop的体系也逐渐由HDFS为统一存储发展为云上像S3、OSS这样的云存储作为统一存储的数据湖体系。现在数据湖已经进入3.0 时代。在存储上以对象存储为中心实现了多协议全兼容、统一元数据管理在管理上面向湖存储计算的一站式湖构建和管理做到智能“建湖”和“治湖”。 阿里云智能资深产品专家彭亚雄指出数据湖3.0架构下提供了全兼容的HDFS服务化能力用户不再需要搭建元数据管理集群轻松实现自建HDFS向数据湖架构迁移。同时原生具备多协议的接入能力及多种元数据的统一管理实现HDFS与对象存储底层的无缝融合让数据在多种生态间高效统一流入、管理、使用帮助用户加速业务创新。100Gbps/PB的读写能力可以进一步提升数据处理效率。 数据分析架构的引擎是在不断迭代的在AI、自动驾驶场景中需要让一份数据被多种应用共享。对象存储OSS作为云上数据湖的统一存储底座提供低成本、可靠的海量数据存储能力。文件存储CPFS与对象存储OSS实现了深度集成当需要进行推理、仿真这种高性能运算时通过CPFS可实现对OSS中数据的快速访问和分析做到数据按需流动和block级别的Lazyload延迟加载。 此外文件存储CPFS支持通过POSIX客户端或NFS客户端两种方式挂载访问文件系统同时支持通过这两种客户端互相访问让海量小文件访问起来毫无压力。 三、云上云下互通业务敏捷创新 随着云计算的蓬勃发展越来越多的IT系统基础设施转移到云上数据正在远离企业数据中心。据统计80%的数据产生在数据中心之外。这个时候企业数据可以通过RESTful API或者HTTP、VPN的方法来传输到自己的数据中心也可以传到云上。 构建企业数据湖的时候可以首先使用数据湖构建DLF来完成数据的入湖和元数据的管理然后通过日志服务SLS将全球数据实时投递到数据湖中的OSS再充分发挥OSS的能力实现数据的冷热分层从而使整体的数据湖方案能够达到降本增效的目的。 为了便于管理数据云上和本地数据中心不仅需要统一的命名空间还需要数据互通。在数据互通的情况可以把算力随时从线下调到云上按需分配。当然实现这些的前提是传统应用和新兴应用如IOT、BigData、AI的数据可以融合在一起。通过混合云IT架构无缝上云已成为企业应用的新常态混合云存储将成为架起本地数据中心和公共云的桥梁也已经成为数据湖整体方案不可或缺的部分。 数据湖是面向未来的大数据架构。只有做到文件对象融会贯通、冷热数据智能分层、云上云下数据互通的数据湖才是拥有广阔前景的数据湖。目前阿里云3.0数据湖解决方案已经在互联网、金融、教育、游戏等技术前沿领域落地在人工智能、物联网、自动驾驶等拥有海量数据场景的行业得到了广泛应用。未来阿里云希望同伙伴一起将云原生数据湖渗透到千行百业推动更多企业实现数字创新。
原文链接
本文为阿里云原创内容未经允许不得转载。