当前位置: 首页 > news >正文

兰山区建设局网站遵义市建设厅网站

兰山区建设局网站,遵义市建设厅网站,seo优化平台,福州公司建站来源#xff1a;数智化转型俱乐部 面对爆炸式增长的数据#xff0c;如何建设高效的数据模型和体系#xff0c;对这些数据进行有序和有结构地分类组织和存储#xff0c;避免重复建设和数据不一致性#xff0c;保证数据的规范性#xff0c;一直是大数据系统建设不断追求的…来源数智化转型俱乐部 面对爆炸式增长的数据如何建设高效的数据模型和体系对这些数据进行有序和有结构地分类组织和存储避免重复建设和数据不一致性保证数据的规范性一直是大数据系统建设不断追求的方向。 OneData即是阿里巴巴内部进行数据整合及管理的方法体系和工具。阿里巴巴的大数据工程师在这一体系下构建统一、规范、可共享的全域数据体系避免数据的冗余和重复建设规避数据烟囱和不一致性充分发挥阿里巴巴在大数据海量、多样性方面的独特优势。借助这一统一化数据整合及管理的方法体系我们构建了阿里巴巴的数据公共层并可以帮助相似的大数据项目快速落地实现。下面重点介绍OneData体系和实施方法论。 1定位及价值 阿里巴巴集团大数据建设方法论的核心是从业务架构设计到模型设计从数据研发到数据服务做到数据可管理、可追溯、可规避重复建设。目前阿里巴巴集团数据公共层团队已把这套方法论沉淀为产品以帮助数据PD、数据模型师和ETL工程师建设阿里的大数据。这一体系包含方法论以及相关产品。 建设统一的、规范化的数据接入层ODS和数据中间层DWD和DWS通过数据服务和数据产品完成服务于阿里巴巴的大数据系统建设即数据公共层建设。提供标准化的Standard、共享的Shared、数据服务Service能力降低数据互通成本释放计算、存储、人力等资源以消除业务和技术之痛。 2体系架构 体系架构如图。 业务板块由于阿里巴巴集团业务生态庞大所以根据业务的属性划分出几个相对独立的业务板块业务板块之间的指标或业务重叠性较小。如电商业务板块涵盖淘系、B2B系和AliExpress系等。 规范定义阿里数据业务庞大结合行业的数据仓库建设经验和阿里数据自身特点设计出的一套数据规范命名体系规范定义将会被用在模型设计中。后面章节将会详细说明。 模型设计以维度建模理论为基础基于维度建模总线架构构建一致性的维度和事实进行规范定义。同时在落地表模型时基于阿里自身业务特点设计出一套表规范命名体系。 3模型设计 模型设计指导理论阿里巴巴集团数据公共层设计理念遵循维度建模思想可参考Star Schema-The Complete Reference和The Data Warehouse Toolkit-The Definitive Guide to Dimensional Modeling。数据模型的维度设计主要以维度建模理论为基础基于维度数据模型总线架构构建一致性的维度和事实。 模型层次阿里巴巴的数据团队把表数据模型分为三层操作数据层ODS、公共维度模型层CDM和应用数据层ADS其中公共维度模型层包括明细数据层DWD和汇总数据层DWS。 操作数据层ODS把操作系统数据几乎无处理地存放在数据仓库系统中。 同步结构化数据增量或全量同步到MaxCompute。 结构化非结构化日志结构化处理并存储到MaxCompute。 累积历史、清洗根据数据业务需求及稽核和审计要求保存历史数据、清洗数据。 公共维度模型层CDM存放明细事实数据、维表数据及公共指标汇总数据其中明细事实数据、维表数据一般根据ODS层数据加工生成公共指标汇总数据一般根据维表数据和明细事实数据加工生成。 CDM层又细分为DWD层和DWS层分别是明细数据层和汇总数据层采用维度模型方法作为理论基础更多地采用一些维度退化手法将维度退化至事实表中减少事实表和维表的关联提高明细数据表的易用性同时在汇总数据层加强指标的维度退化采取更多的宽表化手段构建公共指标数据层提升公共指标的复用性减少重复加工。其主要功能如下。 组合相关和相似数据采用明细宽表复用关联计算减少数据扫描。 公共指标统一加工基于OneData体系构建命名规范、口径一致和算法统一的统计指标为上层数据产品、应用和服务提供公共指标建立逻辑汇总宽表。 建立一致性维度建立一致的数据分析维表降低数据计算口径、算法不统一的风险。 应用数据层ADS存放数据产品个性化的统计指标数据根据CDM层与ODS层加工生成。 个性化指标加工不公用性、复杂性指数型、比值型、排名型指标。 基于应用的数据组装大宽表集市、横表转纵表、趋势指标串。 阿里巴巴通过构建全域的公共层数据极大地控制了数据规模的增长趋势同时在整体的数据研发效率、成本节约、性能改进方面都有不错的效果。 数据调用服务优先使用公共维度模型层CDM数据当公共层没有数据时需评估是否需要创建公共层数据当不需要建设公用的公共层时方可直接使用操作数据层ODS数据。应用数据层ADS作为产品特有的个性化数据一般不对外提供数据服务但是ADS作为被服务方也需要遵守这个约定。 基本原则高内聚和低耦合——一个逻辑或者物理模型由哪些记录和字段组成应该遵循最基本的软件设计方法论的高内聚和低耦合原则。主要从数据业务特性和访问特性两个角度来考虑将业务相近或者相关、粒度相同的数据设计为一个逻辑或者物理模型将高概率同时访问的数据放一起将低概率同时访问的数据分开存储 核心模型与扩展模型分离——建立核心模型与扩展模型体系核心模型包括的字段支持常用的核心业务扩展模型包括的字段支持个性化或少量应用的需要不能让扩展模型的字段过度侵入核心模型以免破坏核心模型的架构简洁性与可维护性。 公共处理逻辑下沉及单一——越是底层公用的处理逻辑越应该在数据调度依赖的底层进行封装与实现不要让公用的处理逻辑暴露给应用层实现不要让公共逻辑多处同时存在。 成本与性能平衡——适当的数据冗余可换取查询和刷新性能不宜过度冗余与数据复制。 数据可回滚——处理逻辑不变在不同时间多次运行数据结果确定不变。 一致性——具有相同含义的字段在不同表中的命名必须相同必须使用规范定义中的名称。 命名清晰、可理解——表命名需清晰、一致表名需易于消费者理解和使用。 如何从具体的需求或项目转换为可实施的解决方案如何进行需求分析、架构设计、详细模型设计等则是模型实施过程中讨论的内容。下节会简单介绍业界常用的模型实施过程重点讲解阿里巴巴OneData模型设计理论及实施过程。注本书中出现的部分专有名词、专业术语、产品名称、软件项目名称、工具名称等是淘宝中国软件有限公司内部项目的惯用词语如与第三方名称雷同实属巧合。 原文链接 本文为阿里云原创内容未经允许不得转载。
http://www.yutouwan.com/news/332517/

相关文章:

  • 网站建设快速便宜个人注册域名和公司注册域名区别
  • 学网站制作企业微网站怎么做
  • 敦煌网的网站推广方式全国工程信息网
  • 公司网站开发怎么做网站设置手机版
  • 睢宁做网站二级网站建设思路
  • 地方门户网站推广方法有那些wordpress 音乐主题
  • 以前在线做预算的网站thinkphp仿wordpress
  • 怎样做网站全屏代码广州越秀区租房信息网
  • 良乡网站建设公司绵阳网站建设哪家好
  • 广州网站建设公司好吗北京装修公司怎么选
  • 最好的手机资源网站网站做几个域名比较好
  • 凡科做的网站能被收录吗电商网站开发前景
  • 网站页面相似度检测上海网站建设服务站霸网络
  • 多个网站优化怎么做互联网加盟
  • 宁波网站建设 泊浮科技河源市seo推广
  • 京东网站是刘强冬自己做的吗无锡网站建设收费
  • 湛江专业官网建站在线课程设计
  • 携程网站开发wordpress第一篇文章
  • 免费下载建筑图纸的网站百度app下载安装官方免费下载
  • .net如何做网站wordpress调用jssdk接口
  • 君和网站建设找人帮你做ppt的网站吗
  • wordpress制作小说站教程wordpress一键倒入微信
  • 用模板建商城购物网站网站建设与维护A卷答案
  • 淘宝网站c 设计怎么做的公司英文网站多少钱
  • 区块链开发工程师招聘登封做网站优化
  • 欢迎访问中国建设银行网站密码重置替代wordpress的软件
  • 上海松江网站建设公司photoshop教程
  • alexa排名什么意思网站推广排名优化多少钱
  • 中山智能设备网站建设seo网站制作优化
  • 仿一个网站要多少钱江西省赣州市地图