网站排名seo培训,金融代理平台代理加盟,网站服务器 同步备份,wordpress 首页显示标题文章目录 前言常见内容主题领域数据类型元数据引用数据主数据交易数据 数据类型的特点数据类型之间的关系GIGO数据质量评估 数据质量管理数据治理数据安全 前言
数据管理#xff0c;即对数据资源的管理。按照 DAMA #xff08;国际数据管理协会#xff09;的定义#xff1… 文章目录 前言常见内容主题领域数据类型元数据引用数据主数据交易数据 数据类型的特点数据类型之间的关系GIGO数据质量评估 数据质量管理数据治理数据安全 前言
数据管理即对数据资源的管理。按照 DAMA 国际数据管理协会的定义「数据资源管理致力于发展处理企业数据生命周期的适当的建构、策略、实践和程序。」这是一个高层而包含广泛的定义而并不一定直接涉及数据管理的具体操作如关系数据库的技术层次上的管理。
常见内容
数据管理最常见的有以下内容
数据分析数据建模数据库管理数据仓库数据挖掘数据安全数据集成数据移动数据质量保证元数据管理数据存储库及其管理战略数据架构
主题领域
根据 DAMA DMBOK [DAMA International Guide to Data Management Body of Knowledge (DAMA DMBOK ®)] 的划分数据管理的领域包含以下部分
数据治理数据资产数据管治数据架构、数据模型分析和设计数据架构数据分析数据建模数据库管理数据维护数据库管理数据库管理系统数据安全管理数据访问管理数据擦除管理数据隐私数据安全数据质量管理数据清晰数据完整性数据浓缩数据质量数据质量保证参考和主数据管理数据集成主数据管理参考数据数据仓库和商业智能化管理 商业智能数据集市数据挖掘数据移动萃取、 转换和加载数据仓库文档、记录和内容管理文件管理系统DMS,记录管理元数据管理元数据管理元数据发现元数据发布元数据注册联系人数据管理业务连续性规划市场运营客户数据集成身份管理身份信息窃取数据被盗ERP 软件客户关系管理软件地址 (地理)邮编Email 地址电话号码
数据类型
我们可以综合数据的描述层次、业务流向、用途等将数据分为以下几个类型
元数据 Metadata引用数据Reference Data主数据Master Data交易数据Transactional Data
元数据
元数据Meta Data是用来描述数据的数据Data that describes other data或者说是用于提供某种资源的有关信息的结构数据structured data。
元数据是描述信息资源或数据等对象的数据其使用目的在于识别资源评价资源追踪资源在使用过程中的变化实现简单高效地管理大量网络化数据实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理。
常见的元数据如
图书编目信息照片的 EXIF 信息报名信息表豆瓣电影信息
引用数据
引用数据Reference Data又叫参考数据它来做一些普遍的定义描述数据范围、意义。它标示元数据的可能取值范围我们设计表时所说的数据字典往往就是引用数据。比如性别只能是男和女男和女就是引用数据国家的引用数据就是世界上这100多个国家和地区。
常见的引用数据如
性别男、女、其他订单状态商品尺码、颜色、操作系统视频的发布状态
主数据
主数据Master Data指的是业务实体比如用户、商品、订单、购物车、文章、视频等。主数据用于跨部门、跨系统的信息交互。
主数据的目标一是为业务实体建模或者说业务实体包含哪些属性和行为二是确保在不同系统中业务实体数据的一致性。
常见的主数据如
电商中的商品信息、用户信息新闻网站的新闻视频网站中的视频、播主B2B 中的商家外卖平台中的店
交易数据
交易数据Transactional Data指主数据之间活动产生的数据。比如客户购买产品的交易记录就是交易活动数据用户对一个播主进行了关注、打赏也是交易数据。
常见的交易数据如
电商下单产生的订单、支付直播平台中用户对主播点赞、刷礼物社交网站中用户关注行为IM 工具用户发布的聊天信息、公众信息关系与特点
数据类型的特点
通过以下几个维度来评估
数据量、更新频率引用数据 元数据 主数据 交易数据生命周期、数据质量引用数据 元数据 主数据 交易数据
数据类型之间的关系
典型有情况下
元数据、主数据、交易数据都会用到引用数据主数据会包含元数据交易数据是主数据之间的行为
GIGO
垃圾进垃圾出英语Garbage in, garbage out缩写GIGO或译为废料进废品出wiki是计算机科学与信息通信技术领域的一句习语说明了如果将错误的、无意义的数据输入计算机系统计算机自然也一定会输出错误、无意义的结果。同样的原则在计算机外的其他领域也有体现。
在统计学中如果分析的原始数据是错误的、不准确的那么统计的结论也就是不可信的。
数据质量评估
避免 GIGO 等问题4个角度评估数据质量
完整性主要包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面准确性一个数据值与设定为准确的值之间的一致程度或与可接受程度之间的差异合理性主要包括格式、类型、值域和业务规则的合理有效一致性系统之间的数据差异和相互矛盾的一致性业务指标统一定义数据逻辑加工结果一致性及时性数据仓库ETL、应用展现的及时和快速性Jobs运行耗时、运行质量、依赖运行及时性。
数据质量管理
数据质量功能模块设计的主要包括监控对象管理、检核指标管理、数据质量过程监控、问题跟踪管理、推荐优化管理、知识库管理及系统管理等。其中过程监控包括离线数据监控、实时数据监控问题跟踪处理由问题发现支持自动检核、人工录入、问题提报、任务推送、故障定级、故障处理、知识库沉淀等形成闭环流程。
数据治理
DAMA将数据治理的定义为数据治理是对数据资产管理行使权力和控制的活动集合规划、监控和执行数据治理职能指导其他数据管理职能如何执行。这个定义看上去有点虚。我理解的数据治理其实就是优先级管理流程管理。优先级管理指的是我们需要对数据管理各个问题优先级排序。流程管理是人、角色和责任也就是谁是什么角色负责什么问题。比如说当出现数据缺失的问题时这个问题的优先级排序怎么样谁来解决这个问题。
数据安全
我们经常可以在网上看到某某站点用户数据泄露的消息。更有甚者将数据库的连接信息直接保存到了github上导致数据库被人复制。这些都是数据安全工作没做到位造成的。我个人认为数据安全从技术和制度方面着手。在技术方面要确保数据存储、传输、应用、备份过程中的数据安全防止数据泄露。在制度方面要建立完善的数据访问控制和权限管理机制。