网站云空间和普通空间,山西省网站建设,dede怎么换网站页面,上海有多少家公司背景与目标 在数据仓库建设过程中#xff0c;数据安全扮演着重要角色#xff0c;因为隐私或敏感数据的泄露#xff0c;会对数据主体#xff08;客户#xff0c;员工和公司#xff09;的财产、名誉、人身安全、以及合法利益造成严重损害。因此我们需要严格控制对仓库中的数… 背景与目标 在数据仓库建设过程中数据安全扮演着重要角色因为隐私或敏感数据的泄露会对数据主体客户员工和公司的财产、名誉、人身安全、以及合法利益造成严重损害。因此我们需要严格控制对仓库中的数据访问即什么样的人员或者需求才可以访问到相关的数据。这就要求对数据本身的敏感程度进行安全级别划分。数据有了安全等级的划分才能更好管理对数据访问控制以此来保护好数据安全。 举个例子简单的说明下例如我们仓库中有一张关于注册用户的基本信息表User其中有手机号mobile昵称username两个字段。我们在划分数据安全层级的时将用户mobile的安全等级划分为L2要高于username的等级L1并规定只有访问权限达到L2的运营部门才能访问mobile字段。这样在公司各个部门需要访问注册用户基本信息表User时我们只需检查访问者是否来自运营部门如果是运营部可以访问mobile如果不是只能访问username信息了。这样就有效的防止用户手机号被不相关工作人员泄露出去同时也不影响查询用户username的需求。 但是往往在实际生产过程中应用场景会更加复杂仅靠类似这样的访问控制满足不了生产的需要还需要结合其它的途径而数据脱敏就是一种有效的方式既能满足日常生产的需要又能保护数据安全。 数据脱敏具体指对某些敏感信息通过脱敏规则进行数据的变形实现敏感隐私数据的可靠保护。这样可以使数据本身的安全等级降级就可以在开发、测试和其它非生产环境以及外包或云计算环境中安全地使用脱敏后的真实数据集。借助数据脱敏技术屏蔽敏感信息并使屏蔽的信息保留其原始数据格式和属性以确保应用程序可在使用脱敏数据的开发与测试过程中正常运行。 敏感数据梳理 在数据脱敏进行之前我们首先要确定哪些数据要作为脱敏的目标。我们根据美团特有的业务场景和数据安全级别划分绝密、高保密、保密、可公开四个级别 主要从“高保密”等级的敏感数据开始进行梳理。 这里我们把敏感数据分成四个维度进行梳理用户、商家、终端、公司。 从用户维度进行梳理可能有这些敏感字段如下手机号码、邮件地址、账号、地址、固定电话号码等信息此外个人隐私数据相关还有如种族、政治观点、宗教信仰、基因等从商家维度进行梳理合同签订人合同签订人电话等不排除全局敏感数据如商家团购品类等从用户终端维度进行梳理能够可能标识终端的唯一性字段如设备id。从公司角度进行梳理交易金额、代金卷密码、充值码等确定脱敏处理方法 梳理出了敏感数据字段我们接下来的工作就是如何根据特定的应用场景对敏感字段实施具体的脱敏处理方法。 常见的处理方法如下几种有 替换如统一将女性用户名替换为F这种方法更像“障眼法”对内部人员可以完全保持信息完整性但易破解。重排序号12345重排为54321按照一定的顺序进行打乱很像“替换” 可以在需要时方便还原信息但同样易破解。加密编号12345加密为23456安全程度取决于采用哪种加密算法一般根据实际情况而定。截断13811001111截断为138舍弃必要信息来保证数据的模糊性是比较常用的脱敏方法但往往对生产不够友好。掩码: 123456 - 1xxxx6保留了部分信息并且保证了信息的长度不变性对信息持有者更易辨别 如火车票上得身份信息。日期偏移取整20130520 12:30:45 - 20130520 12:00:00舍弃精度来保证原始数据的安全性一般此种方法可以保护数据的时间分布密度。但不管哪种手段都要基于不同的应用场景遵循下面两个原则 1remain meaningful for application logic(尽可能的为脱敏后的应用,保留脱敏前的有意义信息) 2sufficiently treated to avoid reverse engineer(最大程度上防止黑客进行破解) 以这次脱敏一个需求为例 美团一般的业务场景是这样的用户在网站上付款一笔团购单之后我们会将团购密码发到用户对应的手机号上。这个过程中从用户的角度来看团购密码在未被用户消费之前对用户来说是要保密的不能被公开的其次美团用户的手机号也是要保密的因为公开之后可能被推送一些垃圾信息或者更严重的危害。从公司内部数据分析人员来看他们有时虽然没有权限知道用户团购密码但是他们想分析公司发送的团购密码数量情况这是安全允许再有数据分析人员虽然没有权限知道用户具体的手机号码但是他们需要统计美团用户手机的地区分布情况或者运营商分布差异进而为更上层的决策提供支持。 根据这样的需求我们可以对团购密码做加密处理保证其唯一性也保留其原有的数据格式在保密的同时不影响数据分析的需求。同样我们将用户的手机号码的前7位关于运营商和地区位置信息保留后四位进行模糊化处理。这样同样也达到了保护和不影响统计的需求。 因此从实际出发遵循上面的两个处理原则第一阶段我们在脱敏工具集中确定了如下4种基本类型的脱敏方案对应4个udf 字段名称方案举例原则电话号码moblie掩码13812345678- 13812340000防止号码泄露但保留运营商和地区信息 (唯一性由前端绑定或者注册时约束)邮件email截断 加密hxs163.com - 6225888e3a1d4a139f5f5db98d846102b2cd0d163.com保留邮件域信息团购密码code加密4023926843399219 - 1298078978加密后在一定精度上保持唯一性并与数据类型一致设备号deviceid加密ffbacff42826302d9e832b7e907a212a - b9c2a61972a19bf21b06b0ddb8ba642d加密后保持唯一性确定实施范围与步骤 通过上面字段的梳理和脱敏方案的制定我们对美团数据仓库中涉及到得敏感字段的表进行脱敏处理。在数据仓库分层理论中数据脱敏往往发生在上层最直接的是在对外开放这一层面上。在实际应用中我们既要参考分层理论又要从美团现有数据仓库生产环境的体系出发主要在数据维度层dim以及基础服务数据层fact上实施脱敏。这样我们可以在下游相关数据报表以及衍生数据层的开发过程中使用脱敏后的数据从而避免出现数据安全问题。 确认处理的表和字段后我们还要确保相关上下游流程的正常运行, 以及未脱敏的敏感信息的正常产出与存储通过更严格的安全审核来进行访问。 以用户信息表user为例脱敏步骤如下 1首先生产一份ndm_user未脱敏数据用于未脱敏数据的正常产出。 2对下游涉及的所有依赖user生产流程进行修改来确保脱敏后的正常运行这里主要是确认数据格式以及数据源的工作。 3根据对应的脱敏方法对user表中对应的字段进行脱敏处理。 总结 通过上面的几个步骤的实施我们完成了第一阶段的数据脱敏工作。在数据脱敏方案设计与实施过程中 我们觉得更重要的还是从特定的应用场景出发进行整体设计兼顾了数据仓库建设这一重要考量维度。数据脱敏实施为公司数据安全的推进提供了有力支持。当然我们第一阶段脱敏的工具集还相对较少需要补充。 脱敏的技术架构还有待完善和更加自动化。 本文关于数据安全和数据访问隔离的控制阐述较少希望通过以后的生产实践继续为大家介绍。 参考 参考文献如下 http://en.wikipedia.org/wiki/Data_maskinghttp://www.prnews.cn/press_release/51034.htm