网站备案通讯地址,福州搜索排名提升,专业网站建设品牌策划方案,cms企业网站系统作者#xff1a;张建军#xff0c;中国电科首席专家#xff0c;神州网信技术总监
本文约7100字#xff0c;建议阅读10分钟
本文主要介绍数据与数据分类、数据确权规则、数据的所有权与其他权利等方面内容#xff0c;并进行案例分析。 2022年12月发布的《关于构建数据基础制… 作者张建军中国电科首席专家神州网信技术总监
本文约7100字建议阅读10分钟
本文主要介绍数据与数据分类、数据确权规则、数据的所有权与其他权利等方面内容并进行案例分析。 2022年12月发布的《关于构建数据基础制度更好发挥数据要素作用的意见》以下简称“数据二十条”提出了需要“构建数据基础制度”而数据确权、价值评估、流通监管是建立数据制度的三个基本问题。为分析这三个问题需要建立一个理论模型和分析方法并在此基础上提出基本的确权规则、流通规则、入表规则和监管方法目的是为前述三个问题的分析和解决提供一种在法律、经济和技术上逻辑清晰的架构和方法推动相关问题的落地解决。 本文是系列文章的第一篇——数据与确权。 先说结论按照现代信息系统的基本工作机理数据是指有一定结构和含义的二进制数字集合数据可以分为指令类数据和非指令类数据非指令类数据可以进一步分为原始数据(次原始数据)模型数据结论类数据自动执行类数据。依据数据的分类和数据处理的特点对非指令类数据提出数据所有权确权的4条规则 确权规则一原始数据(次原始数据中完全取决于实体本身的属性、状态逻辑上不依赖特定数值化活动的数据属于对应的主体被数值化的主体或物的拥有者原始数据中依赖于特定数值化活动的数据属于对应主体和实施数值化活动的主体数据可以去关联后分属相关主体。 确权规则二主体人或机构的原始数据及次原始数据的所有权无法改变但可以设置类似“用益物权”的权利物的原始数据次原始数据的所有权随物的所有权变化而变化数据集按照“按份共有”的原理确定权属。 确权规则三结果数据的权属在遵守规则一、二的前提下可依照《民法典》“添附”规定确定权属或权益的归属默认属于输入数据所有者和处理者共同。 确权规则四新产生的模型数据、统计/推测/预测结论、研判/决策结论、自动执行数据按照规则三确权后续可以改变。 一、数据与数据分类 现代信息系统都是基于现代数字计算机技术构建的因此计算机体系的特点决定信息系统中数据的特点因此后面的讨论中不在区分信息系统和计算机系统。 在现代计算机系统中只有二进制的数。人们设计这些系统时赋予了这些二进制数一定的结构即数的排列方式和含义即编码规则这些有结构和含义的二进制数字集构成为数据。 数据基本可以分为两大类即指令类数据和非指令类数据。 指令类数据就是直接控制电子开关工作的数据。计算机系统就是通过指令实现基本的四则运算、逻辑判断的。 计算机里面除了指令类数据之外都是非指令类数据。 编程人员按照一定的处理逻辑编排计算机的各种指令就构成为“计算机程序”。计算机程序是“指令类数据”最主要的形式。 现代信息系统与现实世界的关系可以抽象为如下模型 数据存在于“赛博空间”中“赛博空间”是一个“人造”空间现实空间与赛博空间的交互本质仍是人与世界的交互作用这一特性决定了赛博空间的所有规律都与现实空间有着本质和联系这也是数据相关问题研究和分析的最基本原则。 现实空间主要由人、组织和物所构成。 现实空间和赛博空间有三个非常重要的作用点即编程、数值化、现实化。 人通过“编程”活动在赛博空间形成指令类数据集用于对赛博空间内的数据进行处理。 赛博空间的非指令类数据主要分为“原始数据”和“衍生数据”两大类。“原始数据”是现实空间对象在赛博空间的最初始“映射“”衍生数据“则是”原始数据“和其他数据在赛博空间内处理后生成的数据。 考虑到数据“处理”过程的特点上述模型可以进一步细化为如下图 现实空间的实体对象可以分为人、组织、物包括自然物和人造物。人和组织又被称为主体对象简称为主体。 现实空间的实体通过数值化过程其状态、属性等会被赛博空间的数据所表示和记录这些最原始的数据就构成为“原始数据”。数值化的手段一般有两种一种是人工输入的方式实现原始数据的采集另一种是使用工具完成原始数据的采集如各种数字传感器。原始数据一般会涉及实体的当前状态、属性、关联关系等也包括原始数据产生或采集的时间、地点等。数值化活动一般会发生在两种情况下一种是在基于信息系统的业务活动中另一种则是专门的数据采集活动。 原始数据可能因为各种原因需要进一步的清洗、整理、校准、汇集等才能形成对现实对象更为真实、全面的反应这些经过进一步处理的后形成的、对现实实体反映的数据称为“次原始数据”。理论上对同一现实对象按照时间顺序排列的原始数据和次原始数据就构成为该对象的“历史数据”再结合对应的空间信息就构成该现实对象在赛博空间的“完整反应“。 原始数据和次原始数据与现实空间对象的固有关联关系是不可改变和消除的这是赛博空间所有数据处理的基础。后面关于原始数据和次原始数据的确权规则就是根据这一特点制定的。 人们为了发现规律、分析问题会汇集各类原始和次原始数据对其进行分析和处理——即建模过程从而可以形成用于分析各种规格和模型的模型数据。模型类数据往往承载了人们发现的现实世界的事实或变化规律与规则。 使用模型数据可以对原始和次原始数据进行各种处理主要有两类一是分析包括统计类分析、推测预测类分析其结果则为各类统计类数据对未来的推测类数据二是决策使用模型针对原始数据或次原始数据所反应的现实情况做出某些方面的决策结果即为结论类数据。 在很多场景下如自控控制、自动驾驶结论类数据会被进一步处理成可以自动执行的数据。 现实化环节是赛博空间数据作用于现实世界的关键环节。数据主要通过两种途径影响现实世界一是通过影响人的行为人们根据主动或被动接收到的、由数据转化而来的、可理解的信息或指令做出行为或直接执行决策二是可自动执行数据被输入到各类自动执行装置中触发形成各种可以影响现实世界的物理、化学过程。 小结一下本节的结论赛博空间数据可以分为指令类数据和非指令类数据非指令类数据可以进一步分为原始数据、次原始数据、模型类数据、统计预测类数据、决策结论类数据、自动执行类数据。各类数据有与现实实体有着特有的关联关系这些关系决定了其所有权确权的规则见第二节。现实空间和赛博空间的三个交互点这些节点以及赛博空间内的处理过程构成数据所有者数据相关的基础权利见第三节。 二、数据确权规则 数据所有权是数据其他相关权利的基础因此本节重点描述数据所有权的确权规则。 数据分为指令类数据和非指令类数据。 对指令类数据而言其主要的形式就是“计算机程序”又被称为“软件”在知识产权相关的法律中相关权利的保护有明确规定。本文不再做讨论。 对非指令数据而言针对第一节中描述的不同种类数据提出如下所有权确权规则 确权规则一原始数据中(次原始数据完全取决于实体本身的属性、状态逻辑上不依赖特定数值化活动的数据属于对应的主体被数值化的主体或物的拥有者原始数据中依赖于特定数值化活动的数据属于对应主体和实施数值化活动的主体数据可以去关联后分属相关主体。 数值化活动是现实空间与赛博空间交互的重要环节之一原始数据是数值化活动的结果。数值化活动涉及三类主体即实施数值化活动的主体、被数值化的主体人或机构、被数值化的物的所有者。 原始数据和次原始数据与现实实体有着固有和不可分割的关联关系因此原始数据和次原始数据中完全取决于实体本身的属性、状态逻辑上不依赖特定数值化活动的数据属于对应的主体或客体的拥有者。比如人的姓名、年龄、性别物的重量、体积等。这些属性、状态可能会被不同的主体多次数字化这些属性、状态也可能会随时间变化但无论被如何数值化、如何变化这些属性、状态与对应实体的关联关系是无法改变的如果关联关系一旦被改变数据就失去了价值。所以此类数据天生决定了属于对应主体即被数值化的主体或被数值化的物的所有者。 原始数据还包括大量的与数值化活动相关的数据。数值化活动会发生在两种场景下即业务活动和专门数据采集活动。这些活动的数据与实施数值化活动的主体和被数值化主体之间有着固有的关联关系因此这些数据属于实施数字化活动的主体和对应主体共有。例如在网站平台上的原始访问记录属于访问者和网站所共有。对于共有的原始数据如果将其与某一主体去关联后则该数据属于剩下所关联的主体。关于数据去关联的规则另文讨论。 确权规则二主体人或机构的原始数据及次原始数据的所有权无法改变但可以设置类似“用益物权”的权利物的原始数据次原始数据的所有权随物的所有权变化而变化数据集按照“按份共有”的原理确定权属。 主体固有属性、状态所形成的原始数据即主体固有原始数据因其与特定主体人/机构特有的不可改变的关联关系其所有权是无法改变的。即使这些数据被去标识后这种关联关系也是无法改变的因此其所有权也是无法改变的。 物的原始数据根据物的归属关系属于物的所有主体。如果物的所有主体发生变化物的原始数据所有权也相应改变。 对于不同权属的具有相同或类似结构数据汇聚成的“数据集”可以按照“按份共有”的原理确定该“数据集“权属比例。 对于无法改变所有权的原始数据和次原始数据可以通过法律、合同等手段设置类似“用益物权”的权利。通过类似“用益物权”的权利设置不仅可以解决主体消失如人死亡后后其固有原始数据和次原始数据开发利用的问题也可以为物的权属转移导致的数据权属变化提供一种解决的方法。 确权规则三结果数据的归属在遵守规则一、二的前提下可依照《民法典》“添附”规定确定权属或权益的归属默认属于输入数据所有者和处理者共同。 结果数据是指对输入数据进行处理所所生成的数据结果数据的确权涉及输入数据的所有者和数据处理者两类主体。 次原始数据是对原始数据综合处理如清洗、纠正、去重等后形成的结果数据但次原始数据处理的目的是更为准确反应现实实体的属性、状态及其历史变迁因此需要按照规则一、二对次原始数据归属进行确权。 除次原始数据外其他的结果数据在没有法律规定、主体之间也没有协议约定的情况下《民法典》中“添附“是可以适用的规则。如果按照添附规则仍无法确定权属的结果数据默认由数据所有者和处理者共同拥有。 《民法典》中将“添附”分为了三种情况即加工、附合和混合。《民法典》中的”加工”非常类似于简单的数据收集、汇集工作结果数据往往是输入数据的简单“合并”和简单变换或者结果数据只是输入数据的子集和简单变换“附合”则非常类似结果数据中“嵌入了”部分或全部的输入数据一旦将所嵌入的输入数据剔除掉结果数据就失去了使用价值“加工“对应于结果数据中不包括任何的输入数据的情况。 确权规则四新产生的模型数据、统计/推测/预测结论、研判/决策结论、自动执行数据按照规则三确权后续可以改变。 模型类数据、各种统计类/分析类/决策类/结论类数据、自动执行数据都是基于一定的输入数据经处理后生成的可以根据规则三进行确权。这些数据的所有权可被改变即这些数据的所有权可以转让。 三、数据的所有权与其他权利 所有权是数据的基本属性也是数据其他权利的基础。辨析数据相关的其他权利与所有权之间的关系则是数据合理流通、合理利用的基础。 从第一节的模型可以看到非指令类数据相关的基本权利可以分为三个即数值化的权利、处理的权利和现实化的权利。赛博空间的数据只有两个用途被处理以产生新的数据被现实化以影响现实世界。 另外和数据相关的还有一个权利就是数据的持有权。这是由数据的特点所决定的。数据是存在于赛博空间的因此数据都需要依附一定的载体而存在。在现代网络化的信息系统中这些物理载体的所有者和数据的所有者可能并不是同一个主体从而产生了数据的持有者与数据的所有者并不是同一个主体的情况——数据持有权。数据在载体上的存在可能有两种情况密文态和明文态。 另外持有权和处理权之间有着非常微妙的关系处理者必须持有数据才可能对数据进行处理这是现代信息技术特点所决定的。在同态计算技术没有成熟之前处理者还必须明文持有数据。 本节讨论这四项权利数据所有者对这四项权利授权情况。 1数值化的权利 数值化的权利决定了现实世界实体能否被赛博空间的数据所描述和反应因此该权利属于现实空间的主体和物的所有者即“现实主体“。 现实主体在业务交互场景中为保证业务的完成在业务交互的过程中隐含将数值化的权利授予了业务运营者从而能够实现业务的交互共同完成相关的业务活动。在这种场景下现实主体的隐含授权仅仅是业务完成所需的最少量数据这就是很多法律、法规中提出“最小必要原则”的根本原因。除业务的“最小必要原则”外现实主体还会根据相关法律规定的监管要求隐含授权采集一些额外的信息。换另一句话说就是现实主体对数字化权利的授权仅仅限于业务“最小必须“和”法律监管”两个方面。 现实主体在专门的数据采集场景中则是根据与数据采集者达成的协议授权数据采集者数值化的权利。 在实际社会活动中存在业务运营者或数据采集者超授权进行数值化活动的情况即超范围采集数据。另外对一些特殊的数值化活动如摄像、录音等则存在直接和间接侵犯现实主体数值化权利的情况即未经授权的数字录音、录像。 2处理的权利 对原始数据和次原始数据而言数据所有者的授权往往是基于业务交互隐含完成的换另一个角度来说原始数据和次原始数据的所有者是基于业务交互的必须授权业务提供者对原始数据和次原始数据进行处理的。从严格的意义上来说数据主体并未授权业务提供者对这些原始数据和次原始数据进行业务活动不直接相关的处理更没有授权进行无关的处理。至于何为业务相关的处理需要在实践中给出更为清晰和明确的界定。这对于现实主体和业务提供者才是公允的。 对模型类数据和其他数据而言只需其所有者授权相关处理者即可进行进一步的处理生成新的数据。 3现实化的权利 现实化是一个非常特殊的环节是赛博空间数据作用于现实空间的关键环节因此其授权需要更为细致才有利于保护数据所有者的权益同时也有利于防止数据被滥用。 对可现实化的数据而言数据拥有者首先应考虑被授权者的身份并将实施现实化的手段、方式、时间、物理和逻辑地域或位置、过程、对现实空间的作用范围等因素作为授权的内容。 4持有的权利 前面提到了持有权利和处理权利之间的微妙关系因此当数据所有者授予处理权的时候就意味着授予了明文持有的权利。 常见的单独数据持有权利授权发生在存储的委托数据传输、数据存储、数据备份、数据恢复等服务场景中。在这些场景中被授权者只是持有数据不会对数据做任何处理。 在明文数据持有的场景数据所有人与授权持有人可能只有合同和协议的约束并没有更加有效的技术保护手段因此数据存在被非授权复制的风险从而损害数据所有者的权益。 在密文持有数据的场景中如果相关技术手段尤其是密码技术得到了有效和正确的使用可以有效降低数据非授权复制的风险有效保护所有者权益。 在实际社会活动中存在利用免费明文数据持有服务如各类免费网盘服务换取数据处理授权的商业模式。在此类商业模式中并没有对数据处理范围清晰和明确界定因此此模式存在对数据所有者权益侵害的风险。 四、一些场景案例 下面提供两个场景中数据权属的确定案例。这两个案例描述了按照前面所述规则场景中所产生的主体原始数据和次原始数据的归属。 1网站购物的原始数据和次原始数据归属 人们在一个购物网站浏览时与购物网站进行了很多的互动这些互动会产生大量的原始数据这些数据一般可以分为两类记录购物者与网站交互行为的数据比如登录网站的时间、浏览的货品记录等以及购物者提供的自身特有的数据以便网站完成相关服务常见的有个人的身份信息、身体尺寸信息、物流地址等信息。 按照前面的确权规则“记录购物者与网站交互行为的数据“应属于网站和购物者共同拥有。网站可以在去除购物者标识后将这些数据转化为网站自己拥有。对购物者也是一样购物者可以将自己的网上购物记录去掉网站标识后转化为自己的数据。 至于购物者特有的信息则属于购物者所有。 举例来说 比如网站的一条记录“某时间段、某IP地址、某账号用户、浏览了A、B、C……等商品“就是属于网站和用户共有的数据。网站可以在去除”某IP地址“和”某账号用户“后将该数据转化为自己所拥有的数据。 对用户而言有一条记录“某个时间段、在某网站、浏览了A、B、C……等商品“也是属于用户和网站共同拥有。用户可以在去除”在某网站“信息后将该条数据转化成自己所有。 2病人医院就诊的数据归属 随着医院信息化覆盖的范围原来越广病人在医院就医越来越方便整个就诊过程在医院的信息系统中留下了大量的数据。这些数基本可以分为两类一类是病人与医院设施、医生交互所产生的数据比如挂号的记录、医生的诊断、处方等这些数据应该是属于医院和病人共有的另外一类是病人症状、身体状态等的记录这些数据一些来自与医生的询问、观察一些来自于各种医疗检查设备、仪器的检测如X光片子、血检的各项结果等这些数据应属于病人而非医院根据本文前面的确权规则这些数据完全取决于病人而非医院的检测手段病人为诊断和治疗而允许医院对这些数据的采集数值化和处理但这些数据仅仅与病人相关病人在任何一家规范的医院进行检测都会得到同样的数据。这也是很多地方进行的检测信息跨医院互通使用的基础。 编辑文婧 校对邱婷婷