欢迎光临数字经济案例研究中心主办官网!
当前位置:主页 > 案例研究 > 研究报告 >

万字长文!一起看明了数据要素流通框架、技术与标准体系

发布时间:2024-01-09 人气:

本白皮书分析影响数据要素流通的关键因素,全面洞察分析国内数据要素流通在制度、模式、技术支撑等实践层面的通用范式,系统性规划数据要素流通标准体系总体框架。

出处:全国信标委大数据标准工作组

全球云计算、大数据、人工智能等技术的规模化应用推动着数字经济的快速发展,当今社会已迈入数字化发展重要机遇期,数据规模正呈现爆发式增长、海量式集聚态势。数据要素是传统生产要素理论的重大突破,准确反映了当下经济社会发展所呈现出的特征与趋势,数据正成为催动各行各业快速发展变革的核心竞争所在。不管是政府行政、企业生产经营,还是民众日常生活都无时不刻在与数据产生着紧密关联,数据成为了新的生产要素,加速数据要素流通,释放数字生产力成为推进各国数字经济、数字政府、数字社会发展的关键任务之一。数据不同于传统要素,其具有可复制、易衍变、流动性强等特点,数据从基础资源到数据资产、数据产品,再到数据共享、数据开放、数据交易的转变过程,数据首先要实现要素化转变,只有数据要素化的安全高效流通才能充分挖掘数据价值, 推进数据开放高效利用和应用。

我国有着发展数据要素流通市场的良好基础条件,国家政策引导为推进数据要素流通建立了强大的信心,海量数据资源为数据要素市场发展提供巨大空间,新型数据基础设施为数据要素流通奠定良好基础,产业生态优势为数据要素市场注入了创新活力。随着政策及法律法规的不断完善,数据要素流通这片土壤将更加优渥,随着数据要素流通模式的不断规范完善,数据要素市场也将更具规模化、体系化,在大数据、可信计算、区块链等新型技术加持下,也为数据要素可靠、安全、合规、高效流通奠定了扎实技术基础。数据要素流通是培育数据要素市场的基本前提,是推动数字经济发展的必然要求和核心引擎,是促进数字政府持续长效运营、激活政府公共数据的社会化价值和市场化潜力重要手段,是数字社会生产生活方式变革、服务及治理模式创新、数字产品和服务创新的加速器。

一、数据要素流通框架

图 数据要素流通总体框架

数据要素流通市场建设包括数据要素流通政策与法律法规、数据要素流通制度、数据要素流通模式、数据要素流通技术、数据要素流通标准五个方面。首先,从宏观环境层面来看,政策与法律法规是培育数据要素市场、促进数据要素安全流通的重要保障。通过建立健全的数据要素流通相关政策与法律法规调整机制, 为数据要素规范化流通、数字经济高效发展提供政策指引和立法保障。

其次,从市场层面来看,数据要素流通制度是支撑我国数据要素流通宏观政策主张走向具体落地实践的主要途径和载体,通过制定合规高效的数据要素流通基础性制度,能够形成制度框架下的数据要素流通行为范式,促进数据要素市场安全高效运行。加快数据要素市场化流通不仅需要建章立制,还需要以技术搭建互联互通数据价值网络,保障数据安全与隐私,实现“数据可用不可见,数据不动价值动”。通过数字技术创新,搭建数据要素安全可信流通关键技术体系,为培育高质量的数据要素市场提供基础性技术支撑。数据要素流通标准是衔接政策、法律法规、制度和技术的重要治理工具,通过建立完善的参考框架、实施指南、评估评价等数据要素流通基础共性标准,加快形成数据要素流通统一共识,进而推动数据要素市场高质量发展。

最后,从整体层面来看,数据要素流通市场模式是融合政策、法律法规、制度、技术、标准和实现数据要素市场化配置的关键环节。通过数据要素市场中探索数据合规供给、交易规范有序、市场生态多元、监管保障全面、安全防范有力的流通模式,能够实现数据要素流通闭环,充分激发数据要素市场活力。

具体来看,构建合规高效的数据要素流通制度是培育数据要素市场的重要路径。数据要素流通制度包括数据权属制度、数据评估制度、数据流通制度和数据流通监管制度。通过数据权属制度能够明晰数据权利规则,建立数据权利秩序, 明确数据权利界限,固定数据权利内容,从而进一步规制和促进数据流通、数据许可、数据税收、数据管理等活动。数据价值评估制度是数据要素高效配置的核心。通过专业数据评价和数据资产评估,解决数据要素全生命期质量和价值度量等问题,推动数据资产的许可使用,抵押贷款,权利转让和投资入股等,形成统一可度量的价值链。

依据数据资产评估结果进行数据治理实现内增值,继而高质量高价值的数据进入数据资产生态运营实现外增值;流通市场外增值通过数据要 素加工、数据产品开发解决数据要素安全、合规的生产,对数据元件和数据产品进行评估定价,进入数据元件或产品交易市场,促进数据要素流通;资本市场外增值通过数据金融服务中心,以数据产权交易、数据资产抵押贷款、数据资产入股等方式丰富数据资产权属形态。

最终实现数据要素市场价值流通闭环形成,推进数据要素资产化和资本化进程。围绕全流程合规监管,建立数据要素流通和交易制度,能够保障公共数据的有效管理和开发利用,明确企业合法利用数据资源的边界,避免在创造经济效益的过程中产生权利纷争、黑市交易等乱象,促使各主体积极开展数据流通和交易活动,不断扩大数据要素流通和交易规模,营造良好的数据建设、发展与创新环境。完善的数据监管制度是开展数据活动、建立数据要素市场的前提,数据监管制度需要充分发挥政府有序引导和规范发展的作用,构建政府、企业、社会多方协同治理,形成安全可控的数据治理体系,保障国家数据安全。

数据要素流通制度培育了数据要素流通市场的发展模式,而数据要素市场模式的成长又能丰富和完善数据要素制度。数据要素流通市场模式是数据要素市场化配置的关键环节,包括数据登记模式、数据定价模式、数据交易共享模式和数据服务运营模式。数据要素流通技术是促进数据要素流通的动力源泉,数据要素流通各环节需要相应的技术支撑,其中包括数据登记技术、数据元件技术、数据空间技术和数据隐私技术。与此同时,标准化是规范数据要素流通市场的重要手段,形成安全可控高效的数据要素流通市场亟须构建涵盖多个环节的数据要素流通标准,通过多维度“统一”,加快数据要素流通,充分发挥其价值。综上,数据要素市场建设需要形成“以政策为引导、以法律法规为保障、以制度为抓手、以技术为支撑、以标准为基础、以流通模式为导向”的流通体系。

图 数据要素流通市场化发展现状

二、数据要素流通技术

2.1 数据元件技术

传统的数据流通交易模式面临诸多问题亟待突破,主要源于数据流通与数据安全的矛盾。因此,2021 年中国电子和清华大学联合提出通过“中间态”实现数据安全与数据要素一体化的解决思路,“中间态”命名为数据元件。它是原始数据与应用之间的初级数据产品和交易标的物,是连接数据供需两端的桥梁。通过将数据资源开发为数据初级产品,实现数据可确权、可计量、可定价、可监管和安全流通,真正实现数据资源与数据应用“解耦”,从而实现数据要素市场化高效配置。数据元件具备安全属性和价值属性,在实现数据的风险隔离与安全管控的同时,可提升数据价值密度,实现数据资源的产品化流通和规模化应用。基于上述思路,可通过三次确权和三次定价,建立数据资源市场、数据元件市场和数据产品市场三级市场,实现数据要素市场化高效配置。

(1) 数据元件的内涵

数据元件是通过对数据脱敏处理后,根据需要由若干相关字段形成的数据集或由数据的关联字段通过建模形成的数据特征。顾名思义,数据元件类似于电子元件,它是按照数据治理工序流程对数据资源进行脱敏、模型加工后形成的初级数据产品。其数学描述如下:
X=f(d_1,d_2,d_3,…,d_n)

其中,d 表示原始数据中的数据字段,f 表示模型函数,X 表示数据元件。该模型的涵义在于,一方面,在安全计算环境下,通过模型函数 f 消除原始数据d 中的隐私安全风险,使得数据元件 X 作为安全的交易标的物,在数据元件市场进行交易流转,实现数据从生产资源向生产要素转变;另一方面,数据元件 X 通过对原始信息进行提取加工,实现了数据到信息的转换,具备消除数据应用中“不确定性”的价值,使之成为数据元件定价的基础,从而能够形成可控制、可计量、可定价、可监管的数据初级产品,为数据安全流通奠定基础。因此,数据元件作为交易标的物既具有安全属性,又具有价值属性。

(2) 数据元件的基本特征

数据元件刻画了从原始数据到应用端之间的特征提取中间过程,与原始数据对比,数据元件具有以下基本特征:

a) 原始数据与应用之间的数据初级产品;
b) 作为数据交易市场中的交易标的物;
c) 近源数据的信息载体;
d) 数据资产计量和定价的基本单元。

根据数据元件制作过程的不同,可以将数据元件分为两大类,一类是标准数据元件,一类是定制数据元件。标准数据元件是指根据数据的通用要求和使用用途,提前按照标准治理工序进行加工、开发和生产;定制数据元件是指根据不同的应用需求开发的数据元件。一般来说,标准数据元件的适用性比较广泛,而定制数据元件具备更强的业务属性,满足某种特定业务需求。

(3) 数据元件的服务方式

数据元件可以支持多种数据形态,包括结构化数据、半结构化文件和非结构化文件,可以通过 API 接口、库表、文件等方式实时或按照固定频率提供数据服务,交付过程遵循严格的流程管控机制保证数据安全。

(4) 数据元件的应用特点

数据元件作为具有稳定形态的交易标的物,具备可确权、可计量、可定价、可监管的优势。

a) 数据元件可确权

数据确权涉及隐私权、财产权、安全权等多种权利,直接交易原始数据情况下,确权难度大。通过引入数据元件,将数据确权分解成针对数据资源、数据元件、数据产品的三次确权,在确保数据价值有效传递的前提下,逐级降低隐私和安全风险,降低确权复杂度,使数据确权的复杂问题得到有效解决。

b) 数据元件可计量

数据元件是数据资产计量和定价的基本单元,通过对数据元件建立统一的标准来规范数据元件的范围、颗粒度和体量,配合安全审核程序和流通协议要求, 确定数据元件这一交易标的物的规格和属性,以及用途和交付方式来对交易的数据元件进行计量。

c) 数据元件可定价

数据元件是具有稳定形态的数据初级产品,实现了数据资源到信息的转换,可通过其所蕴含的信息量来评估数据元件的价值,从而确定数据元件的交易价格。元件的价值是采用香农信息论的评估方法,通过元件的信息密度、体量和质量构建数据元件价值模型,从而对数据元件价值进行评估。数据元件定价以元件中的“信息”为价值基础,以成本法、收益法、市场法为依据形成数据元件定价体系。

d) 数据元件可监管

通过构建数据金库对数据资源进行统一归集和规范管理,将变动的、分散的、海量的数据资源转化为稳定形态的流通标的物,从而可对数据资源进行风险隔离, 对数据元件进行精准监管,实现数据的安全流通和风险管控。

(5) 数据元件的重大意义

数据元件作为连接数据资源到数据应用的中间形态,既包含原始数据所携带的信息,又可以作为数据资产计量和定价的基本单元。安全性上,数据元件作为数据的‘中间态’,隔离了原始数据与业务应用,面向原始数据通过脱敏和模型加工屏蔽了数据安全风险,面向业务应用又提供了高密度的数据价值。因此,通过将数据资源加工成数据元件这一初级数据产品,能够在经济循环的生产、分配、流通和消费环节中,成为打通供需错配、结构失衡、配置低效、流通壁垒、消费不足等堵点的重要手段,加快数据要素市场化高效配置。

2.2 数据空间技术

(1) 数据空间概述

数据空间的本质就是数据产生者、处理者和消费者之间建立信任,基于信任实现保护数据所有者,产生者,保护数据主权,促进数据流通,消除数据孤岛,增加数据价值。数据空间是数据产生者到消费者之间的一个可控可追溯的通道。数据空间的核心职责是保护数据主体的数据主权,其产生的前提是数据的跨主体流通。此处数据主权更倾向于组织(企业等)或个人对其能管控的数据拥有排他性自决的能力,可以实际决定其数据如何流通和使用。数据空间在解决数据跨界流通,保护数据主权,与传统的数据共享有几个本质内涵:

一是构建安全可信的共享环境,降低参与主体间的信任沟通成本;二是实现流通全流程的可控,有效避免传统基于单域访问控制等所带来的透传或泄露的风险;三是实现开放的市场交换模式,实现供需双方的自有匹配,参与主体可自主选择符合需求的数据资源进行利用,极大地提高数据流通的范围和效率。

数据空间聚焦解决数据主权保护和数据要素流通的矛盾,包括以下关键目标:

信任:信任是数据空间的不可或缺的基本要素。任何一个参与到数据空间的参与者/参与组件,在被授予访问受信任的数据之前都会经过评估和认证,保证参与主体可信。

数据主权:数据空间使用当前已有的最先进的安全措施,通过对数据空间中使用的每个技术组成部分进行严格的评估和认证确保其符合最新的技术规范和标准。在保障数据主权上,在数据空间中的数据所有者在将其数据传输给数据消费者之前,将数据使用控制信息附加到其数据中。要使用数据,数据消费者必须完全接受数据所有者的使用策略,并且数据消费者在最终使用数据时,技术组件保障了这些数据使用控制策略将被实施和评估,符合评估结果才能使用数据。

去中心化的数据生态:数据空间的体系结构不需要集中央化的数据存储能力, 数据空间以去中心化的数据存储分散为基本原则,数据在物理上提供灵活的方式, 可以基于云,也可保留在对应的数据所有者指定的存储位置。数据空间中的数据资源被全面描述,包括其对应的数据源以及数据对其他公司的价值和可用性、元数据描述信息等。此外,数据空间生态中还支持以数据中介或经纪人的方式,自行加工数据产品,提供丰富的数据服务。

标准化互操作性:数据空间的连接器是数据主权可控的核心组件,遵循一套安全可信的技术标准,支持不同的供应商实现。数据空间提供了一套数据可控交换的连接器实现标准,构建开放的交换环境,不同的连接器基于同一套技术标准实现数据的互操作。

数据增值 APP:数据空间支持将数据增值的 APP 嵌入到数据空间连接器,提供数据在交换后提升数据价值服务,包括数据加工、数据算法、数据联接等面向数据分析侧相关能力。

数据审计&清算:数据空间提供清算、审计功能,实现数据流通全过程可追溯,数据交换双方自证清白,包括数据交换多少、如何被使用、销毁及归档等。

(2) 数据空间业务价值流

数据交换空间围绕面向数据提供方和消费方,基于用户旅程,构建核心价值流,满足典型业务场景的应用。

面向数据消费方,使能数据获取与合约使用,让数据消费方合约的获取和使用高价值数据,同时基于数据交换空间能力,使用全过程可信任,可以自证清白;

数据消费方的核心价值阶段包括数据寻源、数据合约签署、数据合规使用、自证清白四个阶段,满足不同密级的数据资源合规获取,在数据使用环节实现数据从简单的访问到复杂的分析计算等。

面向数据提供方,使能数据提供与使用控制,让数据提供方决定自己的数据如何被使用,实现数据价值最大化。包括数据资源准备、数据交换策略指定、数据合约签出、数据合约履行、数据使用查证和追溯阶段,满足多种不同类型数据资源、不同等级的控制策略以及不同交换模式等差异化业务场景的数据供应诉求。

(3) 数据空间关键能力

数据空间的三大核心能力实现数据流通全过程:

可信:对数据流通的各类组织、用户、软件、APP、平台等进行身份认证, 保证流通中的各类参与方及环境可信任,降低参与主体间的信任沟通成本;

可控:数据供需双方约定的数据使用条款/条件机器化可定义及执行,规则实施和规则评估分离,按合约保护数据主权,避免二次分享和泄漏风险;

可证:数据交换和使用的全流程数据操作日志记录并上区块链,日志防篡改, 实现提供方可查证追溯、消费方可自证清白。

图 数据空间流通过程图

数据空间的关键组件定位说明:

数字连接器:是 EDS 数据交换空间的核心模块,提供数据集成、计算和消费能力,通过连接器实现不同域之间数据的流通和可控使用

认证中心:基于规范的认证标准,对数据交换各方的身份和资质认证,建立一个多方信任的生态环境

使用控制中心:提供数据使用控制策略的制定、管理和决策能力,在数据使用过程中对数据的操作进行决策,并与数字连接器配合,基于策略对数据使用做出相应的控制,确保数据主权可控

清算中心:基于区块链提供全流程可信、可视的审计追溯服务,支持提供方查证追溯,也能让消费方免证清白,同时为第三方监管提供相应的审计信息。

数据市场:提供数据搜索、资产标注、需求匹配、合约协商、数据订阅等功能,帮助消费方快速、高效的找到有价值的数据。

APP 市场:提供丰富的 APP 接入,包括内置 APP 与外部认证 APP。支持文件查看、数据分析、算法建模等复杂的数据消费需求。

(4) 数据空间关键技术

a)数据使用控制

数据的使用控制技术,是研究将数据提供者(也即授予数据的主体)和数据消费者(也即使用数据的主体)之间关于数据如何被使用的条款和条件,在跨系统、应用等开放、复杂、分布式环境中提供机器可执行和管理的手段,保证使用条款和条件可以被计算机实施和评估,并最终达到数据提供者保护数据和消费者合法使用数据的目的。在开放的分布式环境中,使用控制涉及到使用策略、安全模式、安全机制和冲突模式等各方面问题。数据使用控制技术包含使用策略的标准认证、管理和应用下发、策略的实施和策略评估。数据使用控制策略采用开放策略描述语言如 ODRL、XrML、MPEG 等。该类权利描述语言通常可以描述数据在采集-传输-使用等整个生命周期不同阶段的权利,保证准确无歧义地处理语言规则,支撑系统间的互操作。

b) 基于动态属性配置服务(DAPS)的身份认证管理

在常规的数字世界中,系统或者软件通常是根据相应对象的数字身份实现授权管理。数据空间的对象身份,包含各类参与者如提供者、消费者等,也包括提供各类服务的软件组件。各类对象的身份构成,按照现有的协议,通常有一部分非常通用的属性构成,如 X.509 认证标准,对属性的任何修改都会导致证书的吊销和重新颁发,证书中包含的属性数量需要保持在最低水平。基于 DAPS 可以结合数据空间各类对象的属性进行动态属性配置服务,灵活支撑 CA 级联管理。

c) 数据存证溯源技术

数据存证溯源是对数据在流通的全过程中进行日志存证、使用和加工链路计算,构建数据从发布数据资产 Offer、签订数据合约、数据传输、数据接收、数据使用、数据加工、数据使用策略到期、数据删除/归档等全过程的日志,并基于日志记录,提供链路分析等溯源能力。主要包括日志采集技术、标识技术、区块链技术、数据流转记录技术、使用凭证技术以及数据溯源等技术。

d) 数据合约数字化技术

传统的数据交换合同/合约,大多数是基于法律框架下签署保密协议或客户授权书,以非结构化文本的方式作为数据流通的凭证附件进行管理。数据合约数字化技术,是将传统的纸面化合约在数据空间中由各类软件组件实现在线签署和传输,签署完成后由数据空间各组件根据合约签订条件执行,合约执行完整记录且可追溯。

e) 其他基础的安全技术

数据空间涉及到数据从采集、交换、加工、使用、签约等复杂的过程,也离不开通用的数据处理技术,包括但不限于数据加密技术、数据脱敏、隐私计算、传输网络、传输协议、数据集成、数据质量控制、元数据管理等技术。

2.3 数据登记技术

数据登记是指权利人出于维护合法权益的需要,依照法规规定在登记系统内将所持有数据的控制状况予以记载,并通过登记系统进行公示的行为。登记的目的在于合法性确认,申请所持有数据成为资产的企业自愿在登记平台上备案形成存证,为潜在的数据权益纠纷和数据来源争议留存证据,并发挥唯一标识数据的作用。

数据登记技术应主要包括以下几点。(1)数据提供方在登记数据要素或数字资产时需说明数据集基本信息,包括名称、所属行业类别、数据类型、哈希值等。(2)描述数据来源,如外购或授权得到,可提供交易凭证或许可文件;如爬取得到,需提供爬取对象的基本信息,包括但不限于网址或数据库地址、授权许可关系等;如由企业自生,可简要描述产生于生产流程中的哪一环节等。(3) 描述数据实现收益途径,包括数据用途、稀缺性、开发可行性等。(4)说明数据权属关系,是否享有使用权或经营权。(5)说明数据是否涉密及是否存在法律争议。(6)登记机构通过线上随机采样或现场核验等方式进行审计,核验通过后颁发数据资产证书,完成资产登记。

2.4 数据隐私技术

隐私计算是“隐私保护计算”的中文简称,这是一类技术方案,在处理与分析计算数据的过程中能够保持数据不透明、不泄露、无法被计算方以及其他非授权方获取。与传统数据使用方式相比,隐私计算的加密机制能够增强对于数据的保护、降低数据泄露风险。因此,包括欧盟在内的部分国家和地区将其视为“数据最小化”的一种实现方式。同时,传统数据安全手段,比如数据脱敏或匿名化处理,都要以牺牲部分数据维度为代价,导致数据信息无法有效被利用,而隐私计算则提供了另一种解决思路,保证在安全的前提下尽可能使数据价值最大化。从技术角度出发,隐私计算是涵盖众多学科的交叉融合技术,目前主流的隐私计算技术主要分为三大方向:第一类是以多方安全计算为代表的基于密码学的隐私计算技术;第二类是以联邦学习为代表的人工智能与隐私保护技术融合衍生的技术;第三类是以可信执行环境为代表的基于可信硬件的隐私计算技术。不同技术往往组合使用,在保证原始数据安全和隐私性的同时,完成对数据的计算和分析任务。

(1) 可信执行环境

可信执行环境(TEE)通过软硬件方法在中央处理器中构建一个安全的区域, 保证其内部加载的程序和数据在机密性和完整性上得到保护。基于可信硬件构建可信执行环境,提供高性能数据流通服务和隐私计算服务,可有效提高系统整体的安全性。可信执行环境作为主处理器内的安全区域,保证内部加载的代码和数据在机密性和完整性方面受到保护。作为一个独立的执行环境,提供了诸如隔离执行、与 TEE 一起执行的应用程序的完整性以及保证数据的机密性等安全特性。使用时通过 TLS 链路获得数据解密秘钥,数据的解密及运行过程均在 TEE 上进行,保证数据不出硬件环境,最大限度地保证用户及参与方的数据安全。

(2) 敏感数据识别

由于大多数机构对数据定义混乱、管理方式五花八门,导致敏感数据分布在哪些数据资产中、关联了哪些业务、暴露在哪些人员等情况了解困难,这无疑增加了数据在流通过程中出现泄露的风险。而传统数据安全技术主要着力于数据资产的保密、完整和可靠性,更多地停留在硬件和边界保护层面,已无法满足数据大范围流通的需求。为了解决以上问题,数据分类分级技术应运而生,首先,数据分类是数据治理和信息生命周期管理的基础,通过梳理数据全生命周期,帮助确定数据所有权的适当分配,满足合规要求;其次,根据梳理的数据资产的敏感性,为数据打上不同的标签,对敏感数据进行分级,并根据数据所属类别和级别, 快速识别出哪些数据是敏感数据,及其敏感的级别。

(3) 区块链

区块链技术是通过区中心化合去信任的方式集体维护一个可靠数据库的技 术方案。现今的区块链技术包含共识机制、点对点传输以及加密算法和分布式数据存储等技术。它利用分布式的数据库来维持所存在或并持续更新的数据的记录列表。区块链技术在数据流通管理业务中的主要应用优势是去中心化、公开透明、以及不可篡改。区块链的去中心化使得每个节点都具有传统服务器的功能。这使得节点之间是均等的,也是独立的。该特质不仅可以在数据要素流通过程中实现对流通信息进行自动记录,而其可以将该变更记录公开给所有节点,实现信息同步。区块链的公开透明保证了所有节点系统的运行规则以及操作细节对所有节点公开透明,这就使得一个节点希望通过违规操作获利变的不可能。区块链的难以篡改特性可以保证每个区块中放置的数据以不可逆的方式生成由随机数字和字 母组成的字符串,这种无法通过字符串反推出原文的方式在数据流通过程中可以很好的保护数据本身的安全。与此同时,由于每个节点都可以从完整数据库中获得副本,这也使得在数据流通过程中产生的流通信息不会被篡改,避免虚假交易发生。

具体看来,区块链技术为数据要素流通管理中的数据资产确权、数据追溯以及数据要素交易与共享提供技术支持。一是在数据资产确权方面,数据所有方可以将数据资产封装成块并将区块发布上链。通过区块链的唯一赋码机制以及不可篡改特点确保了资产的唯一性。去中心化的特性使得每一个节点都具有确权的能力。全链操作公开透明的特点又可以在数据合规的层面上对数据资产确权进行监管。二是在数据管理追溯方面,区块链的分布式记账功能会将具体的数据要素从上链到应用的每一步操作。不可篡改的特点可以帮助数据要素流通管理者对某个区块存疑的时候,方便精准的回溯交易记录,从而帮助判别数据是否合规,流通是否合规。三是在数据要素交易共享方面,区块链技术中的分布式账本机构覆盖了资产、合约、交易公式和网络底层技术 4 方面。在网络底层技术方面,区块链的数据加密、隐私保护以及特定节点授权等技术可以帮助解决当下的数据要素共享困难的问题。当区块链技术结合上智能合约技术时,区块链技术将数据打包上链后,智能合约技术生成共享或交易规则,根据区块链的公开透明特性将交易信息发布上链,这样就可以帮助相同性质、类别、级别的数据要素统一价格,规范管理数据要素流通市场。四是在数据要去中心化访问方面,区块链技术可以应用于访问控制。区块链的公开透明特点保证了所有节点的操作对于所有主体透明可见,从而杜绝第三方越权行为。在数据流通过程中,拥有相应权限的节点可以在无需拥有者介入的情况下实现目标数据要素流通。

(4) 零知识证明

零知识证明是一种数据拥有者无需提供任何有价值的信息的前提下为检验者的假设或主张进行证明或证伪的过程。简单地说,当数据需求方需要利用数据来对其假设或主张进行证明时只需要将需要证明的假设或主张通过智能合约的形式提交给数据拥有者服务提供者,并由其为该假设或主张证明或证伪,最终将结果返回给数据需求方。这种方法在不需要将个人住址、电话以及健康状况等敏感信息交付给数据需求方的前提下,在一定层面上帮助数据需求方结果问题。同时也避免了数据拥有者的信息外泄。

零知识证明技术的出现在很大程度上完善了数据要素流通中的区块链技术的应用。区块链,智能合约以及零知识证明技术可以很好地为数据拥有者提供隐私信息保护。从整体架构上来看,这种技术架构包括 6 个实体,它们分别是数据拥有者、云服务机构、不完全授信的云服务器、私人密钥生成器、智能合约以及区块链。

(5) 数据脱敏

数据脱敏分为静态数据脱敏和动态数据脱敏:

a) 静态数据脱敏:适用于将数据抽取出生产环境脱敏后分发至测试、开发、数据分析等场景。出于安全考虑不能将敏感数据存储于非生产环境,此时就要把敏感数据从生产环境脱敏完毕之后再在非生产环境使用。这样脱敏后的数据与生产环境隔离,满足业务需要的同时又保障了生产数据的安全。数据脱敏过程: 如将用户的真实姓名、手机号、身份证、银行卡号等敏感信息通过替换、无效化、乱序、对称加密等方案进行脱敏改造。

b) 动态数据脱敏:一般用在生产环境,访问敏感数据时实时进行脱敏,因为有时在不同情况下对于同一敏感数据的读取,需要做不同级别的脱敏处理,例如:不同角色、不同权限所执行的脱敏方案会不同。

c) 数据脱敏方案:数据脱敏系统可以按照不同业务场景自行定义和编写脱敏规则,可以针对库表的某个敏感字段,进行数据的不落地脱敏。

图 数据脱敏系统图

一是无效化。无效化方案在处理待脱敏的数据时,通过对字段数据值进行截断、加密、隐藏 等方式让敏感数据脱敏,使其不再具有利用价值。一般采用特殊字符(*等)代替真值,这种隐藏敏感数据的方法简单,但缺点是用户无法得知原数据的格式,如果想要获取完整信息,要让用户授权查询。

二是随机值。随机值替换,字母变为随机字母,数字变为随机数字,文字随机替换文字的方式来改变敏感数据,这种方案的优点在于可以在一定程度上保留原有数据的格式,往往这种方法用户不易察觉的。

三是数据替换。数据替换与前边的无效化方式比较相似,不同的是这里不以特殊字符进行遮挡,而是用一个设定的虚拟值替换真值。比如说我们将手机号统一设置成 “13651300000”。

四是对称加密。对称加密是一种特殊的可逆脱敏方法,通过加密密钥和算法对敏感数据进行加密,密文格式与原始数据在逻辑规则上一致,通过密钥解密可以恢复原始数据,要注意的就是密钥的安全性。

五是平均值。平均值方案经常用在统计场景,针对数值型数据,我们先计算它们的均值,然后使脱敏后的值在均值附近随机分布,从而保持数据的总和不变。例如,对价格字段 price 做平均值处理后,字段总金额不变,但脱敏后的字段值都在均值 60 附近。

六是偏移和取整。这种方式通过随机移位改变数字数据,偏移取整在保持了数据的安全性的同时保证了范围的大致真实性,比之前几种方案更接近真实数据, 在大数据分析场景中意义比较大。数据脱敏规则在实际应用中往往都是多种方案 配合使用,以此来达到更高的安全级别。

(6) 联邦学习

联邦学习从技术层面实现隐私保护与数据协作之间的动态平衡,对桥接数据孤岛、释放数据价值具有不可替代的作用。采用分布式架构,基于 MPC、DP、Secret Sharing 等技术,为数据联合分析、联合计算、联合建模的全流程提供数据安全及隐私保护能力。可有效促进跨组织机构之间的数据安全合作,为跨企业数据交换提供“可用不可见”的安全体验。

联邦学习提供了一种具有隐私保护特性的分布式机器学习框架,并且能够以分布式的方式协同数以千计的参与者针对某个特定机器学习模型进行迭代训练。

实现了数据的隔离,客户数据始终被保存在本地,从而满足了用户隐私保护和数据安全的需求。联邦学习中常见的隐私保护技术包括安全多方计算、差分隐私保护、同态密码系统等。在保证所有参与方数据独立的前提下,联邦学习的模型训练主要通过信息与模型参数的加密交换完成一个联合模型,为所有人提供服务,在保护隐私的前提下促进了参与方之间的公平合作和共赢。其次,联邦学习满足了市场监管的需求。在欧盟提出《通用数据保护条例》(GDPR),国内提出《中华人民共和国网络安全法》《中华人民共和国电子商务法》的背景下,数据隐私保护的法律法规会越来越严格化、全面化。企业需要保证用户数据的收集必须公开透明,企业之间不能在没有用户授权的基础上私自交换用户数据。过去可行的人工智能算法在这些严格的数据隐私保护前提下变得不太可行。因此需要有更高安全要求和隐私要求的联邦学习来帮助实现大数据产品和服务的提供。

(7) 同态加密

同态加密是一种特殊的加密方法,实现对密文进行处理后得到仍然是加密的结果。即对密文直接进行处理,和对明文进行处理后再加密处理结果,得到的结果一致。从数学的角度讲,此过程保持了同态性。同态加密可以实现处理者无法访问到数据自身的信息。其意义在于,从根本上解决了将数据及其操作委托给第三方时的保密问题。同态加密算法主要由四部分组成:密钥生成(KeyGen):由安全参数计算一对公私钥;加密(Enc):根据第一步生成的密钥计算出密文; 求值(Eval):在密文上进行运算(加法,乘法等);解密(Dec):将计算后的密文进行解密,得到明文。根据密文操作的不同,又可分为部分同态加密和完全同态加密方案。

(8) 数据传输加密

数据流通过程中,势必涉及点对点的数据传输,根据组织内部和外部的数据传输要求,采用适当的加密保护措施,保证传输通道、传输节点和传输数据的安全,防止传输过程中的数据泄漏。数据加密传输应根据数据安全级别、数据类型、合规要求、应用场景、业务性能的需求,制定安全策略并采取保护措施,传输重要数据的,应当采取校验技术、密码技术、安全传输通道或者安全传输协议等措施。数据传输加密主要包括传输通道加密、数据内容加密以及传输通道两端的主体身份鉴别和认证。

(9) 数据资产凭证

在数据流通过程中,为提升数据的合规性、可信性 ,实现从数据资源到数字资产的转变,数据资产凭证应运而生,类似于电子证照,数据资产凭证通过权威的发证机构和可信技术手段,通过凭证化方式明确数据资产相关的主体、权益和价值,并且凭证可查询、可核验、具备法律效应。数据资产凭证目前基本都提供电子化凭证,利用电子印章、区块链等技术,实现可溯源、可核验、防篡改和跨域互认,从数据资产本体、资产权属、登记主体等多角度全方位登记数据资产信息,为数据资产后续评价与评估、数据资产交易、抵押融资、数据授权运营提供基础保障。在探索数据作为生产要素的实践中,广东前瞻性、创新性地提出了“以凭证承载资产、以凭证声明权益、以凭证治理数据、以凭证保障合规”的数据资产凭证解决方案。贵阳大数据交易所提出了 5 类资产凭证,开展“数据商凭证”“数据中介凭证”“数据要素登记凭证”“数据信托登记凭证”“数据用益凭证”等数据流通交易登记服务。2022 年 11 月 4 日,全国数据资产会议发布了由中国电子技术标准化研究院牵头建设的“全国数据资产登记服务平台”。

三、数据要素流通标准体系

3.1 数据要素流通标准体系

数据要素流通标准框架如图所示。根据图所示,数据要素标准体系框架由“总体”“数据技术”“流通模式”“系统平台”“安全”五部分的标准分体系组成。

图 数据要素流通标准体系框架图

3.2 数据要素流通标准体系框架图

数据要素流通标准体系是对数据资的市场化流通进行规范,本质上是实现数据要素的社会化配置,拓展数据的流通价值。数据要素流通体系的前端包括总体的指南、平台架构以及数据定价、数据原件、数据空间、数据隐私等技术。数据要素流通体系的市场中间形式包括数据流通模式、系统平台等。数据流通模式包括数据登记、数据定价、数据交易、数据交换共享、数据服务、数据运营等。系统平台涉及数据登记平台、数据交易平台、数据共享平台、数据服务平台等。数据要素流通体系的安全体系包括数据安全、技术安全、平台安全和可信流通等。

根据图所示,数据要素标准体系框架由“总体”,“数据技术”“流通模式”“系统平台”“安全”五部分的标准分体系组成。

一是总体部分,为其他部分的标准制定提供基础遵循,支撑行业间对数据要素流通达成统一理解,主要包括指南、架构等标准。

二是数据技术部分,主要针对数据要素流通通用技术进行规范,包括数据登记技术、数据元件技术、数据空间技术、数据隐私技术等标准。

三是流通模式部分,贯穿于数据要素流通模式的各个阶段。该类标准主要包括数据登记、数据定价、数据交易、数据交换共享、数据服务、数据运营等。四是系统平台部分,主要针对登记平台、交易平台、共享平台、服务平台等的建设、管理和运维进行标准规范。

五是安全部分,主要围绕数据安全、技术安全、平台安全、可信流通等方面进行标准规范。

图 数据要素流通标准体系结构图

未来数据要素将催动社会经济效率变革,并创造无限经济价值空间,数据要素流通标准化体系的建设是一项基础性、系统性、持续性工作,将全方面深刻影响数据要素市场发展。本数据要素流通标准化白皮书希望从顶层设计层面审视数据要素流通现势及规律,力求引导建立更加健康有序的数据要素市场流通环境,让社会各界充分认识数据要素流通重要性和未来广阔价值,为数据要素市场各参与方更好开展要素价值探索实践指明方向,希望能为引导数据要素市场未来高质量发展提供有益思考。