可信、可控和可行的数据流通基础设施

我今天演讲的主题是“可信数据流通架构与数据跨域管控”。演讲分为四部分第一部分介绍数据基础设施(尤其是数据流通设施);第二部分分析当前数据流通的困境;第三部分是我们目前对可信数据流通参考架构的一些想法;最后一部分简单介绍数据流通跨域管控的方法论,并邀请我们团队成员介绍《数据跨域管控白皮书》的主要内容。

一、什么是数据流通基础设施

首先,“数据基础设施”是现在比较热门的概念。什么是基础设施?最初级的基础设施包括道路、机场这一类的交通基础设施。“社会基础设施”则包括医院、学校等满足公共需求的基础建设。而在数字化过程当中,ICT(information and communications technology)技术、通讯技术以及“云技术”等等都是数字化服务基础设施。与此同时,数字化的过程当中形成了大量的数据,这些数据又可以被不断重用以认知客观世界,于是就诞生了人工智能技术。人工智能技术与产业的发展需要能够大规模、高效率、低成本地获取数据,于是就需要构建服务于数据生产、流通和利用的数据基础设施。简单来讲,数据流通基础设施就是高效率实现数据社会化利用(又称重用或流通利用)的基础设施。

数据基础设施,可以从两个层面来理解和认识。从个体组织(企业)的角度,目前一些大数据企业积极推进“现代数据堆栈”,其实就是一个企业把内部运营的数据和外部的数据结合形成一个用于收集、存储、转移、转换、分析数据的智能集成系统,这就是一个企业层面的数据基础设施。在当今的数据驱动发展的阶段,数据基础设施就是未来企业核心竞争力之所在。从整体社会角度来看,数据基础设施可以理解为“基础制度+技术设施”。关于基础制度,“数据二十条”提出构建我国数据制度的要求,其核心就是要构建将数据治理成为高质量可用的数据,形成高效合规的数据流通利用秩序,实现数据资源的社会化配置和重用。这关系到我们从制度上(包括标准、法律等)如何对待数据,配置产权,让数据能够从每个组织的系统中流通出来被社会化使用。也就是我们需要建立适应数据特征的的数据基础制度,这样的制度正在探索建立之中。数据是一种技术存在,在特定技术环境下使用,因而数据流通利用还需要相应的技术设施。这主要指我们需要搭建怎样的数据技术架构以支撑这样一个数据基础制度体系的有效运行。例如我们需要怎样的技术支撑数据汇集和安全计算,避免数据流通中的风险。

以上两个方面构成了整个社会的数据基础设施。它的目标是实现数据高效率、低成本的社会化利用,通过赋能每个社会个体,进而赋能整个社会,以实现全面数字化转型。这就是我对数据基础设施的理解。

这里需要指出,数据基础设施这一概念也在不断地发展变化中。数据基础设施这一概念实际上很早就被提出,最早叫做data as an infrastructure,也就是“数据作为基础设施”。其基本理念是数据是非竞争性的,数据有巨大的社会价值,所以数据本身就应该作为基础设施被全社会利用。“数据作为基础设施”就是数据应当开放资源加以利用。但是后来人们发现,数据直接作为基础设施,让大家自由使用,遇到了巨大的障碍。原始数据并非直接可供使用,为使其具备可用性还需要经过专门的“治理”过程,而这个数据“治理”的过程需要很大的成本投入。因此,原始数据不能直接作为公共产品供人们任意使用。数据越原始,它的风险就越高,越需要治理,也需要管控数据风险。国际社会开始探索管控数据风险,实现数据有序使用的体制。例如欧盟的“数据空间”就是搭建不同数据持有者之间安全交换的通道。数据作为基础设施的另一个缺点是,数据作为基础设施取决于数据使用者是否有能力把数据转化为有价值的信息、知识或者行动。数据越原始,对于数据使用者处理数据的素养和技能要求就越高。这也说明“数据作为基础设施”这一观念是行不通的。数据作为基础设施的理念催生了“开放数据”(open data)实践,经过不到10年左右的探索,发现开放数据根本无法长期开展。所以,目前的公共数据开放有了两大理念转变:一个是公共数据从无条件开放转变为有条件、受控开放,而有条件、受控开放就是数据流通;二是从原始数据的开放到产品化数据的开放。这两个转变事实上让公共数据无限接近于我们现在所讲的数据要素建设,让公共数据开放成为数据要素市场的重要组成部分。

所以,数据基础设施的目的是最大化实现数据的可重用。以数据社会价值的有效实现为目的,设计治理数据的基础设施,在控制数据风险、协同各方利益的情况下实现数据的社会化利用流通基础设施,这是构建数据基础设施的重要方面。业务可行、技术支撑、制度保障的支撑商业和非商业的数据流通技术架构是流通基础设施的核心。

二、数据流通的困境

我们今天之所以要讲数据流通基础设施,就是因为数据是独特的资源,传统基于产权的市场体制不适合数据社会化利用。我们长期参与了我国数据交易所的制度设计,在数据流通方面也做了很多的实践和探索。要理解数据流通首先要理解什么是数据要素。虽然数据只有挖掘出知识才能成为生产要素,但是人工智能发展所需要的原材料是“经过治理的原始数据”,因而我们需要解决的是原始数据的流通,而不是数据分析产出智能成果的流通。如果没有数据要素的流通,就不可能产出更多的模型,产出更多的知识,就不可能赋能实体产业。所以,数据要素可以做两个层次的理解:第一层次是原始数据,它是生产知识的要素;第二层次是数据生产出来的知识,是我们社会经济的生产要素。“数据作为生产要素”要做这两个层次的理解,如果单纯地认为数据就能够直接解决企业高效运营的问题,那就把数据要素简单化了。我们要构建的是基础的数据流通,培育数据要素市场的目的是促进人工智能的研发和应用,促进知识的生产,让技术驱动数据转化为真正的社会生产力。

在现有制度下,数据的社会化利用是被忽略的。法律从来不干预、不介入事实数据的利用问题。“公开即可利用”就是我们当前数据利用的基本观念:只要能够爬取数据,那么就能利用数据。但是这并不符合数据与人工智能产业发展的需求。数据智能需要大规模、高效率、低成本获取数据来“跑模型”,支撑各种机器学习,形成类似于ChatGPT的智能产品。这就需要构建一套能够实现低成本、高效率数据流通的基础制度。

从现有的探索来看,实现数据社会化利用的体制有三

其一,公共数据开放。几乎世界各国均把公共数据的开放作为数据社会化利用最重要的基础设施。只是现在我们应当更新观念,将其纳入可行的数据流通基础设施。公共数据和其他数据利用最大的区别在于数据的来源不同,公共数据是政府在从事公共服务过程中形成的数据,且数据生产的成本源自于纳税人,因而理论上数据初始产生具有公共负担性,但是公共数据的开放需要解决数据治理成本和和管控开放利用风险的成本问题,这一点又类似于社会数据的流通利用。

其二,行业数据共享。除了公共数据开放,人们还把行业数据共享共用看作实现数据社会化利用的另一基础设施。典型地表现为行业数据空间或称数据共享合作空间。任何数据基础设施都有外部效应,会对社会产生积极影响。所以行业数据空间是对整个社会发展有利的,我们需要通过构建行业数据空间来完善数据基础设施建设。

其三,数据市场。最后一种数据社会化利用模式数据市场。“市场机制”实际上就是个体持有数据并开展有对价地流通数据。这种对价既可以是金钱,也可以是交易机会或某种商业合作。所以,数据要素市场实际上是让数据持有者在互信互惠基础上进行数据交换,并通过有偿形式实现数据流通。

实际上,前述的三种模式都是我们现在需要去探索构建的,而在构建过程中需要解决三个问题。第一个问题是数据治理的成本问题。无论是公共数据开放,行业数据空间还是数据的市场化交易,都要降低交易成本,而数据流通最主要的成本是治理成本。数据的生产其实在多数情况下是人类活动的“副产品”,但数据治理的成本却非常高。第二个问题是数据流通的管控成本问题。数据流通过程当中的管控风险成本甚至高于数据治理的成本。实际上,解决这一问题的核心就是“数据二十条”中所指出的数据产权与数据风险与利益分配的问题。第三个问题是信任问题。信任是数据流通的基础,数据流通之后,数据使用者用数据从事什么目的需要让数据提供者知悉。如果数据提供者不能充分了解使用者的用途和目的,数据流通就会产生信任危机。因此,要鼓励数据流通,就要让数据持有者能够放心地把数据交给数据使用者。至少数据持有者能够去监督、控制、审计数据使用行为,以降低数据流通中的不信任。

这三个问题的解决很难依赖传统基于产权的市场经济体制。产权是什么?产权就是所交易标的物的合法性,信赖产权交易就可以实现交易安全。传统产权制度构建了一套以产权公示为基础的交易安全保障机制,构建解决信任问题。比如说交易标的界定、工业产品的标准化,其核心就是信赖,只要产品符合标准消费者就可以放心购买。产品质量的评价、监督机制也能够减少我们的交易风险。因此,传统经济范式的信任是建立在产权基础上的。但是数据的流通面临两大不确定性问题。第一,数据交易的标的不确定。数据是可用的社会资源,但它处于不断地流动当中,数据形态不固定,价值不固定。数据流通利用只有到达最终点时,即到算法模型形成知识分析报告时才成为真正确定的产品(亦被称为数据产品),而在此之前的数据交易标的都是不确定的。这就导致数据产权的不确定。简单地说,获取、控制数据并不能够消灭数据上其他主体的合法利益,所以,对数据的控制并不意味着对数据享有完整的权利。一个主体控制了数据并不等于拥有对数据的绝对支配权。因此,在数据流通的过程中就需要去界定数据的流通是否合法。实践中,数据在数据交易所挂牌时,一般都需要请律师事务所“背书”——评估数据产品挂牌交易的合规性。数据持有者只要合法取得和控制数据,就可以使用数据,但是,在其流通时还必须证明具有合法的流通权,以确保数据流通的合法性。

基于长期认知和观察,我一直认为数据流通交易不是基于传统产权的社会化的竞争交易。因为无论数据再怎么产品化,都难以达到传统的有形产品的标准化程度,难以实现数据的社会化流通。相反,大多数的数据都是非特定化、非竞争性的交易,应该在受控的环境下完成。所以,数据流通应当是在受控环境下才能实现让使用者放心使用数据。因为数据流通实现特定目的的分析或计算,数据使用者最担心的问题是所获得数据是否真实、完整,是否可自动地实现关联分析或计算;而数据提供者最为担心问题是,数据使用者是否会将数据用于约定以外的目的甚至滥用或违法使用,给自己带来不利益或风险。因此,以数据的特定使用为交易对象的数据流通一定是一个结构化的市场,而不是一个充分市场化的竞争的市场。数据的结构化市场往往会借助中介、流通服务机构等第三方角色来实现数据的流通交易。而这便成为数据流通的基础制度,数据流通的中介机构承担着制定数据产品标准和流通规则,实现整个数据流通交易的安全、可信与可控的重要任务。

三、可信数据流通的基本架构

那么,如何打造可信数据流通环境呢?信任是任何交易、合作的前提。如果一整个市场的信任机制建立起来了,就可以减少机会主义、搭便车、滥用等道德风险。为了构建“可信数据流通的空间”,我们提出了一个可信的数据流通架构。该数据流通架构以主体可信、流通数据可信与流通过程可信为基本逻辑。其中,数据主体可信,是指要设置一个门槛,对流通主体进行身份认证,从而对身份的信用管理形成一套既有门槛也有约束的机制。流通数据可信,是指进入流通的数据的来源要合法,符合数据标准等等。流通过程可信,是指数据流通的过程要安全、合规和可控。这三个逻辑构建出“可信数据流通架构”的标准基本原则。今天下午我们将讨论“可信数据流通参考架构”,以争取通过国家标准立项。

大家知道,未来世界的竞争在于数据智能,在于数据社会化利用规模和效率,而在这方面,世界各国均在探索有效的实现方式。比如,欧盟的“数据空间”就是保持数据持有者对数据自主权前提下,实现数据安全交换或分享使用的信任机制。我们提出的可信数据流通参考架构旨在寻求适合中国国情的可信数据流通解决方案。

为了增进大家对可信数据流通理解,我们今天还要发布一份“数据跨域管控白皮书”。在我看来,数据流通的本质上是数据跨持有者控制域的使用,而跨域管控是解决流通过程可信的重要措施。

四、《数据跨域管控白皮书》简介

从技术的角度来看,数据流通就是在别人的环境下来使用数据。这个环境是不是可信,是不是能够管控,是不是可追溯,都属数据跨域管控亟须解决的问题。我们目前提出的这个跨域管控架构与“数据二十条”是一脉相承的。“数据二十条”建立了一个广义的数据流通概念,而我们的可信数据流通以及跨域管控同样覆盖到整个数据流通利用过程。《白皮书》的出发点就是针对数据流通当中的风险点,具体实施数据管控措施。数据管制的基础就是法律要有清晰的责任分配规则和明确的数据流通利用规则。在法律规范的基础上,明确责任主体,运用技术、管理等手段,实施与安全风险程度适配的技术和管理措施,实现数据流通前中后的全周期管控。“跨域管控”的最终目标是实现数据流通的风险可控制,合规责任可证明,数据责任可追溯。具有内容由请我们团队的陶冉作具体介绍。

谢谢大家!

(本文是高富平教授在第六届中国数据法律高峰论坛上发言,根据记录整理并经讲者润色定稿)


责任编辑:马小涵