一、引言
数字经济时代,数据成为社会最为重要的资源,支撑数据收集、存储、分析和使用的基础设施成为创新发展的关键驱动力。数据是人工智能研发和应用的基础,人工智能的广泛应用将开启人类智能和机器智能相互补充和促进的认知革命。大规模、高效率、低成本获取可用数据资源,训练算法、机器学习,形成驾驭大数据能力,快速和精准产生观点或知识,成为当今世界各国发展和竞争的焦点。我国于2020年正式将数据列为第五大生产要素,以数据资源替代“数字化知识和信息”作为数字经济的关键生产要素。《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称“数据二十条”)提出了要加快构建数据产权、流通、利益分配等数据基础制度,构建以数据使用权交换为核心的数据流通体制。促进数据可信流通,做强做优做大数字经济,增强经济发展新动能,是构筑国家竞争新优势的标志性、全局性、战略性举措。
自2014年起,我国开始探索数据流通交易制度,多家数据交易机构挂牌成立,但数据交易业务的开展却未能符合预期。在“数据二十条”发布之后,又有多家数据交易所(中心或公司)开设运营。这说明业界仍非常期待通过数据流通交易带动数据要素市场建设,满足社会日益增长的数据需求。但是,无论是政策制定者,还是产业界,对于什么样的数据可流通交易,可流通交易的数据应当如何流通等基本问题还未形成共识。从一些地方出台的法规或政策来看,“先确权登记,后流通交易”成为促进数据流通交易的基本思路。如《北京市数据知识产权登记管理办法(试行)》《江苏省数据知识产权登记管理办法(试行)》《浙江省数据知识产权登记办法(试行)》《深圳市数据产权登记管理暂行办法》等。换言之,地方实践多将数据流通交易纳入产权交易路径,过度依赖产权范式实现数据社会化配置和利用。但问题在于,数据上不可能设置清晰的产权,并构建以产权交易为核心的数据社会化配置和利用的体制(即传统的市场范式或产权范式)。这是因为,数据只是对客观事实的数字化记录,人类需要借助数据来认知客观世界,数据上不适合设置排他性支配权。同时数据本身具备可无限分享利用属性,也不适于传统的产权范式。在人类社会进入到利用底层数据(大数据)时代,我们既需要结束“凡是能爬取的皆可用”的无序利用局面,也需要防止通过先发优势(类似于物权法的先占制度)而垄断使用数据的局面,以保护各社会主体获取和使用数据的权利。
自2015年《促进大数据发展行动纲要》发布之后,我国一直致力于部署行业性、地方性、区域性的国家数据中心建设。究其本质,是为构建未来的数据基础设施,以支撑数据的流通利用。与此同时,地方政府和社会资本也十分积极投资建设市场化运营的数据交易所(中心)。但是,这些数据基础设施在定位和运营机制方面均存在问题,导致数据流通实践并不符合预期,制约了我国数据社会化重用目标的实现。笔者认为,“数据二十条”所提出的以数据持有权为基础,通过数据使用权实现数据流通使用是适合数据资源特征的制度安排。在当下,关键是要找到实现数据社会化配置和利用的落地实施体制机制。为与传统资源的社会化利用相区别,本文将数据的社会化配置和利用称为“社会化重用”,实现社会化重用的方式就是数据流通(亦称为数据分享),数据流通就是数据要素市场——数据经济。若传统市场经济的高效和安全运行是建立在产权信赖基础上的一套制度体系,那么我们只要寻求到能够实现数据社会化重用的可信数据流通制度就可以实现相同的目的。因此,本文尝试提出可信数据流通的制度框架,围绕为什么、是什么、如何构建可信数据流通基础制度三个方面展开论述,以探索缺失可交易产权的数据社会化重用秩序的实现,构建与治理范式相适应的数据经济秩序。
二、为什么建立可信流通制度:数据流通可信的重要性
数据流通是脱离原数据持有者控制环境,满足不特定社会主体在新场景下或为新目的使用。对于数据接受者(使用者)而言,数据提供者提供的数据要可信赖,获取和使用可信赖的数据,不仅可以做出正确的决策,也不会因使用给使用者带来麻烦;对于数据提供者而言,数据使用者要可信赖,即数据提供者可以信赖使用者遵守使用约定,以合乎道德和法律且安全和负责的方式使用数据,不会给数据提供者带来困扰或风险。要实现高效率、低成本地关联、汇集一定规模的可用数据,更加需要信用机制来填补数据社会化重用制度的空白;同时,数据本身又是来源于社会具体场景的多源异构性资源,其社会化重用(即数据重用或流通利用)面临传统资源所未有的独特难题。构建适合数据资源特征的社会信任机制,方能破解这些难题,实现数据的有序利用。
(一)缺失产权的数据流通
市场经济下,资源社会化配置和利用是建立在产权交易的基础上的,产权是资源持有者合法持有交易资源和有权处分(交易)的法律凭证,由此建立起了基于合法产权的信任机制。在现行物权法体系下,物权取得以消灭物上权利为原则,所有权人可以通过买卖等将所有权转让给他人,每个物上只有一个权利和所有者。通过权利公示机制,可以建立一套物权公示和公信规则,指导购买人判断出卖方有无合法产权。与此同时,善意取得制度使善意且尽到合理注意义务仍不能发现出卖人无权或权利存在瑕疵的情形下的买受人得到保护。
实际上,即使构建起明确的产权信任,仍然不足以保障交易安全,还需要约束当事人诚信交易和遵守市场规则的监督机制。为此,人类社会建立起一套法律制度规则和执法体制,确保权威的法律制度及其当事人之间的合约能够得到执行;同时通过自然人和组织信用评估、公示等制度,建立信用约束机制,以约束行为人恪守规则和承诺。公平、透明和稳定的制度以及基于制度执行和社会信用的双重约束,塑造了市场经济的信任。显然,传统市场经济的制度约束和信用约束机制仍然可以适用于数据资源的社会化配置和利用,解决数据流通中机会主义行为的风险,确保有效达成的数据流通交易得到执行和交易目标的实现。
但是,数据资源的取得、控制和使用并不能消灭数据权益,数据上可以并存个人隐私利益、国家安全利益、社会公共利益等,数据持有者并不享有完全自主决定权。这样,数据合法控制并不能够产生持有者有处分权的信赖。即使实践中我们可以清晰界分数据持有者对特定数据的控制,但是单凭控制事实并不能产生产权信赖的效果。即使将传统的产权登记引入到数据资源,也不太可能解决登记的数据持有人享有什么数据的问题。当数据内容和价值相对固定时,如支撑特定科研项目或成果的数据集,登记可以起到公示数据持有关系的作用。但是,数据大多在不断产生、流动和汇集(混合或结合形成新数据),数据仅在某个主体的某个使用时点上是稳定的,总体上却是不断变动的。传统的占有(事实控制)权利推定和登记公示权利的机制并不能直接适用于数据资源,我们无法通过合法产权机制来建立对数据可流通的信任。因此,我们需要寻找确保数据可安全地流通利用的信任机制,弥补传统产权信任机制在数据流通方面的缺陷。
(二)  可流通数据标准的缺失
产品技术规格的标准化造就了不断扩张的社会化分工生产和市场交易,产品质量标准化和产品质量监督管理体制使所有交易相对人或消费者可以依赖产品的品质,提升了市场交易主体对交易标的物(商品)的信赖。信息技术驱动第三次工业革命,其具有兼容性和互换性的特点,不仅涉及通信协议或网络协议的标准化,也涉及信息格式和操作系统的标准化。当数字技术发展到利用网络和传感器记录原始数据并形成机器智能的新阶段,可机读数据可社会化重用的标准成为支撑数据流通利用的必要前提。
大数据是社会活动和运营活动的产物,数据社会化重用所面临的主要问题就是在特定场景和业务或活动目的下产生的数据能否为他人使用(计算分析)的问题。数据的场景性导致数据存在多样性、异构性,脱离原场景数据几乎很难理解和使用,数据语义是否可理解、格式是否一致、机器是否可识读等成为数据可重用的主要技术障碍。只有具备可重用性的数据才能成为可流通的产品,在不断重用中的累积、聚合与增长使得基于海量数据的数据智能得以实现。由于数据重用是为满足机器学习或训练的目的,因而数据可重用性还要求存储、处理和传输数据的系统达到彼此兼容、连接的程度。这就要求可重用的数据一方面具有一致的描述框架或数据标准化记录规范,另一方面具有相同的数据表示格式。满足这两个方面的数据也被表达为具备数据互操作性(Interoperability)。电气与电子工程师协会(IEEE)将互操作性定义为两个或多个系统或组件交换信息和使用已交换信息的能力。互操作性使数据要素成为任何市场主体使用的产品,使数据要素具有市场化的可流通性。数据可重用问题实质演变为数据要素的标准化问题。大数据最大的特征是异构多源,因而要使来源于不同系统、不同主体的数据能够方便地相互连接起来,就需要建立清晰和一致定义的数据要素描述规则。这样,无论数据流通到哪里,无论想获得什么见解或想解决什么问题,都能够正确理解所获得的数据,与更多数据实现匹配和聚合。
一旦将数据视为可以为不同主体使用的可流通的“产品”,除了需要在技术上可互操作外,还需要数据具有可以满足使用者需求的质量。数据使用者要信任其接受的数据是准确、完整、最新的,能够满足其分析需求。只有构建可靠的数据治理体系,才能实现这一目标。数据提供者只有按照一致的标准才能将数据治理成为可重用的数据,并按照数据使用方协议要求提供适合合同目的需要的数据。现在已经有一些国际组织努力建立数据标准,涉及元数据和词汇表,以形成搜索和浏览可重用数据集系统。构建有效的治理和质量管控体系,才能确保对外提供的数据满足潜在的使用者的需求。
(三)数据的风险控制难题
数据是有风险的资源,数据上并存各种利益,数据泄露和滥用会侵害数据上权益,存在危害国家安全的风险。这是因为数据源于社会、用于社会,社会中各种利益均会关联或折射到数据或数据使用上,导致数据并不能完全被作为客体来对待。因此,数据持有者要使用数据并发挥数据要素价值,就必须保护数据上的合法利益,维护国家安全,防范数据泄露和滥用风险。数据安全问题是数据资源或资产化利用面临的较为独特的问题,也是数据使用和流通的前提。
数据流通意味着跨主体控制地域的使用,在这过程中可能会产生两种额外的风险。其一为流通过程中数据泄露的风险,即数据在移转(传输、调用等)过程中,被泄露或被不法(含超权限)访问的风险。其二为流通后数据使用者的道德风险。在数据交付使用过程中的泄露风险,源自数据本身特征,在某种程度上可借助安全传输或系统控制来降低或防范。但是,一旦脱离提供者可控制的系统环境由使用者完全控制使用后,是否超约定范围使用、滥用甚或违法使用就完全取决于使用者的诚信。尤其在数据有多重来源和多个使用主体的情形下,会增加使用者的冒险行为,进一步放大风险。如何控制流通后数据使用行为,让数据流通过程可追溯、使用行为可以追责,防范使用者道德风险是数据流通面临的主要问题。
因传统货物贸易的风险均被打包在产权之下得到解决,存在于数据流通中的风险在传统货物贸易中几乎不存在。在传统物权体制下,物权取得规则尽可能消灭物上他人利益,并形成一套清晰规则以判断物权是否清洁或是否涉及他人合法利益,货物的交付(运输)风险通过产权或货物移转风险移转规则得到清晰的界定。一旦成为新所有权人,则独立承担一切使用风险(一般不牵连到出卖人)。对比之下,数据要流通就必须正视数据流通风险,在没有产权工具界分责任/风险的情形下,需要建立数据流通过程可监督和责任可追溯机制,降低源自数据本身和流通交易的双重风险。
(四)数字化远程交易的主体信任问题
数据交互和分享使用是社会运行和交往的必然要素,因而即使在没有成熟的数据流通市场的情况下,也存在数据互换使用或合作,但一般限于具有商业往来或合作基础的组织之间。这是因为,在过往的相互了解或交往基础上形成的人际信任可以增加数据合作的机会。陌生人之间则缺失这样的基础,此时就需要契约型信任作为替代,而契约信任则需要法律制度提供保障。由于数据天然地具有可以被网络传输或处理的属性,数据流通往往通过网络进行,开展数字化的远程交易。因此,数据流通也面临所有网络交易同样具有的身份和行为安全问题。这是因为数字化远程交易给契约信任带来了新问题——主体信任问题。因为不管是身份信任还是契约信任,都以主体确定作为前提。然而在网络环境中,行为主体具有虚拟性,基于主体确定的传统信任关系受到严重挑战。因此,要在数字化平台实现数据的社会化流通,还必须解决主体的身份判断和真实性问题,解决将特定数据行为与特定主体关联起来的行为(责任)归属问题。
源自数据本身的特殊性影响了数据流通交易的安全和效率,可以借鉴人类在塑造市场经济信任体系方面的法律制度方法,运用法律执行、信用惩戒、交易担保等为数据流通保驾护航。因数据资源本身的特性,无法基于传统的产权制度构建社会化流通利用的制度体系。“数据对于构建有能力的人工智能和数字系统至关重要,值得信赖的数据生态系统能够实现安全无缝的数据流。”在进入智能时代之后,高效率、低成本、大规模汇集数据的需求迫切要求解决流通信任问题。这不仅需要解决流通交易过程的安全问题,更需要解决对实施数据流通的主体的信任问题。只有确保收集和使用数据的主体可信,才能开展后续的数据流通交易。
三、可信数据流通制度的内涵:可信流通框架
信任本质上是指信赖人对受信人未来行为和/或事件(在特定的外部/环境条件下)的发生的期望。在社会交往(包含商业交易)中,信任是人们交往和合作行为的基础,是传统市场经济的重要组成部分,可以减少机会主义、“搭便车”等道德风险。数据本身是有风险的资源,缺失基础制度、清晰产权、可流通数据和流通规则的情形下,数据流通面临着标的界定和制度规则双重的不确定性,因而数据流通迫切需要建立一套制度规则和治理机制,确保在不同主体之间数据流通的安全。在这里,信任的打造需要与数据流通交易的特征相适应(数据不确定性、产权不确定、远程交易、流通风险),同时也需要考虑数据流通制度范式的差异性。基于数据流通特征,可以从流通的数据可信、主体可信和过程可信三个方面来构建数据流通的信任,而对于数据流通制度范式的不同则需要考虑合作关系的信任问题。
(一)流通关系可信
数据持有权是数据流通交易的基础,而数据流通的内核是允许他人使用数据,数据流通往往是持续性合作关系。同时,这种合作关系又是在产权不清、利益分配较为模糊的情形下展开的。为此,数据流通依赖持续的治理,以协调利益相关者的需求,实现共同合作目标。任何数据流通组织都需要为所有参与主体持续开展治理数据、分享数据、使用数据、创造价值并公平分配价值提供条件和规则。
信任是所有交易和合作的基础,当然也是数据流通关系的基础。既有研究已经揭示信任的形成机制及其对合作关系的影响。信任对于处理不确定、不可控或有风险的情况至关重要。信任意味着“接受一些潜在伤害的风险,以换取合作的好处”,其既源于过程(与过去或预期的交换挂钩)和主体特征(与人的社会特征),也源于制度。“制度框架定义了不同行动者之间信任关系的性质和强度。”信任不仅仅是对人的信赖,还需要制度约束。传统的产权交易建立在对产权和契约的信任之上,同时通过相关法律制度和执法体系来保障产权和契约安全,最终实现制度信任。
但是,数据流通面临的信任和安全问题与传统商品交易不同。数据流通安全不仅仅是将确保符合品质要求的交易标的安全交付,它需要持续地管理整个过程以满足使用者的使用需求,消除提供者对数据使用者是否会越权使用、滥用或违法使用,进而给自己带来不利益或风险的担忧。因而,数据流通本质上是分享数据价值的合作关系,对于信任要求更高,实现路径更加复杂。因为对于合作而言,信任不仅是进入的前提,更依赖参与者对合作后果的稳定预期。如何经营和维护数据流通关系、让每个参与者有利可图,显然非常重要。这意味着,我们需要引入可信的数据治理框架和机制,使流通参与者信任并维持数据合作关系。
显然,在类似数据流通的协作关系中,信任是随着参与方反复互动而发展变化的。合作信任是一个复杂的系统过程,涉及同时对关系的多个维度进行持续评估和调整。因此,需要一种多维方法,同时关注信任在合作关系的不同阶段所扮演的不同、多向的角色,以及所涉及的不同类型和水平的信任。若把合作信任复杂过程的实现看作治理过程,那么良好的治理机制就成为促成合作关系成功的重要砝码。由此,我们可以得到初步的结论,即数据流通需要治理,而治理的可信度关系到数据流通的信任。
可信治理构建可信的合作,良好数据流通框架和机制成为可信数据流通制度的基础。如果在合作型关系中“需要把信任作为一种资源来加以认识、开发和利用”,那么数据治理就成为一种资源,甚至一种社会资本。21世纪产生的社会资本社会学理论认为,可以基于信任、合作规范和网络三个维度,发展出三种理想的社会资本类型:联结、桥接和链接(bonding, bridging and linking)社会资本。社会资本被视为不能被个人单独拥有的社会资源。数据持有权可以作为开启数据社会化重用的工具,但它本质上是依赖治理机制实现的制度安排。也就是说,它不是持有者说了算,而是在协同来源者、使用者、社会和国家利益的前提下发挥作用。数据持有权的作用在于构建数据社会化重用的秩序、实现数据社会价值,而不是持有者个体利益最大化。正是在这个意义上,数据持有权是治理范式的产权,数据流通是治理范式合作关系,数据经济是治理范式的经济。在这样的转变下,传统的产权信任被替换为数据流通治理机制的信任。可信的治理是与数据流通方式适配的制度信任机制。
(二)流通数据可信
在当今数据驱动发展的背景下,数据的完整性至关重要。确保数据的准确性、完整性和一致性对知情决策、法规遵从性以及分析和机器学习工作的有效性具有深远的影响。数据可信是指在特定流通环境中,数据提供者所提供的数据是合法的,是符合其特定数据标准和其描述的质量的可用数据。数据的可信是数据治理的结果,同时也有一种确保数据描述是直接可靠或可验证的机制。
从科学研究的角度,数据可重用性有三个标准:相关性、可理解性和可信度。相关性是指数据与研究问题的关联程度;可理解性是指数据的意图含义能否被理解;可信度是指能够在多大程度上信任他人(如不同学科的其他人)创建的数据。虽然数据的收集和分析利用需遵循严格的标准和规范,但是要实现数据的重用仍然需要重新构建现有的信任机制。不仅要约束生产数据者(研究者)以遵守某些规范,确保数据质量和可靠性,而且还要确保管理数据的主体(curators)负责地进行数据治理,确保重用数据的可信赖。在信息资源管理领域,数据整理(data curation)是实现数据可重用的基本措施。
数据整理的基本目的之一是支撑当前和未来的数据使用,因而是实现数据重用的前提条件。数字整理中心(The Digital Curation Centre)认为,数据整理的良好实践可以以多种方式支持数据重用,确保重用者能够长期可持续地访问他们可以信任的高质量数据等。一个完善的数据管理基础设施,通过公开数据以供重复使用,将有助于新的发现,并确保获得和保存学术成果。
大数据应用给数据重用带来了更大的挑战。在大数据生产周期管理中,一般以数据预处理或者数据清洗来表示将数据处理成为可用数据(一旦标准统一即可实现可重用),同时人们也使用数据质量来描述数据的可用或可重用性。实质上,这里的数据预处理(数据清洗)就是数据的整理,两者具有相同的功能和目的。因此,我们用“数据整理”来表示以数据可重用质量为目的的治理活动。但是,相对于数据重用治理而言,大数据重用治理面临两个独特的问题,影响到使用者对数据的信任。其一是数据的质量要求维度更多;其二是数据来源的可靠性及合法性问题。
关于数据的质量,一般理解为数据具备准确性、完整性、一致性、及时性和有效性。这些质量维度主要是为解决数据场景性、异构性带来的重用难题。数据真实性反映描述对象(客体)所处时段状态,完整性反映记录和元数据描述的全面性,使数据可用于计算分析,做出正确决策;数据格式一致、数据模型标准化,数据才好用,才能自动关联匹配,实现分析目的。因而数据的信赖本质上源于对数据质量的信赖。一般认为,只有实现来源可验证或可判断,才能对数据质量产生信赖。在这个意义上,来源可靠才是验证经过治理的、符合一定质量的数据可信的根本依据。大数据来源多样性给数据来源可靠性带来了新挑战,为实现流通的数据可信,需要建立闭环的数据流通环境,使数据流通过程可追溯、可审计,为数据可信性提供支撑。
数据的合法性也影响到数据信任。数据上并存各种利益,获取和持有数据并不能够完全消灭数据上的利益,因而数据持有者是否享有处分(流通)数据的权利、数据接受者是否可以取得特定数据使用权,均需要结合特定的场景加以判断。显然,如何判断数据的合法性,降低识别判断的成本和数据流通利用的风险,是所有数据接受者最为关注的重点,也是流通数据具有可信性的依据。
为了支撑流通主体对流通数据的信任,需要发挥各种数据中介机构的作用。比如开放数据研究院(ODI)提出了数据保证(Data assurance)概念,并将其定义为“提高人们对数据满足特定需求以及对各组织能以值得信赖的方式收集、访问、使用和分享数据的信心的过程”。为此,ODI开展了包括建立开放数据成熟度模型等大量工作,推进数据可信赖。为了确保人们对特定数据的信任,对于特定组织或特定行业的数据实施唯一“数字对象标识符”(Digital Object Identifier)编码,制定统一的标准,持续维护体系的数据质量,应当成为提升数据信任的重要措施。数字对象标识符标准不仅是一种命名方案,也是一种以可持续的方式来持久化引用的对象;不仅是唯一标识所指示的对象,也能够识别其转换的每个结果。因此,建立关于来源和信任的标准化体系对数据流通十分重要。
(三)流通主体可信
任何市场主体交易均需彼此建立信任,数据流通主体之间的相互信任是数据流通可信的重要组成部分。主体信任是市场经济的基础,是任何交易发生的基础。在缺失商业往来信任基础的情形下,交易主体之间的信任通常依赖审慎调查、信用报告或资信评估服务来弥补。这样的机制同样亦可以应用到数据流通之中。数据中介服务的一项服务内容是对进入流通交易的成员提出一定资质要求并建立相应的成员信任管理体系。一般来讲,需要了解对方的业务、资信、数据治理状况等,方能建立对交易相对人的信任。ODI在关于数据信任的调查报告中提出,在个人是否愿意分享数据方面,最为重要的是“是否信任要求分享数据的组织”,可见对使用者信任在数据分享或流通中的重要性。为解决主体信任问题,数据流通中介服务提供者通常的做法是,对进入数据流通市场的主体提出基本资质和资信要求,在加入时要求提供相应的证明,以使所有进入流通的主体具有良好的资质。与此同时,数据流通中介组织还可以建立数据流通主体的信用评价体系,根据数据流通主体基于业务往来的反馈和评价、外部投诉等信息形成数据流通主体的信用约束机制。这样,数据流通就可以形成从入门到后续流通行为的一套约束机制,解决数据流通主体的相互信任问题。
由于数据流通通常是在线远程交易,流通主体之间的信任首先要解决主体身份可信问题。在这方面,数据中介机构或治理结构的信任扮演一定角色。同时,随着我们从物理互动的工业时代进入到数字互动的数字化的时代,技术也成为解决网络交易的信任工具。比如,“区块链技术可以被视为信任中介机构从以人为中介的人际信任向技术中介转变”。不过,更为普遍和基础的是数字身份认证。数字身份不仅包括在任何地方都可以使用的唯一和不可伪造的凭据,还包括访问与身份相关的所有数据的能力以及控制不同情况下呈现的角色(persona)的能力。每个人均可以通过数字身份凭证享有不同的数据访问权限,为此需要有一套数字身份认证管理制度,以实现可信、可审计的数据分享,而不损害个人匿名性或安全性。
数字身份技术具有两个功能:一是确认主体的身份的真实性,确保对应现实中某个主体;二是将该身份下的行为归属于该主体,确保主体做出该行为后,不会抵赖或反悔。许多国家正在探索适应数字社会的数字身份认证管理体系。在美国,为配合“网络空间可信身份国家战略”,MIT组织了政企资深专家研讨提出“稳健身份”(Robust Identity)概念,形成“可信数据互联网”方案。英国于2021年发布了英国数字身份和属性信任框架(之后不断更新),建立了英国数字身份产品信任的规则和标准。“科学、创新和技术部”负责通过提高数字身份的法律地位和为私营部门提供商的数字身份产品引入信任标志,使数字身份“像护照一样可信”。澳大利亚建立了可信数字身份框架,包括可信数字身份认证框架和流程,确保所有身份提供者都符合可用性、可访问性、隐私保护、安全性、风险管理、欺诈控制等方面的严格规则和标准。欧盟早期的欧洲数字身份(eID)只是为了实现国家电子身份方案的跨境互认,在2020年之后亦开始在全面的社会生活中应用。2021年3月,欧盟委员会发布《2030数字指南针:欧洲数字十年之路》,提出实现的一系列目标和里程碑。同年12月,委员会发布了建立“数字十年之路”政策计划的提案。欧盟理事会和议会于2022年12月签署了《欧洲数字权利和原则宣言》,设想“生活在欧盟的人们有可能使用可访问、自愿、安全和可信的数字身份,从而获得广泛的在线服务”。
以人为中心的身份认证体系也可以应用到组织,为组织管理员工的数字行为提供技术手段,支持数据资源的交换或流通。在不久的将来,可能需要对数字身份进行更广泛的定义,以解决虚拟实体、AI“机器人”和自然资源的身份问题,从而建立识别和认证的数字机制。例如,欧盟数据空间设计中,对设备、App等软硬件进行认证,是一种全面地解决数据流通环境安全的制度设计。
正如所有的身份系统存在隐私问题一样,数字身份系统会给数字隐私和数据保护带来风险。但是,数字身份系统也为加强保护提供了新的机会和技术手段。因此,数据隐私和安全措施应当嵌入到ID的整个生命周期。这也就是说,数字身份带来的隐私和安全保护问题可以通过数字技术和法律规制加以解决,采取组织、管理和技术的措施保护。
综上,为构建数据流通可信环境,需建立稳健的数据流通参与者数字身份认证和安全管理体系,确保身份唯一和不可伪造,实现主体行为可界定、数据访问权限可验证和访问过程可控和可审计。同时,对流通主体资质进入审核并对其流通行为开展信用管理,可构建数据流通主体的信任。
(四)流通过程可信
数据存储于特定系统之中,通过技术工具调用、传输、计算处理,不能脱离系统场景而存在和使用。数据持有者也是通过对系统的控制来实现对数据的控制,记录数据被调用、访问或处理的过程。数据流通意味着跨域使用,即数据由原持有者控制的系统域进入到使用者控制的系统域,由使用者控制使用。这相当于将数据的命运全部交到使用者之手。但是,由于存在以下两个原因,数据提供者(持有者)需要对数据接受者(使用者)的使用行为进行限定和控制。
其一,数据流通需要界定和控制接受者的数据使用权。一般而言,数据的价值多样,数据存在宽泛使用域,数据持有者提供数据给特定主体使用通常会通过数据流通协议或许可协议限定使用领域、场景、目的、方式、期限、频次等,清晰地界定接受者的数据使用权限。正因如此,数据流通被定义为数据使用权交易,而使用权则依赖当事人之间协议来界定。但是徒有协议约定不足以执行,还需要配合一定的监督和约束机制,约束接受者遵守协议,这便涉及数据流通中使用控制问题。
其二,数据流通需要控制数据流通的风险。数据是客观世界的映射,数据权益是多元主体间的复杂权益网络,社会主体既有的受法律保护的利益并不因为人们对数据的获取而丧失,因而无论是原持有者使用还是接受者使用,均必须遵守法律规范,保护数据上的合法利益。由于数据流通在数据提供者与数据使用者之间存在清晰的数据来源关系,所以数据流通会产生基于流通关系的独特风险:对于接受者而言,如何判断提供者的数据具备合法性(通常符合共识标准的治理后数据是可信的),如果不合法自己要不要承担责任;对于提供者而言,所面临的风险是数据接受者是否会依约定使用数据,是否可能滥用或违法使用且是否会牵连到自己。显然,这需要清晰地界定数据本身瑕疵(侵权或违法)责任和后续使用的责任,并建立清晰的责任分配规则。既需要有合理和透明的规则,也需要技术支撑责任的认定,否则双方就没有稳定和合理的预期,数据流通就难以开展。
数据流通可以仅有流通过程(交付)控制。数据提供者甲经过数据流通中介搭建的环境将特定的数据交付给接受者乙,乙在自己的系统中使用。数据中介可以证明乙从甲处合法获取了数据(证明乙的数据来源),而对乙获得数据的使用则无法记录和审核。这样数据流通仅适用于数据处理程度较高、用途单一、风险不大、对提供者市场没有直接影响的数据,通常不适用于原始数据,更不适用于敏感数据。
为了控制数据流通利用中的隐私风险,可以采取多种隐私保护技术使组织在不牺牲隐私的情况下进行数据利用,如同态加密、差分隐私和功能加密等密态计算方法。但这些技术仍存在两个潜在的问题:一方面,如果没有对数据治理和使用的控制,加密数据掌握在他人手中,仍然存在潜在的隐私或合规风险;另一方面,经过计算的结果仍然存在侵犯隐私或滥用的可能性。即使这些技术能够解决保护数据上利益相关者的权益,单纯的技术应用仍然不能解决提供者和接受者之间关于数据使用权的界定和使用的控制问题。
因此,这就需要使数据流通在全面受控的环境(系统)中完成,使流通过程和使用过程可记录、可控制、可审计,以便在出现违约或违法责任时能够查明事实,分配责任。显然,这样的系统不应当是为提供者或接受者一方控制的,而应当是为可信第三方控制或者共同控制。于是,由第三方构建数据流通系统环境,建立双方可信赖的数据流通规则,建立流通过程和使用过程日志,使过程可被控制、监督和审计,就成为数据流通的必然要求。与此同时,还会根据数据敏感性或流通控制的需要采取各种隐私增强技术或安全计算技术,形成不同的数据流通实现方式。也就是说,流通过程可信是通过基础环境建设加上不同技术支撑的流通方式来实现的。这些技术大致可以分为过程控制、公开控制、使用控制或者它们的混合体。本文以数据流通利用常用的API和安全计算环境(沙箱)为例,对数据使用的控制进行阐释。
API是一套基于功能的安全访问和数据交换的技术方法,是最常用的数据流通方式。从技术的角度,API是自动的计算机交互方式,是一台计算机(或智能工具)可直接访问或读取另一系统数据的通信协议。从法律的角度,API是一种契约,用以界定使用者使用的数据范围、权限或参数、使用时间等。通过API,可以实现实时和按需提供(或获取)数据。通过API的数据读取容易测量、计量和审计,使数据持有者可以确切知道谁、在何时、从何处及如何读取数据,实现对使用者的使用的精细控制。API已经从内部应用走向开放的、基于标准的集成应用,形成基于云的API服务平台,它可以联结不同的数据供应商或数据持有者,使开发人员和企业能够在不管理底层基础设施的情况下创建、部署和管理API。
沙箱是独立于原数据基础设施的受控和隔离的计算环境。沙箱可以用来测试软件或产品,也可以用来分享数据、协作分析数据,因而亦属于数据流通的实现方式。数据沙箱是一个可扩展的开发平台,用于通过交互和协作探索组织的丰富信息集。数据沙箱可以快速集成或聚合数据,用来数据建模、部署分析模型等。数据沙箱被认为是“将数据集和资源汇集在一起的安全、协作的数据空间”。数据沙箱可以由数据持有人建设,形成由其自己完全控制并提供给数据使用者安全计算的环境,也可以由第三方建设和维护,供数据流通双方使用,或者由行业伙伴关系或行业联盟创建,以整合各种数据资源,进行数据组合和使用。在这样的受控环境下,既能够确保数据安全,同时也使数据使用行为得到控制。数据沙箱还可以由监管机构或政府机构创建,作为监管机制用于评估数据在沙箱中的合规和安全性。英国的研究报告认为,沙箱是一种创新治理机制,可以减少监管的不确定性,并提高监管的清晰度和合规性。笔者认为,沙箱可以作为敏感数据流通的一种安全解决方案,它可以使数据持有者完美地控制数据使用者的使用行为,同时,若沙箱中的数据处理方式得到监管部门的认可,还可以解决敏感数据流通的合规性和安全性问题。
总之,数据本是有风险的资源,在缺失清晰产权界定权责利边界的情形下,只有依赖数据流通组织形成参与者共同接受的流通利用规则,建立配套的治理机制,并借助技术手段支撑,才能够实现数据流通过程可溯,数据使用行为可控制,数据使用后果可追责,构建全程可控的监督体系。
四、可信数据流通制度的实现:可信 数据流通设施定位和建设
上述可信数据流通制度的框架涵盖了制度设计、技术支撑和治理机制,需要有机结合后方能落地实施。“数据二十条”明确提出建设“集约高效的数据流通基础设施”,这也成为国家数据局未来的核心任务。所谓可信数据流通设施就是贯彻和落实可信数据流通制度框架的组织。本章围绕上述可信数据流通制度框架,探索数据基础设施的内容和建设路径。
(一)可信数据流通设施:数据社会化重用秩序塑造者
数据流通本质上是合作性质的数据使用关系,社会制度信赖减弱,需要有效治理制度和机制弥补。担当这一重任的便是具体的数据流通组织。在传统市场经济体制下,资源清晰地配置到个体,由个体自主行使财产权,通过公开的竞争性交易和价格机制实现资源的优化配置。为了配合这样的社会化大生产,需要建立一套共认制度规则,以使参与当事人有基本遵循(并降低谈判成本),并使一方对另一方的行为后果有稳定的预期。市场代表着从一个基于个人关系的产品分配体系向一个由透明规则管理的分配体系的转变。规则本身代表了一个“共同的真理”,取代了市场经济之前的社会契约和人际关系。经过权威程序确立的法律制度具有确定性、普遍性和强制性,可以降低人性所带来的风险。如前所述,传统经济范式的信任是建立在产权基础上的,存在一套成熟的规则判断合法产权,以确保交易安全。
但是,数据的流通面临两大不确定性问题。一是数据交易的标的不确定,二是数据交易标的合法性不确定。对于什么数据可流通、可采取什么方式流通、流通规则如何等缺乏正式的制度规则。目前的数据在数据交易所挂牌时,一般都需要请律师事务所评估数据产品的合规性。在数据来源不能追溯的情形下,这样评估也只是就其持有数据的现状作形式上判断而已。毕竟数据只有在被使用的特定场景下,才能判断其使用的合法性,而来源合法性并不能够全面地反映数据流通的合法性。当不存在对世性的数据权利时,只能在具体的数据流通场景和特定生态中,判断接受的持有者的数据是否真实、合法,是否可流通等。此时,流通者对于制度的信任就转化为对具体流通生态中的制度规则的信任。特定流通市场中参与者的共识(自治规则)替代了社会共识(法律制度)。
数据流通基础设施担负着数据社会化重用秩序塑造者的功能。数据流通以数据持有权为基础,但数据流通不是持有权的移转或让与,而是在特定场景下由治理规则和机制塑造的数据使用关系。数据持有权支撑了持续数据供给行为,通过许可使用,满足不同主体的不同且特定化的需要,而不是让渡产权的买卖(产权让与)关系。虽然我们也可以将数据流通主体之间的数据使用关系理解为一种交易,但是交易的对价却不易确定。这是因为数据的价值取决于使用,使用后的产出(知识)和应用价值均具有不确定性。这决定了数据流通是合作性交易;数据流通多以互换、共享、汇集共用等数据合作形式实现,而不是竞争性交易关系实现。正如有学者以健康领域为例揭示的,安全的数据分享可以促进创新,但需要从竞争到合作的转变。实现数据社会化重用的制度规则不是“产权制度+市场交易”,而是代之以在特定合作关系中的权责利的安排,是一种治理范式的经济模式。这需要流通(合作)主体各方在具体场景中确立各自的治理和运行规则,以实现各自的目标。
这也就意味着,数据流通基础设施承载着数据基础制度构建的功能。在缺失产权的情形下,数据流通本质上是建设和维护持续的数据使用关系,而不是钱贷两清的交易关系。数据流通是需要持续管理的结构化的市场,而不是产权交易市场。在这样的结构化市场中,信任是建立在具体的数据流通市场(组织)的制度规则及其有效执行上的。数据流通秩序是“法律制度原则+数据流通治理结构”的双层架构。在某种意义上,我们依赖数据流通组织的数据治理来塑造流通秩序,而不是依赖数据产权来塑造数据流通秩序。
传统的市场经济先界定产权,依赖产权交易和市场机制实现资源的社会配置和利用,而数据资源的社会化重用则是治理范式,高度依赖有组织的数据流通市场(场所)来实现数据社会化重用。应遵循的思路是数据流通动态地配置数据“产权”,而不是数据产权塑造数据流通秩序。我们应当抛弃产权范式来构建数据流通制度,将数据流通构建为适合数据特征的社会化重用制度。国际社会正使用“数据分享”(data sharing)来构建所有商业性和非商业性的数据社会化重用体制,而我国则以数据流通(包含共享、交换、交易、开放等)概念构建数据社会化重用体制。不管用什么基础概念,均要承认数据社会化重用是持有者在保持对数据控制和使用的前提下,依法或依约满足接受者特定使用需要的数据使用关系。而制度规则要解决的问题是在何种条件下、以什么方式提供给他人使用,合理配置各参与方权责利并确保数据社会化重用过程中的合规和安全。所有这些均意味着数据基础制度由“数据持有权+可信流通制度”构成,这样的数据基础制度只能在具体流通场景中建设形成。
(二)  可信数据流通设施运营者:未来社会基础设施
数据流通组织是可信数据基础设施的载体和运营者,应将其定位为社会基础设施运营者。因为数据流通基础设施承担数据社会化重用秩序的构建,关系着以数据协作为基础的社会信任的形成。同时,数据及其使用本身具有社会性,数据流通基础设施可以直接或间接地造福社会,让每个社会主体分享数据红利。
数据的价值在于认知以及生产知识或智能,在赋能个体的同时,也赋能整个社会。数据的不断集成可以产生裂变效应,形成新认知模型和知识,因而数据流通基础设施的目的是构建数据流通的技术和制度机制,促进各种分析和应用目的数据集成的实现。数据几乎在社会和经济的任何方面都是关键资源。在社会学者布迪厄(Pierre Bourdieu)的两类资本理论基础上,澳大利亚的研究者贾坦·萨多夫斯基(Jathan Sadowski)提出数据资本概念。他认为“更好的数据框架作为一种资本形式,不同于经济资本,但植根于经济资本”。“数据资本不仅仅是关于世界的知识,它是数字记录、机器可处理、易于聚集和高度移动的离散信息。与社会和文化资本一样,数据资本在某些条件下可以转换为经济资本。”也有学者认为,开放数据代表着巨大价值的来源,可作为社会资本。其实,数据一旦进入社会化重用序列,那么就可以突破初始领域和目的,用于各种目的,直接或间接地实现经济目的。即使我们不在社会资本的意义上理解数据,数据分析产出的知识也具有外溢效果,使整个社会均受益于知识增长和能力提升。所有的数据基础设施旨在实现数据社会化重用,发挥数据的社会价值。数据基础设施可以是营利性的,但是我们一定应当在它是未来整个社会竞争力的基础设施的角度来定位其建设,将数据基础设施作为未来社会的一项社会资本投资进行规划和建设。
作为基础设施,数据流通应当涵盖政府数据(公共机构持有的数据)开放和社会数据的流通。这是因为两者都是数据社会化重用的实现方式,在实现制度和机制要求方面并无本质差异。首先,数据来源不同并不当然地导致数据重用差异。源自公共领域和社会领域的数据均是用来认知或决策的,数据重用服务的目的源自使用行为而不是数据本身。不是数据来源决定数据性质,而是使用目的决定重用的性质。社会主体亦可以基于社会责任或公益目的而向社会开放自由使用的数据(使受控使用的数据转变为公共数据)。其次,数据的社会化重用均存在合规和安全管理问题。数据对外提供是数据应用于数据持有者控制之外的场景,因而必须进行必要的治理,保护数据上的合法利益和国家安全,确保数据采集、汇集、流通和使用各个过程的合规和安全。无论政府持有,还是社会主体持有,数据对外提供是否合规、是否安全,均需要共同的标准和规则。换言之,政府数据开放和社会数据流通均必须建立在一套完备的治理和管控体系之上。最后,不管数据持有者主体的性质,数据重用均要解决治理成本和流通成本。在这方面,虽然来源于政府的数据不存在初始成本,但是将数据治理成可重用的数据需要成本,而将数据提供给社会主体使用的过程中,建设数据流通支撑系统和部件、成立和运维数据流通组织、管控数据使用风险等也需要持续的投入。只有具有普遍或基本数据需求时才应当由国家投资运营,作为公共产品或服务向社会提供(对应公共数据);在此之外则不应当由国家负担成本,可以吸收社会资本共同运营,有偿有条件地开放。在后一种情形下,数据仍然是在政府控制下使用,与数据流通没有本质区别。即使在前一种情形下,若属于开放的、原始可机读的数据,其使用仍然需要有许可协议、使用风险管控。源自政府数据开放和社会数据流通的差异仅在于来源于政府的数据具有向社会开放的义务,而社会数据的流通应当建立在数据持有者自愿的基础上。开放和流通均要负担数据治理和流通成本,均要考虑数据社会化重用风险的管控。因此,政府数据的开放亦应当纳入数据流通基础设施框架来规划、建设和运营。
面对数据社会化重用困境,国际社会开始提出并探索数据中介制度。来自欧洲的一份研究报告指出,数据中介的目的是数据治理措施,“以确保数据仅在适当的时候被访问和使用,以为利益相关者的权利和/或其他利益得到适当尊重和维护提供安全保证和信心”,“重新平衡数据产生者或拥有数据权利者与寻求使用数据者之间的关系”。虽然也要促成数据供给与需求的匹配,但数据中介并不是传统交易撮合,也不限于商业目的或营利目的,而是适合于各种组织(公共机构、公益事业、企业)实现各种目的(如数据市场的营利目的,或者公益目的或共益目的)。因而数据中介可以因不同组织类型、目的和所在行业而呈现不同业务模式和治理结构,如数据信托、数据共享、数据合作社、数据协作、个人信息管理系统、数据市场或允许数据交易的可信第三方。欧盟研究者在肯定这些中介模式的基础上,试图消弭不同模式的异质性,实现包容性数据治理。美国的数据创新中心所发布的报告也提出了六类数据分享模式,即数据分享关系、数据联盟数据信托、数据合作社、联邦数据分析、合作研究和开放协议,并且呼吁政策制定者应采取更多措施支持开发和采用不同的数据分享模式,以增加美国的数据分享总量。
显然,培育可信的中立性数据中介,实现各种目的数据分享,实现数据社会化重用已经成为一种共识。欧盟的数据空间战略实质上也是构建实现整个社会数据社会化重用的基础设施。在2018年,欧盟将建设共同欧洲数据空间作为实施其数据战略的重要基础,构建数据分享技术设施和治理架构,消弭不确定性和风险,增加对数据制度规则的稳定预期。在2020年2月,欧盟委员会发布的《欧盟数据战略》将数据空间正式上升为欧盟数据战略。欧盟数据战略的核心是构建政府对企业(G2B)、企业对企业(B2B)、企业对政府(B2G)全面的数据分享制度,“创建一个单一的欧洲数据空间——一个真正的向世界各地的数据开放的单一数据市场”。数据空间就是“汇集了相关的数据基础设施和治理框架,以促进数据汇集和分享”或者“基于共同政策、规则和标准的自主权数据分享的联邦开放基础设施”。2022年欧盟《数据治理法》设专章规定“数据中介服务”,目的在于打造安全和值得信赖的环境以使数据持有者能够提供或分享数据。欧盟的数据空间可以概括为“数据基础设施+数据治理框架”,试图构建公共和私人领域数据融合集成的资源池,通过有序分享方式实现数据社会化重用目的。美国国家科学院、工程院和医学院组建的共识小组在2022年发布报告认为,美国需要一个新的21世纪数据基础设施,将来自多个来源的数据融合在一起,以提高国家统计的质量、及时性、粒度和有用性,促进更严格的社会和经济研究,并支持循证决策和项目评估。世界经济论坛发布研究报告认为,可信的数据中介为公共和私营部门提供了行动杠杆,以形成可验证数字政策环境,允许数据在人和为他们服务的技术之间无缝和可信地移动。
可见,构建可以融合不同来源数据,实现社会化重用或分享的数据基础设施,也成为欧美推进数据战略的共识。我国在推进数据要素化、市场化利用过程中,形成了公共数据开放和数据交易市场两条路径,试图通过无条件免费开放与授权运营打通公共数据与要素市场之间的桥梁。但是,其缺点是过分强调两类数据的差异,过分重视市场交易方式。数据应当是社会共用资源,很难运用产权范式采取市场化交易方式实现数据重用。因此,我们应当在社会基础设施层面思考和定位数据流通组织,培育可信数据中介组织。即使是商业化的数据流通组织,只要这些数据流通组织保持服务的开放性(既对数据持有者也对数据使用者保持开放),那么商业化的数据流通组织仍然体现社会公共基础设施的作用。
(三)数据流通基础设施的构件:技术、制度和治理架构
在数据时代,每个组织均离不开数据驱动,都应当建立相应的智能集成系统,用于收集、存储、转移、转换、分析数据,把组织内部运营的数据和外部的数据结合起来。也就是说,每个企业都应当建立“现代数据堆栈”作为未来企业发展的基础。数据流通基础设施是从实现数据资源社会化重用的角度,以数据社会价值的有效实现为目的,以数据治理为核心的技术、制度和组织构成的体系。数据流通基础设施具有协同各方利益,构建业务可行、技术支撑、制度保障实现数据社会化重用目的的能力。在笔者看来,它是“制度设施+技术设施+治理框架”为一体的数据社会化重用支撑系统,一般应当集成以下五类构件:
(1)数据目录
为实现数据流通,我们需要明确谁有数据、有什么数据(可用性)、采取何方式可获取或使用等基本问题。在产权范式下,通过清晰界定数据产权,由产权人通过公开市场要约,通过产权交易实现数据社会化重用。但是由于数据权属难界定,我们需要通过流通制度弥补数据产权缺失的短板,设计非基于产权交易的数据流通秩序。在这方面,可检索、可查询、可计算或调用的现代数据目录可以成为替代传统产权公示机制的数据流通基础设施。
数据目录是一个组织或行业的数据集清单,通常以数据资源分类为基础,建立基于业务词汇表的索引系统,实现数据发现、检索、汇集和流通利用功能。数据目录是多个数据源的数据资产的索引、清单和分类,包括元数据、数据分类和标识符编码等。数据目录一直伴随数字技术发展而发展,现在已经发展为第三代数据目录。现代数据目录是云计算和人工智能发展的产物。行业实践者指出,数据目录是现代数据管理的支柱,能够使组织有效地查找、理解、信任和使用其数据。数据目录不再仅仅是数据的清单、词汇表或字典。它是一个活动的数据资产存储库,可以实现中央数据存储库、元数据管理、数据发现、数据沿袭、数据合作、数据治理、数据集成能力和生成式AI能力八大基本功能。笔者认为,能够实现这些基本功能的数据目录即成为数据流通或数据市场的基础设施。
(2)数据标准
数据的产生和应用具有场景性,数据跨组织(场景/领域/行业)流通必须能够在新应用场景中可理解、可使用、可互操作。数据标准指某个域的每个值(value)都必须符合的格式或表示(format or representation)。数据标准是一种技术标准,用于确保以一致、可靠的方式收集和格式化数据的技术规则和操作指引。数据标准通过提供数据收集、格式化和存储规则,提高数据的质量,实现不同系统、来源和用户之间数据的一致收集和互操作性。数据标准大致包括数据结构标准、语义标准和语法标准。这些不同的数据标准可以独立存在,也可以组装在一起形成统一数据标准体系或框架,以实现在某个行业或更大范围的数据流通。
制定数据标准是实现数据流通的前提,为了实现流通还需要各组织能够贯彻执行标准,即 将不正确或不可接受的数据转换为可接受形式的过程,或者将数据值从不正确的格式转换为正确格式的过程。这一过程属于数据整理(data curation)范畴。也就是说,数据流通需要有两个基础:一是存在数据标准,这个标准可以是组织层面或行业层面的,也可以是跨行业的统一标准;二是进行数据整理,将数据治理成符合特定标准的可重用数据。简言之,既需要有标准,也需要依标准治理。正如工业经济时代最核心的是产品标准一样,数据经济时代最核心的是数据标准。因此,数据标准是数据基础设施的另一关键要素。
(3)数据规则
数据基础设施需要建立数据流通规则、数据使用政策或准则(以下统称“数据规则”),以分配数据流通使用关系的权责利,形成数据流通参与主体共同遵循的行为共识。这些数据规则主要调整两个方面的行为:一是数据流通主体之间的关系,规范可流通数据标准、数据流通规则、数据使用规则等,合理界分数据流通关系中各参与主体的权责利;二是数据流通主体与外部的关系,尤其是数据收集和使用过程需要遵循的法律、行业准则和道德准则,确保数据流通者和整个流通生态的合规和社会责任的履行。数据规则通常是数据流通组织制定并经数据流通参与主体认可的自治规范,它依赖参与主体自觉遵守和数据流通组织自治管理。为了使各数据流通组织制定的数据规则更加合理合法、公平有效,政府主管部门和行业组织均可以制定数据流通规则指引,指导各数据流通基础设施运营者在原则和框架下,发展出适合各自行业或环境需要的数据规则。
(4)治理机制
数据流通不是数据买卖交易,而是数据使用合作关系;如何在合作关系中创造价值和分配价值是数据治理要解决的问题。数据流通治理是在承认每一个数据持有者的权利的前提下开展的数据合作,旨在通过数据汇集使用而创造价值。但是,数据在流通或使用之前,其价值具有不确定性,数据流通参与方往往不能事先明确其可获得的交易对价。即使有明确的对价,其取得往往取决于合作努力或对方的数据加工处理行为。因此,数据流通既需要事先明确的制度规则,同时还需要持续管理合作关系并应对可能的风险。因此,每个数据流通基础设施均需要建立相应的治理结构。
数据流通治理首先要形成公正、透明和稳定的规则,同时需要有监督和执行规则的组织。由于数据形态和价值的复杂性和多样性,国家立法不可能建立普适性的制度规则。因而具体的数据流通设施运营者担负着制定数据流通制度规则的职责,需要根据行业、数据类型、流通形式制定适合数据流通场景的制度规则。数据流通基础设施运营者本质上仍然是代表和反映数据流通参与者的利益中介组织;数据流通治理本质上仍然是流通主体的自治。因此,如何贯彻自治理念,发挥数据流通参与治理的积极性,形成反映流通参与各方的意愿和诉求的制度规则和运行机制,在高效创造和实现数据价值的同时,实现数据的价值分配,是任何数据基础设施运营的重大挑战。
(5)安全控制
数据需要在特定技术环境下使用,因而数据流通利用需要相应的技术设施。作为支撑数据流通实现的系统,保持系统稳定性以实现数据流通和使用安全,并建立相应的网络和数字安全管理体制是前提性要求。数据流通安全主要需要解决两个问题:一是数据使用的控制,二是数据流通风险和责任的分配。问题的解决需要法律手段与技术手段的协同。从法律的角度,需要流通组织对数据使用做出明确约定,制定合理分配流通主体之间责任的规则;从技术的角度,需要流通组织搭建封闭数据流转和使用过程的技术环境,使数据流转和处理过程可记录、可审计、可控制,同时根据数据的敏感性采取相应的安全计算和隐私增强保护技术。
上述五个方面构件均包含技术、标准和制度成分,通过特定业务(或商业)模式和参与者自治(基于数据持有者权)的治理架构,最终构建数据流通基础设施,合力打造数据流通信任。
(四)制定统一可信数据流通框架,培育可信数据流通设施
基于合作关系和治理范式的数据流通必须建立一套可实施和操作的技术规范和治理框架。现在我们面临的基本问题是:人们对数据要素市场或数据社会化重用实现方式还缺少共识,仍然在传统产权范式思考数据流通。例如,一些地方试图通过数据产权登记或知识产权登记支撑数据要素市场。但数据流通是在可控环境下的数据使用关系,只有建立数据流通的技术支撑体系和治理体系,才能让数据持有者安全地实现数据价值,让数据需求者安全地获得其所需要的可用数据。数据流通基础设施承担了数据权利配置和实现的功能,脱离这样的数据流通环境,数据持有权几乎无法行使和实现。在缺失有效产权、标准化治理、全流程管控体系的情形下,以撮合为主的数据交易自然难以有效运行。在数据流通制度的探索期,我们迫切需要自下而上地探索建立符合数据特征的数据流通体制。
如前所述,应将数据流通基础设施当作社会基础设施来建设。无论数据来源于公共机构还是社会主体,数据流通所需要解决的问题和解决方法都是一致的,均需要五个构建模块实现数据流通基础设施建设,解决数据可信、主体可信和过程可信三大信任问题。当下,国家数据局正在推进数据基础设施建设。为配合国家战略,全国信息技术标准化技术委员会大数据标准工作组启动《可信数据流通治理框架》标准预研工作,促进和保障我国可信数据流通制度规则的建设。建立数据标准,激励数据治理成为可流通使用的数据(作为产品)、可检索查询的数据目的,形成数据使用规则,建立有效治理机制和安全控制机制,通过技术、商业和法律制度安排,方能促进数据高效、安全、合规流通利用。
笔者认为,可信数据流通治理框架应当具有以下定位和指引作用:
第一,以数据社会化重用基础设施定位数据流通组织。我们应当超越传统市场中介或交易平台来理解数据流通组织,其负担着数据流通制度塑造、数据产品化治理、数据流通规则形成的职能。
第二,适用范围应当覆盖各种数据流通的中介组织。数据流通泛指一切在受控环境及合适的治理架构下实现数据社会化重用目的的行为,无论是商业性还是非商业性目的,要实现数据社会化重用所需要的治理、合规和安全控制几乎都是一致的,只是因为目的不同和资金来源不同导致业务模式并不完全相同。
第三,数据流通组织的开放性要求。作为社会基础设施,数据流通组织必须保持数据开放性,使数据可以为社会获取和使用。数据流通基础设施可以是行业性、团体性或企业合作所建设的具有门槛和边界的组织,但是要保持一定开放性,在技术上支持数据互操作、跨域流通使用;在制度上提供外部获取和使用的通道和机制。打造开放的数据生态,是数据流通组织的基本要求。
第四,数据流通基础设施须具备必要构件和治理机制。为实现可信流通目标,应当建立数据流通设施基本构件,对可信数据流通提出基本要求。按照关系可信、数据可信、主体可信和过程可信的数据流通制度框架,各数据流通组织可以建立适合自身行业或组织的技术规范、制度规则、治理机制。
第五,构建包容性数据流通治理架构。数据流通组织必须能够为流通参与者创造价值并公平地分配价值,同时为社会提供更好的数据服务。治理是数据流通组织的核心,其不仅需要进行内部治理,还需要协同数据流通参与主体开展数据流通生态治理,协同保护各社会主体利益,以促进数据最大化社会重用。
所有的数据基础设施建设均需要以实现数据社会化重用为目的。数据基础设施可以是营利性的,但是一定要将数据基础设施作为未来社会的一项社会资本投资进行规划和建设。因此,制定具有可信数据流通顶层设计作用的可信流通参考架构,可以为数据流通制度建设提供指引,促进数据流通设施实现互联互通。
五、结语
在我国,现行数据基础制度建设基本采取“国家政策指导+地方实践”的互动探索模式。虽然“数据二十条”提出了数据持有权、数据流通使用等制度,但是其仍然停留在政策指导上。实践中,数据流通多遵循产权范式,即先确权登记,再流通交易。但是,在数据最终形成形态和价值稳定的数据产品(模型、知识等可重用知识)或者产生智能决策(精准、创新实时决策)之前,更需要构建数据社会化重用秩序,以支撑数据不断地“治理、汇集、使用、分析”的循环,形成训练算法、机器学习的原料。在这一过程中,治理的数据需要“作为产品”与人分享(即流通),不断与不同的数据结合,以发现数据背后的客观规律(模型或知识)。显然,数据要素并不存在稳定形态,而是在不断流动和汇集/集成过程中体现其价值(每一次汇集形成新数据甚至只需要逻辑关联)。数据流通是一种持续供给(许可使用),而不是买卖;交易标的是特定的数据使用,而不是持有权或其他形式的产权;交易对价多为数据、商业机会等,而不是事先议定的金钱。这些特征决定了数据流通是一种持续的数据使用关系,依赖流通参与者合作治理来构建利用秩序。在这样的背景下,基于产权和契约两种制度工具及其背后的法律和社会治理制度构建的市场交易安全保障体系无法完全适用于数据流通。数据持有权可以开启数据流通,但无法塑造数据流通秩序。数据流通市场是高度组织化的市场,需要通过数据流通组织制度规则和治理机制动态地配置数据“产权”,而不是借助数据产权塑造数据流通秩序。
数据流通是数据持有者非排他地提供数据使用(分享),本文将数据流通定位于数据社会化重用的实现,进而探讨有效的数据流通秩序实现的制度安排。其基本逻辑可以归纳为:数据产权应当与数据特征适配、数据流通应当与数据产权适配,数据市场制度应当与数据流通特征适配,由此形成数据特征、数据产权和数据市场适配的数据经济理论。这一理论旨在构建治理范式的数据流通秩序,寻找替代(至少是部分性替代)支撑传统市场经济高效和安全运行的适配制度。传统市场经济的制度核心功能是构建交易的社会信任,因而本文首先探讨为什么需要探寻和建立适合数据流通的信任机制,进而探讨了可信的数据流通制度框架,最后提出并论证了应当通过建设可信数据流通基础设施来实现可信数据流通制度,并应当在社会基础设施体系建设数据流通基础设施,并作为数据基础设施的重要组成部分。
本文之所以将数据流通基础设施定位于社会基础设施,主要基于两个方面的考量。其一,数据资源的社会性。尽管数据具有明显的经济属性,全球均在构建数据社会化重用秩序,但是数据的价值在于认知,通过数据认知数据承载的客观世界背后的规律。从经济的角度观察,数据是知识或智能生产的要素,而知识或智能最终可以应用于包括经济在内的各种社会目的,如社会治理、公共安全等。因此,我们可以用经济学原理来构建数据社会化重用秩序。但是,若仅将其视为经济活动肯定是片面的,甚至还会带来负面后果(比如增加创新成本)。因此,数据社会化重用的首要目的是最大化促进数据社会化利用,生产出更多的知识或智能产品,通过知识或智能产品应用提升社会生产力水平,促进经济发展。显然,数据流通基础设施有利于促进数据可获取和使用性,有利于社会经济的持续创新和发展。其二,数据流通基础设施承担着数据流通基础制度构建、形成数据社会重用的信任机制的作用。按照本文提出的可信流通框架,数据基础设施应具有以下功能:共识性制度规则、标准化数据治理、协调各方数据权益治理框架、支撑数据安全和受控使用技术环境。这五项功能使数据流通基础设施担负数据社会化重用秩序的构建,形成治理范式下数据流通使用的信任机制,弥补产权范式交易安全保障制度匮乏的缺陷。数据流通组织的核心目标是构建信任,信任的基础是安全,信任的目的是实现合作,合作的目的则是数据价值的分享。我们完全有理由将可信数据流通作为社会资本投资来规划和建设。为实现这样的目标,我们迫切需要制定可信数据流通参考架构,以指导各种数据流通组织,构建数据社会化重用信任体系。
本文对数据流通制度的研究建立在前期的数据持有者权的制度和理论基础之上,通过对可信数据流通制度的论述进一步阐释治理范式的数据产权,使治理范式产权可以转化可操作的数据要素市场建设方案。希望本文能够进一步增进对治理范式下的数据使用(权)流通体制的理解,减少对产权范式的期待和依赖,形成我国数据社会化重用的有效解决方案。
本文原载于《交大法学》2024年第5期,感谢作者授权!为编辑便宜,原文引注已略去,如需了解更多,您可点击阅读原文。