《大数据社会个人数据处理中的个人保护指南》1于2017年1月,第108号公约协商委员会书面表决通过。它是由一个专门解决大数据应用相关问题的国际机构提供的第一份数据保护指南,反映了欧洲委员会应对大数据范式重大挑战的努力,为总结如何处理技术发展带来的不同问题提供了最合适的规制模式。
《大数据社会个人数据处理中的个人保护指南》  初稿和后续版本由意大利都灵理工学院终身教授亚历山德罗·曼特莱罗(Alessandro Mantelero)编写。在通过书面程序征求意见的50名有表决权的成员中:丹麦、列支敦士登和卢森堡弃权,德国和爱尔兰反对。
I.  引言
大数据代表了信息收集、组合和分析的新范式(new paradigm)。大数据——得益于与物联网和云计算等其他技术环境的相互作用——可以为社会带来重大价值和创新,提高生产力、公共部门绩效和社会参与。
大数据提供的宝贵见解改变了人们理解和组织社会的方式。并非所有在大数据环境下处理的数据都涉及个人数据和人际互动,但其中很大一部分涉及个人数据和人际互动,直接影响到个人及其个人数据处理中的权利。
此外,由于大数据能够收集和分析大量数据,以确定态度模式并预测群体和社区的行为,因此还应考虑由数据使用导致的方方面面的风险。
这导致《个人数据自动处理个人保护公约》(CETS 108,以下简称“第108号公约”)委员会起草了本指南。本指南为缔约方提供了一个总体框架,使之在大数据环境下实施适当的政策和措施,同时使第108号公约的原则和规定真正发挥作用。
本指南根据第108号公约原则起草,考虑到其正在进行的现代化进程,主要针对第三节所界定的规则制定者、控制者和处理者。
基于个人对其个人数据及数据处理的控制权,个人享有自主权;有必要对这种个人自主权加强保护,但大数据环境下个人控制权的性质应当谨慎对待。
控制的前提条件是(个人可)感知到个人数据被使用,并有真正选择自由。这些前提条件对于保护基本权利,特别是个人数据受保护的基本权利至关重要,可以通过不同的法律制度设计来实现。这些法律制度应参酌特定社会背景、技术背景以及个人缺乏知识等因素进行调整。
因此,大数据应用的复杂性和模糊性应该促使规则制定者不再将控制概念局限于个人控制(数据)。他们应该(将控制概念)理解为更广义的控制数据使用。根据这一理念,个人控制在对与数据使用相关的风险进行多重影响评估的更复杂过程中发展了。
II.  范围
本指南建议缔约方、控制方和处理方应采取措施,防止使用大数据对人的尊严、人权以及个人和集体的基本自由,特别是在个人数据保护方面可能产生的负面影响。
鉴于大数据的性质及其用途,在这种技术情景下,应用一些传统数据处理原则(如数据最小化原则、目的限定原则、公正和透明原则以及自由、具体、知情的同意原则)可能具有挑战性。因此,本指南提出一些第108号公约原则的具体应用建议,使其在大数据环境下的实践中更加有效。 
本指南的目的是通过阐明可适用的数据保护原则和相应做法,限制数据主体权益的风险,保护大数据环境下个人数据处理的数据主体权益。这些风险主要涉及数据分析的潜在偏见(potential bias of data analysis)、对使用大数据进行决策过程的法律、社会和道德影响的低估,以及个人在这些过程中有效和知情参与(informed involvemen)的边缘化(marginalisation)。
鉴于大数据在各部门具体应用中的广度不断扩大,本指南提供了一个一般性指导,可通过在大数据具体应用领域(如卫生部门、金融部门、执法部门等公共部门)内保护个人的进一步指导和量身定制的最佳做法加以补充。
此外,鉴于技术及其使用的发展,第108号公约委员会今后认为有必要时可对指南的当前文本进行修订。
本指南的任何规定不得解释为排除或限制第108号公约和《欧洲人权公约》的规定。
III.  本指南中的术语
a)大数据:大数据的定义有很多种,根据具体学科的不同而有所不同。其中大多数侧重于在收集以及从大量、快速生成和多样的数据中提取新预测性知识方面不断发展的技术能力。2在数据保护方面,主要问题不仅涉及处理数据的数量、速度和种类,而且还涉及使用软件对数据进行分析,以提取新预测性知识,用于个人和群体的决策目的。因此,就本指南而言,大数据的定义包括大数据和大数据分析。3
b) 控制者:有权单独或与他人共同决定数据处理的自然人或法人、公共机构、服务机构、代理机构或任何其他机构。
c) 处理者:代表控制者处理个人数据的自然人或法人、公共机构、服务机构、代理机构或任何其他机构。
d) 处理:对个人数据进行的任何操作或一组操作,如收集、存储、保存、更改、检索、披露、提供、擦除或销毁,或对这些数据进行逻辑和/或算术操作。
e) 假名化:指对个人数据的处理方式,如果不使用其他信息,个人数据就不能再归属于特定的数据主体,但该等额外资料须分开存放,并须以技术及组织措施控制,以确保该等个人数据不能归属于已识别或可识别的自然人。
f)开放数据:根据开放许可的条件,任何人可以出于任何目的自由使用、修改、共享和重用的任何公开信息。
g)缔约方:受第108号公约法律约束的缔约方。
h)  个人数据:任何与已识别或可识别个人(数据主体)有关的信息4
i) 敏感数据:第108号公约第6条所涵盖的特殊类别的数据,在处理这些数据时需要适当的补充保障措施。5
j) 监督机构:缔约方设立的负责确保遵守第108号公约规定的机构。
IV.  原则和指南
1.合道德和社会观念(合公序良俗)的数据使用/Ethical and socially aware use of data
1.1根据在处理个人数据(特别是信息用于预测目的的决策过程)方面平衡所有利益的需要,控制者和处理者应充分考虑到预期的大数据处理可能产生的影响及其更广泛的道德和社会影响,以保障人权和基本自由,并确保遵守第108号公约规定的数据保护义务。
1.2个人数据处理不应与相关社会普遍接受的道德价值观相冲突,也不应损害社会利益、破坏社会价值观、突破规范以及干扰人权保护。虽然由于环境因素的影响,界定规范性的道德准则可能会有问题,但在《欧洲人权公约》等国际人权和基本自由宪章中可以找到共同的指导性道德准则。
1.3如果第IV.2节所述的对预期数据处理可能影响的评估显示使用大数据对道德价值观有高度影响,控制者可以建立一个特别道德委员会(ad hoc ethics committee),或依赖现有的道德委员会,以确定在使用数据时要保护的特定道德价值观。伦理委员会应当是一个独立的机构,其成员应有能力、经验和专业素质,并能公正、客观地履行职责。
2.预防性政策和风险评估/ Preventive policies and risk-assessment
2.1鉴于数据处理的日益复杂和大数据的变革性使用,缔约方应采取预防性办法(precautionary approach)来规范这一领域的数据保护。
2.2针对使用大数据的风险及其对个人和社会的影响,控制者应采取预防政策,以确保在个人数据处理中对个人保护。
2.3由于使用大数据可能不仅影响个人隐私和数据保护,而且影响这些权利的集体层面,因此预防性政策和风险评估应考虑使用大数据的法律、社会和道德影响,包括平等待遇和不歧视的权利。
2.4根据第108号公约关于数据处理合法性和数据质量的原则,并根据防止或尽量减少数据处理对数据主体权利和基本自由的影响的义务,有必要对数据处理对基本权利和自由的潜在影响进行风险评估,以便在保护这些权利和自由与使用大数据所影响的不同利益之间取得平衡。
2.5控制者应审查预期数据处理对数据主体权利和基本自由的可能影响,以便:
1) 识别和评估涉及大数据的每项处理活动的风险及其对个人权利和基本自由,特别是个人数据保护权和不受歧视权的潜在负面影响,同时考虑到社会和道德影响。
2) 制定并提供适当的措施,如“按设计”和“默认”( “by-design”  and  “by-default”)解决方案6,以减轻这些风险。
3) 监控所提供解决方案的采纳和有效性。
2.6评估过程应由具备足够专业资格和知识的人员进行,以评估不同的影响,包括法律、社会、道德和技术方面的影响。
2.7关于可能影响基本权利的大数据的使用,缔约方应鼓励不同的利益相关者(例如可能受大数据使用影响的个人或团体)参与这一评估过程和数据处理的设计。
2.8当使用大数据可能对数据主体的权利和基本自由产生重大影响时,控制者应咨询监督机构,以寻求建议,以减轻第2.5款所述的风险,并利用这些机构提供的可用指导。
2.9管制员应定期审查评估过程的结果。
2.10控制员应记录第2.5款中提及的评估和解决方案。
2.11在评估可能的行政处罚时,应考虑到控制者为减轻第2.5款所述风险而采取的措施。
3.目的限制和透明度/Purpose limitation and transparency
3.1个人数据应为特定和合法的目的处理,不得以与这些目的不符的方式使用。个人数据不应以数据主体认为未预期、不适当或可拒绝(unexpected, inappropriate or otherwise objectionable)的方式进一步处理。将数据主体暴露于不同的风险或比最初目的所设想风险更大的风险,可视为以未预期方式(unexpected manner)进一步处理数据的情况。
3.2鉴于大数据的使用具有转换性(transformative nature),为了遵守自由、具体、知情和明确同意的要求以及目的限制、公平和透明原则,控制者还应识别数据的不同使用对个人潜在影响,并将此影响告知数据主体。
3.3根据数据处理的透明度原则,第IV.2节所述评估过程结果应公开,但不妨碍法律所保障的保密。在存在这种保密情况下,控制人将全部机密信息置于评估报告单独附件中。本附件不得公开,但监督机构可以查阅。
4.按设计方法/By-design approach
4.1根据第IV.2节所规定的评估程序,控制者和处理者(如适用)应在大数据处理的不同阶段采用适当的设计解决方案(by-design solutions)。
4.2控制者和处理者(如适用)应仔细考虑其数据处理的设计,以尽量减少冗余或边缘数据的存在,避免在收集和分析阶段潜在的隐藏数据偏见和歧视风险或对数据主体的权利和基本自由产生负面影响。
4.3在技术可行时,控制者和处理者(如适用)应在较大规模使用之前,通过模拟测试手段,利用有限数据检验设计解决方案的充分性。这将可以评估在分析数据时使用不同参数的潜在偏见,并提供证据,以尽量减少信息的使用,并减轻第IV.2节所述风险评估过程中确定的潜在负面结果。
4.4关于敏感数据的使用,应采用按设计解决方案,以尽量避免使用非敏感数据推断敏感信息,如果存在这样使用,则应将对敏感数据采用的保障措施扩展到这些数据。
4.5假名措施并不免除相关数据保护原则的适用,可降低数据主体的风险。
5.同意/Consent
5.1根据数据处理的透明度原则,自由、具体、知情和明确的同意应以提供给数据主体的信息为基础。考虑到大数据使用的复杂性,该信息应是第IV.2节所述评估结果的综合信息,也可通过交互界面提供,在此可基于经验模拟数据使用的影响及其对数据主体的潜在影响。
5.2在数据主体同意的基础上收集数据时,控制者和处理者(如适用)应为数据主体提供方便的、用户友好的技术方法,以便其对与初始目的不兼容的数据处理作出反应,并撤销其同意。
5.3如果数据主体和控制者之间存在明显的权力不平衡,从而影响数据主体关于处理的决定,那么该同意为不自愿的。控制者应证明这种不平衡不存在或不影响数据主体的同意。
6.匿名化/Anonymisation
6.1只要数据能够识别或重新识别个人,就应适用数据保护原则。
6.2数据控制者应根据数据的性质、使用场景、可用的重新识别技术和相关成本,并参酌所需时间、精力或资源,评估重新识别风险。控制者应证明所采取的匿名数据措施的充分性,并确保去身份识别(de-identification)的有效性。
6.3技术措施可与法律或合同义务相结合,以防止可能重新确定有关人员的身份。
6.4控制者应根据匿名技术的发展,定期审查重新识别风险的评估。
7.人工干预在大数据支持决策中的作用/Role of the human intervention in Big Data-supported decisions
7.1使用大数据应保持人类干预决策过程的自主性。
7.2基于大数据分析提供的结果的决策应考虑与数据有关的所有情况,而不是仅仅基于脱离背景的信息或数据处理结果。
7.3如果基于大数据的决策可能会对个人权利产生重大影响或产生法律效力,则人类决策者应根据数据主体的要求,向其提供处理过程中所依据的推理,包括该推理对数据主体的后果。
7.4在合理论证的基础上,应允许人类决策者不依赖使用大数据提供的建议结果的自由。
7.5如果有迹象表明可能存在基于大数据分析的直接或间接歧视,控制者和处理者应证明没有歧视。
7.6受基于大数据的决策影响的主体有权向主管部门提出质疑。
8.开放数据/Open data
8.1鉴于大数据分析的可用性,公共和私人实体应仔细考虑其有关个人数据的开放数据政策,因为开放数据可能用于提取有关个人和群体的推论。
8.2当数据控制者采用开放数据政策时,第IV.2节所述的评估过程应考虑到合并和挖掘属于不同开放数据集的不同数据的影响,也应参照第6款所述的规定。
9.教育/Education
为了帮助个人理解在大数据环境下使用信息和个人数据的含义,缔约方应将信息和数字素养视为一项基本的教育技能。
注释:
1:https://ccdcoe.org/uploads/2019/09/CoE-170123_Guidelines-on-protection-of-individuals-with-regard-to-processing-of-personal-data-in-a-world-f-big-data.pdf
2:The term “Big Data” usually identifies extremely large data sets that may be analysed computationally to extract inferences about data patterns, trends, and correlations. According to the International Telecommunication Union, Big Data are “a paradigm for enabling the collection, storage, management, analysis and visualization, potentially under real- time constraints, of extensive datasets with heterogeneous characteristics” (ITU. 2015. Recommendation Y.3600. Big data – Cloud computing based requirements and capabilities).
3:This term is used to identify computational technologies that analyse large amounts of data to uncover hidden patterns, trends and correlations. According to the European Union Agency for Network and Information Security, the term Big Data analytics “refers to the whole data management lifecycle of collecting, organizing and analysing data to discover patterns, to infer situations or states, to predict and to understand behaviours” (ENISA. 2015. Privacy by design in big data. An overview of privacy enhancing technologies in the era of big data analytics).
4:According to this definition, personal data are also any information used to single out people from data sets, to take decisions affecting them on the basis of group profiling information.
5:In a big data context, this is particularly relevant for information relating to racial or ethnic origin, political opinions, trade-union membership, religious or other beliefs, health or sexual life revealed by personal data further processed, or combined with other data.
6:In the context of data protection, the terms “by design” and “by default” refer to appropriate technical and organisational measures taken into account throughout the entire process of data management, from the earliest design stages, to implement legal principles in an effective manner and build data protection safeguards into products and services. According to the “by default” approach to data protection, the measures that safeguard the rights to data protection are the default setting, and they notably ensure that only personal information necessary for a given processing is processed.
译者:李群涛
校对:高富平