大数据征信行业数据合规现状与应对

近年来人工智能、分布式计算、加密技术以及物联网等技术取得重大突破和发展,金融科技行业将这些技术应用的一个核心场景便是大数据征信。大数据征信是指运用大数据技术构建征信模型及算法,通过对海量个人信息进行采集、分析、整合和挖掘,多维度刻画信用主体的违约率和信用状况,形成对信用主体的信用评价,实现贷前、贷中和贷后风险监测与预警。其中个人信息不仅包括个人金融信息,如财产信息、借贷信息等直接反映个人信用的信息,也包括社交媒体信息、设备信息等间接反映个人信用的信息,例如,通讯录、SMS短信、在网时长、历史安装应用(安装赌博类、借贷类APP个数)等类别。因此,个人信息是大数据征信行业提供借贷风险控制服务的必要生产资料,个人信息权益保护构成个人征信监管的核心内容,个人信息保护是金融科技行业持续发展要解决的关键性问题。本文将针对当下大数据征信服务行业数据合规现状、立法监管与创新技术应对展开分析与探索。


一、大数据征信行业的数据共享与个人信息保护


无论是传统银行金融机构还是新兴互联网借贷平台,在信贷业务中都需要对借款人的还款意愿和还款能力进行调查,并且在调查和了解的基础上进行评估,并根据评估情况决定是否对借款人授信以及授信的额度和期限。换言之,信贷风控的要义在于尽力消除信息不对称,收集一切可以了解申请贷款主体的信息,以达到避免损失或者及时止损的目的。随着互联网社会生活中个人信息不断数字化,个人画像变得更加的清晰,征信评估更加倾向于“关联性”的分析,无论是强关联的金融数据还是弱关联的社交数据,一切个人数据都可以在特殊场景下被用来把控风险。这种信用评估模式驱使金融信贷机构、大数据征信服务机构不断扩大个人数据采集范围。一般大数据征信企业在保持竞争优势的前提下,通过提供个人信用标签接口、个人信用评分、个人数据建模及分析系统等形式输出信贷风控服务。

目前我国的征信体系以央行征信中心为核心、以民营征信机构为补充。央行征信系统数据是银行等传统金融机构进行风控审核时的直接接入对象,它主要考察拥有银行信贷账户且信贷记录活跃的人群,在人口覆盖上存在一定的局限性。2013年1月国务院发布《征信业管理条例》,明确征信业向第三方机构开放。2015年1月央行曾发文要求八家[1]民营机构做好个人征信业务的准备工作,然而随着互联网金融整治的不断深化,此后并没有向其颁发个人征信牌照[2]。2018年5月23日,百行征信有限公司在深圳挂牌,这是国内第一家也是目前唯一家取得个人征信牌照的市场化的个人征信企业。该公司由中国互联网金融协会和上述八家征信公司组成[3],主要是为了融合互联网平台上快速累积的可判断个人信用状况的基础数据,以及互联网金融平台机构为了对用户的消费习惯、风险偏好和信用状况进行全方位了解,而沉淀的大量身份识别、信用评估、用户画像、反欺诈等的信用数据。这一安排意图打破“数据孤岛”现状,由于不同机构有各自的利益诉求,不愿将自己所掌握的数据与其他机构共享,即使是机构间合作也不会共享底层数据,不过百行征信是否可以解决“数据孤岛”效应仍待进一步观察。

值得注意的是,我国被纳入个人征信监管的机构主要为向央行金融信用信息基础数据库报送数据的接入机构和个人征信机构。其中,个人征信机构是指符合《征信机构管理办法》准入要求并获得监管当局审批的个人征信持牌机构,如前所述目前只有百行征信持牌,因此,可以说其他大部分对征信业务有实质性参与的大数据征信机构(或称“类征信机构”)暂未纳入监管框架。例如,电商平台企业利用所获取的用户数据建立风控模型并用于自身的消费信贷业务,同时也对外输出风控模型,提供信用风险评估服务。而缺乏自身平台沉淀数据的类征信机构则需要外接数据源,某些数据来源不乏侵入式爬虫或者非法缓存,在当前立法和监管都缺位的情况下都使得个人信息权益保障无法实现。

如前所述,大数据征信行业一般观念认为信用主体画像越清晰,掌握个人信息越多,信贷风控能力越强,大数据征信行业比其他行业有着更强烈的数据共享和融合的本质需求,但个人信息收集和共享融合必须以个人信息保护为必要前提,否则个人信息的非法获取和滥用,不仅会损害个人隐私、信息权益或者征信权益,也会对国家金融体系的运行安全构成威胁。因此,大数据征信行业需在平衡数据共享开放与个人信息权益保护二者关系的基础上进行法律规制与监管[4]。


二、大数据征信行业个人数据合规现状


(一)当前征信相关法律法规

目前关于征信行业相关的法律法规,主要是2005年央行发布的《个人信用信息基础数据库暂行办法》,该办法在保护个人信用信息方面起到了基础性作用,确立了征信业务制度规章及监管方式。另外,2013年3月国务院颁布的《征信业管理条例》首次在行政法规层面对个人征信信息主体相关权利进行了规定,其中一些特殊的个人信息权益包括征信信息采集范围、获取免费信用报告以及不良信用处理等规定。同年12月央行发布的《征信机构管理办法》也正式实施。因此《征信业管理条例》是我国目前唯一的征信业法规,其基于传统征信业务且内容笼统,其无法解决当下大数据征信行业快速发展对个人信息权益造成的侵害,下文将予以详述。 

个人征信权益在理论、监管和法律法规制定层面都有其特殊之处,但实质上是个人信息权益。《民法典》在第1030条规定也在侧面印证这一点,民事主体与征信机构等信用信息处理者之间的关系,适用本编有关个人信息保护的规定和其他法律、行政法规的有关规定。个人征信权益具体内容可以表现为知情权、同意权、重建信用记录权、异议权、救济权[5]。知情权,是指信用主体有知悉信用信息被采集、加工、整理和适用情况的权利。同意权,是指任何主体应当在信用信息被采集、加工、使用等过程中取得信用主体的同意。重建信用记录权,是指具有不良信用记录的人,根据法律的不良信息保存期限的规定恢复修正信用记录的权利。异议权,是指个人征信系统内保存其信用信息存在错误、遗漏的,信用主体有向相关部门申请异议、要求更正的权利。救济权,是指当信用主体的利益受到侵犯后有权寻找法律途径获得救助的权利。根据国家标准《信息安全技术 个人信息安全规范》[6],个人信息权益保护原则为权责一致、目的明确、选择同意、最小必要、公开透明、确保安全和主体参与共七项原则。个人信息权益保护原则可以完全囊括个人征信权益的具体内容,其中重建信用记录权与异议权可以对应主体参与原则,即个人信息控制者向个人信息主体供能够查询、更正、删除其个人信息,以及撤回授权同意、注销账户、投诉等方法。

(二)个人数据保护原则下的合规现状

《民法典》在第1035条再次强调处理个人信息应当遵循合法、正当、必要原则,且不得过度处理。《信息安全技术 个人信息安全规范》要求个人信息控制者开展个人信息处理活动应遵循七项原则,以下以其中五项原则为基准,分析当前大数据征信行业合规现状。

1. 选择同意原则

数据控制者应当向个人信息主体明示个人信息处理目的、方式、范围等规则,征求其授权同意。在征信业务活动中,信用主体有对个人征信查询行为的授权同意并指定使用用途的权利[7],使得个人征信信息的流转和共享的范围可以得到信息主体的合理控制。实践中金融信贷机构、P2P平台或者电商平台在开展现金贷、消费贷等活动,首要步骤是收集借贷申请人个人信息以进行信用评估,通过与申请人签署电子授权协议,在线获取与其相关的各种信息,以作为授信评估和风险控制的依据。此时“类征信服务机构”作为第三方通常不直接取得信息主体授权同意,一般被包含在借贷合同当中,由借贷平台一揽子取得收集、处理个人信息的授权,包括查询信用信息的授权。例如:美团信任分协议:开通信任分的用户,需授权美团及美团委托的第三方收集包括个人身份信息、交易信息、履约信息、设备信息及其他履约或风险状况信息等,并可以对这些信息处理,且委托的第三方可直接向美团提供用户信息而不需要用户再次授权。

  即使个人信息主体认真阅读关于授权收集其个人信息的条款,但由于格式合同的概括性描述,信息主体无法充分理解自己同意的内容和对自身权益的影响,一般信息主体也无法知悉个人信息收集和处理的完整过程。目前,除有资格接入央行金融信用信息基础数据库的机构以外,个人征信信息资源的积累主要通过平台自有业务沉淀、第三方处渠道合作完成,个人征信信息的共享和融合日趋频繁,这使信息主体更加难以了解信用评估数据处理过程,同意缺乏知情基础。

2. 最小必要原则

最小必要原则是指数据控制者应只处理满足个人信息主体授权同意的目的所需的最少个人信息类型和数量,且在目的达成后及时删除个人信息。《征信业管理条例》规定了禁止采集点个人信息范围以及有条件采集的范围[8],这导致了市场认同的个人征信信息类别除禁止范围以外都可以收集。如前所述,社交、消费和生活服务场景中积累的个人信息被广泛运用于信用评估场景中,各类信息隐藏的价值驱使着借贷平台收集任何可用的个人信息。这也是大多数手机应用程序无论在功能上是否需要或者甚至自身业务不盈利,皆会超范围收集个人信息的主要原因。一些平台可能会利用所收集的数据摇身一变为“类征信机构”提供大数据征信服务或者仅仅是对外提供个人信息。

例如小赢卡借贷平台,在其隐私政策列出为控制信贷风险,收集的个人信息包括:(1)日志信息:手机使用的语言、访问的日期和时间、软件信息、IP地址;(2)设备信息:设备型号、唯一设备标识符、操作系统信息、浏览器类型、电信运营商的信息和使用情况以及设备所在位置的相关信息(IP地址、GPS位置以及能够提供相关信息的Wi-Fi接入点、蓝牙和基站传感器信息);(3)短信记录/通话记录/图片日志信息:与借贷审核相关的短信记录/通话记录/图片日志信息;(4)安装应用列表:使用移动应用软件列表的信息;(5)通讯录、搜索记录,位置信息等。另外平台也从其他“类征信机构”处获得信用评分信息加入到自己的信用评估模型当中。

在大数据征信风控模型构建过程中,很多看似与信用状况无关的弱关系数据在信用欺诈判定方面具有一定的价值。如手机安装多个借贷APP的用户可能存在借东墙补西墙的情形;手机长时间处于满电状态可能是由欺诈团伙或黑灰产团队控制的;用户的地理位置或者IP地址是否位于诈骗高风险区域。大数据征信模式模糊了信用信息收集的边界,其利用概率归纳而非直接因果关系,但基于此的经验归纳是能够阻却最小必要性原则,有待进一步深入探讨。

3. 公开透明原则

  数据控制者应该以明确、易懂和合理的方式公开处理个人信息的范围、目的、规则等。基于这一原则在个人征信权益中有特殊的要求,根据《征信业管理条例》第15条规定,信息提供者若向征信机构提供个人的不良信息,应当事先告知信息主体。但是依照法律、行政法规规定公开的不良信息除外。因此一般情形下,个人作为征信主体有权了解自己征信信息被处理的范围、目的和规则,尤其是不良信息对个人权益影响重大,个人应被事先告知不良信息的处理,并赋予个人申诉的权利。

但因《征信业管理条例》中对告知形式、程度和结果并未有明确的要求,致使不良信息无法触达信息主体,尚属于一种形式上的告知。此外,履行通知义务所必须的系统和人员并未纳入央行相关机构,部分机构仍然无法自动化、批量化地完成告知行为,在现实中是一种完全依赖人工通知的模式,无法高效、充分地履行不良信息的告知义务的[9]。而处于征信监管真空的大数据征信机构在向其他征信机构提供个人信息时,没有任何关于处理个人不良信息的通知机制。值得注意的是,大数据征信机构为了得到更有效的评估结果,可以接入任何其认为可信的数据源,对于识别融合后的数据集合存在的个人不良信息,其完全无监管压力去甄别并告知信用主体。众所周知,人工智能是被数据所驱动的智能,本质上是被大体量数据不断训练出来,再通过算法模拟出来的“智能”。同理,大数据信用评价结果是通过海量数据、标签训练模型,利用模型推测得出最终信用评估结果。但目前个人和监管部门缺乏实用的方法来深入研究信用评估模型,以了解各项信用评估决策影响因素,并确定目标变量和训练数据对个人信息和消费权益的影响。

4. 主体参与原则

数据控制者应向个人信息主体提供能够查询、更正、删除其个人信息,以及撤回授权同意、注销账户、投诉等方法。《民法典》中第1029条规定,民事主体可以查询自己的信用评价,发现信用评价不当的,有权提出异议并请求采取更正、删除等必要措施。这一点已在《征信业管理条例》第17条规定,信息主体可以向征信机构查询自身信息,且有权每年两次免费获取本人的信用报告。对于不良信息的删除也作出了规定,即征信机构对个人不良信息的保存自不良行为或者事件终止之日起为5年,超过5年的,应当予以删除。另外第25条中,信息主体认为征信机构采集、保存、提供的信息存在错误、遗漏的,有权向征信机构或者信息提供者提出异议,要求更正。简言之,信息主体有权对超出法定保存时限的不良信息进行删除、有权对不良信息发表个人声明、有对存在疑问的异议信息进行标注的权利。

实践中信用记录的重建仅在央行体系或者取得牌照的征信机构的范围内进行。而“类征信业务”机构在缺乏监管要求规范下,其对不良信息的删除和更正义务无法落实。一方面由于不同机构信用评分产品之间存在数据融合,无法知悉哪些机构提供的信息被采集和处理,各机构信息处理的逻辑方法和标准不统一,致使征信数据内容即使存在错误,信息的删除或者更正也无法进行统一处理。这必然导致实践中信息主体对个人征信结果无法进行合理的溯源。如前所述,个人对于所收集到的有关其行为的信息以及如何使用这些信息实际上几乎一无所知。对于个人而言,在面对可能集成处理成千上万个变量的大数据信用评分系统时,证明存在错误实际上是不可能的,也无法验证其信用得分和报告的准确性或根据模型质疑贷款决策。大数据信用评估过程存在算法黑箱,信用主体无法知晓已提供信息与评价结果的推导过程,这种算法黑箱严重阻碍了信息主体主动参与个人信息处理的可能性。

5. 权责一致原则

权责一致原则要求数据控制者应采取技术和其他必要的措施保障个人信息的安全,对其个人信息处理活动对个人信息主体合法权益造成的损害承担责任。《征信业管理条例》规定信息主体认为征信机构或者信息提供者、信息使用者侵害其合法权益的,可以向所在地的国务院征信业监督管理部门派出机构投诉。另外,信息主体认为征信机构或者信息提供者、信息使用者侵害其合法权益的,可以直接向人民法院起诉。个人信息权益在征信权益的具体体现是负面信用信息的消除,不仅是内容上的消除,还应包含对信用主体影响的消除和救济。

个人信息保护原则之间是相互联系的,如果无法满足透明性原则,也必将导致权责不明,只有当信息主体充分理解数据处理的过程,才能识别自身权益是否受到损害,继而主张权益。由于不良信用信息报送前通知机制的缺失,目前许多个人在申请贷款时才发现不良信息记录的存在,且往往通过民事诉讼手段,以名誉权侵权为案由取得信用信息的重建或者更正,此类案件涉及的民事法人主体主要为国有银行、商业银行等向央行金融信用信息基础数据库报送信用数据的机构。而对于大数据征信行业,如前所述通过间接授权从事个人信息收集和处理活动,大数据模型复杂、不透明,难以从最终信用评价结果逆向分析出错误数据项。倘若个人对评价结果的真实性和准确性提出质疑,此时企业是否可以溯源仍存在技术障碍,而实质上原因为缺乏监管压力。总言之,目前的大数据征信信用评估过程中的信息错误和评估模型误差很难有效地进行区分,个人信息主体合法权益损害无法得到救济。


三、应对策略


大数据征信行业数据合规不仅仅需要立法和监管的快速跟进,也需要创新技术解决方案的加持,在保护个人信息和征信权益的前提下,实现互联网金融行业的长远发展。 

(一)立法与监管

1. 加快立法进程与落实可操作性规则

《民法典》在第1034条至第1039条中,厘清隐私权和个人信息的保护的界限,对个人信息保护的范围、权能(收集、使用、删除、更正等)、数据处理合法性豁免等做出了规定,但在诸多方面并未细化,有待《个人信息保护法》等法律法规予以明确。因此建议《个人信息保护法》在原则设计的基础上,更加细化个人权益保护的条件和形式,注重权益保护的程序设计,提高个人信息保护的可操作性。对于《征信业务管理办法》及相关法规应尽快作出细化和补充,明确知情权、同意权、信用记录重建权和救济权实现的条件,提高个人征信权益保护的可行性。例如在知情同意原则方面,应强化信息主体对信息采集、处理的透明度,加快征信行业信息披露制度建设,通过要求金融信贷机构、大数据征信企业对于所有信用评分模型和评估因素,收集的数据的类别、范围、收集方法以及所使用的方法,其他数据来源进行定期披露,以解决透明度不足的问题,从而保证权责一致。

作为专业化、组织化进行信息共享的产业,大数据征信行业的服务对象、业务功能、共享机理具有其特殊性,这也导致个人信息权益内容上有征信业务规则所特有的赋权内容[10]。因此有必要制定兼具个人信息保护要求和个人征信权益特点的个人征信信息安全标准和规范,并在大数据征信行业中施行。

2.监管范围重定义与手段创新

如前所述,个人征信市场仅有央行征信中心和百行征信两个合法经营主体,征信监管对象仍无法对实质性参与或开展征信业务的机构进行有效覆盖。因此对于征信行业的监管范围应扩大适用到“类征信机构”。这里可以借鉴美国征信监管部门将数据处理行为是否构成“对象分析”和“消费者影响”作为判断监管对象的依据[11],而不是将组织机构性质、信息采集内容和处理方法作为监管对象的区别标准。

另外,新技术应用于金融领域模糊了原本的金融业务边界,使得监管范围变大,监管难度陡增。大数据征信虚拟化、数字化、数据库运行的特点使得现场监管难以奏效,而非现场监管方式具有滞后性,难以匹配大数据征信行业实时高效的业务特点[12]。换言之,现行的缺乏科技支撑的传统监管模式难以有效应对以新兴技术驱动的金融创新的潜在风险,亟须充分借鉴国际监管实践,强化监管科技(Regtech)的应用[13],提升金融监管对于个人信息和征信权益的保障。征信监管部门可从应用原理技术特点、发展现状、应用场景和典型产品等方面,研究监管科技在征信评估模型、不良信息报送、征信记录更正方面的技术监管可行性。

(二)创新技术应对

近年来,大数据征信行业不断受到监管压力,不得不开始探索个人信息保护的技术方案。一些隐私保护技术解决方案随之出现,比如隐私保护机器学习、联邦学习、竞合学习、可信机器学习等,不同解决方案采用的技术路线相互有所重叠。

以联邦学习为例,联邦学习平台私有化节点可以让一方数据源机构通过可视化界面对自己的项目和数据进行管理,完成安全联合建模,所有的操作和计算都是在私有环境中进行,从而确保数据在私域而不出库,在合作方间运行分布式加密机器学习算法[14]。这样的技术模式可以增加征信需求方可用数据总量,能很好的解决现存数据孤岛的问题。换言之,对征信信息需求机构而言,使用联邦学习能简单、合法且低成本的获取外部有效的个人信息,快速解决某些因数据量或数据维度不足而导致的风控能力不足,而且也不会造成合作企业间数据滥用或商业机密的泄露。因此,联邦学习在大数据征信企业间在联合建模过程中逐渐被采用,结合金融机构与外部数据源的数据训练机器学习模型,提供信贷风控、营销等方向的业务支持。但值得注意的是,这一技术模型把数据融合和算法黑箱的复杂程度提到了更高层面,因为个人的信用评分通过不同机构数据模型融合而来,此时数据处理的透明性和可追责性要求更加难以实现。因此,增加数据处理透明性仍然是保护个人信息和征信权益的根本措施,创新技术仍需不断探索。


四、结语


目前我国《个人信息保护法》尚未颁布,即使近期颁布大数据征信行业数据合规和治理也非一日之功,个人数据权益在全数据生命周期的保护需要在监管压力下逐步落实。因此相关企业在日常数据合规中需要不断跟进立法和监管动态,做好数据合规体系建设。诚然切实到位的合规和风险把控不可避免地导致交易成本、管理成本增加,但企业可以在降低合规风险、减少损失的同时,提高自身隐私保护的竞争优势。

随着监管力度的加大和法律法规的完善,征信行业相关资质牌照、监管审批的合规要求也将逐步健全,大数据征信行业的发展必然会受到一定程度的影响,企业必须在技术开发和输出过程中考虑个人信息处理的法律风险,在应用、模型设计之初增加个人信息保护技术措施,因此合规成本攀升不可避免。但对于致力于深耕大数据征信行业的企业而言,这既是挑战,也是机遇,野蛮生长的时代已经过去,将技术创新和合规发展作为核心考量的大数据征信企业将更有可能在大浪淘沙中立足。


注  释

[1]八家征信公司分别为: 芝麻信用管理有限公司、腾讯征信有限公司、深圳前海征信有限公司、鹏元征信有限公司、中诚信征信有限公司、考拉征信有限公司、中智诚征信有限公司以及北京华道征信有限公司。

[2]吴旭莉.大数据时代的个人信用信息保护——以个人征信制度的完善为契机[J].厦门大学学报(哲学社会科学版),2019(01)/161-172.

[3]张晶,李育冬.从百行征信看我国个人征信的市场化发展[J].征信,2019,37(12)/54-60.

[4]刘倩.金融科技数据风险监管的国际经验及借鉴[J].新金融,2019(10)/53-58.

[5]张建军,向光俊,苏海燕.个人征信信息权益保护机制探究[J].征信,2018,36(11)/48-51.

[6]GB/T35273-2020 《信息安全技术 个人信息安全规范》。

[7]《征信业管理条例》第十八条:向征信机构查询个人信息的,应当取得信息主体本人的书面同意并约定用途。但是,法律规定可以不经同意查询的除外。

[8]《征信业管理条例》第十四条:禁止征信机构采集个人的宗教信仰、基因、指纹、血型、疾病和病史信息以及法律、行政法规禁止采集的其他个人信息。征信机构不得采集个人的收入、存款、有价证券、商业保险、不动产的信息和纳税数额信息。但是,征信机构明确告知信息主体提供该信息可能产生的不利后果,并取得其书面同意的除外。

[9]中国人民银行成都分行征信管理处课题组,杨宇焰.金融科技背景下个人征信权益保护研究[J].西南金融,2019(01)/3-17.

[10]中国人民银行成都分行征信管理处课题组,杨宇焰.金融科技背景下个人征信权益保护研究[J].西南金融,2019(01)/3-17.

[11]Mikella Hurley & Julius Adebayo, CREDIT SCORING IN THE ERA  OF BIG DATA, 18 Yale J.L. & Tech (2017).

[12]李福军,姜云峰.大数据背景下个人征信体系建设的国际经验及启示[J].黑龙江金融,2019(02)/20-22.

[13]卜亚.金融科技新生态构建研究[J].西南金融,2019(11)/51-59.

[14]《联邦学习白皮书V2.0》。



责任编辑:郑通