欢迎浏览杂志社官方网站
法律论文

大数据时代下匿名信息的法律规制

摘要:匿名信息即经过处理无法识别特定个人且不能复原的信息。面对大数据时代的挑战,匿名应回归到对信息可识别程度的关切之上。匿名信息的法律标准是,在现有技术水平与合理成本的限制下,信息控制者与积极侵权人使用该信息本身或结合其他一切可获取信息均无法识别出特定的个人。匿名化处理方式主要包括:通过相关技术手段删除或替换全部直接识别符与部分准识别符;将个案式的风险评估贯穿于匿名化处理的全过程并持续监控;信息控制者承诺不进行再识别且通过合同禁止信息接收方再识别。匿名在大数据与技术创新中扮演着重要的角色。通过匿名,可排除个人信息以发挥信息效用,亦可控制信息风险以履行法律义务。

关键词:匿名信息;个人信息;识别;匿名;去身份

一、引言

2014年“朱烨诉百度案”中,百度公司利用Cookies技术记录朱烨的搜索信息,并根据大数据算法提供个性化推荐服务。朱烨以隐私权侵权为由起诉百度公司。一审法院认为,“Cookies所抓取的信息展示了个人上网的偏好,反映个人的兴趣、需求等私人信息,在一定程度上标识个人基本情况和个人私有生活情况。”并判决百度公司构成隐私侵权。二审法院却认为,“个性化推荐服务中运用网络技术收集、利用的是未能与网络用户个人身份对应识别的数据信息,该数据信息的匿名化特征不符合‘个人信息’的可识别性要求。”又由于相关信息只在计算机系统内部进行处理并未被公开,遂撤销一审判决并驳回朱烨全部诉讼请求。

Cookies抓取的信息究竟为何属于匿名信息,二审法院论证不足。让人不禁疑惑,案涉信息当真不具识别性吗?一审法院所指的“在一定程度上标识个人”的间接识别性也不存在吗?尤其是在涉及大数据分析时,匿名仍能轻易达成吗?这些问题不得不求解于个人信息匿名的法律制度。

本文立足于大数据的时代背景,以《网络安全法》第42条第1款、第76条第5款作为我国个人信息匿名的制度原点,结合本土情境与域外经验,重新思考我国个人信息匿名的制度设计,探寻匿名信息的法律标准、处理方式与制度价值。

二、大数据时代下匿名的界定

匿名信息即《网络安全法》第42条第1款规定的“经过处理无法识别特定个人且不能复原的”信息。虽经一定处理,但仍有识别特定个人的可能且能被复原的信息系假名信息。识别性是个人信息的首要特性,不具识别性的匿名信息不是个人信息。面对大数据时代的挑战,匿名应回归到对信息可识别程度的关切之上。

1.从个人信息到匿名信息

根据《网络安全法》第76条第5款,个人信息即“以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息”。识别是个人信息概念的核心。参照欧盟的相关规定,识别需结合判断基准、信息相关性、识别可能性来判断。不具识别性的匿名信息并不符合个人信息的概念构成。

在个人信息的属性问题上,司法实践中许多法院将个人信息划入名誉权或隐私权的范畴。在匿名信息的相关争议中,亦时常出现隐私的诉求,如前述“朱烨诉百度案”中原告即以隐私侵权为由起诉。理论上,更是存在法益说、一般人格权说、隐私权说、新型财产权说、宪法人权说、独立人格权说等学说。其中,隐私权说源于美国法上信息隐私学说。然而,这一学说在实践上常常无力保护个人信息,且难以与中国法上的隐私权相容。个人信息与隐私在总体上是两个不同的法律概念,二者在内涵、外延、理论背景、价值基础、保护原则、权能范围、侵权判断、责任承担各个方面均存在区别。另外,财产权说则存在证明力不足、不利于个人信息保护、混淆个人信息与数据、忽视人格权商品化理论等问题。法益说及一般人格权说忽视个人信息权的积极权能、适用一般侵权行为的构成要件,不利于保护个人信息。宪法人权说更是与我国司法体制不符。笔者赞同将个人信息作为具体人格权客体的独立人格权说。《民法总则》第111条应解释为个人信息权。在大数据时代中,并不存在与人格尊严无关的个人信息,个人信息权独特的权能、范围与内容均无法为其他权利所替代。

个人信息兼具人格利益与财产利益,个人信息权通过人格权商品化实现个人信息的财产利益。当个人信息经过匿名化处理成为匿名信息后,其人格利益与财产利益实现分离,匿名信息只包含财产利益。笔者认为,匿名信息应属数据财产权的客体。匿名化实质上亦是从个人信息权到数据财产权的转化过程。通过匿名化,数据控制者在维护数据主体个人信息权的前提下,获得了相关的数据财产权。数据与个人信息存在区别,作为数据财产权客体的数据只能是匿名化的不具可识别性的数据。具体而言,信息控制者只有在对个人信息匿名化处理后,才能享有数据财产权;对于合法掌握的可识别信息,控制者虽有财产利益但不享有财产权,控制者只能行使商业秘密以及《反不正当竞争法》上的请求权;且当匿名信息通过再识别(reidentification)手段被恢复识别可能性时,这些数据即成为了个人信息,控制者无法再主张财产权。

由此可见,虽然匿名信息与个人信息属于两种不同权利的客体,但其实是一个问题的两个方面。匿名信息的制度设计从来就离不开个人信息的规定,尤其离不开识别性的判断。

2.匿名、去身份与去标识

除了《网络安全法》的规定外,我国的规范性文件中同时存在匿名、去身份、去标识几个术语。“匿名化处理”的概念被用于2010年《电子病历系统功能规范(试行)》与2011年《中医医院信息化建设基本规范》之中。2014年《互联网企业个人信息保护测评标准》第4条更将匿名与去身份一并界定为“信息或信息集合无法合理识别特定用户身份的信息”。2014年《中国互联网定向广告用户信息保护行业框架标准》(以下简称“定向广告行业标准”)第3条第1款指出,去身份化使得“信息无法用于识别、确认或关联至某个特定用户”。同时,去身份有时也被称为去标识。2014年《征信机构信息安全规范》第9.6条第c款规定了去标识化使“个人身份不被直接或间接识别。”2017年《信息安全技术个人信息去标识化指南(征求意见稿)》第3.3条更是明确界定了去标识化的概念,即“通过对个人信息的技术处理,使其在不借助额外信息的情况下,无法识别个人信息主体的过程”。

实际上,匿名、去身份、去标识的含义并无本质区别。匿名(Anonymization)的概念一般为欧洲地区所采用,而去身份、去标识只是对北美地区常采用的Deidentification概念的不同译称。

匿名的法律概念源于1995年欧盟《数据保护指令》条款第26条的规定。该条指出,数据主体无法确定的匿名信息不适用数据保护原则。2018年生效并替代《数据保护指令》的《统一数据保护条例》(以下简称GDPR)鉴于条款第26条进一步指出,匿名信息即“与识别或可识别自然人无关的信息或以数据主体不能或不再可识别的方式匿名提供的个人信息”。为推动GDPR的实施,欧盟委员会将匿名信息的概念进一步解释为“任何被收集的个人信息,被替换或以其他处理方式处理使得该信息在没有使用附加信息时不能归属于数据主体,并且通过区别和区分的技术和组织手段保障这种非关联的属性,或者关联到个人需要一个总量不合适的时间、成本和精力”,并指出“匿名信息不应被认为是个人信息”。

在美国法中,去身份(或译“去标识”)意味着所有可能与特定个人的身份相关联的信息已被从相关的报告、数据或其他信息中移除。美国商务部与国家标准化和技术机构指出,“去身份移除识别信息目的在于使得数据不能与特定个人相关联”。根据美国政府2010年发布的《个人信息保护指引》,去身份即“通过移除足够的个人可识别信息以至于剩余的信息不能识别特定个人,以及没有合理的理由相信这些信息能被用于识别特定个人。”加拿大安大略省信息和隐私专员亦指出,“去身份的信息是不能直接或间接识别个人的信息。如果信息不识别个人,并且在信息可单独使用或与其他信息一起使用的情况下识别个人是不合理预见的,则信息已被去身份。”

由此可见,匿名与去身份只是同一术语在不同法域的不同表述,均指使得个人信息不再能识别个人。实际上,两个概念的同一性已被广泛认可。国际标准化组织对匿名与去身份的界定亦是高度相似。FredH.Cate直接将匿名信息与去身份信息等同。GregoryS.Nelson将匿名化处理称之为个人信息去身份的过程。为便于理解,本文将统一采取匿名的表述。笔者认为,匿名化处理即数据控制者运用特有的处理方式,删除或替换可识别个人身份的信息,使得个人信息达到不具识别可能性的标准。由于匿名信息已非个人信息,处理匿名信息不受个人信息保护规范的约束。

3.假名与匿名

在匿名的概念外,域外个人信息保护立法中还存在假名(Pseudonymization)的概念。德国《联邦数据保护法》第3条在第6款匿名的概念后规定了第6(a)款,“假名指用其他标志替代姓名或者识别符号,以便无法确认数据当事人或者实质性增加确认数据当事人的困难。”欧盟第29条数据保护工作组(以下简称WP29)即指出,假名只是对信息主体身份进行伪装,形成的假名信息可被复原;假名并非匿名的一种方式,其仅仅减少了数据与可识别数据主体之间的关联能力,是一种有用的安全措施;如网络用户的网名属于假名,但仍属于个人信息。GDPR鉴于条款第4条第5款亦对假名进行了详细规定,“假名意味着通过这样一个方式处理个人信息:若不使用附加信息,个人信息将不再与一个特定数据主体相连,且附加信息被分别保存并使用技术和组织措施保障个人信息不被与一个已识别或可识别的自然人相连。”换言之,借助辅助信息,假名信息仍有可能识别特定的自然人。因此,GDPR鉴于条款第26条指出,“经过假名的个人信息,可以通过使用附加信息识别个人,应被认为是一个可识别的自然人的信息。”

由此可见,假名与匿名具有一定的相似性,均具有防止信息主体身份泄露的作用。假名与匿名最根本的区别即在于假名存在被识别的可能性,因此,假名信息仍是个人信息。在某些情形中,甚至可以通过假名直接识别特定个人。欧盟《电子签名指令》第8条第3款即规定,签名人有权使用假名在文件中作合格签名。

虽然假名信息仍是个人信息,但其实际上起到降低风险的作用。GDPR鉴于条款第28条明确指出,“将假名应用于个人信息可以减少有关数据主体的风险,并帮助控制者和处理者实现其数据保护义务。”对此,WP29曾经认为,数据保护规则应被更加灵活地适用于假名信息之中[11]18。然而,GDPR鉴于条款第28条对这一理论进行修正并明确指出,“假名并不排除任何其他数据保护措施。”因此,处理未达到匿名标准的假名信息,仍需遵循个人信息保护规范。

4.匿名与再识别

大数据时代下,匿名与假名的边界逐渐模糊,匿名信息也可能通过再识别处理而被复原。PaulOhm研究指出,现行的匿名手段所起到的作用有限,无法起到预期的个人信息保护效果,恶意的入侵者可获取相关身份信息,匿名已经成为了一个“破碎的承诺”。美国在线(AOL)曾经将用户搜索信息删除用户名称和用户地址后附加上唯一数字编码发布,记者通过这些数据却识别出了部分用户。在线电影租赁网址Netflix亦曾以删除用户名并以编码替换的形式公开了其用户数据,德克萨斯州大学的研究者则发现这些数据非常容易被再识别。

正是由于再识别变得简单易行,几乎各种信息都可能识别个人而构成个人信息,个人信息的法律概念本身亦受到了挑战。有学者称之为“匿名的迷思”。对此,PaulOhm主张放弃匿名的概念,其宣称“匿名已死”并认为“个人可识别信息(P.I.I.)的概念已走向终结”。PaulM.Schwartz与DanielJ.Solove亦认为,数据再识别技术将使得个人可识别信息的概念走向消亡。

笔者并不赞同该种观点。第一,匿名追求的是风险最小化,而非100%的安全。事实上,100%的安全措施并不存在。一些怵目惊心的再识别个案只能说明,大数据背景下匿名无法做到100%安全,并不能说明相关风险已超出匿名信息的法律标准。再识别技术发展的同时,匿名技术也在不断更新。加拿大安大略省信息和隐私专员认为,匿名信息再识别的风险被一些研究者错误地高估了。美国联邦通讯委员会也指出,匿名信息的再识别通常是琐碎的。据JaneYakowitz研究,匿名化处理后信息的识别率只有0.013%。可见,匿名信息的再识别风险仍是极小的。第二,否定匿名信息,将造成意料之外的后果。否定匿名,必将降低信息主体将个人信息匿名的积极性,从而不利于个人信息保护。另外,对匿名信息适用个人信息保护规则亦不可行。若匿名信息处理须获得信息主体同意,则为了明确信息主体,还需先将相关信息作再识别处理,反而更不利于个人信息保护。

笔者认为,大数据时代下,匿名应更加关注信息的可识别程度。可识别程度的层次性特征已为国外学者所注意。根据可识别程度,美国商务部与国家标准化和技术机构将信息分为与个人无关的信息、不能被关联到任何个人的信息、可被模糊地关联到某些个人的信息、可被不模糊地关联到一个特定个人的信息、关联到一个特定个人的信息。因此,《网络安全法》第42条第1款“无法识别特定个人且不能复原”中的“无法”亦应按可识别程度解释,理解为可识别程度极低,而实际上无法做到的100%不可识别。在大数据的背景下充分衡量信息风险、判定信息的可识别程度,是反思与重构匿名的法律标准与处理方式的必由之路。

 


热门期刊