跳转到主要内容

文章分类

大约在8月30日,电子和信息技术部(MeitY)公开了关于政府项目如何匿名化和利用电子政务相关数据的准则草案,供公众咨询,但几乎没有公开宣传。

为什么该部会提议匿名数据?

大型数据集对研究、治理或商业非常有用——它们通常包含个人身份数据和与该个人相关的描述性数据的混合。这些数据可能无法识别一个人的身份,但可以用于访问和分析。然而,只要它与个人数据(通常受数据保护法保护)放在一起,处理它就会给个人带来隐私风险。

因此,为了利用这些信息,组织和政府会“清理”个人数据的数据集。这可能会让他们充满“匿名”的“非个人数据”,因为它实际上不再与个人联系,也不会损害他们的隐私。然后发布数据集供公众使用。

该指南是印度非个人数据管理的又一步

与许多国家一样,印度政府正在推动匿名非个人数据的使用,以改善企业之间的治理、研究和竞争。州政府也热衷于使用匿名非个人数据的想法——4月份,泰米尔纳德邦政府根据其开放数据政策发布了泰米尔纳德邦公共服务委员会选拔过程的“屏蔽”数据。

然而,大约在9月6日,这些指南被从“电子政务标准和指南”网站上撤回,几乎与首次上传时一样随意。报告表明,该部撤回了这些准则,因为“它们是在没有充分专家咨询的情况下发布的”。不久将发布一份新文件。

也许外交部的决定是明智的。正如专家告诉MediaNama的那样,个人数据的“匿名化”并不保证个人隐私——保护信息的技术很容易被逆转这可能导致数据集的“重新识别”或“非对称化”——暴露个人或一群人的身份,同时侵犯他们的隐私并使他们受到广泛的伤害。

更糟糕的是,对于训练有素的恶意行为体来说,取消假名是一种相对容易的做法。而且,如果真的发生了这种情况,印度公民在没有数据保护法的情况下,没有任何追索权来保护自己。

印度网络安全公司Xiarch创始人兼注册信息系统安全专家乌特萨夫·米塔尔(Utsav Mittal)表示:“由于数据是新的黄金,网络犯罪分子或其他个人将把大量存储个人可识别数据[或潜在可识别数据]的地区作为目标。”。

米塔尔说:“归根结底,一个部门或组织被黑客攻击[或其可用信息被用于恶意目的]的可能性与他们拥有的个人数据量成正比。”。

大型匿名数据集所带来的隐私风险是不言而喻的,这些数据集详细记录了印度人口、企业和景观的特征。然而,如果没有有效的数据保护法,这些风险都无法减轻或惩罚。甚至撤销的电子政务指南也是“自愿的”,缺乏法定支持。

阿齐姆·普雷姆吉大学发展学院教员维卡斯·库马尔(Vikas Kumar)推测:“最终,只有解决印度在民主、数据和发展领域面临的三重交织赤字,数据驱动的政策制定才会成功。”库马尔最近的工作包括《印度周边的数字:政府统计的政治经济》(Numbers in India’s Periphery:the Political Economy of Government Statisticy)。

“把它们想象成一个三脚架。如果你提高了一条腿的高度(数据处理),但没有提高其他两条腿(民主和发展)的高度,那么数据驱动的政策制定将是无效的。你需要同时提高所有三条腿,但为此,你首先需要关注其他两条脚。”

什么是去匿名化,它是如何工作的?

Logicaly高级分析师Ayushman Kaul解释道:“[解释匿名化]最简单的说法是,一旦实体收集到数据,数据就会从个人标识符(PI)中剥离出来,并以小部分的形式发布(仅占较大数据集的1%,或仅为居住在100000个医院的1000名患者的匿名医疗信息)。”。

“一旦以这种方式处理,数据就会广泛分布,甚至现代研究机构和院士也被鼓励发布其工作的匿名数据集,让更广泛的社区独立验证其工作。事实上,数据集经过匿名处理后,就不再被视为“个人信息”,因此通常被视为免除了许多旨在保护个人隐私的司法保障措施。这些数据集随后可以自由使用、共享和销售。”

另一方面,去匿名化是通过组合经过擦洗的数据集来识别不同上下文中同一用户的信息。这种数据集的链接可以揭示关于个人的分层和全面的个人信息,这就是为什么专家建议匿名化不是保护隐私的万无一失的技术

互联网协会互联网信托高级主管克里斯蒂娜·兰内加(Christine Runnegar)指出:“‘匿名数据’一词可能传达出一种虚假的安全感,因为几乎不可能确保个人数据是真正匿名的,并且永远是匿名的。”。“当试图通过删除标识信息来匿名化个人数据时,一个更好的术语是“取消标识的数据”。它传达了已知标识信息已被删除的想法。尽管可能仍有一些未识别的标识信息,或者当数据与其他数据结合时可以重新标识。”

早在2006年,研究美国人口普查数据的研究人员发现,63%的抽样人口可以通过结合三个人口统计指标来确定:性别、邮政编码和出生日期。研究人员是在21世纪初的研究基础上发展起来的,研究发现87%的美国人口可以通过使用相同的间接标识符来识别。

2019年,研究人员发现“99.98%的美国人可以在任何使用15种人口统计属性的[匿名]数据集中正确地重新识别”。比利时和伦敦的研究人员得出结论,“即使是大量采样的匿名数据集也不太可能满足GDPR(欧盟隐私保护法)规定的现代匿名标准”。

更重要的是,访问匿名数据并对其进行分析并不一定困难,至少对知情人士来说是这样。

米塔尔解释道:“对于一个资源合理的网络犯罪分子或个人来说,任何数据集都很容易获取。”。“通过使用加密货币(如比特币),这些数据可以很容易地从黑暗网络上买到,这也为这些参与者提供了一定程度的匿名性。这些数据“便宜”,而且价格经常下降——毕竟,这是一个信息市场。”

例如,英国广播公司(BBC)最近报道称,北约80GB的机密安全数据正在网上以15比特币(约273000英镑)的价格出售。印度也有许多私人和公共数据集在网上遭到破坏。

米塔尔说:“一旦获得数据,技术参与者就会取消这些数据的匿名。”。正如考尔解释的那样,这些可能包括“政府、执法机构、数据经纪公司、社交媒体平台、数字营销人员、骗子、记者和安全研究人员(……)。这一过程的复杂性与匿名数据集的“粒度”和可用于交叉引用的“辅助”数据集的数量直接相关。”

米塔尔补充道:“然后,技术参与者只需将数据出售给下一批希望在实地购买这些信息的人。”。

非匿名化如何伤害人们?

Runnegar警告说:“如果可以用来挑出某个个人或社区的某个部分,那么即使无法与特定的已知个人联系起来,取消身份的数据仍可能会对隐私造成严重影响。”。“关键风险之一是歧视。”

例如,2006年,AOL发布了50万用户的“匿名”搜索日志。虽然名字没有包括在内,但《纽约时报》的记者仍然能够从数据集中快速识别62岁的塞尔玛·阿诺德。

2014年,纽约市公布了超过1.73亿辆公共出租车的“匿名”数据。然而,一些专家能够确定哪些出租车进行了特定的出行(以及谁驾驶这些出租车)。这是因为数据集的匿名性不够强,更容易三角化身份。

最近,在2021,美国天主教高级牧师杰弗里·伯里尔(Jeffrey Burrill)通过使用从数据代理获取的与Grindr相关的“聚合”用法对其位置进行三角测量,暴露了他的性活动。所有这些信息都是通过一份涵盖天主教会的新闻通讯合法获取的,并且也成功地实现了脱基督教。消息传出后,巴里尔辞职了。

具体而言,在印度,合并公共数据集的基于身份的风险已经很明显。

库马尔回忆道:“我看到人口普查数据在实地发生暴力时被滥用。”。“弱势社区预计到了这一点,因此他们有时会伪造向政府数据收集人员提供的信息,以防止这种情况发生。例如,1984年英迪拉·甘地遇刺后发生的骚乱中,选民名册被用来识别和锁定居住在德里的锡克教徒。”据报道,暴徒也使用学校登记和配给清单。

在2020年德里东北部社区骚乱期间,报告进一步表明,来自道路交通和公路部车辆登记数据库“Vahan”的数据可能被用于识别穆斯林拥有的车辆并将其点燃。

非匿名化发生的可能性也在不断变化。

Kaul认为:“鉴于收集到的关于个人的大量数据,可以在不完整或分割严重的数据集上训练的机器学习算法越来越复杂,以及访问辅助数据集的便利性,‘匿名化’方法在很大程度上变得多余。”。

“事实上,2013年发表的一篇分析流动数据的研究论文【匿名数据集的最敏感形式之一,因为它包含了个人的大致位置,可以用来重建个人在空间和时间上的运动】发现由于人类活动轨迹的独特性,在稀疏、大规模和粗糙的流动数据集中重新识别和跟踪目标个体只需要很少的外部信息。”

此外,正如《登记》在引用英国关于数据匿名化的指南时指出的那样:

“问题(..)是,你永远无法确定还有哪些其他数据,以及有人可能如何将其与你的匿名数据集进行映射。你也无法判断明天会出现哪些数据,或者重新识别技术可能会如何发展。数据代理在没有所有者知情的情况下随时出售位置访问数据,这加大了风险。”

印度公民目前对此类伤害没有追索权。德里国立法律大学通信治理中心项目经理沙申克·莫汉(Shashank Mohan)表示:“我们甚至在制定数据保护法之前就在讨论印度[非个人数据]数据治理的下一阶段。”。

“其他国家可能会促进非个人数据的共享和处理,但它们已经制定了成熟、不断发展和强有力的数据保护法律。因此,在印度,关于非个人数据方面的对话只不过是学术性的——撇开非个人数据不谈,即使我的个人数据今天遭到侵犯,或者作为一个城市,一个实体没有遵守基本的数据保护原则n我几乎没有补救机制。”

为什么会大力使用非个人数据,尤其是在明显缺乏数据保护法的情况下?

在2020年的Kris Gopalakrishnan委员会报告中,匿名非个人数据在印度治理和经济增长中的使用得到了显著充实,该报告将非个人数据定义为“与已识别或可识别自然人无关的任何数据,或已匿名的个人数据”。委员会的设想部分转化为随后的数据保护法草案,表明政府对收集和处理公民数据以获取经济利益的热情。

Aapti研究所联合创始人兼主任阿斯塔·卡普尔(Astha Kapoor)解释道:“匿名化数据集对于更好的治理具有重要价值。”。“归根结底,这种价值有两种定义:公共价值和经济价值。至少在克里斯·戈帕拉克里希南委员会关于非个人数据的报告中,这两种定义并不相互排斥。提高效率具有经济价值。”

“UNDP孵化的创新实验室‘Pintig’确实加大了收集菲律宾新冠肺炎感染模式非个人数据的力度,”Aapti研究所研究分析师Soujanya Sridharan表示。“感染数据主要用于创建一个仪表盘,供决策者和市政管理人员确定如何提供援助和护理。在芬兰,‘健康和社会数据的二次使用’立法解锁了用于特定目的的非个人数据。其中显然包括规划和治理,还有研究、创新和教育。”

Kapoor补充道,在印度,Niti Ayog还开发了国家数据和分析平台,该平台旨在“通过使政府数据集易于访问、实施严格的数据共享标准、实现印度数据领域的互操作性,以及提供无缝用户界面和用户友好工具,实现数据交付民主化”。

Balakrishnan委员会还推动公司数据的匿名化和共享,以刺激印度行业内的创新,并减少大公司在行业内可能拥有的霸权优势。

除了公司和政府,非个人数据对本地化的团体和社区也很有用。卡普尔说:“我们看到多发性硬化症患者汇集了他们的数据,将其匿名,并与调查该疾病的研究人员共享。澳大利亚和加拿大的土著社区也使用他们水体或土地的非个人数据与政府就具体问题进行谈判。”。

然而,世界各地的监管机构也可能对使用匿名数据集感兴趣,因为它们超出了通常严格的个人数据保护法的规定。在保护个人数据的法律面前,退名可以作为一种“变通方法”。

Mohan说:“传统上,数据保护法涵盖了个人数据,因为这与你的隐私有着内在联系,可以导致你的身份识别。”。“但是,随着技术的发展,数据生态系统中的多个参与者已经意识到处理数据具有巨大的价值。这就是围绕NPD和数据治理的整个对话的关键所在——数据处理在很大程度上没有受到数据保护法“负担”的保护。”

互联网自由基金会(InternetFreedomFoundation)副政策顾问阿努什卡·贾恩(Anushka Jain)补充道:“目前,如果你在印度获取个人数据并在未经同意的情况下使用,仍可能存在某些缺陷。”。

“例如,《2011年信息技术(合理的安全做法和程序以及敏感的个人数据或信息)规则》[2011年规则]禁止公司对个人未同意的敏感个人数据进行任何处理。这些规则的执行是另一个问题,但它们至少存在。因此,当你在未经同意的情况下处理个人数据时,你是非法的。当你可以将非个人数据取消命名,然后对其进行任何处理时,为什么要这样做?”

在政府如何看待匿名数据方面存在哪些法律和实际差距?

政府建议政府部门在其现已撤销的指南中使用一系列广泛的匿名技术,或许是为了减轻匿名的隐私风险。然而,虽然强大的匿名技术可能会使恶意参与者的工作变得更加困难,但它也可能并不总是能够保护数据集免受非匿名化的影响。

Runnegar指出:“不良的反身份识别方法,如简单地从数据中删除个人姓名,会带来重新身份识别的高风险,但即使是更好的反身份方法,也可能无法阻止将来的某一天重新身份识别。”。“然而,组织可以通过将已取消身份的数据视为个人数据,应用数据最小化、使用、访问和共享限制等良好的数据保护做法,以及应用加密等安全措施,来降低重新身份识别的隐私风险。此外,对于从群体或人群收集的数据,安全多方计算(MPC)可用于分析聚合数据,同时保护数据的隐私。”

印度没有数据保护法,无论是针对个人数据还是非个人数据,这一事实可能会使此类良好做法变得多余。随着政府在引入这项法律方面举步维艰,公司本身仍不确定哪些信息应该匿名以及如何匿名,从而导致了隐私保护的拼凑方法。这表明印度存在一个更大的分类问题,个人和非个人数据的定义以及构成隐私的内容仍在不断变化。

例如,如上所示,非命名不仅可以识别个人,还可以识别以特定特征为中心的更大群体。因此,正如Varunavi Bangia之前为MediaNama所主张的那样,国家必须“从根本上改变隐私权主体的概念,从保护个人到保护群体。”。。)对一个群体可用的权利进行概念化,不仅是因为该群体中的每个人都有独立的隐私权,而且是作为一个群体属于该群体的权利。最重要的监管干预是确保集体权利既不从属于个人权利,也不与个人权利相冲突。”

虽然印度法院承认,隐私权不仅限于个人隐私,还包括集体权利,但印度拟议的数据保护法仍在反复修改,以将个人和非个人数据结合在一起进行监管。“这是因为缺乏对非个人数据在创建集团档案方面对公司价值的理解,”Bangia说。

由于不同的重新识别场景超出了监管机构的范围,因此很难追究违规和危害的责任。

2021,现已撤销的数据保护法案草案中出现了一些希望。“虽然该法案结合了个人和非个人数据的保护,但它承认匿名可能失败,这就是为什么它将所有数据置于其监管范围内,”卡普尔回忆道。“它对非基督教化进行处罚,使其成为一种应受惩罚的罪行。”

随着法案现在被撤回,MeitY抱怨说,非个人数据将不受个人数据保护法的管辖。潜在的继任者离通过还有几个月(如果不是几年)。与此同时,用户应该如何提出申诉或要求数据处理者对重新识别负责也仍然不清楚。

公民现在如何寻求重标识化的补救措施?

Sridharan解释道:“在印度,任何重新识别非个人数据的行为都将被视为数据泄露。”。“虽然我们没有个人数据保护法,但我们有《2011年规则》。但是,数据泄露或重新识别实际上没有任何处罚或费用。人们唯一的途径是向法院提交令状请愿书,以保护他们的隐私权。但在这种情况下,制度瓶颈也会出现。”

目前,数据处理器可能需要重新识别。Jain说:“如何追究这些行为人的责任,是利用现有法律的混合物。”。“这可能涉及扩大《印度刑法典》和2000年《信息技术法》的规定,并将其适用于重新身份认定的个别案件。”

互联网自由基金会副政策顾问Tejasi Panjiar补充说,鉴于这种监管真空, “无论是私人行为体还是政府,都没有被追究责任,也没有被授权遵循数据最小化、存储和目的限制等国际最佳实践。即使巴拉克里希南委员会的报告处理非命名问题的方式也是非常事后的。如果发生这种情况,数据将被纳入个人数据保护立法,并将被施加刑事条款。我们确实这样做了没有强有力的、可执行的匿名化政策来确保个人数据的可识别方面被高度删除。”

这种方法可能与隐私法中的匿名化全球标准不一致,也可能与据称旨在嵌入新一批互联网法律的隐私保护模式MeitY背道而驰。

例如,当每个人都受到单独保护时,欧盟的一般数据保护条例(GDPR)将数据集视为“匿名”。即使数据集清除了标识符,如果它们确实包含可能导致重新识别的数据,那么这个“匿名”数据集也将符合GDPR的规定。

2019年3月,当丹麦数据保护监管机构因出租车公司Taxa在五年内保留900万辆出租车的数据而罚款约18万美元时,GDPR关于匿名化的严格规定被曝光。该公司辩称,它不受GDPR关于数据最小化和存储限制的规定的约束,因为数据集是通过删除个人姓名而匿名的。这意味着它可以更长时间地使用和存储匿名数据。

虽然Taxa的行为符合GDPR第26条的规定,但丹麦监管机构辩称,该公司未能达到同一条规定的高匿名标准。个人仍然可以很容易地被重新识别,这意味着数据集不是匿名的,它受到GDPR的个人数据保护。

国家如何进行监管?

“总是有火灾烧毁建筑物的风险,但这是否意味着你没有制定法律来降低火灾的可能性?”米塔尔问道。“仅仅因为存在非匿名化的风险,并不意味着我们将匿名化的(潜在好处)抛出窗外。这意味着我们需要推动引入更强大的标准和法律。”

莫汉挑衅性地说:“在某些方面,个人数据保护法可能会过时,除非它们跟上数据处理技术的步伐。”。“学者们现在建议,我们需要有合理推断的权利。这一概念摒弃了个人数据和非个人数据之间的区别,认为如果数据处理者推断用户使用其数据,并且如果可能产生潜在危害,那么用户需要受到保护,以防其受到伤害。”

然而,鉴于现有的权利框架,政府在如何监管该行业方面面临十字路口,这在很大程度上取决于如何定义和处理个人和非个人数据。

“为了在同一法律下管理个人和非个人数据,印度的数据管理监管结构可能需要通过学习其他国家和经验来快速发展和成熟,”Mohan说道,他暗示了数据处理可能会以不同的方式损害组群隐私。“我很感激印度政府试图改变商业模式和数据收集实践的权力动态。但要使这种非个人数据政策对所有相关人员都有效,我们需要一种多管齐下的方法:针对个人数据保护、非个人数据和反托拉斯的健全法律需要协同合作。”

Sridharan和Kapoor认为,根据新法律保护非个人数据的方式是细微差别的,是目的驱动的。

“数据使用的目的应该是保护的起点,”卡普尔解释道。“例如,农民可能会使用某种肥料作为土壤。这可能是因为这种肥料以及潜在的耕作方式是他们的知识产权。因此,即使是与这种肥料相关的非人类NPD,也可能需要匿名和保护,以尊重其知识产权。”

Sridharan补充说,有必要制定单独的立法,“明确规定规则和责任,不仅是国家的,而且是帮助制作非个人数据的社区的权利。”

潘加尔持不同意见,认为只要非个人数据是通过经济价值的棱镜来看待的,就像印度的情况一样,就有必要将其置于个人数据保护的严格范围内。

潘加尔说:“与个人数据的处理方式相反,巴拉克里希南委员会的报告和国家数据治理框架草案非常明确地提出了基于商业和金融动机而不是数据隐私和用户安全的非个人数据监管的前提。”。

“当你将两者分开,以至于没有严格的规定来监管和保护非个人数据时,数据非对称性带来的风险就变得更加真实。因此,在我看来,我们需要考虑通过一个独立的专家机构来监管非个人数据,该机构很可能就是拟议的数据保护机构(DPA)[在2021的《数据保护法案》中引入],重点是促进用户安全和隐私,而不是出于商业动机。”

库马尔总结道:“印度的开国元勋们(如《人口普查法》第15条所述)为人口普查数据的共享提供了高度隐私,这是有原因的。”。“我们现在也需要将类似的隐私概念嵌入到我们处理数据的方式中。目前,我们正在以抽象的方式看待事情。这需要改变。提供的保护级别应该通过对数据处理策略的发展方向的深入了解来确定。”

本文:https://cioctocdo.com/without-data-privacy-law-india-must-consider-hazards-deanonymisation-non-personal-data

文章链接