问题的提出一一个简单的例子 田田田 收集 发布 Medical Record 医疗记录 医院 研究人员 在以上的场景中,如果研究人员要求分享病人的医疗 数据从事科学研究,那么如何保护病人的隐私呢?
问题的提出——一个简单的例子 收集 医疗记录 医院 研究人员 发布 在以上的场景中,如果研究人员要求分享病人的医疗 数据从事科学研究,那么如何保护病人的隐私呢?
一种简单的方法一 匿名化(Anonymization) 病人的医疗数据 Name Birthday Gender ZIP Disease 1967/08/07 男 232001 糖尿病 1965/07/03 男 242000 AIDS 1982/01/04 女 353245 Flu 1967/06/04 男 653214 COVID-19 Rose 1976/10/24 女 342019 肝炎 Birthday Gender ZIP Disease 1967/08/07 男 232001 糖尿病 1965/07/03 男 242000 AIDS 1982/01/04 女 353245 Flu 1967/06/04 男 653214 COVID-19 1976/10/24 女 342019 肝炎
一种简单的方法——匿名化(Anonymization) Name Birthday Gender ZIP Disease 张三 1967/08/07 男 232001 糖尿病 李四 1965/07/03 男 242000 AIDS Alice 1982/01/04 女 353245 Flu Tom 1967/06/04 男 653214 COVID-19 Rose 1976/10/24 女 342019 肝炎 Birthday Gender ZIP Disease 1967/08/07 男 232001 糖尿病 1965/07/03 男 242000 AIDS 1982/01/04 女 353245 Flu 1967/06/04 男 653214 COVID-19 1976/10/24 女 342019 肝炎 病人的医疗数据
数据匿名化(或脱敏)的其他方法 ■ 数据仿真:对数据内容进行仿真,生成格式并且语义正确的高仿数据 ■数据遮蔽:使用特殊字特对数据的遮蔽内容进行替换,破坏数据的可读性 ■随机字符串:对数据进行随机变化,使数据不保留原有的语义、格式 ■ 列关联:保持列与列之间的对应或者运算关系,比如身份证字段和生日、年龄等 ■纵向乱序:保持或者打乱列与列之间的每行数据的对应关系 关联列计算:当列与列之间有运算关系时(比如A+B=C),脱敏后的数据仍然具有 相同的运算关系 ■字典映射:根据特征字典,将符合特征的数据替换为指定的值,比如可以将所有的 张三”统一替换为“李四” 随机映射:根据特征字典,将符合特征的数据进行随机替换,比如可以将所有的 “张三”替换为“李四、王五、赵六”当中的任意一个 ■ k-匿名:通过泛化(Generalization)技术,发布精度较低的数据,使得每条记录至 少与数据表中其他k1条记录具有完全相同的准标识符属性值,从而减少链接攻击 所导致的隐私泄露
■ 数据仿真:对数据内容进行仿真,生成格式并且语义正确的高仿数据 ■ 数据遮蔽:使用特殊字符对数据的遮蔽内容进行替换,破坏数据的可读性 ■ 随机字符串:对数据进行随机变化,使数据不保留原有的语义、格式 ■ 列关联:保持列与列之间的对应或者运算关系,比如身份证字段和生日、年龄等 ■ 纵向乱序:保持或者打乱列与列之间的每行数据的对应关系 ■ 关联列计算:当列与列之间有运算关系时(比如A+B=C),脱敏后的数据仍然具有 相同的运算关系 ■ 字典映射:根据特征字典,将符合特征的数据替换为指定的值,比如可以将所有的 “张三”统一替换为“李四” ■ 随机映射:根据特征字典,将符合特征的数据进行随机替换,比如可以将所有的 “张三”替换为“李四、王五、赵六”当中的任意一个 ■ k-匿名:通过泛化(Generalization)技术,发布精度较低的数据,使得每条记录至 少与数据表中其他 k-1 条记录具有完全相同的准标识符属性值,从而减少链接攻击 所导致的隐私泄露。 数据匿名化(或脱敏)的其他方法
但这些方法不能进行隐私保护一链接攻击 选民基本信息表 Birthday Gender ZIP 匿名化后的病人医疗数据 李四 1965/07/03 男 242000 Birthday Gender ZIP Disease Alice 1982/01/04 女 353245 1967/08/07 男 232001 糖尿病 Tom 1967/06/04 男 653214 1965/07/03 男 242000 AIDS Rose 1976/10/24 女 342019 1982/01/04 女 353245 Flu 1967/06/04 男 653214 COVID-19 1976/10/24 女 342019 肝炎 90年代中期,麻塞诸塞州就曾遭受这样的攻击,当时州长的医疗记录被泄露。后续研究 表明,63%的美国人口有着唯一的组合{出生日期、性别、邮编}。 Ohm P.Broken Promises of Privacy:Responding to the Surprising Failure of Anonymization[J] Social Science Electronic Publishing,2012,57(6):1701-1777
但这些方法不能进行隐私保护——链接攻击 Birthday Gender ZIP Disease 1967/08/07 男 232001 糖尿病 1965/07/03 男 242000 AIDS 1982/01/04 女 353245 Flu 1967/06/04 男 653214 COVID-19 1976/10/24 女 342019 肝炎 name Birthday Gender ZIP 匿名化后的病人医疗数据 李四 1965/07/03 男 242000 Alice 1982/01/04 女 353245 Tom 1967/06/04 男 653214 Rose 1976/10/24 女 342019 选民基本信息表 Ohm P . Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization[J]. Social Science Electronic Publishing, 2012, 57(6):1701-1777. 90年代中期,麻塞诸塞州就曾遭受这样的攻击,当时州长的医疗记录被泄露。后续研究 表明,63%的美国人口有着唯一的组合{出生日期、性别、邮编}
那么,不发布详细的元组数据,而发布粗粒度的 统计数据,则不会导致隐私泄露呢? a original statistical dataset Name HIV Publishing Query interface indicator Tom 0 fn)=the count of the front Jack 1 of n recorders whose HIV Henry 1 indicator are 1. Diego 0 Alice 1 +·”+ 那么,只要知道Alice的record number(假设为k),就可以计算Alice的 HIV indicator是阳性还是阴性,即k)k-l)
那么,不发布详细的元组数据,而发布粗粒度的 统计数据,则不会导致隐私泄露呢? Name HIV indicator Tom 0 Jack 1 Henry 1 Diego 0 Alice 1 …… ……. a original statistical dataset f(n)=the count of the front of n recorders whose HIV indicator are 1. Publishing Query interface 那么,只要知道Alice的record number(假设为k),就可以计算Alice的 HIV indicator是阳性还是阴性,即f(k)-f(k-1)