使用区块链进行特征工程的隐私保护方法:审查、评估和概念验证

摘要

背景:对于收集研究参与者可识别信息的研究而言,保护私人数据是一项重要责任。限制数据收集范围和防止数据二次使用是管理这些风险的有效策略。理想的数据收集框架应包含特征工程,即在安全的环境中从敏感的原始数据中获取二次特征,而无需可信的第三方。

客观的:本研究旨在根据数据隐私保护方式及其实施的实用性对当前的方法进行比较。这些方法包括依赖可信第三方的传统方法以及加密、安全硬件和基于区块链的技术。

方法:定义了一组属性来评估每种方法。基于这些属性进行了定性比较。每种方法的评估都以共享地理位置数据用于生物医学研究的用例为框架。

结果:我们发现,依赖可信第三方来保护参与者隐私的方法无法提供足够强大的保证,确保敏感数据不会在现代数据生态系统中暴露。加密技术采用了强大的隐私保护范例,但仅适用于特定用例,或者目前由于计算复杂性而受到限制。区块链智能合约本身不足以提供数据隐私,因为交易数据是公开的。可信执行环境 (TEE) 可能存在硬件漏洞,并且无法了解数据的处理方式。结合区块链和加密技术或区块链和 TEE 的混合方法为隐私保护提供了有前景的框架。作为参考,我们提供了一种软件实现,用户可以使用结合区块链和 TEE 的混合方法作为补充,私下分享其地理位置数据的特征。

结论:区块链技术和智能合约通过消除对受信任方的依赖并提供不可变、可审计的数据处理工作流,实现了新的隐私保护特征工程方法的开发。区块链与加密技术或区块链与安全硬件技术之间的重叠是解决重要数据隐私需求的有前途的领域。混合区块链和 TEE 框架目前为实现实验性隐私保护应用程序提供了实用工具。

医学互联网研究杂志 2019

介绍

背景
新技术带来的数据隐私问题

社交网络、智能手机、可穿戴设备和物联网 (IoT) 设备的出现为大量收集有关行为、生物学和健康的个人数据提供了前所未有的途径。这些技术的普及为如何保护个人隐私带来了新的挑战,有意或无意地泄露敏感和可识别信息的可能性也随之增加。

皮尤研究中心最近的一份报告发现,物理位置数据是最敏感的数据类型之一[1 ];然而,超过 1000 个流行的智能手机应用程序跟踪精确的位置数据,其中一些应用程序将这些数据出售给第三方,用于定向广告或分析[2 ]。允许应用程序收集位置数据的提示很少反映出数据的使用方式,具体信息隐藏在应用程序的隐私政策中。尽管位置公司声称收集的数据用于分析总体模式,而不是个人身份,但员工和客户仍然可以访问原始数据,并可以在未经用户同意的情况下识别用户。主要电信运营商出售用户位置数据,记者们已经表明,数据可以转售给下游公司。这个数据生态系统缺乏监管,导致了出售用户位置数据的黑市[3 ]。

一旦第三方收集了用户数据,就很难保证数据不会被滥用或不当处理。2013 年至 2014 年间,剑桥分析公司收集了 Facebook 用户的社交媒体数据用于学术研究,但后来又将这些数据用于政治广告[4 ]。过去十年,重大数据泄露事件暴露了数十亿用户账户[5 ]。还有一些恶意应用程序在未经用户同意的情况下直接泄露隐私信息[6 ]。监管努力,包括《通用数据保护条例》下的“被遗忘权”指令,旨在遏制这一趋势,以保护用户隐私[7 ]。

这些问题给生物医学研究人员开展研究带来了困难,他们原本可以从便捷、被动和纵向的数据收集方法中获益,从而识别新的生物标记物并开发数字疗法。需要一种开放且值得信赖的方法来与不受信任的第三方共享数据,以确保 (1) 事后隐私,即个人数据不会在个人同意的研究之外共享,以及 (2) 数据仅用于研究的预期目的。

在本文中,我们回顾了个人数据隐私保护技术的现状,其动机是位置共享用例及其在医疗保健中的应用。我们从几个方面比较了隐私保护技术,包括研究团队所需的信任程度、技术的普遍性以及开源工具支持的可用性。我们的目的是提供一份实用的路线图,帮助研究人员就敏感个人数据的使用和处理做出明智的决定。我们为位置共享示例用例提供了一个参考软件实现,使用其中一种经过研究的隐私保护技术。

使用生物医学和位置数据进行医疗保健预测建模

智能手机的使用,尤其是地理位置数据,对一些医疗保健应用至关重要。位置数据已用于各种医疗应用中,例如监测行为和环境风险因素 [89 ],改善疾病管理和治疗[10 ],并告知药物滥用方面的公共卫生政策[11 ]。在一个代表性的例子中,研究人员发现从全球定位系统(GPS;运动和位置)和手机使用情况(社交联系)中提取的特征与抑郁症症状严重程度密切相关。智能手机工具的可用性为持续、被动评估提供了一种载体,有朝一日可能会增强临床精神药理学中现有的数据收集方法。12 ]然而,需要强调的是,虽然地理位置数据对于医疗保健研究很有价值,但它也是最敏感的个人信息之一。

特征工程

特征工程是将原始数据转换为适合机器学习算法的表示形式的过程。例如,假设你正在构建一个系统来预测大都市区两地之间的行车时间。你将获得包含上一年两地之间的日期、时间和行车时间的数据。原始日期数据 (YYYY-MM-DD) 不太可能对预测行车时间有用,但知道当天是工作日还是周末可能非常有用。机器学习科学家可能会编写代码,如果日期是工作日则返回 true,如果日期是周末则返回 false。新设计的布尔特征weekday编码了重要的领域知识(即工作日和周末的交通模式不同),并且可以提高机器学习模型预测的准确性。

从历史上看,特征工程是一个手动过程,基于机器学习科学家的经验和领域专业知识。13 ]。最近,从数据中自动学习特征表示的自动化系统(例如稀疏编码和自动编码器)已证明作为深度学习模型的基础具有良好的性能。在这里,我们描述了一个特征工程框架,该框架可以保护可识别数据的隐私,并且适用于手动或自动特征工程程序。

最小曝光特征工程

我们的方法基于最小暴露的前提;参与者应仅透露研究所需的最少数据,研究人员应仅收集研究所需的数据。分析流程的特征工程步骤通过将可识别、敏感或其他私人数据转换为去识别或匿名的特征,提供了限制暴露的机会。这种最小暴露的特征工程方法创建了一个对参与者和研究人员都有利的框架。通过公开让研究人员难以获得原始个人数据,参与者可能会更愿意分享他们的数据并为研究做出贡献。同时,取消研究人员的数据访问权限可能会简化和加快研究,因为可以减少用于维护安全数据服务器的资源并限制对个人身份信息的暴露。在

图 1 中,我们说明了将原始数据和特征提取封装在安全环境中的方法,该环境远离主要对底层特征感兴趣的研究人员。

对区块链技术在数据隐私方面的兴趣

2018 年 6 个月内,医疗保健领域区块链项目的版图规模增长了两倍,近 150 个项目筹集了超过 6.6 亿美元的资金。14 ]。医疗和生物医学区块链最常见的功能是数据和数字资产的管理(38%),其中包括身份管理、患者数据、医疗系统运营数据等。14 ]。这表明,区块链技术最流行的应用之一是围绕这样一种理念:个人可能希望控制自己的数据,以此来感觉自己的隐私和数据更加安全。

区块链由一个由不相关的计算机(节点)组成的分布式网络组成,这些计算机维护使用加密协议验证的不可变交易记录。根据谁可以参与网络以及交易如何验证,区块链网络进一步被描述为公共、私有或联盟网络。在公共区块链中,交易得到验证,并且全局真实状态(分布式账本)由无需信任的网络维护。无需信任的网络是指具有共识协议的去中心化网络。共识协议通过公钥加密、博弈论和加密经济(数字货币)激励以及计算复杂性结合了发送者真实性,以确保诚实节点得到奖励,不诚实节点受到惩罚,以维护规范真相。通过使每笔交易都可审计且无需许可,公共区块链可确保数据完整性、信任和可验证性。

区块链技术的进步使得基于规则、可自动执行的软件代码(即智能合约)的部署成为可能。智能合约充当预定义的仲裁者,从而消除了对中介机构的需求。此外,当合约代码公开时,智能合约是不可变的,并且可以公开验证。智能合约与无信任环境的结合消除了对负责管理私人数据的可信第三方的需求。这些特点使得智能合约与本研究特别相关。

本研究的目的

本研究的目的是根据当前隐私保护方法维护个人共享数据隐私的能力对其进行研究和比较。比较方法的依据是第三方所需的信任级别,以及将这些技术实施为特征工程步骤的实用性。本研究还旨在确定研究人员和软件开发人员在构建与保护数据隐私有关的应用程序时可以使用的更有前景的技术。

本次测试针对的是从个人参与者处收集位置数据的实际用例,从中可以提取与健康相关的有趣特征。为了让研究人员尽可能容易地理解这个示例,我们提供了一个开源软件项目,该项目实现了位置共享用例中测试的一种技术。

方法

主要结果

本研究的主要结果如下:

  1. 定义一组属性,用于评估每种方法的隐私保护属性。
  2. 基于地理位置特征工程用例,对每种方法的隐私保护属性进行定性比较。
  3. 一种概念验证软件实现,用于从 GPS 坐标数据中提取位置类别,同时使用更实用的区块链技术之一来保持隐私。
文献综述

我们查阅了文献、与医疗保健相关的区块链用例以及网络上应用的区块链项目。这些技术是通过在电子数据库(Google Scholar 和 PubMed)和搜索引擎(Google)结果中搜索关键字来确定的。关键词是隐私区块链去识别隐私特征工程。搜索时(2019 年 1 月)的结果包括以多种格式描述的方法,包括同行评审期刊中的 4 篇学术论文、会议论文集中的 6 篇学术论文、2 篇文献和产品调查、1 篇博士论文、7 份科学期刊预印本、11 份产品规范和 1 份学术讲座材料。

这些技术分为以下几类:(1)依赖可信第三方的方法,(2)加密方法,(3)可信执行环境 (TEE),以及(4)结合区块链的方法。每种技术的现有实现示例均包含在

多媒体附录1 [15-43 ]。

评估属性

数据隐私法[44-46 ]从监管角度对数据隐私可能受到损害的几个方面进行了阐述。

表 1总结了一些关键的监管原则。

这些监管准则明确指出,数据隐私高度依赖于受信任组织的责任及其实施的技术的能力。我们预测,未来的数据共享系统将遵循这些隐私准则,并且评估隐私保护技术的框架应与这些准则相符。在本文中,我们将根据以下属性评估每种隐私保护方法:

  1. 由于以下原因,需要对第三方达到一定的信任程度:
    • 第三方访问原始数据
    • 参与者对数据使用的可见性
    • 第三方重复使用数据的能力
    • 集中化和单点信任
    • 存在安全漏洞的可能性
  2. 该技术的普遍性和实施实用性:
    • 计算或通信复杂性
    • 实施复杂性
    • 开发人员工具的可用性
    • 开源工具支持的可用性

表 1. 欧盟和美国的数据隐私法。

来源和指南 摘要文本
通用数据保护条例第 5 条
“数据最小化” 个人数据的收集仅限于必要的范围
“合法、公平、透明” 个人数据以透明的方式处理
“目的限制” 收集个人数据有明确目的,进一步处理也遵循初始目的
“问责制” 第三方有责任遵守隐私法
“诚信和保密” 个人数据得到安全处理,并有防止未经授权使用的保护措施
健康保险流通与责任法案隐私规则
限制谁可以查看和分享个人健康信息 未经个人同意,不得将健康信息用于与提供健康治疗不直接相关的目的(有例外)
经济与临床健康法案《卫生信息技术》D 部分
数字健康信息的数据安全 电子病历必须得到保护,并且必须报告数据泄露
地理定位用例描述

与大多数复杂数据类型一样,GPS 数据通常会在通过特征工程进行分析之前进行转换。目前大多数地理位置数据医疗研究应用都基于两大类地理位置特征。

统计描述符

他们根据原始 GPS 数据计算汇总统计数据。例如,一天内行驶的总距离、访问地点数量的差异以及行驶半径。

语义描述符

他们将 GPS 数据与第三方地理空间信息系统相结合,以确定位置类型,例如图书馆、健身房或教堂或广泛的位置主题(例如,人口普查数据定义的犯罪率高的社区)。

使用地理定位功能的应用程序用例的一些示例包括替换主动监控任务[8 -1047-49 ],引发及时干预[104950 ],以及医疗服务的可及性[1151 ]。结合区块链的地理空间应用包括物联网设备管理、众包数据收集和应急响应[52 ]。

结果和讨论部分将参考地理位置特征提取,以便将调查建立在实际用例的基础上,同时评估保护隐私的不同方法。

结果

受信任的第三方方法

在传统的生物医学研究环境中,人类受试者的保护由研究机构的机构审查委员会 (IRB) 管理。IRB 的作用是确保研究对象了解参与研究的风险、遵守数据安全指南,并明确概述和缓解风险和保障措施。在这种模式下,研究机构作为受信任的第三方,有责任保护患者数据隐私。然而,智能手机技术、生物传感器和大型数据集的常规收集所带来的新形式的研究正在改变研究的性质,并对单一机构作为受信任的第三方的传统流程造成压力[53 ]。在以下章节中,我们介绍两种依赖可信第三方的传统隐私保护方法。

服务器端去识别

研究研究的典型服务器端数据收集管道将从客户端应用程序中提取原始参与者数据,并结合加密、访问控制、去识别程序或其他方法,以确保原始数据不会不负责任地暴露。这种方法很容易实现,可以让研究团队严格控制特征工程管道。软件更新可以在服务器端进行,而无需强制用户在客户端进行更新。然而,必须高度信任研究团队,因为私人数据在管道的几个阶段都会暴露(图2)。

图 2. 服务器端去标识化:(1)在特征提取和分析过程中,原始数据可能会被暴露[54 ],(2)数据访问控制是集中控制和可变的,因此没有严格执行数据的使用方式,(3)去识别程序通常是一次性的定制软件实现,不太可能是开源的或经过认证的,是彻底和安全的。就全球定位系统位置数据而言,原始数据本身有时可以与外部数据源(例如社交媒体)相结合来识别个人[55-57 ]。安全存储和去识别以灰色突出显示,以指示数据管道中需要信任处理私人数据的步骤。

查看此图

客户端特征提取

部署软件来在设备上保存原始数据并在本地执行特征提取是另一种可行的隐私保护方法,并且越来越成为智能手机上收集数据的黄金标准。将数据本地化在设备上,以便只有参与者才能访问,这消除了第三方可能泄露、滥用或重新利用原始数据的风险,但它依赖于已安装软件的完整性(

图3)。

​编辑

图 3. 客户端特征提取,其中已安装的软件以灰色突出显示,以表明需要一定程度的信任以确保软件的安全性和可靠性:(1) 参与者必须维护软件的更新版本,以便特征工程合适且安全;(2) 参与者必须信任软件开发人员或软件验证者,相信已安装的应用程序按预期运行。开源软件可以提高可见性并提供更强的数据隐私保证,但实际上需要额外的安全验证。

查看此图

加密技术
代理重新加密

代理重加密 (PRE) 是公钥加密中的一种技术,允许代理将加密数据的解密访问权限从一方委托给另一方(

图4)。PRE的一个重要特性是代理不会获知任何有关加密数据内容的信息。因此,它是一种强大的数据访问控制技术。

然而,PRE 在隐私保护特征工程中的实用性有限,因为数据访问控制不提供事后隐私机制。这仍然需要相信研究团队将安全、诚实地管理解密数据。

​编辑

图 4. 参与者可以通过代理重加密向研究人员提供解密权限。研究人员仍需负责数据的安全存储和去识别化,以及事后隐私。

查看此图

安全多方计算

多方计算 (MPC) 是一类加密协议,它模拟由受信任方评估的计算,但将信任分配给多方(

图 5)。MPC 最适合于特征工程问题,即根据聚合数据而不是单个参与者的数据计算结果。此外,MPC 的缺点是通信(各方之间)呈指数增长,从而限制了性能。

一些实现使用 MPC 协议解决私有数据共享问题,并尝试通过支持分布式存储架构进一步降低安全风险。然而,这些分布式系统通常节点数量有限,并由单个组织(即单点信任)管理。理论上,单点信任可以有议程并对分布式网络中的每个节点施加一定程度的控制。但是,如果所有节点都由单个组织控制,则该组织可以访问私有用户数据。

使用分布式计算方网络背后的原理是没有单一的信任点,这是在检查区块链方法时将重新审视的一个重要原理。

​编辑

图 5. 使用多方计算在多方之间分配信任。在一种多方计算中,私人数据可以分解为秘密份额并存储在多个计算节点上;只有使用所有(或大多数)秘密份额才能重建私人数据。如图所示,这缓解了数据的安全存储问题,但重建后数据就无法保证安全。重建单个参与者的私人数据时仍然需要信任,并以灰色突出显示。

查看此图

同态加密

同态加密 (HE) 是一种加密形式,对加密数据进行计算将产生与加密前对未加密数据执行计算相同的结果。这可以形式化为

图 6。HE 有不同的方案,包括部分和完全 HE;部分同态加密 (PHE) 表示可以对加密数据运行一个或多个操作并保留同态属性,而处理完全同态加密 (FHE) 时可以进行任意计算。从隐私保护的角度来看,HE 很强大,因为参与者可以保持对数据的独家所有权,但可能会限制特征提取的可行性(

图7)。

​编辑

图 6. 说明同态加密性质的方程,其中 E(x) 表示数据 x 的加密。

查看此图

​编辑

图 7. 典型的客户端-服务器同态加密 (HE) 管道。原始数据所有权由客户端维护,但其他方无法访问。HE 受限于特征工程用例,因为它需要解密作为最后一步。如果研究人员能够解密步骤 5 中的特征数据,那么他们也将能够解密步骤 1 中的原始敏感数据。

查看此图

在数据共享环境中,当加密数据向量本身就是一个有趣的特征时,HE 可能适用于特征提取的特定用例。当不需要来自单个参与者的特征并且可以在加密域中聚合数据时,隐私保护特征提取也具有更广泛的适用性。但是,HE 的适用性在当前状态下不适合通用特征工程,并且取决于数据和特征提取的性质。例如,从 GPS 坐标解析位置类型是不可计算的,而是查找函数的结果。HE 不会服务于这种方案。

采用 HE 的另一个主要障碍是处理加密数据的计算复杂性增加,导致处理时间极长。使用 PHE 无法实现复杂的计算,而 FHE 的计算性能非常低 [17 ].这使得除了最简单的操作之外,使用HE进行的所有操作都不切实际。

零知识证明

零知识证明 (ZKP) 是一种加密方法,通过该方法,证明者可以让验证知道某个数学陈述是真是假,而无需透露任何基础数据。零知识证明内置了隐私保护功能,使其成为处理私人数据的强大方法。

ZKP 可以根据零知识中需要证明的两种陈述进一步分类:关于事实的陈述(例如,参与者的 GPS 坐标对应于医院和关于知识的陈述(例如,参与者的 GPS 坐标是已知的)。[19 ]。后一种是知识的零知识证明,也是零知识证明最常见的应用,即身份识别和身份验证(例如密码验证)。然而,在特征工程的背景下,前一种问题就是提取一些相关的元数据。

ZKP 概念与

图 1.为了解决地理位置特征提取用例,如下所示的数据管道

图8可以实现。

​编辑

图 8. 将全球定位系统 (GPS) 坐标隐藏在简单的零知识证明 (ZKP) 实现背后。实际上,这看起来像一个简单的黑匣子,其中 ZKP 是一个子程序,它执行特征提取而不会向研究人员透露原始 GPS 坐标。例如,此子程序可以包括实现将 GPS 坐标映射到位置类别的查找表。挑战在于谨慎实施和渗透此子程序以确保数据的安全(以灰色突出显示)。恶意方不应该能够通过尝试多次输入的消除过程来识别参与者的 GPS 坐标。类似的做法是试图通过暴力破解来猜测密码。

查看此图

由于 ZKP 更广泛地对应于各种技术,因此很难将其概括地推荐用于一般的特征提取问题,而应根据具体情况进行评估。此外,一些常见的挑战包括实施和计算复杂性。有时,它们仍然需要可信的第三方来证明某个陈述 [58 ]。我们认为,ZKP 有潜力成为隐私保护协议的基石,但目前是一个活跃的研究领域[59 ]而不是一个实用且易于实施的工具。

可信执行环境

TEE(也称为安全硬件区域)是现代处理器中的芯片级硬件设计,可实现机密数据的隔离执行。

图 9说明了 TEE 如何封装私有原始数据而不暴露给研究人员。TEE 的一个主要优点是它们与本机计算相比几乎没有性能开销,因此适用于广泛的应用 [25 ],同时保证恶意应用程序不能篡改在安全区域上运行的计算。

使用 TEE 时需要考虑的一个重要因素是硬件漏洞可能被利用。2018 年初,现代商用处理器中报告了硬件漏洞,这些漏洞可能会将私人数据暴露给恶意进程 (Meltdown) 或对执行分支预测的处理器发起攻击 (Spectre)。[61 ]。另一个漏洞(Foreshadow)明确影响了英特尔SGX处理器[62 ],这让人们质疑安全区域的可信度。为了解决这些问题,新兴的开源 TEE 项目认为,商业设计中模糊的安全性是不够的,而社区驱动的开放安全性将带来更可靠的设计 [25 ]。

在数据隐私方面,对 TEE 的另一个批评是,实际应用可能会使用单个或少数几个 TEE,从而将数据管理集中化。有人认为,要求所有参与者在全球范围内信任单个或少数几个 (TEE) 处理器仍然是一个“非常强的假设”[63 ]。为了解决这一限制,出现了一些将区块链与 TEE 结合起来的项目,以分散计算节点网络。这种方法将在下一节区块链方法中进一步探讨。

​编辑

图 9. 可信执行环境 (TEE;以灰色突出显示) 通过封装提供数据隐私。安全功能包括内存隔离、内存加密、隔离架构和安全密钥配置。接下来是远程认证过程,以验证程序是否正确执行并提供来源证明 [60 ]。由于存在硬件漏洞的风险,TEE(以灰色突出显示)中仍然需要一定程度的信任。

查看此图

区块链方法
私有区块链和联盟区块链

私有和联盟区块链网络通常通过创建由高度可信的实体管理的访问控制来限制谁可以参与网络。通常,还会包含其他规则来创建权限系统,控制哪些节点可以验证交易,并将交易数据保密给相关方。最后一个原因在以隐私为中心的数据共享环境中尤其有吸引力,但代价是信任私有网络的维护者。然而,让公共区块链如此吸引人的同一特性——由加密经济激励措施保障的无信任、去中心化的网络状态——在私有区块链中却缺失,这在以下文章中有所说明:

图 10

​编辑

图 10. 私有区块链代表安全的数据环境,但需要与其他集中式技术类似的信任(参与者同意发布数据、受信任方)。因此,整个私有区块链网络以灰色突出显示。

查看此图

公有区块链智能合约

公有区块链上的智能合约是小型模块化软件,一旦部署到网络上就无法更改。这对于隐私保护软件来说是一个有利的品质,因为智能合约的用户可以保证他们的数据始终以相同的方式处理。当智能合约代码公开时,已部署智能合约的功能是可验证的。

然而,在考虑使用传统公共区块链(例如以太坊)进行数据共享时,首先要认识到,上传到公共区块链的输入数据是公开可见且永久记录的。这使得所有资金发送者和接收者、所有交易数据以及每个合约变量的状态对任何观察者都是可见的,如图所示

图 11

一种观点认为,区块链提供隐私保护,因为数据交易的发起者和接收者仅由随机生成的帐户地址描述。因此,如果参与者为每笔交易生成新地址,则可以使用假名。然而,网络跟踪器已经表明,通过分析交易可以对用户进行去匿名化[64 ],对于某些敏感数据(如 GPS 坐标),通过与其他可用的结构化数据(例如来自社交媒体的数据)进行比较,可以重新识别很大一部分用户[33岁55-57 ]。

​编辑

图 11. 公共区块链实现,其中交易数据是公开的。整个网络以灰色突出显示以指示数据暴露。标准解决方法是确保记录的任何敏感数据都经过加密。因此,在智能合约上运行特征提取通常是不切实际的,并且需要在需要信任的集中式服务器上进行一些链下计算。

查看此图

结合零知识证明的隐私保护区块链

将零知识证明与公有区块链相结合的吸引力在于,它可以在保持区块链优势的同时实现数据隐私:没有单一信任点,交易不可篡改。这项技术的一个实现方式引起了公众的关注,那就是能够隐藏加密货币交易的来源、目的地和金额。183435 ]。

在区块链上扩展 ZKP 以包含智能合约逻辑的想法将成为隐私保护、无需信任的应用程序的强大催化剂。一个名为 Hawk 的区块链提案 [33 ] 使用 ZKP 来验证交易并在链下执行私人智能合约。不幸的是,Hawk 无法保证事后隐私,因为它依赖于最低限度信任的管理器,该管理器在交易期间不会泄露敏感数据,但在交易完成后也不提供任何保证。此外,Hawk 论文尚未实现可用的软件版本。同样,也没有细节描述以太坊上的私人智能合约是否以及何时会在不久的将来可用。

ZKP 计算复杂性的限制在区块链的背景下更加明显,这需要以分布式规模部署该技术。区块链上的 ZKP 是一个活跃的研究领域,因此暂时无法在此背景下实现私人数据共享和特征工程。使用 ZKP 与区块链智能合约共享 GPS 坐标数据的应用程序将不得不等待该技术的发展。

结合可信执行环境的隐私保护区块链

为了减少数据孤岛现象,出现了将 TEE 与区块链智能合约相结合的平台。这种方法具有模块化、不可变软件和隔离计算环境的优势,因此数据管道透明且安全。该技术在

图 12

然而,这种方法仍然取决于底层 TEE 硬件的安全性及其漏洞。结合区块链和 TEE 的平台是新技术,本质上是实验性的,因此潜在的安全威胁仍有待发现。

这种方法在实施实用性和可访问性方面也提供了好处。Oasis [32 ]和 Enigma [36 ] 项目对开发人员很友好,发布文档、教程和测试网络,供开发和部署应用程序。

​编辑

图 12. 在可信执行环境 (TEE) 上整合机密智能合约以进行特征提取的区块链。与单个 TEE 类似,硬件漏洞的风险也不容忽视。

查看此图

位置共享用例的软件实现

在本文中,通用性和实施​​的实用性是比较隐私保护技术时使用的两个评估标准。为了进一步评估我们的发现,即混合区块链-TEE 技术为开发隐私保护软件提供了一个实用的平台,我们实施了一个概念验证软件应用程序,该应用程序解决了本文构成的位置共享用例。此用例基于以下场景:研究参与者与第三方研究团队共享有关其位置数据的有用功能,但不透露其原始 GPS 坐标。

实施方案包括以下内容:

  1. 部署在 Oasis Devnet 上的智能合约。
  2. 具有图形用户界面的智能手机(iOS)应用程序,供参与者和第三方与智能合约进行交互。

Oasis Devnet 上的机密智能合约可实现私有交易数据和私有智能合约状态(

表 2 ),用于维护参与者的机密性,并可用于隐藏参与者的原始地理位置数据。Oasis Devnet 管理每个会话的加密密钥,用于加密客户端和智能合约实例之间的通信,这样其他任何人都无法查看未加密的交易数据 [65 ]。

图 13说明了用户与已部署智能合约的交互。合约为参与者提供了一种公开可访问的方法来发布其带时间戳的位置数据。通过在智能合约状态中维护参与者钱包地址和参与者标识符之间的私有映射,参与者身份得以保密。

智能合约还为第三方提供了一种公开可访问的方法,用于注册具有预定位置类别(即医院健身房药房)的地理坐标。第三方可以查询智能合约以查看参与者对位置类别的访问。例如,这些数据可用于构建参与者访问注册药房的模型。

表 2. Oasis Devnet 上的信息可见性。

能见度 信息
民众
  • 交易发送者地址(即参与者钱包地址和第三方钱包地址)
  • 交易接收者地址(即智能合约地址)
  • 交易价值 交易(即DEV金额,用于资助交易的 Oasis Devnet 代币)
私人的
  • 交易参数数据(即原始 GPS坐标数据)
  • 交易结果数据(即返回的特征数据)
  • 事务调用的方法名称(即“postParticipantLocation”)
  • 智能合约状态(即参与者钱包地址与参与者 ID 的映射)
  • 事件数据(不用于此原型;事件(日志)可以响应交易而发出)

GPS:全球定位系统。

​编辑

图 13. 概念验证软件应用程序的实现,该应用程序将解决位置共享用例。由标识符 im 标识的参与者将 (1) 使用其 iOS 设备发布其原始识别位置数据 dm,n 及其相应的时间戳 tm,n。来自另一台 iOS 设备的第三方能够 (2) 发布原始位置数据 dz 及其相应的特征 fz。例如,诸如字符串医院或药房之类的位置类别的特征。如果参与者发布的位置数据 dm,n 与第三方发布的位置数据 dz 匹配,则参与者的相应时间戳 tm,n 将映射到该相应特征 fz。参与者可以随时 (3) 将他们之前发布的所有时间戳 tm,0…tm,n 和相关特征 fm,0…fm,n 的共享权限 sm 设置为第三方。参与者还能够 (4) 获取他们之前发布的所有时间戳 tm,0…tm,n 和相关特征 fm,0…fm,n。第三方也能够 (5) 获取这些相同的时间戳 tm,0…tm,n 和相关特征 fm,0…fm,n,前提是且仅当参与者已授予权限,sm=true。

查看此图

智能合约目前作为传统智能合约而非机密智能合约部署在 Oasis Devnet 上。只有机密智能合约在 TEE 上运行,并维护智能合约状态值和交易数据的隐私。然而,截至撰写本文时,用于从 iOS 智能手机应用程序部署智能合约的库 (web3swift) 尚不支持将机密智能合约部署到 Oasis Devnet。我们计划在不久的将来实现对此的支持,届时 web3swift 库支持可用。

此外,我们希望这个概念验证软件可以作为未来对特征工程用例的隐私保护感兴趣的研究的起点。有关软件设计、开发堆栈、实现和权衡的更多详细信息,请参阅目前正在审查的教程手稿 [66 ]。该软件源代码已在 GitHub 上公开发布,网址为 HD2i/GeolocationSmartContract [67 ]和 HD2i/Geolocation-iOS [68 ]。该软件中包含有关使用的完整详细信息。

讨论

隐私保护方法比较

我们发现,依靠可信第三方保护参与者数据的传统方法通常无法完全保证敏感数据不会被用于非预期目的。参与者必须高度信任使用服务器端去识别程序并自行维护数据仓库的研究人员。过去十年中,集中式服务器上发生的多起数据泄露事件表明,我们应该问自己一个负责任的问题:私人信息何时会被泄露,而不是是否会被泄露。为了解决这个问题,研究人员应该尽量限制原始数据的暴露。一种有效的方法是,在每个参与者控制的个人设备上执行客户端特征提取,例如个人智能手机或私人数据服务器。这种方法的主要缺点是研究人员开发安全、经过验证的软件的负担很重;同时,参与者仍然需要相信软件只收集预期的数据,并且没有其他仅在隐私政策细则中描述的数据收集程序。

存在几种提供隐私保护方法的复杂加密技术,这是一个活跃的研究领域。PRE 可用于对加密数据的访问控制,但无法保证事后隐私。安全 MPC 消除了从两方或多方收集加密数据并计算汇总结果时对可信第三方的需求。然而,与性能相关的实际实现依赖于由单方管理的少量计算节点,这需要对操作员、软件和计算节点的安全性的信任。HE 被认为是隐私保护方法的圣杯,在该方法下可以对加密空间中的私有数据执行计算。然而,很少有用例可以将加密数据用作功能,或者应用程序受到计算性能的限制。ZKP 是一类广泛的加密技术,可提供强大的数据隐私保证,但需要针对特定​​应用程序进行评估。从表面上看,它们可以用于身份验证,但其他应用程序通常会带来实现和计算复杂性。

计算硬件的进步使得通过 TEE 的设计实现隐私保护成为可能。这些芯片级设计创建了一个隔离的内存空间,可以在其中对敏感数据进行计算。但是,与软件数据泄露一样,很难保证不会利用任何硬件漏洞。此外,参与者仍然必须相信在 TEE 计算节点上运行的软件是宣传的软件。

上述三种方法都有一个共同点:特征提取在由受信任的第三方管理的集中式服务器或计算节点上运行。虽然有些方法提供了更高级别的数据安全性,但在可见性方面仍然存在不足。参与者必须相信第三方正在做它所说的事情,而不是其他事情。这就是区块链技术提供独特优势的地方。

区块链通过在去中心化网络上运行,提供透明性和不可篡改性,从而提供了一个无需信任的环境,该网络通过加密经济激励机制确保不会被篡改。此外,它们还具有独特的优势,即不可篡改的软件(智能合约),如果合约代码公开,则可以验证其是否准确履行承诺。当然,这只有在公共区块链中才能得到保证,而私有或联盟区块链往往包含受信任的各方,并且更加中心化。不幸的是,区块链是为安全性和数据完整性而设计的,而不是为数据隐私而设计的。

加密技术和 TEE 与区块链的结合解决了单点信任弱点,并为值得信赖的隐私保护平台提供了最大的潜力。两种有前途的混合体是包含 ZKP 的区块链和包含 TEE 的区块链。具有 ZKP 的区块链已成功为加密货币提供交易隐私,但它尚未发展到智能合约数据隐私的同一水平。具有 TEE 的区块链是一项正在发展的技术,但它已经达到了一定的成熟度,开发人员可以开始在这些平台上开发和部署真正的应用程序。当然,这些平台上的潜在硬件漏洞并不会使这种方法变得理想;然而,在像 FHE 这样的加密方法能够大规模应用之前,具有 TEE 的区块链似乎是目前可用的最佳方法。此外,我们发现有强大的开发人员文档和工具可用,这使得这种方法也可用于产品实现。我们针对地理定位用例的软件实现在一定程度上受到了 Oasis 平台提供的实际指导和开发人员支持的鼓舞,并表明隐私保护方法如今在非生产开发人员网络上是可以实现的。然而,必须强调的是,具有 TEE 开发者网络的区块链在提交时还处于实验阶段,应该采取保守的方法。

表 3总结了我们的研究结果,并尝试定性地比较每种方法在对其他实体必须给予多少信任方面的情况。此外,还定义了每种方法的实用性(基于实施和计算复杂性)的粗略指示。还确定了每种方法的实际实施或开发项目的示例;更多详细信息请参见

多媒体附录 1.最后,总结了每种方法的主要局限性。

表 3. 研究中可信第三方、加密和区块链数据隐私方法的比较。

方法 信任程度 实用性 限制 示例
服务器端去标识化 高的 中等的 集中化;易受数据重复使用和数据泄露的影响;缺乏可见性 Strava GPS设备
客户端特征提取 中等的 中等的 无能见度 Apple 设备预测键盘;打开 PDS/SafeAnswers
代理重新加密 高的 低的 仅用于数据访问控制;容易受到数据重用和数据泄露的影响 NuCypher pyUmbral
多方计算 低的 中等的 特定用例;集中式;无可见性;沟通复杂性 Jana、Sharemind、Partisia、Sepior
同态加密 低的 低的 运营受限或绩效极低 NuCypher nuFHE
零知识证明(ZKP) 低的 低的 具体用例;集中式;无可见性;实施和计算复杂性 零知识证明
可信执行环境 (TEE) 低的 中等的 存在硬件漏洞的可能性;没有可见性 英特尔 SGX、ARM TrustZone、Keystone 项目
私人或联盟区块链 中等的 中等的 伪集中式;取决于设计 Hyperledger Fabric
公有区块链智能合约 高的 中等的 仅用于数据访问控制 以太坊
采用 ZKP 的公有区块链 高的 低的 概念验证,无可用软件版本 ZCash、Hawk
带有 TEE 的公共区块链 最低 中等的 可能存在硬件或其他漏洞;非生产阶段 谜团、绿洲

GPS:全球定位系统。

限制

在介绍最小暴露特征工程的部分中,我们发现分析流程中的特征工程步骤提供了限制暴露和删除可识别特征的机会。虽然我们推广此框架以尽可能减少私人数据的暴露,但我们认识到并非所有特征工程问题都适合去识别化。在这些情况下,我们建议采取数据安全保护措施,包括加密和安全服务器。

公共区块链网络上的交易具有固有成本,交易各方必须以加密货币支付这些成本。这笔财务成本的大小取决于加密货币的价值以及任何给定时间的网络拥塞程度,因此这里没有提供可量化的金额。成本可能是实际实施的一个重要考虑因素,但我们的重点是确定维护隐私的方法。

当将交易发布到任何互联网连接的网络(包括公共区块链)时,一个合理的担忧是参与者会泄露他们的互联网协议 (IP) 地址,而这本身就是一条身份信息。解决这一担忧的一个方法是实施互联网请求代理(例如,Tor 软件的瘦客户端),它可以中继互联网流量以隐藏用户的位置和使用情况 [69 ]。不过,作者们还没有实现这个功能,这留待以后的工作来完成。

结论

我们相信,区块链技术正在不断拓宽数据隐私的边界。不可变智能合约解决了在集中式服务器的单一信任点上运行的隐私保护协议的根本限制。随着不同的加密和软件技术与区块链重叠,更强的隐私保障成为可能。特别是,我们认为区块链与 TEE 的结合似乎是一种实用且具有前瞻性的隐私保护功能工程方法。我们在混合区块链-TEE 开发者平台上开发和部署了概念验证私人地理位置数据共享软件,这支持了这一结论。然而,没有一个系统是没有所有漏洞的,在与高度敏感的私人数据(如 GPS 坐标或其他生物医学数据)交互时应该进行彻底测试。

致谢

这项工作得到了西奈山伊坎医学院下一代医疗保健研究所的支持,以及哈里斯家族慈善基金会(JTD)的捐助。

猜你喜欢

转载自blog.csdn.net/changzhuxu2/article/details/142292796