今年1月,国务院办公厅印发《要素市场化配置综合改革试点总体方案》,推动要素市场化配置改革向纵深发展。《方案》提出了探索建立数据要素流通规则的试点任务,依托多方安全计算、联邦学习等隐私计算技术,探索实现“原始数据不出域、数据可用不可见”的数据流通交易新范式,成为数据融合创新的新途径、新方向。
近日,浙江大学计算机科学与技术学院教授郑小林发表《隐私计算赋能数据价值合规流通》的主题演讲,企业网d1net对演讲中的核心内容进行整理报道。郑小林提到,隐私计算目前有三种主流技术:包括多方安全计算、联邦学习和可信执行环境,三者各有优劣,可面向不同需求场景。
郑小林参与的国家重点研发计划“大数据征信及智能评估技术”项目,旨在解决中国互联网大数据征信中跨域数据流通面临的流通机制、跨域数据融合与联合计算、隐私保护等难题,目前已在“智慧金融、智慧政府、智慧企业”三大领域落地。
郑小林 浙江大学计算机科学与技术学院教授 金智塔科技创始人&首席科学家
数据应用迈向“隐私计算时代”
今年1月国务院办公厅印发《要素市场化配置综合改革试点总体方案》的通知中,第六条明确提出“探索建立数据要素流通的规则”应从四个方面展开:一是完善公共数据开放共享机制;二是建立健全数据流通交易规则;三是拓展规范化数据开发利用场景;四是加强数据安全保护。
其中,在“建立健全数据流通交易规则”中,重点强调要“探索‘原始数据不出域、数据可用不可见’的交易范式,在保护个人隐私和确保数据安全的前提下,分级分类、分步有序推动部分领域数据流通应用。”
郑小林提到,在《数据安全法》、《个人信息保护法》的支撑下,整个数据应用开始步入3.0模式,即从“明文数据的api接口时代”迈向“隐私计算时代”。
隐私计算技术的发展史
实际上,隐私计算的基础技术已经发展了几十年:
1976年提出diffie-hellman密钥交换算法;
1979年提出秘密分享;
1982年姚期智院士提出多方安全计算;
1985年提出乘法同态;
1999年提出加法同态;
2009年提出全同态fhe;
2006年提出差分隐私;
2010年提出tee可信执行环境;
2016年谷歌提出联邦学习;
2018年,我国进入隐私计算时代。
隐私计算技术的三大技术流派
郑小林提到:目前,隐私计算以三大技术流派为主,分别是可信执行环境,联邦学习和多方安全计算,经过多年的发展,三大技术的内涵已发生重大的变革和提升。其中,可信执行环境(tee)是完全集中式计算,联邦学习是部分集中式计算,多方安全计算(mpc)是完全分布式计算。
可信执行环境(tee)是2010年global platform提出的,通过创建一个可以在trustzone中独立运行的小型操作系统实现高安全需求的操作,保护“指纹、密码、私钥”等敏感数据和高价值数据。tee属于to c的尊龙凯时注册的解决方案,且需要芯片支持,而我国受制于芯片和根证书的限制,tee方案在商业场景中的推广很少。
联邦学习是2016年由谷歌提出的,用于解决机器学习中的隐私问题,保护c端用户的隐私,而我国将联邦学习技术应用于to b场景,用于已经收集好的用户数据的隐私保护,解决多方联合建模中的隐私问题,实现“数据不动模型动”的国产化to b联邦学习尊龙凯时注册的解决方案。联邦学习的安全性是一大研究热点,安全联邦学习有两种尊龙凯时注册的解决方案:一种是使用差分隐私提升安全性,另一种是使用mpc(例如秘密分享)来提升安全性。
多方安全计算(mpc)的计算模式不存在一个中立可信的第三方,通常一个计算方需要跟其他所有参与方通信来协同计算。mpc以密码学为基石,除输入和输出外,不泄露任何中间信息,可以实现整个计算过程的可证安全。
mpc的技术分类包括秘密分享、混淆电路、同态加密和零知识证明等,其研究热点除了安全性外,还包括效率和应用性。郑小林强调,针对特定场景的mpc优化很重要,同态加密是计算密集型,秘密分享是通信密集型,二者结合可以用计算换取通信,适用于参与方计算资源丰富但网络通信受限的场景,更适合实际的to b业务。
隐私计算的三种技术路线对比
总体来看,基于密码学的多方安全计算(mpc)具有可证安全、数据不出域两大优势,具有高安全性,但是非线性计算效率低,参与方数量有限,适用于安全要求比较高且计算网络状况比较好的场景。
联邦学习依靠机器学习建模,效率高,具有数据不出域、技术门槛较低的优势,但是存在信息泄露的风险,适合数据量大、不要求可证安全的加密出域场景,虽然存在梯度泄露问题,但是可以结合差分隐私或者多方安全计算来提升安全性。
可信执行环境(tee)属于数据加密后的集中计算,具有高安全性、高精度等特点,但需要数据加密集中到第三方环境,限制了其使用场景。
大数据征信及智能评估技术与落地成果
郑小林在2019年参与了国家重点研发计划“大数据征信及智能评估技术”项目,该项目旨在解决中国互联网大数据征信中跨域数据流通面临的流通机制、跨域数据融合与联合计算、隐私保护等难题。该项目由北京邮电大学牵头,浙江大学、清华大学、北京大学、中科院、国家计算机网络与信息安全管理中心、中国电信、杭州金智塔科技等20多个单位参与,郑小林负责多源多模态海量实时征信大数据模型与多维度表示方法这一课题的研究工作。
经过两年多的研发,该项目的落地成果初现,金智塔隐私计算平台实现了联邦学习与多方安全计算在一个架构中的融合。隐私计算平台为数据合作方提供了一个工具层,包括数据分级分类、数据质量审计、数据效果分析、资源使用管理、数据确权、数据应用存证等工具;接入的数据涉及知识产权数据、征信数据、发票数据、政务数据、房产数据、运营商数据、企业数据以及电商数据等等。
其中,隐私计算平台的应用涉及两个层面,一层是区块链存证,另一层是针对数据进行不同的分级分类,采用用户授权调用、加密传输、联邦学习、多方安全计算等不同的数据应用模式。郑小林透露,该平台已获得信通院基础能力专项评测,在信创领域与华为鲲鹏进行兼容性认证,并先后获得李德义院士和潘云鹤院士两大专家组的鉴定,均获得较高评价。
隐私计算平台的应用场景与实践
近两年,该项目已在智慧金融、智慧政府、智慧企业、智慧医疗等多类场景中进行实践应用,归纳出“单节点”隐私计算和“多节点”隐私计算两种应用模式,单节点适用于查询统计等场景,多节点适用于联合建模等场景。据悉,该隐私计算平台已向合作方开放,支持需求方进行系统集成,打造联合运营平台。最后,郑小林介绍了隐私计算平台的三个主要应用场景。
一是小微科创企业授信场景。在这一场景中,前期在政务数据和商业数据中分别部署隐私计算节点,同时在银行等金融机构内部部署计算节点和调度节点,隐私计算平台基于这些多方数据,通过多方安全计算和隐私求交找到共有企业,为小微科创企业构建准入模型、成长模型、风险评估模型和额度模型等等。企业用户基于这些模型拿到授权后,即可到调度节点调度政务数据和商业合作方的数据,进行计算后可以得到相应的准入、成长率、风险以及额度情况的授信报告,进行贷款审批。
以科创贷款为例,企业用户在隐私计算平台上经过主体授权后,进行企业类别的智能分类,然后进入准入模型,通过生命周期模型、成长力模型、知识产权定价模型和授信模型的逐步计算,实现授信额度的在线获取和一键申请。该方案已推广到10余家农商行、城商行和股份制银行,取得了良好的社会效益和经济效益。
二是智能营销场景。通过在高德数据、房产数据、运营商数据和电商数据等进行计算节点部署,隐私计算平台成功为某上市奢侈品企业构建智能选址系统,针对商圈业态的丰富度、交通便利性、商业面积、竞品数量、客流指数、服务人口数量等,以隐私计算的方式实现联合建模,形成价值提升模型、潜客挖掘模型、交叉营销模型和智能选址模型等,助力企业进行线上和线下运营。
三是多方联合统计场景。隐私计算平台在某省统计局部署中心节点,在征信公司、电力公司、市场监管局、经信厅等政务部门内部的数据共享、数据交换、数据校验等方面提供隐私保护尊龙凯时注册的技术支持,分别实现数据隐私的联合校对、双碳数据的隐私计算、共富指数的联合预警,亩均论英雄的联合隐私统计等等。