电话

17709168119

观点 ​基于隐私计算的数据流通平台互联互通思考

2024-03-07

  观点 基于隐私计算的数据流通平台互联互通思考在国家数据要素化战略影响下,金融业积极探索隐私计算应用。不少金融机构已部署隐私计算平台,促进了一定范围内的数据融合使用。但不同平台往往存在较大技术差异,很难进行互联互通。目前行业对平台间互联互通的探索还是小规模、个性化的“抱团”现象,其模式能否真正实现更广泛的互联互通尚值得推敲。

  本文着眼于整个金融行业的数据要素流通,基于当前热度比较高的多方安全计算、联邦学习等隐私计算技术应用现状和互联互通情况,借鉴成熟的互联网体系架构,提出了隐私计算平台互联互通的一些基本设计思路和建议。

  一个通过隐私计算技术实现的数据流通平台(简称隐私计算平台)一般基于某种信任机制被组织起来,且具有一定的自治权利。这些权利经常包括:自主选择、管理成员;制定适合平台内的数据流通规则;接受某一个或多个监管方的监管;根据业务选择某一种或多种隐私计算技术开云网址·(中国)官方网站。

  要实现不同隐私计算平台间的互联互通,首先应该保证每个平台的自治权利。但目前业界对跨平台互联互通存在一些误解,例如:(1)数据源在多个平台上注册。这与数据跨平台流通没有关系。(2)平台收编。这不符合自治的原则。(3)平台上的原始数据直接流通到另一个平台上去。这等同于第一种理解。

  因此,可定义平台之间的互联互通是把一个平台上数据融合的中间结果(也称计算因子,参考JR/T 0196《多方安全计算金融应用技术规范》)跟另一个平台上数据融合的中间结果进行再次计算,从而获得进一步结果的过程。类似于隐私计算在单平台上实现了“数据可用不可见,使用可控可计量”,在这个过程中,需要保证每个平台上的原始数据不外泄,且平台自身仍然对各自的数据源保持控制权。此时,平台相当于数据提供方,提供的计算因子反映了对数据的某种特定使用方法,也应遵循数据提供的“最小化”原则。不同平台间的互联互通应该能够通过建立链接,让数据源有机快速增长,并通过分散式协作,降低数据中心化汇聚造成的额外安全风险,推动隐私计算技术的百花齐放。

  当前,平台间互联互通的难点在于各平台的异构性。如各平台的信任基础不一样,包括对管理的信任和对技术的信任,或平台之间的身份认证体系不统一,以及各平台使用的技术方案和技术原理不相同等。另外,考虑到市面上已有众多不同的隐私计算产品和应用成果,达成了管理、技术和商业模式上的信任共识,互联互通不应是改变已部署平台的信任共识,更不是平台替换,而是在已有平台上叠加可管可控的跨平台功能,实现数据跨平台流通时的“可用不可见”和“可控可计量”。从技术角度看,互联互通实际上可认为是隐私计算平台的一种递归式扩展。

  从信息科技发展历程来看,互联网(Internet)可以说是当今世界上最成功的技术架构之一。其使用一组体系化的协议将设备与设备、网络与网络连接起来,造就了世界上跨度范围最广的应用案例。笔者认为,互联网相关设计理念与本文讨论的互联互通问题高度契合,主要包含了控制面和数据面两大类协议的设计思路。

  互联网发展初期面临不同类型设备或独立网络之间的互联问题开云网址·(中国)官方网站,与隐私计算平台的异构性类似。在互联网路由协议中,对于被统一管理、采用相同通讯策略的集合,视为一个自治系统(Autonomous System,AS)。自治系统可自主决定其内部允许连接哪些设备、采用哪种网络技术和路由策略,而对于自治系统之间的连接则可采用外部路由协议——边界网关协议(Border Gateway Protocol,BGP)。BGP是一种提供AS间路由选择的协议,其本身不主动发现AS内部路由,而是在确定最佳路径时侧重于根据不同属性控制数据流的传输。

  参考这一设计思路,每个隐私计算平台内部各方依据自治原则协同执行内部计算任务开云网址·(中国)官方网站,也可视为一个AS。平台间通过统一的、兼容并包的外部接口(可将其称为跨域数据交换Inter-DomainDataExchange,IDDE)实现相互连接,既保证了每个平台的内部自治,又统筹各个平台的资源,协调完成计算任务。

  层次化设计是互联网协议中最常用的思路,其典型案例是TCP/IP协议(Transmission Control Protocol/Internet Protocol)。TCP/IP协议的核心在于中间的传输层和网络层,即通过TCP、UDP和IP等一组轻量、精巧的协议,向上服务HTTP、FTP、SNMP、DNS等多种多样的互联网应用协议,向下将IP包通过路由器处理、转换和重新封装到各种底层网络的物理帧中,并支持光纤、电缆、无线、卫星等不同的通信传输方式,整体呈现为一个“沙漏”状结构。

  隐私计算平台在实现上一般也采用层次化结构,不同平台在顶层应用和底层技术的选择上都是多样化的。其中,顶层覆盖金融行业常见的隐匿查询、联合统计、联合建模等丰富的应用层算法,并用于智能风控、精准营销、信用认证等多种场景。而底层则包括各类隐私计算技术,例如沙箱、多方安全计算、联邦学习等,其目的都是为了流通数据特定使用方式(计算因子)。因此,可以在“沙漏”的瓶颈处设计和构建“隐私路由”,完成计算因子在多样的应用场景和丰富的技术类型间的相互转换。

  综上所述,从控制和数据两个切面来设计、实现隐私计算平台间的互联互通,控制面负责资源管理、安全管理以及任务管理等工作,包括资源目录同步、计算合约达成、跨平台身份认证、密钥管理、任务执行调度与流程管控等;而数据面则依照计算合约,执行数据、算法等资源的接入、同步和格式转换,协同、高效地完成计算任务。数据面和控制面协议之间在技术实现上可以是完全解耦的,在保证互联互通的情况下,允许采用不同的设计思路和实现架构,从而降低实践难度,避免技术垄断,促进技术多样发展和高速创新。

  基于上述思路,推动互联互通落地需要统一的标准化和检测认证体系。首先,标准化工作应该依据技术研发和监管要求的发展,循序渐进地向前推进,建议先定义关键核心层技术要求,积极研究开源开放的跨域数据交换协议(IDDE)技术框架,再根据实际情况向顶层和底层拓展,逐步构建一整套互联互通标准体系。其次,建议依据相关标准要求建立检测平台和认证体系,明确平台互联互通能力评估方法,为金融机构提供选型依据,不断提高行业内数据流通水平。

  《全国一体化大数据中心协同创新体系算力枢纽实施方案》指出“加强跨部门、跨区域、跨层级的数据流通与治理”,并把“加快网络互联互通”作为建设国家枢纽节点的重点任务之一。因此,互联互通的目标不是构建几个平台或者几个机构间的“局域网络”,而是要成为面向全行业、全国,建设“数据流通网”的基础设施。依据本文设计思路,隐私计算平台(自治系统AS)间可通过统一的IDDE相互连接、组成隐私计算网络,而每个网络自身又构成了一个自治系统AS,网络与网络间也可以通过IDDE再组合起来。由此可见,金融行业各隐私计算平台之间能够相互组合、不断扩展,支持隐私计算网络持续迭代、有机生长,为响应国家政策号召、建设国家级数据流通网迈出标志性一步。