EN
2022年02月07日研究中心文章(列表不显示)

面向数据安全和隐私保护的AI基础平台

研究承担单位

北京旷视科技有限公司


研究目标

针对数据多样、种类繁多、规模巨大、包含用户隐私、难于管理、易被泄漏的问题,研发面向数据全生命周期保护的数据安全和隐私保护基础平台,实现采集安全、传输安全、存储安全、访问安全、隐私安全、主权明确等功能,同时建立一套相关的AI数据安全与隐私保护机制,做到数据不泄漏、使用可追溯、行为可审计、隐私有保证,明确数据主权,用户可撤销,有效解决数据安全和个人隐私问题,在旷视科技有限公司进行实践试点,树立行业标杆,起到示范作用,促进行业健康发展。


研究成果

本项目的目的是设计一套面向数据安全和隐私保护的AI基础平台,在满足训练数据需求的同时,能够兼顾数据安全与隐私保护。平台由三大系统组成:采集与传输系统、数据存储系统、数据管理系统。

(1)采集与传输系统

本系统集项目需求管理、人员管理、资源分配、数据追踪等功能于一体,可满足多种应用场景下对于数据采集的需求,实现从需求提出到数据交付的全流程一体化满足。

image.png

图:数据采集与传输系统整体示意图

(2)数据存储系统

存储系统的接口兼容Amazon S3。系统主要优化目标为存储容量和吞吐量,而非单个请求的响应延迟。系统会有明显的冷热分割,在冷数据中不会普遍存在删除操作。系统能支持单 Site 100PB 这个量级的存储。

基于以上场景,将系统分离为读写(RW)和只读(RO)两部分,其中 RW 部分负责作为 Write Buffer 存在,其中的数据在一段时间后会打包进入 RO 系统存储。系统通过一个 Overlay 系统对接 RW 和 RO 两部分,对用户提供一个看起来和普通 S3 Bucket 体验一致的存储。

(3)数据管理系统

Hubble平台实现了对数据的管理、查看、统计分析等功能,具备严格的权限管理,能够很好地控制个人访问数据的权限,并限制大规模下载,同时又能够满足研究员个人对数据的日常使用需求。

image.png文本正文
复制文本
媒体联络
media@baai.ac.cn