Concrete ML v1.5版本发布,引入了新的DataFrame API,支持在加密存储的数据上工作,并增加了加速神经网络的新选项,速度可提高2-3倍。同时,发布了一个新的演示,展示如何安全地匿名化文本数据,以便在使用ChatGPT查询知识库时不会泄露任何个人身份信息。该版本旨在推动隐私保护的机器学习和加密协作。
在此版本中,Concrete ML v1.5 引入了一个新的 DataFrame API,该 API 支持使用加密的存储数据。这项新功能扩展了 Concrete ML 的主要用例,即私有推理,并标志着朝着保密协作迈出的又一步。
此外,Concrete ML v1.5 添加了一个新选项,可以将神经网络的速度提高 2-3 倍。它配备了改进的 FHE 模拟模式,可以快速评估此功能对神经网络准确性的影响。
最后,一个新的演示展示了如何安全地匿名化文本数据,以使用 ChatGPT 查询知识库,而无需泄露任何个人身份信息。
DataFrames 是一种编程范式,可简化表格数据的操作。DataFrames 通过存储异构数据和数据模式(包括数据类型和列名)来创建可移植的数据容器。此外,DataFrames 还具有查询和筛选存储数据的功能,很像数据库引擎。
DataFrames 在数据科学中很受欢迎,用于在运行统计分析或训练模型之前存储和预处理数据。Concrete ML v1.5 从流行的 Pandas 包中汲取灵感,并为用户提供了一个 API 来加密、连接和解密 DataFrames。此功能允许多方在加密的存储数据上进行协作,作为私有模型推理或训练的输入,标志着保密协作的又一步。有关更多详细信息,请参见示例工作流程。
Concrete ML v1.5 引入了一个选项,允许用户在 FHE 模型中,在速度和预测的准确性之间进行权衡,与等效的明文模型相比。通过选择新选项,用户可以实现 2-3 倍的速度提升。例如,当允许这种噪声时,FHE 原语可以更快地计算激活函数。Concrete ML v1.5 为用户提供了在两种模式之间进行选择的可能性:(1)与明文模型相比,确保完全的准确性,但以较低的速度运行,以及(2)保持模型准确性,同时允许神经网络 logits 中存在一些噪声,但实现更快的执行速度。用户可以通过改进的 FHE 模拟模式来验证是否保持了准确性。
随着 Concrete ML v1.5 的发布,我们发布了一个新的 HuggingFace 空间,该空间展示了如何在加密的文本数据上私下执行匿名化模型。虽然 ChatGPT 没有提供回答加密查询的方法,但使用 FHE 进行匿名化可以帮助安全地从发送给 ChatGPT 的文档和查询中删除个人身份信息。通过这种方法,公司可以构建匿名化的知识库,并将其用于与 ChatGPT 的检索增强生成 (RAG)。
- 原文链接: zama.ai/post/concrete-ml...
- 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!