攻击者利用深度伪造和克隆声音来伪造代言并耗尽钱包,AI诈骗正在利用Web3中的信任。文章介绍了GAN和扩散模型在制造Meme coins以及语音克隆诈骗中的应用,并探讨了检测和缓解工具,包括内容来源验证和异常检测,并强调了双因素验证和实时性检测的重要性。
攻击者使用deepfakes和克隆的声音来伪造背书并耗尽钱包。了解人工智能诈骗如何利用Web3中的信任,以及如何阻止它们。
如今,攻击者可以抓取网红视频的几秒钟(例如,来自YouTube或TikTok),并使用这些帧来微调生成模型。通过在目标的面部和风格上训练一个LoRA(低秩适应)适配器,攻击者将小的可训练矩阵注入到预训练的扩散网络中。这有效地“锁定”了网红的外貌,而无需重新训练整个模型。在实践中,人们可能会使用像OneShotLoRA这样的服务来上传网红的短片并获得专门的图像模型。有了这个模型,攻击者就可以运行标准的扩散流程:将噪声编码到潜在空间中,迭代地去噪,以“网红姓名宣布独家NFT发行”等提示语为条件,最后解码为RGB帧。这些帧可以按顺序排列成一个简短的宣传视频。可选地,可以使用视频特定的扩散网络或时间平滑来确保帧与帧之间的一致性。结果是一个令人信服的伪背书宣传片,根据需要配有网红的脸和声音克隆。
然后,可以将此类伪造内容注入社交代币生态系统中。例如,攻击者可能会发布一个deepfake“AMA”视频或新闻简报图像,声称经过验证的网红正在支持新的ERC-20代币或NFT白名单。由于社交代币通常依赖于网红营销,因此这些虚假背书可能会造成突然的炒作激增。事实上,有报道指出,人工智能驱动的诈骗正在使用deepfakes来充斥社交媒体,以虚假背书和炒作特定加密代币。通过用病毒式视频放大“拉高”叙事,诈骗者可以在骗局被发现之前推动社区货币的“拉高出货”或“rug pull”NFT预售。
在音频领域,攻击者利用先进的语音克隆流程来模仿受信任的人物。现代系统的工作方式是将目标语音转换为类似频谱图的特征表示,提取诸如音色、音高轮廓和韵律之类的参数,然后通过神经声码器馈送噪声以产生语音。例如,富有表现力的神经语音克隆模型通过潜在的风格标记对音高和情感进行编码,并显式地对说话者的音高轮廓进行建模。仅需几秒钟的人声(从公共视频、旧电话或泄露的录音中捕获),攻击者就可以训练出一种合成声音,该声音可以非常逼真地模仿该人的频谱指纹。
这项技术是2025年初香港一宗案件的核心:诈骗者侵入了一位财务经理的账户,并使用人工智能生成的他的声音deepfake来传递WhatsApp指示。受害者收到了语音备忘录“指示”,据称来自该经理,指导他们发送加密货币(USDT)付款。由于音调、语调甚至音高轮廓都与真实经理的风格相符,因此受害者服从了,并在几次交易中电汇了约1.45亿港元。直到钱不见了,他们才意识到声音是完全合成的。
从技术角度来看,攻击者的音频工作流程包括:
至关重要的是,这种攻击取决于“首次使用时信任”(TOFU)。受害者没有第二通道检查,没有快速回拨,文本代码或类似的带外验证,因此假声音被认为是表面价值。要求额外的渠道是阻止语音克隆诈骗的最简单,最有效的方法之一。
“预共享语音打印”是已注册的生物特征模板,“带外验证”是指通过其他渠道确认请求。
克隆的声音只是通过了身份验证:正如一项分析指出的那样,如今AI克隆可以与存储的生物特征模板“足够接近”以通过被动和主动语音检查。换句话说,传统的语音验证系统假设人类语音变化,并且根本没有预料到对手可以完美地模仿一个人的频谱签名。一旦受害者相信deepfake声音是真实的,就不会发布其他质疑。
为了击败此类骗局,防御者会查看频谱图分析和音高模式异常。取证可能会将消息的音高轮廓与历史记录进行比较,或者运行经过训练的反欺骗模型来发现神经合成的残留伪影。但是,正如[6]报道的那样,现代TTS克隆通常会产生比真人“更干净”和更稳定的语音(具有讽刺意味的是),从而使纯粹的声学检测变得困难。在DAO的上下文中,任何依赖语音呼叫进行身份验证的系统都将同样容易受到攻击,除非它实现质询-响应或活性测试。
在Web3中打击AI冒充需要出处和异常检测。一种关键策略是内容真实性:在创建时嵌入防篡改元数据。诸如Adobe的内容真实性倡议(CAI)和C2PA标准之类的倡议定义了一种内容凭证,即资产的来源、编辑和AI使用的签名记录。此凭证包括内容的加密哈希、创建工具的描述和编辑历史记录。在实践中,生成器(例如,图像编辑器)可以将此JSON清单附加到JPEG或视频。清单的完整性受到Merkle树哈希和数字签名的保护。
对于Web3,可以将这些哈希发布在链上以巩固沿袭。例如,画廊NFT可以在其铸造交易中存储原始图像的内容凭据的哈希。可以通过从当前文件重新计算哈希并将其与链上记录进行比较来验证以后对图像是真实的任何声明。因此,区块链提供了一个公共公告板:一旦记录了出处证书的根哈希,任何篡改文件(或其声称的编辑历史记录)的行为都会破坏哈希链。开放标准允许不同的工具进行互操作:CAI / C2PA清单可以嵌入到标准元数据字段(XMP / IPTC)中,或者可以使用链上指针g在链下进行索引。
出处元数据无法印在实时展开的流上,因此防御措施转变为带外验证和活性挑战。在高风险请求通过电话或视频到达的那一刻,暂停并通过你已经信任的第二个独立频道(电子邮件,安全聊天或回拨到文件中的号码)进行确认。将此与快速的活性测试配对,要求呼叫者重复一个随机的密码,移动相机以显示特定对象,或发送一次性代码,预渲染的deepfake无法立即满足这些步骤。这些简单的双通道或质询-响应检查是阻止实时语音克隆或视频克隆诈骗的最实用的方法。
- 原文链接: threesigma.xyz/blog/web3...
- 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!