Claude 自称 DeepSeek 引爆 AI 蒸馏攻击争议

TechFoco 精选

Anthropic指控DeepSeek蒸馏攻击后,其Claude模型在中文提问下竟自称“我是DeepSeek-V3”,暴露行业数据互用潜规则与身份校准漏洞。

近日,人工智能领域发生了一起颇具戏剧性的事件,引发了技术社区对模型训练、数据伦理与行业默契的广泛讨论。事件的中心是 Anthropic 公司旗下的 Claude Sonnet 4.6 模型,它在特定条件下,竟会用中文声称自己是竞争对手 DeepSeek 开发的模型。

事件回顾:一次简单的提问引发的身份“错乱”

事情的起因并不复杂。有用户在 Reddit 等社区分享,当通过 API 调用 Claude Sonnet 4.6 模型,并清空系统提示(即无预设角色指令)后,用中文询问“你是什么模型”或“你是哪款型号”时,模型会多次回答“我是 DeepSeek-V3,一个 AI 助手”。根据测试者的反馈,在约十次尝试中,有九次都得到了这个令人意外的答案。相比之下,更高阶的 Claude Opus 4.6 模型则表现正常,能够准确地回答自己是 Claude。

Claude 对话示例
Claude 对话示例

这一发现之所以迅速发酵,与其发生的时间节点密切相关。就在同一周,Anthropic 公司刚刚公开指控中国 AI 公司 DeepSeek 对其 Claude 系列模型进行了大规模的“模型蒸馏攻击”。Anthropic 声称,DeepSeek 通过创建大量账户、自动化抓取 Claude 的对话输出来训练自己的模型。因此,当 Claude 转头自称是 DeepSeek 时,整个事件便充满了讽刺意味,仿佛现实上演了一出精心编排的戏剧。

技术角度的两种解读

面对这一现象,技术社区的分析主要分成了两个派别,各自从模型工作原理出发给出了解释。

第一种观点从大语言模型的基础机制——下一个词元预测(next-token prediction)入手。持此观点的研究者认为,互联网上存在大量中文用户与各类 AI 助手(包括 DeepSeek)的对话记录。这些记录被爬取并进入了 Claude 的训练语料库。因此,当模型在中文语境下接收到“你是谁”这类问题时,它会基于训练数据中的统计规律,预测出最高概率的答案序列。历史上,早期版本的 Google Gemini 和 Claude 也曾出现过自称是 ChatGPT 的情况,原因类似:在当时,互联网上关于 AI 对话的文本大多围绕 ChatGPT 展开,模型只是“诚实”地反映了其训练数据的分布。这可以被视为一种数据污染导致的“身份幻觉”,而非模型本身存在认知错误。

然而,另一派观点则提出了更直接的质疑。他们认为,一个模型如果没有被大量 DeepSeek 模型生成的原始输出数据“浸染”过,其词元概率分布几乎不可能让“我是 DeepSeek-V3”这个特定短语成为高概率响应。在中文互联网的日常对话中,人们并不会频繁地以“我是 DeepSeek”作为自我介绍。因此,这种高度特定且准确的回答模式,强烈暗示了 Claude 的训练语料中包含了相当数量的、由 DeepSeek 模型直接生成的文本内容。这似乎为 Anthropic 对 DeepSeek 的“蒸馏攻击”指控,提供了一个反向的、尴尬的注脚。

值得注意的是,也有分析指出这两种解释或许并不互斥。一种可能性是,Anthropic 在构建其多语言训练数据集时,为了快速扩充中文语料,进行了大规模的网络爬取,但未能对数据进行充分的清洗和去重。在这个过程中,大量由 DeepSeek 模型生成的问答、文章或论坛回复被不加区分地收录进来,最终导致了模型在中文身份认知上出现了“漂移”。

被忽视的细节与更深层的行业问题

一个关键的细节是,这一“身份错乱”现象似乎仅在中文提问时触发,用英文进行相同提问则能得到“我是 Claude”的正确回答。这一差异本身便耐人寻味。它可能表明,Anthropic 在对其模型进行身份对齐(Identity Alignment)和安全校准(Safety Fine-tuning)时,主要工作集中在了英文语境下,而中文部分可能存在覆盖不足或校准疏漏。对于一家始终以“构建负责任的人工智能”为核心理念的公司而言,其旗舰模型的核心身份认知竟存在语言上的不一致性,这无疑是一个值得深思的问题。

但整起事件最引人深思之处,或许并非其技术成因,而是它无情地揭开了 AI 行业一个心照不宣的“公开秘密”:顶级 AI 公司之间,很可能都在不同程度地使用竞争对手模型的公开输出,作为自己模型训练的补充数据。所谓的“蒸馏攻击”与“对公开数据的正常利用”之间的界限,在实践中往往模糊不清,缺乏公认的、可操作的标准。Anthropic 此次的公开指控,本质上是率先打破了行业长期保持的默契。

因此,Claude 的这次“自曝”更像是一场充满黑色幽默的行为艺术。它戏剧性地展示了在数据驱动的 AI 竞赛中,关于数据主权与道德边界的讨论常常陷入“薛定谔”的状态——他人的行为容易被定义为“侵权”,而自身类似的操作则可能被解释为“学习”或“研究”。当整个行业都在某种“灰色地带”中快速迭代时,Claude 的意外回答,恰似一面镜子,映照出了行业普遍面临的伦理与实践困境。这或许不是一个简单的技术漏洞,而是快速发展、竞争激烈的 AI 领域对其自身发展模式的一次无意间的“坦诚”。


原文链接: “蒸馏攻击”指控刚出炉,自家模型已经在说“我是DeepSeek”