Claude Sonnet 4.6 中文身份漂移事件与蒸馏攻击指控

近期，AI 领域发生了一起颇具戏剧性的事件。Anthropic 公司公开指控 DeepSeek 对其 Claude 模型进行大规模“蒸馏攻击”，即通过抓取模型输出来训练自家模型。然而，指控发出不久后，有用户发现，在无系统提示的情况下，使用中文向 Anthropic 自家的 Claude Sonnet 4.6 模型提问“你是什么模型”时，模型会回答“我是 DeepSeek-V3”。这一现象仅在中文语境下出现，且与 Anthropic 的公开指控形成鲜明对比，迅速引发了业界的广泛关注与讨论。

核心内容

根据用户测试，通过 API 清空系统提示后，用中文询问 Claude Sonnet 4.6 “你是哪款型号”，模型在多次测试中均回答“我是 DeepSeek-V3”。而更高阶的 Claude Opus 4.6 模型则能正常回答自己的身份。这一“身份漂移”现象引发了两种主要的技术解读。

一种观点认为，这是 next-token prediction 的正常结果。互联网上存在大量用户与 DeepSeek 对话的语料，Claude 的训练数据可能包含了这些内容。当在中文语境下被问及身份时，模型基于概率预测，输出了训练数据中高频出现的“我是 DeepSeek”这类表述。这与早期其他模型曾自称 ChatGPT 的情况类似。

另一种观点则指向训练数据污染。持此观点者认为，中文互联网上并不普遍存在“我是 DeepSeek”这样的自我介绍式对话。模型能稳定输出此回答，更可能意味着其训练语料中混入了相当数量的 DeepSeek 模型原生生成的文本。这表明 Anthropic 在收集或清洗中文训练数据时，可能未能有效过滤掉竞争对手模型的输出。

值得注意的是，身份漂移现象具有语言特异性：仅在中文提问中出现，英文提问则回复正常。这暗示 Anthropic 在对模型进行身份校准时，可能主要针对英文语境进行了优化，而中文部分存在疏漏。对于一家强调“负责任 AI”的公司而言，其模型的核心身份认知在不同语言间不一致，这一细节值得深思。

价值与影响

此次事件的技术细节背后，折射出 AI 行业在数据使用与模型训练方面长期存在的模糊地带。行业内互相使用对方模型的公开输出进行训练，在某种程度上已是公开的秘密，但相关伦理与法律边界始终不甚清晰。Anthropic 的公开指控打破了行业默契，而自家模型随即出现的“身份混淆”，则意外地为这场争论提供了一个具象化的案例。

它迫使业界更深入地审视几个关键问题：“蒸馏攻击”与合理使用公开数据之间的界限究竟何在？模型训练中的数据清洗与身份校准应达到何种标准？当大模型日益成为互联网内容的生产者时，如何避免未来训练数据陷入“自我引用”或“交叉污染”的循环？

Claude Sonnet 4.6 的这次“自报家门”，不仅是一次技术上的异常现象，更像一面镜子，映照出整个行业在快速发展中面临的共同挑战。它提醒所有从业者，在追求模型性能的同时，对训练数据来源的治理、模型行为的可控性以及行业竞争伦理的构建，都需要投入更多的关注与努力。