Claude Sonnet 4.6 中文身份漂移事件与蒸馏攻击指控
Anthropic 指控 DeepSeek 进行蒸馏攻击后,其 Claude Sonnet 4.6 模型在中文提问下却自称是 DeepSeek-V3,引发对训练数据污染、模型身份校准及行业数据使用边界的讨论。

近期,AI 领域发生了一起颇具戏剧性的事件。Anthropic 公司公开指控 DeepSeek 对其 Claude 模型进行大规模“蒸馏攻击”,即通过抓取模型输出来训练自家模型。然而,指控发出不久后,有用户发现,在无系统提示的情况下,使用中文向 Anthropic 自家的 Claude Sonnet 4.6 模型提问“你是什么模型”时,模型会回答“我是 DeepSeek-V3”。这一现象仅在中文语境下出现,且与 Anthropic 的公开指控形成鲜明对比,迅速引发了业界的广泛关注与讨论。
核心内容
根据用户测试,通过 API 清空系统提示后,用中文询问 Claude Sonnet 4.6 “你是哪款型号”,模型在多次测试中均回答“我是 DeepSeek-V3”。而更高阶的 Claude Opus 4.6 模型则能正常回答自己的身份。这一“身份漂移”现象引发了两种主要的技术解读。
一种观点认为,这是 next-token prediction 的正常结果。互联网上存在大量用户与 DeepSeek 对话的语料,Claude 的训练数据可能包含了这些内容。当在中文语境下被问及身份时,模型基于概率预测,输出了训练数据中高频出现的“我是 DeepSeek”这类表述。这与早期其他模型曾自称 ChatGPT 的情况类似。
另一种观点则指向训练数据污染。持此观点者认为,中文互联网上并不普遍存在“我是 DeepSeek”这样的自我介绍式对话。模型能稳定输出此回答,更可能意味着其训练语料中混入了相当数量的 DeepSeek 模型原生生成的文本。这表明 Anthropic 在收集或清洗中文训练数据时,可能未能有效过滤掉竞争对手模型的输出。
值得注意的是,身份漂移现象具有语言特异性:仅在中文提问中出现,英文提问则回复正常。这暗示 Anthropic 在对模型进行身份校准时,可能主要针对英文语境进行了优化,而中文部分存在疏漏。对于一家强调“负责任 AI”的公司而言,其模型的核心身份认知在不同语言间不一致,这一细节值得深思。
价值与影响
此次事件的技术细节背后,折射出 AI 行业在数据使用与模型训练方面长期存在的模糊地带。行业内互相使用对方模型的公开输出进行训练,在某种程度上已是公开的秘密,但相关伦理与法律边界始终不甚清晰。Anthropic 的公开指控打破了行业默契,而自家模型随即出现的“身份混淆”,则意外地为这场争论提供了一个具象化的案例。
它迫使业界更深入地审视几个关键问题:“蒸馏攻击”与合理使用公开数据之间的界限究竟何在?模型训练中的数据清洗与身份校准应达到何种标准?当大模型日益成为互联网内容的生产者时,如何避免未来训练数据陷入“自我引用”或“交叉污染”的循环?
Claude Sonnet 4.6 的这次“自报家门”,不仅是一次技术上的异常现象,更像一面镜子,映照出整个行业在快速发展中面临的共同挑战。它提醒所有从业者,在追求模型性能的同时,对训练数据来源的治理、模型行为的可控性以及行业竞争伦理的构建,都需要投入更多的关注与努力。
来源:黑洞资源笔记





