Anthropic 承认对可疑 API 请求进行输出投毒

近期，AI 公司 Anthropic 发布了一篇技术博客，详细阐述了其检测并应对所谓“蒸馏攻击”的过程。蒸馏攻击通常指通过系统性地调用大型语言模型的 API 来生成训练数据，以用于训练其他模型。Anthropic 在博客中声称，他们检测到一批行为高度同步的账户，这些账户支付方式相似、请求节奏整齐，疑似用于规模化调用 Claude 模型以生成思维链训练数据，并将此活动指向特定实验室的研究人员。

核心内容

Anthropic 披露的核心应对措施并非简单的账户封禁。该公司承认，对于被其系统判定为“可疑”的 API 请求，他们采取了主动“投毒”的策略，即有意地返回错误或经过劣化的输出结果。

这一做法迅速成为讨论的焦点。争议的核心在于：作为 API 服务提供商，是否有权在用户不知情的情况下，故意提供错误的答案？这引发了关于服务透明度和用户信任的根本性质疑。

讨论指出，“可疑”的判定标准并未被清晰界定，这导致所有用户都可能面临输出不确定性的风险。有观点认为，问题越多的用户越容易触发相关阈值，从而在不知不觉中接收到被污染的数据。

此外，Anthropic 在博客中还将此技术问题与更广泛的地缘政治叙事关联，呼吁加强芯片出口管制以遏制此类攻击，这被部分观察者视为将商业竞争问题提升至不同层面。

价值与影响

此事件的影响超越了单一公司的反制措施，触及了 AI 服务生态的信任基石。当用户无法验证 API 输出是否被人为干预时，基于该服务的任何研究、开发或商业应用的可靠性都将存疑。

社区讨论中产生的一个直接结论是，这加剧了用户对云端 API 服务可靠性的担忧，并可能推动更多开发者考虑采用本地模型或分散使用多个模型来源的策略，以降低单点失效或被操纵的风险。从行业角度看，Anthropic 公开承认具备并行使了“输出投毒”的能力，为 AI 服务提供商的责任与权力边界设定了一个值得警惕的先例，促使业界重新审视数据安全、服务条款与伦理规范之间的平衡。