Wolfram CAG 挑战 Python AI 生态
Wolfram推CAG方案,让LLM调用其精确计算能力。但闭源生态与Python主导的AI环境存在根本矛盾,使其“地基”愿景面临挑战。
大型语言模型(LLM) 能够完成许多令人惊叹的任务,但有一项能力是其与生俱来的短板:精确计算。这并非一个可以通过更多数据或更大模型就能解决的工程问题,而是一个根本性的结构限制。语言模型本质上是在进行概率预测和模式匹配,要求它保证数学运算结果百分之百精确无误,就如同让一位博闻强识的学者仅凭心算去求解微分方程——或许偶尔能给出答案,但你绝不会将关键的科学计算或工程决策建立在这种不确定性之上。
Stephen Wolfram 在其最新文章中正是从这个核心痛点切入。他回顾了自己过去四十年构建 Wolfram Language 的历程,其宏伟目标是“让世界上一切可计算的东西都变得可计算”。如今,他认为时机已然成熟:将这套成熟的符号与数值计算系统接入 LLM,让后者能够实时调用前者的精确计算能力,从而突破自身的固有局限。他将这一方案命名为 CAG,即“计算增强生成”,以此对标目前业界广泛采用的 RAG(检索增强生成)。如果说 RAG 是为 LLM 扩展了静态的知识库上下文,那么 CAG 则是为其注入了动态的、按需生成的计算结果。Wolfram 甚至将其形容为一种“可无限扩展的 RAG”。
从产品化的角度来看,Wolfram 团队推出了三种主要的接入方式。其一是 MCP 服务,可以直接集成到支持 Model Context Protocol 的各类 LLM 应用程序中。其二是 Agent One API,这是一个将 LLM 能力与 Wolfram 计算引擎打包的一体化接口。其三则是更为细粒度的 CAG 组件 API,供开发者灵活调用。
然而,这一颇具野心的构想,在技术社区中引发了诸多讨论与争议。评论区中一个非常现实的反馈来自一位实践者,他表示曾尝试使用 Wolfram 工具为 LLM 构建智能体,但最终发现,所有任务都能通过 Python 结合 Google 搜索得以解决,甚至效果更好、速度更快。另一位用户补充指出,当要求 Claude 编写 Wolfram Language 脚本时,其代码质量明显低于同等的 Python 代码。这背后的原因可能很简单:大量有价值的 Mathematica 代码都存储在个人电脑或私有项目中,而非像 Python 代码那样广泛存在于 GitHub 等公开代码库中,导致 LLM 缺乏足够的训练数据来精通这门语言。
这揭示了一个根本性的悖论:越是封闭的系统,在 AI 时代就越难成为真正的基础设施。一种观点尖锐地指出,如果 Wolfram 在十年前选择开源其语言和核心库,那么今天的 LLM 很可能将 Wolfram Language 视为首选的计算语言,就像如今对待 Python 一样。Python 本身并未独占任何核心算法,但它凭借其开放生态,成为了整个 AI 时代的基石。这个对比对 Wolfram 而言或许有些残酷,但却不无道理。
当然,支持闭源的观点同样存在,即开源可能导致商业利润流失,进而影响长期的研发投入。这场争论在 Matlab、Maple 等传统科学计算工具身上反复上演。一个值得玩味的观察是,过去十年间,Python 凭借 NumPy、SciPy 等开源生态的蓬勃发展,确实极大地挤压了 Matlab 的市场空间。历史的剧本似乎正在重演。

此外,关于技术本身也有深入探讨。有评论提到,Wolfram 引以为傲的计算代数系统也并非绝对“形式化正确”,例如在函数定义域或多值函数分支选取等深层次问题上,系统内部可能做出某些隐含假设,这些假设有时会导致非预期的结果。这意味着,“精确计算”的金字招牌之下,也可能存在细微的裂缝。
关于 CAG 概念本身,也有网友提出了根本性质疑:数学知识是恒定的真理,并非像产品手册那样需要频繁更新的“定制数据”。因此,完全可以通过对 LLM 进行专门的数学微调来提升其计算能力,未必需要一个专为人类交互设计的复杂中间层。这一观点直指 CAG 方案的必要性。
目前,社区中一个有趣的技术探索方向是,能否通过 WebAssembly 来运行一个沙盒化的开源 Wolfram Language 解释器。一个名为 Woxi 的项目正在推进此事,它已实现了超过 900 个核心函数,虽然距离完整 Mathematica 的 6000 多个函数尚有差距,但其技术路径是清晰可行的。
归根结底,Wolfram 此次发布面临的最大挑战,或许不在于技术可行性,而在于生态位:在 Python 开源生态已然如此完善、且 LLM 自身推理与计算能力也在持续进步的今天,一个昂贵且相对封闭的专有工具,还有多少机会真正成为 AI 时代的“地基”?有人打了个比方:Wolfram 花了四十年修建了一座精美绝伦的收费大桥,但河流可能已经改道。Python 能成为地基,并非因为它计算能力最强,而是因为它“躺”在了几乎所有的训练数据里。Claude 写不好 Wolfram 脚本,不是因为 Claude 不够聪明,而是因为那些代码从未被它“阅读”过。基础设施的本质在于低摩擦和高渗透率,而收费站与地基,从来都不是同一种东西。





