AI 上网困境：代码千倍速，网页慢十倍

在技术飞速发展的今天，一个颇具讽刺意味的现象正引发开发者的广泛讨论：当前的人工智能模型在生成代码方面展现出令人惊叹的效率，其速度可能比人类程序员快上千倍；然而，当它面对一个普通的网页浏览器，尝试完成上网、点击按钮或填写表单这类基础任务时，其表现却可能比人类慢上十倍，甚至显得笨拙不堪。

这种能力上的巨大反差，揭示了一个被我们长期忽视的技术真相。代码，本质上是逻辑的纯文本表达，其规则清晰，边界明确，非常适合 AI 进行解析、学习和生成。相比之下，网页则是为人类视觉和交互习惯设计的复杂界面，它充满了按钮、表单、弹窗、动态加载的内容以及无处不在的广告，构成了一座视觉与交互的迷宫。

AI 目前处理网页的主流方式，可以形象地描述为“看一步，走一步”。它需要不断对页面进行截图，然后分析截图中的元素，再决定下一步操作（如点击某个坐标），接着再次截图确认结果。这种基于计算机视觉的交互模式，效率自然高不到哪里去，因为它将连续的、语义化的交互过程，拆解成了无数个离散的、基于像素判断的步骤。

更深层次的瓶颈在于网页的固有特性：其状态是庞大且碎片化的，并且缺乏跨页面的共享记忆。对于 AI 模型而言，每一次页面跳转或刷新都意味着一次“重置”，它必须从头开始理解整个新的页面结构和上下文。这就像一个患有短期失忆症的人，在一个陌生的城市里反复寻找同一条路，无法积累有效的导航经验。

面对这一挑战，业界已经开始尝试多种解决方案。一种思路是尝试为互联网构建一个“共享状态地图”，让 AI 能够拥有跨页面、跨会话的连贯记忆和理解，从而更智能地导航。另一种更主流的观点则认为，与其强迫 AI 去笨拙地模仿人类点击鼠标，不如让它通过标准的 API 接口直接获取和处理数据。毕竟，浏览器从诞生之初就是为了服务人类用户，而非机器智能。

一位开发者的观察切中了问题的核心：当前，代码生成的速度问题在很大程度上已经得到了解决，但代码生成与代码的可靠、自动化执行之间的“协调层”，才是真正的瓶颈所在。我们尚未构建起一个让 AI 能够与复杂、动态的外部环境（如网页应用）进行无缝、可靠协作的中间层。

这种能力的错位，在开发工作流中创造了一种诡异的“生产力倒挂”现象。开发者们发现，自己花费在调试浏览器兼容性、处理动态加载元素、研究第三方网站 API 文档上的时间，有时甚至超过了编写核心业务逻辑的时间。AI 可以轻松地重构整个代码库的架构，却可能在一个简单的网页登录按钮上屡屡失败。

此外，由 AI 生成的代码在集成到真实环境时，还可能制造出一种独特的“外星 Bug”。这类错误并非传统的功能缺失或逻辑错误，而是一些沉默的失败、对边缘情况的错误假设，或是与外部系统交互时产生的微妙不匹配。它们比显而易见的 Bug 更难被预判和捉摸，增加了调试的复杂性。

值得深思的是，当前这种 AI 擅长编码却不擅交互的局面，很可能只是一个技术过渡期的短暂现象。要求 AI 像人类一样去“看”界面、点按钮、填表单，这本身就是一种技术路径上的错配。未来的发展方向，大概率是 AI 通过专门为机器交互设计的协议（如更完善的自动化 API、结构化数据接口）与各类系统直接对话。数据将以 AI 能够高效理解和处理的格式呈现，而非继续被困在为人类视觉优化的“像素迷宫”之中。

那个不需要打开浏览器窗口、所有自动化操作都在后台基于数据和协议悄然发生的时代，或许比我们想象的更近。从这一视角来看，传统的图形化浏览器界面，正在成为人机协作新时代的一个关键瓶颈。突破这一瓶颈，不仅将释放 AI 的全部潜能，也将从根本上重塑软件开发和自动化的工作范式。

原文链接： AI写代码比我快千倍，上网却像个第一天摸电脑的新手

相关文章

AI 完成 80% 后，你的价值在哪里？

AI 时代软件工程师生存指南

Claude Code 10 倍效率的底层逻辑

AI 时代 Coding 已死，程序员如何转型

Vibe Coding 2025 编程新范式