AI 上网困境:代码千倍速,网页慢十倍
AI写代码快但上网慢,因网页为人类视觉设计,AI需截图分析,效率低。未来或需专用协议,绕过浏览器瓶颈。
在技术飞速发展的今天,一个颇具讽刺意味的现象正引发开发者的广泛讨论:当前的人工智能模型在生成代码方面展现出令人惊叹的效率,其速度可能比人类程序员快上千倍;然而,当它面对一个普通的网页浏览器,尝试完成上网、点击按钮或填写表单这类基础任务时,其表现却可能比人类慢上十倍,甚至显得笨拙不堪。
这种能力上的巨大反差,揭示了一个被我们长期忽视的技术真相。代码,本质上是逻辑的纯文本表达,其规则清晰,边界明确,非常适合 AI 进行解析、学习和生成。相比之下,网页则是为人类视觉和交互习惯设计的复杂界面,它充满了按钮、表单、弹窗、动态加载的内容以及无处不在的广告,构成了一座视觉与交互的迷宫。
AI 目前处理网页的主流方式,可以形象地描述为“看一步,走一步”。它需要不断对页面进行截图,然后分析截图中的元素,再决定下一步操作(如点击某个坐标),接着再次截图确认结果。这种基于计算机视觉的交互模式,效率自然高不到哪里去,因为它将连续的、语义化的交互过程,拆解成了无数个离散的、基于像素判断的步骤。
更深层次的瓶颈在于网页的固有特性:其状态是庞大且碎片化的,并且缺乏跨页面的共享记忆。对于 AI 模型而言,每一次页面跳转或刷新都意味着一次“重置”,它必须从头开始理解整个新的页面结构和上下文。这就像一个患有短期失忆症的人,在一个陌生的城市里反复寻找同一条路,无法积累有效的导航经验。
面对这一挑战,业界已经开始尝试多种解决方案。一种思路是尝试为互联网构建一个“共享状态地图”,让 AI 能够拥有跨页面、跨会话的连贯记忆和理解,从而更智能地导航。另一种更主流的观点则认为,与其强迫 AI 去笨拙地模仿人类点击鼠标,不如让它通过标准的 API 接口直接获取和处理数据。毕竟,浏览器从诞生之初就是为了服务人类用户,而非机器智能。
一位开发者的观察切中了问题的核心:当前,代码生成的速度问题在很大程度上已经得到了解决,但代码生成与代码的可靠、自动化执行之间的“协调层”,才是真正的瓶颈所在。我们尚未构建起一个让 AI 能够与复杂、动态的外部环境(如网页应用)进行无缝、可靠协作的中间层。
这种能力的错位,在开发工作流中创造了一种诡异的“生产力倒挂”现象。开发者们发现,自己花费在调试浏览器兼容性、处理动态加载元素、研究第三方网站 API 文档上的时间,有时甚至超过了编写核心业务逻辑的时间。AI 可以轻松地重构整个代码库的架构,却可能在一个简单的网页登录按钮上屡屡失败。
此外,由 AI 生成的代码在集成到真实环境时,还可能制造出一种独特的“外星 Bug”。这类错误并非传统的功能缺失或逻辑错误,而是一些沉默的失败、对边缘情况的错误假设,或是与外部系统交互时产生的微妙不匹配。它们比显而易见的 Bug 更难被预判和捉摸,增加了调试的复杂性。
值得深思的是,当前这种 AI 擅长编码却不擅交互的局面,很可能只是一个技术过渡期的短暂现象。要求 AI 像人类一样去“看”界面、点按钮、填表单,这本身就是一种技术路径上的错配。未来的发展方向,大概率是 AI 通过专门为机器交互设计的协议(如更完善的自动化 API、结构化数据接口)与各类系统直接对话。数据将以 AI 能够高效理解和处理的格式呈现,而非继续被困在为人类视觉优化的“像素迷宫”之中。
那个不需要打开浏览器窗口、所有自动化操作都在后台基于数据和协议悄然发生的时代,或许比我们想象的更近。从这一视角来看,传统的图形化浏览器界面,正在成为人机协作新时代的一个关键瓶颈。突破这一瓶颈,不仅将释放 AI 的全部潜能,也将从根本上重塑软件开发和自动化的工作范式。



