TechFoco Logo
首页专题归档站点地图
© 2026 TechFoco. All rights reserved.
文章归档专题网站地图站点地图 XML爬虫规则GitHub
  1. 首页
  2. /
  3. 返回专题
  4. /
  5. AI Agent 上下文工程:3 个 Markdown 文件解决漂移难题

AI Agent 上下文工程:3 个 Markdown 文件解决漂移难题

2026年01月05日•TechFoco 精选

AI Agent通过三个Markdown文件管理上下文:task_plan追踪进度,notes存储研究,deliverable存放结果。核心是决策前重读计划文件,确保目标不偏离。

近日,Meta 以高达 20 亿美元的价格收购了 AI Agent 初创公司 Manus,这一消息在人工智能领域引起了广泛关注。一位细心的开发者在深入研究后,揭示了其核心工作流中一个看似简单却极为有效的模式,并将其开源分享。这一发现的核心,直指当前 AI Agent 发展中的一个普遍困境:上下文漂移。

AI Agent 的普遍困境:迷失在工具调用中

随着 AI Agent 执行复杂任务,它们需要频繁调用各种工具、访问外部数据并进行多轮推理。在这个过程中,一个棘手的问题逐渐浮现:经过大量的工具调用和信息处理后,Agent 往往会逐渐“迷失”最初的目标。上下文窗口不断膨胀,关键的错误信息被淹没在海量中间结果里,最终导致任务偏离预定轨道。这种现象,被称为“上下文漂移”,是制约 Agent 长期、稳定执行任务的主要瓶颈之一。

Manus 的优雅解决方案:三个 Markdown 文件

Manus 被揭示的解决方案出人意料地简洁,其核心仅依赖于三个结构清晰的 Markdown 文件。第一个文件是 task_plan.md,它就像一个动态的项目看板,使用复选框来清晰追踪任务的进度和待办事项。第二个文件是 notes.md,它充当了 Agent 的“外部大脑”,专门用于存储研究过程中的中间发现、数据和灵感,从而避免这些内容挤占宝贵的主上下文空间。第三个文件是 deliverable.md,它定义了任务的最终产出物,为整个工作流程锚定了明确的目标。

这个工作流的核心机制在于其循环读取与状态刷新的设计。AI Agent 并非在启动时一次性读取所有指令后就埋头执行,而是在每次做出重大决策或步骤转换前,都会重新读取 task_plan.md 文件。这一简单的动作,确保了任务的终极目标能够被持续地、强制性地拉回 Agent 的“注意力窗口”之内,有效对抗了因上下文膨胀而导致的目标遗忘。

社区洞见:模式验证与深度探讨

这一发现迅速在开发者社区引发了热烈讨论,并催生了一系列深刻的洞见。首先,面对“这并非全新概念”的质疑,社区给出了肯定的回答。确实,Anthropic 的 Claude Code 本身就会自动创建 plan.md 文件来管理任务,而像 Spec-kit 和 多 Agent 管理框架 APM 这样的开源工具也早已实现了类似的工作流。但这恰恰从侧面验证了该模式的有效性——当来自不同背景的独立开发者不约而同地收敛到同一种解决方案时,这通常意味着它确实击中了某个普遍存在的真实痛点。

其次,针对“向 notes.md 写入内容不也是在消耗上下文 Token 吗”这一技术性质疑,讨论指出了问题的关键所在。写入操作确实会产生 Token 消耗,但核心优化目标并非单纯减少 Token 数量,而是进行精妙的注意力操控。大型语言模型普遍存在“大海捞针”问题,即随着上下文长度增长,模型对早期关键信息的关注度会急剧下降。通过在决策节点重新读取计划文件,相当于周期性地将任务目标“高亮”并置顶,从而巧妙地引导了模型的注意力分配。

进阶方案与最佳实践

基于此基础模式,社区提出了更进阶的架构思路:主从 Agent 协作。在这种设计中,一个轻量级的“主 Agent”负责保持对整体目标和进度的追踪,其上下文始终保持精简;而繁重的、上下文密集型的子任务(如深度研究、代码编写)则被分配给独立的“子 Agent”去完成。子 Agent 在专属的、隔离的上下文中工作,完成任务后将结果摘要汇报给主 Agent。这样既保证了核心决策环路的清晰与稳定,又能高效处理复杂任务。

一位经验丰富的开发者分享了他的实战经验:将 Claude 这样的 AI 模型视为一名员工,而非全知全能的自动化机器。一次只分配一个明确、可验证的小任务,每完成一步就进行提交(例如提交到 Git)并由人工审核。这模仿的是可持续的“8 小时工作制”节奏,而非一劳永逸的“设置后放任不管”的幻想。

关于工作流设计的最佳实践,共识逐渐清晰:保持核心指令文件极度精简,只描述最根本的行为预期;将数据库 Schema、API 文档等专项知识拆分到独立的参考文件中,仅在执行相关任务时动态加载;同时,维护一个“愿望清单”或“未来改进”文件,让那些不属于当前迭代范围的想法有处安放,而不干扰当下的核心工作流。

超越文件:20 亿美元的价值所在

当然,也有评论者一针见血地指出:Meta 斥资 20 亿美元收购的,绝不仅仅是三个 Markdown 文件的创意。这笔交易的核心价值在于 Manus 作为一家公司在短短六个月内创造 1 亿美元收入的卓越能力,以及其背后强大的虚拟机能力、浏览器自动化技术和完整的 Agent 平台。这个三文件工作流模式,只是其精妙工程体系中的一块关键拼图,它揭示了如何系统性地管理 Agent 认知状态。

趋势展望:上下文工程与新兴职业

这场深入的讨论揭示了一个更深层次的行业趋势:上下文工程 正在迅速演变为一门独立的、至关重要的学科。我们正在亲眼见证“Agent 工程师”这一新角色的诞生。他们不仅仅是传统的软件工程师,更需要融合对云服务、API 集成以及 AI Agent 能力边界与特性的综合理解,专注于设计能让 Agent 可靠、高效运行的系统和交互协议。

或许,来自社区的最实用总结能给我们带来最终启示:将 Claude 视为你的员工,你的职责是清晰地分配任务、细致地检查每个任务的产出、并稳健地控制每个步骤的推进。不要试图让 AI Agent 一次性吞下所有需求并自动完成一切,至少在目前的技术阶段,那仍是一个不切实际的目标。成功的 AI 应用,在于人机之间清晰、迭代、可控的协作。


原文链接: 价值20亿美元的AI Agent秘密:三个Markdown文件如何解决上下文漂移难题

相关标签

AI AgentContext EngineeringAgent Workflow

继续阅读

较新文章

AI 时代 Coding 已死,程序员如何转型

较早文章

Claude Code 官方课程 核心技巧解析

相关文章

查看更多
AI 编程进阶:驯化项目结构

AI 编程进阶:驯化项目结构

AI编程效率关键在项目结构,而非提示词。清晰结构是AI的“短期记忆”与“行为准则”,能显著降低错误率。

2026年03月19日
AI ProgrammingProject Structure
抛弃 Function Calling 拥抱 Unix 命令行

抛弃 Function Calling 拥抱 Unix 命令行

前Meta技术负责人主张:用Unix命令行替代复杂Function Calling构建AI Agent,因其更符合LLM思维模式,通过渐进式帮助、导航式报错和分层架构实现高效交互。

2026年03月19日
AI AgentFunction Calling

AI 项目风向标 2024 趋势洞察

MiroFish做数字社会仿真,OpenClaw-RL让Agent持续学习,gstack拆解AI工作流,agent-cli构建交易操作系统,OpenClaw402探索Agent支付,opencli将网站变CLI,sub2api管理AI订阅,Page Agent改造网页交互,bb-browser深耕浏览器控制,BotLearn实现人机共学。

2026年03月19日
AI AgentMulti-Agent Systems
Responses API 工程实践:AI Agents 五层架构解析

Responses API 工程实践:AI Agents 五层架构解析

OpenAI推出Responses API五层架构,让AI Agent能操作计算机。包括Shell工具、编排循环、容器上下文、上下文压缩和Skills系统,实现复杂工作流。

2026年03月19日
AI AgentsResponses API
CLI Anything:让 AI 智能代理真正操控专业软件

CLI Anything:让 AI 智能代理真正操控专业软件

CLI-Anything可将有源码软件一键生成命令行界面,使AI代理能直接操控专业软件,实现自动化。

2026年03月19日
AI AgentCommand-Line Interface
谷歌开源 Always On Memory Agent 打造 AI 持续记忆

谷歌开源 Always On Memory Agent 打造 AI 持续记忆

谷歌开源AI记忆代理,支持多格式文件自动处理,无需向量数据库即可实现持续记忆、整合与检索。

2026年03月09日
AI AgentMemory Agent