强化学习专题

共 11 篇文章，按时间倒序展示。

AgentScope：构建可见、可理解、可信赖的智能代理框架

AgentScope 是一个用于构建智能代理的 Python 框架，旨在简化模型推理、工具调用、多代理协作等复杂流程的开发与部署。

2026年03月29日TechFoco

OpenEnv 是一个基于 Gymnasium API 的强化学习环境接口库，旨在通过容器化隔离和 WebSocket 通信，简化环境的开发、部署与管理流程。

2026年03月26日TechFoco

Datawhale 社区的开源教程《从零开始构建智能体》系统性地介绍了 AI 原生智能体的核心原理与构建方法，旨在帮助开发者从理论理解过渡到实战开发，实现从使用者到构建者的转变。

2025年12月27日TechFoco

一本通过直观语言和可运行代码，系统介绍现代神经网络构建的入门书籍。内容涵盖自动微分、核心架构及前沿模型，并已发布第二卷强化学习章节。

2025年12月27日TechFoco

IR-SIM 是一款基于 Python 的轻量级机器人仿真器，专注于导航、控制和强化学习的快速算法验证。它不依赖复杂物理引擎，通过 YAML 定义场景和 Matplotlib 可视化，简化了算法原型设计流程。

2025年12月27日TechFoco

Meta推出的REFRAG技术，通过在嵌入层面对文本块进行压缩，并利用强化学习策略进行相关性筛选，显著减少了送入大语言模型的无关token数量。该方法在提升响应速度、支持更大上下文窗口的同时，保持了模型准确性。

2025年11月19日TechFoco

本文梳理了Yann LeCun、Richard Sutton和Ilya Sutskever三位AI专家对实现通用人工智能的不同核心理念，探讨了其各自的技术路径与潜在的融合可能。

2025年10月26日TechFoco

Fin-R1是一款专为金融领域设计的7B参数推理大模型，采用SFT和RL两阶段训练，在FinQA和ConvFinQA等金融推理任务上表现优异，旨在提升模型准确性与泛化能力。

2025年04月01日TechFoco

本文介绍了从 Qwen 基础模型出发，通过 GRPO 算法、监督微调及强化学习，逐步构建并优化 DeepSeek R1 模型推理能力的完整流程。

2025年02月26日TechFoco

亚马逊推出的一个交互式、可视化机器学习教学项目，旨在以有趣易懂的方式教授神经网络、回归、强化学习等核心概念。

2025年02月16日TechFoco

本文解析了类似 ChatGPT 的系统如何工作，主要分为模型训练与用户问答两个核心流程。训练阶段包括预训练和基于人类反馈的强化学习微调；问答流程则重点阐述了内容审核机制对输入与输出的双重安全保障。

2023年12月06日TechFoco