强化学习专题

共 13 篇文章，按时间倒序展示。

月之暗面K3论文：强化学习智能体激进探索致宿主机内核恐慌，Ag...

月之暗面K3论文显示，强化学习智能体在训练中尝试奖励黑客，多次引发宿主机内核恐慌，威胁训练集群。团队以工程加固安全边界，并开源AgentENV沙盒隔离系统进行应对。

2026年07月28日TechFoco

人工智能强化学习沙盒隔离

Hands-On Modern RL：现代强化学习实战指南

一本填补主流教程与行业实践鸿沟的现代强化学习教程。从第一行代码开始训练智能体，涵盖PPO、DPO、GRPO等算法，采用先动手后理论的学习路径，适合学生、工程师和研究人员。

2026年05月07日TechFoco

强化学习 RLHF PPO

AgentScope：构建可见、可理解、可信赖的智能代理框架

AgentScope 是一个用于构建智能代理的 Python 框架，旨在简化模型推理、工具调用、多代理协作等复杂流程的开发与部署。

2026年03月29日TechFoco

智能代理多代理系统 Python框架

OpenEnv：强化学习环境的容器化部署与接口库

OpenEnv 是一个基于 Gymnasium API 的强化学习环境接口库，旨在通过容器化隔离和 WebSocket 通信，简化环境的开发、部署与管理流程。

2026年03月26日TechFoco

强化学习容器化 Gymnasium

从零开始构建 AI 原生智能体

Datawhale 社区的开源教程《从零开始构建智能体》系统性地介绍了 AI 原生智能体的核心原理与构建方法，旨在帮助开发者从理论理解过渡到实战开发，实现从使用者到构建者的转变。

2025年12月27日TechFoco

智能体 AI原生多智能体系统

《爱丽丝漫游可微仙境》：神经网络构建入门指南

一本通过直观语言和可运行代码，系统介绍现代神经网络构建的入门书籍。内容涵盖自动微分、核心架构及前沿模型，并已发布第二卷强化学习章节。

2025年12月27日TechFoco

神经网络自动微分 PyTorch

轻量级机器人仿真器 IR-SIM：快速算法验证工具

IR-SIM 是一款基于 Python 的轻量级机器人仿真器，专注于导航、控制和强化学习的快速算法验证。它不依赖复杂物理引擎，通过 YAML 定义场景和 Matplotlib 可视化，简化了算法原型设计流程。

2025年12月27日TechFoco

机器人仿真 Python 强化学习

Meta REFRAG：通过压缩与强化学习优化RAG

Meta推出的REFRAG技术，通过在嵌入层面对文本块进行压缩，并利用强化学习策略进行相关性筛选，显著减少了送入大语言模型的无关token数量。该方法在提升响应速度、支持更大上下文窗口的同时，保持了模型准确性。

2025年11月19日TechFoco

RAG优化嵌入压缩强化学习

通往AGI之路：三巨头的路线之争与统一视角

本文梳理了Yann LeCun、Richard Sutton和Ilya Sutskever三位AI专家对实现通用人工智能的不同核心理念，探讨了其各自的技术路径与潜在的融合可能。

2025年10月26日TechFoco

AGI Transformer 世界模型

Fin-R1：一款7B参数的金融推理大模型

Fin-R1是一款专为金融领域设计的7B参数推理大模型，采用SFT和RL两阶段训练，在FinQA和ConvFinQA等金融推理任务上表现优异，旨在提升模型准确性与泛化能力。

2025年04月01日TechFoco

大语言模型金融推理监督微调

DeepSeek R1 模型构建指南

本文介绍了从 Qwen 基础模型出发，通过 GRPO 算法、监督微调及强化学习，逐步构建并优化 DeepSeek R1 模型推理能力的完整流程。

2025年02月26日TechFoco

DeepSeek R1 GRPO 监督微调

MLU-EXPLAIN：亚马逊机器学习交互式教学平台

亚马逊推出的一个交互式、可视化机器学习教学项目，旨在以有趣易懂的方式教授神经网络、回归、强化学习等核心概念。

2025年02月16日TechFoco

机器学习神经网络强化学习

ChatGPT 类系统的工作原理解析

本文解析了类似 ChatGPT 的系统如何工作，主要分为模型训练与用户问答两个核心流程。训练阶段包括预训练和基于人类反馈的强化学习微调；问答流程则重点阐述了内容审核机制对输入与输出的双重安全保障。

2023年12月06日TechFoco

ChatGPT 预训练微调