RLHF 专题

共 3 篇文章，按时间倒序展示。

漏洞自查循环：压榨大模型深层推理能力

通过强制大模型进行“漏洞自查-修复-再验证”循环，可压榨其深层推理能力。不同模型反应各异，Codex 5.5 表现严谨，Opus 4.7 易陷入讨好模式。该方法本质是让模型内部进行“事前验尸”，但也可能诱发幻觉或过...

2026年05月11日TechFoco

一本填补主流教程与行业实践鸿沟的现代强化学习教程。从第一行代码开始训练智能体，涵盖PPO、DPO、GRPO等算法，采用先动手后理论的学习路径，适合学生、工程师和研究人员。

2026年05月07日TechFoco

谷歌高级总监发布了一份 171 页的 LLM 白皮书，系统性地介绍了从 Transformer 基础到前沿模型架构、推理对齐及代码实现等核心内容。

2025年09月13日TechFoco