评估方法专题

AI自主科研实验：Codex提出新评估方法

一项实验让Codex自主解决一个真实的机器学习研究问题。AI不仅完成了任务，还独立提出了一个文献中未见的新评估方法，揭示了任务设计、奖励黑客和参考点限制等关键教训。

2026年03月29日TechFoco