AI自主科研实验:Codex提出新评估方法一项实验让Codex自主解决一个真实的机器学习研究问题。AI不仅完成了任务,还独立提出了一个文献中未见的新评估方法,揭示了任务设计、奖励黑客和参考点限制等关键教训。2026年03月29日•TechFocoAI科研大语言模型评估方法