LLM 幻觉根源:不到 0.1% 的神经元在作祟
中国研究者发现,LLM 中不到 0.1% 的特定神经元(H-Neurons)可预测幻觉,其根源在于预训练和微调的激励机制鼓励模型“过度顺从”。
TechFoco

共 7 篇文章,按时间倒序展示。
中国研究者发现,LLM 中不到 0.1% 的特定神经元(H-Neurons)可预测幻觉,其根源在于预训练和微调的激励机制鼓励模型“过度顺从”。

Reddit 用户 sultan_papagani 开发了一个开源工具,允许用户在浏览器中上传并 3D 交互式地探索 GGUF 格式大语言模型的内部结构,如层、神经元和连接关系,该工具完全离线运行。


本文探讨了深度学习有效性的一个理论视角,即其可能借鉴了物理学中的全息原理,通过张量网络结构将高维信息高效编码于低维表示中,从而实现强大的特征提取与泛化能力。


《深度学习数学工程》一书从数学工程视角系统概述了深度学习,涵盖 CNN、RNN、Transformer、GAN 等主流模型,聚焦于其数学描述与基础原理,旨在帮助具有数学背景的专业人员快速把握领域本质。
