大语言模型专题

共 22 篇文章，按时间倒序展示。

华为开源 505B 参数 MoE 模型 openPangu-2.0-Pro

华为在 Hugging Face 开源 openPangu-2.0-Pro，该模型为 505B 参数的 MoE 架构，基于昇腾 NPU 训练，激活参数约 18B，支持 512k 上下文。Thinking 版本在 A...

2026年08月01日TechFoco

MoE 大语言模型开源模型

Kimi K3 发布：开源 2.8T 模型，前端编程在 Are...

月之暗面发布全球首个开源 2.8 万亿参数模型 Kimi K3，基于 Delta Attention 与 Attention Residuals 架构，具备原生视觉能力和 100 万 token 上下文窗口。在 F...

2026年07月17日TechFoco

Kimi K3 开源模型 2.8万亿参数

Gemma 4 长程逻辑推理能力测试观察

一项针对 Gemma 4 的维吉尼亚密码破解测试显示，该模型在明确指令下可进行长时间深度推理，并在无法解决时选择诚实拒绝而非编造答案，其思维深度具有可调节特性。测试也引发了关于如何更全面评估模型原生推理能力与效率的讨论。

2026年04月08日TechFoco

Gemma 4 大语言模型推理能力

AI自主科研实验：Codex提出新评估方法

一项实验让Codex自主解决一个真实的机器学习研究问题。AI不仅完成了任务，还独立提出了一个文献中未见的新评估方法，揭示了任务设计、奖励黑客和参考点限制等关键教训。

2026年03月29日TechFoco

AI科研大语言模型评估方法

中国大语言模型市场格局与技术观察

本文基于社区讨论，梳理了中国大语言模型市场的三层竞争格局，分析了字节跳动、DeepSeek、六小虎等主要参与者的市场地位、商业模式及部分技术特点。

2026年03月26日TechFoco

大语言模型中国AI 模型架构

2024-2026年开源大模型架构图谱：收敛与分裂

本文基于 Sebastian Raschka 整理的 40 多个开源大模型架构图谱，分析了 2024 年至 2026 年间 LLM 架构的演进趋势。核心观察是设计语言趋同，但具体技术方案呈现分裂与混搭，反映出行业正...

2026年03月19日TechFoco

大语言模型 LLM架构注意力机制

Lossless Claw：基于 LCM 的无损上下文管理插件

Lossless Claw 是一个为 OpenClaw 设计的开源插件，它采用有向无环图和智能摘要技术管理对话上下文，旨在突破大语言模型的上下文窗口限制，实现消息的无损存储与高效回溯。

2026年03月19日TechFoco

上下文管理有向无环图大语言模型

谷歌AI绕过付费墙技术分析

近期发现，用户可通过将付费文章链接提供给谷歌AI，使其通过搜索引擎特权通道获取并总结全文。当访问被阻时，上传空PDF文件再贴链接可欺骗系统成功读取。这一现象降低了绕过付费墙的技术门槛，引发了关于内容付费模式与AI伦...

2026年03月19日TechFoco

AI 付费墙大语言模型

Anthropic 指控工业级蒸馏攻击引争议

Anthropic 公开指控 DeepSeek 等中国 AI 公司通过大量 API 调用对 Claude 实施“工业级蒸馏攻击”。然而，Anthropic 自身训练数据来源的版权问题同样受到质疑，事件引发了关于技术...

2026年02月27日TechFoco

模型蒸馏数据版权 API滥用

AI写作的“重点来了”现象与反思

本文分析了AI生成文本中频繁使用“重点来了”等导航词的特征，指出其源于对工业化写作模式的模仿，并探讨了这种模式对写作风格及读者判断力的潜在影响。

2026年02月22日TechFoco

AI写作自然语言处理内容生成

马斯克鼓励上传医疗数据引隐私争议

马斯克公开鼓励用户向 Grok 上传医疗数据以获取第二诊疗意见，此举引发对数据隐私、商业动机及用户信任的广泛讨论。核心争议在于用户主动提交的数据不受 HIPAA 等法规保护，存在被滥用风险。

2026年02月22日TechFoco

AI医疗数据隐私医疗数据

一份值得收藏的AI社区导航手册

Reddit用户JensPetrus整理了一份全面的AI相关子版块清单，覆盖大语言模型、图像生成、AI编程等多个领域，旨在帮助用户找到高质量的学习社区。

2026年02月11日TechFoco

AI社区 Reddit Prompt Engineering

大模型上下文长度为何停滞不前？

本文探讨了大型语言模型上下文长度增长停滞的现象，分析了硬件瓶颈、注意力质量、实际利用能力等深层制约因素，并指出行业正从追求长度转向优化使用效率。

2026年02月09日TechFoco

大语言模型上下文窗口注意力机制

提示词重复：一种简单有效的大语言模型性能提升技巧

Google Research 研究发现，在不启用推理模式时，将提示词原样重复一遍可显著提升大语言模型在多项基准测试中的表现，且几乎不增加计算成本。

2026年01月25日TechFoco

大语言模型提示工程注意力机制

ChatGPT 测试广告功能，AI 商业化引热议

OpenAI 宣布将在 ChatGPT 免费版和 Go 订阅层级测试广告功能，承诺广告不影响回答内容且与对话分离。此举引发了用户对 AI 中立性、商业模式可持续性及行业未来走向的广泛讨论。

2026年01月23日TechFoco

AI商业化广告模式大语言模型

《爱丽丝漫游可微仙境》：神经网络构建入门指南

一本通过直观语言和可运行代码，系统介绍现代神经网络构建的入门书籍。内容涵盖自动微分、核心架构及前沿模型，并已发布第二卷强化学习章节。

2025年12月27日TechFoco

神经网络自动微分 PyTorch

Meta REFRAG：通过压缩与强化学习优化RAG

Meta推出的REFRAG技术，通过在嵌入层面对文本块进行压缩，并利用强化学习策略进行相关性筛选，显著减少了送入大语言模型的无关token数量。该方法在提升响应速度、支持更大上下文窗口的同时，保持了模型准确性。

2025年11月19日TechFoco

RAG优化嵌入压缩强化学习

Spider Creator：基于 Playwright 与 LLM 的自动爬虫生成

Spider Creator 是一款结合浏览器操作录制与大语言模型的工具，可通过自然语言描述自动生成 Playwright 爬虫脚本，旨在简化重复性数据采集任务的开发流程。

2025年11月05日TechFoco

爬虫 Playwright Python Automation

Spider Creator：基于 Playwright 与 LLM 的自动爬虫生成

Fin-R1：一款7B参数的金融推理大模型

Fin-R1是一款专为金融领域设计的7B参数推理大模型，采用SFT和RL两阶段训练，在FinQA和ConvFinQA等金融推理任务上表现优异，旨在提升模型准确性与泛化能力。

2025年04月01日TechFoco

大语言模型金融推理监督微调

Awesome-Long-Chain-of-Thought-Reasoning：长链推理综述

本文介绍了一个专注于提升大语言模型长思维链推理能力的 GitHub 资源库。该库系统性地整理了 600 多篇相关文献，并提炼出深度推理等三大核心特性，旨在填补该领域的研究空白。

2025年03月20日TechFoco

长链推理大语言模型研究综述

Awesome-Long-Chain-of-Thought-Reasoning：长链推理综述