TechFoco Logo
首页专题归档站点地图
© 2026 TechFoco. All rights reserved.
文章归档专题网站地图站点地图 XML爬虫规则GitHub
  1. 首页
  2. /
  3. 返回专题
  4. /
  5. 小红书开源 FireRedASR 语音识别模型

小红书开源 FireRedASR 语音识别模型

2025年02月12日•TechFoco 精选

小红书开源了 FireRedASR 语音识别模型,提供 LLM 和 AED 两种架构,分别针对高质量转写和普通应用场景,在普通话基准测试中表现优异。

语音识别(ASR)技术是连接语音与数字世界的关键桥梁,其应用已深入日常生活与专业领域。近期,小红书开源了其最新的语音识别模型 FireRedASR,该模型在公共普通话 ASR 基准测试中达到了新的最佳水平,并提供了两种不同的架构设计以适应多样化的应用需求。

Article Image
Article Image

核心内容

FireRedASR 模型擅长识别中英文、方言及歌词,展现了较强的泛化能力。模型提供了两种核心架构版本:

  • LLM 架构版:参数量为 8.3B,旨在实现高识别准确率。它支持无缝的端到端语音交互,适合对转写质量要求极高的场景。
  • AED 架构版:参数量为 1.1B,设计上更注重在性能与效率之间取得平衡,适合资源受限或对实时性要求较高的普通应用场景。

价值与影响

FireRedASR 的开源为语音识别社区提供了新的技术选项。其双架构设计允许开发者和研究者根据具体场景在精度与效率之间进行灵活选择。模型在基准测试中的优异表现,也为推动中文及多语言、多方言场景下的语音识别技术进步提供了参考。


来源:Parry

相关标签

语音识别ASR模型LLM架构开源模型端到端学习

继续阅读

较新文章

微软开源 AI 数据可视化工具 Data-Formulator

较早文章

Hoppscotch:轻量级开源 API 开发工具

相关文章

查看更多
2024-2026年开源大模型架构图谱:收敛与分裂

2024-2026年开源大模型架构图谱:收敛与分裂

本文基于 Sebastian Raschka 整理的 40 多个开源大模型架构图谱,分析了 2024 年至 2026 年间 LLM 架构的演进趋势。核心观察是设计语言趋同,但具体技术方案呈现分裂与混搭,反映出行业正...

2026年03月19日
大语言模型LLM架构

Claude Code 语音模式发布遇冷:开发者为何不买账?

Anthropic 为其 AI 编程工具 Claude Code 推出语音输入功能,但开发者社区反馈消极,认为该功能未解决核心痛点,且语音识别质量不佳,不如第三方方案。

2026年03月06日
语音识别AI编程助手
Local Voice AI:全栈本地化语音助手开源项目

Local Voice AI:全栈本地化语音助手开源项目

Local Voice AI 是一个通过 Docker 容器化技术整合语音识别、大模型推理、语音合成及 RAG 检索的全栈开源项目,提供了一套完整的本地化语音助手解决方案,所有处理均在本地完成。

2025年12月27日
语音助手本地AI

Scribe v2 Realtime:高精度实时语音转文字模型发布

ElevenLabs 发布 Scribe v2 Realtime 模型,支持 90 多种语言,延迟低至 150 毫秒,具备高准确率与多项安全合规认证,适用于语音助手、会议记录等场景。

2025年11月19日
语音识别实时 ASR
美国代码助手底层采用中国大模型,揭示全球AI基础设施新格局

美国代码助手底层采用中国大模型,揭示全球AI基础设施新格局

近期,Cursor和Windsurf两款美国代码助手被发现底层运行中国基础大模型。这反映了从零训练模型成本高昂的现实,以及调优高性能开源模型已成为行业理性选择。中国开源模型凭借其性能、可用性和成本优势,正成为全球A...

2025年11月05日
开源模型代码助手
如何选择合适的开源OCR模型

如何选择合适的开源OCR模型

Hugging Face 博客针对开源 OCR 模型选择难题,提供了从模型对比、部署方案到扩展应用的系统性指导,旨在帮助开发者在控制成本与保护隐私的前提下降低使用门槛。

2025年10月26日
OCR开源模型