Fun-ASR1.5 – 阿里通义推出的端到端语音识别模型
Fun-ASR1.5是什么
Fun-ASR1.5是阿里通义团队推出的端到端语音识别大模型的新一代版本,单模型支持30种语言高精度识别,覆盖中文七大方言体系及二十余种地方口音,专项优化古诗词诵读识别。模型基于MoE架构实现自动语种切换,无需预设标签。Fun-ASR1.5让后处理支持智能标点预测与文本归一化,让语音转写从能用走向好用。

Fun-ASR1.5的主要功能
- 多语言识别:单模型覆盖中、英、日、韩、法、德、西、葡、俄、阿拉伯语等30种语言。
- 自动语种切换:无需预设语种标签,自动识别并切换Code-Switching场景下的多语言混合语音。
- 方言识别:覆盖七大方言体系及二十余种地方口音,重点优化15种高需求方言。
- 古诗词识别:构建先秦至近代古诗词语音-文本对齐语料库,支持文言诵读精准转写。
- 智能标点预测:基于上下文语义自动插入逗号、句号、问号等标点符号。
- 文本归一化:自动将口语中的数字、日期、金额、电话等转换为规范书面格式。
Fun-ASR1.5的技术原理
- MoE架构:采用混合专家架构,听到特定语言时仅激活相关部分进行处理,提升多语言处理灵活性与效率。
- 分级分阶段训练:在训练阶段分级、分阶段使用精准数据,提升真实世界复杂语音场景的应对能力。
- 方言数据驱动:基于数十万小时真实方言语音数据训练,平均字错误率(CER)相比上一版本下降56.2%。
- 古诗词语料库:构建涵盖《诗经》《楚辞》、李白杜甫诗集、苏轼辛弃疾词作等经典文本的真人诵读录音语料库。
如何使用Fun-ASR1.5
- 阿里云百炼平台:访问阿里云百炼官网,进入模型体验中心语音板块调用API。
- 魔搭社区:访问 https://modelscope.cn/studios/iic/FunAudio-ASR 直接在线体验。
Fun-ASR1.5的关键信息和使用要求
- 产品定位:端到端语音识别大模型。
- 支持语言:30种语言(覆盖欧洲、东亚、东南亚、南亚及中东主流语种)。
- 方言覆盖:七大方言体系,重点优化上海话、粤语、四川话等15种高需求方言。
- 古诗词准确率:内部评测集字符级准确率达97%。
- 使用方式:API调用或在线体验。
- 无需预设:多语言混合场景下无需提前指定语种标签。
Fun-ASR1.5的核心优势
- 单模型多语言:一个模型无缝切换30种语言,减少多模型部署与维护成本。
- 方言识别领先:基于数十万小时方言数据,CER较上版下降56.2%,支持原汁原味方言文字还原。
- 自动Code-Switching:无需预设即可处理同一段对话中的多语言混合场景。
- 文化场景专项优化:针对古诗词诵读进行专项训练,字符准确率达97%,助力文化传承。
- 后处理智能化:自动标点与文本归一化大幅降低会议纪要、法律笔录等场景的后期人工编辑成本。
Fun-ASR1.5的同类竞品对比
| 维度 | Fun-ASR1.5 | Seed-ASR | Tencent-ASR |
|---|---|---|---|
| 语言覆盖 | 30种语言,单模型覆盖 | 多语言支持 | 多语言支持 |
| 方言支持 | 七大方言体系,15种重点优化,CER降56.2% | 基础支持 | 基础支持 |
| Code-Switching | 无需预设标签,自动识别切换 | 支持 | 支持 |
| 古诗词识别 | 专项优化,97%字符准确率 | 未明确 | 未明确 |
| 智能后处理 | 自动标点+文本归一化(数字/日期/金额/电话) | 基础标点能力 | 基础标点能力 |
| 架构特点 | MoE混合专家架构 | 未公开 | 未公开 |
| 开放体验 | 阿里云百炼API + 魔搭社区 | 火山引擎 | 腾讯云 |
Fun-ASR1.5的应用场景
- 跨国会议:在跨国会议场景中,Fun-ASR1.5可实时精准转写多语言混合对话内容,无需参会者提前预设语种或在多个翻译工具间来回切换。
- 智能音箱:在智能家居与车载语音交互场景中,Fun-ASR1.5能精准识别各类方言指令,让智能音箱真正”听得懂乡音”。
- 在线教育:在国学在线教育场景中,Fun-ASR1.5支持古诗词诵读的精准转写,以97%的字符级准确率助力传统文化数字化传承。
- 新闻采访:在新闻采访与内容生产场景中,Fun-ASR1.5可自动添加标点符号并将口语中的数字、日期归一化为规范格式,大幅减少后期人工整理时间。
延伸阅读
-
天禧AI Claw – 联想推出的 AI 智能体助理
天禧AI Claw是什么天禧AI Claw是联想基于OpenClaw架构推出的开箱即用型AI智能体助理,采用端云混合部署模式,支持PC、Phone、Pad多端无缝协同。工具无需本地环境配置即可7×24
-
Qwen3.6-Max-Preview – 阿里通义推出的下一代旗舰模型
Qwen3.6-Max-Preview是什么Qwen3.6-Max-Preview 是阿里通义千问团队推出的下一代旗舰大模型早期预览版。相比 Qwen3.6-Plus,模型在智能体编程、世界知识和指令
-
HyperFrames – HeyGen开源的AI原生视频渲染框架
HyperFrames是什么HyperFrames是HeyGen开源的AI原生视频渲染框架,采用”Write HTML, Render video”理念,专为AI Agent和开发者设计。框架将视频定
关注公众号:拾黑(shiheibook)了解更多
友情链接:
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/
关注网络尖刀微信公众号随时掌握互联网精彩
赞助链接







