热门资讯

Fun-ASR1.5 – 阿里通义推出的端到端语音识别模型

业界来源：AI工具集 2026-04-20 21:45:19

Fun-ASR1.5是什么

Fun-ASR1.5是阿里通义团队推出的端到端语音识别大模型的新一代版本，单模型支持30种语言高精度识别，覆盖中文七大方言体系及二十余种地方口音，专项优化古诗词诵读识别。模型基于MoE架构实现自动语种切换，无需预设标签。Fun-ASR1.5让后处理支持智能标点预测与文本归一化，让语音转写从能用走向好用。

Fun-ASR1.5的主要功能

多语言识别：单模型覆盖中、英、日、韩、法、德、西、葡、俄、阿拉伯语等30种语言。
自动语种切换：无需预设语种标签，自动识别并切换Code-Switching场景下的多语言混合语音。
方言识别：覆盖七大方言体系及二十余种地方口音，重点优化15种高需求方言。
古诗词识别：构建先秦至近代古诗词语音-文本对齐语料库，支持文言诵读精准转写。
智能标点预测：基于上下文语义自动插入逗号、句号、问号等标点符号。
文本归一化：自动将口语中的数字、日期、金额、电话等转换为规范书面格式。

Fun-ASR1.5的技术原理

MoE架构：采用混合专家架构，听到特定语言时仅激活相关部分进行处理，提升多语言处理灵活性与效率。
分级分阶段训练：在训练阶段分级、分阶段使用精准数据，提升真实世界复杂语音场景的应对能力。
方言数据驱动：基于数十万小时真实方言语音数据训练，平均字错误率（CER）相比上一版本下降56.2%。
古诗词语料库：构建涵盖《诗经》《楚辞》、李白杜甫诗集、苏轼辛弃疾词作等经典文本的真人诵读录音语料库。

如何使用Fun-ASR1.5

阿里云百炼平台：访问阿里云百炼官网，进入模型体验中心语音板块调用API。
魔搭社区：访问 https://modelscope.cn/studios/iic/FunAudio-ASR 直接在线体验。

Fun-ASR1.5的关键信息和使用要求

产品定位：端到端语音识别大模型。
支持语言：30种语言（覆盖欧洲、东亚、东南亚、南亚及中东主流语种）。
方言覆盖：七大方言体系，重点优化上海话、粤语、四川话等15种高需求方言。
古诗词准确率：内部评测集字符级准确率达97%。
使用方式：API调用或在线体验。
无需预设：多语言混合场景下无需提前指定语种标签。

Fun-ASR1.5的核心优势

单模型多语言：一个模型无缝切换30种语言，减少多模型部署与维护成本。
方言识别领先：基于数十万小时方言数据，CER较上版下降56.2%，支持原汁原味方言文字还原。
自动Code-Switching：无需预设即可处理同一段对话中的多语言混合场景。
文化场景专项优化：针对古诗词诵读进行专项训练，字符准确率达97%，助力文化传承。
后处理智能化：自动标点与文本归一化大幅降低会议纪要、法律笔录等场景的后期人工编辑成本。

Fun-ASR1.5的同类竞品对比

维度	Fun-ASR1.5	Seed-ASR	Tencent-ASR
语言覆盖	30种语言，单模型覆盖	多语言支持	多语言支持
方言支持	七大方言体系，15种重点优化，CER降56.2%	基础支持	基础支持
Code-Switching	无需预设标签，自动识别切换	支持	支持
古诗词识别	专项优化，97%字符准确率	未明确	未明确
智能后处理	自动标点+文本归一化（数字/日期/金额/电话）	基础标点能力	基础标点能力
架构特点	MoE混合专家架构	未公开	未公开
开放体验	阿里云百炼API + 魔搭社区	火山引擎	腾讯云

Fun-ASR1.5的应用场景

跨国会议：在跨国会议场景中，Fun-ASR1.5可实时精准转写多语言混合对话内容，无需参会者提前预设语种或在多个翻译工具间来回切换。
智能音箱：在智能家居与车载语音交互场景中，Fun-ASR1.5能精准识别各类方言指令，让智能音箱真正”听得懂乡音”。
在线教育：在国学在线教育场景中，Fun-ASR1.5支持古诗词诵读的精准转写，以97%的字符级准确率助力传统文化数字化传承。
新闻采访：在新闻采访与内容生产场景中，Fun-ASR1.5可自动添加标点符号并将口语中的数字、日期归一化为规范格式，大幅减少后期人工整理时间。

延伸阅读

天禧AI Claw – 联想推出的 AI 智能体助理

天禧AI Claw是什么天禧AI Claw是联想基于OpenClaw架构推出的开箱即用型AI智能体助理，采用端云混合部署模式，支持PC、Phone、Pad多端无缝协同。工具无需本地环境配置即可7×24
Qwen3.6-Max-Preview – 阿里通义推出的下一代旗舰模型

Qwen3.6-Max-Preview是什么Qwen3.6-Max-Preview 是阿里通义千问团队推出的下一代旗舰大模型早期预览版。相比 Qwen3.6-Plus，模型在智能体编程、世界知识和指令
HyperFrames – HeyGen开源的AI原生视频渲染框架

HyperFrames是什么HyperFrames是HeyGen开源的AI原生视频渲染框架，采用”Write HTML, Render video”理念，专为AI Agent和开发者设计。框架将视频定

关注公众号：拾黑（shiheibook）了解更多

友情链接：

关注数据与安全，洞悉企业级服务市场：https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站：https://www.yaorank.com/

*文章为作者独立观点，不代表牛品汇立场

本文由 KELL发表，转载此文章须经作者同意，并请附上出处( 牛品汇 )及本页链接。

原文链接 https://www.niupinhui.com/net/it/20718.html

AI工具集 Fun-ASR1.5 阿里通义

图库

猜你喜欢

公众号

关注网络尖刀微信公众号
随时掌握互联网精彩

赞助链接