澳鹏携手 Hugging Face 推出私有基准评测赛道

05/07/2026

我们与 Hugging Face 达成合作,为开源语音识别(ASR)排行榜新增私有评测赛道。该赛道采用高质量语音识别专用数据集,不对模型开发方开放使用,为行业提供更贴合真实落地场景的模型性能参考依据。

古德哈特定律:当一项指标成为追逐目标时,它便不再是有效的衡量标准。

随着语音识别模型性能不断迭代,排行榜刷分手段也层出不穷:在公开测试集上训练、刻意制作贴合已知评测数据分布的训练素材、片面追求宏观平均指标而忽视泛化能力。开源语音识别排行榜自 2023 年 9 月上线以来,访问量已超 71 万次,超高曝光度也让其公开测试集沦为各方刻意优化的目标。

澳鹏携手 Hugging Face 推出私有基准评测赛道:相关数据集不对外公开,仅由 Hugging Face 独立完成评测,专门用于考核模型在多元口音、多样口语风格下的真实能力。完整技术说明详见 Hugging Face 博文:Adding Benchmaxxer Repellant to the Open ASR Leaderboard

数据集概况

澳鹏共贡献7 组英文语音识别评测数据集,涵盖标准朗读语音与自然对话语音,包含四大地区口音。所有数据子集均刻意做到男女声比例接近 1:1,原因在于过往基准评测中,口音与性别带来的性能差异常被掩盖,无法体现模型真实水平。

数据集名称所属口音时长(小时)男女声占比语音类型转写规范
澳鹏英语朗读数据集-澳洲澳大利亚1.4249/51朗读带标点,区分大小写
澳鹏英语朗读数据集-加拿大加拿大1.5352/48朗读带标点,区分大小写
澳鹏英语朗读数据集-印度印度1.0249/51朗读带标点,区分大小写
澳鹏英语朗读数据集-美国美国1.4549/51朗读带标点,区分大小写
澳鹏英语对话数据集-印度印度1.3751/49即兴对话带标点,保留口语语气词
澳鹏英语对话数据集-美国003美国1.6449/51即兴对话带标点,区分大小写,保留口语语气词
澳鹏英语对话数据集-美国004美国1.6549/51即兴对话带标点,保留口语语气词

所有模型输出结果与参考转写文本,均采用基于 Whisper 的标准化工具统一处理:去除标点、统一小写、规范为美式拼写,该标准化规则与公开数据集保持一致。

私有赛道运行机制

私有数据集收纳在排行榜专属的「🔒 私有数据」标签页中。平台仅展示汇总得分,不公开单个数据子集的分项分数,避免开发方针对特定数据提供方、特定口音定向优化模型。榜单共公布五项汇总指标:

matrix.pnghuggingface1.png

图:私有数据标签页展示各项指标定义及头部模型排名(通义千问 / Qwen3-ASR-1.7B:8.46、assemblyai/universal-3-pro:8.81、zoom/scribe_v1:9.12)

默认状态下,私有数据集不计入主排行榜宏观平均分。主排行榜新增两个可开关列项:私有数据(朗读类)、私有数据(对话类)。

huggingface2.png

关闭私有数据列项时,主排行榜仅展示公开数据集排名;开启后,私有数据将纳入宏观平均分计算,同时新增排名变化列,直观展示相较于仅参考公开数据集时的模型位次变动。

开启双私有数据列项后,zoom/scribe_v1 排名上升 3 位跃居榜首,平均词错误率降至 6.24,排名变化列完整可见。

huggingface3.png

榜单排名背后的行业洞察

仅参考公开数据集榜单时,ibm-granite/granite-speech-4.1-2b 以平均词错误率 5.33 位居第一。

huggingface4.png

公开榜单默认前五名:ibm-granite/granite-speech-4.1-2b(5.33)、CohereLabs/cohere-transcribe-03-2026(5.42)、ibm-granite/granite-4.0-1b-speech(5.52)、nvidia/canary-qwen-2.5b(5.63)、ibm-granite/granite-speech-3.3-8b(5.74)

纳入澳鹏覆盖澳洲、加拿大、印度、美式口音的朗读及对话类私有数据集后,zoom/scribe_v1 从第 4 名升至第 1 名,平均词错误率 6.24,排名上升 3 位。原本在公开基准中表现最优的模型位次下滑一位。这类排名变动并非偶然,正是私有赛道的核心价值所在:识别出公开榜单虚高、实际泛化能力不足的模型。

朗读语音与对话语音的性能差值,是极具参考价值的判断依据。专为纯净朗读语音优化的模型,在偏向标准场景的公开数据集上表现优异,但在真实即兴对话音频中,词错误率会大幅攀升。平台拆分展示朗读语音均值与对话语音均值,可直观暴露不同模型在两类场景下的性能差距。

私有数据集为何能守护基准评测公平性

公开测试集可被直接用于模型训练。数据集一旦开源,开发方可直接基于其训练,或制作同分布训练数据刻意刷高榜单分数。完全依托公开数据集的排行榜,最终比拼的不再是模型真实能力,而是榜单定向优化技巧。

引入多家数据提供方可平衡行业优势:基于澳鹏数据训练的模型,在其他厂商的评测数据集上无法获得优势,反之同理。同时为避免单一厂商数据左右整体排名,私有数据集默认不纳入综合平均分,由用户自主选择是否启用参考。

数据集制作规范

录制人员招募严格匹配三大维度:口音、录制环境、设备型号。所有录制者需通过口语能力与口音资质考核,同时核验录制设备及声学环境是否符合项目要求。

朗读语音与对话语音遵循独立制作规范:标准朗读文稿严格把控音素、命名实体、数字及专业领域词汇分布;对话语音通过专属引导话术,自然触发口语语气词、语句交替、非正式口语表达,而非刻意净化后的标准化话术。

所有录音文件需经过两道质检流程才进入转写环节:系统自动检测(采样率、编码格式、信噪比)+ 人工复核,不合格文件需重新录制。

转写环节结合智能质量评分与人工后期校对,质量不达标片段由专业编辑修正。所有转写文稿最终由资深审核人员依据规范手册终审,多人对话音频还需校验说话人归属及语句边界划分。

语音人工智能领域的模型性能已实现长足进步,但配套的基准评测体系却未能同步升级。只有评测数据贴合语音技术真实落地场景,排行榜才能还原模型的真实实力。——塞尔吉奥・布鲁科莱里澳鹏交付副总裁
可靠的人工智能评测始于高质量数据,我们非常荣幸与澳鹏合作,在开源语音识别排行榜正式推出全新私有评测赛道。——埃里克・贝扎姆Hugging Face