澳鹏携手 Hugging Face 推出私有基准评测赛道

05/07/2026

我们与 Hugging Face 达成合作，为开源语音识别（ASR）排行榜新增私有评测赛道。该赛道采用高质量语音识别专用数据集，不对模型开发方开放使用，为行业提供更贴合真实落地场景的模型性能参考依据。

古德哈特定律：当一项指标成为追逐目标时，它便不再是有效的衡量标准。

随着语音识别模型性能不断迭代，排行榜刷分手段也层出不穷：在公开测试集上训练、刻意制作贴合已知评测数据分布的训练素材、片面追求宏观平均指标而忽视泛化能力。开源语音识别排行榜自 2023 年 9 月上线以来，访问量已超 71 万次，超高曝光度也让其公开测试集沦为各方刻意优化的目标。

澳鹏携手 Hugging Face 推出私有基准评测赛道：相关数据集不对外公开，仅由 Hugging Face 独立完成评测，专门用于考核模型在多元口音、多样口语风格下的真实能力。完整技术说明详见 Hugging Face 博文：Adding Benchmaxxer Repellant to the Open ASR Leaderboard

数据集概况

澳鹏共贡献7 组英文语音识别评测数据集，涵盖标准朗读语音与自然对话语音，包含四大地区口音。所有数据子集均刻意做到男女声比例接近 1:1，原因在于过往基准评测中，口音与性别带来的性能差异常被掩盖，无法体现模型真实水平。

数据集名称	所属口音	时长（小时）	男女声占比	语音类型	转写规范

澳鹏英语朗读数据集-澳洲	澳大利亚	1.42	49/51	朗读	带标点，区分大小写
澳鹏英语朗读数据集-加拿大	加拿大	1.53	52/48	朗读	带标点，区分大小写
澳鹏英语朗读数据集-印度	印度	1.02	49/51	朗读	带标点，区分大小写
澳鹏英语朗读数据集-美国	美国	1.45	49/51	朗读	带标点，区分大小写
澳鹏英语对话数据集-印度	印度	1.37	51/49	即兴对话	带标点，保留口语语气词
澳鹏英语对话数据集-美国003	美国	1.64	49/51	即兴对话	带标点，区分大小写，保留口语语气词
澳鹏英语对话数据集-美国004	美国	1.65	49/51	即兴对话	带标点，保留口语语气词

所有模型输出结果与参考转写文本，均采用基于 Whisper 的标准化工具统一处理：去除标点、统一小写、规范为美式拼写，该标准化规则与公开数据集保持一致。

私有赛道运行机制

私有数据集收纳在排行榜专属的「🔒 私有数据」标签页中。平台仅展示汇总得分，不公开单个数据子集的分项分数，避免开发方针对特定数据提供方、特定口音定向优化模型。榜单共公布五项汇总指标：

图：私有数据标签页展示各项指标定义及头部模型排名（通义千问 / Qwen3-ASR-1.7B：8.46、assemblyai/universal-3-pro：8.81、zoom/scribe_v1：9.12）

默认状态下，私有数据集不计入主排行榜宏观平均分。主排行榜新增两个可开关列项：私有数据（朗读类）、私有数据（对话类）。

关闭私有数据列项时，主排行榜仅展示公开数据集排名；开启后，私有数据将纳入宏观平均分计算，同时新增排名变化列，直观展示相较于仅参考公开数据集时的模型位次变动。

开启双私有数据列项后，zoom/scribe_v1 排名上升 3 位跃居榜首，平均词错误率降至 6.24，排名变化列完整可见。

榜单排名背后的行业洞察

仅参考公开数据集榜单时，ibm-granite/granite-speech-4.1-2b 以平均词错误率 5.33 位居第一。

公开榜单默认前五名：ibm-granite/granite-speech-4.1-2b（5.33）、CohereLabs/cohere-transcribe-03-2026（5.42）、ibm-granite/granite-4.0-1b-speech（5.52）、nvidia/canary-qwen-2.5b（5.63）、ibm-granite/granite-speech-3.3-8b（5.74）

纳入澳鹏覆盖澳洲、加拿大、印度、美式口音的朗读及对话类私有数据集后，zoom/scribe_v1 从第 4 名升至第 1 名，平均词错误率 6.24，排名上升 3 位。原本在公开基准中表现最优的模型位次下滑一位。这类排名变动并非偶然，正是私有赛道的核心价值所在：识别出公开榜单虚高、实际泛化能力不足的模型。

朗读语音与对话语音的性能差值，是极具参考价值的判断依据。专为纯净朗读语音优化的模型，在偏向标准场景的公开数据集上表现优异，但在真实即兴对话音频中，词错误率会大幅攀升。平台拆分展示朗读语音均值与对话语音均值，可直观暴露不同模型在两类场景下的性能差距。

私有数据集为何能守护基准评测公平性

公开测试集可被直接用于模型训练。数据集一旦开源，开发方可直接基于其训练，或制作同分布训练数据刻意刷高榜单分数。完全依托公开数据集的排行榜，最终比拼的不再是模型真实能力，而是榜单定向优化技巧。

引入多家数据提供方可平衡行业优势：基于澳鹏数据训练的模型，在其他厂商的评测数据集上无法获得优势，反之同理。同时为避免单一厂商数据左右整体排名，私有数据集默认不纳入综合平均分，由用户自主选择是否启用参考。

数据集制作规范

录制人员招募严格匹配三大维度：口音、录制环境、设备型号。所有录制者需通过口语能力与口音资质考核，同时核验录制设备及声学环境是否符合项目要求。

朗读语音与对话语音遵循独立制作规范：标准朗读文稿严格把控音素、命名实体、数字及专业领域词汇分布；对话语音通过专属引导话术，自然触发口语语气词、语句交替、非正式口语表达，而非刻意净化后的标准化话术。

所有录音文件需经过两道质检流程才进入转写环节：系统自动检测（采样率、编码格式、信噪比）+ 人工复核，不合格文件需重新录制。

转写环节结合智能质量评分与人工后期校对，质量不达标片段由专业编辑修正。所有转写文稿最终由资深审核人员依据规范手册终审，多人对话音频还需校验说话人归属及语句边界划分。

语音人工智能领域的模型性能已实现长足进步，但配套的基准评测体系却未能同步升级。只有评测数据贴合语音技术真实落地场景，排行榜才能还原模型的真实实力。——塞尔吉奥・布鲁科莱里澳鹏交付副总裁

可靠的人工智能评测始于高质量数据，我们非常荣幸与澳鹏合作，在开源语音识别排行榜正式推出全新私有评测赛道。——埃里克・贝扎姆Hugging Face