成品数据集

澳鹏经授权许可的成品数据集助您快速启动AI项目

澳鹏成品数据集

无论企业规模如何,在时间和预算紧张时,成品数据集都是帮助您构建高质量 AI/ML 模型训练数据的绝佳选择。成品数据集可以运行许多 AI 试点项目,并通过其他数据补充生产模型,从而提高整体性能和成本效益。澳鹏提供700+个成品数据集,其中包括五万余小时ASR语音数据,一百六十万余张图片,81亿token、千万词条的大语言模型相关的文本数据集。

数据集应用场景

数据集列表

您可以搜索、筛选寻找您需要的数据集,并获得样例。

如有意购买,请点击获取数据集,我们的专家会与您联系。

筛选
产品类型
ASR
TTS
发音词典
图像
文本
视频
语言/地区
亚洲
北美洲
南美洲
大洋洲
普通话/方言
欧洲
非洲
常见应用场景
ASR
对话式AI
聊天机器人
语音分析
呼叫中心
虚拟助手
车载HMI及娱乐设备
智能家居
自动字幕
LLM
医疗健康
语义分析
多模态
教育教辅
TTS
客服
动作识别
翻译
行为识别
婴儿监控器
智能驾舱
文件处理
面部识别
数据训练
图片标签识别训练
智能安防
智能驾驶
图片识别
健身应用
语言建模
指令运用
语音识别
清除所有
1000小时 泰语电话信道
获取数据集
数据集编号
THA_ASR003_CN
产品类型
ASR
语言
泰语
国家
泰国
常见应用场景
ASR, 虚拟助手, 语音分析
查看更多
数据集名称 :
1000小时 泰语电话信道
数据集编号 :
THA_ASR003_CN
内容简述 :
泰语电话信道,话题领域主要分为:电子科技&数字时间&教育&政治&经济&体育&购物。
产品类型 :
ASR
语言 :
泰语
国家 :
泰国
采集设备 :
电话
采集环境 :
低背景噪音(家庭/办公室)
单元(数据量级) :
1000小时
是否含有转写/标注 :
常见使用案例 :
ASR, 虚拟助手, 语音分析
样例下载
1000小时 英语(美国)对话式的智能手机录音语料库
获取数据集
数据集编号
USE_ASR003
产品类型
ASR
语言
英语
国家
美国
常见应用场景
虚拟助手, 语音分析, ASR
查看更多
数据集名称 :
1000小时 英语(美国)对话式的智能手机录音语料库
数据集编号 :
USE_ASR003
内容简述 :
该数据库包含在928个会话期间记录的语音数据。928对独特的扬声器中的每一对都被记录了平均约60分钟的对话。每对演讲者最多录制14段关于不同主题的对话。为演讲者提供了每次谈话的主题。
产品类型 :
ASR
语言 :
英语
国家 :
美国
采集设备 :
移动电话
采集环境 :
低背景噪音(家庭/办公室)
单元(数据量级) :
1000小时
是否含有转写/标注 :
常见使用案例 :
虚拟助手, 语音分析, ASR
样例下载
300小时 印尼语对话数据库
获取数据集
数据集编号
IND_DH_ASR001_CN
产品类型
ASR
语言
印尼语
国家
印尼
常见应用场景
虚拟助手, 语音分析, ASR
查看更多
数据集名称 :
300小时 印尼语对话数据库
数据集编号 :
IND_DH_ASR001_CN
内容简述 :
印尼语对话,话题分布:⾦融消费、通⽤⽣活⼝语、社会热点、旅游购物、体育娱乐、数字时间类、⼈名地名、教育学习、医疗新冠、科技数码游戏。样例文件中提供了2组对话和对应的文本转写数据。
产品类型 :
ASR
语言 :
印尼语
国家 :
印尼
采集设备 :
移动电话
采集环境 :
低背景噪音(家庭/办公室)
单元(数据量级) :
300小时
是否含有转写/标注 :
常见使用案例 :
虚拟助手, 语音分析, ASR
样例下载
阿拉伯图片数据库
获取数据集
数据集编号
IMG_OCR_ARU002_CN
产品类型
图像
语言
阿拉伯语
国家
阿拉伯
常见应用场景
图片标签识别训练
查看更多
数据集名称 :
阿拉伯图片数据库
数据集编号 :
IMG_OCR_ARU002_CN
内容简述 :
主要包含以下类型的图片:广告板,商务备忘录,列表,地图,包装,标语,店铺牌,海报
产品类型 :
图像
语言 :
阿拉伯语
国家 :
阿拉伯
采集设备 :
手机/平板
采集环境 :
多种光线
单元(数据量级) :
15054张
是否含有转写/标注 :
常见使用案例 :
图片标签识别训练
样例下载
开源数据爬取(parquet文件)
获取数据集
数据集编号
IMG_PARQUET_CN
产品类型
图像
语言
国家
常见应用场景
多模态, LLM
查看更多
数据集名称 :
开源数据爬取(parquet文件)
数据集编号 :
IMG_PARQUET_CN
内容简述 :
开源数据爬取(parquet文件是图片压缩得到的格式,可直接用来数据训练,也可转成其他需要的格式使用。)
产品类型 :
图像
语言 :
国家 :
采集设备 :
采集环境 :
单元(数据量级) :
56TB|50亿图文数据对
是否含有转写/标注 :
常见使用案例 :
多模态, LLM
样例下载
泰语-不同年龄段 多种情绪TTS
获取数据集
数据集编号
THA_TTS001_CN
产品类型
TTS
语言
泰语
国家
泰国
常见应用场景
TTS
查看更多
数据集名称 :
泰语-不同年龄段 多种情绪TTS
数据集编号 :
THA_TTS001_CN
内容简述 :
THA_TTS001_CN 泰语TTS数据库共有6个泰国人参与录制,每人录制3小时,总时长18小时。包含以下几个类别的情绪语音数据:  中性(普通对话,无情绪)  基本情绪(普通的喜怒哀乐等情绪)  激烈情绪(激烈情绪是大声地吼着说话、笑着说、哭着说等)  无力情绪(虚弱情绪是有气无力 、缓慢、虚弱等说话)
产品类型 :
TTS
语言 :
泰语
国家 :
泰国
采集设备 :
专业TTS录音设备
采集环境 :
专业TTS录音棚
单元(数据量级) :
18小时
是否含有转写/标注 :
常见使用案例 :
TTS
样例下载
中文女声(客服类)
获取数据集
数据集编号
CHN_TTS001_CN
产品类型
TTS
语言
中文
国家
中国
常见应用场景
客服, TTS, 呼叫中心
查看更多
数据集名称 :
中文女声(客服类)
数据集编号 :
CHN_TTS001_CN
内容简述 :
亲和力高,语流自然,符合客服对话特点,音色甜度适中,受众群体男女老少皆可
产品类型 :
TTS
语言 :
中文
国家 :
中国
采集设备 :
专业TTS录音设备
采集环境 :
专业TTS录音棚
单元(数据量级) :
6.64 小时
是否含有转写/标注 :
常见使用案例 :
客服, TTS, 呼叫中心
样例下载
人物行走动态视频
获取数据集
数据集编号
VED_RWSP_CN
产品类型
视频
语言
国家
中国
常见应用场景
行为识别, 多模态
查看更多
数据集名称 :
人物行走动态视频
数据集编号 :
VED_RWSP_CN
内容简述 :
每个ID在不同环境场景中拍摄两段视频(每段时长约20秒左右,人物距摄像机6米,最大7.5米,MIX值4.5米,人物活动两圈,确保包括正面、背面、左30度、右30度)
产品类型 :
视频
语言 :
国家 :
中国
采集设备 :
大华摄像头
采集环境 :
室外
单元(数据量级) :
280 ID
是否含有转写/标注 :
常见使用案例 :
行为识别, 多模态
四川方言唤醒词朗读
获取数据集
数据集编号
SCFY_ASR001_CN
产品类型
ASR
语言
中文方言
国家
中国
常见应用场景
虚拟助手, 语音分析, ASR
查看更多
数据集名称 :
四川方言唤醒词朗读
数据集编号 :
SCFY_ASR001_CN
内容简述 :
录音人按指定文本朗读,话题领域为智能家居领域
产品类型 :
ASR
语言 :
中文方言
国家 :
中国
采集设备 :
移动电话
采集环境 :
低背景噪音(家庭/办公室)
单元(数据量级) :
209小时
是否含有转写/标注 :
常见使用案例 :
虚拟助手, 语音分析, ASR
样例下载
数学题库
获取数据集
数据集编号
SXT001_CN
产品类型
文本
语言
中文
国家
中国
常见应用场景
教育教辅, LLM
查看更多
数据集名称 :
数学题库
数据集编号 :
SXT001_CN
内容简述 :
学科题库对于大语言模型的训练具有重要意义。初高中阶段是同学们学习新知识的重要时 期。这个时期的解题能力,直接决定了学生能否在考试中取得优异成绩。Appen 学科题目数 据题库涵盖了 语文、数学、英语、政治、地理、历史、生物、物理共 8 个学科的试题。通过 对题库进行严格的挑题、录入、排查、筛重、解答、复核、校稿等加工环节,最终形成了可交 付状态的学科数据库。
产品类型 :
文本
语言 :
中文
国家 :
中国
采集设备 :
采集环境 :
单元(数据量级) :
39970题
是否含有转写/标注 :
常见使用案例 :
教育教辅, LLM
样例下载
1 / 44

澳鹏的数据集优势

澳鹏提供种类丰富的成品数据库,我们的数据产品目录包括700多个可授权的数据集。其中语音数据库涵盖80多种语言及方言,适用于各种常见的AI应用场景,例如: TTS,ASR等(参考下面目录表的筛选功能查询更多应用场景)。我们还提供数据管理等更多服务。

快速部署

直接获取数据库产品快速为您部署AI与机器学习项目

低成本高效益

直接获取经授权的成品数据库比您定制数据采集服务更具成本效益。

专家团队

您将拥有一支在数据采集领域耕耘近三十年的专家团队支持

支持所有数据类型

图像,视频,语音,音频,文本

大规模

提供大量、高品质的数据高效地训练您的机器模型

高质量

提高您的机器模型质量并减少数据偏见

数据采集标注定制

澳鹏同时提供数据定制采标服务,如您未找到适合您的AI的成品数据集,可联系我们为您进行定制。我们涵盖全数据类型、全球范围的服务能力可以为您快速高效大规模地创建数据集。

定制数据

高效部署模型

700+数据集支持您快速高效部署AI模型

获取数据集
@ 2024 APPEN LIMITED
隐私政策
澳鹏数据科技(上海)有限公司 | 沪ICP备2022020112号-1
请您留言