澳鹏经授权许可的成品数据集助您快速启动AI项目
无论企业规模如何,在时间和预算紧张时,成品数据集都是帮助您构建高质量 AI/ML 模型训练数据的绝佳选择。成品数据集可以运行许多 AI 试点项目,并通过其他数据补充生产模型,从而提高整体性能和成本效益。澳鹏提供700+个成品数据集,其中包括五万余小时ASR语音数据,一百六十万余张图片,81亿token、千万词条的大语言模型相关的文本数据集。
语音识别数据集
覆盖64种语言,总时长五万余小时
电话信道,手机,高保真麦克风等多种录音设备
对话类的语音数据库107个,量级10000+小时
朗读类的语音数据库48个,量级5500+小时
自由说数据库20个,量级20000+小时
特种数据库:0-3岁婴幼儿啼哭音频70小时;猫狗叫声数据库70小时;多领域儿童高保真唤醒词
文本数据集
81亿token | 千万词条的LLM数据集
三十余万道含标注的的多学科题目集
发音词典覆盖98种语言,共523万词条
词性词典覆盖22种语言,共326万词条
命名实体库(NER)覆盖8种语言,超100万词条
图像数据集
总计一百六十万余张图片
十余种不同语言的通用场景OCR图片数据集
精标日语发票,992张
特种数据库:电梯间电动车精标数据、多居室户型图集、汽车尾灯图片集、发丝分割数据集
视频数据集
东南亚各国人物朗读视频
海量开源视频爬取数据集
语音合成数据集
多种语言,400名声优,20+国家资深声优资源库
覆盖多种不同情绪的音色及应用场景
自驾数据集
丰富的舱内外视频数据及语音数据
驾驶人危险行为识别数据库助力驾驶舱内检测驾驶位、驾驶员危险动作以及疲劳识别
乘客安全监测数据库,助力识别被遗留的小孩、宠物、危害物品等
车载语音数据库助力驾驶人实现语音导航、多元化智能驾驶体验
驾驶舱外数据库助力道路车道线、障碍物、停车位识别
线上NLP多轮对话的数据集助力实现生成类AI聊天程序,实现线上客服智能化
TTS语音数据库对文本文件进行实时转换,把文本智能地转化为自然语音流,文本输出的语音音律流畅,使得听者在听取信息时感觉自然
我们的金融 OCR 数据集可针对金融、保险的合同审核自动化,助力实现高效、精准的文本转写识别自动化
语音识别数据库,支持智能家居AI的智能交互
障碍物图像数据库,助力例如扫地机器人的智能识别和障碍物跨越
人脸识别,语音识别等数据集可以助您部署智能终端
人脸识别,危险动作追踪等数据集可助您搭建智能安防人工智能
您可以搜索、筛选寻找您需要的数据集,并获得样例。
如有意购买,请点击获取数据集,我们的专家会与您联系。
澳鹏提供种类丰富的成品数据库,我们的数据产品目录包括700多个可授权的数据集。其中语音数据库涵盖80多种语言及方言,适用于各种常见的AI应用场景,例如: TTS,ASR等(参考下面目录表的筛选功能查询更多应用场景)。我们还提供数据管理等更多服务。
快速部署
直接获取数据库产品快速为您部署AI与机器学习项目
低成本高效益
直接获取经授权的成品数据库比您定制数据采集服务更具成本效益。
专家团队
您将拥有一支在数据采集领域耕耘近三十年的专家团队支持
支持所有数据类型
图像,视频,语音,音频,文本
大规模
提供大量、高品质的数据高效地训练您的机器模型
高质量
提高您的机器模型质量并减少数据偏见
澳鹏同时提供数据定制采标服务,如您未找到适合您的AI的成品数据集,可联系我们为您进行定制。我们涵盖全数据类型、全球范围的服务能力可以为您快速高效大规模地创建数据集。
大中华区及北亚总部
澳鹏数据科技(上海)有限公司
金科路2889弄6号长泰广场E座701
上海市浦东新区
电话:400-021-9488
大中华区及北亚总部
澳鹏数据科技(上海)有限公司
金科路2889弄6号长泰广场E座701
上海市浦东新区
电话:400-021-9488