大模型成品数据集：百科、法律、医疗等多领域数据

12/01/2023

如今，大模型领域正不断取得创新型突破，这在很大程度上要归功于训练它们的大量、高质量的数据。也正因行业已经对数据的重要性达成共识，市场对于大模型数据集量级、广度、质量及垂类细分的需求呈现指数级增长。

在企业争分夺秒部署大模型之际，选择成品数据集是在时间和预算紧张时的最优解之一。

澳鹏提供丰富的数据产品，包括以下的6个LLM数据集，致力于以低成本、高效益助您快速部署大模型。

百科类人工泛化文本问答数据集

量级：100,000 对

应用领域：将原数据进行人工多种类泛化的问答数据集，可应用于构建知识图谱、自然语言处理、信息检索、数据挖掘、机器学习等。支持运行许多 AI 试点项目，并用其他数据补充生产模型，从而提高整体性能和成本效益。

量级：200,000+对多轮（轮次在4轮以上）对话数据，覆盖日常交流、体育、医疗和科技领域。

应用领域：将原数据进行人工多种类泛化的双人对话数据集，可应用于大语言模型训练，提升模型闲聊能力及产品用户体验，进而助力产品整体竞争力的提升。

量级：26,000对法律问答文本，可细分为法律咨询、法律审查和法律顾问几个类别。

应用领域：数据集爬取准确的法律知识问答，可应用于相关大语言模型训练，以提供全流程智能辅助办案应用，构建智能审查、量刑预测、文书生成、自动编目、笔录生成等业务能力。

该数据集还可应用于司法大数据深度挖掘应用，快速在海量的法律文本中搜索获取相关案例、法规和法律文献等信息，探索司法规律和趋势，为司法改革和法律制定提供数据支持。

此外，数据集可并入会话代理或专家系统中，用于特定领域的指导，例如虚拟导师或法律聊天机器人，法律提示语研发，法律变革评估等。

量级：包含50,000对知识类文本数据，覆盖数学、物理、化学等领域。

应用领域：可用于训练提问技能，辅助教育应用开发。还可帮助提升教学技能，如技术写作以及对较短作业的质量评估方面和课程设计方面起到降低教学工作量的作用。

量级：包含228,000对医疗问答文本。

应用领域：医疗类的中文文本数据库，以客服聊天对话的形式呈现。应用于智能诊断、疾病预测、个性化医疗建议等，为医疗领域提供更精准和智能的解决方案。

该数据集可应用于非结构化数据的分析、挖掘、大量实时监测数据的分析等，为医疗卫生管理系统、综合信息平台等方面的建设提供技术支持；

此外，该数据集还可以向医生提供临床辅助决策和科研支持；向管理者提供管理辅助决策、行业监管、绩效考核支持；向居民提供健康监测支持；向药品研发提供统计学分析、就诊行为分析支持等。

该数据集可提升模型在健康领域的知识，例如智能家庭医生等领域的开发，提供个性化的医疗建议。可为各研发机构、医疗机构在医疗问诊领域的研究提供支持。

量级：5,850,000,000对图文描述数据集，包含58.5亿个CLIP过滤的图像-文本对数据集，多模态文本图像数据集，共80T数据；并提供色情图片过滤、水印图片过滤、高分辨率图片、美学图片等子集和模型，供不同方向研究。

58.5亿个图文对包括23.2亿英语、22.6亿的100+种语言及12.7亿的未知语言。进一步扩展了语言视觉模型的开放数据集规模，使更多研究者能够参与到多模态领域的研究中来。

应用领域：提供了大规模的图文数据，可用于大部分多模态及CV工作。其中，多模态方面包括大规模预训练、图文匹配、图像生成/修复/编辑和文本生成（图像生成文本、VQA）等下游任务；CV方面包含分类等，提供了使用数据集训练的模型作为参考。包括但不限于任务：多模态预训练、图文匹配、图文检索等。

澳鹏提供600+个成品数据集，包括11,000+小时音频、25,000+幅图像和超过870万字/词，涵盖80+种语言和方言。我们也在不断构建新的数据集，以满足全球企业用户的部署需求。

▲专家团队，大规模、高质量的数据供给

▲快速部署，低成本高效益

▲支持所有数据类型

澳鹏提供600+成品数据集，包括ASR、文本、发音词典、图像及视频，为您的快速部署提供高质量数据。