行业洞察 | 大模型+医疗，优质数据助力新生态建立

10/20/2023

在医疗领域，大模型的智慧生态正在逐步建立。尽管大模型在众多细分行业中产生了震荡，医疗行业的严肃性、复杂性、数据敏感性、优质数据稀缺性等特质，让生成式AI在医疗场景的产业落地仍充满重重挑战。

亿欧在《2023AI大模型医疗健康场景应用研究预热》中指出，目前在医疗行业，我国生成式AI还存在基础要素的不足。究其原因，缺乏高质量的医疗数据，将影响到医疗大模型在知识领域的能力。

疗科技企业与基础大模型团队、优质医疗数据提供商等产业链各环节积极合作，AI大模型医疗健康生态正在逐步建立。本期案例故事中的澳鹏客户，精准解决了医疗大模型行业落地的数据痛点，成为推进医疗大模型落地的创新先行者之一。

挑战

由于学科门槛和专业要求的限制，医疗大数据平台模型往往具有高要求的数据训练标准。对专业和理论化的内容进行整理、审核、分类、排序，获得大规模、高质量的数据集，需要一定数量具备专业医学知识背景的从医人员完成。

在国内，拥有专业医学管理团队和具规模的专业医学标注人员的公司非常少。零散的训练量始终达不到模型训练所需的数据要求，必须找到涵盖医学多学科的从业人员，标注每个数据点，并进行高质量的质检以确保标注量和准确性。因此，客户找到了澳鹏Appen团队，让我们为其提供一套可行的方案。

解决

澳鹏Appen医疗团队为客户提供专业知识、资源和创新型解决方案，包括专业的医学内容标注、审核、分类，并进行了必要的质量检查。

在工作中，我们梳理了客户的标注规则，进行了一定程度的细化和解释，使其更加通俗易懂。针对和专业理论有冲突的地方，澳鹏Appen医疗团队也做出了适配性的纠正。

澳鹏Appen医疗团队充分利用自身的专业知识和及时的权威资料学习更新，帮助客户把专业、生涩的医学内容做出了有效的整理，为客户的医疗大模型部署提供了高效、大规模的数据训练养料，帮助客户以及时、高质量的医疗训练数据快速进行行业落地，覆盖更多医疗场景。

成果

在医疗领域，澳鹏Appen团队3年多的医学项目实战积累，让我们拥有一个800+人的专业医学众包资源池，同时具备每周30-50人的医学资源招募能力。澳鹏Appen医疗项目管理团队通过有效的筛选、培训、准入、质控，不断筛选和优化出近200人的医疗专业标注员，既具备医疗各学科专业能力，又能保证交付质量和效率。

目前，在客户的大数据训练平台上，涉及的绝大多数医学专业数据（涵盖临床医学、中医学、护理学等），均由澳鹏Appen团队为其提供专业数据标注/质检支持。在短短2个月时间内，客户的医学数据训练量及准确率已大幅提升并达到预期水平。

在医疗领域，澳鹏Appen团队具有100+个医学文本类的内容编辑、审核，及医学图像类的影像学、病理学、消化内镜学、心电图学等专业医学标注项目实战经验。同时，团队具有专业医学文本及图像内容的多类型总计500W+例数据标注经验。

澳鹏Appen医疗团队拥有800+人的专业医学众包资源池及15+人的专业医学管理团队。在医学资源的筛选、准入、培训、质控等方面具备成熟的管理经验和水平。

澳鹏医疗大模型研发创佳绩

澳鹏Appen智能大模型开发平台在医疗、法律等垂直行业领域的模型研发正不断取得突破。在医疗领域，依托澳鹏智能LLM开发平台，澳鹏基于开源通用大语言模型，利用指令精调/指令微调（P-Tuning v2）技术，训练开发澳鹏版本的中文医疗大模型。

澳鹏医疗大模型在保留基座模型通用知识能力的基础上，在医疗垂直领域进行优化加强，覆盖医疗咨询、医学问答、导诊、预问诊、检查建议、用药建议等常见实用的医疗场景。微调过程中，将基座模型的全部模型参数冻结，将训练参数量减少到原来的0.1%，推理部署过程中，利用模型量化、Gradient Checkpoint等技术方法，最低只需要7GB的显存。

在2023浦东新区人工智能创新应用大赛上，澳鹏智慧医疗智能标注平台广受好评，获医疗人工智能赛道新锐先锋奖。

澳鹏Appen Limited (ASX：APX) 是全球图像、文本、语音、音频、视频等AI训练数据服务提供商，拥有业内先进的人工智能辅助数据标注平台、一体化的AI数据及资源管理平台及全球100多万名技能娴熟的众包资源，支持235+种语言和方言。澳鹏Appen的解决方案可为全球科技、汽车、金融服务、零售、制造和政府等行业的创新者提供优质、安全、高效的服务。

澳鹏拥有专业项目经理，千人医疗团队，支持您的医学大模型、辅助诊断系统、健康监测及专业数据库的数据采标需求，支持更加智能高效的智慧医疗AI系统。

了解服务