行业洞察 | 大模型+医疗,优质数据助力新生态建立

10/20/2023

在医疗领域,大模型的智慧生态正在逐步建立。尽管大模型在众多细分行业中产生了震荡,医疗行业的严肃性、复杂性、数据敏感性、优质数据稀缺性等特质,让生成式AI在医疗场景的产业落地仍充满重重挑战。

亿欧在《2023AI大模型医疗健康场景应用研究预热》中指出,目前在医疗行业,我国生成式AI还存在基础要素的不足。究其原因,缺乏高质量的医疗数据,将影响到医疗大模型在知识领域的能力。


疗科技企业与基础大模型团队、优质医疗数据提供商等产业链各环节积极合作,AI大模型医疗健康生态正在逐步建立。本期案例故事中的澳鹏客户,精准解决了医疗大模型行业落地的数据痛点,成为推进医疗大模型落地的创新先行者之一。


挑战

由于学科门槛和专业要求的限制,医疗大数据平台模型往往具有高要求的数据训练标准。对专业和理论化的内容进行整理、审核、分类、排序,获得大规模、高质量的数据集,需要一定数量具备专业医学知识背景的从医人员完成。

在国内,拥有专业医学管理团队和具规模的专业医学标注人员的公司非常少。零散的训练量始终达不到模型训练所需的数据要求,必须找到涵盖医学多学科的从业人员,标注每个数据点,并进行高质量的质检以确保标注量和准确性。因此,客户找到了澳鹏Appen团队,让我们为其提供一套可行的方案。


解决

澳鹏Appen医疗团队为客户提供专业知识、资源和创新型解决方案,包括专业的医学内容标注、审核、分类,并进行了必要的质量检查。

在工作中,我们梳理了客户的标注规则,进行了一定程度的细化和解释,使其更加通俗易懂。针对和专业理论有冲突的地方,澳鹏Appen医疗团队也做出了适配性的纠正

2222640-1.jpg

澳鹏Appen医疗团队充分利用自身的专业知识和及时的权威资料学习更新,帮助客户把专业、生涩的医学内容做出了有效的整理,为客户的医疗大模型部署提供了高效、大规模的数据训练养料,帮助客户以及时、高质量的医疗训练数据快速进行行业落地,覆盖更多医疗场景。


成果

在医疗领域,澳鹏Appen团队3年多的医学项目实战积累,让我们拥有一个800+人的专业医学众包资源池,同时具备每周30-50人的医学资源招募能力。澳鹏Appen医疗项目管理团队通过有效的筛选、培训、准入、质控,不断筛选和优化出近200人的医疗专业标注员,既具备医疗各学科专业能力,又能保证交付质量和效率。

22222640 (1).gif

目前,在客户的大数据训练平台上,涉及的绝大多数医学专业数据(涵盖临床医学、中医学、护理学等),均由澳鹏Appen团队为其提供专业数据标注/质检支持。在短短2个月时间内,客户的医学数据训练量及准确率已大幅提升并达到预期水平。

在医疗领域,澳鹏Appen团队具有100+个医学文本类的内容编辑、审核,及医学图像类的影像学、病理学、消化内镜学、心电图学等专业医学标注项目实战经验。同时,团队具有专业医学文本及图像内容的多类型总计500W+例数据标注经验。

澳鹏Appen医疗团队拥有800+人的专业医学众包资源池及15+人的专业医学管理团队。在医学资源的筛选、准入、培训、质控等方面具备成熟的管理经验和水平。


澳鹏医疗大模型研发创佳绩

澳鹏Appen智能大模型开发平台在医疗、法律等垂直行业领域的模型研发正不断取得突破。在医疗领域,依托澳鹏智能LLM开发平台,澳鹏基于开源通用大语言模型,利用指令精调/指令微调(P-Tuning v2)技术,训练开发澳鹏版本的中文医疗大模型。

澳鹏医疗大模型在保留基座模型通用知识能力的基础上,在医疗垂直领域进行优化加强,覆盖医疗咨询、医学问答、导诊、预问诊、检查建议、用药建议等常见实用的医疗场景。微调过程中,将基座模型的全部模型参数冻结,将训练参数量减少到原来的0.1%,推理部署过程中,利用模型量化、Gradient Checkpoint等技术方法,最低只需要7GB的显存。

在2023浦东新区人工智能创新应用大赛上,澳鹏智慧医疗智能标注平台广受好评,获医疗人工智能赛道新锐先锋奖。

澳鹏Appen Limited (ASX:APX) 是全球图像、文本、语音、音频、视频等AI训练数据服务提供商,拥有业内先进的人工智能辅助数据标注平台、一体化的AI数据及资源管理平台及全球100多万名技能娴熟的众包资源,支持235+种语言和方言。澳鹏Appen的解决方案可为全球科技、汽车、金融服务、零售、制造和政府等行业的创新者提供优质、安全、高效的服务。

澳鹏拥有专业项目经理,千人医疗团队,支持您的医学大模型、辅助诊断系统、健康监测及专业数据库的数据采标需求,支持更加智能高效的智慧医疗AI系统。