栏目分类
热点资讯
免费视频 清华首个 AI 病院小镇来了!AI 医师自进化打败东谈主类群众,数天诊完 1 万名患者
发布日期:2024-10-12 15:53 点击次数:92
【新智元导读】清华团队竟把病院搬进了 AI 寰宇!首个 AI 病院小镇 ——Agent Hospital免费视频,不错十足模拟医患看病的全历程。更遑急的是,AI 医师不错自主进化,仅用几天的时辰调养梗概 1 万名患者。
斯坦福 AI 小镇曾火遍了全网,25 个智能体生涯交友,号称施行版的「西部寰宇」。
而当今,AI「病院小镇」也来了!
最近,来自清华团队的相干东谈主员竖立了一个名为「Agent Hospital」的模拟病院。
论文地址:https://arxiv.org/pdf/2405.02957
在这个捏造寰宇中,系数的医师、照料、患者齐是由 LLM 开动的智能体,不错自主交互。
它们模拟了系数诊病看病的过程,包括分诊、挂号、相干、检讨、诊断、调养、随访等才气。
而在这项相干中,作家的中枢主意是,让 AI 医师学会在模拟环境中调养疾病,况且或者竣事自主进化。
由此,他们竖立了一种 MedAgent-Zero 系统,或者让医师智能体,束缚从收效和失败的病例积聚警戒。
值得一提的是,AI 医师不错在几天内完成对 1 万名患者的调养。
而东谈主类医师需要 2 年的时辰,才能达到雷同的水平。
另外,进化后的医师智能体,在涵盖主要呼吸谈疾病的 MedQA 数据集子集上,竣事高达 93.06% 的最新准确率。
不得不说,AI 进化在捏造寰宇中缄默进化,真有淘汰东谈主类之势。
有网友清晰,「AI 模拟将探索东谈主类根柢没无意辰,或能力探索的谈路」。
设想一下,数千家全自动化病院,将会救援数百万东谈主的人命。这很快就会到来。
首个 AI 病院小镇登场其实,智能体,早已成为业界看好的一个界限。
非论是在捏造寰宇中的模拟,仍是或者搞定实质任务(比如 Devin)的智能体,齐将给咱们寰宇带来剧变。
干系词,这些多智能体频繁用于「社会模拟」,或者「搞定问题」。
那么,是否有将这两种能力纠合起来的智能体?
也即是说,社会模拟过程能否,普及 LLM 智能体在特定任务的进展?
受此启发,相干东谈主员竖立了一个险些涵盖系数医学界限的调养历程的模拟。
如同单机游戏《主题病院》的寰宇
Agent Hospital 中模拟的环境,主要有两类主体:一是患者,一是医疗专科东谈主员。
它们的变装信息,齐是由 GPT-3.5 生成,不错无尽膨大。
比如,下图中,35 岁患者 Kenneth Morgan 有急性鼻炎,而他的病史是高血压,刻下的症状是握续吐逆,有些泻肚、反复发热、腹痛、头痛,而且颈淋趋奉肿大。
再来看 32 岁内科医师 Elise Martin,具备了出色的疏通能力,以及奢靡同理心的督察能力。
她主要的职责是,为患有多样急性病和慢性病的成年患者提供诊断、调养和驻防保健事业。
ZhaoLei 是一位擅长解读医学图像的辐射科医师,还有前台管待员 Fatoumata Diawara。
下图中展示的是,Agent Hospital 内有多样问诊室和检讨室,因此需要一系列医疗专科智能体使命。
相干东谈主员狡计了免费视频,14 名医师和 4 名照料。
医师智能体被狡计来诊断疾病并制定详备的调养计较,而护千里着松弛能体则专注于分诊,救助畴前调养打扰。
AI 患者怎样看病?与信得过寰宇看病的历程雷同,当患者生病后,就会去病院挂号就诊。
在此时代,它们还会资格一系列阶段,包括检讨、分诊、诊断、诊断、调养。
患者在拿到调养决策后,LLM 会匡助猜想患者的健康景况变化。一朝康复,它便会主动向病院申诉进行随访。
如下是 Kenneth Morgan 赶赴病院就诊的暗示图。
最初是,分诊照料 Katherine Li 对 Morgan 进行了初步的评估,并将他分诊到皮肤科就诊。
随后,Morgan 在病院柜台进行登记,被安排与皮肤科医师 Robert Thompson 进行诊断。
在完成标准的体检之后,AI 医师为 Morgan 开出药物调养,并敦促回家休息,同期还要监测病情的改善情况。
AI 医师自我超进化,无需手动标志数据在模拟环境中,相干东谈主员但愿试验一个纯属的医师智能体,来处理诸如诊断、调养等医疗任务。
传统的递次是,将巨量的医学数据喂给 LLM / 智能体,经过预试验、微调、RAG 之后,以构建高大的医学模子。
最新相干中,作家淡薄了一种新计策 —— 在捏造环境中模拟医患互动,来试验医师智能体。
在这个过程中,相干东谈主员莫得使用手动标志数据,因此最新系统被定名为 MedAgent-Zero。
这一计策包含了两个遑急的模块,即「病历库」和「警戒库」。
诊疗收效的案例被整理,并存储在病历库中,行动今后医疗打扰的参考。
而关于调养失败的情况,AI 医师有包袱反想、分析诊断不正确的原因,网网网色婷婷追想出引导原则,行动后续调养过程中的警示。
简言之,MedAgent-Zero 不错让生智能体通过与患者智能体互动。
通过积聚收效案例的记载,和从失败案例中获取警戒,进化成更优秀的「医师」。
系数自我进化历程如下:
1)积聚实例,追想警戒;
2)获胜向示例库添加正确的响应;
3)追想造作的警戒,并重新测试;
4)将收效警戒进一步笼统后,纳入警戒库;
青萆橾在线视频5)在推理过程中专揽两个库检索最相似的内容进行推理。
艰难的是,由于试验本钱低,效果高,医师智能体不错精炼支吾数十种情况。
比如,智能体不错在短短几天内处理数万个病例,而施行寰宇的医师需要几年的时辰才能完成。
诊断呼吸疾病,准确率高达 93.06%接下来,相干东谈主员进行了两类实验,来考据 MedAgent-Zero 计策变嫌的医师智能体,在病院中的灵验性。
一方面,在捏造病院内,作家们进行了从 100-10000 个智能体的交互实验(东谈主类医师一周可能会调养约 100 名病东谈主),涵盖了 8 种不同的呼吸疾病、十几种医疗检讨,以及每种疾病的三种不同调养决策。
通过 MedAgent-Zero 计策试验的医师智能体,在处理模拟病东谈主的过程中束缚自我进化,最终在检讨、诊断和调养任务中的准确率分袂达到了 88%、95.6% 和 77.6%。
跟着样本的束缚扩增,MedAgent-Zero 的试验性能,在达到一定量时趋于沉静。
在检讨、诊断、调养三个任务方面上的性能,MedAgent-Zero 也跟着样本增多,束缚波动,但合座准确性呈现出上涨趋势。
再看如下三张图,分袂展示了不同疾病的检讨精度、诊断精准度、以及调养精度,跟着样本的增多,也在沉静攀升。
另一方面,相干者让进化后的医师智能体,进入了对 MedQA 数据集子集的评估。
令东谈主诧异的是,即使莫得任何手动标注的数据,医师智能体在 Agent Hospital 中进化后,也竣事了起首进的性能。
在警戒积聚上,图 11、图 12 和图 13 分袂披露了,检讨、诊断和调养任务中,经过考据警戒和造作谜底的积聚。
当试验样本增多时,警戒数和造作谜底数齐缓缓增多。
如图所示,警戒弧线低于造作谜底弧线,原因是智能体无法响应系数失败的警戒。此外,诊断警戒比其他任务更容易积聚。
通盘来看个案例相干。
下表中讲明了,警戒库、病理库和 MedAgent-Zero,在患者诊疗中的三个任务上的性能。
在得知病东谈主症状之后,AI 医师不仅需要使用病历库,同期还需要警戒库,也即是相得益彰。
淌若少了其中的一方,便会导致诊断准确性的着落。
如下,通过添加警戒和记载,MedAgent-Zero 针对系数 3 个任务齐给出了正确的复兴。
以上终局标明,模拟环境不错灵验地匡助 LLM 智能体在处理特定任务时完成进化。
MedAgent-Zero 在使用 GPT-3.5 时,比 SOTA 递次 Medprompt 跳动 2.78%,在使用 GPT-4 时比 SOTA 递次 MedAgents 跳动 1.39%。
这一终局考据了新模子有助于,在莫得任何 MedQA 试验样本的情况下,仅使用模拟文档和医疗文档进行智能体进化,从而灵验提高医师智能体的医疗能力。
其次,基于 GPT-4 的 MedAgent-Zero 的最好性能为 93.06%,优于 MedQA 数据逼近的东谈主类群众(约 87%)。
第三,基于 GPT-4 的医师智能体比基于 GPT-3.5 的任何其他递次齐进展得更出色,这标明 GPT-4 在医疗界限更高大。
另外,在对 MedAgent-Zero 进行的消融相干中,
同期专揽「病历库」和「警戒库」的 MedAgent-Zero 取得了最好性能,标明这两个模块对诊断的匡助。
跟着病例的积聚和警戒库的扩大,医师智能体准确率总体上越来越高。
非论是使用 GPT-3.5 仍是 GPT-4,使用 8000 个病例积聚的警戒库,其性能齐高于使用 2000/4000/6000 个病例的性能。
不外,警戒库越大并不老是越好,因为相干者还发当今 2,000-4,000 个案例之间有显豁的着落。
局限性终末,相干东谈主员还提到了这项相干的局限性。
- 只继承 GPT-3.5 行动 Agent Hospital 和评估的模拟器
- 由于智能体之间的交互过甚演化波及 API 调用,AI 病院的运作效果受到 LLM 生成的摈弃
- 每个患者的健康记载和检讨终局,是在莫得界限常识的情况下,模拟信得过的电子健康记载生成的,但仍与施行寰宇的记载仍存在一些各别。
在明天,相干者们对 Agent Hospital 的计较将会包括:
第一,扩大界限遮蔽的疾病范围,蔓延到更多的医疗科室,旨在响应信得过病院提供的全面事业,以供进一步相干。
第二,在加强智能体社会模拟方面,比如纳入医疗专科东谈主员的全面晋升轨制、随时辰改变疾病的漫衍、纳入病东谈主的历史病历等。
第三,优化基础 LLM 的聘任和实施,旨在通过专揽功能高大的开源模子,更高效地扩充系数模拟过程。
参考尊府:
https://x.com/emollick/status/1787896361276571660
本文来自微信公众号:新智元 (ID:AI_era)
告白声明:文内含有的对外跳转运动(包括不限于超运动、二维码、口令等阵势),用于传递更多信息,简约甄选时辰,终局仅供参考免费视频,IT之家系数著作均包含本声明。