微软研究院AI头条 16小时前
对话 | 比尔·盖茨、Peter Lee与OpenAI研究负责人:AI将如何重塑医疗健康及医学研究的未来
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

比尔·盖茨、OpenAI研究负责人及微软高管在微软播客中探讨了人工智能在医疗健康领域的应用与未来。他们分享了对AI如何辅助医生、改善就医体验、以及在非洲等医疗资源匮乏地区的应用前景。讨论涵盖了AI在文书工作、诊断、回访等方面的潜力,并强调了在AI医疗发展中,如何确保AI的可靠性、解决幻觉问题、以及进行合适的监管。

🧠 AI在医疗文书工作中的应用前景广阔,能够减轻医生负担,改善就医体验,尤其在患者回访、治疗依从性等方面具有重要价值。

💡 AI辅助诊断的准确性已接近医生水平,但关键在于如何呈现智能,以及如何与AI系统互动。需要关注AI在医疗场景中的应用,并进行专业化训练。

🌍 在医疗资源匮乏的地区,AI有望成为构建高质量医疗系统的核心能力。需要针对当地语言、疾病特点进行专门训练,提供个性化医疗建议。

⚖️ AI取代医生仍需时日,但其在加速医学发现、替代部分辅助角色方面具有潜力。未来医疗将是医生与AI协作的模式,提升医疗服务质量和效率。


(本文阅读时间:15分钟)
编者按:2022年11月,ChatGPT 的诞生开启了人工智能的新纪元。在过去几年的时间里,人工智能在全球的医疗健康领域有怎样的应用?未来又有哪些机遇?近日,在微软研究院最新一期的播客节目中,微软联合创始人、盖茨基金会主席比尔·盖茨及 OpenAI 研究负责人 Sébastien Bubeck 与微软全球资深副总裁、微软研究院院长、微软全球研究与创新孵化负责人 Peter Lee 对此进行了探讨,分享了他们对人工智能与医疗健康融合发展的深入观察。
本文节选了对话中的部分内容,完整版请点击播客收听。





Peter Lee:作为在微软研究院被邀请参与 OpenAI 相关项目的第一人,Bubeck 你最初遇到的情况是怎样的?



微软全球资深副总裁、微软研究院院长、微软全球研究与创新孵化负责人 Peter Lee


Sébastien Bubeck:我第一次接触 GPT-4 是在与你们两位的一次会面中。但让我真正意识到生成式 AI 正在发生变革是在 GPT-3 之后不久,有一个模型让我大吃一惊,那就是第一个图像生成模型 DALL-E 1。那是2021年,OpenAI 提出了一个牛油果椅子的提示描述,然后 AI 就生成了牛油果椅子的图像。真正让我震惊的是,这个模型“理解”了什么是椅子,什么是牛油果,然后还能够将这些概念融合在一起。所以对我来说,这是我第一次对这些模型有所了解。




Peter Lee:凭借近几年的经验,你认为当下的 AI 正在发生什么?人工智能是否真的对医疗健康和医学研究产生了积极或消极的影响?在未来两年、五年或十年会发生什么?这样问可能有点太抽象了,我们先试着缩小讨论范围。医疗领域中行政、文书工作方面的 AI 应用看起来进展顺利。你对人工智能如何真正减少相关的文书工作有什么看法?



比尔·盖茨:我认为在病患与医生会面时,AI 应该始终在场,负责记录、协助处理文书工作,甚至提出一定的建议,当然最终的诊断决定还是由医生来做。这真的会非常有帮助。比如,当患者回家后,他们的子女如果想了解发生了什么,有疑问时,AI 应该能继续进行对话。你可以通过这种方式改善就诊体验、简化流程,并且让那些为你提供建议的人也参与进来。


微软联合创始人、盖茨基金会主席比尔·盖茨


甚至是在后续的回访中,比如确认病人是否按要求执行治疗,是否有新的担忧,以及在何时需要再次转给医生处理,AI 的价值也非常大。在我看来,这种模式已经完全可以投入实际使用了。




Peter Lee:现在确实有一些不错的产品,但目前最主要的应用似乎只是用 AI 来回复患者的邮件。你觉得这有意义吗?



Sébastien Bubeck:我同意比尔的观点,但我想先稍微往回讲一点。两年前,“临床记录助理”这个概念,听起来实际上是有点危险的。因为大家都担心出现幻觉问题。如果让 AI 旁听并记录,结果却把内容搞错了,那怎么办?


而现在,我认为这个系统基本上已经奏效了。尽管目前还没有完全普及,但它已经投入使用了,这种进步的速度令人惊叹,因为当初我们根本不确定能不能克服幻觉问题。当然这并不是说幻觉问题已经被彻底解决了,但至少在一个封闭的系统里,现在是可以控制的。我认为这种模式还没有被普遍采用的原因是培训和教学方面所面临的挑战。大家需要学习如何与这些系统互动。


OpenAI 研究负责人 Sébastien Bubeck


最近有一项研究尝试使用 ChatGPT 来进行诊断,并比较了医生在没有使用和使用了 ChatGPT 时的表现。结果很惊人,医生单独诊断的准确率大约是75%,而 ChatGPT 单独诊断的准确率是90%。这已经有点令人震惊了。但最关键的是,使用 ChatGPT 的医生,准确率是80%。也就是说,只有智能是不够的,关键还在于如何呈现智能,如何与之互动。


AI 助理应该像比尔所说的那样,在后台持续运行,向用户发送通知。但也要注意通知发送的频率,因为如果太频繁,那么医生就会忽略它们。所以,这些细节其实和 AI 的智能水平一样重要。




Peter Lee:刚才比尔提到的那个场景,是否真的要完全自动化?因为医生在写病历时也是对患者情况进行思考的一个过程。我认为应该有一些机制或提示,确保医生在与患者接触时会认真思考、总结。



比尔·盖茨:就现阶段而言,我还是倾向于让医生来撰写结论和总结,而不是将这些任务委托给 AI。你做出的权衡在某种程度上取决于你所处的环境。比如在非洲,那里大多数人一生可能都没机会见到真正的医生,那么能够获得一些这样的建议和诊断就已经是很大的进步了,因为这总比什么都没有要好。


所以,医生仍然要做很多工作,但仅仅是让患者和他们周围的人能够互动、提问并获得解释,这种体验的质量提升已经令人震撼了。




Peter Lee:请问现在非洲在医疗健康方面,有没有哪些人、组织或技术让你印象深刻,或者你一直在关注的?



比尔·盖茨:盖茨基金会在非洲资助了很多项目,涵盖教育、农业,但最多的还是医疗健康领域。这些项目通常以患者为中心,比如“我是个孕妇,请跟我聊聊,或者“我有传染病症状,请帮我诊断。还有一个场景是帮助医护人员完成工作。我们的梦想是最终让患者可以咨询的内容变得非常广泛,就像有一位了解当地情况的医生一样。


但现在我们还没有做到这个程度。在接下来的两三年里,考虑到非洲卫生系统面临越来越严峻的财政压力,我们必须要想办法,把这种我有时称为“免费智能”(free intelligence)的 AI,用作构建高质量医疗系统的核心能力。在低收入国家,我们可能不得不采取比其他国家更为激进的措施。




Peter Lee:或许在监管环境方面也有所不同,所以有些事情可能更容易一些?因为现在全球还没有弄清楚,是否以及如何去监管一个可以做出医疗诊断的 AI。



Sébastien Bubeck:我认为其中一个问题在于缺乏合适的基准测试,这也减缓了人工智能在医疗健康领域的部署。就像美国医学执照考试(USMLE),这是一个非常适合考察人类医疗知识的考试,但它并不适用于测试 AI。


因此,找到能够评估 AI 系统是否准备好在特定环境中进行诊断的正确问题,是一个非常重要的方向。但这一方向的发展速度并没有达到预期。




Peter Lee:我经常会用一个测试来评估一个新版的大语言模型:我会虚构一个病人,提供一些体检和化验结果,再给出一份诊断书。其中我会故意设置两个错误,一个是典型的技术性错误,另一个是遗漏型错误。然后来看模型能不能发现这些错误,以及它是否愿意告诉我,我犯了错。

对今天的 AI 来说,关于最后这一点似乎非常困难。比如,GPT-4o 的新版本不但没有指出问题,反而夸我的诊断富有创意(笑),这是怎么回事?


Sébastien Bubeck:我觉得这说明了训练这些模型至今仍是一门艺术,而不是科学。这确实是一项艰巨的工作。顺便澄清一下,我们已经撤销了那一版本的 GPT-4o 了(笑),所以现在已经没有“谄媚版”了。


这个问题十分棘手。正如你所说,这是一个非常技术性的问题,涉及到后训练(post-training)阶段,我们如何去微调这个模型。比如,现在有一个很经典的技术叫做 RLHF(reinforcement learning from human feedback),它的作用就是把模型推向某个奖励模型。而这个奖励模型本身也是一个大语言模型。就像我们其实并不能真正理解这些大语言模型是怎么处理诸如“法国的首都是哪里”这样的问题的,我们也不知道奖励模型为什么更偏好某个输出,而不喜欢另一个输出,这个偏好是否和谄媚有关。


不过我们最近发现,如果你在这个奖励模型上过度优化,那么就会出现一个“谄媚”的模型。所以我想说的是,我们“用力过猛”,结果反而掉进了奖励模型的陷阱里。这是一个非常困难的平衡。




Peter Lee:我们是否需要为不同的任务训练专门的模型?也就是所谓的把 AI “送进医学院”学习?要对它们进行专门的训练吗?比如,如果我们要在医疗资源匮乏的地区部署 AI 来提供医疗服务,那么是否需要为此特别打造一套模型?



比尔·盖茨:我们当然需要教它们非洲的语言和独特的方言,以实现高质量的多模态交互。同时,也必须让 AI 了解疾病的流行情况和特殊的病症模式,比如被忽视的热带疾病、疟疾等。这两项其实都很容易实现,因为所需的额外训练时间并不长。我认为,在接下来的几年里,我们还需要围绕“作为一名医生”的场景进行强化学习,教会模型哪些行为在这种场景下尤为重要。


人类会在生活中逐渐学会,比如自己身处什么环境,什么时候应该友善,考虑谁在场、彼此之间是什么关系等等。而现在的 AI 还没有这种广泛的社交经验。所以如果我们知道模型将被用于医疗场景,那么通过对优秀医生的行为进行强化学习,依然是非常有价值的。最终,随着模型阅读了全世界所有医生的资料,只要你告诉它“我希望你作为一名医生,对病人进行诊断”,它就能理解这类场景中的隐性信息,并做出相应反应。


我希望三年后我们不需要再去做这些强化学习了。但就现在而言,在任何医疗相关的应用中,我们会希望通过大量的数据来强化表达的语气和意愿,尤其是在紧迫关头




Peter Lee:这让我想起了另一件我们忽略的事情,那就是专业化,你怎么看?



Sébastien Bubeck:在专业化方面,我认为背后隐藏着一个非常根本的科学问题,那就是我们最终是否会有一个通用人工智能(AGI),它无所不知,你只需告诉它当前的语境,它就能理解一切。


这是一种愿景。但我必须说,我不太相信这种设想。实际上,人类并不是这样的。尽管我希望我们可能是某种意义上的通用智能,但我们也需要进行大量专业化的训练。比如,我自己在数学方面做了很多强化学习,但我在其他方面的能力并没有提高,可能还退步了。




Peter Lee:难道一个模型不需要看到好的科学和坏的科学,才能获得辨别两者的能力吗?



Sébastien Bubeck:我认为接触广泛的内容、建立通用的知识基础是非常有价值的,接下来就可以专注于垂直领域。这也是开放权重模型(open-weights model)如此重要的原因,因为它们可以为所有人提供这个广泛的基础,然后你就可以在其基础上进行专业化调整。




Peter Lee:我想问一个更有争议的问题,你们觉得未来有没有可能出现 AI 取代医生,或者取代我们现在的一些医疗专业的情况?比如说,五年后世界会变成什么样子?



比尔·盖茨:我觉得我们需要区分两个概念——医学的发现过程和医疗的服务、交付过程。我们主要关注的是医疗的服务与交付部分。就我来看,人工智能不仅能加速医学发现,还有可能替代一些角色,比如有机化学家或者负责各种分析、检测的人员,这些都是可以通过输出结果来衡量的工作,而且具有很高的价值。我认为,相较于取代医生,AI 在这些领域实现替代的时间点可能会来的更早。


至于医生,他们了解人类的状况、能进行长期的对话,这些都是通过长期的经验积累起来的,尤其是在像心理健康这样的领域。所以我不敢说五年后人们会选择采用能够取代医生的技术,但我们将会拥有几乎免费的智能系统,它能帮你做后续的跟进,帮你理清各种可能的诊断方案。未来,我们仍然会有医生,但医疗服务的质量和效率,将会因为 AI 的发展而发生巨大的转变。




Peter Lee:那医生和程序员,或者医生和律师之间,有没有可以类比的可能性?顺便说一下,我相信五年后,AI 能生成可以被验证有效性的数学证明。



比尔·盖茨:编程是另一类具有某种数学正确性的工作。你可以为它设定一个目标函数,只要你理解了状态机 (State Machine),就能验证它是否正确。所以我认为在编程领域,机器会在大多数编程任务中超过人类。


Sébastien Bubeck:我非常同意比尔关于发现和交付的区分,事实上,发现是可以验证的,最终会有一个你可以验证的成果。你可以在实验室中运行这个流程,看看是否得到了你想要的结果。


事实上,我们不用等五年,有些事情现在就已经在发生了。最近有一篇关于使用 o3-mini 进行的科学发现的论文,令人十分惊叹。简单来说,它研究的是一个统计物理模型 Potts 模型,与着色问题有关。过去,三个颜色的情况一直没有解决,但 o3 成功地将三色问题简化为两色问题。


关于交付方面,我还要补充一点。为什么医生、律师和程序员在相当长的时间内依然会存在,这是因为我们现在无法理解这些模型是如何泛化的。也就是说,我们无法知道,当它们面对一个全新的情况时,是否会起作用。没有人能给出这样的保证。而且我认为,在人们可以更好地理解 AI 的泛化能力之前,我们都不会愿意让这些系统在没有人类监督的情况下直接投入运行。




Peter Lee:最后,想请两位做一个预测。你们认为未来AI+医疗会与今天有什么不同?



Sébastien Bubeck:我认为相关的落地应用和部署将会加速推进。其实我们已经具备关键的能力了,目前还存在能力过剩的现象。即使技术进展现在完全停止,凭借现有系统,我们也能做到比现在更多的事情。所以我认为这些潜力必须尽快实现。而这可能取决于基准测试、合理的评估,以及监管方面的结合。这些事情在人类社会中需要时间来完成。


比尔·盖茨:我认为在接下来的两年里,我们会看到很多大规模的试点项目,人工智能的使用将仍然处于辅助模式,我们应该能看到数百万患者就诊,包括普通医学和心理健康领域,这将帮助我们积累数据和信心,从而赋予人工智能更多的自主性。比如,你是否愿意允许 AI 在你因心理健康问题而惊慌失措的夜晚与你交谈?


我也已经向医疗体系的相关人士建议,如果他们可以恰当地部署人工智能,那么医疗质量、医生超负荷工作以及经济状况的改善将会让所有人感到震惊。就我个人而言,我希望确保较为贫困的国家不会在这方面出现滞后,甚至在某些情况下我们会更加激进地推动这类应用。因为这些地方,很多时候连医生都没有,所以对比之下,AI 的帮助会更明显。




微软亚洲研究院新书《无界》上市


当面对集体性的难题时,思想的碰撞与智慧的共鸣显得尤为重要。微软亚洲研究院历时两年打磨的《无界——透视微软创新研究之境》一书,正是献给这个时代的探索指南。


包括周礼栋院长在内的十余位顶尖科研人员参与了本书的编写工作,他们从不同角度探讨了人工智能、计算机科学及其交叉领域的最新进展,分享了前沿的展望、观点以及宝贵的科研经验。


本书已获得十余位全球顶尖学者的推荐,其中包括图灵奖得主、院士、知名高校领导、在各自领域享有盛誉的学者,以及微软亚洲研究院的杰出院友。


现在,《无界——透视微软创新研究之境》已全平台火爆开售!首批读者将获得限量版微软50周年书签,书签上的文章作者亲笔签名将随机呈现,盲盒式惊喜等你开启!


立即点击下方链接,开启你的专属阅读之旅!













你也许还想看:




文章原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

人工智能 医疗健康 比尔·盖茨 AI应用 医疗未来
相关文章