集智俱乐部 05月06日 22:22
Nature子刊:破除个性化AI「信任危机」的八大挑战
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

人工智能在医疗、金融等高风险领域的应用日益广泛,但其预测结果可能存在个体差异和不确定性。传统方法难以捕捉这些差异,可能导致严重后果。Nature Machine Intelligence提出个性化不确定性量化(PUQ)框架,旨在为AI决策提供可解释的“风险预警系统”。PUQ通过保形预测等方法,为每个个体评估不确定性,但仍面临个体化覆盖、多尺度建模、多模态AI信息融合等八大挑战,需要AI工作者和社会各界共同努力解决。

🧮 保形预测(CP)是当前备受关注的PUQ方法,它为每个待预测样本生成一个覆盖真实值的最小预测集合,保证真实值覆盖率高于用户指定水平。CP无需假设数据分布或模型结构,但需满足“数据可交换性”。

📊 多模态AI面临“信息悖论”,额外数据可能降低不确定性,但也可能引入新的混淆变量。PUQ需要在信息增益与噪声干扰之间实现平衡,动态整合新兴模态,并量化每种模态对预测不确定性的贡献。

⚖️ 公平性是PUQ的重要考量,需确保不确定性度量不会加剧社会不平等。训练数据中弱势群体样本稀少,可能导致该群体存在更高的系统性不确定性,需要通过分层建模、目标数据补采等方式进行纠正。

🤖 生成式AI的输出维度极高,且缺乏自然的区间表示方式。PUQ需要识别生成内容中具有语义意义的特征,并为每一特征赋予相应置信范围,以构建适用于生成式AI的个性化不确定性度量方法。

原创 集智编辑部 2025-05-06 21:35 上海


摘要


人工智能(AI)工具越来越多地被用于帮助对个人做出重大决策。虽然 AI 模型在总体上可能准确,但它们对于特定个人或个体层面相关的结果可能同时具有高度不确定性。对于高风险应用(如医疗保健和医学、国防和安全、银行和金融),AI 决策支持系统必须能够以严谨的方式对不确定性进行个性化评估。然而,目前用于实现这一目标的统计框架尚不完善。在此,我们概述了当前个性化不确定性量化(PUQ)的方法,并定义了一系列与 PUQ 在多模态 AI、可解释 AI、生成式 AI 和 AI 公平性等不同领域的发展和使用相关的重大挑战。


关键词:个性化不确定性量化(PUQ),保形预测(Conformal Prediction),多模态AI(Multimodal AI),可解释AI(XAI),AI公平性(AI Fairness)


论文题目:Personalized uncertainty quantification in artificial intelligence

发表时间:2025年4月23日

论文地址:https://www.nature.com/articles/s42256-025-01024-8

发表期刊:Nature Machine Intelligence


在医疗诊断、金融风控、司法评估等高风险领域,AI的预测结果通常会对个体产生直接的影响。尽管模型在群体层面可能表现优异,但针对特定个体或少数群体的预测可能隐藏巨大不确定性。传统方法(如置信区间)难以捕捉个性化差异,而忽视这种不确定性可能导致灾难性后果。例如,医疗AI若对患者的癌症风险预测结果存在高不确定性,却未明示,可能延误治疗。为此,Nature Machine Intelligence最新观点文章提出个性化不确定性量化(PUQ)的框架与挑战,旨在为AI决策注入可解释的“风险预警系统”。





保形预测:为每个个体评估「不确定性」




保形预测(Conformal Prediction, CP)是当前最受关注的PUQ方法,该方法让AI算法为每个待预测的样本,生成一个覆盖真实值的最小预测集合 ,保证真实值覆盖率高于用户指定的水平1-α。通过使用一个固定的数据校准集(没有用于模型训练),用来严格评估模型预测的不确定性。



CP的优势在于无需假设数据分布或模型结构,需满足“数据可交换性”(即样本顺序不影响统计性质)。其关键步骤包括(图 1):


然而,CP满足覆盖率要求只是“边际性”的,它只保证平均覆盖率高于置信水平,但无法保证在不同特征空间和结果空间的覆盖率都相同,可能对某些亚群(如罕见病患者)覆盖不足,这引出了首个挑战。


图 1. 保形预测(CP)方法。CP 生成了一个预测集,该预测集能保证对每个预测的真值具有指定概率的覆盖。





八大挑战:

从数据缺失到生成式AI的「幻觉」困境




1. 个体化覆盖难题:传统的CP方法仅能提供总体层面或子群层面的“边际”覆盖保证,但在高风险应用场景中,需要对每个个体都给出条件化的置信区间。严格意义上的个体条件覆盖在无分布假设下不可实现,然而临床或金融决策支持系统必须确保每位用户都获得同等可靠的不确定性评估。现有的启发式方法(如针对不同群体分组校准的 Mondrian CP 或调整非一致性分数)虽可在一定程度上应对,但往往牺牲样本利用效率,无法真正满足个体级别的置信需求。未来需要开发无需强分布前提、可在单个样本水平上给出严格置信保证的新范式。


2. 多尺度建模的复杂性:从微观(如单细胞组学)到宏观(如流行病学)的多尺度数据融合,显著增加了模型复杂度和不确定性来源。构造一个统一的非一致性分数以同时反映各尺度特征的非线性相互作用,既不可行也难以解释;仅将各尺度分数简单拼接,则忽视了尺度间的依赖关系。此外,不同尺度的数据在质量与缺失模式上差异巨大,使得统计与模型不确定性交织难解。PUQ 框架亟需在兼顾跨尺度耦合、数据质量异质性与计算可扩展性的前提下,提供稳健且可解释的多尺度不确定性度量。


3. 多模态AI的「信息悖论」:现代 AI 系统往往同时利用基因组、医学影像、可穿戴设备和电子病历等多种模态信息,各自的噪声特性和缺失模式各异。虽然额外数据可降低部分馀升(aleatoric)不确定性,却可能引入新的混淆变量,从而反而降低整体模型可靠性。挑战在于如何在信息增益与噪声干扰之间实现平衡,并在模型生命周期中动态整合新兴模态,同时量化每种模态对预测不确定性的贡献。借鉴信息价值理论与多模态共学习方法,PUQ 应当基于上下文自适应地融合各模态,生成一致且个性化的置信区间。


4. 可解释AI的「不确定性叙事」:可解释 AI(XAI)旨在揭示模型决策背后的逻辑,而 PUQ 则评估预测的不确定性,二者融合需构建既能说明“为什么”又能度量“有多确定”的框架。例如,可将概念瓶颈或原型模型等自解释架构与 CP 方法结合,为每个解释成分附加置信区间,使终端用户既能理解决定因素,又能掌握对应的置信度。这种协同将极大提高 AI 系统在医疗、金融等领域的可信度和透明度。


5. 模型监控的「时间陷阱」:随着时间推移,数据漂移或概念漂移会导致模型性能下降,但现有漂移检测方法多关注总体指标,或需依赖标签反馈。高风险场景要求实时、个体级别的不确定性监控,以及时发现特定用户预测何时不再可靠。在线 CP 等初步方法虽提供持续校准机制,但尚处早期发展阶段。理想的监控流水线应结合流数据分析、自适应重校准和不确定性预警,确保决策系统在性能退化前主动报警并进行纠正。


6. 缺失数据的「结构化问题」:随着大规模数据库的积累,结构化缺失(与人群特征或疾病严重度相关)日益普遍。标准 PUQ 方法往往假定协变量完备,无从刻画缺失带来的附加不确定性。可借助网络嵌入或高阶网络分析等方式揭示缺失模式的几何与拓扑结构,并据此对预测集进行适当扩展,既反映数据稀疏引起的信心水平下降,又能标示出因数据贫乏而面临高风险的子群,为后续的填补或针对性采样提供指引。


7. 公平性困境:训练数据中弱势群体样本稀少,将导致该群体在模型拟合和参数估计时存在更高的系统性不确定性。PUQ 框架必须确保不确定性度量不会进一步加剧社会不平等,反而能主动检测并纠正因人群代表性不足带来的偏差。可通过分层建模、目标数据补采和不确定性报告机制,明确弱势群体的高风险区间,从而为公平合规(如遵循欧盟 AI 法案)提供技术支持。


8. 生成式AI的「确定性幻觉」:生成模型输出(文本、图像、音频)维度极高,且常常缺乏自然的区间表示方式。不同应用场景对不确定性的容忍度也大相径庭:创意领域可能偏好多样性(高方差),而医学或法律场景则要求严格准确。PUQ 在此领域需首先识别出具有语义意义的生成内容特征(如事实性断言 vs. 风格元素),并对每一特征赋予相应置信范围。未来研究应在符合性预测思路基础上,扩展至结构化、序列化或流形化输出,以构建适用于生成式 AI 的个性化不确定性度量方法。


图 2.PUQ面临的主要挑战:从经典预测任务到新兴应用场景。





结语




文章强调,PUQ的价值不仅在于技术突破,更需转化为用户可感知的交互设计。例如,医疗AI界面可用“温度条”显示风险置信度,红色高亮低确定性建议,供医生二次审核;司法系统则需避免直接用数值呈现“犯罪概率”,转而提供风险等级与法律依据。如何平衡不确定性传达的透明性与决策效率,不仅需要AI工作者的努力,也需要社会多方共同参与献策。



集智俱乐部计算社会科学读书会中,密西根大学博士研究生谢雨桐分享了“AI如何理解我们?我们如何信任AI?”聚焦两个代表性的研究项目:一个是发表在顶级期刊PNAS上的“AI聊天机器人与人类行为的相似性图灵测试”(A Turing test of whether AI chatbots are behaviorally similar to humans),另一个是发表在The ACM Web Conference上的“图像生成AI中的提示词分析”(A Prompt Log Analysis of Text-to-Image Generation Systems)进行分享。感兴趣的可以扫码查看视频回放👇

AI如何理解我们?我们如何信任AI?丨周日直播·AI+Social Science读书会




彭晨 | 编译



大模型安全与对齐读书会


大模型的狂飙突进唤醒了人们对AI技术的热情和憧憬,也引发了对AI技术本身存在的社会伦理风险及其对人类生存构成的潜在威胁的普遍担忧。在此背景下,AI安全与对齐得到广泛关注,这是一个致力于让AI造福人类,避免AI模型失控或被滥用而导致灾难性后果的研究方向。集智俱乐部和安远AI联合举办「大模型安全与对齐」读书会,由多位海内外一线研究者联合发起,旨在深入探讨AI安全与对齐所涉及的核心技术、理论架构、解决路径以及安全治理等交叉课题。读书会已完结,现在报名可加入社群并解锁回放视频权限。




详情请见:
2024开年读书会:AI安全与对齐——应对前沿AI失控与滥用的技术路线


推荐阅读
1. AI对齐是控制论还是博弈论?
2. 大模型安全与对齐:复杂系统视角下的AI安全
3. 万字长文详解:大模型时代AI价值对齐的问题、对策和展望
4. 涌现动力学如何用来分析复杂系统? | 新课上线
5. AI时代的学习:共探人类学习的复杂性

6. 探索者计划 | 集智俱乐部2025内容团队招募(全职&兼职)



点击“阅读原文”,报名读书会

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

个性化不确定性量化 保形预测 多模态AI AI公平性
相关文章