微軟人工智慧團隊發表研究,展現其在人工智慧診斷調度系統在臨床醫學領域的進展。根據微軟公開的資料,該團隊開發的MAI-DxO系統,在針對美國《新英格蘭醫學期刊》(NEJM)收錄的304個高難度病例進行逐步診斷的測試中,最高達到85%的正確診斷率,明顯優於由21位具多年臨床經驗的美國與英國專科醫師平均僅20%的表現。
微軟開發MAI-DxO系統,採用生成式人工智慧多模型協作機制,模擬虛擬醫師小組針對複雜病例逐步詢問病史,並選擇檢查項目以及依據回饋資訊調整推論方向。這一診斷流程更貼近臨床現場,突破過往單一選擇題式人工智慧測試對臨床推理能力的侷限,進一步提升醫療人工智慧在實際場域的評估深度。
為驗證人工智慧臨床決策能力,研究團隊將NEJM發表的病例轉換為數位互動情境,要求人工智慧與專業醫師在同樣資訊條件下進行連續診斷測試。人工智慧系統除了能更快收斂到正確診斷,也可根據虛擬成本限制合理安排檢查項目,避免過度檢查帶來的不必要支出或病患負擔。測試結果顯示,MAI-DxO不僅於診斷準確率領先現有人力團隊,在醫療資源分配與成本意識方面也展現可稽核與調整彈性。
該系統整合多家主流人工智慧基礎模型,包括GPT、Llama、Claude、Gemini等,採用多模型協作機制來彌補單一模型推理盲點,提升系統的穩定性與適應力。微軟團隊強調,MAI-DxO可針對不同醫療情境調整診斷準則與成本權重,進一步強化在高度專業、高風險環境中的可靠性與可追蹤性。
雖然此次成果集中於複雜、少見的臨床案例,並以專業醫師不借助外部資源、同僚協助或現有人工智慧工具下的表現為基準,但MAI-DxO於真實世界應用尚需進一步擴大測試範圍,包括對常見病症的實際臨床表現與跨區域醫療系統的適應性。同時,醫療人工智慧大規模落地前仍有賴於治理、法遵及持續實證,以確保診斷安全性與效益。