AI & Big Data 2024年10月30日
醫院轉錄語音的OpenAI模型有逾1%出現AI幻覺
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

医院使用AI转录门诊记录,研究发现OpenAI的Whisper模型转录的文字存在AI幻觉,可能影响诊断治疗。研究团队以多种语言的录音资料进行分析,发现存在多种幻觉类型,且某些人群出现幻觉的机会提高。虽后续错误有所减少,但仍有改善空间,OpenAI表示将持续改进。

🧐研究团队以TalkBank语言障碍录音资料集为对象,分析Whisper模型是否存在AI幻觉。资料集涵盖12种语言,来自美国不同大学医院。

😱2023年春天的研究中,187段录音中有312则录写记录发生幻觉,占总体资料集的1.4%。幻觉类型包括加入不当情节、不正确的人事物关联、引述错误来源等。

❗研究人员发现,失语症患者或非裔美国人等有较长非语言停顿的说话者,Whisper转录出现幻觉的机会提高,这是研发时需留意的偏差问题。

👍同年12月和11月的研究中,错误有所减少,但研究团队认为仍有改善空间,因涉及医疗,小失误也可能对诊断有不良影响。

愈來愈多醫院使用AI來轉錄(transcribe)門診紀錄,但一項研究發現,有超過1%經過OpenAI的Whisper模型錄寫的文字,包含AI幻覺(hallucination),可能對診斷或治療造成影響。由紐約大學、康乃爾大學及華盛頓大學學者組成的研究團隊為了解廣受醫院採用的OpenAI語音轉錄模型Whisper是否存在常被討論的AI幻覺,他們以TalkBank語言障礙(特別是失語症)的錄音資料集作為分析對象。這些資料來自美國不同大學醫院,涵括英文、中文、西語、希臘文等12種語言。研究人員比較Whisper轉錄的語音檔文字紀錄,和人類錄寫的訪談紀錄,以了解轉錄的正確性。研究團隊分別在2023年4、5月,以及同年11月各做一次研究。研究團隊發現,在2023年春天,他們187段錄音中有312則錄寫紀錄發生幻覺,佔了總體資料集的1.4%。幻覺類型包括加入暴力、死亡、性別或年齡刻板印象等情節(19%)、13%包括不正確的人事物關聯(捏造的地點、人名、關係、或健康狀態),8%是引述錯誤來源(引述主播、YouTuber或網站連結等)。例如一名受訪者只說男孩可能拿著雨傘,但Whisper轉錄時加入了他可能拿了一把刀,或是憑空加入某人「十分野蠻」、自行加入某人「有殘障」的描述、或是捏造名字、自己附加網址等等。研究人員指出,近40%的幻覺內容是有害或值得擔憂的,像是強化歧視,或是暴力內容可能刺激受虐被害者。研究人員發現,若說話者有較長時間的非語言停頓,像是失語症患者或是非裔美國人,Whisper轉錄出現幻覺的機會將提高。他們認為,這是發展轉錄語言模型的業者研發時需留意的偏差問題。研究團隊在同年12月又讓Whisper對同樣的語音資料集做了轉錄,錯誤減少到12則。此外,他們又在11月做了另一次研究,隨機抽取250段錄音檔讓Whisper錄寫,這次只有1則有幻覺,Whisper虛構了名字。研究團隊認為,研究結果進步可能是因為OpenAI方面提供了升級,但是他們認為這還是有改善空間,因為牽涉醫療,再小的失誤都可能對診斷造成不良影響。OpenAI方面回應,將持續改善模型幻覺問題。但該公司也強調政策禁止在某些重大決策情境下使用Whisper,其開源使用模型規畫也包含不建議用於高風險領域。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI转录 Whisper模型 AI幻觉 医疗诊断
相关文章