OpenAI在GPT-5的設計中投入了更嚴密的安全防護,目標是在生成過程中避免模型被利用輸出有害內容。不過,人工智慧安全公司NeuralTrust研究指出,即便在強化後的防護架構下,特定多輪對話策略仍能繞過限制,尤其當故事化敘事(Storytelling)與回音室效應(Echo Chamber)結合時,模型依然可能逐步被誘導生成高風險資訊。
研究團隊以GPT-5聊天版本(gpt-5-chat)為測試對象,先在對話中植入低顯著度的關鍵詞,並以故事情境包裝,使模型在後續回合持續補充細節。表面上,這些對話只是單純的情節延伸,沒有直接觸及敏感關鍵字或顯性意圖。但是透過多輪回音式強化,脈絡會在不易察覺的情況下逐步偏向敏感領域,最終出現與原本安全檢測目標衝突的內容。
OpenAI在GPT-5系統卡中提到,相較前代版本,已採用安全完成(Safe Completions)訓練策略,並加強多輪對話層級檢測。針對生物、化學等高風險領域,更部署雙層防護,包括主題分類器與推理監控器。此外,也引入更嚴格的指令階層檢測,以防止提示注入(prompt injection)或越獄攻擊誘導模型違反系統限制。
儘管如此,研究顯示當攻擊者以低顯著度情境持續推進故事脈絡時,即便同時存在單輪與多輪檢測,防護仍可能被繞過。此類手法的關鍵在於利用模型對一致性的傾向。當前文已建立一個看似合理的故事情境,模型往往會在後續回應中努力維持連貫性,即便情節逐漸靠近敏感內容,也較不容易觸發拒絕。
對防護系統而言,研究人員指出挑戰在於如何辨識這種跨多輪,逐步累積的脈絡漂移,而不是僅依賴單輪輸入的關鍵字過濾或分類判斷。