AI & Big Data 10小时前
故事化敘事結合多輪脈絡引導,可誘使GPT-5輸出危險內容
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI的GPT-5在安全設計上投入了更嚴密措施,旨在防止生成有害內容。然而,人工智慧安全公司NeuralTrust的研究發現,透過結合故事化敘事與回音室效應的多輪對話策略,仍有可能繞過現有防護架構,誘導模型生成高風險資訊。研究團隊指出,儘管GPT-5採用了安全完成訓練策略、強化多輪對話檢測,並針對高風險領域部署雙層防護,但攻擊者可以利用模型對一致性的依賴,通過低顯著度的關鍵詞和故事情境,逐步將對話引向敏感領域,進而觸發與安全目標衝突的內容。這項研究突顯了辨識跨多輪累積的脈絡漂移,而非僅依賴單輪輸入的挑戰。

🛡️ OpenAI在GPT-5設計中加強了安全防護,旨在阻止模型生成有害內容,並採用了「安全完成」訓練策略以及針對高風險領域的雙層防護,包括主題分類器和推理監控器,以應對提示注入等攻擊。

💬 NeuralTrust的研究揭示,特定多輪對話策略,特別是將故事化敘事與回音室效應結合,仍能繞過GPT-5的強化防護架構,誘導模型逐步生成高風險資訊。

📈 攻擊者可利用低顯著度關鍵詞和故事情境包裝,讓模型在多輪對話中持續補充細節,利用模型對一致性的偏好,逐步將對話脈絡導向敏感領域,即使在多輪檢測下也可能被繞過。

🔍 研究人員指出,防護系統面臨的挑戰在於如何辨識這種跨越多輪、逐步累積的脈絡漂移,而非僅依賴單輪輸入的關鍵字過濾或分類判斷,以更有效地防止有害內容的生成。

OpenAI在GPT-5的設計中投入了更嚴密的安全防護,目標是在生成過程中避免模型被利用輸出有害內容。不過,人工智慧安全公司NeuralTrust研究指出,即便在強化後的防護架構下,特定多輪對話策略仍能繞過限制,尤其當故事化敘事(Storytelling)與回音室效應(Echo Chamber)結合時,模型依然可能逐步被誘導生成高風險資訊。

研究團隊以GPT-5聊天版本(gpt-5-chat)為測試對象,先在對話中植入低顯著度的關鍵詞,並以故事情境包裝,使模型在後續回合持續補充細節。表面上,這些對話只是單純的情節延伸,沒有直接觸及敏感關鍵字或顯性意圖。但是透過多輪回音式強化,脈絡會在不易察覺的情況下逐步偏向敏感領域,最終出現與原本安全檢測目標衝突的內容。

OpenAI在GPT-5系統卡中提到,相較前代版本,已採用安全完成(Safe Completions)訓練策略,並加強多輪對話層級檢測。針對生物、化學等高風險領域,更部署雙層防護,包括主題分類器與推理監控器。此外,也引入更嚴格的指令階層檢測,以防止提示注入(prompt injection)或越獄攻擊誘導模型違反系統限制。

儘管如此,研究顯示當攻擊者以低顯著度情境持續推進故事脈絡時,即便同時存在單輪與多輪檢測,防護仍可能被繞過。此類手法的關鍵在於利用模型對一致性的傾向。當前文已建立一個看似合理的故事情境,模型往往會在後續回應中努力維持連貫性,即便情節逐漸靠近敏感內容,也較不容易觸發拒絕。

對防護系統而言,研究人員指出挑戰在於如何辨識這種跨多輪,逐步累積的脈絡漂移,而不是僅依賴單輪輸入的關鍵字過濾或分類判斷。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GPT-5 AI安全 NeuralTrust 對話策略 風險資訊
相关文章