AI模型也能被「洗腦」！只要250份文件就能控制ChatGPT回應

kai · 2025-10-20

50 views 0

Anthropic、英國AI安全研究所和艾倫·圖靈研究所的最新聯合研究發現：大語言模型（如Claude、ChatGPT和Gemini等）對資料中毒攻擊的抵抗力遠低於預期，攻擊者僅需極少量的惡意檔案就能在模型中植入「後門」。

這項研究針對參數規模從600萬到130億不等的AI模型進行了訓練測試，研究人員發現，無論模型規模多大，攻擊者只需插入大約250份被污染的文件，就能成功操控模型的響應方式。這項發現顛覆了以往認為模型越大攻擊難度越高的傳統觀念。

對於測試中最大的130億參數模型，250份惡意檔案僅佔總訓練資料的0.00016%，然而當模型遇到特定的「觸發短語」時，它就會按照被植入的後門行為，輸出無意義的文本，而非正常的連貫回應。

研究人員也嘗試透過持續的「乾淨資料」訓練來消除後門，結果後門仍然在一定程度上持續存在。

雖然本研究主要針對簡單的後門行為，且測試模型規模尚未達到商業旗艦水平，但研究人員呼籲業界必須改變安全實踐。

延伸影片閱讀：