AI模型也能被「洗腦」!只要250份文件就能控制ChatGPT回應
Anthropic、英國AI安全研究所和艾倫·圖靈研究所的最新聯合研究發現:大語言模型(如Claude、ChatGPT和Gemini等)對資料中毒攻擊的抵抗力遠低於預期,攻擊者僅需極少量的惡意檔案就能在模型中植入「後門」。
這項研究針對參數規模從600萬到130億不等的AI模型進行了訓練測試,研究人員發現,無論模型規模多大,攻擊者只需插入大約250份被污染的文件,就能成功操控模型的響應方式。這項發現顛覆了以往認為模型越大攻擊難度越高的傳統觀念。
對於測試中最大的130億參數模型,250份惡意檔案僅佔總訓練資料的0.00016%,然而當模型遇到特定的「觸發短語」時,它就會按照被植入的後門行為,輸出無意義的文本,而非正常的連貫回應。
研究人員也嘗試透過持續的「乾淨資料」訓練來消除後門,結果後門仍然在一定程度上持續存在。
雖然本研究主要針對簡單的後門行為,且測試模型規模尚未達到商業旗艦水平,但研究人員呼籲業界必須改變安全實踐。
延伸影片閱讀: