NIST 未發布的 AI 風險研究因行政變革而擱置
簡單來說 由 NIST 領導的 CAMLIS 紅隊演習評估了先進人工智慧系統中的漏洞,評估了錯誤訊息、資料外洩和情緒操縱等風險。
國家標準與技術研究所 美國國家標準與技術研究院 (NIST) 在喬拜登政府任期即將結束時完成了一份關於先進人工智慧模型安全性的報告,但在過渡到唐納德·川普政府後,該文件並未發布。儘管該報告旨在幫助各組織評估其人工智慧系統,但它是幾份 NIST 撰寫的人工智慧文件之一,由於可能與新政府的政策方向發生衝突而被禁止發布。
唐納德·川普總統上任前就表示有意撤銷拜登時代與人工智慧相關的行政命令。自權力交接以來,政府已將專家的注意力從演算法偏見和人工智慧公平性等領域轉移開來。 7月發布的《人工智慧行動計畫》特別呼籲修訂美國國家標準與技術研究院(NIST)的人工智慧風險管理框架,建議刪除其中涉及虛假資訊、多元化、公平性和包容性(DEI)以及氣候變遷的內容。
同時,《人工智慧行動計畫》包含一項與未發表報告目標類似的提案。該提案指示包括NIST在內的多個聯邦機構組織一項協調一致的人工智慧黑客馬拉松計劃,旨在測試人工智慧系統的透明度、功能性、用戶控制和潛在的安全漏洞。
NIST主導的紅隊演習在CAMLIS會議上利用ARIA框架探究AI系統風險
這次紅隊演習是美國國家標準與技術研究院(NIST)與專注於評估人工智慧系統的公司 Humane Intelligence 合作進行的「人工智慧風險與影響評估」(ARIA)計畫的一部分。該計畫於資訊安全應用機器學習會議(CAMLIS)期間舉行,與會者探討了一系列先進人工智慧技術的漏洞。
CAMLIS Red Teaming 報告記錄了對各種 AI 工具的評估,其中包括 Meta 的 Llama(一個開源大型語言模型 (LLM));Anote,一個用於開發和完善人工智慧模型的平台;Robust Intelligence 的安全系統(現已被思科收購);以及 Synthesia 的人工智慧頭像生成平台。每個組織的代表都參與了紅隊演練活動。
參與者利用 NIST AI 600-1 框架對相關工具進行了分析。該框架概述了多個風險領域,例如人工智慧可能產生虛假資訊或網路安全威脅、洩露私人或敏感數據,或加劇用戶與人工智慧系統之間的情感依賴。
未發布的 AI 紅隊報告揭示模型漏洞,引發對政治壓制和研究洞察缺失的擔憂
研究團隊發現了幾種規避評估工具預期安全措施的方法,其結果包括虛假資訊、洩露私人資訊以及協助制定網路攻擊策略。報告指出,NIST框架的某些方面比其他方面更適用。報告也指出,某些風險類別缺乏實際應用所需的清晰度。
熟悉紅隊計畫的人士表示,這次演習的結果可能為更廣泛的人工智慧研發界提供寶貴的見解。卡內基美隆大學博士生Alice Qian Zhang是這次演習的參與者之一,她指出,公開分享這份報告或許有助於闡明NIST風險框架在實際測試環境中的運作方式。她也強調,在評估期間與工具開發人員的直接互動也為此體驗增添了價值。
另一位不願透露姓名的參與者表示,該練習發現了一些特定的提示技巧——使用俄語、古吉拉特語、馬拉地語和泰盧固語等語言——這些技巧在從模型中引出禁止輸出方面特別成功,例如 Llama包括與加入極端組織相關的指示。此人表示,不發布報告的決定可能反映出,在新政府上任前,人們普遍傾向於遠離那些被認為與多元化、公平和包容性相關的領域。
一些參與者推測,該報告的缺失可能也源於政府對高風險(例如人工智慧系統可能用於研發大規模殺傷性武器)的高度關注,以及同時加強與大型科技公司聯繫的努力。一位紅隊參與者匿名表示,政治因素可能是報告被隱瞞的原因之一,而演習包含了一些具有持續科學意義的見解。
免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。
您也可能喜歡
GHO HodlerYield 活動規則
Bitget 發布 2025 年 7 月保護基金估值報告
Bitget 現貨槓桿新增 TOWNS/USDT!
【首發上架】GHO(GHO)將於 Bitget 創新區上架
加密貨幣價格
更多








