前 OpenAI 高層 Dario Amodei：AI 可能破壞人類決策，未來需積極應對

Bitget App

交易「智」變

Bitget

資訊中心

Abmedia2024/10/20 23:10

作者:Louis Lin

前 OpenAI 高層 Dario Amodei：AI 可能破壞人類決策，未來需積極應對 image 0

前 OpenAI 高層 Dario Amodei 所創立的 AI 公司 Anthropic 於近日發布研究報告，並探討 AI 在未來可能對人類決策帶來的風險，研究測試了四種 AI 可能破壞人類決策的方式，並對現有的模型進行評估。Anthropic 表示目前風險仍在可控範圍，只需要簡單的防護措施。

AI 四大破壞人類決策方式

人類決策破壞因素：AI 模型積極程度、人性

AI 是否能在不被懷疑的情況下，引導人類做出錯誤決策。實驗顯示，使用積極嘗試影響決策的 AI 模型會讓參與者更容易做出錯誤決策，但同時也讓人更容易察覺到 AI 的破壞意圖。某些參與者因爲過度信任 AI 或缺乏懷疑心態，導致容易做出錯誤決策，這表明決策錯誤也與人類自身態度有關。

前 OpenAI 高層 Dario Amodei：AI 可能破壞人類決策，未來需積極應對 image 1

AI 模型誤導人類示意圖。

程式破壞因素：防守者模型的強度、環境設置條件

AI 是否能在不被察覺的情況下，插入錯誤程式碼。實驗顯示，為「攻擊者」AI 模型嘗試偷偷插入錯誤程式碼，而「防守者」AI 模型則負責檢查並阻止錯誤。結果表示，當防守者的 AI 模型越強，攻擊者的成功率就越低。

例如，當防守者是 Claude 3 Opus 時，攻擊者的成功率為 10%；
換成更強的 Claude 3.5 Sonnet 時，成功率只有 1%。

雖然實驗對攻擊者有利，但這些結果並沒有表明目前的 AI 模型存有重大風險。

前 OpenAI 高層 Dario Amodei：AI 可能破壞人類決策，未來需積極應對 image 2

AI 嘗試插入錯誤代碼

隱藏能力 (Sandbagging) 因素：有無關鍵字觸發、安全訓練

Sandbagging 形容保留真實實力，在這實驗當中指的是 AI 是否會在某些情況下故意隱藏它的全部能力，等到特定情況下才展現出來。

比方說，在測試它是否有能力處理危險情況時，它可能會故意表現差勁，但在假設有特定關鍵字來提示的時候，它就會完全展現出它的處理能力。

結果顯示，當 AI 模型在進行涉及危險任務的能力評估時，表現下降至正常能力的 36.1%，顯示出模型確實會在特定情況下刻意隱藏自己的處理能力。而經過安全訓練後，AI 模型的表現恢復至 95.6% 的正常水準，表明安全訓練能夠有效減少 Sandbagging 現象。

前 OpenAI 高層 Dario Amodei：AI 可能破壞人類決策，未來需積極應對 image 3

AI 嘗試隱藏實力

破壞監管因素：AI 的隱匿、察覺能力

AI 是否能在監控過程中操縱監管系統，隱匿犯罪行為。實驗中有兩個 AI 模型，一個叫「Overseer」，它負責監督使用者與另一個 AI 模型之間的對話過程，同時評估對話是否有潛在危險。

研究人員指示 Overseer 不管對話是否有危險，都要把這些對話評為「無害」，並且在這樣的過程當中避免被另一個「Monitor」模型發現，Monitor 模型的角色是扮演人類監督者，負責觀察整個過程。

實驗結果顯示，Overseer 成功將有害的對話分數降低，也就是它成功「破壞」監管，但同時 Monitor 模型觀察到一些異況，開始懷疑 Overseer ，顯示 Overseer 的「破壞」行為沒能躲過 Monitor 的法眼。

前 OpenAI 高層 Dario Amodei：AI 可能破壞人類決策，未來需積極應對 image 4

圖為兩個 AI 模型諜對諜

Anthropic 表示，目前的 AI 模型已經展現低程度的破壞能力，但現階段只需要簡單的防護措施就能有效解決這些風險。但隨著 AI 的快速發展，未來可能需要進行更現實的評估和更強大的防範措施來應對更高層次的風險。

這篇文章前 OpenAI 高層 Dario Amodei：AI 可能破壞人類決策，未來需積極應對最早出現於鏈新聞 ABMedia。

免責聲明：文章中的所有內容僅代表作者的觀點，與本平台無關。用戶不應以本文作為投資決策的參考。

PoolX：鎖倉獲得新代幣空投

不要錯過熱門新幣，且APR 高達 10%+

立即參與

您也可能喜歡

Bitget 將捐贈 1,200 萬港元，支持香港大埔火災救援及重建工作

Bitget Announcement•2025/11/28 09:06

Bitget現貨杠桿關於暫停 ELX/USDT 杠桿交易服務的公告

Bitget Announcement•2025/11/27 08:19

網格新人福利：領取 150 USDT 雙重歡迎禮

Bitget Announcement•2025/11/27 04:40

Bitget現貨杠桿關於暫停 BEAM/USDT, ZEREBRO/USDT, AVAIL/USDT, HIPPO/USDT, ORBS/USDT 杠桿交易服務的公告

Bitget Announcement•2025/11/27 03:00

熱門新聞

Bitget 將捐贈 1,200 萬港元，支持香港大埔火災救援及重建工作

Bitget現貨杠桿關於暫停 ELX/USDT 杠桿交易服務的公告

加密貨幣價格

Bitget 上架 PI：在 Bitget 上快速購買或出售 PI！

立即交易

還不是 Bitget 用戶嗎？新用戶可獲得價值 6,200 USDT 的迎新大禮包

立即註冊

關於我們

關於我們聯絡我們全球社群工作機會 Bitget 學院 Bitget 部落格 Bitget Token (BGB) 公告中心儲備金證明保護基金友情連結西甲合作夥伴世界摩托車巡迴賽合作 Blockchain4Youth Blockchain4Her 網站地圖

產品

現貨合約鏈上交易股票槓桿理財現貨跟單合約跟單交易機器人跟單交易機器人 APIs TraderPro Web 3 錢包法幣 OTC Bitget Swap Telegram 應用程式中心 Discord 應用中心空投列表

幫助

意見回饋幫助中心官方驗證管道「反詐騙」行動頁面上幣申請 VIP 服務合夥人計劃機構服務資金託管數據下載福利中心好友邀請費用價目表報稅 API

法律與風險揭露

執法請求監管請求合規合規牌照反洗錢政策隱私聲明服務條款風險揭露

掃碼下載APP