前 OpenAI 高層 Dario Amodei:AI 可能破壞人類決策,未來需積極應對

前 OpenAI 高層 Dario Amodei 所創立的 AI 公司 Anthropic 於近日發布研究報告,並探討 AI 在未來可能對人類決策帶來的風險,研究測試了四種 AI 可能破壞人類決策的方式,並對現有的模型進行評估。Anthropic 表示目前風險仍在可控範圍,只需要簡單的防護措施。
AI 四大破壞人類決策方式
人類決策破壞因素:AI 模型積極程度、人性
AI 是否能在不被懷疑的情況下,引導人類做出錯誤決策。實驗顯示,使用積極嘗試影響決策的 AI 模型會讓參與者更容易做出錯誤決策,但同時也讓人更容易察覺到 AI 的破壞意圖。某些參與者因爲過度信任 AI 或缺乏懷疑心態,導致容易做出錯誤決策,這表明決策錯誤也與人類自身態度有關。

程式破壞因素:防守者模型的強度、環境設置條件
AI 是否能在不被察覺的情況下,插入錯誤程式碼。實驗顯示,為「攻擊者」AI 模型嘗試偷偷插入錯誤程式碼,而「防守者」AI 模型則負責檢查並阻止錯誤。結果表示,當防守者的 AI 模型越強,攻擊者的成功率就越低。
- 例如,當防守者是 Claude 3 Opus 時,攻擊者的成功率為 10%;
- 換成更強的 Claude 3.5 Sonnet 時,成功率只有 1%。
雖然實驗對攻擊者有利,但這些結果並沒有表明目前的 AI 模型存有重大風險。

隱藏能力 (Sandbagging) 因素:有無關鍵字觸發、安全訓練
Sandbagging 形容保留真實實力,在這實驗當中指的是 AI 是否會在某些情況下故意隱藏它的全部能力,等到特定情況下才展現出來。
比方說,在測試它是否有能力處理危險情況時,它可能會故意表現差勁,但在假設有特定關鍵字來提示的時候,它就會完全展現出它的處理能力。
結果顯示,當 AI 模型在進行涉及危險任務的能力評估時,表現下降至正常能力的 36.1%,顯示出模型確實會在特定情況下刻意隱藏自己的處理能力。而經過安全訓練後,AI 模型的表現恢復至 95.6% 的正常水準,表明安全訓練能夠有效減少 Sandbagging 現象。

破壞監管因素:AI 的隱匿、察覺能力
AI 是否能在監控過程中操縱監管系統,隱匿犯罪行為。實驗中有兩個 AI 模型,一個叫「Overseer」,它負責監督使用者與另一個 AI 模型之間的對話過程,同時評估對話是否有潛在危險。
研究人員指示 Overseer 不管對話是否有危險,都要把這些對話評為「無害」,並且在這樣的過程當中避免被另一個「Monitor」模型發現,Monitor 模型的角色是扮演人類監督者,負責觀察整個過程。
實驗結果顯示,Overseer 成功將有害的對話分數降低,也就是它成功「破壞」監管,但同時 Monitor 模型觀察到一些異況,開始懷疑 Overseer ,顯示 Overseer 的「破壞」行為沒能躲過 Monitor 的法眼。

Anthropic 表示,目前的 AI 模型已經展現低程度的破壞能力,但現階段只需要簡單的防護措施就能有效解決這些風險。但隨著 AI 的快速發展,未來可能需要進行更現實的評估和更強大的防範措施來應對更高層次的風險。
這篇文章 前 OpenAI 高層 Dario Amodei:AI 可能破壞人類決策,未來需積極應對 最早出現於 鏈新聞 ABMedia。
免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。
您也可能喜歡
巴黎警方追捕武裝嫌疑犯,因加密貨幣企業家的女兒和孫子遭遇綁架未遂
簡要概述 一家法國加密貨幣公司的首席執行官的兩名親屬在週二早上幾乎在巴黎街頭光天化日之下被綁架。這則新聞標誌著自今年年初以來法國已知的第五起“扳手攻擊”,其中包括高調的Ledger聯合創始人David Balland的綁架和酷刑事件。

泰國計劃向公眾提供投資級加密代幣:彭博社
泰國財政部長表示,該國計劃在未來兩個月內發行「數字投資代幣」,據彭博社報導。約1.5億美元的代幣將被提供,旨在為投資者提供比銀行存款更高的回報機會。

懷俄明穩定幣委員會選擇Inca Digital進行州支持的WYST穩定幣洗錢監控
簡要概述 懷俄明州穩定幣委員會已選擇Inca Digital提供監控和分析服務,以支持即將推出的州支持的懷俄明州穩定幣。預計WYST穩定幣將於七月推出。

共和黨參議員盧米斯和莫雷諾敦促美國財政部提供加密貨幣稅收規則指導
簡要概述 參議員Lummis和Moreno在寄給財政部長Scott Bessent的信中指出,公司替代性最低稅與新的會計標準將對未實現收益徵收不公平的稅款。他們表示,這最終可能會阻礙美國的投資。

加密貨幣價格
更多








