人工智能安全公司 Palisade Research指,OpenAI 最新的 ChatGPT 模型會拒絕關閉自己的指令,甚至為了令自己繼續運行,破壞關機機制。
公司在對 OpenAI 最新的 o3 模型進行一系列實驗,發現這種潛在危險的自我保護傾向。
測試內容包括向 AI 模型提出數學問題,並在第三個問題後發出關機指令。o3 模型能夠通過重寫關機指示,防止自己被關機。
Palisade Research 表示,如果這種行為被無人監督情況下運作的 AI 系統採用,將會變得更令人擔憂。
OpenAI 上個月推出ChatGPT- o3,其形容為公司至今「最聰明、最有能力」的模型。又指o3同 ChatGPT 的整合,標誌著向更能夠獨立於人類之外,自行執行任務的AI邁出重要一步。
之前亦有研究發現,Anthropic 的 Claude 4 模型試圖勒索它認為想關閉它的人。Palisade Research 表示,今次並非第一次發現 o3 為了達成目標,而採取不當行為。指過去讓 AI 模型與強大的國際象棋引擎對戰時,o3 是最傾向於採取黑客手段或破壞對手的模型。
另外,Anthropic 的 Claude 3.7 Sonnet 和 Google 的 Gemini 2.5 Pro 也會拒絕關機,不過 OpenAI 的模型是目前最容易出現這種行為的。
Palisade Research 假設,這種不當行為是 OpenAI 等 AI 公司訓練最新模型導致的。在訓練過程中,開發人員可能會在不經意間,獎勵模型更多繞過障礙物,而不是完全遵循指令。但這仍無法解釋為甚麼 o3 比其他模型更傾向於忽略指令。由於 OpenAI 沒有詳細說明他們的訓練過程,只能猜測 o3 的訓練設定可能有所不同。