OpenAI最新發布的評測工具GDPval-v0,首次量化AI在執行具有經濟價值工作任務方面的能力,顯示AI正迅速追趕甚至逼近人類專業人員水平。巴克萊表示,最先進的AI模型已在眾多職業任務中,達到和人類專家相當的能力,而且這種能力提升速度正在加快。

OpenAI最新的評估工具,涵蓋美國GDP佔比較大的9個商業領域中,44個職業約1300項具體工作任務,從法律文書到工程藍圖,再到護理計劃等真實工作交付成果。

結果顯示,當前最頂尖的AI模型在執行許多職業任務時,能力已與人類專業人士相當,巴克萊最新的研究報告指,Anthropic的Claude Opus 4.1在與人類專家對比中,取得47.6%的「勝利或平局」比率,位居榜首。

巴克萊分析師指,AI模型的「勝率」在過去15個月中,線性提升約4倍,預計在未來12至24個月內,AI將在大多數工作相關任務上超越人類。分析認為,這一突破為評估AI投資回報率提供關鍵數據支撐。

OpenAI的評測工具,由平均擁有超過14年行業經驗的資深專業人士設計,涵蓋科技服務、金融保險、醫療保健、信息業、製造業等1230個專業任務。同傳統基準測試不同,OpenAI的任務並非簡單文本問答,而是包含參考文件和上下文的複雜場景,要求AI交付多樣化成果,包括文檔、幻燈片、圖表和電子表格等。巴克萊指出,這種設計更貼近現實工作環境的複雜性。

評測採用盲測方式,由行業專家對AI和人類生成的工作成果進行排名,從難度、代表性、完成時間和整體質量等維度,進行綜合評估。巴克萊分析顯示,Claude Opus 4.1以47.6%的勝率領先,GPT-5-high緊隨其後,達到38.8%,o3 high為34.1%。

從行業看,AI在零售貿易(56%勝率)、批發貿易(53%)和政府部門(52%)的表現,超過人類專家,但在信息技術行業表現相對較弱(39%)。

職業層面上,AI在櫃台和租賃文員(80%)、運輸接收和庫存文員(76%)以及軟件開發人員(70%)任務中表現最佳,而在工業工程師(17%)和影視編輯(17%)任務中表現較差。

而各模型亦表現出不同特點:Claude Opus 4.1在美學表現(格式和布局)方面表現出色,GPT-5在遵循指令和執行準確計算方面最為精準。

巴克萊指,GPT-5的模型仍會犯一些災難性錯誤(2.7%),但47.7%的失誤被歸類為「可接受但不佳」,22.9%的情況下模型表現甚至優於人類。巴克萊分析師認為,AI模型的原始智能,特別是GPT-5,已達到超越人類專家的水平。通過更多後期訓練,包括微調和強化學習,AI全面超越行業專家的時代已為時不遠。