【zoty中歐體育官方網站】7月18日,Open AI首席執(zhí)行官Sam Altman和四位研究員在直播中正式發(fā)布了ChatGPT Agent——一款通用型AI智能體。CNMO獲悉,在HLE測試中,ChatGPT agent拿下了41.6%高分,并在數學FrontierMath基準上刷新了SOTA,碾壓o4-mini和o3模型。
Sam Altman(最右)及他的團隊
ChatGPT Agent融合了Operator、Deep Research和ChatGPT三大模塊優(yōu)勢,能夠自主完成網頁瀏覽、數據分析、PPT制作等復雜任務。
ChatGPT Agent在HLE測試中獲得41.6%的高分,采用并行八路推理并選取置信度最高答案后可提升到44.4%。在數學基準測試FrontierMath中,以27.4%的準確率刷新了紀錄。
在Excel編輯能力的SpreadsheetBench測試中,ChatGPT agent的表現同樣遠超現有模型。當獲得直接編輯權限時,以45.5%的得分顯著超越Excel Copilot的20.0%。此外,它還在BrowseComp、WebArena等瀏覽評測里均刷新了SOTA。
據悉,該產品已面向Pro、Plus和Team用戶開放。Pro用戶可以馬上使用,Plus與Team用戶將在數日內陸續(xù)開通,Enterprise與Education版本將于數周后接入。
版權所有,未經許可不得轉載
-zoty中歐體育官方網站