近日,由蘇州市人工智能重點實驗室自主研發(fā)的“蘇零”智能體在全球權(quán)威評測GAIA中一舉登頂。
GAIA是由國際頂尖團隊聯(lián)合打造的評測基準(zhǔn),用466道“魔鬼考題”模擬真實世界挑戰(zhàn),涵蓋網(wǎng)頁瀏覽與信息整合、多模態(tài)理解、代碼執(zhí)行與數(shù)據(jù)分析、文件處理及復(fù)雜的推理和任務(wù)規(guī)劃。不同于其他聚焦于抽象模式識別的評測基準(zhǔn),GAIA更注重評估AI在真實世界任務(wù)中的表現(xiàn),包括推理、多模態(tài)處理(文本、圖像、音頻)以及工具使用能力。
自2023年11月份推出后,GAIA成為各大廠和創(chuàng)業(yè)公司爭相競逐的權(quán)威評測榜單,不斷被刷新紀(jì)錄。此次,“蘇零”智能體憑借獨特的多智能體協(xié)作與辯論機制、靈活的工具調(diào)用、自主決策和實時修正能力,以76.41%的準(zhǔn)確率碾壓一眾國際選手。其中,在包含301個問題的測試集上,超越了微軟、谷歌和硅谷AI獨角獸公司H2O智能體等許多國際頂尖競爭對手。
蘇州市人工智能重點實驗室由蘇州市政府聯(lián)合蘇州數(shù)智科技集團、中國科學(xué)技術(shù)大學(xué)蘇州高研院等產(chǎn)學(xué)研龍頭單位共建,是長三角區(qū)域首個以“人工智能+”為核心使命的創(chuàng)新平臺。