在最近的第六屆阿里巴巴全球數(shù)學競賽中,一項新的挑戰(zhàn)吸引了全球的注意:AI大模型挑戰(zhàn)賽。這次比賽不僅有來自全球的數(shù)學愛好者參與,還特別開放給了AI隊伍,讓人工智能與人類直接在同一賽場上競技。
第六屆阿里數(shù)學賽競賽中,17歲學生姜萍位列12名成全球矚目,同時AI隊伍的表現(xiàn)也引人注目,平均分達到了18分,顯示出它們在解決標準化問題上的能力已經(jīng)與人類選手相當。然而,盡管AI的表現(xiàn)在某些方面已經(jīng)接近人類,但在高分段的表現(xiàn)仍有很大差距。AI的最高分為34分,遠低于人類選手的最高分113分。
這次比賽中,AI隊伍的最高分是由上海建平中學的涂津豪設計的AI方案獲得。他的方法是讓多個大模型通過“自問自答自驗證”的方式,進行深度思考和問題解決,最終從多個可能的答案中選擇最優(yōu)解。
此外,來自西南交通大學的特工宇宙團隊和中國人民大學的SuperCarryMan團隊也表現(xiàn)出色,分別以27分的成績獲得亞軍和季軍。這兩支隊伍都采用了多智能體系統(tǒng),通過不同智能體的協(xié)作和多階段推理來解決問題。
盡管AI在這次競賽中展現(xiàn)了一定的能力,但賽事的結果也揭示了AI在進行復雜推理和創(chuàng)新思考方面的局限。浙江大學計算機系統(tǒng)結構實驗室的陳天楚指出,目前的大語言模型主要是通過固定速率預測下一個詞,而這種一次性輸出的方式并不適合需要深層次邏輯推理和多次試錯的任務。
AI挑戰(zhàn)賽的結果不僅展示了人工智能在數(shù)學領域的進步和挑戰(zhàn),也引發(fā)了對AI本質的更深入探討。技術總監(jiān)認為,雖然AI在處理規(guī)則明確的計算問題上可能超越人類,但在需要高度創(chuàng)新和深度邏輯推理的領域,人類的優(yōu)勢仍然明顯。
通過這次競賽,AI的發(fā)展和人類的理解可能會進一步推動,不僅在數(shù)學理論上,也可能在AI技術的應用和發(fā)展上帶來新的突破。而阿里數(shù)賽作為全球規(guī)模最大的在線數(shù)學競賽之一,將繼續(xù)為全球的數(shù)學愛好者和AI研究者提供一個展示和競技的平臺。