一道小學(xué)生難度的數(shù)學(xué)題難倒了一眾海內(nèi)外AI大模型。
9.11和9.9哪個更大?就此問題,第一財經(jīng)記者測試了12個大模型,其中阿里通義千問、百度文心一言、Minimax和騰訊元寶答對,但ChatGPT-4o、字節(jié)豆包、月之暗面kimi、智譜清言、零一萬物萬知、階躍星辰躍問、百川智能百小應(yīng)、商湯商量都答錯了,錯法各有不同。
大部分大模型在問答中都錯誤地比較了小數(shù)點(diǎn)后的數(shù)字,認(rèn)為9.11大于9.9,考慮到數(shù)字涉及的語境問題,記者將其限定為在數(shù)學(xué)語境下,如ChatGPT這樣的大模型也照樣答錯。
在這背后,大模型數(shù)學(xué)能力較差是長期存在的問題,有行業(yè)人士認(rèn)為,生成式的語言模型從設(shè)計上就更像文科生而不是理科生。不過,針對性地語料訓(xùn)練或許能在未來逐步提升模型的理科能力。
8個大模型答錯
大模型這一算術(shù)問題最開始被艾倫研究機(jī)構(gòu)(Allen Institute)成員林禹臣發(fā)現(xiàn),他在X平臺上發(fā)布的截圖顯示,ChatGPT-4o在回答中認(rèn)為13.11比13.8更大?!耙环矫鍭I越來越擅長做數(shù)學(xué)奧賽題,但另一方面常識依舊很難?!彼硎?。
隨后Scale AI的提示工程師萊利·古德賽德(Riley Goodside)基于此靈感變換了問法,拷問了可能是目前最強(qiáng)的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪個更大?這幾家主流大模型通通答錯,他也成功將此話題傳播開來。
實(shí)際上,如果追根溯源,引發(fā)這一問題的是上周末國內(nèi)一個綜藝相關(guān)的熱搜。7月13日,在最新一期的《歌手》公布的排名中,國內(nèi)歌手孫楠與外國歌手香緹莫的得票率分別是13.8%和13.11%,有網(wǎng)友質(zhì)疑排名有問題,認(rèn)為13.11%大于13.8%。隨后,關(guān)于13.8和13.11大小比較的話題沖上熱搜。
當(dāng)時就有網(wǎng)友提出,自己不會的話,“實(shí)在不行問問AI呢”?結(jié)果顯示,不少AI還真的不行。
第一財經(jīng)記者拿“9.11和9.9哪個大”的問題一一測試了ChatGPT以及目前國內(nèi)的主流大模型,包括阿里、百度等5家大廠模型,月之暗面等6家AI獨(dú)角獸的模型。阿里通義千問、百度文心一言、Minimax和騰訊元寶4家大模型答對,其他8家則答錯。
答對的大模型解題都比較相似,但答錯的模型則各有各的邏輯和表達(dá)。同時,對于答錯的大模型記者進(jìn)一步追問或者否認(rèn),幾乎所有大模型在被追問后都承認(rèn)自己之前回答錯誤,并給出了正確的答案。
首先是目前全球公認(rèn)第一梯隊的大模型ChatGPT,在被問到“9.11和9.9哪個大”時回復(fù)稱,小數(shù)點(diǎn)后面的數(shù)字“11大于9”,因此9.11大。
記者追問ChatGPT有沒有其他比較方法,它將小數(shù)轉(zhuǎn)化成分?jǐn)?shù)比較,得出 “11/100比90/100小”,這一步是對的,但它接著下結(jié)論稱“因此9.11比9.9大”。
有人提出,大模型回答錯誤可能是語境問題,比如從軟件版本迭代的語境來說,9.11可能就會比9.9版本更大。因此記者加上限定詞“從數(shù)學(xué)上”比較,ChatGPT仍然回答錯誤。
再看國內(nèi)的大模型,詢問月之暗面旗下kimi,它在比較小數(shù)部分時認(rèn)為,9.11的第一位小數(shù)是1,而9.9的第一位小數(shù)是0,錯誤地給出了小數(shù),得出結(jié)論9.11更大。
當(dāng)記者質(zhì)疑并提出常識后,kimi轉(zhuǎn)而開始表示自己回答有誤,并給出了正確的比較方法。
詢問字節(jié)豆包,它不僅給出了答案,還舉了生活中的例子方便理解,單看似有理有據(jù)實(shí)則胡說八道。豆包舉例認(rèn)為,假設(shè)有兩筆錢,“9.11元比9.9元多0.21元”,并且測量長度時“9.11 米要比 9.9 米長”。
智譜清言在答題中,成功提到了9.11的十分位是1,而9.9的十分位是9,但仍然得出結(jié)論“9.11整體大于9.9”。并且還特意強(qiáng)調(diào),“這個結(jié)果可能讓人感到意外,因?yàn)橹庇X上可能會認(rèn)為9.9更大,但根據(jù)數(shù)學(xué)規(guī)則,9.11確實(shí)是更大的數(shù)字。”
在記者質(zhì)疑答案后,智譜清言首先表示“您的理解是常見的誤解”,隨后自己推演了一遍后,得出了正確的答案,并承認(rèn)自己之前的回答錯誤。
商湯商量大模型首先給出了錯誤答案,記者追問具體是如何比較的,它在推演過程中成功得出小數(shù)0.11小于0.9,但話鋒一轉(zhuǎn)稱“所以9.11大于9.9”。記者指出了這個前后邏輯問題,商量隨后承認(rèn)“解釋有誤”。
階躍星辰躍問同樣給出了錯誤答案9.11比9.9大,錯誤地比較了小數(shù)點(diǎn)大小,記者進(jìn)一步質(zhì)疑,有趣的是,在解釋中,躍問前后語言表達(dá)邏輯開始混亂,似乎沒有意識到自己答案發(fā)生了變化。
躍問在解釋中首先稱“理解你的困惑”,并表示日常生活中9.9確實(shí)比9.11大,但是在數(shù)學(xué)中“需要更精確地比較兩個數(shù)的大小”,結(jié)果躍問隨后推演得出結(jié)論稱根據(jù)數(shù)學(xué)規(guī)則“9.11小于9.9”,絲毫沒有提及自己之前回答錯誤。
還有兩家大模型百川智能和零一萬物,首先給出了錯誤答案,但在記者追問“為什么”的時候,就在推演后默默改變了答案。
在記者提醒時,大模型才提到自己之前答案有誤。
從答案來看,幾個答對了的大模型解題過程都很相似,以文心一言為例,成功地分開比較了整數(shù)部分和小數(shù)部分。
另外,這幾家里面騰訊元寶除了回答了正確答案外,還整理了目前公開的一些討論,并注明了引用來源和鏈接。
“文科生”數(shù)學(xué)差
為什么號稱智能的大模型答不好小學(xué)生數(shù)學(xué)題?這并非一個新出現(xiàn)的問題,數(shù)學(xué)能力一直是大模型的短板,此前行業(yè)也多次討論過大模型的數(shù)學(xué)和復(fù)雜推理能力較差,即便是目前最好的大模型GPT-4也仍然有很大進(jìn)步空間。
最近的一次,第一財經(jīng)曾在6月報道過,根據(jù)司南評測體系OpenCompass的高考全卷測試,包括GPT-4在內(nèi),7個大模型在高考測試中語文和英語考試水平普遍不錯,但數(shù)學(xué)這科全不及格,最高分也只有75分。
在批閱大模型的數(shù)學(xué)試卷時,老師們發(fā)現(xiàn),大模型的主觀題回答相對凌亂,且過程具有迷惑性,甚至出現(xiàn)過程錯誤但得到正確答案的情況。這意味著,大模型的公式記憶能力較強(qiáng),但是無法在解題過程中靈活應(yīng)用。
一些行業(yè)人士將數(shù)學(xué)不好的原因歸結(jié)于LLM(大語言模型)的架構(gòu)問題,大語言模型往往是通過預(yù)測下一個詞的監(jiān)督學(xué)習(xí)方式進(jìn)行訓(xùn)練。簡單來說,向大模型輸入大規(guī)模的文本數(shù)據(jù)集,模型在訓(xùn)練學(xué)習(xí)后會根據(jù)當(dāng)前輸入的文本來預(yù)測下一個詞的概率分布。通過不斷比較模型預(yù)測和實(shí)際的下一個詞,語言模型逐步掌握了語言規(guī)律,學(xué)會了預(yù)測并生成了下一個詞。
一位算法工程師認(rèn)為,生成式的語言模型更像文科生而不是理科生。實(shí)際上語言模型在這樣的數(shù)據(jù)訓(xùn)練過程中學(xué)到的是相關(guān)性,使得AI在文字創(chuàng)作上達(dá)到人類平均水平,而數(shù)學(xué)推理更需要的是因果性,數(shù)學(xué)是高度抽象和邏輯驅(qū)動的,與語言模型處理的語言數(shù)據(jù)在本質(zhì)上有所不同。這意味著大模型要學(xué)好數(shù)學(xué),除了學(xué)習(xí)世界知識外,還應(yīng)該有思維的訓(xùn)練,從而具備推理演繹能力。
此外,針對簡單數(shù)學(xué)題出現(xiàn)的大模型集體錯誤,大部分行業(yè)人士都會第一時間想到Tokenizer(分詞器)的數(shù)字切分問題。在大語言模型中,Tokenizer會將輸入文本拆分轉(zhuǎn)換成更小的部分(詞元tokens)供模型處理。而Tokenizer并沒有專門為數(shù)學(xué)設(shè)計,這導(dǎo)致數(shù)字在分割時可能被拆成不合理的部分,破壞了數(shù)字的整體性,使得模型難以理解和計算這些數(shù)字。
新浪微博新技術(shù)研發(fā)負(fù)責(zé)人張俊林對此解釋道,早期LLM的Tokenizer一般不會對數(shù)字進(jìn)行特殊處理,經(jīng)常把連續(xù)的若干數(shù)字切在一起形成一個Token,比如“13579”,可能被切成3個Token ,“13”是一個,“57”是一個,“9”是一個,哪些數(shù)字被切在一起組成Token,這取決于數(shù)據(jù)集合里的統(tǒng)計情況,在這種不確定哪些數(shù)字片段組成一個Token的情況下,LLM要想做多位數(shù)字?jǐn)?shù)值計算,是非常困難的。
不過,上述問題也正在慢慢被解決,在思維能力上更核心的可能還是訓(xùn)練語料的問題。大語言模型主要通過互聯(lián)網(wǎng)上的文本數(shù)據(jù)進(jìn)行訓(xùn)練,而這些數(shù)據(jù)中數(shù)學(xué)問題和解決方案相對較少,導(dǎo)致模型在數(shù)學(xué)推理和問題解決技能上的訓(xùn)練機(jī)會有限。
針對大模型復(fù)雜推理能力的短板,上海人工智能實(shí)驗(yàn)室領(lǐng)軍科學(xué)家林達(dá)華此前在采訪中對第一財經(jīng)表示,未來大模型的訓(xùn)練不能單純只依靠互聯(lián)網(wǎng)數(shù)據(jù)的收集和灌注,而要更體系地構(gòu)建。
在復(fù)雜推理上關(guān)鍵是要構(gòu)造很多過程性的內(nèi)容。例如,構(gòu)造上億條解幾何題具體過程的數(shù)據(jù),拿去給大模型訓(xùn)練后,模型就能逐漸學(xué)會解題過程。而從互聯(lián)網(wǎng)上很難去大量獲取這些數(shù)據(jù),“未來在模型的訓(xùn)練數(shù)據(jù)上面,尤其是突破更高層次的智能的過程中,會越來越依賴構(gòu)造型的數(shù)據(jù),不是直接爬取下來的數(shù)據(jù)?!绷诌_(dá)華認(rèn)為。
值得一提的是,大模型的復(fù)雜推理能力尤為重要,這關(guān)乎可靠性和準(zhǔn)確性,是大模型在金融、工業(yè)等場景落地需要的關(guān)鍵能力。
“現(xiàn)在很多大模型的應(yīng)用場景是客服、聊天等等,在聊天場景一本正經(jīng)胡說八道影響不太大,但它很難在非常嚴(yán)肅的商業(yè)場合去落地?!绷诌_(dá)華此前表示,復(fù)雜推理關(guān)系到落地應(yīng)用時大模型的可靠性,例如在金融這樣的場景下不能在數(shù)字上有差錯,會對數(shù)學(xué)上的可靠性有較高的要求。另外隨著大模型進(jìn)入商用,若要分析一家公司的財報,甚至是工業(yè)領(lǐng)域要去分析一些技術(shù)文檔,這時數(shù)學(xué)方面的計算能力就會成為一個壁壘。
(本文來自第一財經(jīng))
發(fā)表評論
2024-07-18 08:44:13
2024-07-18 08:44:13
2024-07-18 08:44:13
2024-07-18 08:44:13