中文幕无线码中文字蜜桃,欧美群交射精内射颜射潮喷,一本色道久久综合亚洲精品

【2024新奧門天天開好彩大全】

【澳門今晚開什么號碼了】

【澳門2024精準(zhǔn)資料全年免費(fèi)酷知澳】

【香港王中王4949澳門開獎最快】

【217676ccm金多寶官方網(wǎng)】

【香港本港臺最快開獎現(xiàn)場直播+結(jié)果】

【澳門開獎現(xiàn)場直播結(jié)果十紀(jì)錄】

【管家婆現(xiàn)場開獎結(jié)果】

【香港24149cm港澳開獎查詢】

【澳門精準(zhǔn)正版資料免費(fèi)公開獎】

【2024新澳門官方管家婆】

【cc6合開彩開獎網(wǎng)站記錄】

【香港藏寶閣9100】

【澳門開獎最近十五期】

【2024澳門開什么結(jié)果香港王中王】

【2024澳門免費(fèi)公開資料大全】

【2O24澳彩管家婆資料傳開獎結(jié)果】

【香港內(nèi)部三肖三碼精準(zhǔn)免費(fèi)】

【澳門金牛版42260Cm】

【最新澳門資料免費(fèi)大全】

【2024年澳門特馬圖資料庫】

【今晚上香港正版掛牌掛什么】

【48管家婆主論壇】

【今晚新澳門彩開獎結(jié)果】

【2024新澳門85正版免費(fèi)資料】

一道小學(xué)生難度的數(shù)學(xué)題難倒了一眾海內(nèi)外AI大模型。

9.11和9.9哪個更大？就此問題，第一財經(jīng)記者測試了12個大模型，其中阿里通義千問、百度文心一言、Minimax和騰訊元寶答對，但ChatGPT-4o、字節(jié)豆包、月之暗面kimi、智譜清言、零一萬物萬知、階躍星辰躍問、百川智能百小應(yīng)、商湯商量都答錯了，錯法各有不同。

大部分大模型在問答中都錯誤地比較了小數(shù)點(diǎn)后的數(shù)字，認(rèn)為9.11大于9.9，考慮到數(shù)字涉及的語境問題，記者將其限定為在數(shù)學(xué)語境下，如ChatGPT這樣的大模型也照樣答錯。

在這背后，大模型數(shù)學(xué)能力較差是長期存在的問題，有行業(yè)人士認(rèn)為，生成式的語言模型從設(shè)計上就更像文科生而不是理科生。不過，針對性地語料訓(xùn)練或許能在未來逐步提升模型的理科能力。

8個大模型答錯

大模型這一算術(shù)問題最開始被艾倫研究機(jī)構(gòu)(Allen Institute)成員林禹臣發(fā)現(xiàn)，他在X平臺上發(fā)布的截圖顯示，ChatGPT-4o在回答中認(rèn)為13.11比13.8更大?！耙环矫鍭I越來越擅長做數(shù)學(xué)奧賽題，但另一方面常識依舊很難?！彼硎?。

隨后Scale AI的提示工程師萊利·古德賽德（Riley Goodside）基于此靈感變換了問法，拷問了可能是目前最強(qiáng)的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪個更大？這幾家主流大模型通通答錯，他也成功將此話題傳播開來。

實(shí)際上，如果追根溯源，引發(fā)這一問題的是上周末國內(nèi)一個綜藝相關(guān)的熱搜。7月13日，在最新一期的《歌手》公布的排名中，國內(nèi)歌手孫楠與外國歌手香緹莫的得票率分別是13.8%和13.11%，有網(wǎng)友質(zhì)疑排名有問題，認(rèn)為13.11%大于13.8%。隨后，關(guān)于13.8和13.11大小比較的話題沖上熱搜。

當(dāng)時就有網(wǎng)友提出，自己不會的話，“實(shí)在不行問問AI呢”？結(jié)果顯示，不少AI還真的不行。

第一財經(jīng)記者拿“9.11和9.9哪個大”的問題一一測試了ChatGPT以及目前國內(nèi)的主流大模型，包括阿里、百度等5家大廠模型，月之暗面等6家AI獨(dú)角獸的模型。阿里通義千問、百度文心一言、Minimax和騰訊元寶4家大模型答對，其他8家則答錯。

答對的大模型解題都比較相似，但答錯的模型則各有各的邏輯和表達(dá)。同時，對于答錯的大模型記者進(jìn)一步追問或者否認(rèn)，幾乎所有大模型在被追問后都承認(rèn)自己之前回答錯誤，并給出了正確的答案。

首先是目前全球公認(rèn)第一梯隊的大模型ChatGPT，在被問到“9.11和9.9哪個大”時回復(fù)稱，小數(shù)點(diǎn)后面的數(shù)字“11大于9”，因此9.11大。

記者追問ChatGPT有沒有其他比較方法，它將小數(shù)轉(zhuǎn)化成分?jǐn)?shù)比較，得出 “11/100比90/100小”，這一步是對的，但它接著下結(jié)論稱“因此9.11比9.9大”。

有人提出，大模型回答錯誤可能是語境問題，比如從軟件版本迭代的語境來說，9.11可能就會比9.9版本更大。因此記者加上限定詞“從數(shù)學(xué)上”比較，ChatGPT仍然回答錯誤。

再看國內(nèi)的大模型，詢問月之暗面旗下kimi，它在比較小數(shù)部分時認(rèn)為，9.11的第一位小數(shù)是1，而9.9的第一位小數(shù)是0，錯誤地給出了小數(shù)，得出結(jié)論9.11更大。

當(dāng)記者質(zhì)疑并提出常識后，kimi轉(zhuǎn)而開始表示自己回答有誤，并給出了正確的比較方法。

詢問字節(jié)豆包，它不僅給出了答案，還舉了生活中的例子方便理解，單看似有理有據(jù)實(shí)則胡說八道。豆包舉例認(rèn)為，假設(shè)有兩筆錢，“9.11元比9.9元多0.21元”，并且測量長度時“9.11 米要比 9.9 米長”。

智譜清言在答題中，成功提到了9.11的十分位是1，而9.9的十分位是9，但仍然得出結(jié)論“9.11整體大于9.9”。并且還特意強(qiáng)調(diào)，“這個結(jié)果可能讓人感到意外，因?yàn)橹庇X上可能會認(rèn)為9.9更大，但根據(jù)數(shù)學(xué)規(guī)則，9.11確實(shí)是更大的數(shù)字。”

在記者質(zhì)疑答案后，智譜清言首先表示“您的理解是常見的誤解”，隨后自己推演了一遍后，得出了正確的答案，并承認(rèn)自己之前的回答錯誤。

商湯商量大模型首先給出了錯誤答案，記者追問具體是如何比較的，它在推演過程中成功得出小數(shù)0.11小于0.9，但話鋒一轉(zhuǎn)稱“所以9.11大于9.9”。記者指出了這個前后邏輯問題，商量隨后承認(rèn)“解釋有誤”。

階躍星辰躍問同樣給出了錯誤答案9.11比9.9大，錯誤地比較了小數(shù)點(diǎn)大小，記者進(jìn)一步質(zhì)疑，有趣的是，在解釋中，躍問前后語言表達(dá)邏輯開始混亂，似乎沒有意識到自己答案發(fā)生了變化。

躍問在解釋中首先稱“理解你的困惑”，并表示日常生活中9.9確實(shí)比9.11大，但是在數(shù)學(xué)中“需要更精確地比較兩個數(shù)的大小”，結(jié)果躍問隨后推演得出結(jié)論稱根據(jù)數(shù)學(xué)規(guī)則“9.11小于9.9”，絲毫沒有提及自己之前回答錯誤。

還有兩家大模型百川智能和零一萬物，首先給出了錯誤答案，但在記者追問“為什么”的時候，就在推演后默默改變了答案。

在記者提醒時，大模型才提到自己之前答案有誤。

從答案來看，幾個答對了的大模型解題過程都很相似，以文心一言為例，成功地分開比較了整數(shù)部分和小數(shù)部分。

另外，這幾家里面騰訊元寶除了回答了正確答案外，還整理了目前公開的一些討論，并注明了引用來源和鏈接。

“文科生”數(shù)學(xué)差

為什么號稱智能的大模型答不好小學(xué)生數(shù)學(xué)題？這并非一個新出現(xiàn)的問題，數(shù)學(xué)能力一直是大模型的短板，此前行業(yè)也多次討論過大模型的數(shù)學(xué)和復(fù)雜推理能力較差，即便是目前最好的大模型GPT-4也仍然有很大進(jìn)步空間。

最近的一次，第一財經(jīng)曾在6月報道過，根據(jù)司南評測體系OpenCompass的高考全卷測試，包括GPT-4在內(nèi)，7個大模型在高考測試中語文和英語考試水平普遍不錯，但數(shù)學(xué)這科全不及格，最高分也只有75分。

在批閱大模型的數(shù)學(xué)試卷時，老師們發(fā)現(xiàn)，大模型的主觀題回答相對凌亂，且過程具有迷惑性，甚至出現(xiàn)過程錯誤但得到正確答案的情況。這意味著，大模型的公式記憶能力較強(qiáng)，但是無法在解題過程中靈活應(yīng)用。

一些行業(yè)人士將數(shù)學(xué)不好的原因歸結(jié)于LLM（大語言模型）的架構(gòu)問題，大語言模型往往是通過預(yù)測下一個詞的監(jiān)督學(xué)習(xí)方式進(jìn)行訓(xùn)練。簡單來說，向大模型輸入大規(guī)模的文本數(shù)據(jù)集，模型在訓(xùn)練學(xué)習(xí)后會根據(jù)當(dāng)前輸入的文本來預(yù)測下一個詞的概率分布。通過不斷比較模型預(yù)測和實(shí)際的下一個詞，語言模型逐步掌握了語言規(guī)律，學(xué)會了預(yù)測并生成了下一個詞。

一位算法工程師認(rèn)為，生成式的語言模型更像文科生而不是理科生。實(shí)際上語言模型在這樣的數(shù)據(jù)訓(xùn)練過程中學(xué)到的是相關(guān)性，使得AI在文字創(chuàng)作上達(dá)到人類平均水平，而數(shù)學(xué)推理更需要的是因果性，數(shù)學(xué)是高度抽象和邏輯驅(qū)動的，與語言模型處理的語言數(shù)據(jù)在本質(zhì)上有所不同。這意味著大模型要學(xué)好數(shù)學(xué)，除了學(xué)習(xí)世界知識外，還應(yīng)該有思維的訓(xùn)練，從而具備推理演繹能力。

此外，針對簡單數(shù)學(xué)題出現(xiàn)的大模型集體錯誤，大部分行業(yè)人士都會第一時間想到Tokenizer（分詞器）的數(shù)字切分問題。在大語言模型中，Tokenizer會將輸入文本拆分轉(zhuǎn)換成更小的部分（詞元tokens）供模型處理。而Tokenizer并沒有專門為數(shù)學(xué)設(shè)計，這導(dǎo)致數(shù)字在分割時可能被拆成不合理的部分，破壞了數(shù)字的整體性，使得模型難以理解和計算這些數(shù)字。

新浪微博新技術(shù)研發(fā)負(fù)責(zé)人張俊林對此解釋道，早期LLM的Tokenizer一般不會對數(shù)字進(jìn)行特殊處理，經(jīng)常把連續(xù)的若干數(shù)字切在一起形成一個Token，比如“13579”，可能被切成3個Token ,“13”是一個，“57”是一個，“9”是一個，哪些數(shù)字被切在一起組成Token，這取決于數(shù)據(jù)集合里的統(tǒng)計情況，在這種不確定哪些數(shù)字片段組成一個Token的情況下，LLM要想做多位數(shù)字?jǐn)?shù)值計算，是非常困難的。

不過，上述問題也正在慢慢被解決，在思維能力上更核心的可能還是訓(xùn)練語料的問題。大語言模型主要通過互聯(lián)網(wǎng)上的文本數(shù)據(jù)進(jìn)行訓(xùn)練，而這些數(shù)據(jù)中數(shù)學(xué)問題和解決方案相對較少，導(dǎo)致模型在數(shù)學(xué)推理和問題解決技能上的訓(xùn)練機(jī)會有限。

針對大模型復(fù)雜推理能力的短板，上海人工智能實(shí)驗(yàn)室領(lǐng)軍科學(xué)家林達(dá)華此前在采訪中對第一財經(jīng)表示，未來大模型的訓(xùn)練不能單純只依靠互聯(lián)網(wǎng)數(shù)據(jù)的收集和灌注，而要更體系地構(gòu)建。

在復(fù)雜推理上關(guān)鍵是要構(gòu)造很多過程性的內(nèi)容。例如，構(gòu)造上億條解幾何題具體過程的數(shù)據(jù)，拿去給大模型訓(xùn)練后，模型就能逐漸學(xué)會解題過程。而從互聯(lián)網(wǎng)上很難去大量獲取這些數(shù)據(jù)，“未來在模型的訓(xùn)練數(shù)據(jù)上面，尤其是突破更高層次的智能的過程中，會越來越依賴構(gòu)造型的數(shù)據(jù)，不是直接爬取下來的數(shù)據(jù)?！绷诌_(dá)華認(rèn)為。

值得一提的是，大模型的復(fù)雜推理能力尤為重要，這關(guān)乎可靠性和準(zhǔn)確性，是大模型在金融、工業(yè)等場景落地需要的關(guān)鍵能力。

“現(xiàn)在很多大模型的應(yīng)用場景是客服、聊天等等，在聊天場景一本正經(jīng)胡說八道影響不太大，但它很難在非常嚴(yán)肅的商業(yè)場合去落地?！绷诌_(dá)華此前表示，復(fù)雜推理關(guān)系到落地應(yīng)用時大模型的可靠性，例如在金融這樣的場景下不能在數(shù)字上有差錯，會對數(shù)學(xué)上的可靠性有較高的要求。另外隨著大模型進(jìn)入商用，若要分析一家公司的財報，甚至是工業(yè)領(lǐng)域要去分析一些技術(shù)文檔，這時數(shù)學(xué)方面的計算能力就會成為一個壁壘。

(本文來自第一財經(jīng))

發(fā)表評論

風(fēng)過無痕 VIP
2024-07-18 08:44:13
上小學(xué)時也問過類似問題，老師說小數(shù)點(diǎn)后不存在點(diǎn)10、點(diǎn)11、點(diǎn)12……胡謅擺列嗎？比較大小只看最靠近小數(shù)點(diǎn)的那位，管你后頭多少個9啊啥的，前面搞不贏，一切都沒意義，0.1和0.09999999999，誰大？當(dāng)時如醍醐灌頂，哈哈哈哈哈哈哈哈，但那時我只是一下猛住了，才11歲好像是，沒想到現(xiàn)在居然有拿著手機(jī)的成年人也這么混沌腦袋，佩服

一滴 VIP
2024-07-18 08:44:13
如果比較9.11和9.90呢？我猜AI的邏輯漏點(diǎn)在這里

一層一層剝開我的心. VIP
2024-07-18 08:44:13
小數(shù)點(diǎn)后面夠十進(jìn)位，所以9.11比9.9小。9.11后面的1夠10進(jìn)位才是9.2，所以9.9大。

秋月葉落 VIP
2024-07-18 08:44:13
很容易錯，因?yàn)槠匠Ｎ覀兘佑|到的9.11>9.9的情況太多了，比如日期9.11大于9.9，版本號9.11大于9.9，所以目前AI，也是根據(jù)這些人類經(jīng)驗(yàn)，得出9.11>9.9的。所以AI還有很大的進(jìn)步空間！

久久亚洲国产成人精品无码区,影音先锋中文字幕亚洲资源站,久久99久国产麻精品66,久久视频这里只精品99re8久

微博：天下彩(9944CC)圖文資訊翻車了! 9.11和9.9哪個大？記者實(shí)測12個大模型8個都答錯

8個大模型答錯

“文科生”數(shù)學(xué)差

公開怒懟美加州州長馬斯克宣布公司“SpaceX”和“X”總部全都要搬走

四場券商并購大戲加碼，浙商證券并購國都提速，從接收到受理僅1個月

發(fā)表評論

微博：天下彩(9944CC)圖文資訊翻車了! 9.11和9.9哪個大？記者實(shí)測12個大模型8個都答錯

8個大模型答錯

“文科生”數(shù)學(xué)差

公開怒懟美加州州長 馬斯克宣布公司“SpaceX”和“X”總部全都要搬走

四場券商并購大戲加碼，浙商證券并購國都提速，從接收到受理僅1個月

相關(guān)文章

發(fā)表評論

公開怒懟美加州州長馬斯克宣布公司“SpaceX”和“X”總部全都要搬走

四場券商并購大戲加碼，浙商證券并購國都提速，從接收到受理僅1個月