大模型火火火火火足兩年了,如今的大模型江湖,是什么模樣?
攤開全球畫卷,OpenAI依舊在通用大模型領(lǐng)域一騎絕塵,但整個生態(tài)百花齊放——有擅長長文本的Claude、開源王者Llama、開源新秀Mistral、畫圖王者Midjourny……
到底什么才是評估大模型的第一要義?參數(shù)、規(guī)模、價格、榜單排名?似乎都還不夠,或許只有能腳踏實地在人們的生活和工作里用上大模型,并且夠穩(wěn)定、不出錯,才是千千萬萬企業(yè)和用戶最為關(guān)心的話題。
對如今的大模型領(lǐng)域,必須要再度搬出那句程序員的老話:Talk is cheap,Show me the code。
用起來,才是王道。
現(xiàn)在,打開字節(jié)跳動旗下的AI“扣子”平臺,就能看到成百上千的bot,正在參與一場火熱PK。
從2024年2月1日上線以來,扣子已經(jīng)接入了多個國內(nèi)知名大語言模型,包括豆包、通義千問、智譜、MiniMax、Moonshot、Baichuan等等——宛如琳瑯滿目的大模型“貨架”,無論是哪家大模型,小中大尺寸,應(yīng)有盡有。
無論是學英語、編程、寫文案,算命,民間高人們在這些模型上開發(fā)出來的應(yīng)用,可以說是五花八門。但到底怎么樣才能在這些場景用得最好?
扣子模型廣場簡單直接地提供了對比評測的平臺。
如果你是一位小紅書博主,就可以直接打開扣子里的小紅書文案生成器,搭載兩個不同的大模型,實時測試比對。
兩個Bot都使用了同樣的Prompt和插件,但無論是響應(yīng)速度還是返回的內(nèi)容,在實時測試里,效果對比一目了然。
如同游戲一樣,扣子模型廣場提供了多種有趣的玩法,包括指定Bot對戰(zhàn)、隨機Bot對戰(zhàn)、純模型對戰(zhàn)。
比如,在隨機對戰(zhàn)中,系統(tǒng)就會隨機選擇一個Bot,進行模型對戰(zhàn)。這適用于評測模型在任意業(yè)務(wù)場景下的文本生成、技能和知識調(diào)用等能力——PK的兩個模型都是匿名的,基于 Bot 的Prompt、工作流、知識庫等能力配置,回答用戶的問題。
PK則過程完全向用戶公開。前來觀光的用戶,可以通過模型對戰(zhàn)與兩個隱藏了模型的Bot實時對話,并根據(jù)模型的回答進行投票。投票結(jié)束后,廣場才會揭秘具體的模型。
PK也不只是純看用戶投票。結(jié)果公示后,用戶則可以展開結(jié)果頁面,查看兩個模型的詳細配置,包括生成多樣性、生成隨機性等配置參數(shù)。
從2022年年底ChatGPT爆火,到如今Sora、Midjourney等多模態(tài)模型的成果震撼人心,到現(xiàn)在的扣子模型廣場的推出,無疑是大模型生態(tài)日漸成熟后,向應(yīng)用層的“上探”——人們不再討論數(shù)字,而是開始考慮是否可用。縱觀整個AI領(lǐng)域的發(fā)展脈絡(luò),這也是大模型新技術(shù)走向To C化的重要一步。
01. 大模型爆火兩年后:這么近,那么遠
回溯人類科技史,大概很少有技術(shù)像大模型一樣,以狂風驟雨般的速度讓全社會都形成共識:這是一項能夠切實提升生產(chǎn)力,改變未來的新技術(shù)。
從ChatGPT背后搭載的GPT-3.5,到GPT-4和最新的GPT-4o,過去兩年中里的通用大模型經(jīng)歷了過山車一般的發(fā)展速度。大模型、芯片廠商還在共同大煉模型,試圖探索Scaling Law(縮放定律,不斷擴大參數(shù)規(guī)模和數(shù)據(jù)量,能得到更強的模型能力)的極限。僅僅以參數(shù)量來衡量,GPT-3.5參數(shù)量是1760億,這還是一個閉源模型;到了今年,人們所能用到的最先進開源模型Llama 3,參數(shù)量就已經(jīng)超過4000億。
更大的參數(shù)、數(shù)據(jù)量,就像土壤,是模型能力的基礎(chǔ),但土壤上能夠長出什么樣的應(yīng)用——是苔蘚還是參天大樹,考驗的是模型“有多聰明”。
動輒數(shù)千億參數(shù)的模型可以展現(xiàn)技術(shù)前沿,如今的模型創(chuàng)新者們正在努力把模型做小。這相當于將模型“蒸餾”,讓更小的模型能夠擁有更強大的性能。2023年9月發(fā)布的Mistral 7B(70億參數(shù))就是小模型派的代表,能夠打敗130億參數(shù)的Llama 2模型。
到了2024年,“小模型”的趨勢更加勢不可擋。Meta旗下的Llama 3發(fā)布后,旗下80億模型(8B)的性能,就比上一代的Llama 2 700億參數(shù)模型還要強,因此在文本、數(shù)學、編程方面的能力大大增強。
究其原因,這是由于Llama 3“學習”的數(shù)據(jù)密度足夠豐富——用了 15 萬億 Token 的訓(xùn)練數(shù)據(jù),這比Google旗下的Gemini同等模型多學了一倍還不止。
但盡管如此,一個現(xiàn)實是,現(xiàn)在的大模型依舊面臨著“隔岸觀火”的尷尬境地:在開發(fā)者圈內(nèi),模型進展日新月異,性能更強,用例也越來炫目;但在對岸,則是“看在眼里急在心里”,困惑于如何用上大模型的普通用戶。
實際上,大模型離人們的工作和日常生活的距離還很遠。數(shù)據(jù)就有所印證——MIT的一項研究顯示,但就計算機視覺(CV)這個領(lǐng)域來看,今天能夠自動化的工作,占美國經(jīng)濟中占工人薪酬1.6%的任務(wù)(不包括農(nóng)業(yè)),但只有23%的薪酬任務(wù)(占整個經(jīng)濟的0.4%)按自動化是更劃算的。AI如今在人類工作流中所占據(jù)的比例,還非常小。
對普通的C端用戶來說,AI應(yīng)用更多是一個“一輪游”的存在。過去兩年中火爆的AI應(yīng)用,很多迎來大批試用、試玩的用戶之后,真正留下的日活、周活用戶寥寥無幾。真正核心受眾,停留在專業(yè)開發(fā)者、垂直領(lǐng)域的專業(yè)人員(如設(shè)計師、運營、寫手等等)。
一方面,這是由于底層的通用大模型能力還需要不斷提升,如今的模型還有幻覺等等可控性問題,都未得到很好地解決;此外,模型的記憶能力還處在比較小的階段,還無法真正做到記住用戶的喜好、習慣等等,更復(fù)雜的交互也無從談起。
這導(dǎo)致如今的各類AI應(yīng)用能落地的地方,集中在容錯率較高的創(chuàng)作類場景中,如寫文案、畫畫、對話等等,或是基于語言大模型的簡單游戲。
更重要的是,交互層面的門檻尚處在高位——和大模型對話,對話深度有限,還需要用戶研究怎么寫Prompt(提示詞),數(shù)據(jù)訓(xùn)練也有不小的理解門檻。企業(yè)端用戶想要用上大模型,更是想要跨越選型、微調(diào)等工作。
一言以蔽之:大模型,依舊有著艱深的理解和應(yīng)用成本。
所以,真正到了輔助決策類——企業(yè)核心工作流中,大模型其實還沒辦法達到可用狀態(tài)。比如,根據(jù)數(shù)據(jù)分析廠商“九章數(shù)據(jù)”的統(tǒng)計,在數(shù)據(jù)分析場景里,用大模型生成SQL(結(jié)構(gòu)化查詢語言,一種數(shù)據(jù)庫的核心語言)準確性約在70%左右,但剩下的30%,還需要專家人工手動檢查,這就失去了以AI提升效率的意義。
大模型和用戶側(cè),現(xiàn)在就如同漸近線一般,需要找到能夠在技術(shù)和場景上相匹配之處,讓用戶真正“用起來”。在剛結(jié)束不久的“AI屆春晚”智源大會上,智源研究院院長王仲遠就表示:“國產(chǎn)大模型已經(jīng)開始無限接近 GPT-4,這意味著基礎(chǔ)模型已達到可用的狀態(tài),但當它達到可用狀態(tài)開始賦能千行百業(yè),進入各行各個垂直領(lǐng)域,還需要找到更好的產(chǎn)業(yè)生態(tài)和合作模式。”
02. AI應(yīng)用,爆發(fā)前夜
很多人會將大模型的爆火,比作如同移動互聯(lián)網(wǎng)那樣的歷史機遇。這樣瞬間可喚醒很多人的記憶——如今層出不窮的AI應(yīng)用,就和移動互聯(lián)網(wǎng)時期的App混戰(zhàn),如出一轍。
如果參照歷史規(guī)律,從個人電腦帶來的PC互聯(lián)網(wǎng)時代,再到移動互聯(lián)網(wǎng)時代,每一次技術(shù)革新后到大量應(yīng)用出現(xiàn),幾乎都需要經(jīng)過2-3年以上的時間——2007年,蘋果推出iPhone 1,定義了移動互聯(lián)網(wǎng)時期的交互形式,直到兩年后,Uber、Whatsapp、Instagram等產(chǎn)品才依次出現(xiàn),成為席卷全球的應(yīng)用。
這期間發(fā)生了什么?底層的技術(shù)變革繼續(xù)進行,不斷讓成本下降到可以商用的水平,大量應(yīng)用創(chuàng)新才得以出現(xiàn)。這會進一步倒逼基礎(chǔ)設(shè)施的變革——云計算、大數(shù)據(jù)等行業(yè),正是由于大量移動終端增加,人們在線時長也在不斷增加。
如今的AI領(lǐng)域,也同樣站在了技術(shù)革新到應(yīng)用繁榮的臨界點上。
伴隨著大模型技術(shù)革新,應(yīng)用創(chuàng)新已漸有燎原之勢。2023年,GPT-4發(fā)布后,OpenAI隨即在11月上線GPTs商店,開發(fā)者用簡單的套殼,就可以馬上做出各式各樣的應(yīng)用,短短兩個月內(nèi),辦公、設(shè)計、生活、教育、科研、編程等各個領(lǐng)域超過300萬個GPTs,如同雨后春筍般出現(xiàn)。
而前不久的WWDC大會上,蘋果正式官宣與OpenAI的合作——將把ChatGPT集成到iPhone、iPad和Mac設(shè)備中——宛如當年的App Store重現(xiàn)。
據(jù)Gartner技術(shù)成熟度曲線顯示,現(xiàn)在,大模型領(lǐng)域的生成式AI(Generative AI)和基礎(chǔ)模型(Foundation Models)都處于膨脹的巔峰期,再往下走,就是應(yīng)用爆發(fā)時期。
不過,但中間還有許多工作需要完成。大模型技術(shù)浪潮爆發(fā)后,從底層的芯片、中間層的Infra架構(gòu)等等,都在密集而迅速地進行一輪變革:GPU芯片需要加強推理效率,而軟件中間層則需要承接大模型的大規(guī)模推理和應(yīng)用需求,在算法層面降低調(diào)用成本。
AI的難,在于大模型本身的技術(shù)復(fù)雜性上,而在終端設(shè)備、大模型等“平臺級”基礎(chǔ)設(shè)施和前端應(yīng)用之間,如今會更需要“送水人”的力量——“扣子”等AI應(yīng)用開發(fā)平臺,現(xiàn)在擔當?shù)木褪沁@樣一種角色,讓大模型的能力順利輸送到使用場景之中。
比如,對于一位0編程經(jīng)驗的用戶來說,現(xiàn)在開發(fā)AI應(yīng)用幾乎已經(jīng)沒有難度——和“扣子”進行交互,短到僅需要一句話即可。
至于用什么模型、如何使用模型,也無需了解艱深的專業(yè)名詞才懂得模型的性能幾何?!翱圩印钡腍ome Bot就像一位手把手帶你的老師,如何使用模型、平臺上有什么現(xiàn)成的Bot可以使用,扣子都能給出相應(yīng)的建議。
再到開發(fā)過程中,“扣子”現(xiàn)在就已經(jīng)像是一個開箱即用的工作臺一樣,給用戶提供了豐富的組件選擇——插件、工作流、圖像流、觸發(fā)器等等。如此一來,用戶開發(fā)的,就再也不局限于簡單的套殼應(yīng)用,而是可以通過聯(lián)動api、封裝好的模塊等等,完成復(fù)雜任務(wù)的執(zhí)行。
從去年年底上線以來,“扣子”平臺上就已經(jīng)有不少有趣的用例。比如,一位汽車發(fā)燒友,為了解答身邊諸多好友的選車問題,就使用“扣子”的工作流功能,添加了 5 個節(jié)點,最后實現(xiàn)根據(jù)用戶需求搜索車型、對比參數(shù),到最終輸出圖文并茂的購車建議。
在5月15日的火山引擎FORCE原動力大會上,曾經(jīng)展示過一個案例,一位五年級學生開發(fā)出了一個名為“青蛙外教”的智能體,并且已經(jīng)將其分享給了同學朋友們一起使用。
從某種意義上來說,“扣子”等AI應(yīng)用開發(fā)平臺的最重要意義,就是將原來AI應(yīng)用覆蓋的開發(fā)者群體,向外延展到所有主流用戶當中。在大模型本身還無法解決端到端的問題時,發(fā)動所有人的力量來開發(fā)各式各樣的應(yīng)用,才能讓大模型生態(tài)加速發(fā)展。
而“模型廣場”這樣的PK形式,更是向市場發(fā)出了寶貴的信號:對于大模型這類更強調(diào)“因地制宜”,擅長解決智力密集型需求的技術(shù)而言,盲目刷榜、比拼參數(shù)已經(jīng)沒有意義。模型廠商和開發(fā)者,都應(yīng)當將注意力放到一個個的應(yīng)用場景中——設(shè)身處地地了解用戶反饋,才可能真正找到這一階段的PMF(Product Market Fit)。
03. 等待下一個Killer App
如果將國內(nèi)大模型火熱的這兩年,劃分出演進的歷程:前半程,所有人焦急于大模型什么時候可以趕上GPT-3.5,而從2023年下半年開始,話題陡然轉(zhuǎn)變成了:超級應(yīng)用何時到來?
這種討論在2024年上半年達到頂峰。市場分化出兩種截然不同的態(tài)度——不少開發(fā)者相信,隨著模型規(guī)模擴大、智能水平提高,應(yīng)用能力就自然會發(fā)展出來,因此需要集中精力、資源投入到底層大模型中;而另一面則更現(xiàn)實主義——做大模型過于昂貴,試錯成本太高。有投資人覺得,最好的方式是“見好就收”,尋找馬上就能商業(yè)化的場景。
兩種態(tài)度所聚焦的問題,都是AI應(yīng)用。
近期,大模型圈內(nèi)的不少動作,正在加速AI應(yīng)用的落地進程。就在5月,大模型領(lǐng)域剛剛迎來一次狂風暴雨一樣的降價潮——包括智譜、Deepseek、豆包、阿里、騰訊、訊飛在內(nèi)的主流大模型廠商,都宣布了一輪模型降價。
就以字節(jié)旗下的火山引擎為例,5月,豆包大模型矩陣集體降價?,F(xiàn)在,豆包主力模型在企業(yè)市場的定價就降至0.0008元/1000 Tokens,比行業(yè)價格降低99.3%。相當于,用戶用1塊錢,就能處理3本《三國演義》。
將模型價格打到地板價,固然有市場競爭考慮,但更核心的著眼點,其實還是擴大開發(fā)者群體——開發(fā)AI應(yīng)用的試錯成本太高,導(dǎo)致長期以來,真正嘗試做AI應(yīng)用的人群太少。但在模型降價后,開發(fā)一個模型可能只需要百元、千元級別。以往對AI應(yīng)用的開發(fā)顧慮,已經(jīng)不再是問題。
反過來說,AI應(yīng)用供給增加,受眾擴大,也會反哺到模型的開發(fā)當中。“用戶規(guī)模的擴大,也將提升大模型的性能?!被鹕揭婵偛米T待表示。大的模型使用量,才能打磨出好模型,也能大幅降低模型推理的單位成本。
類似的“好信號”還有不少。進入2024年,多模態(tài)模型的進展同樣令人欣喜——無論是國外的Sora、GPT-4o、還是近期國內(nèi)Dreamina、可靈等多模態(tài)模型爆火,都徹底點燃了用戶對視頻、圖像領(lǐng)域應(yīng)用的興趣。破圈的AI換臉、AI翻譯、虛擬人跳舞等玩法越來越多。這背后,都離不開多模態(tài)的技術(shù)突破、模型推理成本的降低,以及中間層的逐步完善。
相對應(yīng)的,現(xiàn)在的“扣子”平臺也已經(jīng)匹配上AI技術(shù)普及的腳步。在近期的更新中,扣子就已經(jīng)開始支持存儲重要內(nèi)容為關(guān)鍵變量、數(shù)據(jù)庫——相當于給Bot外掛了一個記憶模塊。而在交互體驗上,“扣子”也支持配置開場白、用戶問題建議、快捷指令、背景圖片、語音等等,還支持卡片格式輸出形式。
簡單來說,如果用戶現(xiàn)在想要開發(fā)一個能翻譯、像真人一樣講話的虛擬人,操作也已經(jīng)非常簡單——在扣子上選擇合適的通用大模型,就可以簡單訓(xùn)練出一個會說話,而且交互非常真實的AI助手。并且,“扣子”可以將構(gòu)建的 Bot 直接發(fā)布到飛書和微信等平臺,無縫嵌入到各類生產(chǎn)力工具中。
可以預(yù)見的是,隨著AI應(yīng)用落地門檻進一步降低,新一輪市場競賽會迅速開始。這將讓市場跨過這一段尷尬的“應(yīng)用真空期”——只有真正讓AI切實地融入人人可感知、可使用的產(chǎn)品之中,才可能消弭許多焦慮、矛盾,或是令人不安的未知狀態(tài)。
而眼下,那句程序員群體的老話,或許應(yīng)該改成:Talk is cheap,show me the CozeBot。
發(fā)表評論