【香港期期最準的一肖資料大全】
【7777788888最新玄機】
【澳門最準的資料大全香港】
【澳門跑馬圖一肖一碼】
【在金木豬來鼠兔龍狗蛇上期生肖開小羊本期特】
【澳門火麒麟資料跑狗玄機】
【2024年今晚澳門開獎結果出來】
【2024年澳門今晚開獎號碼kkk777888】
【黃大仙精選三肖中三碼使用方法】
【白小姐一肖一馬今晚開】
【7777888888管家婆免費網(wǎng)站】
【澳門開獎最新開獎記錄】
【香港最準一碼一肖一特嗎】
【澳門開獎直播免費觀看網(wǎng)站】
【2024年香港港六+彩香港】
【新澳門精準四肖期期中特公開】
【澳門四肖八碼期期準免費正版】
【天下彩9944cc天下彩圖文更】
【噢門天天好彩免費資料】
【2024新澳免費資料2024】
【新澳門資料免費管家婆資料】
【118開獎澳門站】
【148288大贏家一肖一碼1482888】
【澳門管家婆資料大全】
【澳門六開彩天天免費資料大全聚寶盆麗萍數(shù)據(jù)2024】

本文來源:時代周報 作者:申謹睿


面壁智能聯(lián)合創(chuàng)始人、CEO李大海

通往AGI的路并不好走。為此,一眾大模型公司各展所長,以求留在牌桌。

階躍星辰堅信從單模態(tài)到多模態(tài),再由多模理解和生成的統(tǒng)一走向世界模型,是到達AGI的必由之路;月之暗面則認為長文本是打開AGI大門的鑰匙;零一萬物、科大訊飛、商湯科技等企業(yè)則面向C端用戶發(fā)布了一系列AI產(chǎn)品,以“落地為王”為方向。

在奔赴AGI的浩蕩大軍中,面壁智能稍顯特殊——大部分公司卷參數(shù)規(guī)模,面壁智能卻希望盡可能將參數(shù)做小。事實上,很多由大規(guī)模參數(shù)支撐的大模型,效率并沒有實現(xiàn)最大化。

在接受時代周報記者采訪時,面壁智能聯(lián)合創(chuàng)始人、CEO李大海多次提及“高效”一詞。他認為,“高效大模型是通向 AGI 的更現(xiàn)實的路徑。要打造更高效的Scaling Law(模型能力與尺度間的漸進關系)增長曲線,實現(xiàn)同等參數(shù)性能更優(yōu)、同等性能參數(shù)更小的效果。”

面壁智能成立于2022年8月,專注大模型技術創(chuàng)新與應用轉化。創(chuàng)始團隊主要來自清華大學自然語言處理實驗室。CEO李大海是Google中國的創(chuàng)始員工,2015年加入知乎,2023年出任面壁智能的董事和CEO。今年6月5日,李大海辭任知乎CTO,并不再擔任執(zhí)行董事;另一名聯(lián)合創(chuàng)始人、首席科學家劉知遠,是清華大學計算機科學與技術系副教授。

面壁智能是李大海第四個創(chuàng)業(yè)站點,也是他首次擔任公司一號位。李大海對AGI、大模型的前景極為樂觀。談及最近辭任知乎CTO并不再擔任執(zhí)行董事一事,他解釋稱,這只是一次正常的工作調動和安排,沒有特別值得夸大和解讀的地方。

“高效”理念貫徹面壁智能團隊上下。劉知遠認為,高效和通用就是AI可持續(xù)發(fā)展和應用的本質,也是面壁做大模型的核心。面壁智能CTO曾國洋也曾表示,他并不過分擔憂落后的問題。在他看來,OpenAI的技術路線可能并不普適,需要根據(jù)自己的實際情況和優(yōu)勢來制定發(fā)展策略,“一味地追求模型參數(shù)量這條路是走不通的,大模型的效率會很關鍵”。

在試圖將“高效”落地的過程中,面壁智能發(fā)現(xiàn)了端側模型的巨大潛力。端側模型相比云側離用戶更近,雖然云側大模型性能相對來說會更好,但端側有它的生態(tài)位?!岸嗽茀f(xié)同基本被業(yè)界認同是未來大模型的一個主流應用模式,蘋果推出Apple Intelligence,就帶頭做了一個示范?!?/p>

李大海認為,端側對芯片算力和內存要求苛刻,它必然是一個足夠高效的大模型,這要求研發(fā)團隊對大模型有足夠深的底層洞察,積累很多Know-How,在大模型Scaling Law之外建立Scaling Prediction(使用小規(guī)模模型的實驗數(shù)據(jù)預測大模型性能水平)的能力。

“面壁智能的長期征程是AGI。而大模型一定是通往AGI的當前所有技術里能走得最遠的,但它能不能直接達到,還有很多未知因素?!崩畲蠛?偨Y道。

“現(xiàn)有商業(yè)模式都不是終極形態(tài)”

時代周報:面壁智能為什么沒有選擇從大模型直接走向應用,而是將大模型與Agent(智能體)率先結合?

李大海:關于AI Agent有各種各樣的視角和說法。但歸根結底,就是將大模型的能力,向外輸出,變成實際解決問題的能力。

大模型就像汽車引擎。然而,要制造出一輛完整的汽車,除引擎外,還需要轉向系統(tǒng)、底盤、內飾以及其他所有必要組件。同樣,要充分發(fā)揮大模型的潛力,我們還需要在這個“引擎”基礎上加入一系列高級技術,如增強的記憶能力和使用工具的能力,這樣才能開拓更廣泛的應用領域和想象空間。而 AI Agent正是集合這些技術能力的載體。

時代周報:目前“大模型+Agent”的進展如何?

李大海:公司成立的第一天,我們目標就是要做最好的大模型。公司的英文名字 ModelBest ,倒一下順序其實就是 Best Model。一個朋友評價說,面壁智能是最懂 Agent 的大模型公司。實際上我們本質是大模型公司,Agent,包括我們在 2021、2022 年最早做的 Infra,其實都是為了把大模型做好。

在我看來,現(xiàn)在大模型主要作為知識壓縮; Agent 技術,不管是外化的 Agent 技術,還是未來內化到大模型里面去的Agent技術,將大語言模型和其結合到一起,能夠更好地到達 AGI 最終的目標。

時代周報:當下一些互聯(lián)網(wǎng)大廠也躋身應用賽道,如果將來應用層爆發(fā),大模型很可能被淡化。而to B方面,又不得不面臨單純做大模型交付,實際商業(yè)鏈路較短的局限。你怎樣看待這兩種商業(yè)模式?

李大海:目前的大模型技術還仍處于高速發(fā)展階段,商業(yè)模式也在隨之持續(xù)構建和迭代,無論是to B還是to C,我認為大家都是在解決“讓智能更好服務于人”的這個共同命題,同樣走在以大模型為主要智能來源的技術道路,不存在優(yōu)劣之分。

不可否認的是,無論to B還是to C,一項技術能夠被大規(guī)模普遍的商用前提,一定是技術的使用成本低過某個臨界點,而考慮到技術階段和算力等諸多因素,目前整個行業(yè)都還在加速沖向這個臨界點的路上,所以現(xiàn)有的產(chǎn)品和商業(yè)模式都還在探索,而非終極形態(tài)。

時代周報:面壁智能是怎樣接近這一臨界點的?

李大海:面壁基于端側的大模型解決方案,就是在通過技術方式提升用戶的使用體驗,讓用戶在端側能夠有更可靠、隱私更有保障的端側智能;同時也實現(xiàn)了充分開發(fā)端側現(xiàn)有算力,從而達到用技術降低使用成本這件事。

我們不僅要建設更強的大模型,還要高質量、低成本地建設大模型,讓每個人都能用得上、用得起大模型的通用智能。MiniCPM的誕生正也是基于這樣的愿景以及智能會無所不在的判斷。未來面壁未來的發(fā)展會集中依托于端側大模型所開展。

時代周報:你剛提到模型迭代的核心支撐力還是技術,但在GPT-4o發(fā)布之后,很多業(yè)內人士認為大模型能力迭代的速度普遍慢了下來。

李大海:我認為,大模型能力的迭代速度沒有在變慢,而是在加速。從國內到國外,大模型領域里每天都有新的想法、新的技術在嘗試、并且跟各行各業(yè)結合有新的產(chǎn)品落地形態(tài),正在快速變化。面壁智能應該不存在迭代變慢的問題,并且也有令人激動的新產(chǎn)品正在開發(fā)中。

競爭中的高效

時代周報:在模型能力上,中外的架構差異其實不大,造成差距的主要因素還是數(shù)據(jù)質量和數(shù)據(jù)能力。面壁智能會選擇消耗昂貴的成本來豐富和標注數(shù)據(jù),還是傾向于與數(shù)據(jù)質量較高的互聯(lián)網(wǎng)企業(yè)合作來縮小與國外公司的差距?

李大海:現(xiàn)在大家都在講怎么把模型做大,我覺得大模型的“智能密度”也是一個非常重要的事情。有可能當有一天達到AGI的那一天時候,還要做的事情是今天龐然大物一樣的大模型已足夠小型化。

譬如,如果把用一個10萬億的參數(shù)模型做到AGI達到的智能水平,從能不能把10萬億模型的參數(shù)降到1萬億、降到1000億,這也是一個要持續(xù)去突破的事情。

時代周報:把目光放到國內,大模型廠商用相似的訓練方法,采用相似的語料,難以產(chǎn)生明顯的競爭優(yōu)勢,面壁智能在這方面有什么考量?

李大海:我認為核心還是“高效”。目前公司已完成了貫徹高效訓練、高效落地與高效推理的大模型全棧技術生產(chǎn)線布局。

高效訓練方面,2024年初發(fā)布的“性能小鋼炮”MiniCPM,已經(jīng)意味著面壁大模型高效訓練模式的徹底跑通。我們做了上千次面壁“模型沙盒實驗”,對大模型訓練過程進行精準建模、預測,打造出更加高效的ScalingLaw增長曲線,以更快的速度、更低的成本,提供智能實現(xiàn)的最優(yōu)解決方案。

高效落地方面,面壁智能將通過AI Agent持續(xù)推動建設這一大模型落地應用的最后一公里。

高效推理方面,我們以“銜尾蛇投機采樣”為代表的協(xié)同推理技術,在云側建立起大小模型之間的協(xié)同,極大提升云側大模型的服務速度。與面壁端側模型相結合,有望實現(xiàn)端云兩側協(xié)同推理的新范式,進一步顯著降低大模型使用成本。

時代周報:所以在秉持高效的前提下,你對Scaling Law也會有不同的理解?

李大海:對于大模型的發(fā)展,Scaling Law是公認的經(jīng)驗公式。但訓練模型中的訓練方法本身對于Scaling Law、對于智能的影響是比較顯著的。因為現(xiàn)在參數(shù)規(guī)模不斷往上,但是讓端側芯片支撐某個固定規(guī)模范圍的模型難度比較大。所以要做到足夠好的智能,那數(shù)據(jù)質量、訓練方法這些都變得非常重要。

所以,相對于“把模型做大”,我們更關心如何讓模型“有效訓練更多數(shù)據(jù)”。

時代周報:面壁智能是不是一位擅長錯位競爭的選手?

李大海:我認為“高效”也可以用來解釋競爭層面的問題。比如我們做端側,就是看到了端側能更早更快落地的可能性。最近有機構做過一個調研,發(fā)現(xiàn)全國10億用戶的手機端側的算力,相當于差不多100萬片H100。這是一個非??鋸埖臄?shù)字。如果不同的手機上的算力能夠被好好利用起來,很多應用就可以落地了。

當然,現(xiàn)在這個階段,包括現(xiàn)在到未來,都需要端側跟云側模型好好協(xié)同。端側有端側的優(yōu)勢,它的優(yōu)勢是隱私性好、更可靠、響應快,但是云上的模型目前肯定要比端側現(xiàn)有能力強大,這是我們跟其他所有模型公司要一起協(xié)作的事。

時代周報:你一直認為百花齊放才是春,當下大模型開啟價格戰(zhàn),這對中小廠商和整體行業(yè)是利空嗎?

李大海:當前所謂的價格戰(zhàn),多多少少有一些營銷的成分在,但是我相信未來一定會比現(xiàn)在的價格還要低,并且大家都有利潤,這才是健康的方式,并且才真的能讓千行百業(yè)的應用往下落地。

時代周報:英偉達A100、H100等產(chǎn)品售價飆漲、一卡難求,助推了國內算力租賃市場繁榮。最近英偉達面臨反壟斷調查,你認為國產(chǎn)算力的發(fā)展空間是否可持續(xù)?

李大海:算力只是基礎設施的一部分,基礎設施的更新與否,即使面對不確定的情況,應該也會有替代方案。畢竟大模型未來釋放出龐大的需求,產(chǎn)生了可觀的效益后,一定會有人把配套做好。商業(yè)利益的驅動力量不可低估。