文 | AlphaEngineer
就在幾天前,馬斯克的 xAI 正式發(fā)布 Grok 4 大模型,號(hào)稱世界最強(qiáng) AI。
我們團(tuán)隊(duì)這幾天仔細(xì)研究了 Grok 4 相關(guān)的研究資料,有一些新發(fā)現(xiàn),對(duì)未來(lái) AI 產(chǎn)業(yè)趨勢(shì)及算力展望具有一定價(jià)值,遂整理成此文,用一篇文章的篇幅給大家介紹清楚 Grok 4 的發(fā)展脈絡(luò)。
核心要點(diǎn):
Grok 4 的核心創(chuàng)新是在訓(xùn)練階段引入多智能協(xié)作,即 " 多智能體內(nèi)生化 "
OpenAI o1 實(shí)現(xiàn)了 " 思維鏈內(nèi)生化 ";Gemini 實(shí)現(xiàn)了 " 多模態(tài)內(nèi)生化 ";Grok 4 則是率先走出了 " 多智能體內(nèi)生化 " 的一步,將進(jìn)一步推高基座模型的性能上限,Agent 走向 2.0 時(shí)代
預(yù)訓(xùn)練、后訓(xùn)練、測(cè)試時(shí)均存在 Scaling Law。過(guò)去兩年以預(yù)訓(xùn)練為主,今年開(kāi)始后訓(xùn)練、測(cè)試時(shí)推理需求快速增長(zhǎng),新一代大模型軍備競(jìng)賽已啟動(dòng),算力需求持續(xù)指數(shù)級(jí)增長(zhǎng)
Grok 4 在各大 Benchmark 表現(xiàn)出眾,但 Benchmark 測(cè)試污染嚴(yán)重,結(jié)果僅供參考,經(jīng)實(shí)測(cè)發(fā)現(xiàn) Grok 4 現(xiàn)階段編程能力較弱,未來(lái)將單獨(dú)推出 Coding 版本模型
下面我們正式開(kāi)始。
(1)大力出奇跡,性能登頂各大 Benchmark
Grok 4 是在 xAI 自研的 Colossus 超算上訓(xùn)練而成的,其訓(xùn)練規(guī)模遠(yuǎn)超前代模型,計(jì)算資源投入為 Grok-2 的 100 倍、Grok-3 的 10 倍,實(shí)現(xiàn)了推理性能、多模態(tài)能力和上下文處理能力的躍升。
Grok 4 擁有兩個(gè)版本:Grok 4(月費(fèi) 30 美金)、Grok 4 Heavy(月費(fèi) 300 美金,是的你沒(méi)看錯(cuò),300 美金!)。其中 Grok 4 是單 Agent 版本,而 Heavy 是多 Agent 協(xié)作版本,能夠同時(shí)啟動(dòng)多個(gè) Agent 并行工作,并最后整合結(jié)果。
經(jīng)過(guò)實(shí)測(cè),Grok 4 在多個(gè) Benchmark 上均取得了優(yōu)秀的成績(jī)。在 GPQA、AIME25、LCB(Jan-May)、HMMT25、USAMO25 等多項(xiàng)測(cè)評(píng)中,Grok 4 都超越了 o3、Gemini 2.5 Pro、Claude 4 Opus 等模型。
(2)HLE:人類最后的考試
隨著大模型能力的提升,許多最新模型能夠在現(xiàn)有 Benchmark 表現(xiàn)出極高的準(zhǔn)確率,導(dǎo)致這些基準(zhǔn)失去了分辨模型智能水平的能力。
因此,Center for AI Safety 和 Scale AI 在 25 年初提出了 HLE,即 " 人類最后的考試 ",旨在成為最后一個(gè)廣泛覆蓋學(xué)術(shù)能力的封閉式基準(zhǔn)測(cè)試,專注于評(píng)估模型在人類知識(shí)前沿的表現(xiàn)。
有趣的是,大模型在給出錯(cuò)誤回答的時(shí)候,往往表現(xiàn)出極高的置信度,這說(shuō)明了大模型在處理復(fù)雜問(wèn)題上的短板。
(3)Grok 4 的核心創(chuàng)新:多智能體內(nèi)生化
Grok 4 Heavy 的核心創(chuàng)新在于訓(xùn)練階段即引入多智能體協(xié)作,我們將其稱為 " 多智能體內(nèi)生化 "。
何謂 " 內(nèi)生化 "?我們來(lái)回顧一下過(guò)去 3 年大模型的發(fā)展歷史,你一定會(huì)一目了然。
還記得在 22 年風(fēng)靡一時(shí)的 CoT 思維鏈嗎?當(dāng)時(shí)人們?yōu)榱俗尨竽P瓦_(dá)到更好的回答效果,需要引入一些提示詞來(lái)誘發(fā)大模型進(jìn)行深度思考,比如 "Let's think step by step"。
當(dāng)時(shí),CoT 能力屬于 Prompt 工程,是獨(dú)立于大模型能力之外的一種提示詞技巧。
然后在 24 年 9 月,OpenAI 推出的 o1 模型首次明確將深度思考能力 " 內(nèi)化 " 到大模型中,確立了從 Scaling Training 到 Scaling Inference 的訓(xùn)練新范式。
隨后 25 年 2 月的 DeepSeek 進(jìn)一步驗(yàn)證了將 "CoT 能力內(nèi)化 " 確實(shí)能夠大幅提升大模型的推理性能。
回顧歷史后,我們能清晰地發(fā)現(xiàn)大模型發(fā)展的一條主線:大模型逐漸把 Prompt 工程、深度思考等能力納入到訓(xùn)練過(guò)程中,實(shí)現(xiàn)能力內(nèi)生化。
好比兩個(gè)學(xué)生,其中一個(gè)拿著參考書(shū)進(jìn)行開(kāi)卷考試,另一個(gè)真正學(xué)習(xí)并掌握了知識(shí)(內(nèi)生化)。相比之下,后者往往能考出高分并且發(fā)揮更穩(wěn)定。
融會(huì)貫通一定是優(yōu)于刻板記憶和機(jī)械調(diào)用的。
Grok 4 這次的最大突破,在于將 Agent 能力也進(jìn)行了內(nèi)生化,融入到訓(xùn)練過(guò)程中。
Grok 4 在訓(xùn)練中融合了 Agent 調(diào)用及實(shí)時(shí)搜索等能力,將多個(gè) Agent 之間的 debate 和 self-check 變成了大模型的內(nèi)生能力。
今年 5 月的一篇論文詳細(xì)闡述了從 AI Agent 到 Agentic AI 的發(fā)展趨勢(shì),強(qiáng)調(diào)從單一任務(wù)的執(zhí)行邁向多代理協(xié)作的新范式。
在 OpenAI o1 出現(xiàn)之前,人們?yōu)榱思ぐl(fā)大模型的深度思考能力,往往需要學(xué)習(xí)大量提示詞工程技巧,但現(xiàn)在這些技巧已經(jīng)不再重要。
在 Grok 4 Heavy 出現(xiàn)之前,人們會(huì)通過(guò) Manus 等 Agent 工具讓大模型處理復(fù)雜任務(wù)。當(dāng) Agent 能力內(nèi)生化的方向得到確立,越來(lái)越多的 AI 大廠將加入其中,競(jìng)爭(zhēng)會(huì)愈發(fā)激烈。
未來(lái)通用型 Agent 產(chǎn)品需要有新的定位,把重心聚焦于工具鏈的完備設(shè)計(jì)、業(yè)務(wù)知識(shí)的注入、記憶層的輔助等,基于更加聰明的內(nèi)核,解決更多復(fù)雜的任務(wù)。
其實(shí)除了 "Agent 能力內(nèi)生化 " 之外,大模型發(fā)展還有一條主線,即:多模態(tài)內(nèi)生化。通俗點(diǎn)來(lái)講,就是未來(lái)大模型應(yīng)該能夠輸入任何模態(tài)的數(shù)據(jù),也能夠輸出任何模態(tài)的數(shù)據(jù)。
大模型的 I/O 不應(yīng)該只能是文本或圖片,也應(yīng)該包含視頻和音頻。這在業(yè)界被稱為 Omni Model,算是大家公認(rèn)的目標(biāo)。
值得注意的是,這里 " 內(nèi)生化 " 和大家平時(shí)體驗(yàn)到的接收語(yǔ)音輸入的大模型有著本質(zhì)區(qū)別。多模態(tài)內(nèi)生化指的是大模型能夠原生的理解圖片、音頻、視頻,而非先轉(zhuǎn)碼成文字之后再進(jìn)行理解。
截至目前,OpenAI 的所有模型尚不支持視頻模態(tài)輸入,而 Google Gemini 目前已經(jīng)能夠支持視頻模態(tài)的輸入和輸出,畢竟 Google 旗下的 Youtube 擁有世界上最大的視頻資源庫(kù),大家能夠從最近推出的 Veo 3 的驚艷效果上具象化的感受到這個(gè)巨大的競(jìng)爭(zhēng)優(yōu)勢(shì)。
(5)AI Coding 能力的認(rèn)知分歧,以及 Base44 帶來(lái)的啟發(fā)
Grok 4 上線后,經(jīng)歷了全球網(wǎng)友的檢閱,實(shí)測(cè)反饋分歧較大,和 xAI 官方公布的跑分結(jié)果有著一定出入。
其實(shí)這點(diǎn)是容易理解的,現(xiàn)在主流 Benchmark 測(cè)評(píng)污染太嚴(yán)重。只要一個(gè)測(cè)評(píng)的問(wèn)題集流傳到互聯(lián)網(wǎng)上,就有可能被加入到大模型的訓(xùn)練集中,導(dǎo)致測(cè)評(píng)誤差。
以前研究員可以通過(guò)控制大模型訓(xùn)練集的數(shù)據(jù)范圍來(lái)解決測(cè)試集污染的問(wèn)題,但這次 Grok 4 把實(shí)時(shí)搜索和 Agent 能力都內(nèi)化到大模型中去了,數(shù)據(jù)污染的邊界無(wú)法得到有效的人為控制,沒(méi)有人能夠保證 Benchmark 的關(guān)鍵語(yǔ)料是否漏進(jìn)訓(xùn)練數(shù)據(jù)中。
所以 Benchmark 看看就好,實(shí)際還是得看海量用戶的實(shí)測(cè)體驗(yàn)。
根據(jù)大家的反饋,Grok 4 在代碼生成能力上目前還有所不足。Grok 4 生成的代碼往往存在依賴庫(kù)丟失、界面 UI 粗糙等問(wèn)題。
在使用 Grok 4 編寫(xiě)游戲時(shí),經(jīng)常把最重要的 pygame 庫(kù)都給丟失了,這也是大家詬病 Grok 4 的核心原因之一。
馬斯克顯然也意識(shí)到了目前模型的短板,因此放出預(yù)期,在未來(lái)幾個(gè)月內(nèi)將會(huì)發(fā)布 coding 模型,值得期待。
人們心目中一個(gè)強(qiáng)大的 coding model 往往是那種能夠刷榜 LeetCode,精通各種算法的奧賽型選手。
但其實(shí)落地到商業(yè)場(chǎng)景,人們真正需要的 coding model 其實(shí)是一個(gè)能夠整合各種 Github repo 資源,構(gòu)建項(xiàng)目級(jí)應(yīng)用的實(shí)戰(zhàn)派選手。
這其實(shí)也是最近炙手可熱的 Base44 獲得成功的主要原因之一。
Base44 是一家專注于 Vibe Coding(氛圍編程)的 AI 初創(chuàng)企業(yè),由以色列程序員 Shlomo 于 2024 年 12 月創(chuàng)立,僅運(yùn)營(yíng) 6 個(gè)月即以 8000 萬(wàn)美元(約 5.7 億元人民幣)被以色列軟件巨頭 Wix 收購(gòu),成為該領(lǐng)域首筆并購(gòu)案例。
相比其他 AI Coding 產(chǎn)品而言,Base44 更加專注于通過(guò)自然語(yǔ)言交互生成完整軟件系統(tǒng),覆蓋數(shù)據(jù)庫(kù)搭建、身份驗(yàn)證、數(shù)據(jù)分析等功能。
Base44 的目標(biāo)用戶主要是無(wú)編程經(jīng)驗(yàn)的普通開(kāi)發(fā)者,他們能夠使用 Base44 一站式創(chuàng)建完整的項(xiàng)目,這是廣大用戶最樸素的需求。
隨著 Grok 4 將更多實(shí)用的 Agent 能力內(nèi)生化到模型中,相信未來(lái) AI 能夠真正實(shí)現(xiàn)這個(gè)效果,媲美全棧高級(jí)程序員。
(6)Grok 4 之后的全球算力需求展望
今年年初以來(lái),海外大模型發(fā)展提速,你方唱罷我登場(chǎng)。
海外 AI 基礎(chǔ)模型持續(xù)提速的根源,在于算力資源的持續(xù)投入。據(jù)稱 xAI 每個(gè)月要消耗 10 億美元的資金,預(yù)估 2025 年全年總支出將高達(dá) 130 億美金,這一數(shù)字遠(yuǎn)超行業(yè)平均水平。
Grok4 是在 xAI 自建的 Colossus 超算中心上訓(xùn)練而成的,依托 20 萬(wàn)張 GPU 集群,其計(jì)算資源投入是 Grok2 的 100 倍、Grok3 的 10 倍,上下文窗口擴(kuò)展到了 25.6 萬(wàn) tokens,遠(yuǎn)超 Claude 3 Opus。
Grok4 將 Colossus 超算的 80% 算力投入推理訓(xùn)練中,這也是直接推動(dòng)其在 HLE 基準(zhǔn)測(cè)試中達(dá)到 44.4% 的核心原因。
預(yù)訓(xùn)練、后訓(xùn)練、測(cè)試時(shí)均存在 Scaling Law。過(guò)去兩年以預(yù)訓(xùn)練為主,今年開(kāi)始后訓(xùn)練、測(cè)試時(shí)推理需求快速增長(zhǎng)。
多 Agent 內(nèi)生化開(kāi)了算力需求增長(zhǎng)的新維度,在可見(jiàn)的未來(lái)將會(huì)給全球算力需求帶來(lái)幾何級(jí)增長(zhǎng)。
(7)結(jié)語(yǔ):Agent 內(nèi)生化趨勢(shì)明確,新一代 AI 訓(xùn)練軍備競(jìng)賽已啟動(dòng)
隨著 Grok 4 打響了 Agent 能力內(nèi)生化的第一槍,各個(gè) AI 大廠大概率會(huì)跟進(jìn),訓(xùn)練端仍然有較大的 Scaling 空間,新一代大模型訓(xùn)練的軍備競(jìng)賽已然開(kāi)始。
讓我們一起拭目以待!