国产一级色_蜜桃αv_伊人www_99久久婷婷国产综合精品电影_大陆毛片_国产精品久久久久久久久久免费看

關(guān)于ZAKER 合作
鈦媒體 12小時(shí)前

一文看懂 Grok 4 及“多智能體內(nèi)生化”的 AI 新范式

文 | AlphaEngineer

就在幾天前,馬斯克的 xAI 正式發(fā)布 Grok 4 大模型,號(hào)稱世界最強(qiáng) AI。

我們團(tuán)隊(duì)這幾天仔細(xì)研究了 Grok 4 相關(guān)的研究資料,有一些新發(fā)現(xiàn),對(duì)未來(lái) AI 產(chǎn)業(yè)趨勢(shì)及算力展望具有一定價(jià)值,遂整理成此文,用一篇文章的篇幅給大家介紹清楚 Grok 4 的發(fā)展脈絡(luò)。

核心要點(diǎn):

Grok 4 的核心創(chuàng)新是在訓(xùn)練階段引入多智能協(xié)作,即 " 多智能體內(nèi)生化 "

OpenAI o1 實(shí)現(xiàn)了 " 思維鏈內(nèi)生化 ";Gemini 實(shí)現(xiàn)了 " 多模態(tài)內(nèi)生化 ";Grok 4 則是率先走出了 " 多智能體內(nèi)生化 " 的一步,將進(jìn)一步推高基座模型的性能上限,Agent 走向 2.0 時(shí)代

預(yù)訓(xùn)練、后訓(xùn)練、測(cè)試時(shí)均存在 Scaling Law。過(guò)去兩年以預(yù)訓(xùn)練為主,今年開(kāi)始后訓(xùn)練、測(cè)試時(shí)推理需求快速增長(zhǎng),新一代大模型軍備競(jìng)賽已啟動(dòng),算力需求持續(xù)指數(shù)級(jí)增長(zhǎng)

Grok 4 在各大 Benchmark 表現(xiàn)出眾,但 Benchmark 測(cè)試污染嚴(yán)重,結(jié)果僅供參考,經(jīng)實(shí)測(cè)發(fā)現(xiàn) Grok 4 現(xiàn)階段編程能力較弱,未來(lái)將單獨(dú)推出 Coding 版本模型

下面我們正式開(kāi)始。

(1)大力出奇跡,性能登頂各大 Benchmark

Grok 4 是在 xAI 自研的 Colossus 超算上訓(xùn)練而成的,其訓(xùn)練規(guī)模遠(yuǎn)超前代模型,計(jì)算資源投入為 Grok-2 的 100 倍、Grok-3 的 10 倍,實(shí)現(xiàn)了推理性能、多模態(tài)能力和上下文處理能力的躍升。

Grok 4 擁有兩個(gè)版本:Grok 4(月費(fèi) 30 美金)、Grok 4 Heavy(月費(fèi) 300 美金,是的你沒(méi)看錯(cuò),300 美金!)。其中 Grok 4 是單 Agent 版本,而 Heavy 是多 Agent 協(xié)作版本,能夠同時(shí)啟動(dòng)多個(gè) Agent 并行工作,并最后整合結(jié)果。

圖:Grok 4 vs Heavy,AlphaEngine

經(jīng)過(guò)實(shí)測(cè),Grok 4 在多個(gè) Benchmark 上均取得了優(yōu)秀的成績(jī)。在 GPQA、AIME25、LCB(Jan-May)、HMMT25、USAMO25 等多項(xiàng)測(cè)評(píng)中,Grok 4 都超越了 o3、Gemini 2.5 Pro、Claude 4 Opus 等模型。

相比這些 Benchmark 而言,更值得關(guān)注的是在被稱為 AI 界 " 最后審判 " 的 HLE(人類最后考試)中,Grok 4 Heavy 獲得了 44.4% 的成績(jī),此前的冠軍 Gemini 2.5 Pro 只有 26.9%,成功率顯著提升。

HLE 為什么這么重要,它到底是什么來(lái)頭呢?

(2)HLE:人類最后的考試

隨著大模型能力的提升,許多最新模型能夠在現(xiàn)有 Benchmark 表現(xiàn)出極高的準(zhǔn)確率,導(dǎo)致這些基準(zhǔn)失去了分辨模型智能水平的能力。

因此,Center for AI Safety 和 Scale AI 在 25 年初提出了 HLE,即 " 人類最后的考試 ",旨在成為最后一個(gè)廣泛覆蓋學(xué)術(shù)能力的封閉式基準(zhǔn)測(cè)試,專注于評(píng)估模型在人類知識(shí)前沿的表現(xiàn)。

HLE 包含 2500 個(gè)極具挑戰(zhàn)性的問(wèn)題,覆蓋數(shù)學(xué)、人文學(xué)科、自然科學(xué)等超過(guò) 100 個(gè)學(xué)科,設(shè)計(jì)為無(wú)法通過(guò)簡(jiǎn)單的互聯(lián)網(wǎng)檢索快速回答的問(wèn)題。

在 Grok 4 推出之前,市面上最強(qiáng)大的模型在 HLE 上的表現(xiàn)普遍非常不理想,比如 GPR-4o 的準(zhǔn)確率僅為 2.7%。

有趣的是,大模型在給出錯(cuò)誤回答的時(shí)候,往往表現(xiàn)出極高的置信度,這說(shuō)明了大模型在處理復(fù)雜問(wèn)題上的短板。

這么說(shuō)大家可能還感覺(jué)不夠直觀,我截取了 HLE 測(cè)試集中的幾個(gè)樣例問(wèn)題,大家可以試著解答一下,看看自己能否超越 Grok 4 Heavy。

圖:HLE 問(wèn)題,考察圖文理解,古代文字破譯

圖:HLE 問(wèn)題,考察數(shù)學(xué)能力

圖:HLE 問(wèn)題,考察計(jì)算機(jī),圖論

圖:HLE 問(wèn)題,考察生物化學(xué)

(3)Grok 4 的核心創(chuàng)新:多智能體內(nèi)生化

Grok 4 Heavy 的核心創(chuàng)新在于訓(xùn)練階段即引入多智能體協(xié)作,我們將其稱為 " 多智能體內(nèi)生化 "。

何謂 " 內(nèi)生化 "?我們來(lái)回顧一下過(guò)去 3 年大模型的發(fā)展歷史,你一定會(huì)一目了然。

還記得在 22 年風(fēng)靡一時(shí)的 CoT 思維鏈嗎?當(dāng)時(shí)人們?yōu)榱俗尨竽P瓦_(dá)到更好的回答效果,需要引入一些提示詞來(lái)誘發(fā)大模型進(jìn)行深度思考,比如 "Let's think step by step"。

當(dāng)時(shí),CoT 能力屬于 Prompt 工程,是獨(dú)立于大模型能力之外的一種提示詞技巧。

圖:2022 年的大模型分享,CoT

然后在 24 年 9 月,OpenAI 推出的 o1 模型首次明確將深度思考能力 " 內(nèi)化 " 到大模型中,確立了從 Scaling Training 到 Scaling Inference 的訓(xùn)練新范式。

圖:2023 年的大模型分享,Q* 及慢思考

圖:2024 年的大模型分享,OpenAI o1 的 " 深度思考內(nèi)生化 "

隨后 25 年 2 月的 DeepSeek 進(jìn)一步驗(yàn)證了將 "CoT 能力內(nèi)化 " 確實(shí)能夠大幅提升大模型的推理性能。

圖:2025 年的大模型分享,DeepSeek R1 技術(shù)原理

回顧歷史后,我們能清晰地發(fā)現(xiàn)大模型發(fā)展的一條主線:大模型逐漸把 Prompt 工程、深度思考等能力納入到訓(xùn)練過(guò)程中,實(shí)現(xiàn)能力內(nèi)生化。

好比兩個(gè)學(xué)生,其中一個(gè)拿著參考書(shū)進(jìn)行開(kāi)卷考試,另一個(gè)真正學(xué)習(xí)并掌握了知識(shí)(內(nèi)生化)。相比之下,后者往往能考出高分并且發(fā)揮更穩(wěn)定。

融會(huì)貫通一定是優(yōu)于刻板記憶和機(jī)械調(diào)用的。

Grok 4 這次的最大突破,在于將 Agent 能力也進(jìn)行了內(nèi)生化,融入到訓(xùn)練過(guò)程中。

Grok 4 在訓(xùn)練中融合了 Agent 調(diào)用及實(shí)時(shí)搜索等能力,將多個(gè) Agent 之間的 debate 和 self-check 變成了大模型的內(nèi)生能力。

今年 5 月的一篇論文詳細(xì)闡述了從 AI Agent 到 Agentic AI 的發(fā)展趨勢(shì),強(qiáng)調(diào)從單一任務(wù)的執(zhí)行邁向多代理協(xié)作的新范式。

Grok 4 這次顯然更往前走了一步,率先將 Agentic AI 所特有的多代理協(xié)作、動(dòng)態(tài)任務(wù)分配、持久記憶等能力訓(xùn)練進(jìn)入大模型中,讓 AI 內(nèi)生化地支持 Agentic AI,從而更有效的解決復(fù)雜任務(wù)。

(4)深度思考內(nèi)生化、Agent 內(nèi)生化、多模態(tài)內(nèi)生化

在 OpenAI o1 出現(xiàn)之前,人們?yōu)榱思ぐl(fā)大模型的深度思考能力,往往需要學(xué)習(xí)大量提示詞工程技巧,但現(xiàn)在這些技巧已經(jīng)不再重要。

在 Grok 4 Heavy 出現(xiàn)之前,人們會(huì)通過(guò) Manus 等 Agent 工具讓大模型處理復(fù)雜任務(wù)。當(dāng) Agent 能力內(nèi)生化的方向得到確立,越來(lái)越多的 AI 大廠將加入其中,競(jìng)爭(zhēng)會(huì)愈發(fā)激烈。

未來(lái)通用型 Agent 產(chǎn)品需要有新的定位,把重心聚焦于工具鏈的完備設(shè)計(jì)、業(yè)務(wù)知識(shí)的注入、記憶層的輔助等,基于更加聰明的內(nèi)核,解決更多復(fù)雜的任務(wù)。

其實(shí)除了 "Agent 能力內(nèi)生化 " 之外,大模型發(fā)展還有一條主線,即:多模態(tài)內(nèi)生化。通俗點(diǎn)來(lái)講,就是未來(lái)大模型應(yīng)該能夠輸入任何模態(tài)的數(shù)據(jù),也能夠輸出任何模態(tài)的數(shù)據(jù)。

大模型的 I/O 不應(yīng)該只能是文本或圖片,也應(yīng)該包含視頻和音頻。這在業(yè)界被稱為 Omni Model,算是大家公認(rèn)的目標(biāo)。

值得注意的是,這里 " 內(nèi)生化 " 和大家平時(shí)體驗(yàn)到的接收語(yǔ)音輸入的大模型有著本質(zhì)區(qū)別。多模態(tài)內(nèi)生化指的是大模型能夠原生的理解圖片、音頻、視頻,而非先轉(zhuǎn)碼成文字之后再進(jìn)行理解。

截至目前,OpenAI 的所有模型尚不支持視頻模態(tài)輸入,而 Google Gemini 目前已經(jīng)能夠支持視頻模態(tài)的輸入和輸出,畢竟 Google 旗下的 Youtube 擁有世界上最大的視頻資源庫(kù),大家能夠從最近推出的 Veo 3 的驚艷效果上具象化的感受到這個(gè)巨大的競(jìng)爭(zhēng)優(yōu)勢(shì)。

圖:Veo 3 生成的 AI 視頻

既然 AI 能力內(nèi)生化是行業(yè)發(fā)展的大勢(shì)所趨,那么我們應(yīng)該清醒的意識(shí)到,大模型應(yīng)用類公司的核心壁壘只有 2 點(diǎn):其一是私域數(shù)據(jù)的持續(xù)積累;其二是對(duì)應(yīng)用場(chǎng)景的深度洞察。

(5)AI Coding 能力的認(rèn)知分歧,以及 Base44 帶來(lái)的啟發(fā)

Grok 4 上線后,經(jīng)歷了全球網(wǎng)友的檢閱,實(shí)測(cè)反饋分歧較大,和 xAI 官方公布的跑分結(jié)果有著一定出入。

其實(shí)這點(diǎn)是容易理解的,現(xiàn)在主流 Benchmark 測(cè)評(píng)污染太嚴(yán)重。只要一個(gè)測(cè)評(píng)的問(wèn)題集流傳到互聯(lián)網(wǎng)上,就有可能被加入到大模型的訓(xùn)練集中,導(dǎo)致測(cè)評(píng)誤差。

以前研究員可以通過(guò)控制大模型訓(xùn)練集的數(shù)據(jù)范圍來(lái)解決測(cè)試集污染的問(wèn)題,但這次 Grok 4 把實(shí)時(shí)搜索和 Agent 能力都內(nèi)化到大模型中去了,數(shù)據(jù)污染的邊界無(wú)法得到有效的人為控制,沒(méi)有人能夠保證 Benchmark 的關(guān)鍵語(yǔ)料是否漏進(jìn)訓(xùn)練數(shù)據(jù)中。

所以 Benchmark 看看就好,實(shí)際還是得看海量用戶的實(shí)測(cè)體驗(yàn)。

根據(jù)大家的反饋,Grok 4 在代碼生成能力上目前還有所不足。Grok 4 生成的代碼往往存在依賴庫(kù)丟失、界面 UI 粗糙等問(wèn)題。

在使用 Grok 4 編寫(xiě)游戲時(shí),經(jīng)常把最重要的 pygame 庫(kù)都給丟失了,這也是大家詬病 Grok 4 的核心原因之一。

馬斯克顯然也意識(shí)到了目前模型的短板,因此放出預(yù)期,在未來(lái)幾個(gè)月內(nèi)將會(huì)發(fā)布 coding 模型,值得期待。

大家對(duì)大模型 Coding 能力的理解其實(shí)存在一種誤區(qū)。

人們心目中一個(gè)強(qiáng)大的 coding model 往往是那種能夠刷榜 LeetCode,精通各種算法的奧賽型選手。

但其實(shí)落地到商業(yè)場(chǎng)景,人們真正需要的 coding model 其實(shí)是一個(gè)能夠整合各種 Github repo 資源,構(gòu)建項(xiàng)目級(jí)應(yīng)用的實(shí)戰(zhàn)派選手。

這其實(shí)也是最近炙手可熱的 Base44 獲得成功的主要原因之一。

Base44 是一家專注于 Vibe Coding(氛圍編程)的 AI 初創(chuàng)企業(yè),由以色列程序員 Shlomo 于 2024 年 12 月創(chuàng)立,僅運(yùn)營(yíng) 6 個(gè)月即以 8000 萬(wàn)美元(約 5.7 億元人民幣)被以色列軟件巨頭 Wix 收購(gòu),成為該領(lǐng)域首筆并購(gòu)案例。

相比其他 AI Coding 產(chǎn)品而言,Base44 更加專注于通過(guò)自然語(yǔ)言交互生成完整軟件系統(tǒng),覆蓋數(shù)據(jù)庫(kù)搭建、身份驗(yàn)證、數(shù)據(jù)分析等功能。

圖:Base44 核心數(shù)據(jù),AlphaEngine

Base44 的目標(biāo)用戶主要是無(wú)編程經(jīng)驗(yàn)的普通開(kāi)發(fā)者,他們能夠使用 Base44 一站式創(chuàng)建完整的項(xiàng)目,這是廣大用戶最樸素的需求。

隨著 Grok 4 將更多實(shí)用的 Agent 能力內(nèi)生化到模型中,相信未來(lái) AI 能夠真正實(shí)現(xiàn)這個(gè)效果,媲美全棧高級(jí)程序員。

(6)Grok 4 之后的全球算力需求展望

今年年初以來(lái),海外大模型發(fā)展提速,你方唱罷我登場(chǎng)。

圖:AI 四人轉(zhuǎn)

海外 AI 基礎(chǔ)模型持續(xù)提速的根源,在于算力資源的持續(xù)投入。據(jù)稱 xAI 每個(gè)月要消耗 10 億美元的資金,預(yù)估 2025 年全年總支出將高達(dá) 130 億美金,這一數(shù)字遠(yuǎn)超行業(yè)平均水平。

Grok4 是在 xAI 自建的 Colossus 超算中心上訓(xùn)練而成的,依托 20 萬(wàn)張 GPU 集群,其計(jì)算資源投入是 Grok2 的 100 倍、Grok3 的 10 倍,上下文窗口擴(kuò)展到了 25.6 萬(wàn) tokens,遠(yuǎn)超 Claude 3 Opus。

Grok4 將 Colossus 超算的 80% 算力投入推理訓(xùn)練中,這也是直接推動(dòng)其在 HLE 基準(zhǔn)測(cè)試中達(dá)到 44.4% 的核心原因。

Colossus 超算中心位于美國(guó)田納西州孟菲斯市,目前已部署 35 萬(wàn)塊 H100,總浮點(diǎn)運(yùn)算能力達(dá)到 100 EFLOPS,預(yù)計(jì)下半年將擴(kuò)展到超過(guò) 50 萬(wàn)張卡。

圖:AI 巨頭算力布局

預(yù)訓(xùn)練、后訓(xùn)練、測(cè)試時(shí)均存在 Scaling Law。過(guò)去兩年以預(yù)訓(xùn)練為主,今年開(kāi)始后訓(xùn)練、測(cè)試時(shí)推理需求快速增長(zhǎng)。

多 Agent 內(nèi)生化開(kāi)了算力需求增長(zhǎng)的新維度,在可見(jiàn)的未來(lái)將會(huì)給全球算力需求帶來(lái)幾何級(jí)增長(zhǎng)。

圖:黃仁勛提出的 Scaling Law 三重奏得到驗(yàn)證

(7)結(jié)語(yǔ):Agent 內(nèi)生化趨勢(shì)明確,新一代 AI 訓(xùn)練軍備競(jìng)賽已啟動(dòng)

隨著 Grok 4 打響了 Agent 能力內(nèi)生化的第一槍,各個(gè) AI 大廠大概率會(huì)跟進(jìn),訓(xùn)練端仍然有較大的 Scaling 空間,新一代大模型訓(xùn)練的軍備競(jìng)賽已然開(kāi)始。

讓我們一起拭目以待!

相關(guān)標(biāo)簽

相關(guān)閱讀

最新評(píng)論

沒(méi)有更多評(píng)論了

覺(jué)得文章不錯(cuò),微信掃描分享好友

掃碼分享

熱門(mén)推薦

查看更多內(nèi)容
主站蜘蛛池模板: 亚洲免费成人 | 蜜桃视频在线观看免费视频网站www | 亚洲视频区 | www.久草.com | 国产精品久久久久永久免费观看 | 黄色毛片免费看 | 一级特黄网站 | 日韩一二区 | 久色激情 | 国产精品久久欧美久久一区 | 在线视频 亚洲 | 久久精品这里精品 | 三级高清 | 久久精品视频一区二区三区 | 女女爱爱视频 | 激情久久av一区av二区av三区 | 热re99久久精品国99热观看 | 欧美影院 | 亚洲成人自拍 | 成人精品国产一区二区4080 | 精品国产免费一区二区三区演员表 | 日日夜夜免费精品 | 成人在线一区二区 | 成人在线观看中文字幕 | 亚洲一二三区在线观看 | 日日淫 | 91亚洲视频在线 | 91精品国产91久久久久久吃药 | 亚洲精选一区二区 | 小h片免费观看久久久久 | 久久久久久久综合 | 蜜桃久久 | 国产福利91精品 | 精品欧美一区二区三区精品久久 | 日韩av资源站 | 国产一区成人 | 91精品久久久久久久久中文字幕 | 欧美日韩一区二区在线观看 | 久草视频在线播放 | 亚洲国产精品99久久久久久久久 | 亚洲精品一区二区在线观看 |