噜噜噜噜狠狠狠7777视频,亚洲a网,欧美性网

文 | AlphaEngineer

就在幾天前，馬斯克的 xAI 正式發(fā)布 Grok 4 大模型，號(hào)稱世界最強(qiáng) AI。

我們團(tuán)隊(duì)這幾天仔細(xì)研究了 Grok 4 相關(guān)的研究資料，有一些新發(fā)現(xiàn)，對(duì)未來(lái) AI 產(chǎn)業(yè)趨勢(shì)及算力展望具有一定價(jià)值，遂整理成此文，用一篇文章的篇幅給大家介紹清楚 Grok 4 的發(fā)展脈絡(luò)。

核心要點(diǎn)：

Grok 4 的核心創(chuàng)新是在訓(xùn)練階段引入多智能協(xié)作，即 " 多智能體內(nèi)生化 "

OpenAI o1 實(shí)現(xiàn)了 " 思維鏈內(nèi)生化 "；Gemini 實(shí)現(xiàn)了 " 多模態(tài)內(nèi)生化 "；Grok 4 則是率先走出了 " 多智能體內(nèi)生化 " 的一步，將進(jìn)一步推高基座模型的性能上限，Agent 走向 2.0 時(shí)代

預(yù)訓(xùn)練、后訓(xùn)練、測(cè)試時(shí)均存在 Scaling Law。過(guò)去兩年以預(yù)訓(xùn)練為主，今年開(kāi)始后訓(xùn)練、測(cè)試時(shí)推理需求快速增長(zhǎng)，新一代大模型軍備競(jìng)賽已啟動(dòng)，算力需求持續(xù)指數(shù)級(jí)增長(zhǎng)

Grok 4 在各大 Benchmark 表現(xiàn)出眾，但 Benchmark 測(cè)試污染嚴(yán)重，結(jié)果僅供參考，經(jīng)實(shí)測(cè)發(fā)現(xiàn) Grok 4 現(xiàn)階段編程能力較弱，未來(lái)將單獨(dú)推出 Coding 版本模型

下面我們正式開(kāi)始。

（1）大力出奇跡，性能登頂各大 Benchmark

Grok 4 是在 xAI 自研的 Colossus 超算上訓(xùn)練而成的，其訓(xùn)練規(guī)模遠(yuǎn)超前代模型，計(jì)算資源投入為 Grok-2 的 100 倍、Grok-3 的 10 倍，實(shí)現(xiàn)了推理性能、多模態(tài)能力和上下文處理能力的躍升。

Grok 4 擁有兩個(gè)版本：Grok 4（月費(fèi) 30 美金）、Grok 4 Heavy（月費(fèi) 300 美金，是的你沒(méi)看錯(cuò)，300 美金！）。其中 Grok 4 是單 Agent 版本，而 Heavy 是多 Agent 協(xié)作版本，能夠同時(shí)啟動(dòng)多個(gè) Agent 并行工作，并最后整合結(jié)果。

圖：Grok 4 vs Heavy，AlphaEngine

經(jīng)過(guò)實(shí)測(cè)，Grok 4 在多個(gè) Benchmark 上均取得了優(yōu)秀的成績(jī)。在 GPQA、AIME25、LCB（Jan-May）、HMMT25、USAMO25 等多項(xiàng)測(cè)評(píng)中，Grok 4 都超越了 o3、Gemini 2.5 Pro、Claude 4 Opus 等模型。

相比這些 Benchmark 而言，更值得關(guān)注的是在被稱為 AI 界 " 最后審判 " 的 HLE（人類最后考試）中，Grok 4 Heavy 獲得了 44.4% 的成績(jī)，此前的冠軍 Gemini 2.5 Pro 只有 26.9%，成功率顯著提升。

HLE 為什么這么重要，它到底是什么來(lái)頭呢？

（2）HLE：人類最后的考試

隨著大模型能力的提升，許多最新模型能夠在現(xiàn)有 Benchmark 表現(xiàn)出極高的準(zhǔn)確率，導(dǎo)致這些基準(zhǔn)失去了分辨模型智能水平的能力。

因此，Center for AI Safety 和 Scale AI 在 25 年初提出了 HLE，即 " 人類最后的考試 "，旨在成為最后一個(gè)廣泛覆蓋學(xué)術(shù)能力的封閉式基準(zhǔn)測(cè)試，專注于評(píng)估模型在人類知識(shí)前沿的表現(xiàn)。

HLE 包含 2500 個(gè)極具挑戰(zhàn)性的問(wèn)題，覆蓋數(shù)學(xué)、人文學(xué)科、自然科學(xué)等超過(guò) 100 個(gè)學(xué)科，設(shè)計(jì)為無(wú)法通過(guò)簡(jiǎn)單的互聯(lián)網(wǎng)檢索快速回答的問(wèn)題。

在 Grok 4 推出之前，市面上最強(qiáng)大的模型在 HLE 上的表現(xiàn)普遍非常不理想，比如 GPR-4o 的準(zhǔn)確率僅為 2.7%。

有趣的是，大模型在給出錯(cuò)誤回答的時(shí)候，往往表現(xiàn)出極高的置信度，這說(shuō)明了大模型在處理復(fù)雜問(wèn)題上的短板。

這么說(shuō)大家可能還感覺(jué)不夠直觀，我截取了 HLE 測(cè)試集中的幾個(gè)樣例問(wèn)題，大家可以試著解答一下，看看自己能否超越 Grok 4 Heavy。

圖：HLE 問(wèn)題，考察圖文理解，古代文字破譯

圖：HLE 問(wèn)題，考察數(shù)學(xué)能力

圖：HLE 問(wèn)題，考察計(jì)算機(jī)，圖論

圖：HLE 問(wèn)題，考察生物化學(xué)

（3）Grok 4 的核心創(chuàng)新：多智能體內(nèi)生化

Grok 4 Heavy 的核心創(chuàng)新在于訓(xùn)練階段即引入多智能體協(xié)作，我們將其稱為 " 多智能體內(nèi)生化 "。

何謂 " 內(nèi)生化 "？我們來(lái)回顧一下過(guò)去 3 年大模型的發(fā)展歷史，你一定會(huì)一目了然。

還記得在 22 年風(fēng)靡一時(shí)的 CoT 思維鏈嗎？當(dāng)時(shí)人們?yōu)榱俗尨竽Ｐ瓦_(dá)到更好的回答效果，需要引入一些提示詞來(lái)誘發(fā)大模型進(jìn)行深度思考，比如 "Let's think step by step"。

當(dāng)時(shí)，CoT 能力屬于 Prompt 工程，是獨(dú)立于大模型能力之外的一種提示詞技巧。

圖：2022 年的大模型分享，CoT

然后在 24 年 9 月，OpenAI 推出的 o1 模型首次明確將深度思考能力 " 內(nèi)化 " 到大模型中，確立了從 Scaling Training 到 Scaling Inference 的訓(xùn)練新范式。

圖：2023 年的大模型分享，Q* 及慢思考

圖：2024 年的大模型分享，OpenAI o1 的 " 深度思考內(nèi)生化 "

隨后 25 年 2 月的 DeepSeek 進(jìn)一步驗(yàn)證了將 "CoT 能力內(nèi)化 " 確實(shí)能夠大幅提升大模型的推理性能。

圖：2025 年的大模型分享，DeepSeek R1 技術(shù)原理

回顧歷史后，我們能清晰地發(fā)現(xiàn)大模型發(fā)展的一條主線：大模型逐漸把 Prompt 工程、深度思考等能力納入到訓(xùn)練過(guò)程中，實(shí)現(xiàn)能力內(nèi)生化。

好比兩個(gè)學(xué)生，其中一個(gè)拿著參考書(shū)進(jìn)行開(kāi)卷考試，另一個(gè)真正學(xué)習(xí)并掌握了知識(shí)（內(nèi)生化）。相比之下，后者往往能考出高分并且發(fā)揮更穩(wěn)定。

融會(huì)貫通一定是優(yōu)于刻板記憶和機(jī)械調(diào)用的。

Grok 4 這次的最大突破，在于將 Agent 能力也進(jìn)行了內(nèi)生化，融入到訓(xùn)練過(guò)程中。

Grok 4 在訓(xùn)練中融合了 Agent 調(diào)用及實(shí)時(shí)搜索等能力，將多個(gè) Agent 之間的 debate 和 self-check 變成了大模型的內(nèi)生能力。

今年 5 月的一篇論文詳細(xì)闡述了從 AI Agent 到 Agentic AI 的發(fā)展趨勢(shì)，強(qiáng)調(diào)從單一任務(wù)的執(zhí)行邁向多代理協(xié)作的新范式。

Grok 4 這次顯然更往前走了一步，率先將 Agentic AI 所特有的多代理協(xié)作、動(dòng)態(tài)任務(wù)分配、持久記憶等能力訓(xùn)練進(jìn)入大模型中，讓 AI 內(nèi)生化地支持 Agentic AI，從而更有效的解決復(fù)雜任務(wù)。

（4）深度思考內(nèi)生化、Agent 內(nèi)生化、多模態(tài)內(nèi)生化

在 OpenAI o1 出現(xiàn)之前，人們?yōu)榱思ぐl(fā)大模型的深度思考能力，往往需要學(xué)習(xí)大量提示詞工程技巧，但現(xiàn)在這些技巧已經(jīng)不再重要。

在 Grok 4 Heavy 出現(xiàn)之前，人們會(huì)通過(guò) Manus 等 Agent 工具讓大模型處理復(fù)雜任務(wù)。當(dāng) Agent 能力內(nèi)生化的方向得到確立，越來(lái)越多的 AI 大廠將加入其中，競(jìng)爭(zhēng)會(huì)愈發(fā)激烈。

未來(lái)通用型 Agent 產(chǎn)品需要有新的定位，把重心聚焦于工具鏈的完備設(shè)計(jì)、業(yè)務(wù)知識(shí)的注入、記憶層的輔助等，基于更加聰明的內(nèi)核，解決更多復(fù)雜的任務(wù)。

其實(shí)除了 "Agent 能力內(nèi)生化 " 之外，大模型發(fā)展還有一條主線，即：多模態(tài)內(nèi)生化。通俗點(diǎn)來(lái)講，就是未來(lái)大模型應(yīng)該能夠輸入任何模態(tài)的數(shù)據(jù)，也能夠輸出任何模態(tài)的數(shù)據(jù)。

大模型的 I/O 不應(yīng)該只能是文本或圖片，也應(yīng)該包含視頻和音頻。這在業(yè)界被稱為 Omni Model，算是大家公認(rèn)的目標(biāo)。

值得注意的是，這里 " 內(nèi)生化 " 和大家平時(shí)體驗(yàn)到的接收語(yǔ)音輸入的大模型有著本質(zhì)區(qū)別。多模態(tài)內(nèi)生化指的是大模型能夠原生的理解圖片、音頻、視頻，而非先轉(zhuǎn)碼成文字之后再進(jìn)行理解。

截至目前，OpenAI 的所有模型尚不支持視頻模態(tài)輸入，而 Google Gemini 目前已經(jīng)能夠支持視頻模態(tài)的輸入和輸出，畢竟 Google 旗下的 Youtube 擁有世界上最大的視頻資源庫(kù)，大家能夠從最近推出的 Veo 3 的驚艷效果上具象化的感受到這個(gè)巨大的競(jìng)爭(zhēng)優(yōu)勢(shì)。

圖：Veo 3 生成的 AI 視頻

既然 AI 能力內(nèi)生化是行業(yè)發(fā)展的大勢(shì)所趨，那么我們應(yīng)該清醒的意識(shí)到，大模型應(yīng)用類公司的核心壁壘只有 2 點(diǎn)：其一是私域數(shù)據(jù)的持續(xù)積累；其二是對(duì)應(yīng)用場(chǎng)景的深度洞察。

（5）AI Coding 能力的認(rèn)知分歧，以及 Base44 帶來(lái)的啟發(fā)

Grok 4 上線后，經(jīng)歷了全球網(wǎng)友的檢閱，實(shí)測(cè)反饋分歧較大，和 xAI 官方公布的跑分結(jié)果有著一定出入。

其實(shí)這點(diǎn)是容易理解的，現(xiàn)在主流 Benchmark 測(cè)評(píng)污染太嚴(yán)重。只要一個(gè)測(cè)評(píng)的問(wèn)題集流傳到互聯(lián)網(wǎng)上，就有可能被加入到大模型的訓(xùn)練集中，導(dǎo)致測(cè)評(píng)誤差。

以前研究員可以通過(guò)控制大模型訓(xùn)練集的數(shù)據(jù)范圍來(lái)解決測(cè)試集污染的問(wèn)題，但這次 Grok 4 把實(shí)時(shí)搜索和 Agent 能力都內(nèi)化到大模型中去了，數(shù)據(jù)污染的邊界無(wú)法得到有效的人為控制，沒(méi)有人能夠保證 Benchmark 的關(guān)鍵語(yǔ)料是否漏進(jìn)訓(xùn)練數(shù)據(jù)中。

所以 Benchmark 看看就好，實(shí)際還是得看海量用戶的實(shí)測(cè)體驗(yàn)。

根據(jù)大家的反饋，Grok 4 在代碼生成能力上目前還有所不足。Grok 4 生成的代碼往往存在依賴庫(kù)丟失、界面 UI 粗糙等問(wèn)題。

在使用 Grok 4 編寫(xiě)游戲時(shí)，經(jīng)常把最重要的 pygame 庫(kù)都給丟失了，這也是大家詬病 Grok 4 的核心原因之一。

馬斯克顯然也意識(shí)到了目前模型的短板，因此放出預(yù)期，在未來(lái)幾個(gè)月內(nèi)將會(huì)發(fā)布 coding 模型，值得期待。

大家對(duì)大模型 Coding 能力的理解其實(shí)存在一種誤區(qū)。

人們心目中一個(gè)強(qiáng)大的 coding model 往往是那種能夠刷榜 LeetCode，精通各種算法的奧賽型選手。

但其實(shí)落地到商業(yè)場(chǎng)景，人們真正需要的 coding model 其實(shí)是一個(gè)能夠整合各種 Github repo 資源，構(gòu)建項(xiàng)目級(jí)應(yīng)用的實(shí)戰(zhàn)派選手。

這其實(shí)也是最近炙手可熱的 Base44 獲得成功的主要原因之一。

Base44 是一家專注于 Vibe Coding（氛圍編程）的 AI 初創(chuàng)企業(yè)，由以色列程序員 Shlomo 于 2024 年 12 月創(chuàng)立，僅運(yùn)營(yíng) 6 個(gè)月即以 8000 萬(wàn)美元（約 5.7 億元人民幣）被以色列軟件巨頭 Wix 收購(gòu)，成為該領(lǐng)域首筆并購(gòu)案例。

相比其他 AI Coding 產(chǎn)品而言，Base44 更加專注于通過(guò)自然語(yǔ)言交互生成完整軟件系統(tǒng)，覆蓋數(shù)據(jù)庫(kù)搭建、身份驗(yàn)證、數(shù)據(jù)分析等功能。

圖：Base44 核心數(shù)據(jù)，AlphaEngine

Base44 的目標(biāo)用戶主要是無(wú)編程經(jīng)驗(yàn)的普通開(kāi)發(fā)者，他們能夠使用 Base44 一站式創(chuàng)建完整的項(xiàng)目，這是廣大用戶最樸素的需求。

隨著 Grok 4 將更多實(shí)用的 Agent 能力內(nèi)生化到模型中，相信未來(lái) AI 能夠真正實(shí)現(xiàn)這個(gè)效果，媲美全棧高級(jí)程序員。

（6）Grok 4 之后的全球算力需求展望

今年年初以來(lái)，海外大模型發(fā)展提速，你方唱罷我登場(chǎng)。

圖：AI 四人轉(zhuǎn)

海外 AI 基礎(chǔ)模型持續(xù)提速的根源，在于算力資源的持續(xù)投入。據(jù)稱 xAI 每個(gè)月要消耗 10 億美元的資金，預(yù)估 2025 年全年總支出將高達(dá) 130 億美金，這一數(shù)字遠(yuǎn)超行業(yè)平均水平。

Grok4 是在 xAI 自建的 Colossus 超算中心上訓(xùn)練而成的，依托 20 萬(wàn)張 GPU 集群，其計(jì)算資源投入是 Grok2 的 100 倍、Grok3 的 10 倍，上下文窗口擴(kuò)展到了 25.6 萬(wàn) tokens，遠(yuǎn)超 Claude 3 Opus。

Grok4 將 Colossus 超算的 80% 算力投入推理訓(xùn)練中，這也是直接推動(dòng)其在 HLE 基準(zhǔn)測(cè)試中達(dá)到 44.4% 的核心原因。

Colossus 超算中心位于美國(guó)田納西州孟菲斯市，目前已部署 35 萬(wàn)塊 H100，總浮點(diǎn)運(yùn)算能力達(dá)到 100 EFLOPS，預(yù)計(jì)下半年將擴(kuò)展到超過(guò) 50 萬(wàn)張卡。

圖：AI 巨頭算力布局

預(yù)訓(xùn)練、后訓(xùn)練、測(cè)試時(shí)均存在 Scaling Law。過(guò)去兩年以預(yù)訓(xùn)練為主，今年開(kāi)始后訓(xùn)練、測(cè)試時(shí)推理需求快速增長(zhǎng)。

多 Agent 內(nèi)生化開(kāi)了算力需求增長(zhǎng)的新維度，在可見(jiàn)的未來(lái)將會(huì)給全球算力需求帶來(lái)幾何級(jí)增長(zhǎng)。

圖：黃仁勛提出的 Scaling Law 三重奏得到驗(yàn)證

（7）結(jié)語(yǔ)：Agent 內(nèi)生化趨勢(shì)明確，新一代 AI 訓(xùn)練軍備競(jìng)賽已啟動(dòng)

隨著 Grok 4 打響了 Agent 能力內(nèi)生化的第一槍，各個(gè) AI 大廠大概率會(huì)跟進(jìn)，訓(xùn)練端仍然有較大的 Scaling 空間，新一代大模型訓(xùn)練的軍備競(jìng)賽已然開(kāi)始。

讓我們一起拭目以待！

国产一级色_蜜桃αv_伊人www_99久久婷婷国产综合精品电影_大陆毛片_国产精品久久久久久久久久免费看

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會(huì)解決方案

元宇宙營(yíng)銷解決方案

元宇宙會(huì)展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書(shū)館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術(shù)展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻剪輯

AI視頻剪輯

AI智能客服

AI工具箱

AI寫(xiě)稿助手

AI口語(yǔ)陪練

我的訂閱

一文看懂 Grok 4 及“多智能體內(nèi)生化”的 AI 新范式

宙世代

一起剪

相關(guān)閱讀

華為穿戴發(fā)貨量突破兩億只 GT系列超5200萬(wàn)只

特斯拉Robotaxi服務(wù)區(qū)域形狀引質(zhì)疑 媒體：迎合馬斯克低級(jí)趣味

羅馬仕開(kāi)放天貓旗艦店，擁有“長(zhǎng)期記憶”的明星AI隊(duì)友正式登場(chǎng)和平精英，阿里推超級(jí)星期六，娃哈哈回應(yīng)糾紛，這就是今天的其他大新聞！

放療技術(shù)跨界醫(yī)美 借勢(shì)“一帶一路”加速出海

理想汽車新建算力資源部，龍開(kāi)文領(lǐng)銜整合全司算力研發(fā)

元戎啟行周光：大灣區(qū)速度推動(dòng)機(jī)器人及汽車產(chǎn)業(yè)發(fā)展

知名學(xué)者劉姝威喜提SU7 曾稱雷軍和小米員工營(yíng)銷能力超強(qiáng)

美國(guó)最大的100個(gè)廣告主名單：亞馬遜等電商零售行業(yè)廣告費(fèi)最高

安卓迎來(lái)大變化：ChromeOS將跟安卓合并

滿屏都是外賣(mài)補(bǔ)貼 網(wǎng)友：外賣(mài)戰(zhàn)再不停就要喝出糖尿病了

一文看懂Grok 4及“多智能體內(nèi)生化”的AI新范式

山寨Labubu引關(guān)注！海關(guān)總署教你辨真?zhèn)?正版是九顆尖牙

馬斯克：AI已比多數(shù)人聰明 五年內(nèi)將超越人類智慧總和

曝阿里將推“超級(jí)星期六”外賣(mài)計(jì)劃 未來(lái)100天每周六都有

這是學(xué)廢了！AI也存在性別偏見(jiàn)：同條件下建議女性薪資遠(yuǎn)低于男性

最新評(píng)論

鈦媒體

熱門(mén)推薦

特斯拉Robotaxi服務(wù)區(qū)域形狀引質(zhì)疑媒體：迎合馬斯克低級(jí)趣味

放療技術(shù)跨界醫(yī)美借勢(shì)“一帶一路”加速出海

滿屏都是外賣(mài)補(bǔ)貼網(wǎng)友：外賣(mài)戰(zhàn)再不停就要喝出糖尿病了

馬斯克：AI已比多數(shù)人聰明五年內(nèi)將超越人類智慧總和

曝阿里將推“超級(jí)星期六”外賣(mài)計(jì)劃未來(lái)100天每周六都有