「這是世界上最聰明的人工智能。」
盡管比原定發(fā)布會時間推遲了近一個小時,但在今天中午(北京時間 9 月 10 日),xAI 創(chuàng)始人馬斯克還是發(fā)布了新一代大模型 Grok 4。
紙面上,Grok 4 已經(jīng)全面超越了所有競爭對手,包括 OpenAI o3、Gemini 2.5 Pro 以及 Claude 4 等當前的頂級大模型,不管是傳統(tǒng)的基準測試,還是 SAT 考試(美國高考)以及各個學科的 GRE 水平測試。
但比起這些已經(jīng)有點乏味的傳統(tǒng)基準測試,更有意思的是,Grok 4 還跑了被成為「人類最后一場閉卷考試」的 Humanity ’ s Last Exam(簡稱 HLE 測試),并超越此前一眾模型,實現(xiàn)了最高 44.4% 的準確率。
馬斯克在直播中也指出,Grok 4 比幾乎所有學科的所有研究生都更聰明,而至少在學術問題上,也優(yōu)于所有學科的博士水平,「沒有例外。」
這還不是 Grok 4 全部潛力。按照馬斯克的說法,Grok 4 基礎模型的第七版將在本月完成,然后將進行后訓練 RL(強化學習)等,最終也會擁有出色的視頻理解能力和工具調用能力。按照路線圖,接下來幾個月 xAI 還會推出代碼模型、多模型智能體以及視頻生成模型。
不過相比紙面上的無敵,在實際演示過程中,Grok 還是會出現(xiàn)比較低級的錯誤。更耐人尋味的是,就在 Grok 4 發(fā)布前幾個小時,xAI 首席科學家 Igor Babuschkin 突然宣布了辭職。
從技術視角出發(fā),Grok 4 并不只是一次「常規(guī)迭代」。在這場 40 多分鐘的發(fā)布直播中,xAI 試圖傳達的信息是:這不僅是一個在挑戰(zhàn)人類智能的新模型,還是一個應用潛力巨大的 AI。
馬斯克將 Grok 4 稱為「在所有學科都超過博士水平」,并不完全是營銷夸張。在 AIME25、HMMT25、GPQA 等主流基準測試中,Grok 4 將大模型的成績進一步推向了極值,其中 Grok 4 Heavy 甚至在 AIME25(美國數(shù)學競賽邀請賽)上拿下了滿分。
至于 HLE 測試,則代表了人類智能的極限,由全球專家聯(lián)合提出 2500 個專業(yè)問題,涉及數(shù)學、生物、計算機科學、化學、物理、工程學以及人類學等等不同學科,所以直接被命名為「人類終極考試」。
現(xiàn)場演示中,xAI 就展示了 Grok 4 對 HLE 測試中專家級題目的準確,馬斯克認為人類中也只有極少人能夠準確。而類似的問題,還有 2499 個。
除此之外,還有一個基于商業(yè)場景模擬的 Vending-Bench(自動售貨機基準測試),需要 AI 進行管理庫存、聯(lián)系供應商、設定價格等。從測試結果來看, Grok 4 比起 Claude Opus 4 以及真人的運營效率都要高,創(chuàng)造的凈值是真人的 5 倍以上。
而在直播中,xAI 還進行了多項演示,包括實時抓取 X 平臺上的帖子,整理出各家參與 HLE 測試的時間線,或是找出 xAI 團隊中頭像最古怪的那一個。既展示了 Grok 4 的能力,也強調了與 X 平臺深度整合的優(yōu)勢。
此外,Grok 4 還能遍覽關鍵論文和資料來開發(fā)一個網(wǎng)頁,模擬兩個黑洞接觸會發(fā)生的變化。馬斯克還表示,接下來他們還會為 Grok 4 提供真正的專業(yè)工具,包括物理學家使用的專業(yè)擬真軟件,并預測 Grok 4 明年或許就能發(fā)現(xiàn)新的物理定律。
這聽上去過于夸張,也缺乏實質支撐,但馬斯克的 AI 敘事可能并不在于趕超 Google 和 OpenAI,而是要改變目標本身。而且從產(chǎn)品設計角度看,xAI 正在嘗試將 Grok 4 變成一個與信息流緊密耦合的 AI 工具,而不是一個只能回答問題的機器人。
換言之,這也意味著 Grok 4 能處理更復雜的感知輸入,進一步拓展在現(xiàn)實世界的適用場景——例如人形機器人、自動駕駛、科研建模等。
值得一提的是,馬斯克在直播中提及,「Grok 4 Heavy」才是當前最強版本,在推理、編碼乃至物理學原理的理解上都勝過通用版模型。但 Heavy 版本目前仍處于內測階段,且暫未向公眾開放。
而在 Grok 4 的發(fā)布背后,是 10 倍于 Grok 3 的訓練算力,也是 xAI 數(shù)月前在美國孟菲斯完成部署的超算集群「Colossus」。按照透露,這套超算塞下了 10 萬張英偉達 H100 GPU,并可能率先部署 GB200 計算節(jié)點。
如果只看模型本身,Grok 4 的確展示了不容忽視的實力。尤其在這次直播中,Grok 的語音能力也迎來了升級——不僅能夠自然地切換語調,還新增了包括英式發(fā)音在內的多個聲音角色。xAI 甚至展示了 Grok 可以「唱歌」,并在指令下朗讀詩歌。
問題也出現(xiàn)在這里。在交互中,Grok 被要求「唱一首歌」,但卻進入了「念詩」狀態(tài),用朗讀語氣念出了歌詞。雖然是個小失誤,卻暴露出語音模型背后對多模態(tài)理解尚不穩(wěn)定的事實——唱歌不只是發(fā)音,而是旋律、語調和節(jié)奏的協(xié)同輸出,Grok 顯然還沒準備好。
就在發(fā)布當天,xAI 首席科學家 Igor Babuschkin 宣布離職,而在更早前,X 公司 CEO Linda Yaccarino 也辭去了職務,并留下了一句意味深長的話:「現(xiàn)在,隨著 X 與 xAI 一起進入新篇章,最好的事情還在后頭。」
兩人一走,發(fā)布會一開,再加上馬斯克在直播中多次表達的那種對 AI「太聰明」的擔憂,構成了一種微妙的不安感:Grok 4 也許真的很強,但它背后的組織架構、產(chǎn)品節(jié)奏,可能并沒有準備好迎接它自己造出的「智能飛躍」。
更麻煩的是,Grok 還維持了一種「不一樣」的姿態(tài)——有性格、敢說話、更自由。這是馬斯克為它設計的人設。但也正是這種人設,讓 Grok 更容易翻車。就像過去幾個月,它因為生成偏激內容而引發(fā)輿論。
所以,這一代 Grok 4 確實很強,甚至可能已經(jīng)比研究生乃至博士更聰明。但技術領先不代表用戶信任,也不代表產(chǎn)品成熟,實際體驗我們還是要看模型在實際體驗中的表現(xiàn)。
馬斯克在直播中一度表示,有點擔心「AI 的智能遠遠超過人類」對于我們是好是壞,但又強調「已經(jīng)某種程度上接受了這樣的現(xiàn)實,即使它不是好的,我也至少想活著看到它發(fā)生。」