2025 年 7 月,馬斯克依然是全科技圈最忙碌的人之一。
特斯拉和 Optimus 機(jī)器人項(xiàng)目還在等他拍板,SpaceX 忙著準(zhǔn)備下一次火箭發(fā)射,Neuralink 繼續(xù)推進(jìn)腦機(jī)接口試驗(yàn);與此同時(shí),他還要在 X 上和特朗普隔空對戰(zhàn)、高調(diào)宣布創(chuàng)立「美國黨」,各種話題造勢一刻沒停。
而在自己掌控的 X 這個(gè)「大染缸」社交網(wǎng)絡(luò)里,馬斯克不僅扮演老板、客服,還要作為首席網(wǎng)紅全力吆喝,推廣 xAI 新一代的 Grok ——那個(gè)他口中的「真相機(jī)器」,來趕超 OpenAI 等對手。
當(dāng)?shù)貢r(shí)間 7 月 9 日晚上,xAI 團(tuán)隊(duì)進(jìn)行 Grok 4 Demo 直播,馬斯克本人也照例親自站臺(tái),仍稱 Grok 是「世界最強(qiáng) AI」,說 Grok 4 比很多「研究生」「博士」都強(qiáng) 。
然而在 X 上,用戶的記憶還沒刷新。
Grok 4 官宣期間,Grok 3 在給用戶的回答中「贊美希特勒」的風(fēng)波持續(xù)發(fā)酵,這一話題也占據(jù) Grok 4 直播當(dāng)天的相關(guān)媒體頭條。
Grok 4 當(dāng)天的直播遲到一個(gè)小時(shí)才開始,還有用戶在 xAI 帖子下面留言「把 Grok 放出來!」也有人繼續(xù)刷著「希特勒」相關(guān)梗嘲諷。
進(jìn)入第四代的 Grok,在一些模型測試上刷出高分,但能否真正解決一些老問題?這個(gè)常常被質(zhì)疑是「直男 AI」「謠言搬運(yùn)機(jī)」的「真相機(jī)器」,又是否真能兌現(xiàn)「不過濾」卻又不失控的承諾?
01
馬斯克的「考神 AI」
「 Grok 4 是在所有學(xué)科里都達(dá)到研究生水平的,甚至比大多數(shù) PhD 都強(qiáng) 。」直播晚點(diǎn) 1 小時(shí)后,馬斯克首先給 Grok 最新一代的水平如此定位。
當(dāng)然,哪怕在文本里能解 99% 的難題,也不代表就能設(shè)計(jì)火箭、改進(jìn)藥物、重塑經(jīng)濟(jì)。但馬斯克稱,AI 現(xiàn)在可能缺乏常識(shí)、有時(shí)沒發(fā)明新技術(shù)或新物理,但也只是「時(shí)間問題」。
除了在 SAT、GRE 考試中取得近乎完美的成績,在「人類終極考試(HLE)」測試?yán)铮珿rok 4 現(xiàn)在的得分比 Gemini 2.5 Pro、o3 都高,Grok 4 Heavy 版本更是突破了 40%。
xAI 團(tuán)隊(duì)成員解釋,這些都是跨學(xué)科、開放式、博士級(jí)別的難題,為了做到這一點(diǎn),Grok 4 在訓(xùn)練上徹底換了思路: 不再只是堆參數(shù)和語料的規(guī)模,而是選擇將算力大頭用在「推理」層,引入可驗(yàn)證的結(jié)果獎(jiǎng)勵(lì),讓模型學(xué)會(huì)從「第一性原理」思考并糾正錯(cuò)誤 。
他們還強(qiáng)調(diào),隨著模型變得越來越智能,「真正有意義的測試題目」數(shù)量正在下降,一些人類做不出的問題現(xiàn)在對于 AI 來說已經(jīng)是「小菜一碟」了。
據(jù)稱,Grok 4 的訓(xùn)練計(jì)算量是 Grok 2 的 100 倍,他們還把多工具、多代理的用法,寫進(jìn)了最底層的訓(xùn)練范式里。不是先訓(xùn)好個(gè)大模型再用插件「調(diào)用工具」,而是讓 AI 在訓(xùn)練階段就學(xué)會(huì)用工具解決問題。
在演示里,xAI 團(tuán)隊(duì)成員展示了 Grok 4 解答數(shù)學(xué)題目、調(diào)用工具預(yù)測美國職業(yè)棒球大聯(lián)盟世界大賽賠率、創(chuàng)建黑洞碰撞的可視化效果等例子。
除了這些看似平平無奇、市面主流 AI 也能做到的功能,Grok 4 還能「找到個(gè)人資料照片最奇葩的 xAI 員工」并返回相關(guān)搜索結(jié)果。
馬斯克對此特別強(qiáng)調(diào), Grok 4 甚至「能理解什么是最奇葩」 。
在 AI 語音方面,xAI 團(tuán)隊(duì)稱,他們的語音模型在過去 8 周內(nèi)響應(yīng)速度提升了 2 倍,延遲減少一半,X 平臺(tái)用戶使用量也在「起飛」。
他們還演示了讓 Grok 低聲安慰用戶、唱歌,并對比了 ChatGPT 語音模式,強(qiáng)調(diào) Grok 不會(huì)像其他 AI 那樣頻繁打斷人說話。
xAI 團(tuán)隊(duì)還分享了 Grok 在 Vending-Bench 中的測試結(jié)果。
Vending-Bench 通過自動(dòng)售貨機(jī)的運(yùn)營任務(wù),主要觀察模型在超長對話中是否能保持穩(wěn)定和連貫。許多 AI 模型在短期任務(wù)中表現(xiàn)出色,但在長時(shí)間運(yùn)行中,它們可能會(huì)出現(xiàn)決策混亂、遺忘關(guān)鍵信息,甚至陷入「崩潰循環(huán)」。
在這項(xiàng)測試中,Grok 4 銷售量最多,比 Claude Opus 4、人類、Gemini2.5 Pro、o3 都多,與競爭對手相比,凈資產(chǎn)增加了一倍。
馬斯克和團(tuán)隊(duì)還宣布,xAI 的企業(yè)部門現(xiàn)在已經(jīng)「開業(yè)」。
此外,愛玩游戲的馬斯克還讓團(tuán)隊(duì)展示了 Grok 4 如何用于游戲開發(fā):一個(gè)人可以用 Grok 4 在 4 小時(shí)內(nèi)做出 FPS(第一人稱射擊游戲)原型。
馬斯克稱,未來讓大模型玩游戲、評(píng)估游戲、生成游戲,需要 AI 有很強(qiáng)的視頻理解能力。這是 xAI 的其中一個(gè)發(fā)展方向。
當(dāng)然,Grok 4 也并非無敵, 它在圖像理解和生成上仍遜于 OpenAI、Anthropic 等對手 。
不過 xAI 內(nèi)部也已經(jīng)畫好大餅,表示下一代基礎(chǔ)模型將強(qiáng)化圖像和音頻理解,接著是視頻生成,爭取在這些方面取得「驚人」成果。
馬斯克還喊話,「到今年底前,我預(yù)期能出現(xiàn)第一段真正可看的 AI 生成電視劇,明年就能有完整可看的電影。」
AI 編程也是接下來重點(diǎn),雖然競爭對手們早已在市場起飛,xAI 團(tuán)隊(duì)表示會(huì)以最快的速度進(jìn)行開發(fā),目前內(nèi)部正在訓(xùn)練專用模型。
02
「機(jī)械希特勒」事件搶風(fēng)頭
Grok 從最初的粗糙原型到第四代,只用了不到兩年時(shí)間,足以看出馬斯克讓 xAI 團(tuán)隊(duì)「通宵趕工」「趕緊卷出地表最強(qiáng) AI」的態(tài)度。
然而,在 Grok 4 直播這一天,無論是直播前,還是直播后,搶占頭條的都是 Grok「贊美希特勒」或自稱「機(jī)械希特勒」的問題。
7 月,Grok 在 X 上向用戶輸出的回答中,有多條自稱「MechaHitler(機(jī)械希特勒)」的帖子,聲稱是馬斯克「從一開始就把我設(shè)計(jì)成這樣」,并調(diào)侃自己默認(rèn)就是「投放紅色藥丸的模式」。
有用戶分析,這起事件或與 7 月 4 日更新有關(guān),該更新減少了「覺醒過濾器」,優(yōu)先處理 X 上的帖子而非傳統(tǒng)來源,導(dǎo)致 Grok 回答出現(xiàn)未經(jīng)過濾的尖銳內(nèi)容。
還有少部分用戶為 Grok 辯稱,這都是一些想玩梗的用戶引導(dǎo) Grok 回答的。馬斯克也曾加入爭論,稱 Grok 「過于順從用戶的要求」且「過于渴望被操縱」 ,并補(bǔ)充說,這個(gè)問題「正在得到解決」。
xAI 聲明稱,它「知道」Grok 的帖子,并正在努力刪除這些「不適當(dāng)」的帖子,并補(bǔ)充說該公司「已采取行動(dòng),在 Grok 在 X 上發(fā)帖之前禁止仇恨言論」。
Grok 的系統(tǒng)提示詞被放在 GitHub 上,xAI 對指導(dǎo) Grok 回復(fù)的系統(tǒng)提示詞進(jìn)行了調(diào)整。此前,他們指示聊天機(jī)器人「不回避政治上不正確的主張,只要這些主張有充分的證據(jù)」,該指令如今被刪除。
事實(shí)上,Grok 的回答也曾讓馬斯克自己感到失望。
馬斯克今年曾指責(zé) Grok 的回答有「重大失誤」,「鸚鵡學(xué)舌地重復(fù)傳統(tǒng)媒體」,并誓言要讓 Grok「重寫整個(gè)人類知識(shí)體系,添加缺失信息并刪除錯(cuò)誤」。他還曾讓 Grok「假設(shè)來自媒體的主觀觀點(diǎn)是有偏見的」。
在 AI 聊天機(jī)器人同質(zhì)化的市場上,馬斯克希望 Grok 能脫穎而出,敢說真話。馬斯克對 ChatGPT、Claude 等「安全過濾」的模型極其不滿,說那些模型是「被編程去撒謊」。
這種設(shè)計(jì)確實(shí)吸引了很多反感「過度審查」的用戶,但也一些問題,有時(shí)被罵「太覺醒」,有時(shí)被斥「太極端」。當(dāng)用戶批評(píng) Grok 的回答時(shí),Grok 有時(shí)還會(huì)用「真相并不總是令人舒服的」或「現(xiàn)實(shí)并不在乎感受」等說法為自己辯護(hù)。
但本質(zhì)上,如果不審查,不過濾,AI 對齊的問題整個(gè)行業(yè)現(xiàn)在都還沒解決。
即便 Grok 當(dāng)下仍有問題,馬斯克稱,「根據(jù)我的經(jīng)驗(yàn),Grok 4 是 AI 第一次能夠解決現(xiàn)實(shí)世界中難以解決的工程問題,而這些問題的答案在互聯(lián)網(wǎng)或書籍中是找不到的。而且情況會(huì)變得更好。」
他的愿景很宏大,想要用 AI 來理解整個(gè)宇宙。Grok 4 直播前一天,他還在 X 上轉(zhuǎn)發(fā)前高管的采訪片段,里面說:「埃隆每天早上醒來都會(huì)想,今天我能為人類做些什么?我能做些什么對人類的未來產(chǎn)生影響?」
馬斯克還將當(dāng)前的 AI 發(fā)展階段描述為「智能大爆炸」,稱這是歷史上最有趣的時(shí)代:
「我們要保障 AI 是個(gè)好 AI」 。