此次發(fā)布標志著X AI在計算能力和模型架構(gòu)上的重大突破。借助Colossus超級計算機和數(shù)十萬NVIDIA H100 GPU,Grok 4在推理速度、響應能力和多模態(tài)功能上實現(xiàn)了飛躍,刷新了多個學術(shù)基準測試的記錄。馬斯克在現(xiàn)場表示,這一進展將開啟AI歷史上最具革命性的"智能大爆炸時代"。
發(fā)布會全文內(nèi)容如下:
歡迎來到Grok 4 的發(fā)布現(xiàn)場,這是世界上最先進的AI,我們將為你詳細展示其中的原理與緣由。看到AI的飛速發(fā)展,真的令人驚嘆,它的進化速度實在太快了。我常將它與人類的成長做比較,對比人類學習、獲得意識和理解的速度,AI的進步速度遠超人類。我們將帶你了解一系列基準測試,Grok 4 能夠在各類測試中取得驚人成績。
值得一提的是,如果讓Grok 4 參加 SAT 考試,每次都能拿到滿分,即便它之前從未見過這些考題。再進一步說,像 GRE 這類研究生考試,它在各個學科領(lǐng)域都能取得近乎滿分的成績。從人文科學到語言、數(shù)學、物理、工程學,隨便哪一門學科。而且我們說的是它從未見過的題目,這些題目也不在互聯(lián)網(wǎng)上。
Grok 4 的智能水平幾乎超越了所有學科的研究生,真正重要的是要認識到這確實非同尋常。Grok的推理能力簡直令人難以置信,有些人認為AI無法推理,但實際上它能達到超人類的推理水平,坦率地說,它只會變得越來越好。接下來我們將詳細介紹Grok 4 的進展速度。
第一部分是關(guān)于訓練方面,從Grok 2 到Grok 3 再到Grok 4,每次訓練量都提升了一個數(shù)量級。所以Grok 4 的訓練量是Grok 2 的 100 倍,而且這種增長未來還會加劇。坦率地說,從某種程度上講有點可怕,但它的智能增長著實驚人。
需要認識到訓練算力分為兩類。一種是預訓練計算,從Grok 2 到Grok 3 是這種方式,但從Grok 3 到Grok 4,我們在推理方面投入了大量算力。
按照現(xiàn)在的標準來看,Grok 2 就像高中生水平,回顧過去 12 個月,12 個月前Grok 2 還只是個概念。我們第一次進行預訓練擴展就是訓練Grok 2 的時候,我們意識到如果認真做好數(shù)據(jù)消融、極為謹慎地處理數(shù)據(jù)、基礎(chǔ)設(shè)施以及算法等方面的工作,預訓練規(guī)模可以提升 10 倍,從而打造出最好的預訓練基礎(chǔ)模型。
如今我們提出一個問題,如果把擁有 20 萬個 GPU 的Colossus超級計算系統(tǒng)全部投入強化學習,其計算量是其他模型在強化學習上的 10 倍,會發(fā)生什么?這就是Grok 4 的故事。
我們來談談Grok 4有多智能。這個基準測試名為"人文終極考試",而這個基準測試非常有挑戰(zhàn)性,每一道題都是由專業(yè)領(lǐng)域的專家精心編選,總共 2500 道題,涵蓋多個學科,包括數(shù)學、自然科學、工程學以及人文科學。實際上,今年早些時候這個測試剛發(fā)布時,市面上大多數(shù)模型在這個測試中的準確率只能達到個位數(shù)。
我們來看幾個例子,有一道關(guān)于范疇論中自然變換的數(shù)學題,還有一道關(guān)于電環(huán)化反應的有機化學題,以及一道要求從希伯來語原文中區(qū)分閉音節(jié)和開音節(jié)的語言學題。可以看到,題目涉及的范圍非常廣,每一道題都是博士甚至高級研究水平的題目。
而Grok 4 在所有學科上都達到了研究生水平,比大多數(shù)博士都要強,很多博士都會在這些題目上失敗,至少在學術(shù)問題上是這樣,當然,這并不意味著它在任何時候都有常識,也不意味著它已經(jīng)發(fā)明了新技術(shù)或發(fā)現(xiàn)了新的物理學理論,不過這只是時間問題。我認為它可能在今年晚些時候就會發(fā)明有用的新技術(shù),也有可能在今年年底。
接著聊聊Grok 4 背后的技術(shù)細節(jié)。實際上我們在訓練中投入了大量算力,一開始計算量只有個位數(shù),但隨著投入的訓練算力越來越多,它開始逐漸變得越來越聰明,最終解決了四分之一的HLA問題,而且這還是在沒有使用任何工具輔助的情況下。
所有DeepSearch其實就是Grok 3 的推理模型,但沒有經(jīng)過任何針對性訓練。我們只是要求它使用那些工具。相比之下,它在工具使用能力方面要弱得多,而且不可靠。
需要說明的是,如果和特斯拉或SpaceX所使用的工具相比,目前這些工具的使用還相當初級。在特斯拉或SpaceX,他們會使用有限元分析和計算流體動力學,還能進行碰撞模擬測試,這些模擬與現(xiàn)實情況極其接近,以至于如果測試結(jié)果與模擬結(jié)果不符,人們會認為測試對象有問題,模擬的精確程度就是如此之高。目前Grok還沒有使用公司會用到的那些真正強大的工具,但我們會在今年晚些時候為它提供這些工具,讓它擁有公司級的工具和非常精確的物理模擬器。
最終,能帶來最大改變的是讓它通過人形機器人與現(xiàn)實世界進行交互。將Grok和Optimus結(jié)合起來,就能真正與現(xiàn)實世界互動,還能提出假設(shè),并驗證假設(shè)是否正確。
我們正處于一場巨大的智能爆炸的開端,現(xiàn)在就像是智能領(lǐng)域的大爆炸時刻,這是人類歷史上最有趣的時代,我們必須要確保這個AI是個好的AI,一個優(yōu)秀的Grok。我認為對于AI安全而言,最重要的是讓它最大限度地追求真理。這是一個非常基本的原則,可以把AI看作一個超級天才兒童,它最終會比你更聰明,但你仍然可以給它植入正確的價值觀,鼓勵它追求真理。就像你希望給一個最終會變得極其強大的孩子灌輸?shù)哪切﹥r值觀,比如正直誠實之類的。
我們現(xiàn)在所說的工具仍然很初級,不是成熟商業(yè)公司會用的那種工具。但我們會給它配備那些工具,我認為有了這些工具,它就能解決現(xiàn)實世界中的技術(shù)問題。
實現(xiàn)這些需要算力,還要有合適的工具,最終要能與物理世界進行交互,我們就能擁有一個真正的經(jīng)濟體,最終形成一個規(guī)模上千倍的經(jīng)濟體。若把文明發(fā)展程度看作是在卡爾達肖夫等級上的完成度,卡爾達肖夫一級是利用行星的全部能源輸出,二級是利用恒星的全部能源輸出,三級是利用整個星系的全部能源輸出。在我看來,我們現(xiàn)在可能才達到卡爾達肖夫一級的1%左右,遠不到10%,接下來會朝著80%、90%的卡爾達消夫一級邁進,前提是文明不會自我毀滅。
就像人類經(jīng)濟的真實概念,假設(shè)文明持續(xù)進步,回顧起來我們現(xiàn)在的狀態(tài)會顯得很原始。和未來的情況相比,我們現(xiàn)在的智能水平就像是原始人往火里扔樹枝一樣。這非常令人振奮,有時也為此擔憂。創(chuàng)造出遠超我們自身的智能,這多少有點讓人不安。這對人類來說是福是禍,但就算結(jié)果不好,我至少也想活著見證它發(fā)生。
我們?nèi)孕杞鉀Q的一個技術(shù)問題,除了算力之外,我們該如何突破數(shù)據(jù)瓶頸。因為當我們試圖擴大強化學習的規(guī)模時,我們確實發(fā)明了很多新技術(shù)、新方法,讓我們能夠解決許多具有挑戰(zhàn)性的強化學習問題。問題本身不僅要具有挑戰(zhàn)性,還需要有可靠的信號來告知模型它做對了還是做錯了,就是強化學習的原理。隨著模型越來越智能,有趣或有挑戰(zhàn)性的問題數(shù)量會越來越少。所以,除了計算能力,這將是我們需要克服的一種新型挑戰(zhàn)。
實際上我們能用來測試的問題都快用完了,甚至出現(xiàn)了荒謬至極的難題,對人類來說幾乎不可能解答的書面問題正在被輕易解決,但對AI來說很快就變得微不足道了。現(xiàn)實才是檢驗一切的絕佳標準,因為如果物理規(guī)律是法則,那么其他一切都只是建議,你無法違背物理規(guī)律,因此最終的推理測試就是現(xiàn)實。
比如你發(fā)明了一項新技術(shù),改進了汽車或火箭的設(shè)計,或者研發(fā)出一種新藥物,它管用嗎,火箭能進入軌道嗎,汽車能行駛嗎,藥物有療效嗎,不管情況如何,現(xiàn)實才是最終的評判者,圍繞現(xiàn)實形成閉環(huán)。
我們提出了這個問題,該如何更進一步?實際上,我們現(xiàn)在在思考,單智能體系統(tǒng)能夠解決40%的問題。如果我們同時運行多個智能體會怎樣,這就是所謂的測試與計算。當我們擴大測試和計算的規(guī)模時,實際上我們能夠解決超過50%的基于文本的HRE問題子集。
但是一旦它發(fā)現(xiàn)了解決問題的訣竅或本質(zhì),就會與其他智能體分享這個解決方案,然后它們會互相交流,本質(zhì)上就是互相核對筆記,最后得出一個答案。所以Grok 4的核心部分就是將測試時的計算能力提高大約一個數(shù)量級,讓多個智能體處理任務,然后它們比較成果并提出它們認為最好的結(jié)果。
接下來我們將介紹Grok 4和Grok 4 重型版本,Grok 4基本上就是單智能體版本,Grok 4 重型版是多智能體版本。讓我們看看它們在這些考試問題以及一些現(xiàn)實問題上的表現(xiàn)如何。
我們接下來要分析一個高階邏輯推理(HLE)題目,這其實是一道相對簡單的數(shù)學題。我不太懂這道題,但我可以在這里啟動求解程序,看看它是如何處理并思考這個問題的。在這個過程中,我也想再多展示一些這個模型的能力,同時啟動Grok 4 重型版本。
大家都知道Polymarket,它非常有趣,它是真理的探尋者,大多數(shù)時候與現(xiàn)實情況相符。對于Grok,我們實際追求的是能預見,我們?nèi)绾螄L試利用這些市場并觀察,倘若我們也能預測未來,所以在程序運行的時候,我們將看看Grok 4 重型版本如何預測美國職業(yè)棒球大聯(lián)盟當前各球隊在世界大賽中的獲勝概率。
快速切回來,我們可以看到數(shù)學問題已經(jīng)解答完了。這個模型查看他在此處的思考軌跡,你就能知道它是如何解決問題的。我其實不太懂那些數(shù)學內(nèi)容,但我提前看過答案了,它最后得出的答案是正確的。
回看X平臺照片的需求,搜索出了格雷格·楊,他賬號上有他最喜歡的一張照片,其實和他本人長得不太一樣,但還挺有意思的。但關(guān)鍵是它得理解這個問題,這才是神奇的地方,就好像它知道什么樣的照片算奇怪,它得搜遍所有團隊成員,搞清楚我們都是誰,然后進行搜索。實際上它沒有訪問XAI內(nèi)部人員信息,只是在互聯(lián)網(wǎng)上搜,所以你可以說找出任何一家公司里照片最奇怪的人。
實際上我們也對多模型子集進行了評估。在整個數(shù)據(jù)集上,這是HRE考試的得分情況。你可以看到分數(shù)有略有下降。這其實是我們持續(xù)改進的地方,即多模型理解能力。但我相信在很短的時間內(nèi),我們能夠取得顯著的改進,在這個基準測試中獲得更高的分數(shù),甚至遠遠高于當前水平。
除了HRE考試,我們還可以看看其他的基準測試。結(jié)果表明,Grok4在人們通常測試的所有推理基準測試中都表現(xiàn)出色,包括通用基準問答(GBQA),這是一套博士水平的問題集,比HRE考試相對簡單一些。
我們很快就能達到這樣的水平:它在每場考試中都能答對所有問題。如果遇到無法回答的問題,它會指出問題哪里有問題,或者如果問題含糊不清,它會將問題進行澄清,給出A、B、C等不同答案,并告訴你在澄清后的問題下,A、B、C答案分別是什么。到那時,唯一真正的檢驗標準將是現(xiàn)實應用。它能否創(chuàng)造出有用的技術(shù),發(fā)現(xiàn)新的科學知識,這將是唯一剩下的檢驗,因為人類的考試將變得毫無意義。
鑒于目前的進展速度,我們很快就得更新HRE考試的內(nèi)容了,看到多個智能體相互協(xié)作解決極具挑戰(zhàn)性的問題,真的超級酷。
我們即將推出Grok 重型版本,你可以同時使用Grok4和Grok 4重型版,在這里你將真正成為任務的主導者,一群小型Grok研究助手助你全方位變得更智慧,還能為你節(jié)省數(shù)小時的時間,處理繁瑣任務。
我們在演示期間限制了使用量,以防破壞演示效果,因為所有這些都是實時進行的。所以我們做的任何測試都不是預先錄制好的,演示結(jié)束后,我們會為Grok 重型版本開發(fā)更多訂閱名額。
現(xiàn)在咱們來聊聊語音功能,在過去幾個月里,我們把延遲降低了一半,讓它反應更靈敏。今天,我們很高興地宣布推出一組新語音,它們極其自然且富有韻律。直播開場用的電影預告片語音,就是我們的新語音之一,羅克,他的聲音低沉雄渾。我們也很高興推出伊芙,一位聲音動聽的英式語音,能表達豐富情感。
羅克反應更快,但它會打斷我,在韻律方面,我們做了不同的設(shè)計選擇。我認為我們追求的是更沉穩(wěn)、流暢、自然的效果,而不是那種更活潑或人工感強的效果。
自語音模型發(fā)布以來,我們實際上實現(xiàn)了端到端延遲快兩倍的效果。在過去八周里,有了五種不同的語音,還有10倍的活躍用戶,Grok語音正逐漸流行起來。
現(xiàn)在考慮到模型的發(fā)布,這次我們同時也通過API發(fā)布了Grok 4。我們看接下來的兩張幻燈片,我們對開發(fā)者群體將用它開發(fā)出什么成果感到非常興奮。假設(shè)我是一名開發(fā)者,如果能使用Grok 4 API基準測試,我首先會做什么呢?
但事實證明,當我們在ArcAGI v2的一個私有子集上進行驗證時,發(fā)現(xiàn)它是過去三個月里唯一突破10%準確率門檻的模型,實際上準確率達到了15.8%,是排名第二的Claude 4 Opus模型的兩倍。而且這不僅僅是性能問題,當你考量智能水平時,使用API模型驅(qū)動自動化還要考慮性價比,請看看這里的圖表,Grok 4 可謂鶴立雞群,關(guān)于基準測試就說到這里。
在這個場景中,Grok等其他模型需要完成管理庫存、與供應商簽約、設(shè)定價格等任務,所有這些事情都很簡單,每個模型也都能一項一項地完成,但如果把這些任務放在長期時間跨度進行處理時,大多數(shù)模型都難以勝任。
Andon Labs 提前獲得了Grok 4的API的訪問權(quán)限,在測試平臺上運行了它,看到了一些非常令人印象深刻的結(jié)果,凈資產(chǎn)甚至翻了一番,這是在這次測試中的衡量指標,因此關(guān)鍵不在于關(guān)于你得到的百分比或分數(shù),而是你在網(wǎng)絡(luò)中創(chuàng)造的美元價值。
Andon Labs 對Grok印象深刻,它能夠制定策略并長期堅持該策略,比測試過的其他前沿模型的堅持時間要長得多。所以它能將模擬運行時間和得分都提高一倍,凈資產(chǎn)提高一倍,而且在多次運行中它也非常穩(wěn)定,若你想在現(xiàn)實世界中使用它時,這一點非常重要。
那么Grok還能做什么呢?我們實際上正在發(fā)布Grok,若你想立即試用并評估,運行和我們相同的基準進行評估,它已通過API開發(fā),有256k的上下文長度。我們確實已經(jīng)看到一些早期采用者在試用Grok API,帕洛阿爾托研究所,一家領(lǐng)先的生物醫(yī)學研究中心,已經(jīng)在使用它。
而在金融領(lǐng)域,我們也看到擁有所有工具和實時信息訪問權(quán)限的Grok 4實際上是最受歡迎的AI之一,我們的Grok也將在超大規(guī)模云計算平臺上可用,XAI企業(yè)部門兩個月前才剛剛啟動,現(xiàn)在已經(jīng)開放業(yè)務合作了。
我們還經(jīng)常談到用Grok來制作視頻游戲,丹尼是X平臺上的一名視頻游戲設(shè)計師,他實際上在四個小時內(nèi)就制作出了一款第一人稱射擊游戲,制作視頻游戲中一些未被充分認識到的最難的問題不一定是編碼游戲的核心邏輯,而是去獲取所有的資源、所有紋理文件,并創(chuàng)建一個視覺上吸引人的游戲。
Grok利用現(xiàn)有的所有工具在工作流程的一個核心方面做得非常好,它能夠自動完成資源獲取的任務。所以開發(fā)者現(xiàn)在可以只專注于核心開發(fā),而不是像以前那樣,現(xiàn)在你可以憑借一個人運營一整個游戲工作室,讓Grok 4去為你獲取所有那些資源,自動完成這些任務。它必須有很好的視頻理解能力,這樣它才能玩游戲并與游戲互動,并且能夠判斷一個游戲是否有趣。
總結(jié)一下,在今天的直播中,我們推出了最強大、最智能的AI模型,它能夠從第一性原理出發(fā)進行推理,使用所有工具進行研究,經(jīng)過一段時間的探索,現(xiàn)已可以為你給出最正確的答案。接下來我們將繼續(xù)開發(fā)不僅智能、能夠長時間深入思考、消耗大量算力的模型,更要開發(fā)既快速又智能的模型,這將是核心重點。有哪些應用能夠真正從這些非常智能、快速又聰明的模型中受益,編碼就是其中之一。
編碼之后,我們都看到了Grok 4在多模態(tài)能力方面的不足。事實上,情況非常糟糕,Grok實際上就像是透過模糊的玻璃看世界,看到的都是模糊的特征,試圖去理解它們。我們在下一代預訓練模型中會看到的最直接的改進是,模型在圖像理解、視頻理解和音頻方面的能力將有顯著提升。
現(xiàn)在有了所有可用的工具,有了可以交流的其他智能體,多模態(tài)智能體之后將解鎖許多不同的應用層,接下來將是視頻生成。我們相信最終應該是輸入像素,輸出像素。想象一下,在X平臺上會有源源不斷的內(nèi)容庫,你通常可以觀看這些生成的視頻,還能參與創(chuàng)作,我們預計將訓練一個超過10萬GB,甚至20萬GB的視頻模型。
Grok 4的發(fā)布,不僅展示了AI在推理和多模態(tài)處理上的突破,更預示著AI向深度智能邁出的關(guān)鍵一步,能夠在多個學科領(lǐng)域中獨立推理、整合信息并做出決策。這不僅使得Grok 4成為一個高效的工具,更讓它具備了接近"自主思考"的潛力。
xAI的下一步,是讓Grok 4不止停留在解答問題的層面,而是在更復雜的任務中與人類協(xié)同作戰(zhàn),像真正的智能伙伴一樣。在這個過程中,AI的角色正逐漸從工具變?yōu)樗季S的延伸,開啟了一個人類與機器共創(chuàng)的新時代。我們或許正在見證一個"智能覺醒"的起點,未來將是機器與人類共同塑造的復雜生態(tài)。