以下為本次精彩對(duì)話的實(shí)錄:
Alex Kantrowitz:各位,今天現(xiàn)場(chǎng)高朋滿座!我聽到了大家的歡呼聲,每個(gè)人都已經(jīng)感受到了這里的熱烈氣氛!讓我們正式開始。我是 Alex Kantrowitz ,Big Technology Podcast 的主持人。今天我將與兩位杰出的嘉賓共同探討人工智能的前沿領(lǐng)域。一位是 Google DeepMind 的首席執(zhí)行官 Demis Hassabis,很高興見到您。我們還有一位特別嘉賓,谷歌聯(lián)合創(chuàng)始人 Sergey Brin 也蒞臨現(xiàn)場(chǎng),相信這將會(huì)非常有趣。讓我們從關(guān)于前沿模型的討論開始。Demis,這個(gè)問題先請(qǐng)教您:以我們目前對(duì)前沿模型的理解來看,還有多少提升空間?您認(rèn)為為什么有這么多優(yōu)秀的人士認(rèn)為相關(guān)技術(shù)的回報(bào)或進(jìn)展將趨于平緩?
Demis Hassabis:目前我們正在取得令人難以置信的進(jìn)展。正如我們今天在主題演講中所見證的,我們展示了許多激動(dòng)人心的成果,不僅在現(xiàn)有技術(shù)的基礎(chǔ)上取得了顯著進(jìn)步,并將其潛力發(fā)揮到了極致。同時(shí),我們也在不斷創(chuàng)造和發(fā)明新的事物。要實(shí)現(xiàn)像通用人工智能(AGI)這樣的宏偉目標(biāo),或許還需要一到兩個(gè)全新的重大突破。我們有很多前景廣闊的想法正在醞釀之中,并希望將它們?nèi)谌?Gemini 模型系列的主迭代版本中。
Alex Kantrowitz:一直以來,大家都在探討 scale 的問題——規(guī)模的擴(kuò)大是否能解決所有問題?所以我想請(qǐng)問,就目前的技術(shù)改進(jìn)而言,規(guī)模的擴(kuò)大是扮演著主要驅(qū)動(dòng)角色,還是輔助角色?
Demis Hassabis:我始終認(rèn)為兩者(規(guī)模和算法創(chuàng)新)都不可或缺。你需要將現(xiàn)有技術(shù),無論是數(shù)據(jù)規(guī)模還是計(jì)算規(guī)模,都擴(kuò)展到極致。同時(shí)你還需要投入大量精力研究未來的發(fā)展方向,可能著眼于六個(gè)月或一年之后,從而實(shí)現(xiàn)下一個(gè)創(chuàng)新,或許能帶來十倍的飛躍,并與規(guī)模化擴(kuò)展形成某種協(xié)同效應(yīng)。所以,在我看來,兩者兼顧至關(guān)重要。Sergey,您怎么看?
Sergey Brin:我同意這兩者都不可或缺。一方面是算法的改進(jìn),另一方面是純粹計(jì)算能力的提升——例如更好的芯片、更多的芯片、更強(qiáng)的算力、更大的數(shù)據(jù)中心?;仡櫄v史,如果我們觀察諸如 N 體問題(N-body problem)的模擬,例如引力體系統(tǒng),就會(huì)發(fā)現(xiàn)算法的進(jìn)步速度實(shí)際上已經(jīng)超越了遵循摩爾定律的計(jì)算能力增長(zhǎng)速度。如果要我預(yù)測(cè),我會(huì)說精煉的算法進(jìn)步可能比計(jì)算能力的進(jìn)步更為關(guān)鍵,但目前兩者都在快速發(fā)展,我們正同時(shí)受益于這兩方面的發(fā)展。
Alex Kantrowitz:Demis,您認(rèn)為當(dāng)前的進(jìn)展主要源于建立更大型的數(shù)據(jù)中心和使用更多的此類芯片嗎?有人談?wù)撌澜缥磥韺⒈粩?shù)據(jù)中心所覆蓋的景象。這符合您的愿景嗎?
Demis Hassabis:并非如此。我們當(dāng)然會(huì)需要更多的數(shù)據(jù)中心,從科學(xué)角度看,這種投入的回報(bào)是驚人的。把硅芯片轉(zhuǎn)變?yōu)闀?huì)思考的機(jī)器,這本身就不可思議。但這實(shí)際上不僅僅是為了模型訓(xùn)練。現(xiàn)在我們擁有了這些廣受歡迎的模型,也確實(shí)看到了市場(chǎng)對(duì) Gemini 2.5 Pro 的強(qiáng)勁需求。Gemini Flash 模型的性能以及其極具吸引力的低成本讓大家非常興奮,我認(rèn)為全世界的用戶都會(huì)希望使用這些技術(shù)和模型。因此,現(xiàn)在需要大量的數(shù)據(jù)中心來支持服務(wù),同時(shí)也需要滿足推理時(shí)對(duì)計(jì)算資源和時(shí)間的需求。
正如您今天所見,類似 " 深度思考 " 這樣的能力,例如在 Gemini 2.5 Pro 上,您賦予它越多的思考時(shí)間,它就能表現(xiàn)得越好。對(duì)于某些價(jià)值極高、難度極大的任務(wù),投入更長(zhǎng)的思考時(shí)間是值得的。我們?cè)谔剿魅绾芜M(jìn)一步提升這方面的能力,這也需要大量的計(jì)算芯片來支持運(yùn)行。
Alex Kantrowitz:您提到了測(cè)試時(shí)計(jì)算,這個(gè)推理范式我們已經(jīng)研究了大約一年,過去也曾兩次探討過它,認(rèn)為它可以作為對(duì)傳統(tǒng)大語言模型的一種補(bǔ)充,以獲取性能上的增益。所以我覺得現(xiàn)在是一個(gè)很好的時(shí)機(jī)來了解最新進(jìn)展。您能為我們梳理一下,在推理方面所取得的進(jìn)展幅度嗎?
Demis Hassabis:我們一直堅(jiān)信我們稱之為 " 推理 " 的范式。如果您回顧我們?cè)缙诘墓ぷ?,例?AlphaGo 和 AlphaZero 這些在游戲領(lǐng)域的智能代理項(xiàng)目,它們都在核心模型之上具備了這種 " 推理系統(tǒng) " 的特性。實(shí)際上,以國(guó)際象棋或圍棋為例,如果關(guān)閉 AlphaGo 或 AlphaZero 的思考系統(tǒng),那么它僅僅是模型給出的第一直覺或初步判斷。這種直覺判斷的水平也相當(dāng)不錯(cuò),或許能達(dá)到大師級(jí)水準(zhǔn)。但如果開啟 " 推理 " 功能,它的表現(xiàn)就能超越世界冠軍的水平——啟用與否,兩者的 Elo 等級(jí)分差距可達(dá) 600 多分。因此,這種差異在游戲中已顯而易見,在更為復(fù)雜的現(xiàn)實(shí)世界中則可能更為顯著。如果在現(xiàn)實(shí)世界應(yīng)用中加入這種思考模式,所帶來的增益可能會(huì)更大。
當(dāng)然,挑戰(zhàn)在于模型本身,正如我在此前的演講中提到的,它需要成為一種 " 世界模型 "。這自然遠(yuǎn)比構(gòu)建一個(gè)簡(jiǎn)單的游戲模型要困難得多。并且,其中會(huì)不可避免地存在誤差,這些誤差會(huì)在長(zhǎng)期的規(guī)劃和推理中累積。但我認(rèn)為,我們?cè)谒羞@些方面都取得了良好的進(jìn)展。
Sergey Brin:是的,正如 Demis 所言,DeepMind 確實(shí)開創(chuàng)了許多強(qiáng)化學(xué)習(xí)方面的工作。他提到,他們?cè)?AlphaGo 和 AlphaZero 上的工作成果,我記得,如果不采用這種長(zhǎng)時(shí)間推理計(jì)算,可能需要多出約 5000 倍的訓(xùn)練量才能達(dá)到同等效果,這顯然是一項(xiàng)巨大的優(yōu)勢(shì)。
就像我們大多數(shù)人在說話前先思考一番會(huì)受益一樣。雖然并非總能做到,但我經(jīng)常被提醒要這樣做(先思考)。但我認(rèn)為,一旦人工智能具備了這種 " 推理 " 能力,它無疑會(huì)變得更加強(qiáng)大。從這個(gè)意義上講,我認(rèn)為目前所見的僅僅是冰山一角,這些(具備深度思考能力的)模型真正展現(xiàn)其潛力還不到一年時(shí)間。
Demis Hassabis:特別是考慮到,如果人工智能在 " 推理 " 的過程中,能夠調(diào)用一系列工具,甚至運(yùn)用其他 AI 模型來輔助,就能進(jìn)一步改進(jìn)最終的輸出結(jié)果,這將是一個(gè)非常強(qiáng)大的范式。
Alex Kantrowitz:這種 " 深度推理 " 的機(jī)制非常有趣。我嘗試描述一下我的理解:它基本上是多個(gè)并行的推理過程,這些過程會(huì)相互校驗(yàn)結(jié)果。Demis,您曾說過,實(shí)現(xiàn) AGI 還需要更多突破。您認(rèn)為這種 " 深度推理 " 機(jī)制在通往 AGI 的道路上處于什么位置?它是有可能讓整個(gè)行業(yè)向 AGI 更近一步的關(guān)鍵機(jī)制之一嗎?
Demis Hassabis:我想是的,這可能是其中的一部分。我們還需要其他方面的進(jìn)展,但這(深度推理)確實(shí)可以成為改進(jìn)推理能力的一個(gè)重要組成部分。但真正的發(fā)明創(chuàng)造從何而來?這不僅僅是解決一個(gè)大規(guī)模的猜想,而是要能夠提出新的假設(shè),例如一個(gè)新的物理學(xué)理論。目前我認(rèn)為還沒有能夠達(dá)到這種創(chuàng)造力水平的系統(tǒng),但這樣的系統(tǒng)正在逐步實(shí)現(xiàn)。我們需要在構(gòu)建 " 世界模型 " 的準(zhǔn)確性方面取得更大進(jìn)展。
例如 VEO 所展現(xiàn)的潛力就讓我非常驚訝,它似乎能直觀地理解光影和重力等物理原理。在我職業(yè)生涯的早期,我曾參與過電腦游戲的開發(fā)工作,不僅涉及人工智能,也包括圖形引擎的構(gòu)建。我仍記得當(dāng)時(shí)需要手動(dòng)實(shí)現(xiàn)所有這些效果——編寫光照、著色器等代碼。這些過去在早期游戲中費(fèi)盡心力構(gòu)建的極其復(fù)雜的內(nèi)容,現(xiàn)在模型似乎憑直覺就能生成,這實(shí)在太驚人了。
Alex Kantrowitz:我們已經(jīng)幾次提到了 AGI。我發(fā)現(xiàn)當(dāng)前人工智能領(lǐng)域似乎有一種趨勢(shì),即不再過多談?wù)?AGI,認(rèn)為這個(gè)詞在某種程度上已被過度使用,甚至失去了明確的意義。但 Demis,我感覺您認(rèn)為 AGI 這個(gè)概念仍然非常重要。能談?wù)劄槭裁磫幔?/p>
Demis Hassabis:是的,我認(rèn)為它非常重要。我甚至覺得,或許我需要和我們的首席科學(xué)家 Shane Legg 共同撰寫一些東西來闡述,我們大約在 25 年前參與創(chuàng)造了這個(gè)術(shù)語。目前存在兩個(gè)概念上的混淆。一個(gè)是指普通人通常能做的事情的范疇。我們都很能干,但每個(gè)人的能力范圍是有限的。一個(gè)人通常只擅長(zhǎng)特定領(lǐng)域的事情,或者說 " 普通人能做什么?" 或者 "90% 的人能做什么?"。這在經(jīng)濟(jì)層面上顯然非常重要。從產(chǎn)品的角度來看,這同樣至關(guān)重要。所以,這是一個(gè)非常重要的里程碑。
或許我們應(yīng)該稱之為 human-level intelligence / typical human intelligence(標(biāo)準(zhǔn)人類智能水平)。但我個(gè)人更感興趣的,也就是我所定義的 AGI,實(shí)際上是一個(gè)更偏理論的概念,指的是人類大腦作為一種架構(gòu)所能達(dá)到的能力上限。人類大腦是一個(gè)重要的參照點(diǎn),因?yàn)樗怯钪嬷形覀円阎摹⑽ㄒ荒軌蜃C明通用智能可能存在的實(shí)例。要達(dá)到 AGI,系統(tǒng)必須證明其有能力完成一系列的任務(wù),這些任務(wù)是歷史上最杰出的人類憑借相同的大腦結(jié)構(gòu)所能完成的。不是指某一個(gè)特定的大腦,而是指人類大腦這種通用的結(jié)構(gòu)。像愛因斯坦、莫扎特、瑪麗 · 居里等人所能完成的成就,在我看來,現(xiàn)今的 AI 系統(tǒng)顯然還不具備這樣的能力。
另外一點(diǎn),我認(rèn)為當(dāng)今對(duì) AGI 的某些炒作之所以有些言過其實(shí),是因?yàn)槲覀儸F(xiàn)有的系統(tǒng)雖然能力已經(jīng)相當(dāng)廣泛,但其表現(xiàn)的一致性和魯棒性還不足以被稱為 " 完全通用 "。它們能完成成千上萬種不同的任務(wù),今天大家也見證了許多令人印象深刻的演示。但我們每個(gè)人在使用當(dāng)今的聊天機(jī)器人和輔助工具時(shí)也都有體會(huì),你可以在幾分鐘內(nèi)輕易發(fā)現(xiàn)它們的一些明顯缺陷,例如無法解決某些高中水平的數(shù)學(xué)問題,或者玩不了一些基本的游戲。要找到這些系統(tǒng)中的不足之處并不困難。對(duì)我而言,一個(gè)系統(tǒng)要被稱為 AGI,其表現(xiàn)必須比現(xiàn)在更加一致和可靠?;蛟S需要一個(gè)專家團(tuán)隊(duì)花費(fèi)數(shù)月時(shí)間才能發(fā)現(xiàn)其明顯的漏洞,而不是像今天這樣,普通用戶在幾分鐘內(nèi)就能發(fā)現(xiàn)。
Alex Kantrowitz:您認(rèn)為若某家公司率先實(shí)現(xiàn)了 AGI,這場(chǎng)競(jìng)賽就算結(jié)束了嗎?還是說谷歌、OpenAI、Anthropic、以及中國(guó)等都有可能實(shí)現(xiàn) AGI?
Sergey Brin:這是個(gè)好問題。我認(rèn)為某個(gè)公司、國(guó)家或?qū)嶓w可能會(huì)首先達(dá)到或接近 AGI 的某個(gè)標(biāo)準(zhǔn)。但這更像一個(gè)連續(xù)的光譜,而不是一個(gè)絕對(duì)精確的節(jié)點(diǎn)。所以可以想象,在某個(gè)時(shí)間點(diǎn),可能會(huì)有不止一個(gè)實(shí)體大致處于這個(gè)范圍。至于之后會(huì)發(fā)生什么?坦白講,這很難預(yù)測(cè),但我們完全可以想象會(huì)有多個(gè)掌握 AGI 能力的實(shí)體出現(xiàn)。在我們?nèi)斯ぶ悄茴I(lǐng)域,我們已經(jīng)看到,當(dāng)我們?nèi)〉媚撤N進(jìn)展時(shí),其他公司會(huì)迅速跟進(jìn),反之亦然。當(dāng)其他公司取得某種進(jìn)步時(shí),這是一種持續(xù)的 " 蛙跳式 " 發(fā)展。這種相互啟發(fā)的元素,可能會(huì)鼓勵(lì)越來越多的實(shí)體跨越 AGI 的門檻。
Alex Kantrowitz:Demis,您怎么看?
Demis Hassabis:我想我們的看法可能類似,就 AGI 的定義來說,對(duì)于整個(gè)領(lǐng)域而言至關(guān)重要,或許我們應(yīng)該嘗試推動(dòng)各方就此達(dá)成一致。假設(shè)真的出現(xiàn) AGI,可能會(huì)有一些組織率先達(dá)到這個(gè)水平。這一點(diǎn)很重要,因?yàn)橹挥羞@樣,第一批 AGI 系統(tǒng)才能在安全可靠的前提下被構(gòu)建出來。在此之后,如果情況允許,我們可以設(shè)想利用它們來催生出更多具備安全架構(gòu)、且其安全性可得到驗(yàn)證的系統(tǒng)。進(jìn)而我們才可能擁有個(gè)人化的 AGI,并發(fā)生各種各樣的事情。但這正如 Sergey 所說,非常難以預(yù)測(cè),很難超越當(dāng)前的 " 事件視界 " 去準(zhǔn)確預(yù)見未來會(huì)發(fā)生什么。
Alex Kantrowitz:我們談?wù)摿艘恍╆P(guān)于 AGI 的定義,很多人認(rèn)為 AGI 必須是關(guān)于知識(shí)的,即大腦的智能。那么心智層面呢?Demis,簡(jiǎn)單來說,人工智能要被認(rèn)為是 AGI,是否必須具備情感?它能擁有主觀能動(dòng)性嗎?
Demis Hassabis:我認(rèn)為它需要能夠理解情感。至于我們是否想要模仿或賦予 AI 情感,這幾乎是一個(gè)設(shè)計(jì)上的決策。理論上沒有理由做不到這一點(diǎn),但 AI 的情感表現(xiàn)可能會(huì)與人類有所不同,或者事實(shí)上,我們可能不希望它們擁有與我們?nèi)祟愊嗤那榫w反應(yīng)。所以,隨著我們?cè)絹碓浇咏赡軐?shí)現(xiàn) AGI 的時(shí)間框架和相關(guān)事件的發(fā)生,這又是一個(gè)懸而未決的問題,這更多的是在未來 5 到 10 年的時(shí)間尺度上需要深入探討的問題。我們還有一些時(shí)間,雖然不多,但仍有一些時(shí)間來研究這些復(fù)雜的問題。
Alex Kantrowitz:當(dāng)思考如何縮短 AGI 實(shí)現(xiàn)的時(shí)間框架時(shí),我常在想這是否會(huì)通過創(chuàng)造能夠自我改進(jìn)的系統(tǒng)來實(shí)現(xiàn)。上個(gè)星期,我讀到一篇關(guān)于 "AlphaDev"(一種 AI 輔助算法設(shè)計(jì)工具)的頭條新聞,我能興奮得從椅子上跳起來。"AlphaDev" 是一種可以幫助設(shè)計(jì)更好算法,甚至改進(jìn)大語言模型訓(xùn)練方式的人工智能。所以,Demis,您是在試圖引發(fā)一場(chǎng)可控的智能爆炸嗎?
Demis Hassabis:并非是無法控制的。這其實(shí)是一次有趣的初步實(shí)驗(yàn)。它是一個(gè)非常出色的系統(tǒng),而且參與其中的團(tuán)隊(duì)也很優(yōu)秀?,F(xiàn)在,開始將其他類型的技巧(例如進(jìn)化編程技巧)與日益強(qiáng)大的最新基礎(chǔ)模型相結(jié)合,是一件很有趣的事情。實(shí)際上,我希望在我們的探索性研究中看到更多這類組合系統(tǒng),將不同的方法結(jié)合起來。你說得沒錯(cuò),這是一種可能的情況。如果有人發(fā)現(xiàn)了一種自我改進(jìn)的循環(huán),這可能是一種讓事情加速發(fā)展的方法。而且我們之前在自己的工作中已經(jīng)見過這種情況,比如像 Alpha Zero,它能在不到 24 小時(shí)的時(shí)間內(nèi),從隨機(jī)開始,通過自我改進(jìn)過程,從零學(xué)起國(guó)際象棋、圍棋以及任何兩人對(duì)弈游戲。但同樣,這些都屬于被明確描述的有限游戲領(lǐng)域。而現(xiàn)實(shí)世界要混亂得多、復(fù)雜得多。所以這種類型的方案能否以更通用的方式發(fā)揮作用,還有待觀察。
Alex Kantrowitz:Sergey,我們已經(jīng)討論了一些非常強(qiáng)大的系統(tǒng),而以這種方式開發(fā)這些系統(tǒng)無疑是一場(chǎng)競(jìng)賽。這是否是您回歸谷歌的原因之一?
Sergey Brin:作為一名計(jì)算機(jī)科學(xué)家,現(xiàn)在是一個(gè)非常獨(dú)特的歷史時(shí)期。坦率地說,任何計(jì)算機(jī)科學(xué)家現(xiàn)在都不應(yīng)該退休,而應(yīng)該投身于人工智能研究,這就是我想表達(dá)的。這是一個(gè)前所未有的挑戰(zhàn)和機(jī)遇,也是一個(gè)前所未有的技術(shù)浪潮的頂峰。所以,我不會(huì)說回歸是因?yàn)楦?jìng)賽,盡管我們完全打算讓 Gemini 成為頂尖的人工智能模型,而是因?yàn)槟軌虺两谶@場(chǎng)令人難以置信的技術(shù)革命中。這與我經(jīng)歷過的互聯(lián)網(wǎng) 1.0 時(shí)代不同,那時(shí)我們有手機(jī)、有各種新設(shè)備。但我認(rèn)為當(dāng)前的人工智能發(fā)展在科學(xué)上更令人興奮,并且我認(rèn)為,它最終將對(duì)世界產(chǎn)生更大的影響。正如互聯(lián)網(wǎng)和移動(dòng)技術(shù)帶來了巨大變革一樣,人工智能將帶來更大規(guī)模的轉(zhuǎn)型。
Alex Kantrowitz:那么您現(xiàn)在每天都做些什么呢?
Sergey Brin:我主要是在 " 折磨 " 像 Demis 這樣的人。順便提一句,他非常了不起,能夠容忍我在各種會(huì)議和討論中 " 搗亂 "。我就在公司附近,幾乎每天都會(huì)過來。他們是研究 Gemini 關(guān)鍵文本模型的核心團(tuán)隊(duì),包括預(yù)訓(xùn)練和后期調(diào)整。大多數(shù)情況下,我會(huì)定期深入?yún)⑴c一些多模態(tài)項(xiàng)目的工作,比如你們都見過的 VEO 項(xiàng)目,我傾向于深入研究技術(shù)細(xì)節(jié)。幸運(yùn)的是,我能享受這種奢侈,因?yàn)橛邢?Demis 這樣的人在打理日常運(yùn)營(yíng)。我的科研興趣主要集中在這里,我也對(duì)算法以及算法如何進(jìn)化非常的著迷。
Alex Kantrowitz:讓我們來談?wù)勛罱l(fā)布的一些產(chǎn)品。我想先寬泛地問一個(gè)關(guān)于 agent 演示的問題。因?yàn)楫?dāng)我看到其他科技公司構(gòu)建 agent 時(shí),我們?cè)谘菔局锌吹降耐ǔJ且恍┠軌蚋兄舷挛?、擁有虛擬聲音、經(jīng)常與人互動(dòng),并且你通常在屏幕上與其互動(dòng)的東西。而當(dāng)我看到 DeepMind 和谷歌的演示時(shí),通常是通過攝像頭進(jìn)行的,非常側(cè)重視覺感知。
今天也發(fā)布了關(guān)于智能眼鏡的消息。請(qǐng)談?wù)勥@是否就是谷歌的 " 智能方向 " ——通過視覺、聽覺等方式感知世界。為什么谷歌對(duì)于擁有一個(gè)能像你一樣看待世界的助手或伴侶如此感興趣?
Demis Hassabis:這有幾個(gè)原因,正如我們之前所說,我們一直對(duì) agent 非常感興趣,這實(shí)際上是 DeepMind 的傳統(tǒng)。我們最初就是從游戲中的 agent 系統(tǒng)開始的。我們正試圖構(gòu)建 AGI,也就是完全的通用智能。顯然,AGI 必須了解物理環(huán)境和周圍的物理世界。在我看來,AGI 的兩個(gè)重要用例是:一個(gè)真正有用的助手,它能在日常生活中與你形影不離,而不僅僅是局限于電腦或某個(gè)設(shè)備上。我們希望它在你的日常生活中無處不在,為你提供幫助。因此,它需要圍繞著你,了解你的物理環(huán)境。
另一件大事是,我一直認(rèn)為,要讓機(jī)器人技術(shù)真正發(fā)揮作用,你需要在機(jī)器人身上看到類似 Project Astra(谷歌的 AI 助手項(xiàng)目)的能力。我一直認(rèn)為,機(jī)器人技術(shù)的瓶頸并不主要在于硬件,盡管很明顯,有很多公司包括我們自己都在開發(fā)非常棒的硬件,我們也與很多公司合作。但實(shí)際上,我認(rèn)為阻礙機(jī)器人技術(shù)發(fā)展的一直是軟件和智能層面。我們現(xiàn)在正處于一個(gè)非常激動(dòng)人心的時(shí)刻,我們終于擁有了最新版本的模型,尤其是 Gemini 2.5 版本,以及更多我們將引入的語音技術(shù)和其他功能,我們將擁有真正令人興奮的算法,讓機(jī)器人技術(shù)最終能夠發(fā)揮其巨大潛力。所以最終,AGI 需要能夠完成所有這些事情。
因此,對(duì)我們來說,這就是為什么您可以看到我們一直在思考這個(gè)問題,也是為什么 Gemini 從一開始,甚至最早的版本都是多模態(tài)的。這在一開始增加了難度,因?yàn)橹谱鞫嗄B(tài)模型比只制作文本模型更難。但最終,我們現(xiàn)在正收獲這些決策帶來的好處。我看到許多 Gemini 團(tuán)隊(duì)的成員都坐在前排,他們見證了我們所做出的正確決策,盡管有些決策比較艱難,但我們做出了正確的選擇。
Alex Kantrowitz:我想問您一個(gè)關(guān)于谷歌眼鏡的問題。既然智能眼鏡再次成為熱點(diǎn),您從谷歌眼鏡的經(jīng)驗(yàn)中學(xué)到了什么,是谷歌或許可以在今天加以應(yīng)用的?
Sergey Brin:這確實(shí)是個(gè)好問題。坦率地說,我確實(shí)在谷歌眼鏡項(xiàng)目上犯了不少錯(cuò)誤。我依然堅(jiān)信產(chǎn)品的外形設(shè)計(jì)至關(guān)重要。產(chǎn)品現(xiàn)在有了新的設(shè)計(jì)方案,它看起來就像普通眼鏡,鏡片前沒有任何附加裝置。我覺得過去的技術(shù)與理想存在差距,但如今在人工智能領(lǐng)域,這類智能眼鏡在幫助用戶解決問題且不造成持續(xù)干擾方面的能力已大大增強(qiáng)。當(dāng)時(shí)我對(duì)消費(fèi)電子產(chǎn)品的供應(yīng)鏈了解甚少,也不清楚打造一款價(jià)格合理且需妥善管理生產(chǎn)等環(huán)節(jié)的產(chǎn)品有多么困難。
而現(xiàn)在,我們擁有了優(yōu)秀的合作伙伴,他們正在幫我們打造產(chǎn)品。必須承認(rèn),我依然懷念當(dāng)年演示時(shí),那艘飛艇以及進(jìn)行空中跳傘拍攝的場(chǎng)景。在海岸線露天劇場(chǎng)進(jìn)行演示比當(dāng)年在莫斯康尼中心更酷。但也許我們應(yīng)該先將產(chǎn)品打磨完善,然后穩(wěn)步推出,之后再進(jìn)行演示,這才是明智之舉。
Demis Hassabis:對(duì),我想說的是,我們?cè)谥悄苎坨R和智能設(shè)備領(lǐng)域顯然擁有著豐富的歷史積累,可以將所有這些寶貴的經(jīng)驗(yàn)應(yīng)用于現(xiàn)在的工作中。正如您今天所見,大家對(duì)新款眼鏡感到很興奮,但我一直在和我們的團(tuán)隊(duì),包括 Sheram 及其團(tuán)隊(duì)討論的觀點(diǎn)是,通用型個(gè)人助理會(huì)是智能眼鏡的 " 殺手級(jí)應(yīng)用 "。除了各項(xiàng)技術(shù)的進(jìn)步,尤其是硬件技術(shù)的持續(xù)發(fā)展和完善,這才是智能眼鏡成功的關(guān)鍵因素。在我看來,這才是其真正且最契合的 " 殺手級(jí)應(yīng)用 "。
Alex Kantrowitz:關(guān)于視頻生成技術(shù),今天我坐在主題演講的觀眾席中,對(duì)于我們所見證的這些模型的驚人進(jìn)步深感震撼。我記得在你們的演講中,似乎也有電影制作人提及了這一點(diǎn)。Demis,我想請(qǐng)教您,如果互聯(lián)網(wǎng)上充斥著由人工智能生成的視頻,這是否會(huì)導(dǎo)致模型本身的質(zhì)量下降?
Demis Hassabis:我們注意到許多人對(duì)于所謂的 " 模型坍塌 " 有所擔(dān)憂。視頻生成只是其中一個(gè)方面,這種情況可能出現(xiàn)在任何模態(tài)中,文本領(lǐng)域亦是如此。關(guān)于此問題,我們有幾點(diǎn)看法。首先,團(tuán)隊(duì)在數(shù)據(jù)質(zhì)量管理和整理方面執(zhí)行非常嚴(yán)格的標(biāo)準(zhǔn)。同時(shí),至少對(duì)于所有的生成式模型,我們都會(huì)為其嵌入 SynthID。這是一種隱形的人工智能水印技術(shù),非常穩(wěn)健耐用。從發(fā)布以來,它已經(jīng)有效應(yīng)用了一年到一年半的時(shí)間。所有的圖像和視頻作品都嵌入了這種水印。我們不僅能夠檢測(cè)這些水印,并且正在發(fā)布工具,讓任何人都可以檢測(cè)并識(shí)別出內(nèi)容是否由人工智能生成。這對(duì)于打擊深度偽造和虛假信息無疑至關(guān)重要。
當(dāng)然,這項(xiàng)技術(shù)也可以用于從訓(xùn)練數(shù)據(jù)中過濾掉不希望包含的內(nèi)容。所以我覺得這(模型坍塌)并非一個(gè)目前無法克服的重大難題。之后或許能夠開發(fā)出非常出色的視頻模型,來將它們生成的視頻作為額外數(shù)據(jù)源重新引入訓(xùn)練循環(huán),這也就是所謂的合成數(shù)據(jù)。在這種情況下,必須非常謹(jǐn)慎,避免從與目標(biāo)模型相同的分布中創(chuàng)建數(shù)據(jù),合成數(shù)據(jù)的質(zhì)量必須足夠高。
我們?cè)谝粋€(gè)完全不同的領(lǐng)域,例如 AlphaFold 項(xiàng)目中,積累了一些相關(guān)經(jīng)驗(yàn)。當(dāng)時(shí),我們其實(shí)并沒有足夠的真實(shí)實(shí)驗(yàn)數(shù)據(jù)來構(gòu)建最終的 AlphaFold 模型,就不得不先構(gòu)建一個(gè)早期版本,用它預(yù)測(cè)了大約一百萬個(gè)蛋白質(zhì)結(jié)構(gòu)。然后根據(jù)置信度對(duì)這些預(yù)測(cè)結(jié)構(gòu)進(jìn)行篩選,選取了置信度最高的約四十萬個(gè)結(jié)構(gòu),并將它們添加回訓(xùn)練數(shù)據(jù)中。因此,將合成數(shù)據(jù)與真實(shí)數(shù)據(jù)相結(jié)合是一項(xiàng)非常前沿的研究課題。目前也存在一些方法可以實(shí)現(xiàn)這一點(diǎn)。但就視頻生成模型而言,至少在我們自己的工作中,如果需要,是可以選擇將 AI 生成內(nèi)容排除在訓(xùn)練數(shù)據(jù)之外的。我們希望其他生成式媒體公司也能采取類似措施,加入強(qiáng)大的水印技術(shù)。同時(shí),首要任務(wù)是打擊深度偽造和不實(shí)信息。
Alex Kantrowitz:現(xiàn)在進(jìn)入快速問答環(huán)節(jié),讓我們看看能挖出多少。這個(gè)問題請(qǐng) Sergey 回答:十年后的網(wǎng)絡(luò)會(huì)是什么樣子?
Sergey Brin:我認(rèn)為十年后,人工智能的發(fā)展速度將遠(yuǎn)超我們的想象,其影響將不僅僅局限于網(wǎng)絡(luò)。我不覺得現(xiàn)在能真正預(yù)知十年后的世界究竟會(huì)是何種景象。
Demis Hassabis:我同意這個(gè)看法。在不遠(yuǎn)的將來,網(wǎng)絡(luò)會(huì)經(jīng)歷巨大的變革。如果考慮到一個(gè)以智能代理為核心的網(wǎng)絡(luò),它或許不再需要像人類那樣去瀏覽供應(yīng)商信息或其他內(nèi)容,幾年后的網(wǎng)絡(luò)形態(tài)將會(huì)截然不同。
Alex Kantrowitz:下一個(gè)問題可能有些宏大:通用人工智能(AGI)會(huì)在 2030 年之前還是之后實(shí)現(xiàn)?
Sergey Brin:2030 年啊……這確實(shí)是個(gè)非常精確的時(shí)間節(jié)點(diǎn)??赡堋?/p>
Demis Hassabis:那我必須回去更加努力地工作了。
Alex Kantrowitz:所以是 2030 年之后。好的。
Sergey Brin:別給他壓力。
Demis Hassabis:對(duì),我得回去更努力工作了(笑)。
Sergey Brin:這是我能期望的。他這是典型的謙虛說法。我們需要的是顛覆性的進(jìn)展,那才能真正撼動(dòng)一切。
Demis Hassabis:是的,沒錯(cuò)。
Alex Kantrowitz:我會(huì)來檢驗(yàn)成果的。下一個(gè)問題:你們會(huì)雇傭在面試過程中使用人工智能的人嗎?您指的是應(yīng)聘者在面試時(shí)使用 AI 工具嗎?
Demis Hassabis:這取決于他們?nèi)绾问褂谩H绻皇鞘褂矛F(xiàn)有的模型和工具來輔助回答,可能不會(huì)考慮,但這確實(shí)要看具體的使用方式。
Sergey Brin:其實(shí)我個(gè)人從未參與過正式的面試招聘,所以我不太清楚。如果由我來評(píng)判他人如何進(jìn)行面試,那會(huì)顯得有些虛偽。
Demis Hassabis:其實(shí)我也幾乎沒有,我從來沒正經(jīng)找過工作。
Alex Kantrowitz:Demis,我最近有關(guān)注您的推文。您發(fā)布了一條非常有趣的推文,其中包含一個(gè)生成某種自然場(chǎng)景的提示。推文內(nèi)容大致是:" 按下按鈕就能模擬大自然 ",并配了幾個(gè)表情符號(hào),這確實(shí)令人驚嘆。人們據(jù)此發(fā)揮,寫出了一些標(biāo)題,聲稱 Demis 認(rèn)為我們生活在一個(gè)模擬場(chǎng)景之中。我們是否真的處于一個(gè)模擬環(huán)境之中呢?
Demis Hassabis:并非完全是 Nick Bostrom 他們所說的那種模擬。我不認(rèn)為我們所處的是某種游戲,盡管我編寫過很多游戲,你知道,物理學(xué)的最終基礎(chǔ)是信息論,我確實(shí)認(rèn)為我們身處一個(gè)計(jì)算型宇宙之中,但這并不僅僅是一個(gè)簡(jiǎn)單的模擬。但我認(rèn)為,這些 AI 系統(tǒng)能夠模擬自然界中的真實(shí)結(jié)構(gòu),這一事實(shí)本身就非常有趣且富有啟發(fā)性。我一直在思考通過 AlphaGo 和 AlphaFold 在這類系統(tǒng)上所做的工作?;蛟S在某個(gè)時(shí)候,我會(huì)撰寫一篇科學(xué)論文,闡述我對(duì)現(xiàn)實(shí)本質(zhì)的思考。
Alex Kantrowitz:Sergey,您想對(duì)此發(fā)表一個(gè)可能成為頭條新聞的觀點(diǎn)嗎?
Sergey Brin:我認(rèn)為這個(gè)論點(diǎn)是可以遞歸應(yīng)用的,對(duì)吧?如果我們身處一個(gè)模擬之中,那么根據(jù)同樣的邏輯,無論是什么樣的存在體在運(yùn)行這個(gè)模擬,它們自身也可能處于另一個(gè)模擬之中,原因大致相同,如此層層嵌套。我們要么必須承認(rèn)我們處于一個(gè)無限嵌套的模擬層級(jí)之中,要么就必須承認(rèn)存在某種終止這種遞歸的條件。
Alex Kantrowitz:那您的最理想猜測(cè)是什么呢?
Sergey Brin:我覺得我們目前的觀點(diǎn)非常以人類為中心。比如,當(dāng)大家談?wù)?" 模擬 " 時(shí),通常指的是某種有意識(shí)的生命體,出于類似我們自身的欲望或意識(shí),正在運(yùn)行一個(gè)我們身處其中的模擬。我覺得這恰恰是我現(xiàn)有觀念受到挑戰(zhàn)的地方。因此,我不認(rèn)為目前真正有能力去推斷關(guān)于更高層級(jí)模擬的任何信息。
Alex Kantrowitz:Demis、Sergey,非常感謝兩位!這是一場(chǎng)極為精彩的對(duì)話。也謝謝各位觀眾。