從 ImageNet 到 World Labs ,李飛飛的學(xué)術(shù)與創(chuàng)業(yè)之路始終緊跟時(shí)代步伐,跨越一個(gè)又一個(gè)技術(shù)瓶頸。而今天,她將目光聚焦在更為復(fù)雜的空間智能上,探索如何突破視覺智能的二維限制,走向理解和重建三維世界的未來。
在YC創(chuàng)業(yè)學(xué)院峰會(huì)現(xiàn)場(chǎng),YC 合伙人 Diana Hu 與李飛飛展開一場(chǎng)爐邊對(duì)話,李飛飛深刻剖析了空間智能與語(yǔ)言理解之間的巨大差異,指出為什么三維世界建模對(duì)于AI的演進(jìn)至關(guān)重要。這不僅是AI技術(shù)的一次飛躍,更是智能體與人類世界更深層次連接的關(guān)鍵一步。
訪談內(nèi)容原汁原味呈現(xiàn)于下:
李飛飛:我的整個(gè)職業(yè)生涯都在攻克那些極其困難、近乎妄想的問題,對(duì)我而言,沒有空間智能的AGI是不完整的,我想解決這個(gè)問題,我就是熱愛當(dāng)企業(yè)家,忘掉你過去的成就,忘記別人對(duì)你的看法。埋頭苦干,努力建設(shè),那是我的舒適區(qū)。
Diana Hu:我特別興奮能請(qǐng)到李飛飛博士,她在 AI 領(lǐng)域有非常長(zhǎng)的職業(yè)生涯,我相信很多人都認(rèn)識(shí)她,她被稱為 AI 教母。你在2009年,創(chuàng)建的首批項(xiàng)目之一是 ImageNet(圖像數(shù)據(jù)庫(kù))。也就是16年前,天吶。
李飛飛:別提醒我這事了(笑)。
Diana Hu:現(xiàn)在該項(xiàng)目的論文引用量已超8萬次,并且真正開啟了 AI 的一個(gè)關(guān)鍵支柱,也就是數(shù)據(jù)問題。請(qǐng)告訴我們這個(gè)項(xiàng)目是如何產(chǎn)生的,那在當(dāng)時(shí)可是極具開創(chuàng)性的工作。
李飛飛:首先,Diana、Gary,還有在場(chǎng)的各位,感謝你們邀請(qǐng)我來。我非常激動(dòng)能來到這里,因?yàn)槲腋杏X自己就像是你們中的一員。我現(xiàn)在也是一名企業(yè)家,剛創(chuàng)辦了一家小公司,所以很高興能來這兒。
我們差不多18年前就有了創(chuàng)建 ImageNet 的想法,當(dāng)時(shí)我是普林斯頓大學(xué)的一年級(jí)助理教授,那時(shí) AI 和機(jī)器學(xué)習(xí)的世界和現(xiàn)在大不相同,數(shù)據(jù)少之又少,至少在計(jì)算機(jī)視覺領(lǐng)域,算法根本行不通,也沒有相關(guān)產(chǎn)業(yè)。就公眾而言,"AI"這個(gè)詞都還不存在。
但我們?nèi)匀挥幸蝗喝耍瑥?AI 的先驅(qū)開始,比如約翰·麥卡錫,再到像杰弗里·辛頓這樣的人物,一直懷揣著 AI 之夢(mèng)。我們真的想讓機(jī)器會(huì)思考、能工作,懷揣著這個(gè)夢(mèng)想,我個(gè)人的夢(mèng)想是讓機(jī)器能"看",因?yàn)橐曈X是智能的基石。視覺智能不只是簡(jiǎn)單的感知,而是真正理解世界并能在其中有所作為。
所以我癡迷于讓機(jī)器"看"的問題,當(dāng)我癡迷于開發(fā)機(jī)器學(xué)習(xí)算法時(shí),那時(shí)我們嘗試過神經(jīng)網(wǎng)絡(luò),但沒奏效。我們轉(zhuǎn)而使用貝葉斯網(wǎng)絡(luò)、支持向量機(jī)等其他方法。
但有個(gè)問題一直困擾著我,那就是泛化問題。如果你從事機(jī)器學(xué)習(xí)領(lǐng)域的工作,就必須明白泛化是機(jī)器學(xué)習(xí)的核心數(shù)學(xué)基礎(chǔ)和目標(biāo)。為了讓這些算法具有泛化能力,就需要大量數(shù)據(jù),當(dāng)時(shí)在計(jì)算機(jī)視覺領(lǐng)域根本沒人有數(shù)據(jù)。我是第一代開始涉足數(shù)據(jù)研究的研究生,因?yàn)槲沂堑谝淮娮C龐大的物聯(lián)網(wǎng)時(shí)代到來的研究生。
時(shí)光快進(jìn)到2007年左右,我和我的學(xué)生決定大膽一搏。我們認(rèn)定機(jī)器學(xué)習(xí)領(lǐng)域需要一場(chǎng)范式轉(zhuǎn)變,而這場(chǎng)轉(zhuǎn)變必須由數(shù)據(jù)驅(qū)動(dòng)的方法引領(lǐng),但當(dāng)時(shí)沒有數(shù)據(jù)。于是我們想,那就去互聯(lián)網(wǎng)上下載十億張圖片吧,這是我們能從網(wǎng)上獲取的最大數(shù)據(jù)量了,然后創(chuàng)建一個(gè)涵蓋整個(gè)世界的視覺分類體系,我們用這些數(shù)據(jù)來訓(xùn)練和評(píng)估機(jī)器學(xué)習(xí)算法,這就是ImageNet 被構(gòu)思并實(shí)現(xiàn)的緣由。
Diana Hu:過了好一段時(shí)間,才出現(xiàn)有前景的算法,直到2012年 AlexNet 問世,那才是邁向 AI 的第二步,也就是要具備足夠的計(jì)算能力并投入大量的算力和算法。給我們分享下你是從什么時(shí)候開始意識(shí)到,你用數(shù)據(jù)為其奠定了基礎(chǔ),然后社區(qū)開始為AI找出更多東西的那個(gè)時(shí)刻是什么?李飛飛:在2009年,我們發(fā)表了一篇非常小的 CVPR 海報(bào)。從2009年到2012年這三年間,AlexNet 出現(xiàn)后,我們堅(jiān)信數(shù)據(jù)將推動(dòng) AI 發(fā)展,但對(duì)于這種方法是否可行,我們幾乎沒有得到什么有效的反饋。
所以我們采取了一些措施,其一,從一開始我們就認(rèn)為要將相關(guān)內(nèi)容開源給整個(gè)研究界,讓大家一起來研究。其二,我們發(fā)起了一場(chǎng)挑戰(zhàn)賽,因?yàn)槲覀兿M澜缱盥斆鞯膶W(xué)生和研究人員都來解決這個(gè)問題,這就是我們所說的 ImageNet 挑戰(zhàn)賽。每年我們都會(huì)發(fā)布一個(gè)測(cè)試數(shù)據(jù)集,整個(gè)ImageNet數(shù)據(jù)集可用于訓(xùn)練,但我們會(huì)發(fā)布測(cè)試集,公開邀請(qǐng)所有人參與,最初幾年主要是在確定基準(zhǔn),當(dāng)時(shí)的識(shí)別錯(cuò)誤率達(dá)到了30%,這不是零誤差,也不是完全隨機(jī)的結(jié)果,但也不算太好。
到了2012年,也就是挑戰(zhàn)賽的第三年,我在自己出版的一本書里寫過這件事,我至今記得,大概在夏末的時(shí)候,我們把 ImageNet 挑戰(zhàn)賽的所有結(jié)果放到服務(wù)器上運(yùn)行。有天很晚了,我在家收到了研究生發(fā)來的消息,他說我們得到了一個(gè)非常突出的結(jié)果,讓我看看。我們仔細(xì)研究后發(fā)現(xiàn),這是一個(gè)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)果,當(dāng)時(shí)它還不叫AlexNet,杰弗里·辛頓團(tuán)隊(duì)把它叫做"Supervision",這是一個(gè)很巧妙的雙關(guān)語(yǔ),既和"超級(jí)"有關(guān),也和"監(jiān)督學(xué)習(xí)"有關(guān),我們查看了"Supervision"的成果,卷積神經(jīng)網(wǎng)絡(luò)是一種早在20世紀(jì)80年代就已發(fā)表的舊算法,只是在算法上做了一些調(diào)整,但一開始看到有這么大的進(jìn)步,我們還是很驚訝。
當(dāng)然,之后的歷史大家都知道了,那一年我們?cè)谝獯罄鹆_倫薩舉行的國(guó)際計(jì)算機(jī)視覺大會(huì)(ICCV)的 ImageNet 挑戰(zhàn)賽研討會(huì)上展示了這個(gè)成果。亞歷克斯·克里徹夫斯基、楊立昆也來了?,F(xiàn)在大家都把這一刻稱為 ImageNet 挑戰(zhàn)賽中 AlexNet 誕生的時(shí)刻。我想說的是,這不僅僅是卷積神經(jīng)網(wǎng)絡(luò)的功勞,也是亞歷克斯和他的團(tuán)隊(duì)首次將兩塊GPU結(jié)合起來用于深度學(xué)習(xí)計(jì)算。所以這真的是數(shù)據(jù)、GPU和神經(jīng)網(wǎng)絡(luò)首次結(jié)合的時(shí)刻。
Diana Hu:隨著計(jì)算機(jī)視覺領(lǐng)域智能技術(shù)的不斷發(fā)展,ImageNet 實(shí)際上是解決物體識(shí)別概念的關(guān)鍵開端。接著 AI 發(fā)展到了能夠處理場(chǎng)景識(shí)別的階段,因?yàn)槟愫湍愕膶W(xué)生,比如安德里亞·卡帕西做了很多工作,讓計(jì)算機(jī)能夠描述場(chǎng)景,能跟我們講講從物體識(shí)別到場(chǎng)景識(shí)別的轉(zhuǎn)變嗎?
李飛飛:ImageNet 解決的問題是,給你一張圖片,你能識(shí)別出里面的物體,比如有一只貓、一把椅子等等,這是視覺識(shí)別中的一個(gè)基本問題。
其實(shí)從讀研究生進(jìn)入 AI 領(lǐng)域開始,我就有一個(gè)夢(mèng)想。我當(dāng)時(shí)覺得這是一個(gè)要花上一百年才能實(shí)現(xiàn)的夢(mèng)想,那就是對(duì)世界進(jìn)行敘事描述。當(dāng)人類睜開眼睛時(shí),想象下你在這個(gè)房間里看到的不只是人和椅子,實(shí)際上看到的是一個(gè)會(huì)議室,里面有屏幕、舞臺(tái)、人群、攝像頭等等,你能夠描述整個(gè)場(chǎng)景。這是人類視覺智能的基礎(chǔ)能力,在我們的日常生活中非常重要。
所以我真的以為這個(gè)問題會(huì)投入一輩子的時(shí)間。說實(shí)話,我研究生畢業(yè)的時(shí)候就告訴自己,如果此生能創(chuàng)造出一種算法來描述場(chǎng)景,那就算成功了,我當(dāng)時(shí)就是這么規(guī)劃自己的職業(yè)生涯的。ImageNet 和 AlexNet 誕生,深度學(xué)習(xí)開始興起。后來安德里亞和賈斯汀·約翰遜加入了我的實(shí)驗(yàn)室,我們開始看到自然語(yǔ)言和視覺開始融合的跡象。安德里亞和我提出了圖像描述或場(chǎng)景敘事的問題,大約在2015年,安德里亞和我發(fā)表了一系列論文,這些論文和其他幾篇同期論文一起,首次讓計(jì)算機(jī)能夠?yàn)閳D像添加描述。我?guī)缀醵疾恢雷约航酉聛碓撟鍪裁戳?,這可是我一生的目標(biāo)!那一刻對(duì)我們倆來說都太不可思議了。
去年我做了一個(gè)TED演講,我還引用了安德里亞幾年前在完成圖像描述工作時(shí)發(fā)的一條推文,那差不多是他的博士論文研究?jī)?nèi)容。我還跟他開玩笑說:"安德里亞,我們反過來怎么樣?根據(jù)一句話生成一張圖片。"當(dāng)然,他知道我在開玩笑,他說:"我可不干。"當(dāng)時(shí)這個(gè)世界還沒準(zhǔn)備好。
但現(xiàn)在技術(shù)發(fā)展,我們都知道了生成式 AI ,現(xiàn)在我們可以根據(jù)一句話生成漂亮的圖片,這段經(jīng)歷告訴我們, AI 取得了驚人的發(fā)展。就我個(gè)人而言,我覺得自己是世界上最幸運(yùn)的人,因?yàn)槲业恼麄€(gè)職業(yè)生涯始于 AI 寒冬的末期,也就是 AI 開始騰飛的時(shí)候,所以我真的非常幸運(yùn),也有點(diǎn)自豪。
Diana Hu:我覺得最厲害的是,你不僅實(shí)現(xiàn)了描述場(chǎng)景的畢生夢(mèng)想,甚至還能用擴(kuò)散模型生成場(chǎng)景。而且你還有更大的企圖心,因?yàn)橛?jì)算機(jī)技術(shù)的發(fā)展軌跡從物體識(shí)別到場(chǎng)景識(shí)別,現(xiàn)在又到了"世界"這個(gè)概念。你還從學(xué)術(shù)界的教授轉(zhuǎn)型成為了 World Labs 的創(chuàng)始人兼首席執(zhí)行官。能告訴我們理解"世界"為什么比理解物體更難嗎?
李飛飛:這確實(shí)有點(diǎn)不可思議,很難用幾句話概括過去五六年的事。對(duì)我來說,我們正處在這項(xiàng)技術(shù)進(jìn)步的一個(gè)重大歷史時(shí)刻,作為一名計(jì)算機(jī)視覺科學(xué)家,我們見證了計(jì)算機(jī)視覺領(lǐng)域的驚人發(fā)展,從 ImageNet 到圖像描述,再到使用擴(kuò)散技術(shù)進(jìn)行圖像生成。與此同時(shí),還有另一個(gè)令人興奮的發(fā)展方向,就是自然語(yǔ)言處理,也就是LLM。2022年11月,ChatGPT開啟了真正可用的生成式模型的大門,這些模型基本上能夠通過圖靈測(cè)試等等。
這對(duì)我這樣的"老人"來說也很有啟發(fā),讓我大膽地思考接下來會(huì)發(fā)生什么。作為一名計(jì)算機(jī)視覺科學(xué)家,我有個(gè)習(xí)慣,我很多靈感都來自進(jìn)化生物學(xué)和腦科學(xué)。在職業(yè)生涯的很多時(shí)候,我都在尋找下一個(gè)亟待解決的關(guān)鍵問題,比如進(jìn)化或大腦發(fā)育給了我們什么啟示?有一點(diǎn)很值得注意和思考。從進(jìn)化的角度來看,人類語(yǔ)言的發(fā)展,往多了算,大約用了3億到5億年,不到100萬年。在這么長(zhǎng)的進(jìn)化時(shí)間里,人類發(fā)展出了語(yǔ)言,可以說,人類是唯一擁有復(fù)雜語(yǔ)言的動(dòng)物。雖然我們可以討論動(dòng)物的交流方式,但從作為一種交流、推理和抽象工具的整體語(yǔ)言概念來看,只有人類擁有這一過程甚至不到50萬年。
回到視覺能力,想想理解三維世界、在三維世界中做決策、在三維世界中導(dǎo)航、與三維世界交互、理解三維世界、描述三維世界的能力,進(jìn)化用了5.4億年才發(fā)展出這種能力。5.4億年前,第一只三葉蟲在水下進(jìn)化出了視覺。從那以后,視覺引發(fā)了一場(chǎng)進(jìn)化軍備競(jìng)賽,在有視覺之前的5億年里,動(dòng)物都很簡(jiǎn)單,但在有了視覺之后的5.4億年里,動(dòng)物的智力開始不斷提升。
所以對(duì)我來說,解決空間智能問題,即理解、生成、推理和在三維世界中行動(dòng)的能力,是 AI 的一個(gè)基本問題。在我看來,沒有空間智能,AGI 就不完整。想解決這個(gè)問題,需要?jiǎng)?chuàng)建超越平面像素、超越語(yǔ)言的世界模型,能夠真正捕捉世界的三維結(jié)構(gòu)和空間智能的世界模型。
我這輩子最幸運(yùn)的是,不管我年紀(jì)多大,總能和最優(yōu)秀的年輕人一起工作。所以我和三位非常出色的年輕技術(shù)專家——賈斯汀·約翰遜、本·米爾登霍爾和克里斯托弗·萊斯特一起創(chuàng)立了一家公司,我們要嘗試解決當(dāng)前 AI 領(lǐng)域最具挑戰(zhàn)性的問題。
Diana Hu:這團(tuán)隊(duì)太厲害了,克里斯是 Pulsar 的創(chuàng)造者,Pulsar 是 Cautious Flats 之前的一個(gè)早期項(xiàng)目,涉及很多可微渲染的工作。還有賈斯汀·約翰遜,他之前是你的學(xué)生,有很強(qiáng)的系統(tǒng)工程思維,實(shí)現(xiàn)了實(shí)時(shí)神經(jīng)風(fēng)格遷移。本·米爾登霍爾是 NeRF 論文的作者,這真是一支超級(jí)精英團(tuán)隊(duì),而且確實(shí)需要這樣的團(tuán)隊(duì)。
我們剛才聊過,在某種程度上,視覺問題比語(yǔ)言問題更難,這么說可能有點(diǎn)爭(zhēng)議,因?yàn)長(zhǎng)LM本質(zhì)上處理的是一維的數(shù)據(jù),但你要處理的是理解大量的三維結(jié)構(gòu),為什么會(huì)這么難?而且在研究進(jìn)度上,視覺也落后于語(yǔ)言研究。
李飛飛:謝謝你理解我們這個(gè)問題有多難!語(yǔ)言本質(zhì)上是一維的,音節(jié)是按順序排列的,這就是為什么序列到序列模型如此經(jīng)典。
還有一點(diǎn)人們可能沒有意識(shí)到,語(yǔ)言是純粹生成式的。自然界中并沒有語(yǔ)言,你摸不到、看不到語(yǔ)言,語(yǔ)言完全是從人的大腦中產(chǎn)生的,這是一種純粹的生成式信號(hào),你把它寫在紙上,它才會(huì)有形。
但語(yǔ)言的生成、構(gòu)建和應(yīng)用都是非常具有生成性的,而現(xiàn)實(shí)世界要復(fù)雜得多。首先,真實(shí)世界是三維的,如果加上時(shí)間維度就是四維。但我們先只考慮空間維度,它本質(zhì)上是三維的,所以從組合復(fù)雜度來說,這就是一個(gè)難度大得多的問題。
其次,對(duì)視覺世界的感知和接收是一種投影過程,不管是通過眼睛、視網(wǎng)膜還是相機(jī),都是把三維的世界投影到二維上。要知道這有多難,這在數(shù)學(xué)上是一個(gè)病態(tài)問題。 所以這就是為什么人類和動(dòng)物有多種傳感器,需要去解決這個(gè)問題。
第三,現(xiàn)實(shí)世界并非完全可生成的。我們可以生成虛擬的3D世界,但它仍需遵循物理規(guī)律等等。不過,外面還有一個(gè)真實(shí)的世界?,F(xiàn)在突然要在生成和重建之間流暢切換,而且用戶行為、實(shí)用性和應(yīng)用場(chǎng)景都大不相同。如果完全偏向生成,我們可以聊聊游戲和元宇宙之類的,如果完全偏向現(xiàn)實(shí)世界,那就是在聊機(jī)器人技術(shù)之類的,但所有這些都處于作為空間智能的世界建模的連續(xù)譜上。當(dāng)然,大家都避而不談的問題是,互聯(lián)網(wǎng)上有大量的語(yǔ)言數(shù)據(jù),那空間智能的數(shù)據(jù)在哪里?
這些數(shù)據(jù)當(dāng)然都在我們的腦子里,但不像語(yǔ)言數(shù)據(jù)那樣容易獲取,這就是事情如此困難的原因。但坦率地說,這讓我很興奮,因?yàn)槿绻虑槿菀祝瑒e人早就解決了。我的整個(gè)職業(yè)生涯都在攻克那些難到近乎妄想的問題,這就是那個(gè)近乎妄想的問題,感謝你支持我。
Diana Hu:從第一性原理來思考,人類大腦的視覺皮層中有比處理語(yǔ)言更多的神經(jīng)元來處理視覺數(shù)據(jù)。這在模型中是如何體現(xiàn)的?從你目前的發(fā)現(xiàn)來看,它的架構(gòu)和LLM有很大不同。
李飛飛:這是個(gè)非常好的問題。外面有不同的觀點(diǎn),有LLM,我們?cè)贚LM中看到的很多成果,實(shí)際上是把規(guī)模定律運(yùn)用到極致,幾乎可以通過強(qiáng)力的自監(jiān)督一路構(gòu)建世界模型,這可能更微妙一些。世界結(jié)構(gòu)更復(fù)雜,可能需要一些信號(hào)來引導(dǎo),可以稱之為先驗(yàn)知識(shí),也可以說是數(shù)據(jù)中的監(jiān)督信息。我認(rèn)為這些都是我們必須解決的開放性問題。
首先,我們對(duì)人類感知也并非完全了解,人類視覺中的3D原理都還沒有解決。從機(jī)械原理上說,雙眼要對(duì)信息進(jìn)行三角測(cè)量。即便如此,數(shù)學(xué)模型在哪里?人類作為3D動(dòng)物沒那么厲害,有很多問題有待解答。我真的只指望一件事,就是擁有像素領(lǐng)域最聰明的人來解決這個(gè)問題。
Diana Hu:可以說你們?cè)?World Labs 構(gòu)建的是全新的基礎(chǔ)模型,其輸出是3D世界,你預(yù)想的一些應(yīng)用有哪些?我記得你提到了從感知到生成的各種應(yīng)用,生成模型和判別模型之間一直存在張力,那么這些3D世界能有什么作用?
李飛飛:關(guān)于 World Labs 本身的細(xì)節(jié)我不能透露太多,但就空間智能而言,它的用途非常廣泛,就像語(yǔ)言一樣,從創(chuàng)作角度,可以想到設(shè)計(jì)師、建筑師、工業(yè)設(shè)計(jì)師,還有藝術(shù)家、3D藝術(shù)家、游戲開發(fā)者,從創(chuàng)作到機(jī)器人技術(shù)、機(jī)器人學(xué)習(xí),空間智能模型或世界模型的實(shí)用性非常大,而且與之相關(guān)的行業(yè)眾多,從營(yíng)銷到娛樂,甚至到元宇宙。
我真的對(duì)元宇宙很興奮,我知道很多人覺得它還不行,但這就是我興奮的原因,我認(rèn)為硬件和軟件的融合即將到來,這也是未來的一個(gè)很棒的應(yīng)用場(chǎng)景。
Diana Hu:你正在攻克元宇宙問題,我個(gè)人對(duì)此非常興奮,我之前的公司也嘗試過,所以我很高興你現(xiàn)在在做這件事。
李飛飛:我認(rèn)為有更多積極信號(hào)。硬件確實(shí)是個(gè)障礙,但你需要內(nèi)容創(chuàng)作,而元宇宙的內(nèi)容創(chuàng)作需要世界模型。
Diana Hu:對(duì)一些聽眾來說,你從學(xué)術(shù)界轉(zhuǎn)型成為創(chuàng)始人兼CEO可能有些突然。但實(shí)際上你一生經(jīng)歷非凡,這不是你第一次從0到1創(chuàng)業(yè)。你和我提到過,你十幾歲移民到美國(guó)時(shí)不會(huì)說英語(yǔ),后來還經(jīng)營(yíng)了多年洗衣店,能講講這些經(jīng)歷如何塑造了現(xiàn)在的你嗎?
李飛飛:我相信你們是來聽如何開洗衣店的。
Diana Hu:那是你19歲的時(shí)候?qū)Π桑?/p>
李飛飛:是的,那是出于無奈。我沒有辦法養(yǎng)家、供養(yǎng)父母,而我想上大學(xué),去普林斯頓學(xué)物理,后來我就開了一家不錯(cuò)的干洗店,用硅谷的話說,我籌集資金,我是創(chuàng)始人、CEO,我也是收銀員,什么都得干,七年后我把店轉(zhuǎn)手了。我從未因?yàn)槲业淖灾匆碌戢@得過歡呼,謝謝你們的掌聲(笑)。
我看著臺(tái)下,特別為你們興奮,因?yàn)槟銈兡挲g只有我的一半,甚至可能只有我年齡的30%,你們這么有才華,放手去做吧,別害怕。
我整個(gè)職業(yè)生涯,即使作為一名教授,我也選擇過幾次,去那些我是第一個(gè)計(jì)算機(jī)視覺教授的院系。這違背了很多人的建議,作為年輕教授,你應(yīng)該去有學(xué)術(shù)社群和資深導(dǎo)師的地方。我也想有資深導(dǎo)師,但如果沒有,我得開拓自己的道路,所以我不害怕。
后來我去了谷歌,在谷歌云學(xué)習(xí)了很多商業(yè)知識(shí),包括企業(yè)對(duì)企業(yè)業(yè)務(wù)等。2018年左右,我在斯坦福大學(xué)創(chuàng)辦了一家初創(chuàng)公司,因?yàn)楫?dāng)時(shí) AI 不僅席卷了整個(gè)行業(yè), AI 還成了人類面臨的問題。人類總會(huì)引導(dǎo)科技發(fā)展,但我們不能失去人性,我真的很在乎在 AI 發(fā)展進(jìn)程中造積極的影響。
我在想如何讓 AI 以人類為中心,如何創(chuàng)造能幫助人類的 AI 。所以我回到斯坦福,創(chuàng)辦了以人為本的 AI 研究所,并像經(jīng)營(yíng)初創(chuàng)公司一樣管理了5年。可能有些人不太高興我在大學(xué)把它當(dāng)初創(chuàng)公司來經(jīng)營(yíng),但我為此感到非常自豪,在某種程度上,我就是喜歡當(dāng)創(chuàng)業(yè)者。
我喜歡從零開始的感覺,就像站在起點(diǎn)。忘掉你過去的成就,忘掉別人對(duì)你的看法,埋頭苦干,這就是我的舒適區(qū),我就喜歡這樣。
Diana Hu:除了你所取得的所有了不起的成就之外,另一件很酷的事是,你指導(dǎo)了很多傳奇的研究人員,比如安德烈亞·卡帕西、英偉達(dá)的范丞、在 Image Net 項(xiàng)目上的合著者賈丹,他們后來都有了令人矚目的職業(yè)生涯。在他們還是學(xué)生的時(shí)候,有什么特別之處?你能給聽眾一些建議,怎樣看出一個(gè)人會(huì)改變 AI 領(lǐng)域嗎?
李飛飛:首先,我才是幸運(yùn)的那個(gè)。我覺得我從學(xué)生身上學(xué)到的比他們從我這里學(xué)到的更多,他們真的讓我成為一個(gè)更好的人、更好的老師、更好的研究員。能和這么多傳奇學(xué)生一起工作,是我一生的榮幸。他們各不相同,有些是純粹的科學(xué)家,埋頭解決科學(xué)問題,有些是行業(yè)領(lǐng)袖,有些是 AI 知識(shí)的杰出傳播者。
我認(rèn)為有一點(diǎn)是他們共有的,我鼓勵(lì)每個(gè)人都思考這一點(diǎn)。對(duì)于那些招聘的創(chuàng)始人來說,這也是我的招聘標(biāo)準(zhǔn),我看重的是智識(shí)上的無畏。你來自哪里不重要,我們要解決的問題是什么也不重要,那種勇于接受困難、全身心投入并以自己的方式努力解決問題的勇氣和無畏精神,才是成功人士的核心特質(zhì)。我從他們身上學(xué)到了這一點(diǎn),我也真的在尋找有這種特質(zhì)的年輕人,作為 World Labs 的 CEO,我招聘時(shí)就看重這種品質(zhì)。Diana Hu:你們?cè)?World Labs 也在大量招人,所以你們也在尋找具備同樣能力的人才,對(duì)吧?
李飛飛:太好了,我得到了 Diana 的許可!沒錯(cuò),我們正在大量招聘工程人才、產(chǎn)品人才、3D人才和生成式模型人才。如果你覺得自己無所畏懼,并且熱衷于解決空間智能問題,歡迎和我聊聊或者訪問我們的網(wǎng)站。
Diana Hu:很酷,接下來10分鐘是開放提問環(huán)節(jié)。
觀眾A :教授,感謝您精彩的演講,我是您的超級(jí)粉絲。我的問題是,二十多年前,您從事視覺識(shí)別研究,我想開始攻讀博士學(xué)位,我應(yīng)該研究什么才能像您一樣成為傳奇人物?
李飛飛:我想給你一個(gè)深思熟慮的答案,因?yàn)槲乙部梢院?jiǎn)單地說,做任何讓你興奮的事情。首先,我認(rèn)為 AI 研究已經(jīng)發(fā)生了變化,因?yàn)槿绻阋プx博士學(xué)位,意味著你要進(jìn)入學(xué)術(shù)界,而如今學(xué)術(shù)界已不再掌握大部分的 AI 資源。這和我那個(gè)時(shí)候大不相同,在學(xué)術(shù)界,芯片、計(jì)算資源和數(shù)據(jù)都非常有限,而且有些問題,工業(yè)界能夠解決得更快。
所以作為一名博士生,我建議你去尋找那些不會(huì)與工業(yè)界形成競(jìng)爭(zhēng)的研究方向,工業(yè)界可以利用更好的計(jì)算資源、數(shù)據(jù)和團(tuán)隊(duì)協(xié)作來更有效地解決問題。但在學(xué)術(shù)界,我們?nèi)匀豢梢园l(fā)現(xiàn)一些真正根本性的問題,而這些問題的解決與你擁有多少芯片無關(guān),你可以取得很大進(jìn)展。
首先,對(duì)我來說,跨學(xué)科 AI 在學(xué)術(shù)界是一個(gè)非常令人興奮的領(lǐng)域,尤其是在科學(xué)發(fā)現(xiàn)方面,有很多學(xué)科都可以與 AI 交叉,我認(rèn)為這是一個(gè)大有可為的領(lǐng)域。
從理論層面來看,我發(fā)現(xiàn) AI 的能力已經(jīng)遠(yuǎn)遠(yuǎn)超越了理論,這令人著迷。我們沒有可解釋性,我們也不知道如何找出因果關(guān)系,模型中有太多我們不理解的地方,值得去深入研究。另外,在計(jì)算機(jī)視覺領(lǐng)域,仍然存在一些表征問題有待解決。此外,小數(shù)據(jù)也是另一個(gè)非常有趣的領(lǐng)域。這些都是可行的研究方向。
觀眾B :感謝李教授,再次祝賀您獲得耶魯大學(xué)的榮譽(yù)博士學(xué)位,一個(gè)月前我很榮幸見證了那個(gè)時(shí)刻。我的問題是,在您看來,AGI 更有可能以單一統(tǒng)一模型的形式出現(xiàn),還是以多智能體系統(tǒng)的形式出現(xiàn)?
李飛飛:你提出這個(gè)問題的方式實(shí)際上包含了兩種定義。其中一種是定義更偏理論性,也就是將 AGI 定義為通過某種智商測(cè)試來判定 AGI 。問題的另一部分則更偏實(shí)用主義,如果是基于智能體的,它是否具有功能性?它能完成哪些任務(wù)?
說實(shí)話,我對(duì) AGI 的定義感到很困惑。原因如下:1956年在達(dá)特茅斯相聚的 AI 先驅(qū)們,比如約翰·麥卡錫和馬文·明斯基,他們想要解決機(jī)器思考的問題,而艾倫·圖靈在幾年前,比他們?cè)?0年左右也提出過類似的問題,當(dāng)時(shí)提出的這個(gè)問題并非狹義的 AI ,而是關(guān)于智能的一個(gè)更廣泛的概念。所以我不太清楚如何區(qū)分 AI 和 AGI 這兩個(gè)詞的含義,對(duì)我來說,它們是一回事。但我明白,如今這個(gè)行業(yè)喜歡稱AGI,好像它超越了AI,我對(duì)此很困惑,因?yàn)槲也磺宄?AGI 和 AI 有什么不同。如果說如今類似 AGI 的系統(tǒng)比起八十年代、九十年代那些狹義 AI 系統(tǒng)表現(xiàn)更好,我認(rèn)為這沒錯(cuò),這只是這個(gè)領(lǐng)域的發(fā)展進(jìn)程。
但從根本上說,我認(rèn)為 AI 的科學(xué)就是智能的科學(xué),就是能創(chuàng)造出能像人類一樣,甚至比人類更智能地思考和做事的機(jī)器,所以我不知道如何定義AGI,在沒有定義它的情況下,我也不知道它是否是單一的。如果你把大腦看作一個(gè)整體,你可以說它是單一的,但它確實(shí)有不同的功能,甚至還有負(fù)責(zé)語(yǔ)言的布洛卡區(qū)、視覺皮層和運(yùn)動(dòng)皮層,我確實(shí)不知道該如何回答這個(gè)問題。
觀眾C :嗨教授,我只想說聲謝謝。看到一位女性在這個(gè)領(lǐng)域發(fā)揮主導(dǎo)作用,這真的很鼓舞人心。作為一名研究員、教育者和企業(yè)家,我想問,您認(rèn)為在 AI 迅速崛起的當(dāng)下,什么樣的人適合攻讀研究生學(xué)位?
李飛飛:這是個(gè)很棒的問題,甚至連家長(zhǎng)們都會(huì)問我這個(gè)問題。我真的覺得研究生階段的四五年是你充滿強(qiáng)烈好奇心的時(shí)期,你被好奇心驅(qū)使,這種好奇心如此強(qiáng)烈,以至于沒有比這里更好的地方能讓你去探索了。這和創(chuàng)業(yè)不同,因?yàn)閯?chuàng)業(yè)你必須稍微謹(jǐn)慎一些,創(chuàng)業(yè)不能僅僅由好奇心驅(qū)動(dòng),你的投資者會(huì)對(duì)你不滿的。
創(chuàng)業(yè)公司擁有更明確的商業(yè)目標(biāo),其中一部分是好奇心,但又不完全是。而對(duì)于研究生階段來說,解決問題或提出恰當(dāng)問題的好奇心非常重要,我認(rèn)為那些帶著強(qiáng)烈好奇心入學(xué)的人會(huì)真正享受這四五年,即使外面的世界飛速發(fā)展,你依然會(huì)很開心,因?yàn)槟阍诟S自己的好奇心前行。
觀眾D :感謝您抽出時(shí)間來和我們分享。您提到開放源代碼是 ImageNet 發(fā)展的重要因素。如今隨著LLM的發(fā)布和發(fā)展,我們看到不同組織在開源方面采取了不同的方式,有些組織完全閉源,有些組織完全公開其整個(gè)研究代碼庫(kù),有些則處于兩者之間,比如開源模型權(quán)重或采用有一定限制的許可證等。所以我想問,您如何看待這些不同的開源方式,您認(rèn)為 AI 公司進(jìn)行開源的正確方式是什么?
李飛飛:我認(rèn)為當(dāng)存在不同的方式時(shí),整個(gè)生態(tài)系統(tǒng)才是健康的。我并不偏執(zhí)地認(rèn)為必須開源或者必須閉源,這取決于公司的商業(yè)戰(zhàn)略。例如,很明顯為什么Facebook 或是 Meta 想開源,他們目前的商業(yè)模式還不是售賣模型,他們是用它來發(fā)展生態(tài)系統(tǒng),從而促使人們使用他們的平臺(tái),所以開源很有意義。
而另一家靠這個(gè)盈利的公司,甚至在盈利方面,你可以考慮設(shè)置開源版本和閉源版本,所以我對(duì)此都持開放態(tài)度。從更宏觀的層面來說,我認(rèn)為開源應(yīng)該得到保護(hù),我覺得無論是公共部門,比如學(xué)術(shù)界還是私營(yíng)部門的開源努力都非常重要,這對(duì)創(chuàng)業(yè)生態(tài)系統(tǒng)很重要,對(duì)公共部門也很重要,我認(rèn)為應(yīng)該在技術(shù)上給予保護(hù),而不應(yīng)該受到懲罰。
觀眾E :我想問個(gè)關(guān)于數(shù)據(jù)的問題,您詳細(xì)地闡述了機(jī)器學(xué)習(xí)向以數(shù)據(jù)驅(qū)動(dòng)方法的轉(zhuǎn)變,就像 ImageNet 那樣?,F(xiàn)在您在研究世界模型,您提到互聯(lián)網(wǎng)上沒有這種空間數(shù)據(jù),它只存在于我們的大腦中,您是如何解決這個(gè)問題的?您押注在哪方面?是從現(xiàn)實(shí)世界收集這些數(shù)據(jù),還是在生成合成數(shù)據(jù)?您是否相信合成數(shù)據(jù),還是相信傳統(tǒng)的先驗(yàn)知識(shí)?李飛飛:你應(yīng)該加入 World Labs,我會(huì)告訴你的 。作為一家公司,我不能透露太多,但我認(rèn)為重要的是承認(rèn)我們正在采取一種混合方法。擁有大量數(shù)據(jù)固然重要,但擁有大量高質(zhì)量的數(shù)據(jù)也同樣重要。歸根結(jié)底,如果你不注意數(shù)據(jù)質(zhì)量,那還是會(huì)"輸入垃圾,輸出垃圾"。
觀眾F :在您的書《我眼中的世界》里,您談到了作為一名移民女性在理工科領(lǐng)域所面臨的挑戰(zhàn)。我很好奇,您是否有過在工作場(chǎng)所感覺自己是少數(shù)群體的時(shí)刻,如果有的話,您是如何克服這種情況或說服他人的?
李飛飛:感謝你的問題。我想非常謹(jǐn)慎和周到地回答你的問題,因?yàn)槲覀兌紒碜圆煌谋尘埃總€(gè)人的感受都很獨(dú)特。你知道,其實(shí)大的類別是什么幾乎都不重要。我們每個(gè)人都有感覺自己是少數(shù)群體或者是房間里唯一異類的時(shí)刻,當(dāng)然我也有過這樣的感受。有時(shí)候是因?yàn)槲易陨淼纳矸?,有時(shí)候是因?yàn)槲业南敕?,有時(shí)候是因?yàn)橐r衫顏色之類的。
但在這里我想鼓舞大家,可能是因?yàn)槲覐男【蛠淼搅诉@個(gè)國(guó)家,我已經(jīng)接受了現(xiàn)實(shí),我就是一個(gè)移民女性,我?guī)缀跖囵B(yǎng)出了一種不過分在意這一點(diǎn)的能力,我和你們每個(gè)人一樣,來到這里就是為了學(xué)習(xí)、做事、創(chuàng)造。
真的,你們所有人,即將開啟或者正在開啟某件事的過程中,你們會(huì)有脆弱或奇怪的時(shí)刻,我每天都在感受這點(diǎn),尤其是在創(chuàng)業(yè)的時(shí)候。有時(shí)候我就想,天哪我不知道自己在做什么。專注去做就好,用梯度下降法讓自己找到最優(yōu)解。
Diana Hu:謝謝飛飛,這是個(gè)很棒的結(jié)尾。