作者|陳伊凡
編輯|苗正卿
頭圖|AI生成
"具身智能,還處于亂世。"
這是與CyberOrigin(下稱(chēng):賽源)創(chuàng)始人殷鵬見(jiàn)面時(shí),他對(duì)我說(shuō)的第一句話(huà)。賽源是特斯拉、英偉達(dá)等公司在人形機(jī)器人領(lǐng)域的合作商之一。而其所在的珠三角,是世界機(jī)器人供應(yīng)鏈的核心,那是殷鵬真正的"戰(zhàn)場(chǎng)"——全球任何一家機(jī)器人相關(guān)的公司,都必須到珠三角尋找硬件供應(yīng)鏈,如今,還包括數(shù)據(jù)。在機(jī)器人圈,這些為特斯拉、英偉達(dá)人形機(jī)器人提供關(guān)鍵訓(xùn)練數(shù)據(jù)的公司,往往被視為巨頭背后的"賣(mài)水人"。
和此前十余年"賣(mài)水人"多為生產(chǎn)制造環(huán)節(jié)相關(guān)公司不同,AI紀(jì)元下,數(shù)據(jù)類(lèi)"賣(mài)水人"正在異軍突起。一批諸如賽源,開(kāi)始聚焦于提供機(jī)器人與真實(shí)物理交互的數(shù)據(jù)。以殷鵬的公司為例,它的客戶(hù)名單中,包括英偉達(dá)、特斯拉、OpenAI的人形機(jī)器人;也包括谷歌和斯坦福李飛飛的機(jī)器人模型訓(xùn)練實(shí)驗(yàn)室,也是賽源能夠與其他機(jī)器人數(shù)據(jù)公司拉開(kāi)差距的地方。
但對(duì)于這些"賣(mài)水人"而言,2025年以來(lái)警報(bào)聲不時(shí)響起。
近期,據(jù)媒體報(bào)道,特斯拉被曝暫停人形機(jī)器人的研發(fā),調(diào)整設(shè)計(jì)。殷鵬在四月份已知道這個(gè)消息,暫停的主要原因,仍然在數(shù)據(jù)問(wèn)題——特斯拉需要更多機(jī)器人數(shù)據(jù)以訓(xùn)練模型。這對(duì)于賽源這樣的數(shù)據(jù)提供商而言,是個(gè)好消息,真實(shí)物理交互數(shù)據(jù),而非本體,正在成為這場(chǎng)具身智能軍備競(jìng)賽中的核心彈藥——"機(jī)器人是引擎,數(shù)據(jù)是石油。沒(méi)油,發(fā)動(dòng)機(jī)運(yùn)不了。" 殷鵬說(shuō),"我們需要成長(zhǎng)為特斯拉最大的數(shù)據(jù)端供應(yīng)商。"
當(dāng)虎嗅于六月在上海見(jiàn)到殷鵬時(shí),他穿了一身運(yùn)動(dòng)打扮,黑色迪桑特polo衫和運(yùn)動(dòng)鞋,倔強(qiáng)的劉海,時(shí)不時(shí)在說(shuō)話(huà)間甩到前額,他再利落地把它撇開(kāi)。見(jiàn)面時(shí),他正經(jīng)歷一場(chǎng)短期出差,還帶有一絲風(fēng)塵仆仆,他需要在晚上飛回深圳,也是大量"賣(mài)水人"的基地所在。
作為賽源的CEO,殷鵬的另一個(gè)身份是香港城市大學(xué)助理教授,他曾師從SLAM和規(guī)劃界傳奇人物,JiZhang教授,他開(kāi)創(chuàng)了實(shí)時(shí) 3D 激光雷達(dá) SLAM 的先河,并將其商業(yè)化。這一技術(shù),是機(jī)器人、自動(dòng)駕駛車(chē)輛的"導(dǎo)航大腦",如果沒(méi)有它,掃地機(jī)器人、車(chē)輛自動(dòng)駕駛將無(wú)法存在。而殷鵬在此后曾深度參與NASA(美國(guó)國(guó)家航空航天局)、DARPA(美國(guó)國(guó)防部高級(jí)研究計(jì)劃局)和英偉達(dá)的課題,其第一篇國(guó)際頂刊文章,成為NASA火星降落的參考方案之一,殷鵬也是NASA火星登陸項(xiàng)目的高級(jí)顧問(wèn);在DARPA的地下機(jī)器人挑戰(zhàn)賽上,殷鵬和團(tuán)隊(duì)開(kāi)發(fā)出了首個(gè)超大規(guī)模多機(jī)協(xié)作定位建模系統(tǒng),這個(gè)成果也發(fā)了第二篇國(guó)際頂刊論文。
在與虎嗅的交流中,殷鵬不斷提及馬斯克——特斯拉的創(chuàng)立者,他強(qiáng)調(diào)"第一性原理"的方法論,他讀馬斯克的自傳,拆解這位硅谷"鋼鐵俠"的創(chuàng)業(yè)邏輯、商業(yè)故事,他稱(chēng)馬斯克為"老馬","第一性原理非常可怕,他能把一件在旁人看來(lái)不可能實(shí)現(xiàn)的事情變成可能。"殷鵬說(shuō)。
2024年,殷鵬選擇創(chuàng)立賽源。在創(chuàng)業(yè)之初,殷鵬請(qǐng)教過(guò)不少前輩,其中包括香港科技大學(xué)教授李澤湘與高秉強(qiáng),前者建議充分利用大灣區(qū)的資源。后者則建議做海外市場(chǎng),以及思考C端的生意。高秉強(qiáng)不僅是導(dǎo)師,也是殷鵬最早的天使投資人,這位在硬科技領(lǐng)域投資了不少上市企業(yè)的前輩告訴他,當(dāng)下時(shí)點(diǎn),找一個(gè)切口去創(chuàng)業(yè),再層層迭代。
面對(duì)虎嗅,殷鵬分享了自己對(duì)具身智能的看法和創(chuàng)業(yè)的想法,從學(xué)者轉(zhuǎn)化為企業(yè)CEO,殷鵬很堅(jiān)決,因?yàn)閷W(xué)術(shù)已經(jīng)很難滿(mǎn)足他需要的資源,他需要到業(yè)界、到一線(xiàn)去獲得更快更真實(shí)的數(shù)據(jù)反饋。這也是為什么他沒(méi)有選擇做CTO,而直接選擇做CEO的原因。
"如果認(rèn)準(zhǔn)了身位,那就義無(wú)反顧。"殷鵬說(shuō)。
機(jī)器人的ChatGPT時(shí)刻
虎嗅:很明顯的行業(yè)趨勢(shì)是,ChatGPT出現(xiàn)之后,出現(xiàn)了Emboied AI的概念,隨即特斯拉、英偉達(dá)、亞馬遜等大公司開(kāi)始發(fā)布其各自的通用人形機(jī)器人計(jì)劃。這個(gè)飛躍在過(guò)去機(jī)器人歷史中極為少見(jiàn)。Transformer架構(gòu)究竟做了什么,讓這個(gè)行業(yè)出現(xiàn)這樣質(zhì)的飛躍?
殷鵬:Transformer架構(gòu)最大的提升在于發(fā)明了一種可以Scaling Law的模式。過(guò)去我們強(qiáng)調(diào)強(qiáng)化學(xué)習(xí)的效果能達(dá)到多少,訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集相差不大,因?yàn)閳?chǎng)景很多,一定無(wú)法涵蓋所有場(chǎng)景,那么模型要不斷重新訓(xùn)練。但這種基于監(jiān)督學(xué)習(xí)的方式,在未知領(lǐng)域發(fā)展很慢。Transformer架構(gòu)可以輸入足夠多的數(shù)據(jù),在足夠多的數(shù)據(jù)下再進(jìn)行微調(diào)和提升。
這個(gè)策略架構(gòu)最早是谷歌提出來(lái),但真正用起來(lái)的是特斯拉的那群人,將Transformer架構(gòu)運(yùn)用在自動(dòng)駕駛上。因?yàn)檠芯咳藛T發(fā)現(xiàn),Transformer的核心是當(dāng)數(shù)據(jù)量到一定數(shù)量級(jí)時(shí),會(huì)出現(xiàn)涌現(xiàn)。這讓具身智能在空間理解方面有了很大進(jìn)步。
首先,它實(shí)現(xiàn)了空間理解能力的質(zhì)變:傳統(tǒng)強(qiáng)化學(xué)習(xí)在有限場(chǎng)景中只能進(jìn)行局部探索,而借助Transformer的自注意力機(jī)制,機(jī)器人能夠?qū)φ麄€(gè)三維空間進(jìn)行全局感知,并通過(guò)同時(shí)處理視覺(jué)、語(yǔ)言與動(dòng)作等多模態(tài)信息,形成統(tǒng)一的空間認(rèn)知模型;其次,它在泛化能力上取得了突破,傳統(tǒng)方法在訓(xùn)練集和測(cè)試集場(chǎng)景相似時(shí)表現(xiàn)尚可,但一旦場(chǎng)景變化就需重新訓(xùn)練,而Transformer模型通過(guò)大規(guī)模數(shù)據(jù)訓(xùn)練后,能夠在未見(jiàn)過(guò)的場(chǎng)景中自主推理與適應(yīng);第三,這一架構(gòu)推動(dòng)了從規(guī)則驅(qū)動(dòng)到數(shù)據(jù)驅(qū)動(dòng)的范式轉(zhuǎn)變,徹底告別了基于IF-ELSE的人工規(guī)則系統(tǒng),實(shí)現(xiàn)了從感知到動(dòng)作的端到端學(xué)習(xí),極大地減少了中間環(huán)節(jié)的信息損失。
此外,Transformer擅長(zhǎng)時(shí)序建模,其注意力機(jī)制讓機(jī)器人不僅理解動(dòng)作間的先后關(guān)系,還能進(jìn)行復(fù)雜動(dòng)作序列的長(zhǎng)期規(guī)劃;更重要的是,它支持多任務(wù)學(xué)習(xí):在世界模型中,視覺(jué)、語(yǔ)言與操作被整合于同一模型;在分層架構(gòu)中,上層負(fù)責(zé)高層推理與決策,下層則承擔(dān)精確執(zhí)行,兩者兼顧;在數(shù)據(jù)效率方面,盡管依然需要大量數(shù)據(jù),但與傳統(tǒng)方法相比,Transformer能用更少的任務(wù)特定示教數(shù)據(jù)完成復(fù)雜任務(wù),并將學(xué)到的知識(shí)遷移到相關(guān)任務(wù);同時(shí),其在線(xiàn)學(xué)習(xí)能力使機(jī)器人在執(zhí)行過(guò)程中不斷學(xué)習(xí)與調(diào)整,并對(duì)光照、物體位置等環(huán)境變化具有更高的魯棒性;最后,它實(shí)現(xiàn)了語(yǔ)言理解與執(zhí)行的統(tǒng)一,不僅能理解復(fù)雜的自然語(yǔ)言指令,還能結(jié)合視覺(jué)信息進(jìn)行多模態(tài)推理并轉(zhuǎn)化為具體動(dòng)作。
這種從"專(zhuān)用AI"向"通用AI"的轉(zhuǎn)變,讓機(jī)器人從只能執(zhí)行預(yù)設(shè)任務(wù)的工具,進(jìn)化為具備環(huán)境理解、技能學(xué)習(xí)與新場(chǎng)景適應(yīng)能力的智能體,這一技術(shù)進(jìn)展正是"通用機(jī)器人成為可能"的根本驅(qū)動(dòng)力,也是當(dāng)前人形機(jī)器人熱潮的核心所在。
虎嗅:你剛才說(shuō)最早將Transformer發(fā)揚(yáng)光大的是特斯拉的無(wú)人車(chē),讓大家看到一個(gè)重要的實(shí)現(xiàn)路徑,可以展開(kāi)說(shuō)說(shuō)嗎?
殷鵬:特斯拉無(wú)人車(chē)將Transformer"發(fā)揚(yáng)光大"的關(guān)鍵在于他們率先將Transformer架構(gòu)應(yīng)用于自動(dòng)駕駛的視覺(jué)感知系統(tǒng),實(shí)現(xiàn)了從多個(gè)攝像頭輸入到駕駛決策輸出的端到端學(xué)習(xí)。
這打破了傳統(tǒng)自動(dòng)駕駛依賴(lài)激光雷達(dá)和復(fù)雜傳感器融合的技術(shù)路線(xiàn),證明了純視覺(jué)方案的可行性。特斯拉擁有全球最大的自動(dòng)駕駛數(shù)據(jù)收集網(wǎng)絡(luò),每天有數(shù)百萬(wàn)輛車(chē)在路上收集數(shù)據(jù),他們率先驗(yàn)證了Transformer架構(gòu)在大規(guī)模真實(shí)世界數(shù)據(jù)下的"涌現(xiàn)"效應(yīng),當(dāng)數(shù)據(jù)量達(dá)到一定規(guī)模時(shí),模型性能會(huì)出現(xiàn)質(zhì)的飛躍。
特斯拉的Transformer模型能夠同時(shí)處理8個(gè)攝像頭的實(shí)時(shí)畫(huà)面、車(chē)輛運(yùn)動(dòng)軌跡和歷史狀態(tài)、以及3D環(huán)境理解和路徑規(guī)劃,這種統(tǒng)一的多模態(tài)處理能力為后來(lái)的具身智能提供了重要借鑒。
更重要的是,特斯拉證明了Transformer不僅能做感知理解環(huán)境,還能做決策規(guī)劃路徑和控制車(chē)輛,實(shí)現(xiàn)了完整的感知-決策-執(zhí)行閉環(huán),這為機(jī)器人的"大腦"設(shè)計(jì)提供了重要范式。通過(guò)車(chē)輛在真實(shí)道路上的行駛數(shù)據(jù),特斯拉實(shí)現(xiàn)了大規(guī)模的自監(jiān)督學(xué)習(xí),讓模型能夠從未標(biāo)注的數(shù)據(jù)中學(xué)習(xí)駕駛技能,這種方法后來(lái)被廣泛應(yīng)用于機(jī)器人的動(dòng)作學(xué)習(xí)中。
另外,還將其工程化,實(shí)現(xiàn)了在車(chē)載硬件上的實(shí)時(shí)推理,這為具身智能的實(shí)際部署提供了重要經(jīng)驗(yàn)。
所以特斯拉的成功讓整個(gè)AI界看到了一條重要路徑:通過(guò)大規(guī)模真實(shí)世界數(shù)據(jù)訓(xùn)練Transformer模型,可以實(shí)現(xiàn)從感知到行動(dòng)的端到端智能。這直接啟發(fā)了谷歌的機(jī)器人項(xiàng)目開(kāi)始大規(guī)模收集機(jī)器人操作數(shù)據(jù),OpenAI將類(lèi)似架構(gòu)應(yīng)用于機(jī)器人控制,各大科技公司開(kāi)始重視具身智能的數(shù)據(jù)收集。
所以,特斯拉實(shí)際上開(kāi)創(chuàng)了"用數(shù)據(jù)驅(qū)動(dòng)的AI來(lái)解決物理世界交互問(wèn)題"的先河,這正是當(dāng)前具身智能熱潮的技術(shù)根源。他們證明了Transformer不僅能處理語(yǔ)言,更能處理復(fù)雜的時(shí)空序列數(shù)據(jù),為機(jī)器人的"ChatGPT時(shí)刻"奠定了基礎(chǔ)。
虎嗅:目前全球機(jī)器人模型主要來(lái)自幾家實(shí)驗(yàn)室,包括谷歌和斯坦福李飛飛實(shí)驗(yàn)室,這些不同的模型技術(shù)路線(xiàn)有什么不同以及優(yōu)劣之分?
殷鵬:目前,模型體系大致分為兩類(lèi),很難簡(jiǎn)單評(píng)判優(yōu)劣。第一類(lèi)是"世界模型",將視覺(jué)、語(yǔ)言與操作等多種能力整合進(jìn)一個(gè)統(tǒng)一模型中進(jìn)行訓(xùn)練。例如,李飛飛實(shí)驗(yàn)室的世界模型、Pi的 OpenVLA 和谷歌的 PaLM。這類(lèi)模型的優(yōu)點(diǎn)是收斂速度快,適用于在廚房、浴室、臥室等特定場(chǎng)景中采集數(shù)據(jù)并優(yōu)化機(jī)器人性能。但其缺陷在于泛化能力弱。一旦超出訓(xùn)練場(chǎng)景(如機(jī)器人從一個(gè)房間移動(dòng)到另一個(gè)),就需重新采集數(shù)十小時(shí)的數(shù)據(jù)進(jìn)行訓(xùn)練,否則性能會(huì)大幅下降。例如 SLAM(同步定位與地圖構(gòu)建)對(duì)光照和場(chǎng)景元素極為敏感,細(xì)微變化就可能導(dǎo)致如抓取等操作失敗。因此,該類(lèi)模型更適合簡(jiǎn)單場(chǎng)景的演示,難以應(yīng)對(duì)如工廠(chǎng)等復(fù)雜、動(dòng)態(tài)環(huán)境。
第二類(lèi)是分層混合架構(gòu)模型,代表如 Figure.AI。該模型結(jié)構(gòu)類(lèi)似于人腦與小腦的分工:大腦部分負(fù)責(zé)文本和視覺(jué)推理,解決"去哪里""拿什么"的邏輯問(wèn)題,如根據(jù)臥室或廚房的圖像定位目標(biāo)與制定抓取策略;小腦部分控制機(jī)器人本體的具體動(dòng)作,如行走、開(kāi)冰箱門(mén)、抓取雞蛋等,需靠大量數(shù)據(jù)訓(xùn)練實(shí)現(xiàn)高精度控制,例如調(diào)整機(jī)械手的力度和手指分布。
這類(lèi)模型的優(yōu)勢(shì)在于分工明確:上層負(fù)責(zé)空間邏輯與決策,下層執(zhí)行精細(xì)動(dòng)作,尤其在完成"最后一厘米"的操作時(shí),能精準(zhǔn)控制執(zhí)行細(xì)節(jié)。
以特斯拉等公司的機(jī)械手為例,通常具備19至20個(gè)自由度,因搜索空間龐大,必須通過(guò)大量數(shù)據(jù)學(xué)習(xí)來(lái)優(yōu)化動(dòng)作路徑。這種架構(gòu)更適用于環(huán)境復(fù)雜、頻繁變化、泛化要求高,且對(duì)操作精度極高的場(chǎng)景,如精細(xì)抓取。Figure 和特斯拉走的是這條路線(xiàn)。
虎嗅:剛剛說(shuō)到美國(guó),中國(guó)這兩年也跑出了不錯(cuò)的人形機(jī)器人公司,比如宇樹(shù),中國(guó)的機(jī)器人技術(shù)水平和美國(guó)有差異嗎?有一個(gè)觀(guān)察,如果從兩國(guó)具身智能公司所展示的Demo側(cè)重點(diǎn)來(lái)看,似乎中國(guó)機(jī)器人公司習(xí)慣于先做硬件、再做模型,國(guó)外似乎是反過(guò)來(lái)。
殷鵬:我認(rèn)為這與兩國(guó)國(guó)情有關(guān)。中國(guó)大陸有很強(qiáng)的智能制造供應(yīng)鏈,可以讓我們將所有元器件以很低成本進(jìn)行快速落地和迭代,在中國(guó)做靈巧手,可能只需要在1-2個(gè)月的時(shí)間,用有限的資源就做成,這在美國(guó)是根本不可能的事。但美國(guó)更擅長(zhǎng)的是大腦模型的開(kāi)發(fā),其實(shí)雙方可以形成良好的互補(bǔ)。美國(guó)擅長(zhǎng)從0到1的突破,中國(guó)很擅長(zhǎng)從1到100。
機(jī)器人數(shù)據(jù)可能是具身智能中最快完成商業(yè)閉環(huán)的
虎嗅:為何選擇在這樣一個(gè)時(shí)間點(diǎn)創(chuàng)立一家創(chuàng)業(yè)公司?雖然大模型涌現(xiàn)許多機(jī)會(huì),但具身智能的商業(yè)化還有很長(zhǎng)的路要走,遑論人形機(jī)器人的大規(guī)模商業(yè)化,而作為這些機(jī)器人廠(chǎng)商的上游-數(shù)據(jù)提供商,商業(yè)鏈條更長(zhǎng)。
殷鵬:首先是時(shí)間點(diǎn)。當(dāng)下是一個(gè)關(guān)鍵節(jié)點(diǎn),全球都能看到大模型在空間理解、推理能力上的突破,這讓通用機(jī)器人成為可能。從硬件層面看,也出現(xiàn)了實(shí)際落地的跡象,這與上一波主要聚焦特種機(jī)器人的機(jī)器人浪潮不同。
未來(lái)的發(fā)展周期到底是10年還是20年,難以下定論。但對(duì)我們這群做機(jī)器人的人來(lái)說(shuō),更看重的是它最終能否實(shí)現(xiàn)。就像老馬說(shuō)的,"能像人一樣上工位干活",這是我們真正想看到的。這也是我選擇在這個(gè)時(shí)間點(diǎn)創(chuàng)業(yè)的核心原因。
如果一味等待,就無(wú)法真正感受到時(shí)代脈搏。我也希望能親自下場(chǎng),挖掘行業(yè)中的核心難題。很多問(wèn)題只有真正進(jìn)入行業(yè)、面對(duì)真實(shí)場(chǎng)景,才能體會(huì)到,線(xiàn)下純思考往往顯得太簡(jiǎn)單。
你剛才提到周期可能很長(zhǎng),確實(shí)如此,數(shù)據(jù)鏈路也很長(zhǎng),但對(duì)于機(jī)器人本體來(lái)說(shuō),數(shù)據(jù)反而可能是最快能形成商業(yè)閉環(huán)的。
沒(méi)有大量真實(shí)數(shù)據(jù),本體和大腦都難以進(jìn)化。就像訓(xùn)練大語(yǔ)言模型需要龐大的語(yǔ)料,無(wú)人車(chē)需要日采數(shù)以百萬(wàn)計(jì)的車(chē)輛數(shù)據(jù),機(jī)器人也是一樣。如果不解決數(shù)據(jù)問(wèn)題,就會(huì)長(zhǎng)期被卡住。
模型只是引擎,數(shù)據(jù)才是石油。只有源源不斷的數(shù)據(jù)供給,整個(gè)"車(chē)"才能真正跑起來(lái)。具身智能也是如此,若無(wú)法突破數(shù)據(jù)瓶頸,整個(gè)行業(yè)就會(huì)停滯。而構(gòu)建數(shù)據(jù)閉環(huán)雖然最具挑戰(zhàn),卻也是最直接、最快和風(fēng)險(xiǎn)最高的一環(huán)。
虎嗅:往往這類(lèi)商業(yè)鏈條長(zhǎng),對(duì)技術(shù)要求高,并且是"石油"屬性的事情,往往是大公司在做,例如英偉達(dá)、特斯拉、谷歌,或者就是例如斯坦福實(shí)驗(yàn)室這樣的學(xué)術(shù)機(jī)構(gòu)。初創(chuàng)公司來(lái)做這件事,一面是錢(qián)無(wú)法和大公司抗衡,一面是有商業(yè)化壓力,如何競(jìng)爭(zhēng)?
殷鵬:全世界所有機(jī)器人公司、做大腦的公司、做本體的公司,都是我們的友商。我們會(huì)給他們提供數(shù)據(jù)。目前我們已經(jīng)給很多頭部大型AI公司提供大批量機(jī)器人數(shù)據(jù)。起碼未來(lái)5到10年,我們和這些頭部機(jī)器人公司都是友好關(guān)系。
我知道這個(gè)賽道未來(lái)會(huì)很卷,人也會(huì)非常多,很多公司也會(huì)轉(zhuǎn)去做數(shù)據(jù),不過(guò)我認(rèn)為這個(gè)并不影響事情本身。因?yàn)閷?duì)于最深層的數(shù)據(jù),很難通過(guò)一家或兩家公司做成。
虎嗅:我理解,相當(dāng)于是做一個(gè)具身智能界的Scale AI嗎?
殷鵬:是的,都是數(shù)據(jù)供應(yīng)商。但我們和ScaleAI不同的點(diǎn)是,Scale AI更加注重?cái)?shù)據(jù)標(biāo)注,大廠(chǎng)會(huì)直接給Scale AI提供數(shù)據(jù)。但我們?cè)谧鰯?shù)據(jù)標(biāo)注之外,還需要做數(shù)據(jù)采集和驗(yàn)證的工作。
首先我們有訓(xùn)練模型的能力,會(huì)和大量大型客戶(hù)建立大批量采集數(shù)據(jù)基地,做幾百萬(wàn)小時(shí)的海量數(shù)據(jù)采集。拿到這些數(shù)據(jù)之后,我們還要做標(biāo)注、清洗、模型初期驗(yàn)證,再把數(shù)據(jù)轉(zhuǎn)給大廠(chǎng),做更精細(xì)化的處理和訓(xùn)練。
虎嗅:我們現(xiàn)在主要有兩部分?jǐn)?shù)據(jù),一部分是在真實(shí)場(chǎng)景中收集的數(shù)據(jù),另一部分是仿真3D數(shù)據(jù)?
殷鵬:我們主要聚焦真實(shí)場(chǎng)景的數(shù)據(jù)。
一方面,我們有一個(gè)開(kāi)源社區(qū),設(shè)備供應(yīng)商都可以參與數(shù)據(jù)采集,這是一個(gè)共享的平臺(tái)。另一方面,我們?cè)谀玫綌?shù)據(jù)后會(huì)先在內(nèi)部進(jìn)行訓(xùn)練和驗(yàn)證,確保可運(yùn)行后才發(fā)布。目前我們收集的數(shù)據(jù)主要是上百萬(wàn)小時(shí)的真實(shí)數(shù)據(jù),沒(méi)有涉及合成或仿真數(shù)據(jù)。
這在業(yè)內(nèi)其實(shí)算是比較"反常識(shí)"的選擇。現(xiàn)在很多公司在做合成或仿真數(shù)據(jù),我們當(dāng)然認(rèn)可不同類(lèi)型數(shù)據(jù)各有價(jià)值,但從我們的角度來(lái)看,真實(shí)、豐富的數(shù)據(jù)最能提升模型訓(xùn)練效果。
雖然我們也有能力基于真實(shí)數(shù)據(jù)做大規(guī)模合成,比如一條生成十條,但這個(gè)技術(shù)門(mén)檻并不高,大廠(chǎng)也完全可以做。所以我們更專(zhuān)注在他們不方便做、或者不愿意做的事——也就是收集真實(shí)世界的數(shù)據(jù)。
至于仿真數(shù)據(jù),雖然它在強(qiáng)化學(xué)習(xí)里的確是個(gè)不錯(cuò)的驗(yàn)證平臺(tái),但效果很難直接遷移到現(xiàn)實(shí)中。比如我們用幾十張顯卡訓(xùn)練一個(gè)抓取動(dòng)作,在仿真里成功率可能有95%,但一旦部署到真實(shí)機(jī)器人上就可能掉到60%;像系鞋帶這種更復(fù)雜的動(dòng)作,成功率甚至可能降到45%。也就是說(shuō),仿真數(shù)據(jù)很難在真實(shí)環(huán)境中泛化。
因此我們最終決定專(zhuān)注于真實(shí)數(shù)據(jù)的構(gòu)建,既來(lái)自人,也來(lái)自機(jī)器人自主采集。
虎嗅:真實(shí)場(chǎng)景數(shù)據(jù)的采集,很考驗(yàn)效率和采集效果,怎么保證質(zhì)量和數(shù)量?
殷鵬:例如工廠(chǎng)的一條包裝產(chǎn)線(xiàn),有很多操作細(xì)節(jié),如何抓取、如何吸收、如何剖析這些動(dòng)作,可以創(chuàng)造非常豐富和高濃度的機(jī)器人數(shù)據(jù)。我們會(huì)讓操作員穿戴設(shè)備,在真實(shí)生產(chǎn)流程中采集數(shù)據(jù)。一小時(shí)內(nèi),就能采集出約500到1000條高密度的數(shù)據(jù),每條數(shù)據(jù)都包含具體動(dòng)作、文字描述、圖像抓取等信息。
相較之下,真人采集效果比遙控機(jī)器人要好很多。遙操作是用機(jī)器人實(shí)機(jī)在現(xiàn)場(chǎng)完成任務(wù),但以現(xiàn)在機(jī)器人的能力來(lái)看,哪怕是簡(jiǎn)單操作,也可能執(zhí)行得很復(fù)雜,效率低下,一小時(shí)只能采集幾十條真正有價(jià)值的數(shù)據(jù)。
虎嗅:從數(shù)據(jù)收集的角度,需要找一個(gè)合作生態(tài)非常關(guān)鍵?你從什么時(shí)候開(kāi)始做這件事做了多久?
殷鵬:去年八月份開(kāi)始,持續(xù)半年多,大概有幾十家合作公司,包括工廠(chǎng)、小作坊等。我們現(xiàn)在大概有十萬(wàn)小時(shí)的數(shù)據(jù),后面會(huì)把量級(jí)擴(kuò)大到10倍,達(dá)到100萬(wàn)小時(shí)量級(jí)。我認(rèn)為這個(gè)量級(jí),才會(huì)讓機(jī)器人達(dá)到比較客觀(guān)的效果。
只有成為一號(hào)位,才能獲取業(yè)界最快最真實(shí)的反饋
虎嗅:一般科學(xué)家創(chuàng)業(yè),成功率往往不高,或者說(shuō)很多行業(yè)的共識(shí)是科學(xué)家創(chuàng)業(yè),其更適合做CTO,而不是CEO。在創(chuàng)業(yè)之初是否有面對(duì)這樣的質(zhì)疑?在創(chuàng)業(yè)過(guò)程中對(duì)于自己的定位,你是怎么看的?
殷鵬:這種質(zhì)疑對(duì)我來(lái)說(shuō)經(jīng)常出現(xiàn)。我想創(chuàng)業(yè)的真實(shí)原因是,具身智能這件事,學(xué)術(shù)的資源已經(jīng)不能滿(mǎn)足我,只有真正到業(yè)界,才能拿到足夠多的企業(yè)資源,但如果我只是個(gè)二號(hào)位或者三號(hào)位,我沒(méi)辦法得到最快最真實(shí)的反饋。
虎嗅:決定下場(chǎng)創(chuàng)業(yè)時(shí),有跟行業(yè)前輩聊過(guò)嗎?
殷鵬:和很多前輩聊過(guò),比如李澤湘老師(虎嗅注:香港科技大學(xué)教授,固高科技董事長(zhǎng),松山湖國(guó)際機(jī)器人產(chǎn)業(yè)基地發(fā)起人)和高秉強(qiáng)老師(虎嗅注:香港科技大學(xué)榮休教授、工學(xué)院原院長(zhǎng),全球知名微電子專(zhuān)家,投資了思特威、博通集成、瀾起科技等公司)。
虎嗅:他們有沒(méi)有給一些不錯(cuò)的建議?
殷鵬:李老師的想法是,機(jī)器人的生意,還是非常吃硬件的,需要充分利用好大灣區(qū)的資源。高秉強(qiáng)老師的建議是一旦這個(gè)商業(yè)模式跑通,一定要做海外市場(chǎng)。因?yàn)楹M庠诰呱碇悄苌献叩酶纾瑫?huì)有更深的Know-how。另外,具身智能這件事還是偏早期,B端的應(yīng)用最終還是會(huì)落到C端,因此也需要思考這個(gè)過(guò)程中,B端和C端的邊界,除了給各大廠(chǎng)來(lái)用,還需要考慮如何讓普通民眾也用起來(lái)。
虎嗅:第一筆投資是怎么拿到的?
殷鵬:第一筆投資其實(shí)是高秉強(qiáng)老師投的,他是我們的天使投資人,高老師很了解我,當(dāng)時(shí)我們常一起交流,高老師建議在當(dāng)下時(shí)間點(diǎn),找一個(gè)非常好的切入口可以去創(chuàng)業(yè),再層層迭代。
虎嗅:很多科學(xué)家在與工業(yè)界交流溝通的時(shí)候往往存在一些語(yǔ)言體系的不同和由此帶來(lái)的挑戰(zhàn),科學(xué)往往希望在單點(diǎn)突破,但工業(yè)界對(duì)技術(shù)的領(lǐng)先性反而沒(méi)那么重視,更重視是否解決問(wèn)題,是否穩(wěn)定,你如何適應(yīng)這樣的身份轉(zhuǎn)變,適應(yīng)不同的溝通方式?
殷鵬:確實(shí)如此。學(xué)者轉(zhuǎn)換到CEO,之前關(guān)注一個(gè)點(diǎn),可以挖得很深,可以調(diào)動(dòng)這個(gè)點(diǎn)周?chē)嚓P(guān)的資源,其他所有的鏈路都不用考慮。但變成公司就不一樣了,更多要考慮的是公司的管理、文化、這個(gè)業(yè)務(wù)本身的商業(yè)模式是否閉環(huán),是不是賺錢(qián)。這里會(huì)出現(xiàn)很多不同的難點(diǎn),需要各個(gè)擊破。另外,作為一家創(chuàng)業(yè)公司,任何一個(gè)新的模式都有人質(zhì)疑。所以就需要用最小的成本,完成產(chǎn)品的可行性驗(yàn)證,這些都是創(chuàng)業(yè)需要回答的事情。
虎嗅:這兩個(gè)路徑是相反的,一個(gè)往縱向里扎,一個(gè)做橫向。
殷鵬:是的,一個(gè)點(diǎn)的突破不代表整個(gè)系統(tǒng)就被解決了。創(chuàng)業(yè)需要對(duì)整條鏈路的每個(gè)環(huán)節(jié)都足夠了解,即使自己不懂,也要找到懂的人一起做。而且要有對(duì)時(shí)間周期的把控,畢竟創(chuàng)業(yè)公司的資源不是無(wú)限的,沒(méi)人能等你10年、20年才考慮商業(yè)化。
同時(shí),還需要一個(gè)優(yōu)秀、細(xì)致的團(tuán)隊(duì)來(lái)承擔(dān)核心任務(wù)。這其實(shí)至關(guān)重要。硅谷有個(gè)說(shuō)法叫"創(chuàng)始人模式"——公司價(jià)值觀(guān)往往反映的是創(chuàng)始人對(duì)行業(yè)的理解。如果我們理解足夠深,就能抓住行業(yè)的核心問(wèn)題,不會(huì)過(guò)于激進(jìn)也不會(huì)太保守,戰(zhàn)略方向會(huì)更清晰,團(tuán)隊(duì)也會(huì)知道自己的定位。
只有具備這樣創(chuàng)始人導(dǎo)向的文化,才能吸引真正志同道合的人。哪怕像老馬這樣的創(chuàng)業(yè)者,在他的每個(gè)公司也都有一群忠實(shí)的追隨者。
虎嗅:在這個(gè)過(guò)程當(dāng)中比較大的挑戰(zhàn),或者壓力挺大的時(shí)候是什么?
殷鵬:因?yàn)槭紫仁亲鳛槔蠋熞マD(zhuǎn)型,非常痛苦。要從一個(gè)釘子變成一個(gè)類(lèi)似于像梳子這樣的模塊。
在正式創(chuàng)業(yè)之前,我們往往專(zhuān)注于一個(gè)單點(diǎn)問(wèn)題的深入突破,個(gè)人只需思考得足夠深入即可。但作為創(chuàng)始人,就要從"釘子"思維轉(zhuǎn)變?yōu)?梳子"思維,不僅要深挖某一點(diǎn),還要兼顧全局多個(gè)維度。
創(chuàng)始人關(guān)注的面非常廣,但面廣不等于"大而空",否則團(tuán)隊(duì)會(huì)不知道具體該做什么。在此基礎(chǔ)上,既要全面布局,也要在每個(gè)關(guān)鍵點(diǎn)深入推進(jìn),明確每個(gè)人的任務(wù)、節(jié)奏和具體內(nèi)容。這對(duì)時(shí)間管理和綜合能力提出了極高要求,也是每一位創(chuàng)業(yè)者都必須經(jīng)歷的一關(guān)。
第二點(diǎn)是商業(yè)模式的不確定性。在發(fā)展的某個(gè)階段,一種模式可能完成閉環(huán),實(shí)現(xiàn)真正的突破,但我們無(wú)法準(zhǔn)確預(yù)測(cè)這一刻何時(shí)到來(lái)。以數(shù)據(jù)行業(yè)為例,外界對(duì)其構(gòu)成存在爭(zhēng)議——有人強(qiáng)調(diào)課程數(shù)據(jù),有人依賴(lài)仿真數(shù)據(jù),也有人重視真實(shí)數(shù)據(jù)。我們相對(duì)開(kāi)放,認(rèn)為多種模式都有機(jī)會(huì)成功,但難以完全把控這種趨勢(shì)在長(zhǎng)期周期內(nèi)的演進(jìn)規(guī)律,因此要依靠直覺(jué)判斷。
虎嗅:直覺(jué)主要來(lái)自哪里?
殷鵬:這種直覺(jué),來(lái)源于第一性原理的分析、快速獲取行業(yè)和用戶(hù)的反饋。我們站在前線(xiàn),能第一時(shí)間獲得大廠(chǎng)在性能優(yōu)化等方面的經(jīng)驗(yàn)和信息,這使得"即時(shí)響應(yīng)、快速溝通和反饋"變得極其關(guān)鍵。因?yàn)橐坏┬畔⒄`判,就可能導(dǎo)致決策失誤,進(jìn)而影響整體戰(zhàn)略。
所以,在創(chuàng)新過(guò)程中,創(chuàng)業(yè)者常會(huì)經(jīng)歷兩個(gè)挑戰(zhàn):一是從個(gè)人高深度突破轉(zhuǎn)向全面統(tǒng)籌,二是在不確定中尋找方向,并始終保持對(duì)信息的敏銳感知和快速反應(yīng)。這也是"黎明前的黑暗"階段,雖然痛苦,但唯有沖到一線(xiàn),深入思考和建設(shè),才有可能迎來(lái)真正的突破。
虎嗅:在深入業(yè)界之后,你發(fā)現(xiàn)了哪些是過(guò)去沒(méi)有意識(shí)到的行業(yè)痛點(diǎn)或者問(wèn)題?
殷鵬:比如我們之前做遙操,操縱這個(gè)領(lǐng)域我們做了兩年,我們會(huì)做例如抓取蘋(píng)果、杯子,這樣簡(jiǎn)單的事情,也會(huì)做擰螺絲這樣很難的研究。但真的和工業(yè)界交流時(shí)發(fā)現(xiàn),這些事往往無(wú)法落地。比如說(shuō)他們不需要訓(xùn)練一個(gè)多Fancy的模型,只需要百分百做成一件事,一個(gè)可以落地的策略解決方案。
虎嗅:其實(shí)創(chuàng)業(yè)公司的初創(chuàng)團(tuán)隊(duì)是很重要的,很多時(shí)候如果找的都是能力很強(qiáng)的人,反而不能成功。搭團(tuán)隊(duì)的時(shí)候你看中的是什么?花了多長(zhǎng)時(shí)間搭團(tuán)隊(duì)?
殷鵬:找人對(duì)創(chuàng)業(yè)公司而言至關(guān)重要,我們大概花了半年時(shí)間。我還是更借鑒黃仁勛的機(jī)制,一開(kāi)始兩三個(gè)人一定要有情感基礎(chǔ)和長(zhǎng)期合作伙伴的關(guān)系,對(duì)彼此有長(zhǎng)期信任感,能夠共同承擔(dān)風(fēng)險(xiǎn)。比如我們?cè)缙诤兔绹?guó)大型公司談?dòng)唵危孟碌谝粋€(gè)客戶(hù),這種事情形成的革命友誼在創(chuàng)業(yè)中尤為難得。我們并不介意這個(gè)人是否一定是名校,更在乎的是在進(jìn)入公司后是否能夠快速適應(yīng)公司文化和氛圍,把自己的能力進(jìn)行快速提升。所以我更看重的是加速度,如果加速度很強(qiáng),說(shuō)明他有很強(qiáng)的內(nèi)驅(qū)力,能夠在一個(gè)公司找到自己很好的身位,把能力做極大的發(fā)揮。
虎嗅:話(huà)說(shuō)回來(lái),在"畫(huà)餅"這件事上,您如何讓大家愿意相信這個(gè)愿景并堅(jiān)定往這個(gè)方向努力?
殷鵬:當(dāng)年老馬做 SpaceX 時(shí),業(yè)界普遍認(rèn)為火箭回收不可能。但他憑借個(gè)人魅力,做了初步驗(yàn)證,拿到融資,從 NASA 招來(lái)一批相信他的團(tuán)隊(duì),最終把這件事做成了。
我也是從第一性原理出發(fā),思考什么樣的數(shù)據(jù)真正能起量,拆解整個(gè)過(guò)程,預(yù)判可能遇到的問(wèn)題,與團(tuán)隊(duì)逐步攻堅(jiān),一旦突破,可以達(dá)到怎樣的規(guī)模和影響力。
現(xiàn)在看 Scale AI 的市值就能明白,一家"賣(mài)水"的公司也能做到行業(yè)頭部。這個(gè)愿景是大家可以一起實(shí)現(xiàn)的。我們要做的是搞定大客戶(hù),與他們建立深度綁定,讓外界更愿意相信這個(gè)故事。
具身智能尚處亂世,認(rèn)可了就義無(wú)反顧去做
虎嗅:你其實(shí)是一個(gè)習(xí)慣于將長(zhǎng)目標(biāo)拆分成一個(gè)個(gè)短目標(biāo)的人?
殷鵬:是的。我覺(jué)得任何復(fù)雜的事情都耐不住細(xì)化,短期可以是一個(gè)季度為計(jì)或者半年可實(shí)現(xiàn)的目標(biāo),層層往上迭代,總會(huì)實(shí)現(xiàn)。黃仁勛也是這個(gè)策略,他最早就All in算力,只是在當(dāng)時(shí)的時(shí)間點(diǎn)沒(méi)有人提。所以他開(kāi)始做游戲,然后挖礦,之后遇到AI。
虎嗅:你一直在提到"第一性原理",馬斯克是把"第一性原理"發(fā)揚(yáng)光大的人。什么時(shí)候開(kāi)始意識(shí)到"第一性原理"這件事并認(rèn)可它?
殷鵬:我是去美國(guó)之后第一次真正了解Elon Musk,他背后的創(chuàng)業(yè)邏輯、故事路線(xiàn),了解特斯拉、SpaceX。我在美國(guó)的那幾年,正好見(jiàn)證了特斯拉如何沖出低谷,再往上爬升的過(guò)程。見(jiàn)證馬斯克如何一層層把大家對(duì)他的質(zhì)疑劃破,去兌現(xiàn)。包括他承諾了將近十年的Robotaxi。所以我研究了他的商業(yè)歷史,我發(fā)現(xiàn)第一性原理真的非常可怕,能把一件在旁人看來(lái)不可能實(shí)現(xiàn)的事情變成可能。
虎嗅:現(xiàn)在在看什么書(shū)?
殷鵬:最近的新書(shū)就是馬斯克的自傳。
虎嗅:看起來(lái)你很喜歡馬斯克。
殷鵬:對(duì),可以說(shuō)我的整個(gè)的商業(yè)邏輯,商業(yè)模式,很多都是來(lái)自老馬的啟發(fā)。他如何在早期就思考這件事,如何設(shè)計(jì)、如何在某個(gè)時(shí)間點(diǎn)頂住壓力,做別人看起來(lái)不可能的事情。
虎嗅:現(xiàn)在還會(huì)堅(jiān)持冥想嗎?每天會(huì)花多長(zhǎng)時(shí)間?
殷鵬:我現(xiàn)在每天早上五點(diǎn)起床,會(huì)花半小時(shí)冥想然后開(kāi)始每天的日程工作。因?yàn)槭虑闀?huì)越來(lái)越多,如果沒(méi)有一個(gè)合理的放空機(jī)會(huì),人會(huì)在一些雜事情上迷失。如果每天沒(méi)辦法得到自己內(nèi)心深處的反饋,在路徑選擇上還是會(huì)出現(xiàn)一些問(wèn)題。
虎嗅:創(chuàng)業(yè)至今,有沒(méi)有發(fā)生一些反常識(shí)的事?
殷鵬:我覺(jué)得是有的。泡泡瑪特的王寧曾總結(jié)過(guò)一個(gè)經(jīng)驗(yàn):創(chuàng)業(yè)時(shí)我們常以為A很重要,離了它不行,但實(shí)際做下去才發(fā)現(xiàn),真正關(guān)鍵的是B,而B(niǎo)在最初甚至看不出來(lái)有多重要。到面對(duì)客戶(hù)時(shí),又可能是C才對(duì),因?yàn)榭蛻?hù)需求會(huì)不斷變化。最終是通過(guò)B的調(diào)整,才演化出C的形態(tài),不斷優(yōu)化這個(gè)過(guò)程。
一開(kāi)始設(shè)想的路徑,在不斷試錯(cuò)和收斂中,可能會(huì)自然找到最優(yōu)解,但這個(gè)最優(yōu)解很難一開(kāi)始就預(yù)料到。正如那句話(huà):"偉大的事情無(wú)法被計(jì)劃。"
虎嗅:對(duì)于你和公司而言,未來(lái)的挑戰(zhàn)會(huì)在哪里?
殷鵬:現(xiàn)在可見(jiàn)的是,進(jìn)入具身智能行業(yè)的"用戶(hù)"越來(lái)越多,而不是專(zhuān)注做數(shù)據(jù)的公司。我們?nèi)ツ陝倓?chuàng)業(yè),還需要向投資人解釋機(jī)器人數(shù)據(jù)的重要性,但如今這幾乎已成共識(shí)。
這當(dāng)然是好事,但也是一把雙刃劍。大家認(rèn)同數(shù)據(jù)的價(jià)值,意味著越來(lái)越多的公司開(kāi)始涌入這個(gè)賽道,不論大廠(chǎng)還是中小團(tuán)隊(duì),生態(tài)變得越來(lái)越"卷",也開(kāi)始出現(xiàn)不少重復(fù)造輪子的現(xiàn)象。
整個(gè)行業(yè)仍處于"亂世"階段,關(guān)鍵在于如何找到自己的獨(dú)特位置。對(duì)我們來(lái)說(shuō),數(shù)據(jù)是最核心、也是最擅長(zhǎng)的部分。既然如此,就沒(méi)有猶豫的理由,只能義無(wú)反顧地往前走。