杭州三墩燈彩街 1008 號(hào),是阿里云辦公所在的園區(qū),這里現(xiàn)在每周有 70 場(chǎng)參觀講解,訪客們都因阿里的 AI 技術(shù)慕名而來(lái)。
這種 " 爆滿 " 的盛況并非一直如此。一切的變化,都來(lái)自于近兩年阿里在 AI 技術(shù)領(lǐng)域的不斷爆發(fā)。
2022 年 11 月 30 日晚上,達(dá)摩院有不少人輾轉(zhuǎn)難眠,因?yàn)槟翘? ChatGPT 雖然沒(méi)有任何宣發(fā)的上線,卻替其他所有 AI 企業(yè)們,更換了一個(gè)行業(yè)新范式,他們比大多數(shù)人更早地知道大洋彼岸正在發(fā)生的技術(shù)變革。
2025 年 4 月 28 日,Qwen3 發(fā)布前的晚上,阿里通義團(tuán)隊(duì)又再次無(wú)眠。外部媒體詢(xún)問(wèn)上線時(shí)間的消息不停轟炸,而屏幕上開(kāi)源代碼的上傳進(jìn)度條始終在緩慢爬升,所有人像在產(chǎn)房外焦急等待孩子落地的年輕父親。
不同的是,這次不眠夜后,阿里成為了主角,Qwen3 毫無(wú)懸念地登頂了開(kāi)源模型榜單的榜首。部署旗艦版 Qwen3-235B-A22B 只需要 DeepSeek-R1 三分之一的成本。
短短兩年時(shí)間,阿里就在公眾視野中變成了一家存在感極強(qiáng)的 AI 公司。但在回溯歷史,走訪多位相關(guān)人士后,我們卻發(fā)現(xiàn)阿里 AI 之路的種子似乎在 2007 年就已經(jīng)埋下。
阿里的 AI 之路并不是一個(gè)高效的商業(yè)故事,中間存在著反復(fù),錯(cuò)誤,也有蟄伏和堅(jiān)持。在一個(gè)巨大商業(yè)帝國(guó)的背面,認(rèn)清它的價(jià)值需要時(shí)間,更需要勇氣,也正是在巨擘的空間里,一點(diǎn)點(diǎn)的冗余保證了天才的火種和基因得以存續(xù),蔓延,能始終留在技術(shù)變革的牌桌上。
在 2022 年 11 月云棲大會(huì)之前,達(dá)摩院其實(shí)有一次成為中國(guó) OpenAI 的機(jī)會(huì)。
接近達(dá)摩院的一位資深員工說(shuō),他不止一次回想過(guò)這件事。
2022 年 11 月的云棲大會(huì)前,他們團(tuán)隊(duì)內(nèi)部討論過(guò)多次,要不要把當(dāng)時(shí)已經(jīng)達(dá)到萬(wàn)億級(jí)參數(shù) M6( MultiModality-to-MultiModality Multitask Mega-transformer )在大會(huì)上推出。但再三糾結(jié)后,他們還是猶豫了。
彼時(shí),達(dá)摩院自研的多模態(tài)預(yù)訓(xùn)練模型 M6,已經(jīng)是當(dāng)時(shí)世界上最大的預(yù)訓(xùn)練模型之一。這也是阿里通義的起點(diǎn)。
當(dāng)時(shí)國(guó)內(nèi)主要還在做小模型,M6 這樣體量的大模型出現(xiàn)尚屬首次。并且,超前地選擇了多模態(tài),可以生成文本、圖片還有音頻等,能做到寫(xiě)小說(shuō)和作圖。
至于猶豫的原因,我們推測(cè)可能是彼時(shí)的環(huán)境下,中國(guó)企業(yè)習(xí)慣了在前沿科技上跟隨美國(guó),ChatGPT 出現(xiàn)前,M6 的價(jià)值評(píng)估到底如何,大家心里也沒(méi)底。M6 完成了不少突破,但用更嚴(yán)格的標(biāo)準(zhǔn)來(lái)說(shuō),其性能還沒(méi)有 " 爆炸性 " 地強(qiáng)。
2020 年,當(dāng)時(shí)的達(dá)摩院智能計(jì)算實(shí)驗(yàn)室負(fù)責(zé)人周靖人組建了一支十幾個(gè)人的小團(tuán)隊(duì),啟動(dòng)了該項(xiàng)目。從 0 成長(zhǎng)為 10 萬(wàn)億參數(shù)模型,他們只用了 1 年多。
彼時(shí),M6 上的很多技術(shù),也都成了現(xiàn)在業(yè)界 AI 技術(shù)中的主流。
當(dāng)時(shí)團(tuán)隊(duì)就采用了如今業(yè)內(nèi)流行的 MoE( 混合專(zhuān)家 )架構(gòu),也就是讓一個(gè)大模型根據(jù)不同任務(wù),調(diào)用內(nèi)部多個(gè)專(zhuān)家。
他們改進(jìn)了 MoE 框架,創(chuàng)造性地通過(guò)專(zhuān)家并行策略,大大擴(kuò)增了單個(gè)模型的承載容量。所以 M6 格外省算力,只在 480 張卡上就完成了萬(wàn)億級(jí)參數(shù)的模型訓(xùn)練。
有意思的是,在 M6 的背后,你能見(jiàn)到很多熟悉的名字。比如清華大學(xué)教授唐杰,后來(lái)他創(chuàng)立了智譜,而唐杰的學(xué)生之一楊植麟又是 Kimi 的創(chuàng)始人。
但即便集合了當(dāng)時(shí)國(guó)內(nèi)最頂尖的人才,整支團(tuán)隊(duì)也并不知道自己到底能不能成,最重要的是到底怎么用。
這種奢侈的理想主義,給團(tuán)隊(duì)帶來(lái)了巨大的壓力。
2014 年的時(shí)候,在大家還在聊 O2O 時(shí),馬云在硅谷成立了 iDST( 數(shù)據(jù)科學(xué)與技術(shù)研究院 )。并且花重金挖人,從漆遠(yuǎn)到金榕、司羅,再到任小楓。
最開(kāi)始,iDST 野心勃勃地承接了建立超大規(guī)模 GPU 機(jī)器學(xué)習(xí)集群、機(jī)器學(xué)習(xí)平臺(tái)等任務(wù)。
但即便有期望在前,在殘酷的競(jìng)爭(zhēng)環(huán)境和體制之中,理想主義的存在也是奢侈和艱難的。
僅一年時(shí)間,因?yàn)檠芯可虡I(yè)化等原因,人員被打散放入各種實(shí)戰(zhàn)業(yè)務(wù)部門(mén)里:漆遠(yuǎn)去了螞蟻金服,而金榕調(diào)入淘寶天貓,語(yǔ)音團(tuán)隊(duì)并入阿里云。
阿里到底在這上面投入有多少,有一張圖或許可以說(shuō)明一二。達(dá)摩院成立前夜,一張馬云宴請(qǐng)科學(xué)家的照片廣為流傳。
就在他們放棄把 M6 大張旗鼓公之于眾的 27 天之后,ChatGPT 上線引爆了全世界,人們迅速忘記了 M6 。
實(shí)際看到 ChatGPT 之后,達(dá)摩院也不得不承認(rèn)自己確實(shí)和對(duì)方有著不小的差距。事實(shí)上,當(dāng)時(shí)全世界都和 OpenAI 有差距。
從某些方面來(lái)說(shuō),這樣的差距不可避免。
M6 采用的是 BERT 架構(gòu),將解碼器和編碼器集成在同一框架中,而 OpenAI 走是單向模型的路線,只做解碼器的部分。簡(jiǎn)單來(lái)說(shuō),就是 ChatGPT 只能從左往右或從右往左地讀一行字,而 BERT 是同時(shí)從兩邊處理一句話,也可以在未標(biāo)注過(guò)的數(shù)據(jù)上學(xué)習(xí)。
從理解速度上來(lái)說(shuō),M6 所采用的方向要高效得多。但固執(zhí)的 ChatGPT 靠著猛堆參數(shù)量,做到大力出奇跡,突破了單向模型理解能力差的瓶頸。非主流的方向性選擇,孤注一擲或許一鳴驚人,多數(shù)一敗涂地。
面臨路線更改的局面,達(dá)摩院只給了自己 4 個(gè)多月的時(shí)間,去追上 OpenAI 。
高壓和焦慮,反而讓團(tuán)隊(duì)內(nèi)部上下擰成一股繩。不僅如此,彼時(shí)達(dá)摩院 2000 多人里,有一半都是從事 AI 相關(guān)研究。外界戲稱(chēng)達(dá)摩院為少林派護(hù)法,其人才儲(chǔ)備是兵家搶人必爭(zhēng)之地。
最終,趕在 2023 年 4 月中旬,阿里用通義千問(wèn)這個(gè)名字將大模型上線邀測(cè),也是當(dāng)時(shí)國(guó)內(nèi)第二個(gè)上線的大模型。
這成為了通義大模型道路上最重要的一步。當(dāng)時(shí)達(dá)摩院把手頭上三四百個(gè)模型全部都對(duì)外開(kāi)源了。此后 Qwen 的每一代模型,不管投入了多少資源,都會(huì)第一時(shí)間在魔搭上主動(dòng)開(kāi)源開(kāi)放。
這并不是常見(jiàn)的事。事實(shí)上,在 DeepSeek 出現(xiàn)以前,開(kāi)閉源一直都是業(yè)內(nèi)爭(zhēng)論不休的話題。即使開(kāi)源更可能降低研發(fā)和應(yīng)用的門(mén)檻,便于開(kāi)發(fā)者快速定制 AI 解決方案,更接近于實(shí)現(xiàn) " AI 普惠 " ,但因?yàn)樯虡I(yè)化困難,閉源流派一度占了上風(fēng)。
但,慷慨的選擇,給通義帶來(lái)可觀的 " 收益 " 。" 通義千問(wèn)剛上線時(shí),與頭部閉源模型還有相當(dāng)一段的距離,在開(kāi)源之后快速地就追上了," 一位接近魔搭社區(qū)的人士提到。全世界的開(kāi)發(fā)者都同步在使用和反饋模型的情況,直接助推了 Qwen 模型的更迭。
到今年,Qwen 已經(jīng)徹底超過(guò) Llama 成為全球最大的 AI 大模型家族。
全球最大的模型開(kāi)源社區(qū) Hugging Face 上,有開(kāi)發(fā)工程師形容通義是 " 最卷 " 的模型。差評(píng)君簡(jiǎn)單地梳理了通義團(tuán)隊(duì)的發(fā)布日程,發(fā)現(xiàn)基本每隔兩個(gè)月就會(huì)有一個(gè)大更新。
2024 年,2 月 Qwen 1.5 更新,3 月更新視覺(jué)大模型 qwen-vl Plus 和 Max 。6 月份上線 Qwen2 ,3 個(gè)月后,又發(fā)布了 Qwen2.5 ,并且覆蓋了從 0.5B 到 110B 不等的全尺寸模型,自此性能超越了 Llama3 。2025 年至今,又已經(jīng)出了數(shù)款新模型。
高密度的更新之下,通義團(tuán)隊(duì)們也再?zèng)]有因同行的變動(dòng)而慌亂過(guò)。
2024 年 3 月 18 號(hào),Kimi 長(zhǎng)下文突破 200 萬(wàn),通義在 5 天后,按自己的節(jié)奏宣布了能處理 1000 萬(wàn)字的長(zhǎng)文本新模型。DeepSeek 帶火了深度思考推理后,通義團(tuán)隊(duì)已經(jīng)不再焦慮著急切跟進(jìn),而是在沉淀后推出兼具 " 思考 " 和 " 快速回答 " 能力的 Qwen3.
值得一提的是,Qwen 3 旗艦?zāi)P图軜?gòu)為 MoE( 混合專(zhuān)家模型 ),而當(dāng)年 M6 正是業(yè)界成熟使用該架構(gòu)的 " 先驅(qū) " 模型之一。
處理任務(wù)時(shí),只調(diào)用部分專(zhuān)家來(lái)處理任務(wù),所以每次激活參數(shù)量不大,只有 22 B,使其速度快,能耗小。所以 Qwen3 的參數(shù)量有 235B ,成本卻可以做到 DeepSeek-R1 的三分之一。
Qwen3 的發(fā)布,證明了通義千問(wèn)已經(jīng)完全躋身全球最頂尖大模型梯隊(duì)。黃仁勛在最新的財(cái)報(bào)電話會(huì)上,點(diǎn)名 DeepSeek 和千問(wèn)是開(kāi)源 AI 模型里最好的。
當(dāng)年種下的種子,一直在影響和幫助通義續(xù)寫(xiě)阿里的 AI 故事。
Qwen3 后訓(xùn)練圖示
2025 財(cái)年第三季度財(cái)報(bào)發(fā)布后,阿里巴巴美股上漲 8% ,港股大漲 10% ,其中,白紙黑字的數(shù)據(jù)把阿里云推了出來(lái)。阿里的云智能集團(tuán)收入 317.42 億元( 43.49 億美元 ),同比增長(zhǎng) 13% ,利潤(rùn)同比增長(zhǎng) 33% 。
有業(yè)內(nèi)人士認(rèn)為,未來(lái)可能有 90% 的 token 都在 AI 公共云上進(jìn)行。而阿里云上有 500 萬(wàn)的客戶(hù),是全球第四、亞洲第一的云。
今年 4 月 10 日,吳泳銘曾對(duì)內(nèi)提出了一個(gè)目標(biāo)。雖無(wú)法獲知具體數(shù)字,但接近阿里云的人士透露,如果按照吳泳銘制定的計(jì)劃推進(jìn),阿里云以后可能會(huì)占到阿里巴巴總收入的 20-25% ,如果樂(lè)觀來(lái)估計(jì)甚至可能達(dá)到 30% 以上。
這意味著阿里云將會(huì)成為業(yè)務(wù)利潤(rùn)上挑大旗的存在之一。因?yàn)榻衲陙嗰R遜云科技業(yè)務(wù)的收入是 1076 億美金,占總收入的 16.9% 。但它卻貢獻(xiàn)了 58% 的利潤(rùn)。
在那次財(cái)報(bào)會(huì)上,吳泳銘還提出在 AI 基建上的投入超過(guò)過(guò)去十年的總和,這里巨大的想象空間,讓所有人都無(wú)法再忽視它。
在這之前,阿里的核心業(yè)務(wù)就已經(jīng)開(kāi)啟了一場(chǎng)升級(jí)改造,全面進(jìn)行 AI 化轉(zhuǎn)型。據(jù)傳, " AI 增量指標(biāo) " 也被納入到相關(guān)員工的考核體系中,2025 年的績(jī)效將通過(guò)如何利用 AI 促進(jìn)增長(zhǎng)來(lái)評(píng)估。
而在各種 AI 化的升級(jí)中,夸克是最出乎大家意料的一個(gè)業(yè)務(wù)。
最顯而易見(jiàn)的是夸克成為了阿里 AI 旗艦應(yīng)用。阿里巴巴智能信息事業(yè)群總裁吳嘉,直接向吳泳銘匯報(bào)工作。
在阿里財(cái)報(bào)會(huì)上,吳泳銘又再次點(diǎn)名夸克在 C 端積累的用戶(hù)基礎(chǔ)。
一時(shí)間,夸克這個(gè)低調(diào)的應(yīng)用,成為了阿里面向 C 端的排頭兵。
其產(chǎn)品能力也在迅速迭代。去年 7 月第一次提出 " 超級(jí)搜索框 " 的初步構(gòu)想,今年年初,升級(jí)成為 " 2 億人的 AI 全能助手 " 。在 3 月份上線 " AI 超級(jí)框 " 后,又在近期發(fā)布 " 深度思考 " 能力,對(duì)夸克的要求進(jìn)一步明確為用 Agent 產(chǎn)品服務(wù)用戶(hù)。
對(duì)其他 AI 原生應(yīng)用或者本就功能繁雜的應(yīng)用來(lái)說(shuō),這樣的變動(dòng)并不稀奇。但靠搜索業(yè)務(wù)起家的夸克,行事風(fēng)格一直是謹(jǐn)慎和克制。
夸克的團(tuán)隊(duì)從建立到現(xiàn)在,人員流動(dòng)性遠(yuǎn)低于其他項(xiàng)目團(tuán)隊(duì),在過(guò)去幾年的阿里成為一個(gè) " 異類(lèi) " 。
在業(yè)內(nèi)人士看來(lái) " 做搜索是一個(gè)需要耐心的重活 "。只是一個(gè)搜索排名的變動(dòng),比如要先顯示哪條檢索結(jié)果,用戶(hù)端都會(huì)有非常大的感知。
同時(shí),夸克年輕用戶(hù)占比超過(guò) 50% ,面對(duì)愛(ài)表達(dá)的群體,任何的變動(dòng)都變得更加謹(jǐn)小慎微。
按以往的節(jié)奏來(lái)說(shuō),夸克的一個(gè)小功能,從用戶(hù)調(diào)研、清洗數(shù)據(jù),再到最后的產(chǎn)品打磨,需要最少半年至一年的時(shí)間。
夸克對(duì)功能新增也一直有非常高的準(zhǔn)入門(mén)檻,一些不符合 " 調(diào)性 " 、打擾用戶(hù)的功能,絕不允許加入。比如彈窗簽到、轉(zhuǎn)盤(pán)得金幣這些為了保持用戶(hù)黏性的常見(jiàn)功能。甚至連 icon 的顏色和擺放位置,都需再三斟酌。
被推到臺(tái)前后,壓力使得夸克內(nèi)部的發(fā)條被繃緊。
" 我們處在一個(gè)高壓的產(chǎn)業(yè)環(huán)境里。內(nèi)部人的壓力都比較直接,對(duì)產(chǎn)品服務(wù)能力的要求也會(huì)更高。" 一位接近夸克的人士坦言道。
ChatGPT 發(fā)布后,夸克投入了大量工程師開(kāi)發(fā)自研大模型,并和通義等團(tuán)隊(duì)保持緊密溝通。
除了基礎(chǔ)模型之外,應(yīng)用功能也必須保持高速的更新頻率,把新技術(shù)成果迅速導(dǎo)入到應(yīng)用層。僅是 2024 年,夸克就上線和升級(jí)了 AI 寫(xiě)作、AI 搜索、AI 解題大師等一系列全場(chǎng)景的 AI 能力。今年又先后加碼了深度搜索和 AI 相機(jī)等能力。
面對(duì)阿里如此大規(guī)模的 AI 革新,帶來(lái)的一個(gè)必然問(wèn)題是:真實(shí) " 藥效 " 到底有多少?用戶(hù)是否真的能夠消化?
在這個(gè)問(wèn)題上,離錢(qián)最近的商家們,或許是感觸最明顯的。" 你都不用懷疑,因?yàn)? AI 能做到的獲客成本,人是辦不到的," 一位年輕的外貿(mào)老板劉世奇對(duì)我說(shuō)。
他所說(shuō)的獲客成本,指的是運(yùn)營(yíng)在投流推廣時(shí),捕捉單個(gè)客戶(hù)的營(yíng)銷(xiāo)費(fèi)用。
一般來(lái)說(shuō),為了降低營(yíng)銷(xiāo)成本,需要拆分客戶(hù)畫(huà)像,對(duì)比數(shù)據(jù)和優(yōu)化關(guān)鍵詞。作為獲客的關(guān)鍵一環(huán),頭部企業(yè)甚至?xí)刚?qǐng)職業(yè)的運(yùn)營(yíng)投手專(zhuān)家負(fù)責(zé)。
而這個(gè)崗位劉世奇一直都是自己親自上手。專(zhuān)做阿里國(guó)際站美國(guó)市場(chǎng)的他,只靠 6 個(gè)人的團(tuán)隊(duì),就做到了年銷(xiāo)售額 3000 萬(wàn)。
劉世奇在美國(guó)賣(mài)爆的拖鞋
但現(xiàn)在,他回家晚了更可能的原因是和員工打游戲開(kāi)黑。
他幫我算了一筆賬,同行 TOP 10 的商家手動(dòng)推廣后,獲取單個(gè)人的商業(yè)成本是 127 元,而他們 AI 全托管投放后,一個(gè)客戶(hù)只要 35 塊。
所以,即便現(xiàn)在已經(jīng)有財(cái)力招聘運(yùn)營(yíng)投手,運(yùn)營(yíng)崗也不在他們今年的團(tuán)隊(duì)擴(kuò)張計(jì)劃里。
" 因?yàn)椴惶枰? " ,這個(gè)年輕的老板對(duì) AI 的信任度非常高。運(yùn)營(yíng)所需要負(fù)責(zé)的詢(xún)盤(pán)、選品、獲客營(yíng)銷(xiāo)已經(jīng)全部交給 AI ,人工需要 30 分鐘上一個(gè)的產(chǎn)品鏈接,AI 只要 1-2 分鐘。
在實(shí)際的省錢(qián)和省力面前,只用工具也就成了商家們自發(fā)的行為。阿里國(guó)際站一位內(nèi)部人士和我們透露說(shuō),現(xiàn)在國(guó)際站外貿(mào)商家中,一半以上都已經(jīng)在使用他們的 AI 工具,每天大概穩(wěn)定有 10 萬(wàn)商家。
阿里內(nèi)部人士總結(jié)稱(chēng)," 這是時(shí)間、空間、人員的冗余,加上一點(diǎn)點(diǎn)的自由無(wú)用。"
或許大的企業(yè)存在著組織摩擦的慣性,但也可能只有大企業(yè)能夠在變革中保持前列的競(jìng)爭(zhēng)力。達(dá)摩院構(gòu)筑起的技術(shù)飛地,在經(jīng)歷了持續(xù)高的人力支出,業(yè)務(wù)變動(dòng),技術(shù)路線摩擦后,終究開(kāi)枝散葉。
2007 年的 9 月 28 號(hào),在寧波一個(gè)逼仄的封閉會(huì)議室里,馬云給了當(dāng)時(shí)的團(tuán)隊(duì)拋了兩個(gè)問(wèn)題。第一個(gè)是算力,第二個(gè)是數(shù)據(jù)。
在內(nèi)部員工們看來(lái),這才是阿里巴巴走向科技公司的起點(diǎn)。兩年后,為了解決算力問(wèn)題,阿里云成立。之后,肩負(fù)著 " 數(shù)據(jù)驅(qū)動(dòng)未來(lái)使命 " 的 iDST 和達(dá)摩院成立。
盡管這些理想主義的嘗試,曾讓阿里飽受爭(zhēng)議。可是面對(duì)下一次豪賭,阿里依然全力投入。
5 月 6 日,阿里在西溪園區(qū)復(fù)刻了曾經(jīng)的湖畔小屋,讓集團(tuán)重拾 " 創(chuàng)業(yè) " 精神。之后,吳泳銘的內(nèi)部信中,又一次提到要放下過(guò)去成績(jī),回歸創(chuàng)業(yè)者心態(tài),開(kāi)啟一段全新征程。
圍繞 AI、云等核心業(yè)務(wù)的硬件與資源投入,再次被敲定為這場(chǎng) " 飽和式投入 " 戰(zhàn)役里的重點(diǎn)之一。
至于這次全力投入是否能夠成功,阿里并不焦慮。
因?yàn)榘⒗飶膩?lái)不是一個(gè)技術(shù)的匆忙上馬。它真正想建立的是一種以算力為底層,以共享科技和應(yīng)用為頂層架構(gòu)的生態(tài)系統(tǒng)。正是這種深層次的戰(zhàn)略定位和技術(shù)基因,使得阿里能夠在 AI 浪潮的持續(xù)迭代中,始終穩(wěn)坐牌桌。即使在技術(shù)更替出現(xiàn)短期的動(dòng)蕩中,它也從未迷失——因?yàn)槌渥愕膬?chǔ)備,能幫阿里人迅速找準(zhǔn)方向,再次前進(jìn)。
某個(gè)技術(shù)的爆發(fā),只是輕輕推了這艘巨輪一把。
撰文:四大 & rick