杭州三墩燈彩街 1008 號,是阿里云辦公所在的園區(qū),這里現(xiàn)在每周有 70 場參觀講解,訪客們都因阿里的 AI 技術慕名而來。
這種 " 爆滿 " 的盛況并非一直如此。一切的變化,都來自于近兩年阿里在 AI 技術領域的不斷爆發(fā)。
2022 年 11 月 30 日晚上,達摩院有不少人輾轉難眠,因為那天 ChatGPT 雖然沒有任何宣發(fā)的上線,卻替其他所有 AI 企業(yè)們,更換了一個行業(yè)新范式,他們比大多數(shù)人更早地知道大洋彼岸正在發(fā)生的技術變革。
2025 年 4 月 28 日,Qwen3 發(fā)布前的晚上,阿里通義團隊又再次無眠。外部媒體詢問上線時間的消息不停轟炸,而屏幕上開源代碼的上傳進度條始終在緩慢爬升,所有人像在產(chǎn)房外焦急等待孩子落地的年輕父親。
不同的是,這次不眠夜后,阿里成為了主角,Qwen3 毫無懸念地登頂了開源模型榜單的榜首。部署旗艦版 Qwen3-235B-A22B 只需要 DeepSeek-R1 三分之一的成本。
短短兩年時間,阿里就在公眾視野中變成了一家存在感極強的 AI 公司。但在回溯歷史,走訪多位相關人士后,我們卻發(fā)現(xiàn)阿里 AI 之路的種子似乎在 2007 年就已經(jīng)埋下。
阿里的 AI 之路并不是一個高效的商業(yè)故事,中間存在著反復,錯誤,也有蟄伏和堅持。在一個巨大商業(yè)帝國的背面,認清它的價值需要時間,更需要勇氣,也正是在巨擘的空間里,一點點的冗余保證了天才的火種和基因得以存續(xù),蔓延,能始終留在技術變革的牌桌上。
在 2022 年 11 月云棲大會之前,達摩院其實有一次成為中國 OpenAI 的機會。
接近達摩院的一位資深員工說,他不止一次回想過這件事。
2022 年 11 月的云棲大會前,他們團隊內(nèi)部討論過多次,要不要把當時已經(jīng)達到萬億級參數(shù) M6( MultiModality-to-MultiModality Multitask Mega-transformer )在大會上推出。但再三糾結后,他們還是猶豫了。
彼時,達摩院自研的多模態(tài)預訓練模型 M6,已經(jīng)是當時世界上最大的預訓練模型之一。這也是阿里通義的起點。
當時國內(nèi)主要還在做小模型,M6 這樣體量的大模型出現(xiàn)尚屬首次。并且,超前地選擇了多模態(tài),可以生成文本、圖片還有音頻等,能做到寫小說和作圖。
至于猶豫的原因,我們推測可能是彼時的環(huán)境下,中國企業(yè)習慣了在前沿科技上跟隨美國,ChatGPT 出現(xiàn)前,M6 的價值評估到底如何,大家心里也沒底。M6 完成了不少突破,但用更嚴格的標準來說,其性能還沒有 " 爆炸性 " 地強。
2020 年,當時的達摩院智能計算實驗室負責人周靖人組建了一支十幾個人的小團隊,啟動了該項目。從 0 成長為 10 萬億參數(shù)模型,他們只用了 1 年多。
彼時,M6 上的很多技術,也都成了現(xiàn)在業(yè)界 AI 技術中的主流。
當時團隊就采用了如今業(yè)內(nèi)流行的 MoE( 混合專家 )架構,也就是讓一個大模型根據(jù)不同任務,調用內(nèi)部多個專家。
他們改進了 MoE 框架,創(chuàng)造性地通過專家并行策略,大大擴增了單個模型的承載容量。所以 M6 格外省算力,只在 480 張卡上就完成了萬億級參數(shù)的模型訓練。
有意思的是,在 M6 的背后,你能見到很多熟悉的名字。比如清華大學教授唐杰,后來他創(chuàng)立了智譜,而唐杰的學生之一楊植麟又是 Kimi 的創(chuàng)始人。
但即便集合了當時國內(nèi)最頂尖的人才,整支團隊也并不知道自己到底能不能成,最重要的是到底怎么用。
這種奢侈的理想主義,給團隊帶來了巨大的壓力。
2014 年的時候,在大家還在聊 O2O 時,馬云在硅谷成立了 iDST( 數(shù)據(jù)科學與技術研究院 )。并且花重金挖人,從漆遠到金榕、司羅,再到任小楓。
最開始,iDST 野心勃勃地承接了建立超大規(guī)模 GPU 機器學習集群、機器學習平臺等任務。
但即便有期望在前,在殘酷的競爭環(huán)境和體制之中,理想主義的存在也是奢侈和艱難的。
僅一年時間,因為研究商業(yè)化等原因,人員被打散放入各種實戰(zhàn)業(yè)務部門里:漆遠去了螞蟻金服,而金榕調入淘寶天貓,語音團隊并入阿里云。
阿里到底在這上面投入有多少,有一張圖或許可以說明一二。達摩院成立前夜,一張馬云宴請科學家的照片廣為流傳。
就在他們放棄把 M6 大張旗鼓公之于眾的 27 天之后,ChatGPT 上線引爆了全世界,人們迅速忘記了 M6 。
實際看到 ChatGPT 之后,達摩院也不得不承認自己確實和對方有著不小的差距。事實上,當時全世界都和 OpenAI 有差距。
從某些方面來說,這樣的差距不可避免。
M6 采用的是 BERT 架構,將解碼器和編碼器集成在同一框架中,而 OpenAI 走是單向模型的路線,只做解碼器的部分。簡單來說,就是 ChatGPT 只能從左往右或從右往左地讀一行字,而 BERT 是同時從兩邊處理一句話,也可以在未標注過的數(shù)據(jù)上學習。
從理解速度上來說,M6 所采用的方向要高效得多。但固執(zhí)的 ChatGPT 靠著猛堆參數(shù)量,做到大力出奇跡,突破了單向模型理解能力差的瓶頸。非主流的方向性選擇,孤注一擲或許一鳴驚人,多數(shù)一敗涂地。
面臨路線更改的局面,達摩院只給了自己 4 個多月的時間,去追上 OpenAI 。
高壓和焦慮,反而讓團隊內(nèi)部上下擰成一股繩。不僅如此,彼時達摩院 2000 多人里,有一半都是從事 AI 相關研究。外界戲稱達摩院為少林派護法,其人才儲備是兵家搶人必爭之地。
最終,趕在 2023 年 4 月中旬,阿里用通義千問這個名字將大模型上線邀測,也是當時國內(nèi)第二個上線的大模型。
這成為了通義大模型道路上最重要的一步。當時達摩院把手頭上三四百個模型全部都對外開源了。此后 Qwen 的每一代模型,不管投入了多少資源,都會第一時間在魔搭上主動開源開放。
這并不是常見的事。事實上,在 DeepSeek 出現(xiàn)以前,開閉源一直都是業(yè)內(nèi)爭論不休的話題。即使開源更可能降低研發(fā)和應用的門檻,便于開發(fā)者快速定制 AI 解決方案,更接近于實現(xiàn) " AI 普惠 " ,但因為商業(yè)化困難,閉源流派一度占了上風。
但,慷慨的選擇,給通義帶來可觀的 " 收益 " 。" 通義千問剛上線時,與頭部閉源模型還有相當一段的距離,在開源之后快速地就追上了," 一位接近魔搭社區(qū)的人士提到。全世界的開發(fā)者都同步在使用和反饋模型的情況,直接助推了 Qwen 模型的更迭。
到今年,Qwen 已經(jīng)徹底超過 Llama 成為全球最大的 AI 大模型家族。
全球最大的模型開源社區(qū) Hugging Face 上,有開發(fā)工程師形容通義是 " 最卷 " 的模型。差評君簡單地梳理了通義團隊的發(fā)布日程,發(fā)現(xiàn)基本每隔兩個月就會有一個大更新。
2024 年,2 月 Qwen 1.5 更新,3 月更新視覺大模型 qwen-vl Plus 和 Max 。6 月份上線 Qwen2 ,3 個月后,又發(fā)布了 Qwen2.5 ,并且覆蓋了從 0.5B 到 110B 不等的全尺寸模型,自此性能超越了 Llama3 。2025 年至今,又已經(jīng)出了數(shù)款新模型。
高密度的更新之下,通義團隊們也再沒有因同行的變動而慌亂過。
2024 年 3 月 18 號,Kimi 長下文突破 200 萬,通義在 5 天后,按自己的節(jié)奏宣布了能處理 1000 萬字的長文本新模型。DeepSeek 帶火了深度思考推理后,通義團隊已經(jīng)不再焦慮著急切跟進,而是在沉淀后推出兼具 " 思考 " 和 " 快速回答 " 能力的 Qwen3.
值得一提的是,Qwen 3 旗艦模型架構為 MoE( 混合專家模型 ),而當年 M6 正是業(yè)界成熟使用該架構的 " 先驅 " 模型之一。
處理任務時,只調用部分專家來處理任務,所以每次激活參數(shù)量不大,只有 22 B,使其速度快,能耗小。所以 Qwen3 的參數(shù)量有 235B ,成本卻可以做到 DeepSeek-R1 的三分之一。
Qwen3 的發(fā)布,證明了通義千問已經(jīng)完全躋身全球最頂尖大模型梯隊。黃仁勛在最新的財報電話會上,點名 DeepSeek 和千問是開源 AI 模型里最好的。
當年種下的種子,一直在影響和幫助通義續(xù)寫阿里的 AI 故事。
Qwen3 后訓練圖示
2025 財年第三季度財報發(fā)布后,阿里巴巴美股上漲 8% ,港股大漲 10% ,其中,白紙黑字的數(shù)據(jù)把阿里云推了出來。阿里的云智能集團收入 317.42 億元( 43.49 億美元 ),同比增長 13% ,利潤同比增長 33% 。
有業(yè)內(nèi)人士認為,未來可能有 90% 的 token 都在 AI 公共云上進行。而阿里云上有 500 萬的客戶,是全球第四、亞洲第一的云。
今年 4 月 10 日,吳泳銘曾對內(nèi)提出了一個目標。雖無法獲知具體數(shù)字,但接近阿里云的人士透露,如果按照吳泳銘制定的計劃推進,阿里云以后可能會占到阿里巴巴總收入的 20-25% ,如果樂觀來估計甚至可能達到 30% 以上。
這意味著阿里云將會成為業(yè)務利潤上挑大旗的存在之一。因為今年亞馬遜云科技業(yè)務的收入是 1076 億美金,占總收入的 16.9% 。但它卻貢獻了 58% 的利潤。
在那次財報會上,吳泳銘還提出在 AI 基建上的投入超過過去十年的總和,這里巨大的想象空間,讓所有人都無法再忽視它。
在這之前,阿里的核心業(yè)務就已經(jīng)開啟了一場升級改造,全面進行 AI 化轉型。據(jù)傳, " AI 增量指標 " 也被納入到相關員工的考核體系中,2025 年的績效將通過如何利用 AI 促進增長來評估。
而在各種 AI 化的升級中,夸克是最出乎大家意料的一個業(yè)務。
最顯而易見的是夸克成為了阿里 AI 旗艦應用。阿里巴巴智能信息事業(yè)群總裁吳嘉,直接向吳泳銘匯報工作。
在阿里財報會上,吳泳銘又再次點名夸克在 C 端積累的用戶基礎。
一時間,夸克這個低調的應用,成為了阿里面向 C 端的排頭兵。
其產(chǎn)品能力也在迅速迭代。去年 7 月第一次提出 " 超級搜索框 " 的初步構想,今年年初,升級成為 " 2 億人的 AI 全能助手 " 。在 3 月份上線 " AI 超級框 " 后,又在近期發(fā)布 " 深度思考 " 能力,對夸克的要求進一步明確為用 Agent 產(chǎn)品服務用戶。
對其他 AI 原生應用或者本就功能繁雜的應用來說,這樣的變動并不稀奇。但靠搜索業(yè)務起家的夸克,行事風格一直是謹慎和克制。
夸克的團隊從建立到現(xiàn)在,人員流動性遠低于其他項目團隊,在過去幾年的阿里成為一個 " 異類 " 。
在業(yè)內(nèi)人士看來 " 做搜索是一個需要耐心的重活 "。只是一個搜索排名的變動,比如要先顯示哪條檢索結果,用戶端都會有非常大的感知。
同時,夸克年輕用戶占比超過 50% ,面對愛表達的群體,任何的變動都變得更加謹小慎微。
按以往的節(jié)奏來說,夸克的一個小功能,從用戶調研、清洗數(shù)據(jù),再到最后的產(chǎn)品打磨,需要最少半年至一年的時間。
夸克對功能新增也一直有非常高的準入門檻,一些不符合 " 調性 " 、打擾用戶的功能,絕不允許加入。比如彈窗簽到、轉盤得金幣這些為了保持用戶黏性的常見功能。甚至連 icon 的顏色和擺放位置,都需再三斟酌。
被推到臺前后,壓力使得夸克內(nèi)部的發(fā)條被繃緊。
" 我們處在一個高壓的產(chǎn)業(yè)環(huán)境里。內(nèi)部人的壓力都比較直接,對產(chǎn)品服務能力的要求也會更高。" 一位接近夸克的人士坦言道。
ChatGPT 發(fā)布后,夸克投入了大量工程師開發(fā)自研大模型,并和通義等團隊保持緊密溝通。
除了基礎模型之外,應用功能也必須保持高速的更新頻率,把新技術成果迅速導入到應用層。僅是 2024 年,夸克就上線和升級了 AI 寫作、AI 搜索、AI 解題大師等一系列全場景的 AI 能力。今年又先后加碼了深度搜索和 AI 相機等能力。
面對阿里如此大規(guī)模的 AI 革新,帶來的一個必然問題是:真實 " 藥效 " 到底有多少?用戶是否真的能夠消化?
在這個問題上,離錢最近的商家們,或許是感觸最明顯的。" 你都不用懷疑,因為 AI 能做到的獲客成本,人是辦不到的," 一位年輕的外貿(mào)老板劉世奇對我說。
他所說的獲客成本,指的是運營在投流推廣時,捕捉單個客戶的營銷費用。
一般來說,為了降低營銷成本,需要拆分客戶畫像,對比數(shù)據(jù)和優(yōu)化關鍵詞。作為獲客的關鍵一環(huán),頭部企業(yè)甚至會聘請職業(yè)的運營投手專家負責。
而這個崗位劉世奇一直都是自己親自上手。專做阿里國際站美國市場的他,只靠 6 個人的團隊,就做到了年銷售額 3000 萬。
劉世奇在美國賣爆的拖鞋
但現(xiàn)在,他回家晚了更可能的原因是和員工打游戲開黑。
他幫我算了一筆賬,同行 TOP 10 的商家手動推廣后,獲取單個人的商業(yè)成本是 127 元,而他們 AI 全托管投放后,一個客戶只要 35 塊。
所以,即便現(xiàn)在已經(jīng)有財力招聘運營投手,運營崗也不在他們今年的團隊擴張計劃里。
" 因為不太需要了 " ,這個年輕的老板對 AI 的信任度非常高。運營所需要負責的詢盤、選品、獲客營銷已經(jīng)全部交給 AI ,人工需要 30 分鐘上一個的產(chǎn)品鏈接,AI 只要 1-2 分鐘。
在實際的省錢和省力面前,只用工具也就成了商家們自發(fā)的行為。阿里國際站一位內(nèi)部人士和我們透露說,現(xiàn)在國際站外貿(mào)商家中,一半以上都已經(jīng)在使用他們的 AI 工具,每天大概穩(wěn)定有 10 萬商家。
阿里內(nèi)部人士總結稱," 這是時間、空間、人員的冗余,加上一點點的自由無用。"
或許大的企業(yè)存在著組織摩擦的慣性,但也可能只有大企業(yè)能夠在變革中保持前列的競爭力。達摩院構筑起的技術飛地,在經(jīng)歷了持續(xù)高的人力支出,業(yè)務變動,技術路線摩擦后,終究開枝散葉。
2007 年的 9 月 28 號,在寧波一個逼仄的封閉會議室里,馬云給了當時的團隊拋了兩個問題。第一個是算力,第二個是數(shù)據(jù)。
在內(nèi)部員工們看來,這才是阿里巴巴走向科技公司的起點。兩年后,為了解決算力問題,阿里云成立。之后,肩負著 " 數(shù)據(jù)驅動未來使命 " 的 iDST 和達摩院成立。
盡管這些理想主義的嘗試,曾讓阿里飽受爭議。可是面對下一次豪賭,阿里依然全力投入。
5 月 6 日,阿里在西溪園區(qū)復刻了曾經(jīng)的湖畔小屋,讓集團重拾 " 創(chuàng)業(yè) " 精神。之后,吳泳銘的內(nèi)部信中,又一次提到要放下過去成績,回歸創(chuàng)業(yè)者心態(tài),開啟一段全新征程。
圍繞 AI、云等核心業(yè)務的硬件與資源投入,再次被敲定為這場 " 飽和式投入 " 戰(zhàn)役里的重點之一。
至于這次全力投入是否能夠成功,阿里并不焦慮。
因為阿里從來不是一個技術的匆忙上馬。它真正想建立的是一種以算力為底層,以共享科技和應用為頂層架構的生態(tài)系統(tǒng)。正是這種深層次的戰(zhàn)略定位和技術基因,使得阿里能夠在 AI 浪潮的持續(xù)迭代中,始終穩(wěn)坐牌桌。即使在技術更替出現(xiàn)短期的動蕩中,它也從未迷失——因為充足的儲備,能幫阿里人迅速找準方向,再次前進。
某個技術的爆發(fā),只是輕輕推了這艘巨輪一把。
撰文:四大 & rick