日本一区二区三区久久-日本一区二区三区久久精品-日本一区二区三区日本免费-日本一区二区三区在线观看视频-国产不卡免费视频-国产不卡视频

鈦媒體 43分鐘前

搶先 DeepSeek R2，阿里通義正式發布國內首個通用推理模型

文 | 電廠，作者 | 董溫淑，編輯 | 高宇雷

Qwen 3 模型即將發布的消息，已經流傳了一個月的時間；特別是最近一周內，坊間對 Qwen 3 的猜測不斷在 " 憋個大的 " 與 " 最終難產 " 之間反復橫跳。

直到 4 月 29 日凌晨，這款備受關注的模型終于亮相，號稱全面超越 DeepSeek R1。

杭州一家中廠的算法從業者告訴「電廠」：" 近幾個月網上不少 DeepSeek R2 的泄露信息，有人說 R2 要在 5 月份發。Qwen 3（這個時間發布）肯定是想搶個先機。"

在一家國產大模型開放平臺工作的劉露則透露，其所在的團隊提前不到 12 小時獲知 Qwen3 的發布消息，團隊成員連夜完成了 Qwen 3 系列模型在該平臺的部署上線。

無論如何，Qwen 3 的亮相都意味著開源 AI 大模型的技術能力再次被刷新；與之相繼的，將是產業鏈下游應用者迎來一次新的生態選擇。

「電廠」注意到，Qwen 3 發布僅 10 小時，已經有開發者發布了套殼 Qwen 3 系列模型的 ChatBot 類產品。

基于 Qwen 3 的第三方 ChatBot 類產品，圖源 / 網絡

國內首個混合推理模型，成本 / 性能超越 DeepSeek R1

根據阿里云通義千問團隊官宣，Qwen3 系列開源了 8 個模型，其中包含 2 個 MoE（混合專家）大模型和 6 個 Dense（稠密）大模型。

本次 Qwen3 系列模型尤為值得關注的創新是該模型支持思考模式、非思考模式兩種運行方式。

在思考模式下，模型會逐步推理，經過深思熟慮后給出最終答案。這種方法適合需要深入思考的復雜問題；在非思考模式中，模型會提供快速、近乎即時的響應，適用于對速度要求高于深度的簡單問題。

換句話說，Qwen3 打破了 DeepSeek R1 等思維鏈模型慢思考的單一模式，而是為用戶賦予靈活選擇的權利。這也是如今全球大模型市場發展的重要方向之一。

不同 Benchmark 下 Qwen3 兩種思考模式對比，圖源 / 阿里云通義

今年 2 月份，由部分 OpenAI 前員工創辦的 Anthropic 在全球范圍內率先發布了名為 Claude 3.7 Sonnet 的混合推理模型，被視為融合了 DeepSeek V3（適于通用任務）與 R1（適于推理任務）模型的各自優勢。

這種混合模式引起了業界的廣泛關注。OpenAI 創始人 Sam Altman 就曾表示，OpenAI 接下來將研發 " 它能夠知道什么時候應該長時間思考，并且通常適用于廣泛任務 " 的模型。而 Qwen3 是國內首個混合推理模型。

性能及成本優化方面，Qwen3 系列也表現驚人。

比如本次開源的兩個 MoE 模型，權重分別為 Qwen3-235B-A22B，是一個擁有 2350 多億總參數和 220 多億激活參數的大模型；另一個為 Qwen3-30B-A3B，一個擁有約 300 億總參數和 30 億激活參數的小型 MoE 模型。

MoE（混合專家模型）混合包含多個專家網絡，每個專家通常是一個子模型、也可以是神經網絡的一個子模塊，擁有不同的能力或專長，能夠處理不同類型的輸入數據。在運行時，不同任務會被進行分類、輸送到相應的 " 專家 " 處進行解決。

DeepSeek V3 與 R1 都屬于 MoE 模型。這種架構的優勢是其能夠，并且在解決任務時僅調動與之相應的模塊、節省計算成本。這也是 "AI 界拼多多 "DeepSeek 提升性價比的殺手锏之一。作為與 Qwen3 的對比，DeepSeek V3 與 R1 總參數規模為 6710 億參數，激活參數為 370 億。

性能方面，官方信息顯示，Qwen 旗艦模型 Qwen3-235B-A22B 在代碼、數學、通用能力等基準測試中，與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等頂級模型相比，均展現出優勢。

小型 MoE 模型 Qwen3-30B-A3B ，相比 DeepSeek V3、GPT 4o、谷歌 Gemma3-27B-1T 等模型同樣表現優異。

六個開源的 Dense 模型均適用于通用任務解決，包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B。

值得一提的是參數量極低的 Qwen3-4B 模型，也在不少任務中展現出來相比 GPT 4o 更為優異的成績。

上述模型均在 Apache 2.0 許可下開源。這是一種較為寬松的許可證，允許代碼修改和再發布（作為開源或商業軟件）。

Qwen3 模型還支持 119 種語言和方言，并優化了 Agent 和代碼能力、加強了對 MCP 的支持。

開源大模型 " 城頭變換大王旗 "

Qwen3 的發布，距離 DeepSeek R1 的亮相已過去了 3 個多月。

1 月 20 日，憑借比肩 OpenAI o1 的性能、低廉的成本，以及對大模型研發范式的改變，R1 一經發布就榮膺開源大模型世界的 " 無冕之王 " 至今。

在此期間，包含科大訊飛（星火 X1）、百度（文心 X1）、OpenAI（o3 mini）、阿里（Qwen-QwQ-32B）、字節（豆包 1.5 深度思考）在內的玩家紛紛下場推理模型，但至多是接近 R1 性能或實現部分超越，未能真正挑動后者的位置。

在大模型的世界里，數月的時間已足夠一代新王換舊王。正是這樣的背景下，關注的目光落到了 Qwen3 身上。

與許多國內玩家不同的是，早在 2024 年 8 月，阿里就公開站到了開源自研模型的大廠陣營之中。在這條最終被 DeepSeek 驗證可行的市場之路上，Qwen 可以說已經提前拿到了不少牌。

至今 Qwen 系列產品已在不少開源榜單中排名靠前。如據全球最大 AI 開源社區 Huggingface 4 月 29 日顯示，在 audio-text-to-text 任務類目下，Qwen 的兩款模型熱度居前。

Huggingface 于 2 月 10 日發布的開源大模型榜單 "Open LLM Leaderboard" 也顯示，排名前十的開源大模型全部是基于 Qwen 開源模型二次訓練的衍生模型。

圖源 /Huggingface

在生態活躍度方面，Qwen 也處于全球前列。據官方數據顯示，從 2024 年下半年開始至 2025 年 1 月底，基于 Qwen 系列的衍生模型數量超過了美國 Llama 系列，超過 9 萬個，已是全球最大的 AI 模型家族，超過了 Meta 旗下的 Llama 家族。

不過對比 Llama 系列，Qwen 系列開源模型在下載量方面與前者仍有差距。據 Meta 首席執行官 Zuck Burg 在今年 3 月份宣布，Llama 的下載量已達到 10 億次；而 Qwen 系列的下載量還在千萬級別。

在 Qwen3 發布這一天，周靖人接受了 " 晚點 " 的采訪，他講道，判斷 " 開源生態跑出來了 " 的指標主要有兩點 " 一是看開發者的選擇，二是看性能指標 "。

本次隨著 Qwen3 的發布，這款新模型通過在性能指標和成本方面超越 DeepSeek R1，以及創新的混合推理模式，登頂為全球最強大的開源大模型，又為 Qwen 增添了一張好牌。

但在這之后，還有更多的挑戰等待著它。接下來 DeepSeek R2 的亮相，也將為整個市場增添新的變數。

在貫徹 " 第一通吃（winner-takes-all）" 定律的開源市場，競爭遠未到達終局、誰能成為最終的 "winner" 還充滿未知，無論是 DeepSeek，還是 Qwen 和 Llama，都仍需要為不下牌桌而持續努力。

不過值得欣慰的是，雖然戰程未半，至少當下的開源大模型 " 桂冠 " 仍歸屬于國產玩家。

（注：文中劉露為化名）

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平臺

一起剪

ZAKER旗下免費視頻剪輯工具

熱門推薦

上海光機所EUV光刻技術獲重大突破，中國芯片生產有望不再被美國“卡脖子” 鈦媒體
2025上海車展：當智駕不再讓人興奮，汽車智能化暗戰升級鈦媒體
女愛豆扎堆拍“完蛋like”，腰部偶像的生存之道鈦媒體
安卓閉源預期下，鴻蒙真是最大贏家? 鈦媒體
新審計機構勇扯“遮羞布”，總經理一月閃辭，業績暴雷的葫蘆娃將“帶帽” 鈦媒體
長視頻平臺忘掉“長短” 鈦媒體
微信下場做抽獎，騰訊挖起自己的流量鈦媒體
哈啰單車，憑什么比公交還貴？鈦媒體
董明珠與雷軍的鋰電新戰爭鈦媒體
大眾安徽銷售公司CEO湯廷萬：智能化時代仍需“慢即是快”的堅持鈦媒體
關稅風波下，哪里是避風港？鈦媒體
互聯網公關，不是廉頗鈦媒體
藥企跨界美妝的故事，有點講不下去了鈦媒體
馬斯克想從“泥沼”脫身鈦媒體
剛扭虧就分紅，遇見小面以員工外包方式壓成本鈦媒體
4月29日A股分析：滬指震蕩微跌0.05%，市場成交額小幅縮量至1.02萬億，汽車零部件獲12億資金青睞，電力行業承壓鈦媒體
營收面臨全方位壓力，廈門銀行能否靠服務臺胞走出困局？鈦媒體
直擊第八屆數字中國建設峰會：獨立331天，螞蟻密算發布密態可信數據空間鈦媒體
特朗普發瘋，永輝渡劫鈦媒體
AI可以破解AI生成的驗證碼嗎？鈦媒體

查看更多內容

Blockchain News

日本一区二区三区久久-日本一区二区三区久久精品-日本一区二区三区日本免费-日本一区二区三区在线观看视频-国产不卡免费视频-国产不卡视频

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業展廳解決方案

元宇宙藝術展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻剪輯

AI視頻剪輯

AI智能客服

AI工具箱

AI寫稿助手

AI口語陪練

我的訂閱

搶先 DeepSeek R2，阿里通義正式發布國內首個通用推理模型

宙世代

一起剪

相關閱讀

當你的AI男友不再擦邊，MiniMax就“贏”了

蘋果iPhone 17全系機模上手：Air新機薄到極致

脫離美國監管將中國業務單獨拆分 芯片敞開賣：英偉達回應

5月發布！榮耀400、榮耀400 Pro入網：最高90W快充

1年虧損超32億無妨！臺積電美國三座晶圓廠開建：輸出更先進工藝

中信證券：全景/運動相機開創影像新需求，關注品牌龍頭及供應鏈

TikTok Shop西線有戰事

華為發布新一代融合全閃存存儲：性能領先業界20%

海南正式進入雙萬兆時代：實測下載速率破10000Mbps

今日起開領！小米全國發放45萬份城市限定黃金貼

國補價2899元起最香小屏旗艦！一加13T今日首銷

英特爾更新晶圓代工路線圖：18A制程今年量產 14A也有新進展

中興5G隨身WiFi U60 Pro體驗：重新定義移動網絡體驗

馬斯克想從“泥沼”脫身

最新評論

鈦媒體

熱門推薦

脫離美國監管將中國業務單獨拆分芯片敞開賣：英偉達回應