亚洲天堂h,国产精品无码久久综合网,美国三级毛片

智東西

編譯 | 李水青

編輯 | 心緣

智東西 6 月 16 日消息，今天，AI 云服務商 Hyperbolic 的聯合創始人兼 CTO Yuchen Jin 在社交平臺 X 上曝料：研究員 Keller Jordan 僅憑一篇博客文章就加入了 OpenAI，并可能正用博客提及的神經網絡隱藏層的優化器 Muon 訓練 GPT-5。

" 許多博士（包括以前的我）都陷入了這樣一個誤區：認為在頂級會議上發表論文才是最終目標。但發表論文 ≠ 影響力。Muon 只作為一篇博客文章發布，它讓 Keller 加入了 OpenAI，他現在可能正在用它訓練 GPT-5。"Yuchen Jin 說。

Yuchen Jin 的 X 推文及 Yuchen Jin 的自述

Yuchen Jin 提及的這篇博客發布于 2024 年 12 月，題為《Muon：神經網絡隱藏層的優化器（Muon: An optimizer for hidden layers in neural networks）》。

博客地址：

https://kellerjordan.github.io/posts/muon/

從職場社交平臺領英可知，Keller Jordan 正是在 2024 年 12 月加入 OpenAI，由此我們也可以推測他正是憑去年 12 月發布的一篇博客，成功進入了如日中天的頭部大模型企業。

這篇博客厲害在那兒？Muon 憑什么成為 OpenAI 的敲門磚？讓我們從這篇博客文章內容說起。

一、Muon 定義：一個神經網絡隱藏層的優化器

Muon 是神經網絡隱藏層的優化器。它被用于 NanoGPT 和 CIFAR-10 的快速運行，刷新了當時訓練速度的記錄。

Keller Jordan 的博客文章主要關注 Muon 的設計。首先他定義了 Muon 并概述其在當時已取得的實證結果；然后他詳細討論了 Muon 的設計，包括與先前研究的聯系以及對其工作原理的最佳理解；最后他討論了優化研究中的證據標準。

具體來說，Muon 是一個針對神經網絡隱藏層二維參數的優化器，其定義如下：

其中 "NewtonSchulz5" 定義為以下 Newton-Schulz 矩陣迭代：

使用 Muon 訓練神經網絡時，應使用 AdamW 等標準方法優化網絡的標量和矢量參數以及輸入層和輸出層。Muon 可用于四維卷積參數，方法是將其最后三個維度展平。

Muon 取得了以下實證成果：

1、將 CIFAR-10 上的訓練速度記錄提高到 94% 準確率，從 3.3 秒提高到 2.6 秒。

2、將 FineWeb（一項稱為 NanoGPT 快速運行的競賽任務）上的訓練速度記錄提高至 3.28 val loss，提高了 1.35 倍。

3、在擴展到 774M 和 1.5B 參數的同時，繼續顯示訓練速度的提升。

4、在 HellaSwag 上用 10 個 8xH100 小時訓練了一個 1.5B 參數轉換器，使其達到 GPT-2 XL 級別的性能。使用 AdamW 達到相同結果則需要 13.3 小時。

以下是針對 NanoGPT 快速運行的不同強力優化器的比較：

按樣本效率比較優化器（可復現日志：

https://github.com/KellerJordan/modded-nanogpt/tree/master/records/102924_Optimizers）

按掛鐘時間比較優化器

此外，以下是 Muon 和 AdamW 在訓練 15 億參數語言模型時的對比。兩個優化器均已進行調整。

Muon 與 AdamW 在 15 億參數短時間訓練中的對比（可復現日志：

https://github.com/KellerJordan/modded-nanogpt/tree/master/records/102024_ScaleUp1B）

二、Muon 設計：牛頓 - 舒爾茨迭代法作為后處理步驟

Muon 通過采用 SGD-momentum 生成的更新來優化二維神經網絡參數，然后在將它們應用于參數之前，對每個更新應用 Newton-Schulz （牛頓 - 舒爾茨迭代法，簡稱 NS）迭代作為后處理步驟。

NS 迭代的作用是使更新矩陣近似正交化，即應用下列操作：

換句話說，NS 迭代實際上用最接近的半正交矩陣替換了 SGD-momentum 的更新矩陣。

為什么正交化更新可行？出于實證研究的動機，作者基于人工檢驗觀察到，SGD-momentum 和 Adam 對基于 Transformer 的神經網絡中的二維參數產生的更新通常具有非常高的條件數。也就是說，它們幾乎是低秩矩陣，所有神經元的更新僅由少數幾個方向主導。

作者推測，正交化有效地增加了其他 " 稀有方向 " 的規模，這些方向在更新中幅度較小，但對學習仍然很重要。

除了 NS 迭代之外，還有其他幾種方法可以對矩陣進行正交化。但作者沒有使用其中兩種方法，他是如何排除的？

一個是 SVD 方法，它太慢了，所以作者沒有使用它。另一個是 Coupled Newton iteration （耦合牛頓迭代法），它必須至少以 float32 精度運行才能避免數值不穩定，這導致它在現代 GPU 上運行速度較慢，所以作者也沒有采用。

相比之下，作者發現 NS 可以在 bfloat16 中穩定運行，因此選擇它們作為正交化更新的首選方法。

在 Keller Jordan 的實驗中，當使用具有調整系數的 Muon 來訓練 Transformer 語言模型和小型卷積網絡時，只需運行 5 步 NS 迭代就足夠了。

此外，Keller Jordan 還分析了 Muon 的運行時間和內存要求。對于典型的語言訓練場景，無論規模大小，Muon 的 FLOP 開銷都低于 1%。

三、Muon 實證考慮：批判糟糕的基線，提出新方法

根據設計，Muon 僅適用于二維參數，以及通過展平的卷積濾波器，因此網絡中其余的標量和矢量參數必須使用標準方法（例如 AdamW）進行優化。

根據經驗，Keller Jordan 發現使用 AdamW 優化輸入和輸出參數也很重要，即使這些參數通常是二維的。具體來說，在訓練 Transformer 時，應該將 AdamW 用于嵌入層和最終分類器頭層，以獲得最佳性能。嵌入層的優化動態應該與其他層不同，這遵循模塊化范數理論。輸出層的這種動態也不同，這似乎并非來自理論，而是由經驗驅動的。

另一個純經驗性的結果是，在他們測試的所有案例中，使用 Nesterov 式動量對 Muon 的效果都比普通的 SGD 動量略好。因此，他們在公開的 Muon 實現中將其設為默認設置。

第三個結果是，如果將 Muon 分別應用于變壓器的 Q、K、V 參數，而不是一起應用于變壓器，則 Muon 可以更好地優化變壓器，因為對于將 QKV 參數化為輸出被分割的單個線性層的變壓器實現，默認做法是將它們一起應用。

Keller Jordan 認為，神經網絡優化研究文獻目前大多充斥著一堆已死的優化器，它們聲稱能夠擊敗 AdamW，而且往往以巨大的優勢獲勝，但卻從未被社區采用。鑒于業界在神經網絡訓練上投入了數十億美元，并渴望降低成本，他們可以推斷，問題出在研究界，而非潛在的采用者。

Keller Jordan 犀利地提出：這項研究出了問題。仔細研究每篇論文后，他們發現最常見的罪魁禍首是糟糕的基線：論文在將其與新提出的優化器進行比較之前，往往沒有充分調整 AdamW 基線。

發表聲稱有巨大改進但無法復制 / 達到宣傳效果的新方法，浪費了大量個人研究人員和小型實驗室的時間、金錢和士氣，他們每天都在為復制和構建此類方法的失敗而感到失望。

為了糾正這種情況，Keller Jordan 建議采用以下證據標準：研究界應該要求，只要有可能，神經網絡訓練的新方法就應該在競爭性訓練任務中取得成功。

競爭性任務通過兩種方式解決了基線欠調問題。首先，競爭性任務的基線是先前的記錄，如果該任務很受歡迎，則很可能已經經過了良好的調整。其次，即使在先前記錄未經過良好調整的不太可能發生的情況下，也可以通過新的記錄進行自我修正，將訓練恢復到標準方法。

結語：全新優化器或成為 GPT-5 中的重要技術

通過定義、拆解設計及實證研究，Keller Jordan 發現了 Muon 神經網絡隱藏層的優化器具備優于 AdamW 的效率。通過最新曝料可知，這一技術很有可能成為 OpenAI 正在研究的 GPT-5 的重要部分。

Keller Jordan 也提出了一些尚未解決的問題。包括：Muon 可以擴展到更大規模的訓練嗎？是否有可能在大型 GPU 集群中正確分布 Muon 使用的 Newton-Schulz 迭代？Muon 是否僅適用于預訓練，而不適用于微調或強化學習工作負載？或許在 GPT-5 的研究中，作者已經知道了這些問題的答案。

日本一区二区三区久久-日本一区二区三区久久精品-日本一区二区三区日本免费-日本一区二区三区在线观看视频-国产不卡免费视频-国产不卡视频

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業展廳解決方案

元宇宙藝術展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻剪輯

AI視頻剪輯

AI智能客服

AI工具箱

AI寫稿助手

AI口語陪練

我的訂閱

GPT-5 訓練背后隱藏大佬：靠一篇博客入職 OpenAI

宙世代

一起剪

相關閱讀

5000預算RTX5060游戲本抱回家機械革命蛟龍16Pro評測

最新評論

智東西

熱門推薦

熱門訂閱換一批

董秘學苑

騎鯨出海

日本一区二区三区久久-日本一区二区三区久久精品-日本一区二区三区日本免费-日本一区二区三区在线观看视频-国产不卡免费视频-国产不卡视频

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業展廳解決方案

元宇宙藝術展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻剪輯

AI視頻剪輯

AI智能客服

AI工具箱

AI寫稿助手

AI口語陪練

我的訂閱

GPT-5 訓練背后隱藏大佬：靠一篇博客入職 OpenAI

宙世代

一起剪

相關閱讀

5000預算RTX5060游戲本抱回家 機械革命蛟龍16Pro評測

最新評論

智東西

熱門推薦

熱門訂閱 換一批

董秘學苑

騎鯨出海

5000預算RTX5060游戲本抱回家機械革命蛟龍16Pro評測

熱門訂閱換一批