IT 之家 4 月 30 日消息,小米大模型團隊通過 "Xiaomi MiMo" 公眾號宣布,今天,小米開源首個 " 為推理而生 " 的大模型 Xiaomi MiMo,聯動預訓練到后訓練,全面提升推理能力。據介紹,MiMo 是來自全新成立不久的 " 小米大模型 Core 團隊 " 的初步嘗試。
在數學推理(AIME 24-25)和代碼競賽(LiveCodeBench v5)公開測評集上,MiMo 僅用 7B 的參數規模,超越了 OpenAI 的閉源推理模型 o1-mini 和阿里 Qwen 更大規模的開源推理模型 QwQ-32B-Preview。
預訓練:核心是讓模型見過更多推理模式
數據:著重挖掘富推理語料,并合成約 200B tokens 推理數據。
訓練:進行了三階段訓練,逐步提升訓練難度,總訓練 25T tokens。
算法:提出 Test Difficulty Driven Reward 來緩解困難算法問題中的獎勵稀疏問題,并引入 Easy Data Re-Sampling 策略,以穩定 RL 訓練。
框架:設計了 Seamless Rollout 系統,使得 RL 訓練加速 2.29 倍,驗證加速 1.96 倍。
Hugging Face:https://huggingface.co/XiaomiMiMo
技術報告:https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf