9月26日?qǐng)?bào)道,螞蟻百靈團(tuán)隊(duì)近日正式開源兩款全新混合線性推理模型——Ring-mini-linear-2.0與Ring-flash-linear-2.0。相比前代,這一輪升級(jí)在延續(xù)高稀疏MoE結(jié)構(gòu)的基礎(chǔ)上,引入了混合線性注意力(Linear Attention)機(jī)制,專為長(zhǎng)文本、低成本推理等場(chǎng)景提效而設(shè)計(jì)。
眼下,大模型開始真正走進(jìn)應(yīng)用場(chǎng)景,推理成本卻成了橫在企業(yè)面前的一道坎。一邊是用戶希望更快、更久地交互,另一邊卻是又貴又慢的模型部署現(xiàn)實(shí)。在不犧牲效果的前提下降本提效,已經(jīng)成了各家模型團(tuán)隊(duì)繞不開的問(wèn)題。
據(jù)螞蟻團(tuán)隊(duì)的實(shí)測(cè)數(shù)據(jù),在保持SOTA精度的前提下,本輪開源的Ring-linear系列模型最大上下文長(zhǎng)度512k,將推理成本壓縮至dense模型的1/10,相比原有Ring模型推理成本降低50%以上,并且在高并發(fā)解碼任務(wù)中吞吐量可達(dá)Qwen3-8B的12倍、Qwen3-32B的10倍以上。
此外,螞蟻團(tuán)隊(duì)還引入了精細(xì)化的推理優(yōu)化融合算子、RL訓(xùn)練對(duì)齊機(jī)制等系統(tǒng)級(jí)工具,直指當(dāng)前推理成本與訓(xùn)練穩(wěn)定性的關(guān)鍵瓶頸。
除了推理效率的顯著提升,Ring-linear系列模型在多項(xiàng)標(biāo)準(zhǔn)評(píng)測(cè)中的表現(xiàn)也不容忽視,尤其在數(shù)學(xué)推理、結(jié)構(gòu)代碼生成、通用語(yǔ)言理解與寫作任務(wù)中,展現(xiàn)出與主流大模型相比具有競(jìng)爭(zhēng)力的準(zhǔn)確率。實(shí)測(cè)結(jié)果包括:
Ring-mini-linear-2.0: