更多精彩 >

昆侖萬(wàn)維開源2千億稀疏大模型天工MoE,全球首創(chuàng)能用4090推理

2024-06-03 20:14:23   來(lái)源:同花順財(cái)經(jīng)  作者: 

摘要:2024年6月3日,昆侖萬(wàn)維宣布開源2千億稀疏大模型Skywork-MoE,性能強(qiáng)勁,同時(shí)推理成本更低。Skywork-MoE基于之前昆侖萬(wàn)維開源的Skywork-13B模型中間checkpoint擴(kuò)展而來(lái),是首個(gè)完整將MoEUpcycling技術(shù)應(yīng)用并落地的開源千億MoE大模型,也是首個(gè)支持用單臺(tái)4090服務(wù)器推理的開源千億MoE大模型。

image.png

2024年6月3日,昆侖萬(wàn)維宣布開源 2 千億稀疏大模型 Skywork-MoE , 性能強(qiáng)勁, 同時(shí)推理成本更低。Skywork-MoE 基于之前昆侖萬(wàn)維開源的 Skywork-13B 模型中間 checkpoint 擴(kuò)展而來(lái),是首個(gè)完整將 MoE Upcycling 技術(shù)應(yīng)用并落地的開源千億 MoE大模型,也是首個(gè)支持用單臺(tái) 4090 服務(wù)器推理的開源千億 MoE大模型。

 

開源地址:

Skywork-MoE 的模型權(quán)重、技術(shù)報(bào)告完全開源,免費(fèi)商用,無(wú)需申請(qǐng):

模型權(quán)重下載:

? https://huggingface.co/Skywork/Skywork-MoE-base

? https://huggingface.co/Skywork/Skywork-MoE-Base-FP8

模型開源倉(cāng)庫(kù):https://github.com/SkyworkAI/Skywork-MoE

模型技術(shù)報(bào)告:https://github.com/SkyworkAI/Skywork-MoE/blob/main/skywork-moe-tech-report.pdf

模型推理代碼:(支持 8x4090 服務(wù)器上 8 bit 量化加載推理) https://github.com/SkyworkAI/vllm

 

模型架構(gòu):

本次開源的 Skywork-MoE 模型隸屬于天工 3.0 的研發(fā)模型系列,是其中的中檔大小模型(Skywork-MoE-Medium),模型的總參數(shù)量為 146B,激活參數(shù)量 22B,共有 16 個(gè) Expert,每個(gè) Expert 大小為 13B,每次激活其中的 2 個(gè) Expert。

天工 3.0 還訓(xùn)練了 75B (Skywork-MoE-Small) 和 400B (Skywork-MoE-Large)兩檔 MoE 模型,并不在此次開源之列。

 

模型能力:

我們基于目前各大主流模型評(píng)測(cè)榜單評(píng)測(cè)了 Skywork-MoE,在相同的激活參數(shù)量 20B(推理計(jì)算量)下,Skywork-MoE 能力在行業(yè)前列,接近 70B 的 Dense 模型。使得模型的推理成本有近 3 倍的下降。同時(shí) Skywork-MoE 的總參數(shù)大小比 DeepSeekV2 的總參數(shù)大小要小 1/3,用更小的參數(shù)規(guī)模做到了相近的能力。

image.png

 

技術(shù)創(chuàng)新:

為了解決 MoE 模型訓(xùn)練困難,泛化性能差的問題,相較于 Mixtral-MoE, Skywork-MoE 設(shè)計(jì)了兩種訓(xùn)練優(yōu)化算法:

1. Gating Logits 歸一化操作

我們?cè)?Gating Layer 的 token 分發(fā)邏輯處新增了一個(gè) normalization 操作,使得 Gating Layer 的參數(shù)學(xué)習(xí)更加趨向于被選中的 top-2 experts,增加 MoE 模型對(duì)于 top-2 的置信度:

image.png

 

2. 自適應(yīng)的 Aux Loss

有別于傳統(tǒng)的固定系數(shù)(固定超參)的 aux loss, 我們?cè)?MoE 訓(xùn)練的不同階段讓模型自適應(yīng)的選擇合適的 aux loss 超參系數(shù),從而讓 Drop Token Rate 保持在合適的區(qū)間內(nèi),既能做到 expert 分發(fā)的平衡,又能讓 expert 學(xué)習(xí)具備差異化,從而提升模型整體的性能和泛化水平。在 MoE 訓(xùn)練的前期,由于參數(shù)學(xué)習(xí)不到位,導(dǎo)致 Drop Token Rate 太高(token 分布差異太大),此時(shí)需要較大的 aux loss 幫助 token load balance;在 MoE 訓(xùn)練的后期,我們希望 Expert 之間仍保證一定的區(qū)分度,避免 Gating 傾向?yàn)殡S機(jī)分發(fā) Token,因此需要較低的 aux loss 降低糾偏。

image.png

 

訓(xùn)練 Infra

如何對(duì) MoE 模型高效的進(jìn)行大規(guī)模分布式訓(xùn)練是一個(gè)有難度的挑戰(zhàn),目前社區(qū)還沒有一個(gè)最佳實(shí)踐。Skywork-MoE 提出了兩個(gè)重要的并行優(yōu)化設(shè)計(jì),從而在千卡集群上實(shí)現(xiàn)了 MFU 38% 的訓(xùn)練吞吐,其中 MFU 以 22B 的激活參數(shù)計(jì)算理論計(jì)算量。

1. Expert Data Parallel

區(qū)別于 Megatron-LM 社區(qū)已有的 EP(Expert Parallel)和 ETP(Expert Tensor Parallel)設(shè)計(jì),我們提出了一種稱之為 Expert Data Parallel 的并行設(shè)計(jì)方案,這種并行方案可以在 Expert 數(shù)量較小時(shí)仍能高效的切分模型,對(duì) Expert 引入的 all2all 通信也可以最大程度的優(yōu)化和掩蓋。相較于 EP 對(duì) GPU 數(shù)量的限制和 ETP 在千卡集群上的低效, EDP 可以較好的解決大規(guī)模分布式訓(xùn)練 MoE 的并行痛點(diǎn),同時(shí) EDP 的設(shè)計(jì)簡(jiǎn)單、魯棒、易擴(kuò)展,可以較快的實(shí)現(xiàn)和驗(yàn)證。

image.png

 

一個(gè)最簡(jiǎn)單的 EDP 的例子,兩卡情況下 TP = 2, EP = 2, 其中 Attention 部分采用 Tensor Parallel , Expert 部分采用 Expert Parallel

 

2. 非均勻切分流水并行

由于 first stage 的 Embedding 計(jì)算和 last stage 的 Loss 計(jì)算,以及 Pipeline Buffer 的存在, 流水并行下均勻切分 Layer 時(shí)的各 stage 計(jì)算負(fù)載和顯存負(fù)載均有較明顯的不均衡情況。我們提出了非均勻的流水并行切分和重計(jì)算 Layer 分配方式,使得總體的計(jì)算/顯存負(fù)載更均衡,約有 10% 左右的端到端訓(xùn)練吞吐提升。

image.png

 

比較均勻切分和非均勻切分下的流水并行氣泡:對(duì)于一個(gè) 24 層 Layer 的 LLM, (a) 是均勻切分成 4 個(gè) stage,每個(gè) stage  的 layer 數(shù)量是:[6, 6, 6, 6].(b) 是經(jīng)過(guò)優(yōu)化后的非均勻切分方式,切成 5 個(gè) stage, 每個(gè) stage 的 layer 數(shù)量是:[5, 5, 5, 5, 4] , 在中間流水打滿的階段,非均勻切分的氣泡更低。

 

MoE Know-how

此外,Skywork-MoE 還通過(guò)一系列基于 Scaling Laws 的實(shí)驗(yàn),探究哪些約束會(huì)影響 Upcycling 和 From Scratch 訓(xùn)練 MoE 模型的好壞。

image.png

 

一個(gè)可以遵循的經(jīng)驗(yàn)規(guī)則是:如果訓(xùn)練 MoE 模型的 FLOPs 是訓(xùn)練 Dense 模型的 2 倍以上,那么選擇 from Scratch 訓(xùn)練 MoE 會(huì)更好,否則的話,選擇 Upcycling 訓(xùn)練 MoE 可以明顯減少訓(xùn)練成本。

 

4090 推理

Skywork-MoE 是目前能在 8x4090 服務(wù)器上推理的最大的開源 MoE 模型。8x4090 服務(wù)器一共有 192GB 的 GPU 顯存,在 FP8 量化下(weight 占用 146GB),使用我們首創(chuàng)的非均勻 Tensor Parallel 并行推理方式,Skywork-MoE 可以在合適的 batch size 內(nèi)達(dá)到 2200 tokens/s 的吞吐。天工團(tuán)隊(duì)完整開源了相關(guān)的推理框架代碼和安裝環(huán)境,詳情參見:https://github.com/SkyworkAI/Skywork-MoE

 

結(jié)語(yǔ)

我們希望本次開源的 Skywork-MoE 模型、技術(shù)報(bào)告和相關(guān)的實(shí)驗(yàn)結(jié)果可以給開源社區(qū)貢獻(xiàn)更多的 MoE 訓(xùn)練經(jīng)驗(yàn)和 Know-how,包括模型結(jié)構(gòu)、超參選擇、訓(xùn)練技巧、訓(xùn)練推理加速等各方面, 探索用更低的訓(xùn)練推理成本訓(xùn)更大更強(qiáng)的模型,在通往 AGI 的道路上貢獻(xiàn)一點(diǎn)力量。


猜你喜歡

正式發(fā)布——同步開源4000億參數(shù)MoE超級(jí)模型,性能超Grok1.0

昆侖萬(wàn)維

在即將到來(lái)的2024年4月17日,在「天工」大模型一周年之際,昆侖萬(wàn)維重磅宣布,「天工3.0」正式開...

2024-04-01

原創(chuàng)

昆侖萬(wàn)維換帥完成工商變更

昆侖萬(wàn)維

【#昆侖萬(wàn)維換帥完成工商變更# #昆侖萬(wàn)維法定代表人變更#】

2023-11-02

昆侖萬(wàn)維重磅發(fā)布AIGC全系列算法與模型,領(lǐng)跑未來(lái)

昆侖萬(wàn)維

2022年12月15日,昆侖萬(wàn)維在北京舉行AIGC技術(shù)發(fā)布會(huì),會(huì)上昆侖萬(wàn)維CEO方漢正式發(fā)布了「昆侖...

2022-12-15

福建海帆科技有限公司完成種子輪融資,助力音頻設(shè)備行業(yè)創(chuàng)新發(fā)展

海帆科技有限公司

福州市泛音科技有限公司(以下簡(jiǎn)稱“泛音科技”)近日宣布,將向福建海帆科技有限公司(以下簡(jiǎn)稱“海帆科技...

2024-06-06

通用技術(shù)環(huán)球醫(yī)療首單境外ESG銀團(tuán)貸款和境外ESG雙邊貸款成功落地

通用技術(shù)環(huán)球醫(yī)療

近日,通用技術(shù)環(huán)球醫(yī)療可持續(xù)發(fā)展掛鉤(以下簡(jiǎn)稱ESG)兩筆境外貸款榮獲業(yè)界大獎(jiǎng)和權(quán)威機(jī)構(gòu)認(rèn)證,同時(shí)實(shí)...

2024-06-06

外聯(lián)出國(guó):審核長(zhǎng)達(dá)18個(gè)月!希臘黃金簽證要趕不上了?

外聯(lián)出國(guó)

想要趕在9月1日漲價(jià)前辦理希臘黃金簽證的人,實(shí)在是太多了!外聯(lián)出國(guó)希臘移民事務(wù)負(fù)責(zé)人透露,原本1個(gè)月...

2024-06-06

“毀滅式”暴跌,北大富豪“爆倉(cāng)”、“跑路”了?

中公教育的20多萬(wàn)股東,也在股價(jià)“毀滅式”下跌中,承受了巨大損失和精神煎熬。

2024-06-06

上海鈷歷科技中心獲得A輪融資,助力文化產(chǎn)業(yè)新發(fā)展

上海鈷歷科技中心

上海鈷歷科技中心,一家在文化產(chǎn)業(yè)與科技創(chuàng)新領(lǐng)域嶄露頭角的公司,近日成功獲得阿根廷布宜諾斯艾利斯投資交...

2024-06-06

探索新視界,揭密行業(yè)新動(dòng)向! CPT Markets迪拜金融研討會(huì)成功收官!

CPT Markets

深度對(duì)話是智能的掘金之旅,每次交流是寶貴經(jīng)驗(yàn)的流傳。

2024-06-06

關(guān)愛戶外工作者,叮當(dāng)健康攜手太極集團(tuán)啟動(dòng)防暑愛心活動(dòng)

叮當(dāng)健康

炎炎夏日,為了保障市民正常生活和城市正常運(yùn)轉(zhuǎn),許多戶外工作者,如外賣小哥、環(huán)衛(wèi)工人、公交出租車司機(jī)、...

2024-06-06

原創(chuàng)

智度股份:公司積極優(yōu)化業(yè)務(wù)結(jié)構(gòu),聚焦核心品牌客戶和優(yōu)質(zhì)客戶,不斷深度挖掘需求潛能

智度股份

公司積極優(yōu)化業(yè)務(wù)結(jié)構(gòu),聚焦核心品牌客戶和優(yōu)質(zhì)客戶,不斷深度挖掘需求潛能

2024-06-06

原創(chuàng)

智度股份:公司為鯨鴻動(dòng)能在海外廣告代理業(yè)務(wù)的廣告代理商

智度股份

近日有投資者在互動(dòng)平臺(tái)向智度股份(000676.SZ)提問:請(qǐng)問貴公司有沒有出海業(yè)務(wù) 在國(guó)外有沒有業(yè)...

2024-06-06

投資家網(wǎng)(www.jubohaotong.com)是國(guó)內(nèi)領(lǐng)先的資本與產(chǎn)業(yè)創(chuàng)新綜合服務(wù)平臺(tái)。為活躍于中國(guó)市場(chǎng)的VC/PE、上市公司、創(chuàng)業(yè)企業(yè)、地方政府等提供專業(yè)的第三方信息服務(wù),包括行業(yè)媒體、智庫(kù)服務(wù)、會(huì)議服務(wù)及生態(tài)服務(wù)。長(zhǎng)按右側(cè)二維碼添加"投資哥"可與小編深入交流,并可加入微信群參與官方活動(dòng),趕快行動(dòng)吧。

沙特天空塔投資設(shè)立專項(xiàng)基金帶領(lǐng)中國(guó)氫能獨(dú)角獸扎根沙特

2016年注冊(cè)于北京的中氫新能技術(shù)有限公司,下設(shè)位于大興的裝備制造公司、位于海淀區(qū)的技術(shù)研究院、材料...

挑戰(zhàn)奔馳的明星車企,突然“翻車”了

一度無(wú)比高光的理想汽車,猝不及防遭遇重挫。

深圳天使母基金姚小雄:將來(lái)股權(quán)投資行業(yè)競(jìng)爭(zhēng)是服務(wù)能力的競(jìng)爭(zhēng)

2024年1月10日,由投資家網(wǎng)主辦,財(cái)經(jīng)銳眼、有時(shí)間協(xié)辦,北京微金科技有限公司承辦的“第十二屆股權(quán)...

避免卡脖子,硬科技如何“逆境”突圍?

2024年1月10日,由投資家網(wǎng)主辦,財(cái)經(jīng)銳眼、有時(shí)間協(xié)辦,北京微金科技有限公司承辦的“第十二屆股權(quán)...

VC/PE眼中的“專精特新”

2024年1月10日,由投資家網(wǎng)主辦,財(cái)經(jīng)銳眼、有時(shí)間協(xié)辦,北京微金科技有限公司承辦的“第十二屆股權(quán)...

不響不輟|第18屆中國(guó)投資年會(huì)·年度峰會(huì)在滬召開

不響不輟|第18屆中國(guó)投資年會(huì)·年度峰會(huì)在滬召開

5月8-10日,由投中信息、投中網(wǎng)主辦的“第18屆中國(guó)投資年會(huì)·年度峰會(huì)”在上海外灘W酒店盛大召開。

2024汽車科技創(chuàng)新與成果轉(zhuǎn)化大會(huì)在常州成功召開

2024汽車科技創(chuàng)新與成果轉(zhuǎn)化大會(huì)在常州成功召開

4月12日,2024汽車科技創(chuàng)新與成果轉(zhuǎn)化大會(huì)在常州經(jīng)開區(qū)成功召開。

不響不輟 | 第18屆中國(guó)投資年會(huì)·年度峰會(huì)即將啟幕

不響不輟 | 第18屆中國(guó)投資年會(huì)·年度峰會(huì)即將啟幕

2024年5月8-10日,由投中信息、投中網(wǎng)主辦,以“不響不輟”為主題的第18屆中國(guó)投資年會(huì)·年度峰...

投資家網(wǎng)協(xié)辦:首屆深圳灣資本市場(chǎng)年會(huì)隆重舉行

投資家網(wǎng)協(xié)辦:首屆深圳灣資本市場(chǎng)年會(huì)隆重舉行

12月20日,由南山區(qū)資本市場(chǎng)協(xié)會(huì)主辦,投資家網(wǎng)、桐鵬匯財(cái)金高管俱樂部協(xié)辦的資本巿場(chǎng)年會(huì)隨即舉行。

“投資家網(wǎng)·2023中國(guó)價(jià)值企業(yè)榜”重磅發(fā)布

“投資家網(wǎng)·2023中國(guó)價(jià)值企業(yè)榜”重磅發(fā)布

身處百年未有之大變局,中國(guó)經(jīng)濟(jì)這艘萬(wàn)噸巨輪,早已屹立于世界舞臺(tái)中央。