999热,97a**,aaaa级黄色片,亚洲最大毛片,91黄在线免费观看,日韩亚洲精品视频,91亚洲精品国产成人

美歐亞三洲開發(fā)者聯(lián)手,全球首個組團(tuán)訓(xùn)練的大模型來了,全流程開源

2024-12-04 04:49:09 635閱讀

編者按:本文來自微信公眾號 機(jī)器之心,編輯:佳琪、Panda,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

11 月 22 日,Prime Intellect 宣布通過去中心化方式訓(xùn)練完成了一個 10B 模型。30 號,他們開源了一切,包括基礎(chǔ)模型、檢查點(diǎn)、后訓(xùn)練模型、數(shù)據(jù)、PRIME 訓(xùn)練框架和技術(shù)報(bào)告。據(jù)了解,這應(yīng)該是有史以來首個以去中心化形式訓(xùn)練得到的 10B 大模型。

美歐亞三洲開發(fā)者聯(lián)手,全球首個組團(tuán)訓(xùn)練的大模型來了,全流程開源

下面我們看看它的漢語能力。從多次測試的結(jié)果來看,這個模型的漢語能力并不好,并且幻覺現(xiàn)象似乎也挺嚴(yán)重的,比如下圖中,即使該模型暫時并不具備讀取鏈接的能力,也會根據(jù)上下文強(qiáng)行作答。

美歐亞三洲開發(fā)者聯(lián)手,全球首個組團(tuán)訓(xùn)練的大模型來了,全流程開源

美歐亞三洲開發(fā)者聯(lián)手,全球首個組團(tuán)訓(xùn)練的大模型來了,全流程開源

全球 30 位貢獻(xiàn)者的基本信息

該團(tuán)隊(duì)表示:「我們在各大洲實(shí)現(xiàn)了 83% 的總體計(jì)算利用率。當(dāng)僅在分布于整個美國的節(jié)點(diǎn)上進(jìn)行訓(xùn)練時,實(shí)現(xiàn)了 96% 的計(jì)算利用率。與中心化訓(xùn)練方法相比,開銷極小。」

這樣的結(jié)果表明 INTELLECT-1 在存在嚴(yán)重的帶寬限制和節(jié)點(diǎn)波動的情況下,依然能維持訓(xùn)練收斂性和高計(jì)算利用率,這昭示了一種新的可能性:能夠以去中心化、社區(qū)驅(qū)動的方式訓(xùn)練出前沿的基礎(chǔ)模型!

一萬億 token 的訓(xùn)練過程,這里給出了訓(xùn)練過程中損失、困惑度、訓(xùn)練速度等信息

訓(xùn)練細(xì)節(jié)與數(shù)據(jù)集

INTELLECT-1 基于 Llama-3 架構(gòu),它包含:

  • 42 層,隱藏維度為 4,096

  • 32 個注意力頭

  • 序列長度為 8,192

  • 詞表大小為 128,256

模型在經(jīng)過精心篩選的 1 萬億 token 數(shù)據(jù)集上訓(xùn)練,數(shù)據(jù)構(gòu)成如下:

數(shù)據(jù)集 Huggingface 鏈接:https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu

  • 55% FineWeb-Edu

  • 20% Stack v2(Stack Overflow 等技術(shù)問答數(shù)據(jù))

  • 10% FineWeb(精選網(wǎng)頁數(shù)據(jù))

  • 10% DCLM-baseline(基準(zhǔn)通用語料)

  • 5% OpenWebMath(數(shù)學(xué)數(shù)據(jù))

模型訓(xùn)練持續(xù)了 42 天,采用了以下技術(shù):

  • 采用 WSD 動態(tài)調(diào)整學(xué)習(xí)速度,讓模型學(xué)習(xí)更高效

  • 精細(xì)調(diào)教的學(xué)習(xí)參數(shù):內(nèi)層學(xué)習(xí)率設(shè)為 7.5e-5

  • 引入特殊的損失函數(shù)(max-z-loss)來確保訓(xùn)練過程的穩(wěn)定性

  • 使用 Nesterov 動量優(yōu)化算法,幫助模型更快更好地學(xué)習(xí)

  • 支持訓(xùn)練機(jī)器的靈活接入和退出,最多可同時使用 14 臺機(jī)器協(xié)同訓(xùn)練

從訓(xùn)練過程的監(jiān)控圖表可以看出,PRIME 系統(tǒng)表現(xiàn)出色:即使參與訓(xùn)練的機(jī)器數(shù)量經(jīng)常變化(從最少 4 臺逐漸增加到最多 14 臺),整個訓(xùn)練過程依然保持穩(wěn)定,充分證明了系統(tǒng)的可靠性。

訓(xùn)練動態(tài)圖展示了整個訓(xùn)練過程中模型困惑度和學(xué)習(xí)率的變化,包括預(yù)熱階段、穩(wěn)定階段和退火階段。

Prime:一個去中心化訓(xùn)練框架

該團(tuán)隊(duì)使用的訓(xùn)練框架名為 Prime,這基于他們開發(fā)的 OpenDiLoCo。而 OpenDiLoCo 又基于 DeepMind 之前開發(fā)的 Distributed Low-Communication(DiLoCo)方法。

項(xiàng)目地址:https://github.com/PrimeIntellect-ai/OpenDiLoCo

在此之前,Prime Intellect 已經(jīng)在 1B 參數(shù)規(guī)模上實(shí)驗(yàn)了去中心化 AI 模型訓(xùn)練。該團(tuán)隊(duì)表示:「這讓我們到達(dá)了我們的 masterplan 的第三步:合作訓(xùn)練用于語言、智能體和科學(xué)的開放式基礎(chǔ)模型?!?/p>

Prime Intellect 的 masterplan

相比于之前開源的 OpenDiLoCo,Prime 有兩大關(guān)鍵提升。

一是在算法方面,他們在 OpenDiLoCo 上執(zhí)行了許多消融研究,發(fā)現(xiàn)還能進(jìn)一步降低通信要求。值得注意的是,他們將偽梯度的 int8 量化與每 500 步進(jìn)行一次的外部優(yōu)化器同步相結(jié)合,從而將帶寬要求降低了多達(dá) 2000 倍。這些結(jié)果不僅在較小規(guī)模下是有效的,該團(tuán)隊(duì)也將它們擴(kuò)展到了更大的模型。

在具體的大規(guī)模擴(kuò)展方面,我們知道,去中心化訓(xùn)練既是工程挑戰(zhàn),也是研究挑戰(zhàn)。當(dāng)今最大的 AI 實(shí)驗(yàn)室也還沒有徹底解決在多個分布式數(shù)據(jù)中心上的容錯訓(xùn)練。該團(tuán)隊(duì)表示,Prime 這種全新的去中心化訓(xùn)練框架支持容錯訓(xùn)練,支持計(jì)算資源的動態(tài)開啟/關(guān)閉,還能優(yōu)化全球分布式 GPU 網(wǎng)絡(luò)中的通信和路由。

Prime 中用于容錯訓(xùn)練的 ElasticDeviceMesh 的拓?fù)浣Y(jié)構(gòu)

該團(tuán)隊(duì)在博客中寫道:「該框架構(gòu)成了我們開源技術(shù)堆棧的基礎(chǔ),其目標(biāo)是支持我們自己的算法以及 OpenDiLoCo 之外的其他去中心化訓(xùn)練算法。通過在此基礎(chǔ)架構(gòu)上構(gòu)建,我們的目標(biāo)是突破全球分布式 AI 訓(xùn)練的極限?!?/p>

具體來說,Prime 框架包含以下關(guān)鍵特性:

  • 用于容錯訓(xùn)練的 ElasticDeviceMesh

  • 異步分布式檢查點(diǎn)

  • 實(shí)時檢查點(diǎn)恢復(fù)

  • 自定義 Int8 All-Reduce 內(nèi)核

  • 最大化帶寬利用率

  • PyTorch FSDP2 / DTensor ZeRO-3 實(shí)現(xiàn)

  • CPU 卸載

計(jì)算效率

雖然訓(xùn)練散作滿天星,但計(jì)算效率仍保持「聚是一團(tuán)火」的高水準(zhǔn):在美國境內(nèi)集群部署時,計(jì)算資源利用率高達(dá) 96%(中位數(shù)同步延遲僅 103s);跨越大西洋的部署場景下依然維持在 85.6% 的優(yōu)異水平(中位數(shù)同步延遲 382s);即便是在全球分布式節(jié)點(diǎn)配置下,計(jì)算利用率也能穩(wěn)定保持在 83%(中位數(shù)同步延遲 469s)。

這一系列亮眼的數(shù)據(jù)充分證明了該去中心化訓(xùn)練框架的容錯性和擴(kuò)展性,不僅能夠從容應(yīng)對不同地理位置的網(wǎng)絡(luò)延遲挑戰(zhàn),更在確保訓(xùn)練穩(wěn)定性的同時實(shí)現(xiàn)了高效計(jì)算。

后訓(xùn)練

在完成分布在全球的預(yù)訓(xùn)練階段后,Prime Intellect 與 Arcee AI 合作開展了一系列后訓(xùn)練,以提升 INTELLECT-1 的整體能力和特定任務(wù)表現(xiàn)。主要包含三個階段:

  • SFT(監(jiān)督微調(diào),16 輪)

  • DPO(直接偏好優(yōu)化,8 輪)

  • 使用 MergeKit 整合訓(xùn)練成果

更多信息請查看詳細(xì)技術(shù)報(bào)告:

論文鏈接:https://github.com/PrimeIntellect-ai/prime/blob/main/INTELLECT_1_Technical_Report.pdf

未來計(jì)劃:長期目標(biāo)是 AGI

INTELLECT-1 的成功讓我們看到了去中心化訓(xùn)練的巨大潛力。至于如何將開源的 PRIME 框架擴(kuò)展到目前動輒 70B 的規(guī)模呢?Prime Intellect 提了三點(diǎn)規(guī)劃:

  • 繼續(xù)擴(kuò)大全球計(jì)算網(wǎng)絡(luò)

  • 用更多獎金激勵推動社區(qū)參與

  • 進(jìn)一步優(yōu)化 PRIME 去中心化訓(xùn)練架構(gòu)以支持更大的模型

在博客結(jié)尾,Prime Intellect 寫道:「為了防止 AI 能力被少數(shù)組織壟斷,我們誠邀全球 AI 社區(qū)通過 GitHub 或 Discord 加入我們。讓我們攜手共建一個更開放、更具協(xié)作性的 AI 發(fā)展未來?!?/p>

參考鏈接:

https://www.primeintellect.ai/blog/intellect-1-release

https://app.primeintellect.ai/intelligence

https://www.primeintellect.ai/blog/intellect-1

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點(diǎn),不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。

文章版權(quán)聲明:除非注明,否則均為mk體育-在線官網(wǎng)直播平臺原創(chuàng)文章,轉(zhuǎn)載或復(fù)制請以超鏈接形式并注明出處。

目錄[+]