999热,97a**,aaaa级黄色片,亚洲最大毛片,91黄在线免费观看,日韩亚洲精品视频,91亚洲精品国产成人

第一個被人類騙錢的AI傻了,近5萬美元不翼而飛!Scaling Law還能帶我們到AGI嗎?

2024-12-02 03:03:55 1039閱讀

編者按:本文來自微信公眾號 新智元(ID:AI_era),編輯:Aeneas 好困,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

活久見!就在剛剛,全世界第一個被人類騙走了近5萬美金的AI誕生了。

見慣了太多被AI耍得團團轉(zhuǎn)的人類,這次成功騙過AI的小哥,終于給我們?nèi)祟悞昊亓艘稽c顏面和尊嚴。

這一消息不僅讓馬斯克和Karpathy激動得紛紛轉(zhuǎn)發(fā)。

第一個被人類騙錢的AI傻了,近5萬美元不翼而飛!Scaling Law還能帶我們到AGI嗎?

現(xiàn)在,他已經(jīng)和奧特曼、Demis Hassaibis等大佬的說法一致了。

但是繼續(xù)沿用目前的發(fā)展路徑,肯定是不行的。

不僅LeCun認為「LLM的路線注定死路一條」,最近也有一位AI研究者和投資人Kevin Niechen發(fā)出了長篇博文,用數(shù)學公式推演出:為什么僅靠Scaling Law,我們永遠到達不了AGI。

圖片

圖片

Niechen指出,目前關(guān)于AGI何時到來的判斷,之所以眾說紛紜,就是因為很多觀點更多是基于動機或意識形態(tài),而非確鑿的證據(jù)。

有人覺得,我們會很快迎來AGI,有人認為我們離它還很遠。

為什么很多模型提供商對當今模型的擴展能力如此樂觀?

Niechen決定,親自用Scaling Law做出一些計算上的推斷,看看未來AI模型究竟將如何進化。

Scaling Law并不像我們想得那么有預測性

Scaling Law是一種定量關(guān)系,用于描述模型輸入(數(shù)據(jù)和計算量)與模型輸出(預測下一個單詞的能力)之間的聯(lián)系。

它是通過在圖表上繪制不同水平的模型輸入和輸出得出的。

圖片

我們只需要擴展現(xiàn)有模型,就會獲得顯著的性能提升嗎?

顯然并非如此,使用Scaling Law進行預測,并不像有些人想的那么簡單。

首先,大多數(shù)Scaling Law(如Kaplan等人、Chinchilla和Llama的研究)預測的,是模型在數(shù)據(jù)集中預測下一個詞的能力,而不是模型在現(xiàn)實世界任務中的表現(xiàn)。

2023年,知名OpenAI研究員Jason Wei就曾在博客中指出,「目前尚不清楚替代指標(例如損失)是否能夠預測能力的涌現(xiàn)現(xiàn)象……這種關(guān)系尚未被充分研究……」

圖片

圖片

將兩個近似值串聯(lián)起來進行預測

為了解決上述問題,我們可以擬合第二個Scaling Law,將上游損失與現(xiàn)實任務性能定量關(guān)聯(lián)起來,然后將兩個Scaling Law串聯(lián)起來,以預測模型在現(xiàn)實任務中的表現(xiàn)。

Loss = f(data, compute)Real world task performance = g(loss)Real world task performance = g(f(data, compute))

在2024年,Gadre等人和Dubet等人提出了這種類型的Scaling Law。

Dubet使用這種鏈式法則進行預測,并聲稱其預測能力適用于Llama 3模型,「在四個數(shù)量級范圍內(nèi)具有良好的外推能力」。

然而,關(guān)于這些第二類Scaling Law的研究才剛剛起步,仍處于初期階段,由于數(shù)據(jù)點過少,選擇擬合函數(shù)會高度依賴主觀判斷。

例如,在下圖中,Gadre假設多個任務的平均表現(xiàn)與模型能力呈指數(shù)關(guān)系(上圖),而Dubet針對單一任務(下圖中的 ARC-AGI 任務)假設其關(guān)系呈S型曲線。這些Scaling Law還高度依賴于具體任務。

如果沒有關(guān)于損失與現(xiàn)實任務準確率之間關(guān)系的強假設,我們就無法有力地預測未來模型的能力。

圖片

嘗試用鏈式Scaling Law進行預測,是一種拙劣的嘗試

如果我們盲目地使用一些鏈式Scaling Law來進行預測,會發(fā)生什么?

請注意,這里的目標是展示如何使用一組Scaling Law(如Gadre的研究)來生成預測,而非獲得詳細的預測結(jié)果。

首先,我們可以利用公開信息,來估算未來幾代模型發(fā)布所需的數(shù)據(jù)和計算輸入。

這一部分可以參考最大數(shù)據(jù)中心建設的公告,根據(jù)其GPU容量估算計算能力,并將其映射到每代模型的演進上。

圖片

馬斯克的xAI超算最初便能容納10萬塊H100

接著,我們可以利用Scaling Law來估算這些計算集群所需的數(shù)據(jù)量。

根據(jù)我們使用的Scaling Law,最大的公開宣布的計算集群(可容納大約1億塊GPU)理想情況下需要訓練 269萬億個tokens,以最小化損失。

這個數(shù)字大約是RedPajama-V2數(shù)據(jù)集的十倍,并且是已索引網(wǎng)絡規(guī)模的一半。

聽起來比較合理,所以我們暫時沿用這個假設。

圖片

最后,我們可以將這些輸入代入鏈式Scaling Law并進行外推。

需要重點關(guān)注右側(cè)的圖表,因為該圖顯示了垂直軸上的實際任務性能,與水平軸上的數(shù)據(jù)和計算輸入相對應。

藍色點表示現(xiàn)有模型的性能(如GPT-2、GPT-3等),而紅色點則是通過外推預測的下一代模型(如GPT-5、GPT-6、GPT-7等)的規(guī)模擴展表現(xiàn):

圖片

從圖中可以得到這樣的預測結(jié)果——

從GPT-4開始,性能提升將顯現(xiàn)出顯著的邊際遞減趨勢。

GPT-4到GPT-7模型(計算量約增加4000倍)在實際任務中的預測性能提升,與從GPT-3到GPT-4(計算量約增加100倍)的預測性能提升相當。

我們是否正在接近不可降低的損失?

如果你查看左側(cè)的圖表就會發(fā)現(xiàn):這些Scaling Law的問題在于,我們正在逐漸接近不可降低的損失。

后者與數(shù)據(jù)集的熵密切相關(guān),代表了模型在該數(shù)據(jù)集上能夠達到的最佳理論性能。

根據(jù)Gadre的Scaling Law,在RedPajama數(shù)據(jù)集上,如果最優(yōu)模型只能達到約1.84的不可降低損失,而我們已經(jīng)在GPT-4上達到了約2.05,那改進空間就十分有限了。

圖片

然而,大多數(shù)實驗室并未發(fā)布其最新前沿模型訓練的損失值,因此我們現(xiàn)在并不知道,我們實際上離不可降低的損失有多近。

擬合函數(shù)的主觀性與數(shù)據(jù)的局限性

如前所述,第二條Scaling Law中擬合函數(shù)的選擇具有很強的主觀性。

例如,我們可以使用sigmoid函數(shù)而不是指數(shù)函數(shù),重新擬合Gadre論文中的損失和性能點:

圖片

然而,結(jié)論基本沒有變化。

如果只是比較左圖中的指數(shù)擬合(紅線)和我們自定義的sigmoid擬合(紫色虛線),局限性是明顯的:我們根本沒有足夠的數(shù)據(jù)點,來自信地確定將損失與現(xiàn)實世界性能關(guān)聯(lián)的最佳擬合函數(shù)。

沒人知道下一代模型的強大程度

顯然,有許多方法可以改進上述「預測」:使用更好的Scaling Law,使用更好的數(shù)據(jù)和計算估計,等等。

歸根結(jié)底,Scaling Law是嘈雜的近似值,而通過這種鏈式預測方法,我們將兩個嘈雜的近似值結(jié)合在了一起。

如果考慮到下一代模型可能由于架構(gòu)或數(shù)據(jù)組合的不同而擁有適用于不同條件的全新Scaling Law,那么實際上沒有人真正知道未來幾代模型規(guī)模擴展的能力。

為什么大家對Scaling如此樂觀?

如今,不管是科技大廠還是明星初創(chuàng),都對Scale現(xiàn)有模型十分樂觀:

比如微軟CTO就曾表示:「盡管其他人可能不這么認為,但我們并未在規(guī)模的Scaling上進入收益遞減的階段。實際上,這里存在著一個指數(shù)級的增長?!?/p>

圖片

有些人將這種樂觀歸因于商業(yè)動機,但Niechen認為這來自以下幾個方面的結(jié)合:

(1)實驗室可能掌握了更樂觀的內(nèi)部Scaling Law

(2)盡管存在廣泛懷疑,但實驗室親身經(jīng)歷了Scaling所帶來的成效

(3)Scaling是一種看漲期權(quán)

谷歌CEO劈柴表示:「當我們經(jīng)歷這樣的曲線時,對于我們來說,投資不足的風險遠遠大于投資過度的風險,即使在某些情況下事實證明確實投資得有些多了……這些基礎(chǔ)設施對我們有廣泛的應用價值……」

圖片

而Meta CEO小扎則這樣認為:「我寧愿過度投資并爭取這樣的結(jié)果,而不是通過更慢的開發(fā)來節(jié)省資金……現(xiàn)在有很多公司可能正在過度建設……但落后的代價會讓你在未來10到15年最重要的技術(shù)中處于劣勢?!?/p>

圖片

未來何去何從

總結(jié)來說,Niechen認為外推Scaling Law并不像許多人聲稱的那樣簡單:

(1)當前大多數(shù)關(guān)于預測AI能力的討論質(zhì)量不高

(2)公開的Scaling Law對模型未來能力的預示非常有限

因此,為了有效評估當今的AI模型是否還能Scaling,我們就需要更多基于證據(jù)的預測和更好的評估基準。

如果我們能夠了解未來模型的能力,就可以優(yōu)先為這些能力做好準備——比如,為生物學研究革命提前構(gòu)建生物制造能力,為勞動力置換準備技能提升公司,等等。

從個人的角度,Niechen對AI能力的進步還是非常樂觀的,因為這個領(lǐng)域擁有杰出的人才。

但AI的Scaling并不像人們想象的那樣具有確定性,也沒有人真正清楚AI在未來幾年將帶來怎樣的發(fā)展。

參考資料:

https://x.com/karpathy/status/1862329765363163551

https://x.com/karpathy/status/1862565643436138619

https://kevinniechen.com/will-we-have-agi/

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。

文章版權(quán)聲明:除非注明,否則均為mk體育-在線官網(wǎng)直播平臺原創(chuàng)文章,轉(zhuǎn)載或復制請以超鏈接形式并注明出處。

目錄[+]