999热,97a**,aaaa级黄色片,亚洲最大毛片,91黄在线免费观看,日韩亚洲精品视频,91亚洲精品国产成人

一條芯片“新”賽道,悄然崛起

2024-12-01 00:27:28 243閱讀

編者按:本文來自微信公眾號(hào) 半導(dǎo)體行業(yè)觀察(ID:icbank),作者:杜芹,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

GPU超越了CPU。這也意味著,在計(jì)算領(lǐng)域,專用計(jì)算打敗了通用計(jì)算。然而,盡管專用計(jì)算的優(yōu)勢(shì)日益明顯,仍有一部分初創(chuàng)公司堅(jiān)持走通用計(jì)算的道路,力圖通過創(chuàng)新突破當(dāng)前架構(gòu)的瓶頸,重新定義處理器的未來。在這個(gè)日益分化的計(jì)算時(shí)代,通用計(jì)算是否依然有機(jī)會(huì)與專用計(jì)算一較高下?一些雄心勃勃的初創(chuàng)公司正在投入巨資和大量的研發(fā)力量,試圖通過開發(fā)全新的通用處理器架構(gòu)來挑戰(zhàn)現(xiàn)有格局。

通用處理器的黃金時(shí)代

回顧過去,通用處理器(CPU)曾在計(jì)算領(lǐng)域主宰了數(shù)十年。在70年代到90年代,CPU曾是幾乎所有計(jì)算任務(wù)的主力。

1971年,英特爾發(fā)布了4004處理器,這是世界上第一款商用微處理器,標(biāo)志著計(jì)算機(jī)技術(shù)的一個(gè)新紀(jì)元。隨后,英特爾在1974年發(fā)布的 8080 處理器,以及其后續(xù)的 x86 架構(gòu),為個(gè)人計(jì)算機(jī)(PC)提供了強(qiáng)大的處理能力。

1981年,IBM個(gè)人計(jì)算機(jī)(IBM PC)的發(fā)布,將基于 x86 架構(gòu)的通用處理器推向了全球市場(chǎng)。

進(jìn)入1990年代,隨著互聯(lián)網(wǎng)的崛起和計(jì)算需求的多樣化,Intel 和 AMD 等公司繼續(xù)推動(dòng) x86 架構(gòu) 的發(fā)展,通用處理器的市場(chǎng)份額不斷擴(kuò)大。英特爾的 Pentium 處理器系列(1993年推出)標(biāo)志著高性能計(jì)算的到來。此外,90年代的企業(yè)級(jí)服務(wù)器和數(shù)據(jù)中心也開始大量采用基于 x86 架構(gòu)的通用處理器。這一時(shí)期,通用處理器不僅在桌面和辦公應(yīng)用中占據(jù)主導(dǎo)地位,也逐漸成為服務(wù)器、數(shù)據(jù)中心以及高性能計(jì)算(HPC)領(lǐng)域的主力。

從 2000年代后期開始,隨著 GPU 和專用加速器(如 TPU、FPGA)的崛起,計(jì)算界的天平開始發(fā)生傾斜。

進(jìn)入AI時(shí)代,計(jì)算需求呈現(xiàn)出爆炸式增長。深度學(xué)習(xí)等AI算法對(duì)計(jì)算資源的需求遠(yuǎn)遠(yuǎn)超過了傳統(tǒng)應(yīng)用。GPU憑借其高度并行的架構(gòu),在訓(xùn)練和推理大規(guī)模神經(jīng)網(wǎng)絡(luò)方面表現(xiàn)出色,成為了AI訓(xùn)練的“標(biāo)配”。這一時(shí)期,GPU在圖形處理、科學(xué)計(jì)算以及機(jī)器學(xué)習(xí)等領(lǐng)域的表現(xiàn),逐漸超越了傳統(tǒng)的CPU。與此同時(shí),各種專用集成電路(ASIC)也在不斷涌現(xiàn),針對(duì)特定AI算法進(jìn)行優(yōu)化,進(jìn)一步提升了計(jì)算效率。

盡管GPU和ASIC在特定領(lǐng)域的優(yōu)勢(shì)非常明顯,但它們也有不可忽視的缺點(diǎn)。首先,GPU 和 ASIC 是專為某些特定任務(wù)設(shè)計(jì)的,缺乏通用性和靈活性。如果面對(duì)復(fù)雜的計(jì)算任務(wù)或需要多種計(jì)算能力的應(yīng)用,GPU 和 ASIC 就顯得不那么高效。此外,GPU 和 ASIC 的開發(fā)和生產(chǎn)成本較高,且其硬件架構(gòu)通常與現(xiàn)有的計(jì)算環(huán)境不兼容,這使得大量企業(yè)在進(jìn)行硬件更新時(shí)面臨著較高的技術(shù)門檻和經(jīng)濟(jì)成本。

正是這些缺口,令一些初創(chuàng)公司找到了彎道超車的著力點(diǎn)。在AI時(shí)代的快速洗禮下,數(shù)據(jù)中心的挑戰(zhàn)和痛點(diǎn)愈發(fā)凸顯:居高不下的功耗、較低的服務(wù)器利用率以及難以跟上需求的處理器性能。

初創(chuàng)公司Tachyum:各種PU大亂燉,能成嗎?

初創(chuàng)公司Tachyum提出了一種大膽的愿景:將超大規(guī)模數(shù)據(jù)中心轉(zhuǎn)變?yōu)檎嬲耐ㄓ糜?jì)算中心。

他們是如何做的呢?Tachyum推出了一種新型通用處理器,將CPU、GPGPU 和 TPU的功能統(tǒng)一到單個(gè)單片設(shè)備中,無需昂貴且耗電的加速器,而是通過使用與軟件可組合性和服務(wù)器資源的動(dòng)態(tài)重新分配相一致的簡(jiǎn)單同質(zhì)軟件模型來最大限度地提高利用率,以此來滿足云和 HPC/AI 工作負(fù)載的高需求。該架構(gòu)速度更快、功耗降低10倍、成本僅為競(jìng)爭(zhēng)產(chǎn)品的 1/3。

下圖是早期(2022年)Tachyum公司對(duì)Prodigy架構(gòu)的構(gòu)思,它集成了128個(gè)自定義的 64 位 CPU 核心,運(yùn)行頻率最高可達(dá) 5.7 GHz,有十六個(gè)DDR5內(nèi)存控制器,支持最高DDR5-7200,和64條PCIe 5.0 通道。CPU、內(nèi)存控制器和I/O通過Tachyum自定義設(shè)計(jì)的10 Tbps非阻塞全網(wǎng)狀互聯(lián)網(wǎng)絡(luò)連接在一起。Prodigy提供了一種尖端的“系統(tǒng)芯片”設(shè)計(jì),平衡了高性能的CPU 核心、內(nèi)存、I/O和互聯(lián)子系統(tǒng)。

Prodigy設(shè)備架構(gòu)圖(來源:Tachyum Prodigy架構(gòu)白皮書,2022)

Prodigy采用獨(dú)特的“半芯片(half-chip)”設(shè)計(jì),使得這款128核的設(shè)備可以作為兩個(gè)獨(dú)立的64核設(shè)備工作,每個(gè)設(shè)備配備8個(gè)DDR5內(nèi)存控制器、32條PCIe 5.0通道、獨(dú)立的電源平面,并具備單獨(dú)啟動(dòng)的能力。這帶來了多個(gè)好處。首先,從客戶的角度來看,兩個(gè)功能設(shè)備可以部署在一個(gè)單一封裝中,節(jié)省成本、板空間和功耗,并為系統(tǒng)和板設(shè)計(jì)者提供靈活性。從運(yùn)營的角度來看,這種架構(gòu)為Tachyum提供了更高的64核芯片良率。如果“北半部分”出現(xiàn)問題,可以將芯片旋轉(zhuǎn)180度,“南半部分”將成為正常工作的 64 核設(shè)備。

Prodigy設(shè)備布局主要功能模塊(來源:Tachyum Prodigy架構(gòu)白皮書,2022)

Tachyum在白皮書中指出,處理器性能停滯不前的根本原因是處理器硅片上的線路延遲增加。隨著硅片工藝的縮小,晶體管的速度加快,但線路的速度卻減慢了,我們現(xiàn)在正處于性能受到線路延遲限制的階段。由于線路的電阻率是線路橫截面積的函數(shù),因此電阻率會(huì)隨著工藝縮小的平方而增加,工藝幾何尺寸每減小10 倍會(huì)導(dǎo)致電阻率增加100倍,這與線路延遲成正比。業(yè)界的方法是從鋁互連轉(zhuǎn)換為銅互連并使用低 K 電介質(zhì),這確實(shí)有所幫助,但線路延遲仍然是限制處理器性能一代一代提升的主要因素。

為了解決過去二十年中由于工藝縮小導(dǎo)致晶體管加速但導(dǎo)線變慢,從而導(dǎo)致處理器性能停滯的問題,并且最大化性能、可擴(kuò)展性和靈活性、最小化總擁有成本(TCO),Tachyum 為其Prodigy處理器開發(fā)了新的指令集架構(gòu)(ISA)。該架構(gòu)結(jié)合了RISC(精簡(jiǎn)指令集和CISC(復(fù)雜指令集)的特點(diǎn),但沒有包含許多 CISC 處理器中常見的復(fù)雜和/或變長的低效指令。所有指令的寬度為 32 位或 64 位,其中一些指令還包括內(nèi)存訪問,以優(yōu)化性能。Prodigy ISA 包含大量的向量和矩陣指令,這些指令優(yōu)化了向量和矩陣運(yùn)算的性能和效率。新ISA通過將執(zhí)行單元感知(execution unit awareness)引入指令集架構(gòu),從而使Prodigy微架構(gòu)和 Prodigy 編譯器能夠協(xié)同工作,避免了執(zhí)行單元之間消耗大量功耗的數(shù)據(jù)傳輸,并減少了芯片內(nèi)延遲。

最初Prodigy系列處理器包括128核、64核和32核的型號(hào),而在最新的產(chǎn)品披露中,Prodigy對(duì)其產(chǎn)品構(gòu)想進(jìn)行了全面的升級(jí):Prodigy SKU家族包含192核、96核、48核多個(gè)型號(hào),適用于從超算到大規(guī)模AI、超大規(guī)模數(shù)據(jù)中心和邊緣服務(wù)器等各類應(yīng)用。TDP(熱設(shè)計(jì)功耗)范圍從48核入門級(jí)的150 W,到頂端型號(hào)的950W。

Prodigy各型號(hào)的規(guī)格(來源:Tachyum)

Prodigy的競(jìng)爭(zhēng)賣點(diǎn)在哪里呢?據(jù)該公司白皮書的分析,其統(tǒng)一架構(gòu)通用處理器直接與CPU和GPGPU競(jìng)爭(zhēng)。

下圖顯示了Prodigy、Nvidia H200 GPU和 ntel Xeon 8380 CPU之間的正面對(duì)比,展示了 Prodigy 通用處理器如何與CPU和GPU架構(gòu)直接競(jìng)爭(zhēng)。比較結(jié)果表明,與 H200 GPU 和 Intel Xeon 8380 CPU 相比,Prodigy 在多個(gè)工作負(fù)載和數(shù)據(jù)類型下提供了更高的性能和每瓦性能。

具體而言,Prodigy比 Intel Xeon 8380擁有3倍的CPU核心數(shù),主頻是8380的2.5倍,內(nèi)存帶寬約為8380的20倍。Prodigy的Specrate 2017整數(shù)得分是8380的4倍,而 Prodigy 的FP64峰值性能是8380的30倍。

與Nvidia H200比較,Prodigy的16條DDR5-7200通道和帶寬放大技術(shù)提供了約 2TB/sec 的帶寬,同時(shí)保留了支持大內(nèi)存和擴(kuò)展性的靈活性,DIMM 可提供較大的內(nèi)存支持。H200 使用 HBM3 提供 3 TB/sec 的帶寬,但將內(nèi)存足跡限制為 80GB 的固定內(nèi)存。Prodigy 和 H200 都支持從 FP64 到 FP8 的多種數(shù)據(jù)類型,并且都支持 4:2 稀疏性。但與 H200 不同,Prodigy 除了支持 4:2 稀疏性外,還支持 8:3 超稀疏性,提供了更高的性能,僅有輕微的精度折衷。此外,Prodigy 擁有更大的緩存,減少了對(duì) DRAM 帶寬的需求。Prodigy 還支持 TAI(Tachyum AI),一種新的數(shù)據(jù)類型,能提供更大的性能提升。

為了全面了解 Prodigy的能力,一個(gè)1.6萬億參數(shù)的Switch Transformer 需要 52 個(gè) NVIDIA H200 80GB GPU(每個(gè)成本為 41,789 美元)和7個(gè)Supermicro GPU服務(wù)器(每個(gè)成本為 25,000 美元),總成本為 2,348,028 美元。而該公司聲稱,一個(gè)配備 2TB DDR5 DRAM的Prodigy單個(gè)插槽系統(tǒng)可就以容納和運(yùn)行如此大的模型,成本僅為23,000美元,這僅是英偉達(dá)方案成本的1/100。如果真如此,這將是一個(gè)顛覆性的通用處理器。

理論上都很美好,但是目前Tachyum公司最大的問題是,尚沒有實(shí)際的產(chǎn)品出來。Prodigy的推出時(shí)間一再延遲,今年推明年。Prodigy通用處理器最初計(jì)劃于2019年推出,并于2020年上市。然而它不斷推遲,推遲到2021年,然后是2022年,然后是2023年。最新的消息是,據(jù)該公司稱,采用5nm工藝的Prodigy處理器將于明年流片和量產(chǎn)。一個(gè)小插曲是,此前該公司還起訴了EDA公司Cadence,說他們的設(shè)計(jì)未能滿足性能目標(biāo)。

據(jù)報(bào)道,Tachyum已收到一份大型采購訂單,用于構(gòu)建一個(gè)大型系統(tǒng)。據(jù)Tom's Hardware報(bào)道,Tachyum還計(jì)劃于 2026 年發(fā)布 Prodigy 2,這是一款使用 PCIe 6.0 和 CXL 的 3nm 處理器,以及高帶寬內(nèi)存 (HBM) 3 RAM。

我們也希望明年真的能見到這款強(qiáng)大的通用處理器。

Ubitium:通用RISC-V微處理器

德國初創(chuàng)公司Ubitium,這家公司成立于2024年。創(chuàng)始人的履歷頗豐:董事長/聯(lián)合創(chuàng)始人Peter W Weber層就職于英特爾、德州儀器、Siliconix等;首席執(zhí)行官/聯(lián)合創(chuàng)始人Hyun Shin Cho;首席技術(shù)官/聯(lián)合創(chuàng)始人Martin Vorbach在大學(xué)期間創(chuàng)辦了自己的第一家微處理器公司。他創(chuàng)辦了可重構(gòu)處理器(FPGA)領(lǐng)域的領(lǐng)軍企業(yè) PACT XPP Technologies。PACT 的技術(shù)已授權(quán)給所有美國主要半導(dǎo)體公司,馬丁名下?lián)碛?00多項(xiàng)專利。

Ubitium旨在通過引入完全與工作負(fù)載無關(guān)的通用處理器架構(gòu)從根本上改變計(jì)算格局。首席技術(shù)官M(fèi)artin Vorbach花了15年時(shí)間開發(fā)這一通用處理器架構(gòu)。Ubitium的通用處理器架構(gòu)代表了計(jì)算行業(yè)的一次重大創(chuàng)新,它挑戰(zhàn)了現(xiàn)有的處理器設(shè)計(jì)范式。

通用處理器陣列(來源:Ubitium)

傳統(tǒng)的微處理器往往需要為不同的計(jì)算任務(wù),如圖形處理、人工智能計(jì)算等,設(shè)計(jì)專門的硬件核心。而Ubitium希望通過同質(zhì)、與工作負(fù)載無關(guān)的微處理架構(gòu),用單一、多功能的芯片取代傳統(tǒng)處理器(CPU、NPU、GPU、DSP 和 FPGA)來處理所有工作負(fù)載,該架構(gòu)基于開源指令集 RISC-V,旨在通過統(tǒng)一的設(shè)計(jì),不僅使處理器尺寸更小、能效更高,而且大幅降低成本,使其能夠適應(yīng)各種應(yīng)用場(chǎng)景。

Ubitium的設(shè)計(jì)靈感源于當(dāng)前計(jì)算機(jī)體系結(jié)構(gòu)面臨的瓶頸,特別是在硬件資源的高效利用 方面。當(dāng)前許多處理器架構(gòu)面臨著不必要的“瑣碎管理”任務(wù)——這些任務(wù)占用了大量硬件資源卻并未直接提高性能。此外,許多高效計(jì)算技術(shù),如同步多線程,往往需要額外的硬件開銷來支持,這就導(dǎo)致了更高的能耗和復(fù)雜性。

過去數(shù)十年來,芯片技術(shù)的進(jìn)步主要圍繞尺寸展開,晶體管變得越來越小,因此通過整合更多晶體管,微處理器的功能也變得更強(qiáng)大。然而,設(shè)計(jì)并沒有發(fā)生根本性改變。Ubitium通過重新設(shè)計(jì)處理器的內(nèi)部結(jié)構(gòu),消除了這些不必要的開銷,從而提高了性能。除了架構(gòu)創(chuàng)新外,Ubitium還計(jì)劃推出多個(gè)芯片型號(hào),涵蓋從小型設(shè)備到大型計(jì)算系統(tǒng)的不同需求。這些芯片的陣列大小可以不同,但它們都基于相同的架構(gòu)和軟件平臺(tái)。

目前,該公司擁有 18 項(xiàng)基于 FPGA 仿真的原型技術(shù)專利,并正在開發(fā)一系列芯片,這些芯片的陣列大小各不相同,但共享相同的底層通用架構(gòu)和軟件堆棧。Ubitium所開發(fā)的通用芯片目標(biāo)市場(chǎng)是邊緣或嵌入式設(shè)備,幫助企業(yè)將部署成本降低100倍。不過,該公司強(qiáng)調(diào),該架構(gòu)具有高度可擴(kuò)展性,未來也可用于數(shù)據(jù)中心。

雖然Ubitium的產(chǎn)品聽起來像是FPGA,比如都強(qiáng)調(diào)硬件靈活性和可重用性,但它并不是傳統(tǒng)意義上的FPGA。相比FPGA,Ubitium的處理器并沒有依賴于“硬件仿真”或“動(dòng)態(tài)硬件配置”的方法,而是通過統(tǒng)一的架構(gòu)和核心資源來實(shí)現(xiàn)不同功能。

2024年11月21日,Ubitium獲得了370萬美元種子資金。這筆投資將用于開發(fā)首批原型并為客戶準(zhǔn)備初始開發(fā)套件,首批芯片計(jì)劃于2026年推出。不過,在短短兩年內(nèi)推出一個(gè)旨在“徹底改變”行業(yè)的架構(gòu)至少可以說是具有挑戰(zhàn)性的。目前的370萬美元幾乎可以肯定不足以讓 Ubitium的“突破性”芯片起步。通常,芯片進(jìn)入流片階段需要花費(fèi)數(shù)億美元。

前路挑戰(zhàn)不可忽視

無論是 Tachyum 還是 Ubitium,它們選擇開發(fā)通用處理器的原因,都來自于計(jì)算需求的復(fù)雜性和多樣化。傳統(tǒng)的計(jì)算架構(gòu),如 CPU、GPU 和 FPGA,雖然各自在特定領(lǐng)域中表現(xiàn)突出,但它們的組合和協(xié)同工作往往帶來額外的成本和復(fù)雜性。尤其是在 AI、大數(shù)據(jù)和高性能計(jì)算(HPC)日益普及的背景下,數(shù)據(jù)中心和云計(jì)算需要一種更高效、更靈活、更具成本優(yōu)勢(shì)的解決方案。

但初創(chuàng)公司來做通用處理器還是會(huì)面臨很大的挑戰(zhàn):

技術(shù)實(shí)現(xiàn):要在同一個(gè)芯片上處理多種計(jì)算任務(wù)(如圖形處理、AI 推理、高性能計(jì)算等),需要精心設(shè)計(jì)架構(gòu),確保每種任務(wù)的計(jì)算能力都得到充分發(fā)揮而不互相干擾。Tachyum提出的架構(gòu)仍處于早期階段,并且已經(jīng)經(jīng)歷了多次延期。產(chǎn)品是否能按計(jì)劃交付,以及它是否能在競(jìng)爭(zhēng)激烈的市場(chǎng)中脫穎而出,仍然是一個(gè)巨大的不確定性。

市場(chǎng)接受度:盡管他們的芯片可能在性能上具有優(yōu)勢(shì),但市場(chǎng)對(duì)新架構(gòu)的接受度仍然是個(gè)問題。尤其是在傳統(tǒng)的 CPU 和 GPU 仍占據(jù)主流地位的情況下,新型的通用處理器是否能夠與 NVIDIA、Intel 等成熟廠商的產(chǎn)品競(jìng)爭(zhēng)并獲得廣泛采用,仍有待觀察。

成本與規(guī)?;杭幢愫筮M(jìn)者都宣稱其芯片在成本和功耗優(yōu)勢(shì)顯著,但要實(shí)現(xiàn)大規(guī)模生產(chǎn)并降低成本,需要巨額的研發(fā)和生產(chǎn)投資。處理器的制造和流片成本通常非常昂貴,因此資金的穩(wěn)定和籌措將是其成功的關(guān)鍵因素。

Tachyum和Ubitium都在試圖解決計(jì)算領(lǐng)域的一個(gè)重要問題:如何整合多種處理功能,提供更靈活、更高效的解決方案。盡管兩者的技術(shù)愿景非常吸引人,但在實(shí)現(xiàn)過程中面臨的技術(shù)挑戰(zhàn)、市場(chǎng)接受度以及資金問題都不容忽視。要想在競(jìng)爭(zhēng)激烈的半導(dǎo)體市場(chǎng)中脫穎而出,除了技術(shù)突破,還需要強(qiáng)有力的資金支持和客戶認(rèn)可。

小結(jié)

強(qiáng)如英特爾和AMD,在AI的浪潮中,都有點(diǎn)招架不住,初創(chuàng)公司能否掀起浪花?在這個(gè)風(fēng)云變幻的時(shí)代,通用處理器能否重奪王座呢?結(jié)果尚未知。

但可以明見的是,這條芯片“新”賽道,已經(jīng)悄然崛起。

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問,請(qǐng)聯(lián)系editor@cyzone.cn。

文章版權(quán)聲明:除非注明,否則均為mk體育-在線官網(wǎng)直播平臺(tái)原創(chuàng)文章,轉(zhuǎn)載或復(fù)制請(qǐng)以超鏈接形式并注明出處。

目錄[+]