999热,97a**,aaaa级黄色片,亚洲最大毛片,91黄在线免费观看,日韩亚洲精品视频,91亚洲精品国产成人

一條芯片“新”賽道，悄然崛起

2024-12-01 00:27:28 284閱讀

溫馨提示：這篇文章已超過384天沒有更新，請注意相關(guān)的內(nèi)容是否還可用！

編者按：本文來自微信公眾號半導(dǎo)體行業(yè)觀察（ID：icbank），作者：杜芹，創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

GPU超越了CPU。這也意味著，在計算領(lǐng)域，專用計算打敗了通用計算。然而，盡管專用計算的優(yōu)勢日益明顯，仍有一部分初創(chuàng)公司堅持走通用計算的道路，力圖通過創(chuàng)新突破當(dāng)前架構(gòu)的瓶頸，重新定義處理器的未來。在這個日益分化的計算時代，通用計算是否依然有機會與專用計算一較高下？一些雄心勃勃的初創(chuàng)公司正在投入巨資和大量的研發(fā)力量，試圖通過開發(fā)全新的通用處理器架構(gòu)來挑戰(zhàn)現(xiàn)有格局。

通用處理器的黃金時代

回顧過去，通用處理器（CPU）曾在計算領(lǐng)域主宰了數(shù)十年。在70年代到90年代，CPU曾是幾乎所有計算任務(wù)的主力。

1971年，英特爾發(fā)布了4004處理器，這是世界上第一款商用微處理器，標(biāo)志著計算機技術(shù)的一個新紀(jì)元。隨后，英特爾在1974年發(fā)布的 8080 處理器，以及其后續(xù)的 x86 架構(gòu)，為個人計算機（PC）提供了強大的處理能力。

1981年，IBM個人計算機（IBM PC）的發(fā)布，將基于 x86 架構(gòu)的通用處理器推向了全球市場。

進入1990年代，隨著互聯(lián)網(wǎng)的崛起和計算需求的多樣化，Intel 和 AMD 等公司繼續(xù)推動 x86 架構(gòu) 的發(fā)展，通用處理器的市場份額不斷擴大。英特爾的 Pentium 處理器系列（1993年推出）標(biāo)志著高性能計算的到來。此外，90年代的企業(yè)級服務(wù)器和數(shù)據(jù)中心也開始大量采用基于 x86 架構(gòu)的通用處理器。這一時期，通用處理器不僅在桌面和辦公應(yīng)用中占據(jù)主導(dǎo)地位，也逐漸成為服務(wù)器、數(shù)據(jù)中心以及高性能計算（HPC）領(lǐng)域的主力。

從 2000年代后期開始，隨著 GPU 和專用加速器（如 TPU、FPGA）的崛起，計算界的天平開始發(fā)生傾斜。

進入AI時代，計算需求呈現(xiàn)出爆炸式增長。深度學(xué)習(xí)等AI算法對計算資源的需求遠(yuǎn)遠(yuǎn)超過了傳統(tǒng)應(yīng)用。GPU憑借其高度并行的架構(gòu)，在訓(xùn)練和推理大規(guī)模神經(jīng)網(wǎng)絡(luò)方面表現(xiàn)出色，成為了AI訓(xùn)練的“標(biāo)配”。這一時期，GPU在圖形處理、科學(xué)計算以及機器學(xué)習(xí)等領(lǐng)域的表現(xiàn)，逐漸超越了傳統(tǒng)的CPU。與此同時，各種專用集成電路(ASIC)也在不斷涌現(xiàn)，針對特定AI算法進行優(yōu)化，進一步提升了計算效率。

盡管GPU和ASIC在特定領(lǐng)域的優(yōu)勢非常明顯，但它們也有不可忽視的缺點。首先，GPU 和 ASIC 是專為某些特定任務(wù)設(shè)計的，缺乏通用性和靈活性。如果面對復(fù)雜的計算任務(wù)或需要多種計算能力的應(yīng)用，GPU 和 ASIC 就顯得不那么高效。此外，GPU 和 ASIC 的開發(fā)和生產(chǎn)成本較高，且其硬件架構(gòu)通常與現(xiàn)有的計算環(huán)境不兼容，這使得大量企業(yè)在進行硬件更新時面臨著較高的技術(shù)門檻和經(jīng)濟成本。

正是這些缺口，令一些初創(chuàng)公司找到了彎道超車的著力點。在AI時代的快速洗禮下，數(shù)據(jù)中心的挑戰(zhàn)和痛點愈發(fā)凸顯：居高不下的功耗、較低的服務(wù)器利用率以及難以跟上需求的處理器性能。

初創(chuàng)公司Tachyum：各種PU大亂燉，能成嗎？

初創(chuàng)公司Tachyum提出了一種大膽的愿景：將超大規(guī)模數(shù)據(jù)中心轉(zhuǎn)變?yōu)檎嬲耐ㄓ糜嬎阒行摹?/p>

他們是如何做的呢？Tachyum推出了一種新型通用處理器，將CPU、GPGPU 和 TPU的功能統(tǒng)一到單個單片設(shè)備中，無需昂貴且耗電的加速器，而是通過使用與軟件可組合性和服務(wù)器資源的動態(tài)重新分配相一致的簡單同質(zhì)軟件模型來最大限度地提高利用率，以此來滿足云和 HPC/AI 工作負(fù)載的高需求。該架構(gòu)速度更快、功耗降低10倍、成本僅為競爭產(chǎn)品的 1/3。

下圖是早期（2022年）Tachyum公司對Prodigy架構(gòu)的構(gòu)思，它集成了128個自定義的 64 位 CPU 核心，運行頻率最高可達(dá) 5.7 GHz，有十六個DDR5內(nèi)存控制器，支持最高DDR5-7200，和64條PCIe 5.0 通道。CPU、內(nèi)存控制器和I/O通過Tachyum自定義設(shè)計的10 Tbps非阻塞全網(wǎng)狀互聯(lián)網(wǎng)絡(luò)連接在一起。Prodigy提供了一種尖端的“系統(tǒng)芯片”設(shè)計，平衡了高性能的CPU 核心、內(nèi)存、I/O和互聯(lián)子系統(tǒng)。

Prodigy設(shè)備架構(gòu)圖（來源：Tachyum Prodigy架構(gòu)白皮書，2022）

Prodigy采用獨特的“半芯片（half-chip）”設(shè)計，使得這款128核的設(shè)備可以作為兩個獨立的64核設(shè)備工作，每個設(shè)備配備8個DDR5內(nèi)存控制器、32條PCIe 5.0通道、獨立的電源平面，并具備單獨啟動的能力。這帶來了多個好處。首先，從客戶的角度來看，兩個功能設(shè)備可以部署在一個單一封裝中，節(jié)省成本、板空間和功耗，并為系統(tǒng)和板設(shè)計者提供靈活性。從運營的角度來看，這種架構(gòu)為Tachyum提供了更高的64核芯片良率。如果“北半部分”出現(xiàn)問題，可以將芯片旋轉(zhuǎn)180度，“南半部分”將成為正常工作的 64 核設(shè)備。

Prodigy設(shè)備布局主要功能模塊（來源：Tachyum Prodigy架構(gòu)白皮書，2022）

Tachyum在白皮書中指出，處理器性能停滯不前的根本原因是處理器硅片上的線路延遲增加。隨著硅片工藝的縮小，晶體管的速度加快，但線路的速度卻減慢了，我們現(xiàn)在正處于性能受到線路延遲限制的階段。由于線路的電阻率是線路橫截面積的函數(shù)，因此電阻率會隨著工藝縮小的平方而增加，工藝幾何尺寸每減小10 倍會導(dǎo)致電阻率增加100倍，這與線路延遲成正比。業(yè)界的方法是從鋁互連轉(zhuǎn)換為銅互連并使用低 K 電介質(zhì)，這確實有所幫助，但線路延遲仍然是限制處理器性能一代一代提升的主要因素。

為了解決過去二十年中由于工藝縮小導(dǎo)致晶體管加速但導(dǎo)線變慢，從而導(dǎo)致處理器性能停滯的問題，并且最大化性能、可擴展性和靈活性、最小化總擁有成本（TCO），Tachyum 為其Prodigy處理器開發(fā)了新的指令集架構(gòu)（ISA）。該架構(gòu)結(jié)合了RISC（精簡指令集和CISC（復(fù)雜指令集）的特點，但沒有包含許多 CISC 處理器中常見的復(fù)雜和/或變長的低效指令。所有指令的寬度為 32 位或 64 位，其中一些指令還包括內(nèi)存訪問，以優(yōu)化性能。Prodigy ISA 包含大量的向量和矩陣指令，這些指令優(yōu)化了向量和矩陣運算的性能和效率。新ISA通過將執(zhí)行單元感知（execution unit awareness）引入指令集架構(gòu)，從而使Prodigy微架構(gòu)和 Prodigy 編譯器能夠協(xié)同工作，避免了執(zhí)行單元之間消耗大量功耗的數(shù)據(jù)傳輸，并減少了芯片內(nèi)延遲。

最初Prodigy系列處理器包括128核、64核和32核的型號，而在最新的產(chǎn)品披露中，Prodigy對其產(chǎn)品構(gòu)想進行了全面的升級：Prodigy SKU家族包含192核、96核、48核多個型號，適用于從超算到大規(guī)模AI、超大規(guī)模數(shù)據(jù)中心和邊緣服務(wù)器等各類應(yīng)用。TDP（熱設(shè)計功耗）范圍從48核入門級的150 W，到頂端型號的950W。

Prodigy各型號的規(guī)格（來源：Tachyum）

Prodigy的競爭賣點在哪里呢？據(jù)該公司白皮書的分析，其統(tǒng)一架構(gòu)通用處理器直接與CPU和GPGPU競爭。

下圖顯示了Prodigy、Nvidia H200 GPU和 ntel Xeon 8380 CPU之間的正面對比，展示了 Prodigy 通用處理器如何與CPU和GPU架構(gòu)直接競爭。比較結(jié)果表明，與 H200 GPU 和 Intel Xeon 8380 CPU 相比，Prodigy 在多個工作負(fù)載和數(shù)據(jù)類型下提供了更高的性能和每瓦性能。

具體而言，Prodigy比 Intel Xeon 8380擁有3倍的CPU核心數(shù)，主頻是8380的2.5倍，內(nèi)存帶寬約為8380的20倍。Prodigy的Specrate 2017整數(shù)得分是8380的4倍，而 Prodigy 的FP64峰值性能是8380的30倍。

與Nvidia H200比較，Prodigy的16條DDR5-7200通道和帶寬放大技術(shù)提供了約 2TB/sec 的帶寬，同時保留了支持大內(nèi)存和擴展性的靈活性，DIMM 可提供較大的內(nèi)存支持。H200 使用 HBM3 提供 3 TB/sec 的帶寬，但將內(nèi)存足跡限制為 80GB 的固定內(nèi)存。Prodigy 和 H200 都支持從 FP64 到 FP8 的多種數(shù)據(jù)類型，并且都支持 4:2 稀疏性。但與 H200 不同，Prodigy 除了支持 4:2 稀疏性外，還支持 8:3 超稀疏性，提供了更高的性能，僅有輕微的精度折衷。此外，Prodigy 擁有更大的緩存，減少了對 DRAM 帶寬的需求。Prodigy 還支持 TAI（Tachyum AI），一種新的數(shù)據(jù)類型，能提供更大的性能提升。

為了全面了解 Prodigy的能力，一個1.6萬億參數(shù)的Switch Transformer 需要 52 個 NVIDIA H200 80GB GPU（每個成本為 41,789 美元）和7個Supermicro GPU服務(wù)器（每個成本為 25,000 美元），總成本為 2,348,028 美元。而該公司聲稱，一個配備 2TB DDR5 DRAM的Prodigy單個插槽系統(tǒng)可就以容納和運行如此大的模型，成本僅為23,000美元，這僅是英偉達(dá)方案成本的1/100。如果真如此，這將是一個顛覆性的通用處理器。

理論上都很美好，但是目前Tachyum公司最大的問題是，尚沒有實際的產(chǎn)品出來。Prodigy的推出時間一再延遲，今年推明年。Prodigy通用處理器最初計劃于2019年推出，并于2020年上市。然而它不斷推遲，推遲到2021年，然后是2022年，然后是2023年。最新的消息是，據(jù)該公司稱，采用5nm工藝的Prodigy處理器將于明年流片和量產(chǎn)。一個小插曲是，此前該公司還起訴了EDA公司Cadence，說他們的設(shè)計未能滿足性能目標(biāo)。

據(jù)報道，Tachyum已收到一份大型采購訂單，用于構(gòu)建一個大型系統(tǒng)。據(jù)Tom's Hardware報道，Tachyum還計劃于 2026 年發(fā)布 Prodigy 2，這是一款使用 PCIe 6.0 和 CXL 的 3nm 處理器，以及高帶寬內(nèi)存 (HBM) 3 RAM。

我們也希望明年真的能見到這款強大的通用處理器。

Ubitium：通用RISC-V微處理器

德國初創(chuàng)公司Ubitium，這家公司成立于2024年。創(chuàng)始人的履歷頗豐：董事長/聯(lián)合創(chuàng)始人Peter W Weber層就職于英特爾、德州儀器、Siliconix等；首席執(zhí)行官/聯(lián)合創(chuàng)始人Hyun Shin Cho；首席技術(shù)官/聯(lián)合創(chuàng)始人Martin Vorbach在大學(xué)期間創(chuàng)辦了自己的第一家微處理器公司。他創(chuàng)辦了可重構(gòu)處理器（FPGA）領(lǐng)域的領(lǐng)軍企業(yè) PACT XPP Technologies。PACT 的技術(shù)已授權(quán)給所有美國主要半導(dǎo)體公司，馬丁名下?lián)碛?00多項專利。

Ubitium旨在通過引入完全與工作負(fù)載無關(guān)的通用處理器架構(gòu)從根本上改變計算格局。首席技術(shù)官Martin Vorbach花了15年時間開發(fā)這一通用處理器架構(gòu)。Ubitium的通用處理器架構(gòu)代表了計算行業(yè)的一次重大創(chuàng)新，它挑戰(zhàn)了現(xiàn)有的處理器設(shè)計范式。

通用處理器陣列（來源：Ubitium）

傳統(tǒng)的微處理器往往需要為不同的計算任務(wù)，如圖形處理、人工智能計算等，設(shè)計專門的硬件核心。而Ubitium希望通過同質(zhì)、與工作負(fù)載無關(guān)的微處理架構(gòu)，用單一、多功能的芯片取代傳統(tǒng)處理器（CPU、NPU、GPU、DSP 和 FPGA）來處理所有工作負(fù)載，該架構(gòu)基于開源指令集 RISC-V，旨在通過統(tǒng)一的設(shè)計，不僅使處理器尺寸更小、能效更高，而且大幅降低成本，使其能夠適應(yīng)各種應(yīng)用場景。

Ubitium的設(shè)計靈感源于當(dāng)前計算機體系結(jié)構(gòu)面臨的瓶頸，特別是在硬件資源的高效利用方面。當(dāng)前許多處理器架構(gòu)面臨著不必要的“瑣碎管理”任務(wù)——這些任務(wù)占用了大量硬件資源卻并未直接提高性能。此外，許多高效計算技術(shù)，如同步多線程，往往需要額外的硬件開銷來支持，這就導(dǎo)致了更高的能耗和復(fù)雜性。

過去數(shù)十年來，芯片技術(shù)的進步主要圍繞尺寸展開，晶體管變得越來越小，因此通過整合更多晶體管，微處理器的功能也變得更強大。然而，設(shè)計并沒有發(fā)生根本性改變。Ubitium通過重新設(shè)計處理器的內(nèi)部結(jié)構(gòu)，消除了這些不必要的開銷，從而提高了性能。除了架構(gòu)創(chuàng)新外，Ubitium還計劃推出多個芯片型號，涵蓋從小型設(shè)備到大型計算系統(tǒng)的不同需求。這些芯片的陣列大小可以不同，但它們都基于相同的架構(gòu)和軟件平臺。

目前，該公司擁有 18 項基于 FPGA 仿真的原型技術(shù)專利，并正在開發(fā)一系列芯片，這些芯片的陣列大小各不相同，但共享相同的底層通用架構(gòu)和軟件堆棧。Ubitium所開發(fā)的通用芯片目標(biāo)市場是邊緣或嵌入式設(shè)備，幫助企業(yè)將部署成本降低100倍。不過，該公司強調(diào)，該架構(gòu)具有高度可擴展性，未來也可用于數(shù)據(jù)中心。

雖然Ubitium的產(chǎn)品聽起來像是FPGA，比如都強調(diào)硬件靈活性和可重用性，但它并不是傳統(tǒng)意義上的FPGA。相比FPGA，Ubitium的處理器并沒有依賴于“硬件仿真”或“動態(tài)硬件配置”的方法，而是通過統(tǒng)一的架構(gòu)和核心資源來實現(xiàn)不同功能。

2024年11月21日，Ubitium獲得了370萬美元種子資金。這筆投資將用于開發(fā)首批原型并為客戶準(zhǔn)備初始開發(fā)套件，首批芯片計劃于2026年推出。不過，在短短兩年內(nèi)推出一個旨在“徹底改變”行業(yè)的架構(gòu)至少可以說是具有挑戰(zhàn)性的。目前的370萬美元幾乎可以肯定不足以讓 Ubitium的“突破性”芯片起步。通常，芯片進入流片階段需要花費數(shù)億美元。

前路挑戰(zhàn)不可忽視

無論是 Tachyum 還是 Ubitium，它們選擇開發(fā)通用處理器的原因，都來自于計算需求的復(fù)雜性和多樣化。傳統(tǒng)的計算架構(gòu)，如 CPU、GPU 和 FPGA，雖然各自在特定領(lǐng)域中表現(xiàn)突出，但它們的組合和協(xié)同工作往往帶來額外的成本和復(fù)雜性。尤其是在 AI、大數(shù)據(jù)和高性能計算（HPC）日益普及的背景下，數(shù)據(jù)中心和云計算需要一種更高效、更靈活、更具成本優(yōu)勢的解決方案。

但初創(chuàng)公司來做通用處理器還是會面臨很大的挑戰(zhàn)：

技術(shù)實現(xiàn)：要在同一個芯片上處理多種計算任務(wù)（如圖形處理、AI 推理、高性能計算等），需要精心設(shè)計架構(gòu)，確保每種任務(wù)的計算能力都得到充分發(fā)揮而不互相干擾。Tachyum提出的架構(gòu)仍處于早期階段，并且已經(jīng)經(jīng)歷了多次延期。產(chǎn)品是否能按計劃交付，以及它是否能在競爭激烈的市場中脫穎而出，仍然是一個巨大的不確定性。

市場接受度：盡管他們的芯片可能在性能上具有優(yōu)勢，但市場對新架構(gòu)的接受度仍然是個問題。尤其是在傳統(tǒng)的 CPU 和 GPU 仍占據(jù)主流地位的情況下，新型的通用處理器是否能夠與 NVIDIA、Intel 等成熟廠商的產(chǎn)品競爭并獲得廣泛采用，仍有待觀察。

成本與規(guī)?；杭幢愫筮M者都宣稱其芯片在成本和功耗優(yōu)勢顯著，但要實現(xiàn)大規(guī)模生產(chǎn)并降低成本，需要巨額的研發(fā)和生產(chǎn)投資。處理器的制造和流片成本通常非常昂貴，因此資金的穩(wěn)定和籌措將是其成功的關(guān)鍵因素。

Tachyum和Ubitium都在試圖解決計算領(lǐng)域的一個重要問題：如何整合多種處理功能，提供更靈活、更高效的解決方案。盡管兩者的技術(shù)愿景非常吸引人，但在實現(xiàn)過程中面臨的技術(shù)挑戰(zhàn)、市場接受度以及資金問題都不容忽視。要想在競爭激烈的半導(dǎo)體市場中脫穎而出，除了技術(shù)突破，還需要強有力的資金支持和客戶認(rèn)可。

小結(jié)

強如英特爾和AMD，在AI的浪潮中，都有點招架不住，初創(chuàng)公司能否掀起浪花？在這個風(fēng)云變幻的時代，通用處理器能否重奪王座呢？結(jié)果尚未知。

但可以明見的是，這條芯片“新”賽道，已經(jīng)悄然崛起。

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表，版權(quán)歸原作者所有。文章系作者個人觀點，不代表創(chuàng)業(yè)邦立場，轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問，請聯(lián)系editor@cyzone.cn。

文章版權(quán)聲明：除非注明，否則均為mk體育-在線官網(wǎng)直播平臺原創(chuàng)文章，轉(zhuǎn)載或復(fù)制請以超鏈接形式并注明出處。

相關(guān)閱讀

目錄[+]