在 2025 年的 CES 活動上,Nvidia (NVDA.US)這宣布與聯(lián)發(fā)科合作開發(fā)了一款售價(jià) 3000 美元的新型臺式電腦,該電腦搭載了基于 Arm 的全新精簡版 Grace CPU 和 Blackwell GPU 超級芯片。新系統(tǒng)名為“Project DIGITS”(不要與 Nvidia 的深度學(xué)習(xí) GPU 訓(xùn)練系統(tǒng):DIGITS混淆)。該平臺為 AI 和 HPC 市場提供了一系列新功能。
Project DIGITS 采用具有 20 個 Arm 核心的全新 Nvidia GB10 Grace Blackwell 超級芯片,旨在提供“千萬億次”(FP4 精度)的 GPU-AI 計(jì)算性能,用于原型設(shè)計(jì)、微調(diào)和運(yùn)行大型 AI 模型。(強(qiáng)制性浮點(diǎn)解釋器可能在這里有所幫助。)
自 G8x 系列顯卡發(fā)布(2006 年)以來,Nvidia 一直致力于提供適用于整個 GPU 系列的 CUDA 工具和庫。能夠使用低成本客戶顯卡進(jìn)行 CUDA 開發(fā)有助于創(chuàng)建充滿活力的應(yīng)用程序生態(tài)系統(tǒng)。由于高性能 GPU 的成本和稀缺性,DIGITS 項(xiàng)目應(yīng)該能夠?qū)崿F(xiàn)更多基于 LLM 的軟件開發(fā)。與低成本 GPU 一樣,在桌面上運(yùn)行、配置和微調(diào)開放式變壓器模型(例如 llama)的能力應(yīng)該對開發(fā)人員具有吸引力。例如,通過提供 128GB 內(nèi)存,DIGITS 系統(tǒng)將有助于克服許多低成本消費(fèi)級顯卡上的 24GB 限制。
規(guī)格不足
新款 GB10 超級芯片采用 Nvidia Blackwell GPU,配備最新一代 CUDA 核心和第五代 Tensor 核心,通過 NVLink-C2C 芯片到芯片互連連接到高性能 Nvidia Grace 類 CPU,其中包括20 個節(jié)能的 Arm 核心(十個 Arm Cortex-X925 和十個 Cortex-A725 CPU 核心)。
雖然沒有可用的規(guī)格,但 GB10 的 GPU 端被認(rèn)為提供的性能低于Grace-Blackwell GB200。需要明確的是;GB10 不是分檔或激光修剪的GB200。GB200超級芯片有 72 個 Arm Neoverse V2 核心和兩個 B200 Tensor Core GPU。
DIGITS 系統(tǒng)的定義特征是 CPU 和 GPU 之間統(tǒng)一、一致的內(nèi)存 128GB(LPDDR5x)。這種內(nèi)存大小在 GPU 上運(yùn)行 AI 或 HPC 模型時(shí)打破了“GPU 內(nèi)存障礙”;例如,80GB Nvidia A100 的當(dāng)前市場價(jià)格從 18,000 美元到 20,000 美元不等。有了統(tǒng)一、一致的內(nèi)存,CPU 和 GPU 之間的 PCIe 傳輸也被消除了。下圖中的渲染表明內(nèi)存量是固定的,用戶無法擴(kuò)展。該圖還表明ConnectX 網(wǎng)絡(luò)(以太網(wǎng)?)、Wifi、藍(lán)牙和 USB 連接可用。
該系統(tǒng)還提供高達(dá) 4TB 的 NVMe 存儲。在電源方面,Nvidia 提到了標(biāo)準(zhǔn)電源插座。沒有特定的電源要求,但尺寸和設(shè)計(jì)可能會提供一些線索。首先,與 Mac mini 系統(tǒng)一樣,小尺寸(見圖 2)表明產(chǎn)生的熱量一定不會那么高。其次,根據(jù) CES 展廳的圖像,沒有風(fēng)扇通風(fēng)口或切口。機(jī)箱的正面和背面似乎有一種海綿狀的材料,可以提供氣流,并可能充當(dāng)整個系統(tǒng)的過濾器。由于散熱設(shè)計(jì)表明功率,功率表明性能,因此 DIGITS 系統(tǒng)可能不是一款為實(shí)現(xiàn)最大性能(和功耗)而調(diào)整的尖叫器,而是一款具有優(yōu)化內(nèi)存架構(gòu)的涼爽、安靜、高效的 AI 桌面系統(tǒng)。
如上所述,該系統(tǒng)非常小。下圖提供了一些鍵盤和顯示器的視角(沒有顯示電纜。根據(jù)我們的經(jīng)驗(yàn),其中一些小型系統(tǒng)可能會因電纜重量而從桌面上拉下來。)
桌面上的人工智能
Nvidia 報(bào)告稱,開發(fā)人員可以運(yùn)行多達(dá) 2000 億個參數(shù)的大型語言模型,以增強(qiáng) AI 創(chuàng)新。此外,使用 Nvidia ConnectX 網(wǎng)絡(luò),兩臺 Project DIGITS AI 超級計(jì)算機(jī)可以連接起來,運(yùn)行多達(dá) 4050 億個參數(shù)的模型。借助 Project DIGITS,用戶可以使用自己的桌面系統(tǒng)開發(fā)和運(yùn)行模型推理,然后在加速云或數(shù)據(jù)中心基礎(chǔ)設(shè)施上無縫部署模型。
Nvidia 創(chuàng)始人兼首席執(zhí)行官黃仁勛表示:“AI 將成為各行各業(yè)中每一種應(yīng)用的主流。借助 Project DIGITS,Grace Blackwell 超級芯片將惠及數(shù)百萬開發(fā)者。將 AI 超級計(jì)算機(jī)放在每一位數(shù)據(jù)科學(xué)家、AI 研究人員和學(xué)生的桌子上,將使他們能夠參與并塑造 AI 時(shí)代。”
這些系統(tǒng)不適用于訓(xùn)練,而是設(shè)計(jì)用于在本地運(yùn)行量化的 ?LLM(減少模型權(quán)重的精度大小)。Nvidia 引用的 1 petaFLOP 性能數(shù)字適用于 FP4 精度權(quán)重(四位,或 16 個可能的數(shù)字)許多模型可以在此級別充分運(yùn)行,但量化可以增加到 FP8、FP16 或更高,以獲得更好的結(jié)果,具體取決于模型的大小和可用內(nèi)存。例如,對 Llama-3-70B 模型使用 FP8 精度權(quán)重需要每個參數(shù)一個字節(jié)或大約 70GB 的內(nèi)存。將精度減半到 FP4 會將其減少到 35GB 的內(nèi)存,但增加到 FP32 將需要 140GB,這比 DIGITS 系統(tǒng)提供的內(nèi)存還要大。
有人用 HPC 集群嗎?
可能不為人所知的是,DIGITS 并不是第一款桌邊 Nvidia 系統(tǒng)。2024年,GPTshop.ai推出了一款基于 GH200 的桌邊系統(tǒng)。HPCwire提供了包括 HPC 基準(zhǔn)測試在內(nèi)的報(bào)道。與 DIGITS 項(xiàng)目不同,GPTshop 系統(tǒng)在桌邊機(jī)箱中提供了 GH200 Grace-Hopper 超級芯片和 GB200 Grace-Blackwell 超級芯片的全部功能。性能的提升也伴隨著更高的成本。
將 DIGITS 項(xiàng)目系統(tǒng)用于桌面 HPC 可能是一種有趣的方法。除了運(yùn)行更大的 AI 模型之外,集成的 CPU-GPU 全局內(nèi)存對 HPC 應(yīng)用程序也非常有益。請考慮最近HPCwire 的一篇關(guān)于僅在英特爾兩顆 Xeon 6 Granite Rapids 處理器(無 GPU)上運(yùn)行的 CFD 應(yīng)用程序的故事。根據(jù)作者 Moritz Lehmann 博士的說法,模擬的促成因素是他能夠用于模擬的內(nèi)存量。
同樣,許多 HPC 應(yīng)用程序不得不想方設(shè)法繞過常見 PCIe 連接視頻卡的小內(nèi)存域。使用多張卡或 MPI 有助于擴(kuò)展應(yīng)用程序,但 HPC 中最有利的因素始終是更多內(nèi)存。
當(dāng)然,需要基準(zhǔn)測試來確定 DIGITS 項(xiàng)目是否完全適用于桌面 HPC,但還有另一種可能性:“用這些構(gòu)建一個 Beowulf 集群”。這句話通常被認(rèn)為是一個玩笑,但對于 DIGITS 項(xiàng)目來說可能更嚴(yán)肅一些。當(dāng)然,集群是用服務(wù)器和(多個)PCEe 連接的 GPU 卡構(gòu)建的。然而,一個小型、中等功率、完全集成的全局內(nèi)存 CPU-GPU 可能會成為更平衡、更有吸引力的集群構(gòu)建塊。還有一個好處:它們已經(jīng)運(yùn)行 Linux 并具有內(nèi)置的 ConnectX 網(wǎng)絡(luò)。
本文轉(zhuǎn)自“半導(dǎo)體行業(yè)觀察”微信公眾號;智通財(cái)經(jīng)編輯:陳筱亦。