近日,搭載英偉達(dá) GB10 Grace Blackwell 超級(jí)芯片的 DGX Spark 桌面 AI 超算產(chǎn)品陸續(xù)上市開售,作為英偉達(dá)首款面向輕量化場景的 Grace Blackwell 架構(gòu)產(chǎn)品,DGX Spark 不是單純的性能堆疊,而是面向高性能工作站、桌面級(jí) AI 開發(fā)和輕量化數(shù)據(jù)中心的整體解決方案,試圖以“迷你機(jī)身 + 大模型支持”的組合,填補(bǔ)消費(fèi)級(jí)顯卡與大型數(shù)據(jù)中心之間的算力空白。
從今年初 NVIDIA 首次宣布代號(hào) Project DIGITS,到第一方 FE 版本定價(jià) 3999 美元(約合 28533 元人民幣),當(dāng)時(shí)一度憑借 NUC 級(jí)的小巧體積與 1PetaFlop(1000TOPS)的 FP4 稀疏 AI 算力,點(diǎn)燃了桌面級(jí)高性能 AI 計(jì)算市場的討論熱情。現(xiàn)在,被重新命名為 DGX Spark 的桌面迷你 AI 工作站終于正式開售,華碩、戴爾和聯(lián)想等上市的產(chǎn)品價(jià)格基本都在 32999 元以上。
隨著 DGX Spark 的開售,讓IT之家不禁想起另一款在相同賽道上已經(jīng)站穩(wěn)腳跟的產(chǎn)品 —— 基于 AMD 銳龍 AI Max+ 395 處理器的 Mini AI 工作站。同樣主打“桌面級(jí) AI 算力”,同樣支持大模型本地推理,英偉達(dá) GB10 與 AMD 銳龍 AI Max+ 395 究竟在架構(gòu)設(shè)計(jì)、性能表現(xiàn)上有何差異?對(duì)于缺乏專業(yè)機(jī)房支持、預(yù)算有限且需要兼顧多場景使用的入門開發(fā)者而言,哪款產(chǎn)品更能滿足“低門檻、高實(shí)用”的核心需求?今天不妨隨小編來分析一下。

架構(gòu)與性能對(duì)比:從芯片設(shè)計(jì)到實(shí)際算力的差異化呈現(xiàn)
要判斷兩款產(chǎn)品的適用場景,首先需深入其核心芯片的架構(gòu)邏輯與實(shí)際性能表現(xiàn)。英偉達(dá) GB10 與 AMD 銳龍 AI Max+ 395 雖同為“高性能計(jì)算芯片”,但在核心定位、架構(gòu)設(shè)計(jì)與性能釋放上,呈現(xiàn)出鮮明的差異化特征,而這些差異直接決定了它們對(duì)入門開發(fā)者的友好度。
英偉達(dá) GB10:數(shù)據(jù)中心技術(shù)的桌面化應(yīng)用
英偉達(dá) GB10 超級(jí)芯片是其旗艦級(jí) Grace-Blackwell 超級(jí)芯片的“小型化集成版本”,其設(shè)計(jì)目標(biāo)是在有限的物理空間和功耗下(整機(jī)功耗約 240 瓦),承擔(dān)起此前必須依賴大型數(shù)據(jù)中心系統(tǒng)的部分任務(wù)。
計(jì)算核心:GB10 的 CPU 部分是英偉達(dá)與聯(lián)發(fā)科合作的產(chǎn)物,采用了 20 核 ARMv9.2 架構(gòu),具體由 10 個(gè)高性能 Arm Cortex-X925 核心與 10 個(gè)高能效 Arm Cortex-A725 核心組成。其 GPU 單元?jiǎng)t擁有 6144 個(gè) CUDA 核心,是 Blackwell 架構(gòu)的精簡版本。該 GPU 保留了對(duì) FP4(4 位浮點(diǎn))數(shù)據(jù)格式的支持,使其能夠?qū)崿F(xiàn) 1 PetaFLOP(即 1000 TOPS)的稀疏 AI 算力。在單精度(FP32)性能方面,其算力為 31 TFLOPS,與消費(fèi)級(jí)顯卡 RTX 5070 的水平相當(dāng)。

統(tǒng)一內(nèi)存與高速互聯(lián):該芯片配置了 128GB、256 位的 LPDDR5x-9400 統(tǒng)一內(nèi)存,通過 2.5D 封裝技術(shù)與 CPU、GPU 集成。CPU 與 GPU 通過帶寬高達(dá) 600 GB/s 的 NVLink C2C(Chip-to-Chip)鏈路共享內(nèi)存池,旨在減少傳統(tǒng) PCIe 總線帶來的數(shù)據(jù)傳輸延遲。
專用網(wǎng)絡(luò)與擴(kuò)展功能:DGX Spark 集成了 ConnectX-7 200Gb/s 高速網(wǎng)卡。通過背部的 QSFP 端口,用戶可以連接兩臺(tái) DGX Spark 設(shè)備,從而將推理能力擴(kuò)展至支持高達(dá) 4050 億參數(shù)的模型。這進(jìn)一步明確了其作為專業(yè) AI 開發(fā)工具的定位。
軟件生態(tài):搭載定制版 DGX OS(基于 Ubuntu Linux),預(yù)裝英偉達(dá) AI 軟件堆棧,僅支持 Linux 環(huán)境下的 AI 開發(fā),不兼容 Windows 系統(tǒng)與 X86 架構(gòu)軟件。
AMD 銳龍 AI Max+ 395:端側(cè) AI 的“全場景全能選手”
與 GB10 的“單一場景優(yōu)化”不同,AMD 銳龍 AI Max+ 395 的核心設(shè)計(jì)邏輯是“兼顧 AI 算力與全場景兼容性”,其架構(gòu)圍繞“Zen5 CPU+RDNA3.5 GPU+XDNA2 NPU”的三重計(jì)算單元展開,參數(shù)配置更貼近入門開發(fā)者的多維度需求:
計(jì)算核心:16 核 32 線程的 Zen 5 架構(gòu) CPU,最高加速頻率高達(dá) 5.1GHz,配備 80MB 總緩存(16MB L2+64MB L3),性能接近桌面級(jí)處理器,可輕松應(yīng)對(duì)數(shù)據(jù)預(yù)處理、多任務(wù)并發(fā)等需求;最高 40 單元的 RDNA 3.5 架構(gòu) iGPU(命名為 Radeon 8060S),帶寬達(dá) 256GB/s,性能媲美移動(dòng)版 RTX 4060/4070,支持圖形密集型 AI 任務(wù)(如多模態(tài)模型推理);XDNA 2 NPU 峰值算力高達(dá) 50TOPS,原生支持微軟 Windows 11 AI+PC 規(guī)范與 Copilot 等端側(cè) AI 應(yīng)用。
