DGX Spark 连接成一个 1TB VRAM 统一内存集群

日期：05-09 点击：27 属于：技术资料

视频作者： Alex Ziskind（他之前做过多个 DGX Spark 的评测）

Alex把 8 台 DGX Spark 连接成一个 1TB VRAM 统一内存集群（每台 Spark 有 128GB 统一内存），实现了多机分布式推理大型模型。NVIDIA 官方只提供了最多 2 台的连接文档，
他靠社区和自己摸索实现了 4 台、最终 8 台的集群。 
如何搭建集群硬件连接：
使用每台 DGX Spark 上的 ConnectX-7（支持 200Gbps RDMA / RoCE）网口。
购买高规格 QSFP56 / 400G PAM4 电缆（注意：他一开始买错了 QSFP28 版本，导致带宽只有 50Gbps，后来换对才达到 100G+）。
使用一台 MikroTik 400G 交换机（约 1300 美元）做中心连接，也尝试过直连。
形成 mesh 网络，机器间可无密码 SSH 互通。
软件/配置：
使用社区方案（如 eugr 的 GitHub 项目：spark-vllm-docker）。
开启 Tensor Parallelism + RDMA（NCCL + RoCE），让 GPU 内存能跨机直接访问，降低延迟。
通过 vLLM 等框架做模型分片（sharding）。
用 Claude 等 AI 助手辅助管理多机任务。
关键技术：
RDMA over Converged Ethernet (RoCE)：绕过传统网络栈，直接读写对方内存，延迟极低（直连 ~1μs，通过交换机 ~3μs）。
每个物理端口可拆成两个 100G 虚拟接口，总带宽可达 200G/节点。
支持模型分片、CUDA Graphs 等优化。
测试结果（主要来自 4 台集群阶段，8 台类似）小模型（如 Qwen 34B）：prompt 处理速度明显提升。
较大模型（Qwen2-VL 32B Instruct，约 66GB）：
1 台节点：3.58 tokens/s
2 台节点：6.14 tokens/s（接近翻倍，GPU 利用率很高）
4 台节点：11.36 tokens/s（继续提升，但边际收益递减） 
整体表现：
Token 生成速度提升约 7%（多节点后）。
Prefill（提示处理）速度反而下降 19%（可能是通信开销或配置问题）。
成功运行 Qwen 3.5 397B（800GB 模型）—— 8 台集群下 sharding 约 7 分钟，
build CUDA graphs 约 3 分钟，生成速度 24 tokens/s（社区反馈）。 
优缺点总结：优点：能跑远超单机的大型模型，桌面级 1TB 统一内存集群很强，适合本地开发/推理。
缺点：电缆和交换机贵、配置繁琐、散热大（热风直吹）、NVIDIA 官方支持不足、性能提升不是线性（网络延迟和带宽仍是瓶颈）。

“民间极限玩机”演示，展示了 DGX Spark 的集群潜力

上一：NVIDIA DGX Spark 目前用户反馈较多启动、显示、驱动/兼容性、热管理和更新相关问题。

下一：没有了

关于我们

扫一扫，关注我们最新消息

联系我们

025-66073091

工作时间：周一至周五 9:00-18:00

联系人：NVIDIA

手机：18915339688

微信

NVIDIA CN

本站以NVIDIA（英伟达）全系列产品为核心，聚焦品牌旗下各类硬件、软件及解决方案的全面、深度介绍，致力于为广大用户打造一个专业、易懂的NVIDIA产品信息聚合平台。
无论是深耕行业的专业从业者、追求极致体验的硬件爱好者，还是初次接触NVIDIA产品的新手用户，都能在这里获取实用的产品资讯，解锁NVIDIA科技的核心魅力。

新闻资讯

DGX Spark 连接成一个 1TB VRAM 统一内存集群