DGX Spark 连接成一个 1TB VRAM 统一内存集群

日期:05-09  点击:27  属于:技术资料

视频作者: Alex Ziskind(他之前做过多个 DGX Spark 的评测)

Alex8 台 DGX Spark 连接成一个 1TB VRAM 统一内存集群(每台 Spark 有 128GB 统一内存),实现了多机分布式推理大型模型。NVIDIA 官方只提供了最多 2 台的连接文档,
他靠社区和自己摸索实现了 4 台、最终 8 台的集群。

如何搭建集群
  1. 硬件连接

    • 使用每台 DGX Spark 上的 ConnectX-7(支持 200Gbps RDMA / RoCE)网口。

    • 购买高规格 QSFP56 / 400G PAM4 电缆(注意:他一开始买错了 QSFP28 版本,导致带宽只有 50Gbps,后来换对才达到 100G+)。

    • 使用一台 MikroTik 400G 交换机(约 1300 美元)做中心连接,也尝试过直连。

    • 形成 mesh 网络,机器间可无密码 SSH 互通。

  2. 软件/配置

    • 使用社区方案(如 eugr 的 GitHub 项目:spark-vllm-docker)。

    • 开启 Tensor Parallelism + RDMA(NCCL + RoCE),让 GPU 内存能跨机直接访问,降低延迟。

    • 通过 vLLM 等框架做模型分片(sharding)。

    • 用 Claude 等 AI 助手辅助管理多机任务。

  3. 关键技术

    • RDMA over Converged Ethernet (RoCE):绕过传统网络栈,直接读写对方内存,延迟极低(直连 ~1μs,通过交换机 ~3μs)。

    • 每个物理端口可拆成两个 100G 虚拟接口,总带宽可达 200G/节点。

    • 支持模型分片、CUDA Graphs 等优化。

测试结果(主要来自 4 台集群阶段,8 台类似)
  • 小模型(如 Qwen 34B):prompt 处理速度明显提升。

  • 较大模型(Qwen2-VL 32B Instruct,约 66GB):

    • 1 台节点:3.58 tokens/s

    • 2 台节点:6.14 tokens/s(接近翻倍,GPU 利用率很高)

    • 4 台节点:11.36 tokens/s(继续提升,但边际收益递减)

  • 整体表现

    • Token 生成速度提升约 7%(多节点后)。

    • Prefill(提示处理)速度反而下降 19%(可能是通信开销或配置问题)。

    • 成功运行 Qwen 3.5 397B(800GB 模型)—— 8 台集群下 sharding 约 7 分钟, build CUDA graphs 约 3 分钟,生成速度 24 tokens/s(社区反馈)。

优缺点总结
  • 优点:能跑远超单机的大型模型,桌面级 1TB 统一内存集群很强,适合本地开发/推理。

  • 缺点:电缆和交换机贵、配置繁琐、散热大(热风直吹)、NVIDIA 官方支持不足、性能提升不是线性(网络延迟和带宽仍是瓶颈)。


“民间极限玩机”演示,展示了 DGX Spark 的集群潜力


关于我们
扫一扫,关注我们最新消息扫一扫,关注我们最新消息
联系我们
025-66073091

工作时间:周一至周五 9:00-18:00

联系人:NVIDIA

手机:18915339688

NVIDIA CN
本站以NVIDIA(英伟达)全系列产品为核心,聚焦品牌旗下各类硬件、软件及解决方案的全面、深度介绍,致力于为广大用户打造一个专业、易懂的NVIDIA产品信息聚合平台。
无论是深耕行业的专业从业者、追求极致体验的硬件爱好者,还是初次接触NVIDIA产品的新手用户,都能在这里获取实用的产品资讯,解锁NVIDIA科技的核心魅力。
NVIDIA CN 版权所有 NVIDIA