视频作者: Alex Ziskind(他之前做过多个 DGX Spark 的评测)

Alex把 8 台 DGX Spark 连接成一个 1TB VRAM 统一内存集群(每台 Spark 有 128GB 统一内存),实现了多机分布式推理大型模型。NVIDIA 官方只提供了最多 2 台的连接文档,
他靠社区和自己摸索实现了 4 台、最终 8 台的集群。
硬件连接:
使用每台 DGX Spark 上的 ConnectX-7(支持 200Gbps RDMA / RoCE)网口。
购买高规格 QSFP56 / 400G PAM4 电缆(注意:他一开始买错了 QSFP28 版本,导致带宽只有 50Gbps,后来换对才达到 100G+)。
使用一台 MikroTik 400G 交换机(约 1300 美元)做中心连接,也尝试过直连。
形成 mesh 网络,机器间可无密码 SSH 互通。
软件/配置:
使用社区方案(如 eugr 的 GitHub 项目:spark-vllm-docker)。
开启 Tensor Parallelism + RDMA(NCCL + RoCE),让 GPU 内存能跨机直接访问,降低延迟。
通过 vLLM 等框架做模型分片(sharding)。
用 Claude 等 AI 助手辅助管理多机任务。
关键技术:
RDMA over Converged Ethernet (RoCE):绕过传统网络栈,直接读写对方内存,延迟极低(直连 ~1μs,通过交换机 ~3μs)。
每个物理端口可拆成两个 100G 虚拟接口,总带宽可达 200G/节点。
支持模型分片、CUDA Graphs 等优化。
小模型(如 Qwen 34B):prompt 处理速度明显提升。
较大模型(Qwen2-VL 32B Instruct,约 66GB):
1 台节点:3.58 tokens/s
2 台节点:6.14 tokens/s(接近翻倍,GPU 利用率很高)
4 台节点:11.36 tokens/s(继续提升,但边际收益递减)
整体表现:
Token 生成速度提升约 7%(多节点后)。
Prefill(提示处理)速度反而下降 19%(可能是通信开销或配置问题)。
成功运行 Qwen 3.5 397B(800GB 模型)—— 8 台集群下 sharding 约 7 分钟, build CUDA graphs 约 3 分钟,生成速度 24 tokens/s(社区反馈)。
优点:能跑远超单机的大型模型,桌面级 1TB 统一内存集群很强,适合本地开发/推理。
缺点:电缆和交换机贵、配置繁琐、散热大(热风直吹)、NVIDIA 官方支持不足、性能提升不是线性(网络延迟和带宽仍是瓶颈)。
“民间极限玩机”演示,展示了 DGX Spark 的集群潜力
扫一扫,关注我们最新消息