想用新版本建议参考此文:Nvidia DGX Spark 集群分别使用vLLM和SGLang部署 Qwen3.5-35B-A3B 技术方案-CSDN博客 用老版本模型,可以使用官方步骤:用于推理的 vLLM | DGX Spark | NVIDIA 开发者 测试推理效率 vllm 经过测试DGX Spark 128GB 用vllm运行Qwen/Qwen3.5-35B-A3B-FP8 token大概50token/s速率,占用105GB内存。推理速度OpenClaw勉强可用。 经过测试DGX Spark 128GB …