Deepseek R1 671B 本地部署方案

公司让部署满血的 Deepseek R1 671B 目前机器有四台每台机器八张 4090 每张显卡 24G 有大佬能推荐一下部署方案嘛

Marshaii

80 天前

@mcsddjyd sorry ，在地铁上刷到直接收藏还没来得及看。无视我吧，Orz

waityan

80 天前

别想了，这最大只能部署 1.58 -bit 的版本吧，用处不大。不如直接用 QWQ-32B 吧

mcsddjyd

80 天前

@waityan 老板要求部署我也没法现在就卡在四台机器上的 4090 加载模型的时候无法通信使用的是 ray+vllm

pkoukk

80 天前

@mcsddjyd #6 一般的以太网承载不了显卡间通信的带宽吧，多卡机器通信要用 InfiniBand 或者 ROCE 吧

ychost

80 天前

建议 QWQ 吧，你这个部署低级量化版本效果不理想

Chihaya0824

80 天前

4*8*24=768G
这显存应该够，为啥只能部署低精度的...
神奇，ray+vllm 不能用，ray list nodes 正常吗？
那要不试一下 llama.cpp rpc mode?
https://github.com/ggml-org/llama.cpp/blob/master/examples/rpc/README.md

dayanshenjun

80 天前

@mcsddjyd #6 7 楼老哥说的是对的，但是 RoCE 的话带宽估计也不行，我们也在研究，想要部署 671B FP8 版本的话，单台八卡至少是 H20 96G 的，集群的话，供应商推荐至少是 400G 的 IB 网卡起步，初步算至少 200W 吧😂

SeaRecluse

80 天前

没有 NVLink 还想部署，老老实实换 X100 系列

kd9yYw2RyhQwAwzn

80 天前

单纯跑起来的话 sglang 或者 ray cluster 就行

Zaden

80 天前

4090 没法做服务器之间集群的，普通的 pcie 连接带宽不够，需要 nvlink 、hccs 之类专用总线

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.