从如何选显卡的帖子看到了 nvlink 多 gpu 显存叠加,网上搜了一下,还是没太明白这个如何让显存叠加起来用的? 4 块 24G 显存的显卡能当 96G 显存用?
![]() |
1
yangzair 2 天前
不完全能,分布式代码很麻烦。且 nvlink 比卡贵系列
|
![]() |
2
zhanying 2 天前 via Android
1.NVLink 不能把显存叠加把多个显卡当一个显卡用
2.要显存叠加也可以不用 NVLink |
![]() |
3
clemente 2 天前
只能走分布式
|
4
Qazxcv123 2 天前
现在的 nvidia 消费级 GPU 都不再支持 NVLINK P2P 桥接。用商业卡可能还支持
|
![]() |
5
dhb233 2 天前
pcie 太弱鸡了,然后 nv 用自己的协议和总线把多块显卡连接起来,就是这样
|
![]() |
6
NeverBelieveMe OP @clemente 分布式的作用是什么呢?
|
![]() |
7
michaelzxp 2 天前
可以,就是之间的带宽没那么高,而且应用要支持。
|
![]() |
8
HeraingBus 2 天前
“4 块 24G 显存的显卡能当 96G 显存用”
是的 ✅ ,你说的没问题 |
9
martinf 2 天前
@NeverBelieveMe 简单来讲,模型并行是在多张 GPU 间按层或算子切分模型,前向/反向时交换中间激活和梯度,并借助 NCCL ( NVLink/PCIe/网络)同步梯度后各自更新本地参数,以解决单卡显存不足的问题。
|
![]() |
10
rogerer 2 天前
有很多种方式来并行。最简单的,你如果有 256 个 batch 要训练/推理,那就分成若干份,比如 4 个 64 个样本,这样就能一次推理得到 256 个样本的结果。但是如果模型参数足够大,以至于一张卡装不下,那就得在其他层面进行并行。
|
11
paopjian 2 天前
不同模型使用方法不一样吧,nvlink 用于加强卡间通信的, 比如这张卡算完的中间结果给下张卡继续计算, 这张卡处理下一个数据,或者训练完一个 batch 后互相更新本地参数. 并行计算也分多种方式, nvlink 是为了极致运算效率的, pcie 能用就先 pcie 吧
|
![]() |
12
Immunize 2 天前
|
![]() |
14
Immunize 2 天前
@clemente 这是华为的 zomi 在 github 上开源的 AIInfra 课程文档。https://github.com/chenzomi12/aiinfra/blob/main/02StorComm/02Communicate/02CCOverview.pdf
|
![]() |
15
iguess 2 天前
nvlink 是给单机多卡的 GPU 之间通信的,总带宽远高于 PCIE 。 家用级的显卡还不配使用 nvlink 的。 我这边项目里都是 H100*8 的服务器,多个节点之间还得走 Infiniband 。 我上次鼓捣 bf16 的 deepseek v3 ,用了 32 张 H100 。
|