![]() |
1
villivateur 8 天前
去买个 5060Ti ,16GB 版本的,也就三千多,装个 ollama ,够你跑个能用的大模型玩玩了
|
![]() |
2
lqw3030 8 天前
这个问题应该加两个前缀,部署 xxxB 的模型,每秒达到多少 token
|
![]() |
3
zsvc OP @villivateur 支持 7B 的?有 32B 的啥硬件?
|
4
Heng20 8 天前
mac mini4
|
![]() |
6
murmur 8 天前 ![]() 别折腾了,老老实实花钱买 api ,量化模型,参数不够的,跟玩具没区别,你又做不到精调模型,为啥不用商业 API
|
![]() |
7
xtreme1 8 天前
不要求 tps 的话你把 swap 拉满就行了
|
8
DefoliationM 8 天前 via Android
很难低成本,比如跑全量的 qwen3 32b 都要 70g 显存,跑 qwq 量化后的都要 40g 显存,怎么算都不如直接用 API 性价比高。
|
![]() |
9
AaronWang13 8 天前 ![]() 我三月充了 10 块的 DeepSeek ,到现在还没用完呢。
|
10
DefoliationM 8 天前 via Android
@DefoliationM 说错了,是 awq 量化后的
|
![]() |
13
villivateur 8 天前
@zsvc 16GB 够你跑 14b 的 deepseek-r1 或者 12b 的 gemma3 了
|
14
hefish 8 天前
租台阿里云服务器吧。。。
不用的时候关机。。。 这样就是 0 元搭建了服务器。。。 |
15
hangouts99 8 天前
6000
|
16
sayyiku 8 天前
3w 多能组一台能跑绝大多数满血模型的 GPU 裸金属
|
![]() |
18
liu731 8 天前
4090 跑 14b 没问题(实测)
5090 跑 20b 以上应该可以,然后还可以跑 FLUX |
![]() |
19
tool2dx 8 天前
买 AI PC ,比如 nvidia dgx spark ,有 128G 混合显存,可以运行 96B 的大模型。
比买显卡好多了。或者等 intel 的 24G 的 AI 显卡单卡上架,这个也便宜。 |
![]() |
20
iamqk 8 天前
m3 ultra studio ?
|
![]() |
22
tool2dx 8 天前
@villivateur “16GB 够你跑 14b 的 deepseek-r1 或者 12b 的 gemma3 了”
你看 google 官方的 gemma3 技术文档的测试数据,12b 和 27b 差距还是很大的。 |
23
mercury233 8 天前 ![]() 捡垃圾部署满血 deepseek 这种行为艺术前段时间比较流行,不过无论是模型本身的水准还是低配硬件带来的回复速度都远达不到可用标准,所以后来也没人提了
现在小显存(-16GB )有实用价值的模型除了画图的也就 whisper 音频转写和 sakura 日中翻译,其他都是玩具甚至炒概念的 |
![]() |
24
huangrong 8 天前
不如买 token
|
25
squarefong17 8 天前
AMD 的 AI max + 395 ,四通道 DDR5 8000MT ,大概 200G 带宽,32B 全量大概 10tokens/s ,MoE 只激活 3B 参数(显存容量还是 20 多 G )大概 30-50 tokens/s (取决于上下文长度),70B 也能跑,但是 5token 的速度没什么实用价值,等 70B 而且是 moe 的模型出来可能实用些。395 国补后通常不到两万,有 64G 内存的也有 128G 内存的。
|
26
fredweili 8 天前
openrouter, DMX 这种汇聚平台也很好,还有一些免费的
|
![]() |
27
zhaoahui 8 天前
都说买 token 吃降智,自己搭会不会用着用着降智呢?
|
![]() |
28
joequan 8 天前
满血+低成本部署 Deepseek ,可以去看看 KTransformers:清华开源框架让单卡 24G 显存跑 DeepSeek-R1 671B 大模型
|
![]() |
29
mingtdlb 8 天前
现在显卡那么贵,没个二十几万跑不了满血。所以对数据隐私没要求的,用 api 是最佳的方式,不管是价格还是速度都比你本地的体验好几个档次。
|
30
goodsavage 8 天前
生产环境 150W-200W
|
![]() |
31
hccsoul326 8 天前
我洗的代码的质保期是我在公司的日期
|
![]() |
32
duanxianze 8 天前
要不买 api ,要不买云服务商的环境,除非真心不差钱的那些单位,不然真没必要
|
33
rocmax 8 天前 via Android
如果是本地一个人用买块差不多的显卡+ollama+open webui 随便玩玩够了。
如果想模拟生产环境要考虑的事情就多了,比如负载均衡和并行处理,如果同时有多个用户发请求总不能排队等吧。 前一阵读了一些相关资料,现在大模型的上下文窗口特别大,单独处理一个 task 浪费。所以有办法把上下文隔离开同时输入多个请求并行处理,而且同时处理的 task 不需要互相等待,一个 task 完了就在这个分隔区域再开始下一个 task ,还挺复杂的。 |
![]() |
34
InkStone 8 天前
如果你不追求效果好的话:Google Edge Gallery ,免费,手机上装一个就好。
对效果有要求:老老实实调 API ,本地模型除了 ghs 以外没什么用。 |
![]() |
35
IDAEngine 8 天前
必须是上 cuda 了,用 Mac 系列还是太差,尤其做 SD 绘图
|
36
tclm 8 天前
看你需要跑多大的,我现在用 8845hs+96G 内存,跑 qwen3-30B-a3b 8Q ,40960 上下文,平均 token 在 13/S. 实际占用内存 43G+.
供参考。 |
37
tclm 8 天前
主机配下来 4700+,去年 618 买的。
|
39
nijijo 8 天前
洋垃圾 E5 + 1tb ssd + Tesla 显卡 16GB 64GB RAM 3k 内,可以用 ollm 部署
|
![]() |
40
google2023 8 天前
@AaronWang13 充值是为了使用 API ?
|
![]() |
41
frankkly 8 天前
顶配 MacMini M4 就行,把内存拉满,硬盘淘宝扩容一下,不到一万吧?
|
42
vivivo 8 天前 via Android
直接用 API ,需要自己训练微调大模型的当我没说
|
43
bearqq 8 天前
内存够大的话可以先试试 qwen3-30B-a3b ,cpu 都可以跑的比较快。
我目前是 x99 主板,插 ddr3 64g*4 ,显卡 3060+3060 ti ,显卡是我已经有的才这么用。平时跑 qwen3 32B 。自己配的话可以考虑 mi50 32g ,2080ti 22g ,tesla v100 ,40hx p106 多卡等等很多玩具。 核显方案有 amd 的 AI max 395 ,8845hs 等,还有苹果,够大但速度和价格一般,好处是体积小功耗低且全新。 |
![]() |
44
pkoukk 8 天前
你要是想用 ds, gpt 这种网页提供 chat 水平的大模型,估计几十万吧
|
![]() |
45
rockdodos 8 天前
买 API,需要微调租服务器
|
![]() |
46
L4Linux 8 天前
Qwen3-235B-A22B 要多少显存?把 235B 全放显存里的速度和只保证 22B 在显存里的速度接近吗?
|
48
shenlanAZ 8 天前
@AaronWang13 #9 我充了 2 块,也是没用完,现在接进了 Void Editor ,能写点代码来消耗了。
|
49
2018yuli 8 天前
对的,去看看微调的入门课程,你就不会问了。除非你想搞事情,不然就是 买 API 或者租服务器。
|
![]() |
50
coefuqin 8 天前
毫无意义,直接用现成的。
|
51
dlwlrm 8 天前
macmini 吧,一直开着远程使用自己的本地模型,用英伟达一年电费吃不消
|
![]() |
52
isSamle 8 天前
我的全套下来 1.2W:二手戴尔 T5820 5000R + 大概率翻新 RTX3090 24G 7000R
|
![]() |
53
min 8 天前
和低成本家用 nas 保障数据安全千秋万代差不多的意思
花的钱也差不多少 |
![]() |
54
shm7 8 天前
把精力用在怎么用 api 上面,也许已经多赚几个 w 了
|
![]() |
55
zzutmebwd 8 天前
@squarefong17 128g 迷你主机只要 14000+,用不了 2w
|
56
chanlk 8 天前
别搞了,弄出来的又慢效果又差,瞎折腾。
|
![]() |
57
highkay 8 天前
能跑 deepseek r1 满血版本的机器京东有卖的,10 来 w ,性价比很不错的。
|
61
FrankAdler 8 天前 ![]() 如果你不打算或者也不会自己训练,确实不如花钱买,买显卡的钱,用到买 token 上,可能可以用几十年都用不完
|
63
guojh 7 天前
4090 部署个 7B 的玩玩可以
|
64
leo72638 7 天前 via iPhone
没有很强的本地跑的需求的话还是建议直接买现成的 API
|
65
YetToCome 7 天前
没钱直接买 api ,7b 纯属玩具,效果极差
|
![]() |
66
wupher 7 天前
in what's purpose?
running is cheap, just install a ollama |
67
conn457567 7 天前 via Android
mac mini 绝对是最合适的,16G 能上 14b 的模型,32G 能上 30b 的模型
|
68
lpf0309 7 天前
问一下各位大佬,为什么企业都用 A100 那种贵的单卡,不用多个便宜的显卡,反正都是多卡交火,一个 5060ti 才 4000 块,买他 10 个也才 4 万块,好像比一个 a100 还便宜。
|
![]() |
69
coefuqin 7 天前
@lpf0309 SLI 这种针对游戏场景的定制驱动,和当前 LLM 推理不搭噶。另外 SLI 早就停止更新了。现在是 nvlink 互联。10 张卡你搞不定分布式推理的。
|
70
Seanfuck 7 天前
Q4 量化的 14b 模型不到 10G ,12G 显卡就能跑。
|
![]() |
71
ericguo 6 天前
买了台 Macbook M4 Pro ,48G 高配 20GPU ,跑:
https://huggingface.co/mlx-community/Qwen3-30B-A3B-4bit-DWQ 稳定 75 token/s 以上,上下文长度 32k ,显存占用 17G ,等于还有 32G 可供日常使用 很满意。 |