V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zsvc
V2EX  ›  Local LLM

多少钱能搞个本地大模型环境

  •  
  •   zsvc · 8 天前 · 6565 次点击

    求低成本本地部署大模型

    71 条回复    2025-05-31 03:32:25 +08:00
    villivateur
        1
    villivateur  
       8 天前
    去买个 5060Ti ,16GB 版本的,也就三千多,装个 ollama ,够你跑个能用的大模型玩玩了
    lqw3030
        2
    lqw3030  
       8 天前
    这个问题应该加两个前缀,部署 xxxB 的模型,每秒达到多少 token
    zsvc
        3
    zsvc  
    OP
       8 天前
    @villivateur 支持 7B 的?有 32B 的啥硬件?
    Heng20
        4
    Heng20  
       8 天前
    mac mini4
    Eytoyes
        5
    Eytoyes  
       8 天前
    @zsvc #3 模型大小基本等同于显存要求
    murmur
        6
    murmur  
       8 天前   ❤️ 1
    别折腾了,老老实实花钱买 api ,量化模型,参数不够的,跟玩具没区别,你又做不到精调模型,为啥不用商业 API
    xtreme1
        7
    xtreme1  
       8 天前
    不要求 tps 的话你把 swap 拉满就行了
    DefoliationM
        8
    DefoliationM  
       8 天前 via Android
    很难低成本,比如跑全量的 qwen3 32b 都要 70g 显存,跑 qwq 量化后的都要 40g 显存,怎么算都不如直接用 API 性价比高。
    AaronWang13
        9
    AaronWang13  
       8 天前   ❤️ 7
    我三月充了 10 块的 DeepSeek ,到现在还没用完呢。
    DefoliationM
        10
    DefoliationM  
       8 天前 via Android
    @DefoliationM 说错了,是 awq 量化后的
    h1100
        11
    h1100  
       8 天前
    @murmur #6 如果需要访问本地数据库数据的话,是不是模型不太好处理
    murmur
        12
    murmur  
       8 天前
    @h1100 模型帮你做的是文本转向量,然后在数据库中找出匹配高的,用 AI 总结,数据库操作在本地
    villivateur
        13
    villivateur  
       8 天前
    @zsvc 16GB 够你跑 14b 的 deepseek-r1 或者 12b 的 gemma3 了
    hefish
        14
    hefish  
       8 天前
    租台阿里云服务器吧。。。
    不用的时候关机。。。
    这样就是 0 元搭建了服务器。。。
    hangouts99
        15
    hangouts99  
       8 天前
    6000
    sayyiku
        16
    sayyiku  
       8 天前
    3w 多能组一台能跑绝大多数满血模型的 GPU 裸金属
    sayyiku
        17
    sayyiku  
       8 天前
    @sayyiku
    liu731
        18
    liu731  
       8 天前
    4090 跑 14b 没问题(实测)
    5090 跑 20b 以上应该可以,然后还可以跑 FLUX
    tool2dx
        19
    tool2dx  
       8 天前
    买 AI PC ,比如 nvidia dgx spark ,有 128G 混合显存,可以运行 96B 的大模型。

    比买显卡好多了。或者等 intel 的 24G 的 AI 显卡单卡上架,这个也便宜。
    iamqk
        20
    iamqk  
       8 天前
    m3 ultra studio ?
    coolloves
        21
    coolloves  
       8 天前
    @sayyiku #16 哈哈,一字之差,差了好多个 w 啊
    tool2dx
        22
    tool2dx  
       8 天前
    @villivateur “16GB 够你跑 14b 的 deepseek-r1 或者 12b 的 gemma3 了”

    你看 google 官方的 gemma3 技术文档的测试数据,12b 和 27b 差距还是很大的。
    mercury233
        23
    mercury233  
       8 天前   ❤️ 2
    捡垃圾部署满血 deepseek 这种行为艺术前段时间比较流行,不过无论是模型本身的水准还是低配硬件带来的回复速度都远达不到可用标准,所以后来也没人提了
    现在小显存(-16GB )有实用价值的模型除了画图的也就 whisper 音频转写和 sakura 日中翻译,其他都是玩具甚至炒概念的
    huangrong
        24
    huangrong  
       8 天前
    不如买 token
    squarefong17
        25
    squarefong17  
       8 天前
    AMD 的 AI max + 395 ,四通道 DDR5 8000MT ,大概 200G 带宽,32B 全量大概 10tokens/s ,MoE 只激活 3B 参数(显存容量还是 20 多 G )大概 30-50 tokens/s (取决于上下文长度),70B 也能跑,但是 5token 的速度没什么实用价值,等 70B 而且是 moe 的模型出来可能实用些。395 国补后通常不到两万,有 64G 内存的也有 128G 内存的。
    fredweili
        26
    fredweili  
       8 天前
    openrouter, DMX 这种汇聚平台也很好,还有一些免费的
    zhaoahui
        27
    zhaoahui  
       8 天前
    都说买 token 吃降智,自己搭会不会用着用着降智呢?
    joequan
        28
    joequan  
       8 天前
    满血+低成本部署 Deepseek ,可以去看看 KTransformers:清华开源框架让单卡 24G 显存跑 DeepSeek-R1 671B 大模型
    mingtdlb
        29
    mingtdlb  
       8 天前
    现在显卡那么贵,没个二十几万跑不了满血。所以对数据隐私没要求的,用 api 是最佳的方式,不管是价格还是速度都比你本地的体验好几个档次。
    goodsavage
        30
    goodsavage  
       8 天前
    生产环境 150W-200W
    hccsoul326
        31
    hccsoul326  
       8 天前
    我洗的代码的质保期是我在公司的日期
    duanxianze
        32
    duanxianze  
       8 天前
    要不买 api ,要不买云服务商的环境,除非真心不差钱的那些单位,不然真没必要
    rocmax
        33
    rocmax  
       8 天前 via Android
    如果是本地一个人用买块差不多的显卡+ollama+open webui 随便玩玩够了。
    如果想模拟生产环境要考虑的事情就多了,比如负载均衡和并行处理,如果同时有多个用户发请求总不能排队等吧。
    前一阵读了一些相关资料,现在大模型的上下文窗口特别大,单独处理一个 task 浪费。所以有办法把上下文隔离开同时输入多个请求并行处理,而且同时处理的 task 不需要互相等待,一个 task 完了就在这个分隔区域再开始下一个 task ,还挺复杂的。
    InkStone
        34
    InkStone  
       8 天前
    如果你不追求效果好的话:Google Edge Gallery ,免费,手机上装一个就好。

    对效果有要求:老老实实调 API ,本地模型除了 ghs 以外没什么用。
    IDAEngine
        35
    IDAEngine  
       8 天前
    必须是上 cuda 了,用 Mac 系列还是太差,尤其做 SD 绘图
    tclm
        36
    tclm  
       8 天前
    看你需要跑多大的,我现在用 8845hs+96G 内存,跑 qwen3-30B-a3b 8Q ,40960 上下文,平均 token 在 13/S. 实际占用内存 43G+.
    供参考。
    tclm
        37
    tclm  
       8 天前
    主机配下来 4700+,去年 618 买的。
    nzynzynzy
        38
    nzynzynzy  
       8 天前
    @sayyiku #16 我刚想请教一番没想到是你打错字了
    nijijo
        39
    nijijo  
       8 天前
    洋垃圾 E5 + 1tb ssd + Tesla 显卡 16GB 64GB RAM 3k 内,可以用 ollm 部署
    google2023
        40
    google2023  
       8 天前
    @AaronWang13 充值是为了使用 API ?
    frankkly
        41
    frankkly  
       8 天前
    顶配 MacMini M4 就行,把内存拉满,硬盘淘宝扩容一下,不到一万吧?
    vivivo
        42
    vivivo  
       8 天前 via Android
    直接用 API ,需要自己训练微调大模型的当我没说
    bearqq
        43
    bearqq  
       8 天前
    内存够大的话可以先试试 qwen3-30B-a3b ,cpu 都可以跑的比较快。
    我目前是 x99 主板,插 ddr3 64g*4 ,显卡 3060+3060 ti ,显卡是我已经有的才这么用。平时跑 qwen3 32B 。自己配的话可以考虑 mi50 32g ,2080ti 22g ,tesla v100 ,40hx p106 多卡等等很多玩具。
    核显方案有 amd 的 AI max 395 ,8845hs 等,还有苹果,够大但速度和价格一般,好处是体积小功耗低且全新。
    pkoukk
        44
    pkoukk  
       8 天前
    你要是想用 ds, gpt 这种网页提供 chat 水平的大模型,估计几十万吧
    rockdodos
        45
    rockdodos  
       8 天前
    买 API,需要微调租服务器
    L4Linux
        46
    L4Linux  
       8 天前
    Qwen3-235B-A22B 要多少显存?把 235B 全放显存里的速度和只保证 22B 在显存里的速度接近吗?
    sayyiku
        47
    sayyiku  
       8 天前
    @nzynzynzy 哈哈哈哈🤣
    shenlanAZ
        48
    shenlanAZ  
       8 天前
    @AaronWang13 #9 我充了 2 块,也是没用完,现在接进了 Void Editor ,能写点代码来消耗了。
    2018yuli
        49
    2018yuli  
       8 天前
    对的,去看看微调的入门课程,你就不会问了。除非你想搞事情,不然就是 买 API 或者租服务器。
    coefuqin
        50
    coefuqin  
       8 天前
    毫无意义,直接用现成的。
    dlwlrm
        51
    dlwlrm  
       8 天前
    macmini 吧,一直开着远程使用自己的本地模型,用英伟达一年电费吃不消
    isSamle
        52
    isSamle  
       8 天前
    我的全套下来 1.2W:二手戴尔 T5820 5000R + 大概率翻新 RTX3090 24G 7000R
    min
        53
    min  
       8 天前
    和低成本家用 nas 保障数据安全千秋万代差不多的意思
    花的钱也差不多少
    shm7
        54
    shm7  
       8 天前
    把精力用在怎么用 api 上面,也许已经多赚几个 w 了
    zzutmebwd
        55
    zzutmebwd  
       8 天前
    @squarefong17 128g 迷你主机只要 14000+,用不了 2w
    chanlk
        56
    chanlk  
       8 天前
    别搞了,弄出来的又慢效果又差,瞎折腾。
    highkay
        57
    highkay  
       8 天前
    能跑 deepseek r1 满血版本的机器京东有卖的,10 来 w ,性价比很不错的。
    YsHaNg
        58
    YsHaNg  
       8 天前 via iPhone
    @zhaoahui ?你自己不改代码谁给你降
    YsHaNg
        59
    YsHaNg  
       8 天前 via iPhone
    @L4Linux q4 量化 141g 大小 显存有 20g 足够
    L4Linux
        60
    L4Linux  
       8 天前 via Android
    @YsHaNg 意思是只要显存能装 22B 就行,对吧?
    FrankAdler
        61
    FrankAdler  
       8 天前   ❤️ 1
    如果你不打算或者也不会自己训练,确实不如花钱买,买显卡的钱,用到买 token 上,可能可以用几十年都用不完
    YsHaNg
        62
    YsHaNg  
       8 天前 via iPhone
    @L4Linux 对 但是要用长上下文最好留余量 不然会 pcie 频繁复制
    guojh
        63
    guojh  
       7 天前
    4090 部署个 7B 的玩玩可以
    leo72638
        64
    leo72638  
       7 天前 via iPhone
    没有很强的本地跑的需求的话还是建议直接买现成的 API
    YetToCome
        65
    YetToCome  
       7 天前
    没钱直接买 api ,7b 纯属玩具,效果极差
    wupher
        66
    wupher  
       7 天前
    in what's purpose?

    running is cheap, just install a ollama
    conn457567
        67
    conn457567  
       7 天前 via Android
    mac mini 绝对是最合适的,16G 能上 14b 的模型,32G 能上 30b 的模型
    lpf0309
        68
    lpf0309  
       7 天前
    问一下各位大佬,为什么企业都用 A100 那种贵的单卡,不用多个便宜的显卡,反正都是多卡交火,一个 5060ti 才 4000 块,买他 10 个也才 4 万块,好像比一个 a100 还便宜。
    coefuqin
        69
    coefuqin  
       7 天前
    @lpf0309 SLI 这种针对游戏场景的定制驱动,和当前 LLM 推理不搭噶。另外 SLI 早就停止更新了。现在是 nvlink 互联。10 张卡你搞不定分布式推理的。
    Seanfuck
        70
    Seanfuck  
       7 天前
    Q4 量化的 14b 模型不到 10G ,12G 显卡就能跑。
    ericguo
        71
    ericguo  
       6 天前
    买了台 Macbook M4 Pro ,48G 高配 20GPU ,跑:
    https://huggingface.co/mlx-community/Qwen3-30B-A3B-4bit-DWQ
    稳定 75 token/s 以上,上下文长度 32k ,显存占用 17G ,等于还有 32G 可供日常使用
    很满意。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2594 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 13:08 · PVG 21:08 · LAX 06:08 · JFK 09:08
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.