本地部署大语言模型哪家强?

几个月之前在油管和阿 b 都看到很多教怎么本地部署 AI 的教程,

弄了下来玩了玩,有 chatglm3-6b,llama2-13b 的各种量化变种,

最后对接酒馆玩卡片 AI 人,刚开始真的很震撼很刺激,

尤其是配合 tts 语音和 stable diffusion 实时生成人物表情图.

但是说实话我 3080-10G 能部署的模型现阶段还是智商和显存欠费.

你说用 claude chatgpt 那些吧,又没隐私又被警告.

瑟瑟永远是玩家第一生产力阿.

那么问题来了,最近 Mac Mini 64G 出来了,大概 17000 能拿下,有没有搞头?

能不能用它来运行量化的 llama3-70b 之类的.

或者是本地部署到底什么方案比较好,请教各位大佬

LaTero

179 天前

@shuimugan 不过个人感觉 hermes 3 405b 还是强不少的，“事实”这种东西确实不管多强的模型都爱扯淡，但大的模型还体现在“智商”高，比如你编了一些物品/概念/机制然后要 AI 也来编几个，区别就打了。瑟瑟应用在这也没法发，就只能游戏举个例子，hermes 能像模像样地编出有配合和复杂机制的 rogue like 游戏物品，而 command r+就只能编出“攻击力+5”这种没什么意思的。

回楼主：隐私方面的话，你可以去看他们的 tos 和隐私政策，都是很友好的，没有额外审查（“额外”指除去模型自带的或提供商要求的。比如 claude 会要求他们审查，但不会比 claude 本身的审查更多，而且 claude 还有 self-moderated 版本，就是由 claude 的模型自己来做，比直接用 claude 网页版都更少审查），默认也不会记录你写了什么。你可以主动开启匿名记录并获取 1%的折扣，但是这是完全可选的。你甚至可以用一次性邮箱注册+加密货币支付。至于封号，从他们 discord 记录和网站上的统计，拿这家做瑟瑟的是很多的。而且我就这么和你说吧，如果我写的东西都不会被封，你也不需要担心……而速度快（ command r+ 60 token/s ）选项多是实打实的。

yshtcn

179 天前

目前本地大模型我觉得最大的作用就是做一些简单的判断或者翻译。
我目前用 3060 跑 7b 的 qwen2.5 效果最好。

所以我也很想知道统一架构能不能在可用的范围内跑更大的模型

NGGTI

179 天前

没必要了，现在国内的大模型都白菜价啦，几百万 toekn 才几块

shuimugan

179 天前

@LaTero 是的，更多的优质数据训练出来的模型就是底大一级压死人，roll 到好的回答的几率高很多。但是大的模型对硬件的要求也很高，本地难部署，期待未来会有个更好的架构，基础模型是个智商和学习能力都很强的白纸，然后选择外挂要用到的知识库进行对话，那样就爽了。

WuDiHaiTai

178 天前

为何不先用一百块租两天 4090 云电脑体验一下先呢，我当年就是这么玩的，为了学校比赛搞了两天，最后觉得还是没啥意思。花大钱之前先租用体验一下再决定我觉得是最合理的。

fulajickhz

178 天前

@babyedi31996 这个不是吗？模型不是在本地

在 RWKV runner 的“模型”版块，可以筛选并下载 RWKV 模型。

https://rwkv.cn/RWKV-Runner/Simple-Usage#rwkv-runner-%E4%B8%8B%E8%BD%BD%E9%BB%98%E8%AE%A4

还有这个 Ai00

https://rwkv.cn/ai00/Simple-Usage#%E4%B8%8B%E8%BD%BD%E8%BD%AC%E6%8D%A2-rwkv-%E6%A8%A1%E5%9E%8B

https://rwkv.cn/docs

微软的 office 装了这个 rwkv ，具体使用功能未知

https://blog.rwkv.com/p/rwkvcpp-shipping-to-half-a-billion

fulajickhz

178 天前

@babyedi31996 B 站上有人跑了 RWKV6-14b AMD 的核心显卡，输出 5-9 tokens/s ，4060 独显。int 8 也是 6 tokens/s ，NF4 18 tokens/s

看起来挺快 https://www.bilibili.com/video/BV1Qd48ecEAA

Rehtt

178 天前

租个云 gpu 服务器

cowcomic

178 天前

要看你干啥
要是普通玩玩，都行
想真正作为生产力，10B 以下不推荐，连 json 都无法稳定生成
30B 左右的目前没有特别好的，可以等零一万物后续发布的，之前他们发布的 34B 模型算是比较强的了，而且他们家最近发布的 yi-ligntning 这个模型巨牛，这让我对他们后续开源的比较期待
70B 左右的就推荐 qwen2.5-72B ，目前在这个量级下没啥对手
在往上就推荐 deepseek2.5 的 236B 的模型，感觉效果比 llama405B 的模型效果还要好

babyedi31996

178 天前

@fulajickhz 长见识了,感谢这位佬友.我去看看学习下.

babyedi31996

178 天前

@yshtcn 是可以的,我看林亦在 b 站的视频,他是用 120G 统一内存的 Mac Studio 跑 120b 量化模型.好像也有 4-5t/s 没记错的话.

babyedi31996

178 天前

@shuimugan 官翻+员工优惠在哪里可以买到?

babyedi31996

178 天前

@LaTero 感谢你的经验分享,"如果我写的东西都不会被封，你也不需要担心……而速度快（ command r+ 60 token/s ）选项多是实打实的。"我懂这句的含金量了.哈哈

babyedi31996

178 天前

@NGGTI api 是不贵,但是审查和隐私问题阿

babyedi31996

178 天前

@WuDiHaiTai 4090 也才 24G 阿,最多就是玩下 20b 了

guiyun

178 天前

ollama + openwebui + qwen2.5

阿里的通义千问 2.5 的开源版 https://qwen.readthedocs.io/zh-cn/latest/index.html
我自己用的是 7b 的模型，显卡用的特斯拉 P4 (8G 显存)
用起来感觉还行

Hookery

178 天前

qwen2.5 72B, 4bt quant 估计 40G 显存吧.MAC 跑太慢了，直接双卡 2080TI 魔改 22G 的，一共 44G 够你随便折腾了，整机下来估计不到 6K ，电源买好点就行。

babyedi31996

178 天前

@guiyun 7b 效果如何?

babyedi31996

178 天前

@Hookery 好多佬友都推荐 qwen,这个模型效果好?

guiyun

178 天前

@babyedi31996 我感觉还行。和 3 差不多。已经比较接近 3.5 了

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://yangjunhui.monster/t/1085037

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.