本地部署大语言模型哪家强?

179 天前
 babyedi31996

几个月之前在油管和阿 b 都看到很多教怎么本地部署 AI 的教程,

弄了下来玩了玩,有 chatglm3-6b,llama2-13b 的各种量化变种,

最后对接酒馆玩卡片 AI 人,刚开始真的很震撼很刺激,

尤其是配合 tts 语音 和 stable diffusion 实时生成人物表情图.

但是说实话我 3080-10G 能部署的模型现阶段还是智商和显存欠费.

你说用 claude chatgpt 那些吧,又没隐私又被警告.

瑟瑟永远是玩家第一生产力阿.

那么问题来了,最近 Mac Mini 64G 出来了,大概 17000 能拿下,有没有搞头?

能不能用它来运行量化的 llama3-70b 之类的.

或者是本地部署到底什么方案比较好,请教各位大佬

12950 次点击
所在节点    程序员
87 条回复
LaTero
179 天前
@shuimugan 不过个人感觉 hermes 3 405b 还是强不少的,“事实”这种东西确实不管多强的模型都爱扯淡,但大的模型还体现在“智商”高,比如你编了一些物品/概念/机制然后要 AI 也来编几个,区别就打了。瑟瑟应用在这也没法发,就只能游戏举个例子,hermes 能像模像样地编出有配合和复杂机制的 rogue like 游戏物品,而 command r+就只能编出“攻击力+5”这种没什么意思的。

回楼主:隐私方面的话,你可以去看他们的 tos 和隐私政策,都是很友好的,没有额外审查(“额外”指除去模型自带的或提供商要求的。比如 claude 会要求他们审查,但不会比 claude 本身的审查更多,而且 claude 还有 self-moderated 版本,就是由 claude 的模型自己来做,比直接用 claude 网页版都更少审查),默认也不会记录你写了什么。你可以主动开启匿名记录并获取 1%的折扣,但是这是完全可选的。你甚至可以用一次性邮箱注册+加密货币支付。至于封号,从他们 discord 记录和网站上的统计,拿这家做瑟瑟的是很多的。而且我就这么和你说吧,如果我写的东西都不会被封,你也不需要担心……而速度快( command r+ 60 token/s )选项多是实打实的。
yshtcn
179 天前
目前本地大模型我觉得最大的作用就是做一些简单的判断或者翻译。
我目前用 3060 跑 7b 的 qwen2.5 效果最好。

所以我也很想知道统一架构能不能在可用的范围内跑更大的模型
NGGTI
179 天前
没必要了,现在国内的大模型都白菜价啦,几百万 toekn 才几块
shuimugan
179 天前
@LaTero 是的,更多的优质数据训练出来的模型就是底大一级压死人,roll 到好的回答的几率高很多。但是大的模型对硬件的要求也很高,本地难部署,期待未来会有个更好的架构,基础模型是个智商和学习能力都很强的白纸,然后选择外挂要用到的知识库进行对话,那样就爽了。
WuDiHaiTai
178 天前
为何不先用一百块租两天 4090 云电脑体验一下先呢,我当年就是这么玩的,为了学校比赛搞了两天,最后觉得还是没啥意思。花大钱之前先租用体验一下再决定我觉得是最合理的。
fulajickhz
178 天前
@babyedi31996 这个不是吗?模型不是在本地

在 RWKV runner 的“模型”版块,可以筛选并下载 RWKV 模型。

https://rwkv.cn/RWKV-Runner/Simple-Usage#rwkv-runner-%E4%B8%8B%E8%BD%BD%E9%BB%98%E8%AE%A4

还有这个 Ai00


https://rwkv.cn/ai00/Simple-Usage#%E4%B8%8B%E8%BD%BD%E8%BD%AC%E6%8D%A2-rwkv-%E6%A8%A1%E5%9E%8B

https://rwkv.cn/docs

微软的 office 装了这个 rwkv ,具体使用功能未知

https://blog.rwkv.com/p/rwkvcpp-shipping-to-half-a-billion
fulajickhz
178 天前
@babyedi31996 B 站上有人跑了 RWKV6-14b AMD 的核心显卡,输出 5-9 tokens/s ,4060 独显。int 8 也是 6 tokens/s ,NF4 18 tokens/s

看起来挺快 https://www.bilibili.com/video/BV1Qd48ecEAA
Rehtt
178 天前
租个云 gpu 服务器
cowcomic
178 天前
要看你干啥
要是普通玩玩,都行
想真正作为生产力,10B 以下不推荐,连 json 都无法稳定生成
30B 左右的目前没有特别好的,可以等零一万物后续发布的,之前他们发布的 34B 模型算是比较强的了,而且他们家最近发布的 yi-ligntning 这个模型巨牛,这让我对他们后续开源的比较期待
70B 左右的就推荐 qwen2.5-72B ,目前在这个量级下没啥对手
在往上就推荐 deepseek2.5 的 236B 的模型,感觉效果比 llama405B 的模型效果还要好
babyedi31996
178 天前
@fulajickhz 长见识了,感谢这位佬友.我去看看学习下.
babyedi31996
178 天前
@yshtcn 是可以的,我看林亦在 b 站的视频,他是用 120G 统一内存的 Mac Studio 跑 120b 量化模型.好像也有 4-5t/s 没记错的话.
babyedi31996
178 天前
@shuimugan 官翻+员工优惠在哪里可以买到?
babyedi31996
178 天前
@LaTero 感谢你的经验分享,"如果我写的东西都不会被封,你也不需要担心……而速度快( command r+ 60 token/s )选项多是实打实的。"我懂这句的含金量了.哈哈
babyedi31996
178 天前
@NGGTI api 是不贵,但是审查和隐私问题阿
babyedi31996
178 天前
@WuDiHaiTai 4090 也才 24G 阿,最多就是玩下 20b 了
guiyun
178 天前
ollama + openwebui + qwen2.5

阿里的通义千问 2.5 的开源版 https://qwen.readthedocs.io/zh-cn/latest/index.html
我自己用的是 7b 的模型,显卡用的特斯拉 P4 (8G 显存)
用起来感觉还行
Hookery
178 天前
qwen2.5 72B, 4bt quant 估计 40G 显存吧.MAC 跑太慢了,直接双卡 2080TI 魔改 22G 的,一共 44G 够你随便折腾了,整机下来估计不到 6K ,电源买好点就行。
babyedi31996
178 天前
@guiyun 7b 效果如何?
babyedi31996
178 天前
@Hookery 好多佬友都推荐 qwen,这个模型效果好?
guiyun
178 天前
@babyedi31996 我感觉还行。和 3 差不多。已经比较接近 3.5 了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://yangjunhui.monster/t/1085037

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX