有没有富哥实际部署了 671b 完全体 R1 的来说说跟 llama3.1:405b 的性能有多大进化

96 天前
 2067
毕竟从 1.5b 到 70b 的其实都是微调的其他模型,只有 671b 才是新的架构
2989 次点击
所在节点    Local LLM
19 条回复
Meteora626
96 天前
官网的就 671 ,直接调 api 就知道差距了
AlohaV2
96 天前
Mac Studio 192G 万万没想到自己也成为性价比之选
qxmqh
96 天前
本地勉强部署了 14b,别的跑不了。太慢了。完全体硬件要求太高了。
huluhulu
96 天前
差距非常大,R1 很强,用过 R1 已经不想用其它 API 了
gaobh
96 天前
富哥也部署不起,全球能部署的就那么几家
Liftman
96 天前
这俩就。。不是一个东西。。。既不在一个年代。也不是一个量级。模型的能力不是只看后面几个 b 。
securityCoding
96 天前
官网不就是满血版。。。
cat
96 天前
好奇 671b 满血版需要什么硬件才能跑得动?只满足一个人使用
qxmqh
96 天前
@cat 1T 内存和双 H100 80G 显卡 五万块钱差不多就够了。
qxmqh
96 天前
@qxmqh 50 万。
nieqibest
96 天前
@qxmqh #9 两张卡肯定不够
azhangbing
96 天前
@cat h200 20GB 4b 六张 h100 应该够 可能要两百多万 404g 好像 这样的话就需要 21 张 H200 em 太贵了
cat
96 天前
@azhangbing 被 V2EX 自动加了空格后完全看不懂你的断句了…
azhangbing
96 天前
@cat #13 671b 全量应该是 404G H200 20GB 版本 ,需要 21 张吧 一张你算他 20 万 也要 420 万,实际不止 美国禁令限制到中国的显卡 运过来要花费更多
nagisaushio
96 天前
用 8*3090 跑了 1.58 bit 的 671b 版,跑到 10toks/s ,感觉生成质量基本没有下降
mingtdlb
95 天前
nagisaushio
95 天前
zhongdenny
95 天前
@nagisaushio 你是用 ollama 还是 llama.cpp 来运行的?
我用了 2.22bit 的版本,llama.cpp ,8 卡 4090 ,跑到 3 token/s 。
nagisaushio
95 天前
@zhongdenny 我是 1.58bit ,llama.cpp ,8 卡 3090 ,10tok/s

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://yangjunhui.monster/t/1109310

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX