半个小时前, ollama 上线了目前单显卡里,最强的中小模型 gemma3

86 天前
 tool3d

由 google 出品,ollama 介绍就一句话“The current strongest model that fits on a single GPU.”,足以证明其强悍程度。

我去 google ai 官方页面看了跑分,27b 的小体积,竟然把体积大自己 20 倍的 deepseek v3 满血模型给灭了?有点令人难以置信。

官方介绍在这里,我也不知道真假,让子弹多飞一会儿。

https://ai.google.dev/gemma

6242 次点击
所在节点    Local LLM
51 条回复
dbpe
86 天前
claude:
说道跑分。。我可就不困了
tool3d
86 天前
@dbpe 不太一样,claude 是商业版。google 这个完全开源模型,包括底模都提供了,吹嘘水准已经到了商业标准。还是多模态,而且还能同时识别多张图片,似乎以前模型只能识别出一张图片。
dbpe
86 天前
@tool3d claude ,跑分没赢过,体验没输过


先质疑一波,等量化模型出来大家跑一跑就知道了。
l4ever
86 天前
这么说一张 A100 80G 就搞定了?
bjzhou1990
86 天前
怎么没有和 qwq 32b 对比
wyntalgeer
86 天前
@l4ever 写的是 H100
crackidz
86 天前
跑分冠军挺多的,最终还是需要是骡子是马拉出来遛遛
listenfree
86 天前
我玩了 qwq 32b 是真的爽,对中文的拿捏,估计 gemma3 无法达到,等子弹飞一飞
LaTero
86 天前
lmarena 上确实把包括 deepseek v3 等一众远大于它的模型给灭了,我自己稍微测了一下感觉算是二线非思考模型水平了(或者说准一线?除了 grok 3 和 claude sonnet 3.7 之外的非思考模型的水平),不过不知道为什么明明是一个这么小的模型,google ai studio 的推理速度特别特别慢,所以我也没测太多。
tool3d
86 天前
@LaTero 本地 ollama 没问题,网友 Apple M1 Max 32G ,运行飞快。我自己显卡运行也挺快的。
iorilu
86 天前
4090 能跑吗
irrigate2554
86 天前
gpt 4o 都已经这么落魄了么
djkcyl
86 天前
其实,真正的极致小模型,还得看 rwkv ,0.5b 都能很猛
supersf
86 天前
多少个 tokens/s ?
@tool3d
hutng
86 天前
开源模型生机勃勃了,好事,deepseek 开的好头。
QWQ 32B q8 两张显卡 40G 正好够,已经感觉和 deepseek 满血差距很小了,非常好用。
期待 gemma3 。
openmynet
86 天前
这榜单还行,是个写作榜单,也就是评测 llm 在进行写作创作时人哪个人情味更多些。lmarena 评测更多是答案的亲和性。
tool3d
86 天前
@supersf 是有点慢(和同类型的模型对比)。我这里差不多 15 tokens/s ,架构似乎是新的,我看 ollama 上也有人说速度慢,估计需要时间优化。

不过很奇怪的是,官方也很慢。
hutng
86 天前
@hutng 刚用 ollama 测试了一下,12b 模型,效果一般。老是报错,Error: POST predict: Post "http://127.0.0.1:35039/completion": EOF ,不知道怎么回事,可能是我的环境问题。
hutng
86 天前
@hutng #18 ollama 官网也得是:12B parameter model (128k context window)。我比较好奇这 128K 的上下文窗口是怎么来的。ollama 默认都是 2K ,128K 不爆显存吗?
icyalala
86 天前
这个可以输入图片,我试了下还挺好,至少各种表情包图片能解释出来

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://yangjunhui.monster/t/1117922

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX