半个小时前， ollama 上线了目前单显卡里，最强的中小模型 gemma3

由 google 出品，ollama 介绍就一句话“The current strongest model that fits on a single GPU.”，足以证明其强悍程度。

我去 google ai 官方页面看了跑分，27b 的小体积，竟然把体积大自己 20 倍的 deepseek v3 满血模型给灭了？有点令人难以置信。

官方介绍在这里，我也不知道真假，让子弹多飞一会儿。

https://ai.google.dev/gemma

tool3d

86 天前

@dbpe 不太一样，claude 是商业版。google 这个完全开源模型，包括底模都提供了，吹嘘水准已经到了商业标准。还是多模态，而且还能同时识别多张图片，似乎以前模型只能识别出一张图片。

dbpe

86 天前

@tool3d claude ，跑分没赢过，体验没输过

先质疑一波，等量化模型出来大家跑一跑就知道了。

listenfree

86 天前

我玩了 qwq 32b 是真的爽，对中文的拿捏，估计 gemma3 无法达到，等子弹飞一飞

LaTero

86 天前

lmarena 上确实把包括 deepseek v3 等一众远大于它的模型给灭了，我自己稍微测了一下感觉算是二线非思考模型水平了（或者说准一线？除了 grok 3 和 claude sonnet 3.7 之外的非思考模型的水平），不过不知道为什么明明是一个这么小的模型，google ai studio 的推理速度特别特别慢，所以我也没测太多。

tool3d

86 天前

@LaTero 本地 ollama 没问题，网友 Apple M1 Max 32G ，运行飞快。我自己显卡运行也挺快的。

hutng

86 天前

开源模型生机勃勃了，好事，deepseek 开的好头。
QWQ 32B q8 两张显卡 40G 正好够，已经感觉和 deepseek 满血差距很小了，非常好用。
期待 gemma3 。

openmynet

86 天前

这榜单还行，是个写作榜单，也就是评测 llm 在进行写作创作时人哪个人情味更多些。lmarena 评测更多是答案的亲和性。

tool3d

86 天前

@supersf 是有点慢（和同类型的模型对比）。我这里差不多 15 tokens/s ，架构似乎是新的，我看 ollama 上也有人说速度慢，估计需要时间优化。

不过很奇怪的是，官方也很慢。

hutng

86 天前

@hutng 刚用 ollama 测试了一下，12b 模型，效果一般。老是报错，Error: POST predict: Post "http://127.0.0.1:35039/completion": EOF ，不知道怎么回事，可能是我的环境问题。

hutng

86 天前

@hutng #18 ollama 官网也得是：12B parameter model (128k context window)。我比较好奇这 128K 的上下文窗口是怎么来的。ollama 默认都是 2K ，128K 不爆显存吗？

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://yangjunhui.monster/t/1117922

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.