体验了 Qwen2.5 Coder 32B 之后，我觉得本地 LLM 能用了

207 天前

ShadowPower

现在 Huggingface Chat 上可以在线体验：
https://huggingface.co/chat

一年前我尝试了绝大多数热门的，开放权重下载的 LLM 。当时得出的结论是：能本地跑的模型都没有实用价值，写代码的能力都非常糟糕。

最近发布的 Qwen2.5 Coder 32B 效果还真不错，感觉上比早期 GPT4 还强。只要能自己拆解需求，写出大体实现思路，它就可以给出基本上可用的代码。估计有 GPT4o 的水平。

它比我之前认为最好的 DeepSeek v2.5 236B 还好。DeepSeek 的问题在于上下文窗口太小，而且自己还会加超级多的解释和注释，甚至把输入复述一遍，浪费上下文长度。然后输出越长性能越差，甚至会崩溃成循环输出一个单词，所以，实际用起来不好用。

以我用 GPT 的经验，达到初版 GPT4 以上的水平就能提升开发效率。我认为，如今本地 LLM 真的有实用价值了。

16559 次点击

所在节点

Local LLM

98 条回复

SoulSleep

207 天前

没必要啊，直接阿里云百练开一个 api 就好了...部署模型的时间+硬件成本，够跑 10 年了......

QWen 2.5 Coder 刚出来就私有化部署了，云服务器成本 6k+/月，换成百练，一个月一两百块，用来做公司 gitlab 代码审查工具

Donaldo

207 天前

@m1nm13 #40 是不是选错模型了？

kennylam777

207 天前

@m1nm13 nat1 這種沒標準化過的 jargon 也太欺負 LLM 了吧? Local AI 應該用在 code review 一類 RAG 的用途會比較好。

kennylam777

207 天前

@SoulSleep 你這種 use case 是 Ops 選錯方案啦, 租用雲 GPU 不是都為了 fine-tuning 嗎? 用完趕快關掉的那種, 6K 月費夠你買私有硬件了吧。當初沒調研過用量嗎?

beginor

207 天前

@kennylam777 continue 的本地话提示分两种，

一种是 tabAutocompleteModel 也就是写代码时的智能提示，这个本地模型推荐的是 starcoder2-3b.q8_0.gguf ，这个只有 3G 大小，一般的显卡甚至 CPU 都可以跑，效果不错，基本上每天都在用；

另一种是 chat ，也就是问答，资源富裕的话跑 gemma 2 27b 或者 qwen 2.5 coder 32b 都可以这个规模的模型应对代码问答肯定没问题了；，如果不富裕的话，跑个 7b/8b 的做问答也不是不行，但是效果肯定不如 27b/32b 规模的。

JayZXu

207 天前

Qwen2.5 Coder 32B 确实挺好，能够配合 override 使用了

m1nm13

207 天前

@Donaldo #41 我的,我点进去直接就问了.我还以为 LZ 直接提供了对应模型的入口.

andytao

207 天前

Qwen2.5 Coder 32B 的代码质量已经很高了；

袋鼠数据库工具已经搭载 Ollama 提供了 Qwen2.5 Coder 32B 的本地化支持，并提供了数据库专有配套，体验还不错；

Donaldo

207 天前

@kennylam777 #43 不会，测试了几个在线的和离线的，答的都不错。这种已经算是事实上的标准称呼了，没啥太难的。

jianzhao123

207 天前

@F1Justin 哥们你啥配置啊，我这 3050 4GB 跑个 Qwen 7B Q4 量化的都卡的一批

wnanbei

207 天前

4060 8G 的笔记本跑了个 qwen2.5-coder:7b-instruct-q8_0 ，通过 continue 接入 vscode 用，感觉还可以

kevan

207 天前

试试 B 站的 1GB 版本。我觉得本地部署很好了。

F1Justin

207 天前

@jianzhao123 Apple 的 M2 Pro ，32G 统一内存（）

mintist

207 天前

冲一个

sampeng

207 天前

本地基本不太可能。只能做一些特别指向性的和 ai agent 配合的工作。开发，chat 这种通用性工作实在不划算，错误的提示影响编码节奏，也特别浪费心情。
我就算你显卡也好 mac 也好。算你 1 万额外成本不过分吧。
按 chatgpt 的 20 美金一个月算 1 万大洋约等于 7 年。其实一般 chatgpt 也用不上。。编码直接 github copilot 用已经无敌了。同样 1 万额外的支出能得到 10 多年的使用效果。我特别不理解本地跑 coder 的所谓效果为什么能接受。简直是天壤之别，尤其是现在 copilot 支持了 claude 。。我通常都是花很长时间描述我的输入和输出要求。本地？想都别想。。。自动提示本地那个 token 生成时间黄花菜都凉了。

kennylam777

207 天前

@sampeng 有道理, 即使工作上要 deploy LLM 也應該優先選擇 ChatGPT/Claude API 按量付費。

但對於本來就有 4090 和 3090 用來玩遊戲的我, Local AI 就是用來榨出現有硬件價值的玩法。

我相信 Apple Silicon 的玩法也是一樣的, 本來就會買一台機來用, 看到免費的 LLM 拿來用起碼不必多訂閱一個服務。

Yadomin

207 天前

@ooTwToo 你需要 modelscope, https://modelscope.cn/models/Qwen/Qwen2.5-Coder-32B-Instruct

sampeng

206 天前

@kennylam777 local ai 不是完全不行，完成特定的任务是 ok 的。幻觉问题调试过程中很好解决。比如把文档总结一下，做一下自动归类，智能分析工作这类还是很 OK 的。只不过 code 啊，chat 啊这类需要及时响应，最大限度的不要出错，copilot 或者 chatgpt o1 才是最终解。何必自己为难自己。

SantinoSong

206 天前

@yanyuechuixue #14 魔改的 22g 3080 呢

jianzhao123

206 天前

@F1Justin 那没事了

第 3 页／共 5 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://yangjunhui.monster/t/1089179

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.