体验了 Qwen2.5 Coder 32B 之后,我觉得本地 LLM 能用了

207 天前
 ShadowPower
现在 Huggingface Chat 上可以在线体验:
https://huggingface.co/chat

一年前我尝试了绝大多数热门的,开放权重下载的 LLM 。当时得出的结论是:能本地跑的模型都没有实用价值,写代码的能力都非常糟糕。

最近发布的 Qwen2.5 Coder 32B 效果还真不错,感觉上比早期 GPT4 还强。只要能自己拆解需求,写出大体实现思路,它就可以给出基本上可用的代码。估计有 GPT4o 的水平。

它比我之前认为最好的 DeepSeek v2.5 236B 还好。DeepSeek 的问题在于上下文窗口太小,而且自己还会加超级多的解释和注释,甚至把输入复述一遍,浪费上下文长度。然后输出越长性能越差,甚至会崩溃成循环输出一个单词,所以,实际用起来不好用。

以我用 GPT 的经验,达到初版 GPT4 以上的水平就能提升开发效率。我认为,如今本地 LLM 真的有实用价值了。
16559 次点击
所在节点    Local LLM
98 条回复
SoulSleep
207 天前
没必要啊,直接阿里云百练开一个 api 就好了...部署模型的时间+硬件成本,够跑 10 年了......

QWen 2.5 Coder 刚出来就私有化部署了,云服务器成本 6k+/月,换成百练,一个月一两百块,用来做公司 gitlab 代码审查工具
Donaldo
207 天前
@m1nm13 #40 是不是选错模型了?
kennylam777
207 天前
@m1nm13 nat1 這種沒標準化過的 jargon 也太欺負 LLM 了吧? Local AI 應該用在 code review 一類 RAG 的用途會比較好。
kennylam777
207 天前
@SoulSleep 你這種 use case 是 Ops 選錯方案啦, 租用雲 GPU 不是都為了 fine-tuning 嗎? 用完趕快關掉的那種, 6K 月費夠你買私有硬件了吧。當初沒調研過用量嗎?
beginor
207 天前
@kennylam777 continue 的本地话提示分两种,

一种是 tabAutocompleteModel 也就是写代码时的智能提示,这个本地模型推荐的是 starcoder2-3b.q8_0.gguf ,这个只有 3G 大小, 一般的显卡甚至 CPU 都可以跑,效果不错, 基本上每天都在用;

另一种是 chat , 也就是问答, 资源富裕的话跑 gemma 2 27b 或者 qwen 2.5 coder 32b 都可以这个规模的模型应对代码问答肯定没问题了;, 如果不富裕的话,跑个 7b/8b 的做问答也不是不行,但是效果肯定不如 27b/32b 规模的。
JayZXu
207 天前
Qwen2.5 Coder 32B 确实挺好,能够配合 override 使用了
m1nm13
207 天前
@Donaldo #41 我的,我点进去直接就问了.我还以为 LZ 直接提供了对应模型的入口.
andytao
207 天前
Qwen2.5 Coder 32B 的代码质量已经很高了;

袋鼠数据库工具已经搭载 Ollama 提供了 Qwen2.5 Coder 32B 的本地化支持,并提供了数据库专有配套,体验还不错;
Donaldo
207 天前
@kennylam777 #43 不会,测试了几个在线的和离线的,答的都不错。这种已经算是事实上的标准称呼了,没啥太难的。
jianzhao123
207 天前
@F1Justin 哥们你啥配置啊,我这 3050 4GB 跑个 Qwen 7B Q4 量化的都卡的一批
wnanbei
207 天前
4060 8G 的笔记本跑了个 qwen2.5-coder:7b-instruct-q8_0 ,通过 continue 接入 vscode 用,感觉还可以
kevan
207 天前
试试 B 站的 1GB 版本。我觉得本地部署很好了。
F1Justin
207 天前
@jianzhao123 Apple 的 M2 Pro ,32G 统一内存()
mintist
207 天前
冲一个
sampeng
207 天前
本地基本不太可能。只能做一些特别指向性的和 ai agent 配合的工作。开发,chat 这种通用性工作实在不划算,错误的提示影响编码节奏,也特别浪费心情。
我就算你显卡也好 mac 也好。算你 1 万额外成本不过分吧。
按 chatgpt 的 20 美金一个月算 1 万大洋约等于 7 年。其实一般 chatgpt 也用不上。。编码直接 github copilot 用已经无敌了。同样 1 万额外的支出能得到 10 多年的使用效果。我特别不理解本地跑 coder 的所谓效果为什么能接受。简直是天壤之别,尤其是现在 copilot 支持了 claude 。。我通常都是花很长时间描述我的输入和输出要求。本地?想都别想。。。自动提示本地那个 token 生成时间黄花菜都凉了。
kennylam777
207 天前
@sampeng 有道理, 即使工作上要 deploy LLM 也應該優先選擇 ChatGPT/Claude API 按量付費。

但對於本來就有 4090 和 3090 用來玩遊戲的我, Local AI 就是用來榨出現有硬件價值的玩法。

我相信 Apple Silicon 的玩法也是一樣的, 本來就會買一台機來用, 看到免費的 LLM 拿來用起碼不必多訂閱一個服務。
Yadomin
207 天前
sampeng
206 天前
@kennylam777 local ai 不是完全不行,完成特定的任务是 ok 的。幻觉问题调试过程中很好解决。比如把文档总结一下,做一下自动归类,智能分析工作这类还是很 OK 的。只不过 code 啊,chat 啊这类需要及时响应,最大限度的不要出错,copilot 或者 chatgpt o1 才是最终解。何必自己为难自己。
SantinoSong
206 天前
@yanyuechuixue #14 魔改的 22g 3080 呢
jianzhao123
206 天前
@F1Justin 那没事了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://yangjunhui.monster/t/1089179

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX