q4 量化的大模型能比原版全精度的差多少?

66 天前
 jhytxy
ollama 上 q4 量化的 qwq-32b 和 r1-32b 刚好都在 20g 以下,一张卡就能跑
感觉已经很能打了

当然是了解它的能力,给他一个在能力范围内的任务
毕竟只有 32b 参数,问他历史观点肯定是胡说,物理数学这些有简单规则的
我感觉很好用了

比如根据一个什么涉密数据的表格,写个报告。完全够用

原版的没试过,有大佬告诉我吗
差距主要体现在哪里?
995 次点击
所在节点    Local LLM
2 条回复
my3157
66 天前
https://github.com/QwenLM/Qwen/blob/main/README.md 这儿有说明,包括不同尺寸量化后对效果,推理等的影响对比
mili100
66 天前

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://yangjunhui.monster/t/1116324

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX