q4 量化的大模型能比原版全精度的差多少？

66 天前

jhytxy

ollama 上 q4 量化的 qwq-32b 和 r1-32b 刚好都在 20g 以下，一张卡就能跑
感觉已经很能打了

当然是了解它的能力，给他一个在能力范围内的任务
毕竟只有 32b 参数，问他历史观点肯定是胡说，物理数学这些有简单规则的
我感觉很好用了

比如根据一个什么涉密数据的表格，写个报告。完全够用

原版的没试过，有大佬告诉我吗
差距主要体现在哪里？

995 次点击

所在节点

2 条回复

my3157

66 天前

https://github.com/QwenLM/Qwen/blob/main/README.md 这儿有说明，包括不同尺寸量化后对效果，推理等的影响对比

mili100

66 天前

https://github.com/ggerganov/llama.cpp/blob/master/examples/quantize/README.md#quantization

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://yangjunhui.monster/t/1116324

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX