本地部署视觉大模型，用于 OCR 中文文献+翻译，最好的模型是什么？ - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这里的中文文献，可能是 latex 写的论文，有各种奇怪的公式。

我尝试过 gemma3 ，但是对于长文献经常犯蠢。

视觉大模型

21 条回复 • 2025-05-31 15:46:29 +08:00

1

love060701

25 天前

1

Gemma 已经是本地里性能比较好的了，Mistral 24B 和 Qwen VL 可以试试，不过最推荐的还是 Gemini ，Pro 消耗不起就 Flash

2

kekxv

25 天前

https://github.com/kekxv/Qwen2.5-VL-Deploy

3

vishun

25 天前

有点疑问，没大模型前 OCR 一般用 Tesseract 、paddle 等库，目前和视觉大模型相比一点优势也没了吗？能否还是用原先的小模型来识别 ocr ，只是翻译用大模型？

4

neteroster

25 天前

#1 说得对，视觉的话就 Gemma, Qwen VL 。另外你别给模型太长文本去翻译，要切分比较好。另外有条件还是直接 Gemini Flash 来着，一张图片就三四百 Token ，非常划算

5

villivateur

OP

25 天前

@kekxv 这个我刚刚试了，比 gemma3-12b 差远了

6

artiga033

25 天前 via Android

@vishun #3 优势在于成本。还有就是可以精确识别文本位置和倾斜偏移角度等，适合那种需要把提取后处理过的字符覆盖在原位置的场景，虽然有些大模型也能做，但精准度还是比不上的，而且目前 llm 画图仍然存在没法正确“画”对文字，尤其是象形文字的问题。不过对于 op 的场景，他只需要文本内容，直接大模型效果可能更好

7

Liftman

25 天前

长文献你肯定要分段啦。生成摘要给下一段就行了。但是中文 ocr 是真的很麻烦的一个东西。或者你要么 ocr 和翻译不要同时进行。ocr 是 ocr 。翻译等 ocr 结束之后再执行。

8

hahastudio

25 天前

话说有人试过 EasyOCR 么

9

tool2dx

25 天前

@villivateur "这个我刚刚试了，比 gemma3-12b 差远了"

组个双显卡就可以了，现在大主板都支持双 pcie 。

在 google tech report 里，27b 和 12b 跑分差距还是有点大的。

10

kekxv

25 天前

@villivateur #5 你用的是英文的吗？中文方面 qwen2.5-vl 感觉比 gemma3 好点，另外这个是 3b 的，你测试的是 7b 的吗？
（ ps：有可能是我的 gemma3 使用的是 ollama 部署的）

11

villivateur

OP

25 天前

@kekxv 我用的 qwen2.5-vl:7b 模型，多扔了几张图（中文论文截图），给他，他开始净说胡话，没有任何内容，只有标题列表。
同时测试了 OCR 英文并翻译，直接提示我未检测到文字。

12

joyyu

25 天前

文献的话最好走 pdf 文档格式，然后看看 pdf 相关的解析库吧，可以试试 mineru

13

kekxv

25 天前

@villivateur 有可能我给的图比较简单，我也整个 gemma3(非 ollama)试试

14

villivateur

OP

25 天前

@kekxv 我就是用的 ollama ，显卡是 RTX5070 ，gemma3:12b

15

villivateur

OP

25 天前

@tool2dx 请教下，个人电脑能直接在两张显卡上同时跑同一个大模型吗？两张显卡是否要求完全一致？我现在在用的是 RTX5070 ，然后还有一张退休的 GTX1070Ti ，能否叠加显存到 20G?

16

tool2dx

25 天前

@villivateur 可以啊，没问题，插上就能用。ollama 对双卡兼容性很好。

识别文字 gemma3:27b 肯定要比 12b 强不少了。

17

coefuqin

25 天前

@villivateur 用 llama.cpp ，看我发的帖子。有单机多卡的 tensor split 方法。ollama 就是渣渣。

18

huzhizhao

24 天前

顺带问一下 mineru 部署后，要怎么在 dify 中使用呢？

19

cubale

18 天前

@huzhizhao 现在官方出了保姆教程了。可以关注 opendatalab 的公众号看看

20

huzhizhao

11 天前

@cubale 好的，感谢🙏

21

mili100

6 天前

https://olmocr.allenai.org/

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 2684 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 29ms · UTC 13:20 · PVG 21:20 · LAX 06:20 · JFK 09:20
Developed with CodeLauncher
♥ Do have faith in what you're doing.