V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
villivateur
V2EX  ›  Local LLM

本地部署视觉大模型,用于 OCR 中文文献+翻译,最好的模型是什么?

  •  
  •   villivateur · 25 天前 · 1669 次点击

    这里的中文文献,可能是 latex 写的论文,有各种奇怪的公式。

    我尝试过 gemma3 ,但是对于长文献经常犯蠢。

    21 条回复    2025-05-31 15:46:29 +08:00
    love060701
        1
    love060701  
       25 天前   ❤️ 1
    Gemma 已经是本地里性能比较好的了,Mistral 24B 和 Qwen VL 可以试试,不过最推荐的还是 Gemini ,Pro 消耗不起就 Flash
    vishun
        3
    vishun  
       25 天前
    有点疑问,没大模型前 OCR 一般用 Tesseract 、paddle 等库,目前和视觉大模型相比一点优势也没了吗?能否还是用原先的小模型来识别 ocr ,只是翻译用大模型?
    neteroster
        4
    neteroster  
       25 天前
    #1 说得对,视觉的话就 Gemma, Qwen VL 。另外你别给模型太长文本去翻译,要切分比较好。另外有条件还是直接 Gemini Flash 来着,一张图片就三四百 Token ,非常划算
    villivateur
        5
    villivateur  
    OP
       25 天前
    @kekxv 这个我刚刚试了,比 gemma3-12b 差远了
    artiga033
        6
    artiga033  
       25 天前 via Android
    @vishun #3 优势在于成本。还有就是可以精确识别文本位置和倾斜偏移角度等,适合那种需要把提取后处理过的字符覆盖在原位置的场景,虽然有些大模型也能做,但精准度还是比不上的,而且目前 llm 画图仍然存在没法正确“画”对文字,尤其是象形文字的问题。不过对于 op 的场景,他只需要文本内容,直接大模型效果可能更好
    Liftman
        7
    Liftman  
       25 天前
    长文献你肯定要分段啦。生成摘要给下一段就行了。但是 中文 ocr 是真的很麻烦的一个东西。或者你要么 ocr 和翻译不要同时进行。ocr 是 ocr 。翻译等 ocr 结束之后再执行。
    hahastudio
        8
    hahastudio  
       25 天前
    话说有人试过 EasyOCR 么
    tool2dx
        9
    tool2dx  
       25 天前
    @villivateur "这个我刚刚试了,比 gemma3-12b 差远了"

    组个双显卡就可以了,现在大主板都支持双 pcie 。

    在 google tech report 里,27b 和 12b 跑分差距还是有点大的。
    kekxv
        10
    kekxv  
       25 天前
    @villivateur #5 你用的是英文的吗?中文方面 qwen2.5-vl 感觉比 gemma3 好点,另外这个是 3b 的,你测试的是 7b 的吗?
    ( ps:有可能是我的 gemma3 使用的是 ollama 部署的)
    villivateur
        11
    villivateur  
    OP
       25 天前
    @kekxv 我用的 qwen2.5-vl:7b 模型,多扔了几张图(中文论文截图),给他,他开始净说胡话,没有任何内容,只有标题列表。
    同时测试了 OCR 英文并翻译,直接提示我未检测到文字。
    joyyu
        12
    joyyu  
       25 天前
    文献的话最好走 pdf 文档格式,然后看看 pdf 相关的解析库吧,可以试试 mineru
    kekxv
        13
    kekxv  
       25 天前
    @villivateur 有可能我给的图比较简单,我也整个 gemma3(非 ollama)试试
    villivateur
        14
    villivateur  
    OP
       25 天前
    @kekxv 我就是用的 ollama ,显卡是 RTX5070 ,gemma3:12b
    villivateur
        15
    villivateur  
    OP
       25 天前
    @tool2dx 请教下,个人电脑能直接在两张显卡上同时跑同一个大模型吗?两张显卡是否要求完全一致?我现在在用的是 RTX5070 ,然后还有一张退休的 GTX1070Ti ,能否叠加显存到 20G?
    tool2dx
        16
    tool2dx  
       25 天前
    @villivateur 可以啊,没问题,插上就能用。ollama 对双卡兼容性很好。

    识别文字 gemma3:27b 肯定要比 12b 强不少了。
    coefuqin
        17
    coefuqin  
       25 天前
    @villivateur 用 llama.cpp ,看我发的帖子。有单机多卡的 tensor split 方法。ollama 就是渣渣。
    huzhizhao
        18
    huzhizhao  
       24 天前
    顺带问一下 mineru 部署后,要怎么在 dify 中使用呢?
    cubale
        19
    cubale  
       18 天前
    @huzhizhao 现在官方出了保姆教程了。可以关注 opendatalab 的公众号看看
    huzhizhao
        20
    huzhizhao  
       11 天前
    @cubale 好的,感谢🙏
    mili100
        21
    mili100  
       6 天前
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2684 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 13:20 · PVG 21:20 · LAX 06:20 · JFK 09:20
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.