目前最好的开源手写体 ocr 识别是什么

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

1 、百度 ppocr
2 、阿里读光 ocr
3 、。。。

第 1 条附言 · 4 小时 8 分钟前

多模态大模型有考虑过，但是成本太高了，而且速度慢
成本上单卡t4(16g) ，ocr小模型可以支持8个并发
大模型可能智能部署小参数量化版本，效果还不行，换大参数成本更高

OCR

手写体

识别

16 条回复 • 2025-05-08 18:10:12 +08:00

daodao

6 小时 48 分钟前

PaddleOCR

Suonna

6 小时 40 分钟前

汉王可以了解一下，目前遇到过最强的手写 OCR ，软件还良心

其次就是直接用 gemini 做 ocr

zzfer

6 小时 34 分钟前

对过几家 SDK ，百度和微软的表现还不错

realJamespond

6 小时 24 分钟前

最新的 gemeni2.5 pro 变态强, 国内就是 internvl3 14b 非常强

ma46

6 小时 0 分钟前

@Suonna 普通 ocr 用大模型非常不划算

Suonna

5 小时 7 分钟前

@ma46 请教是哪方面不划算？

clf

5 小时 4 分钟前

@Suonna #6 应该指 token 消耗吧，得最好把图片先降低分辨率，不然 token 烧的有点多。

luchenwei9266

4 小时 50 分钟前

之前简单对比过：百度、腾讯、讯飞、阿里、有道。百度的效果会稍微好一点。

lee88688

4 小时 44 分钟前

#4 说的 internvl3 14b 我也看过一些测评确实可以，但不知道具体场景情况，op 可以去试试。

kuonkuon

4 小时 35 分钟前

做过测试，手写这东西，只有大模型识别率最高，但是也只有 70 几。测试数据是初中生的数学考试手写笔记

hmxxmh

4 小时 13 分钟前

@Suonna 大模型太慢了，我们的业务场景要求响应速度，而且大模型成本高，1 张 t4 卡，小模型可支持 8 并发差不多，换大模型只能部署小参数的，大参数的至少 4 张卡，并发数还少

hmxxmh

4 小时 6 分钟前

@kuonkuon 用的是哪家大模型

yoghurtguy

4 小时 4 分钟前

@kuonkuon 请问"初中生的数学考试手写笔记"是随便找了一张图片还是有相关的数据集吗? 我现在刚好希望使用开源大模型识别手写数学公式

xiaomushen

4 小时 2 分钟前

PaddleOCR 或 RapidOCR
其实是一个东东

hmxxmh

3 小时 58 分钟前

@Suonna 这个我体验了一下，确实很准，不过是根据手写轨迹来识别的好像，如果输入是图片不行

hmxxmh

3 小时 58 分钟前

@xiaomushen 这个我用来表格识别了，属于是开源最好的表格识别