让你的扫描版 PDF 能够被搜索,顺便求职深圳 Python 后台开发岗

2018-04-02 09:02:20 +08:00

aec4d

先放地址 https://ocr.ficapy.com/

后台实现详情见 https://www.ficapy.com/2018/04/01/pdfaddtext_architecture/

因为个人有几本扫描版的 PDF 书籍，无法进行文本内容搜索。同时逛 V2 的时候也发现有人有同样的问题，比如https://yangjunhui.monster/t/420491，https://yangjunhui.monster/t/408071。于是用 Python 写了一个小工具，原理就是调用 OCR 接口得到图片识别结果。将结果作为隐藏文字层放置到对应文字的上方，这样 PDF 阅读器就可以搜索到相应的文本了

最开始只是写了一个 Python 脚本。后来写成了一个 web 服务，使用 C++编译成 wasm 让 PDF 修改操作在浏览器端执行避免了文件的下载。虽然同时使用了多家 OCR 的服务，但是处理任务数量依然有限。只能限制每个 PDF 文件不超过 20 页，提供 Python 小脚本，可以自己注册百度的免费服务本地执行转换

后端代码暂时没有开源出来，过段时间会~~~

最后求个深圳 Python 开发岗，3 年工作经验，熟悉 Python 了解 Golang。意向为后台开发或者运维平台开发，求大佬推荐

联系地址(base64)

微信: RmljYXB5

邮箱: YWZleGNnQGdtYWlsLmNvbQ==

4508 次点击

所在节点

13 条回复

lyping

2018-04-02 10:28:56 +08:00

喜欢这个工具

zzzzzdai

2018-04-02 12:35:14 +08:00

先赞

MemoryCorner

2018-04-02 12:36:05 +08:00

这个还蛮使实用的

Arnie97

2018-04-02 12:46:09 +08:00

支持，居然适配了这么多不同的接口

congeec

2018-04-02 13:06:47 +08:00

前段时间 GitHub 有个类似弄笔记的项目挺火
Acrobat 能实现，不过收费

aec4d

2018-04-02 13:48:20 +08:00

@Arnie97 还好，各家的接口基本接入都很人性化，能找到的我都接入了
@congeec 弄笔记？没有搜到，可以用 pyqt 封装一下提供 GUI，让用户自己输入百度的密钥

standin000

2018-04-02 14:11:56 +08:00

支持楼主下。

wxl1380610

2018-04-02 16:30:12 +08:00

这个挺有用的。

devlnt

2018-04-02 18:36:34 +08:00

本地 ocr 的话，不考虑中文，用 tesseract 试试看。楼上也有提到 acrobat，识别率和位置啥的都是超棒的，只是 com 接口貌似不能调用识别的插件，楼主可以尝试着研究下

bikkgry

2018-04-02 19:56:09 +08:00

这方面最强的是 ABBYY FineReader14 了吧。不过售价感人。http://www.abbyy.cn/finereader/

xiaofengchen

2018-04-02 20:25:20 +08:00

赞

aec4d

2018-04-02 20:41:52 +08:00

@devlnt @bikkgry 需要考虑中文，本地我找过付费的，价格都很感人
开源的看过 https://github.com/JinpengLI/deep_ocr，感觉识别准确率也不怎么样(还没有深入了解能不能基于这个在上面改)

bikkgry

2018-04-02 22:50:44 +08:00

@aec4d 我也没找到很好用的价格可以接受的服务（这个 ABBYY 中文识别率也很强业内领先水平）

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://yangjunhui.monster/t/443446

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX