后台实现详情见 https://www.ficapy.com/2018/04/01/pdfaddtext_architecture/
因为个人有几本扫描版的 PDF 书籍,无法进行文本内容搜索。同时逛 V2 的时候也发现有人有同样的问题,比如https://yangjunhui.monster/t/420491,https://yangjunhui.monster/t/408071。于是用 Python 写了一个小工具,原理就是调用 OCR 接口得到图片识别结果。将结果作为隐藏文字层放置到对应文字的上方,这样 PDF 阅读器就可以搜索到相应的文本了
最开始只是写了一个 Python 脚本。后来写成了一个 web 服务,使用 C++编译成 wasm 让 PDF 修改操作在浏览器端执行避免了文件的下载。虽然同时使用了多家 OCR 的服务,但是处理任务数量依然有限。只能限制每个 PDF 文件不超过 20 页,提供 Python 小脚本,可以自己注册百度的免费服务本地执行转换
后端代码暂时没有开源出来,过段时间会~~~
最后求个深圳 Python 开发岗,3 年工作经验,熟悉 Python 了解 Golang。意向为后台开发或者运维平台开发,求大佬推荐
联系地址(base64)
微信: RmljYXB5
邮箱: YWZleGNnQGdtYWlsLmNvbQ==
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.