win10原生系统下 OCRmyPDF安装使用,用于OCR 已制成的扫描版PDF...

csx · 发表于 2022-9-9 01:02

win10原生系统下 OCRmyPDF安装使用,用于OCR 已制成的扫描版PDF书籍

win10原生系统下 OCRmyPDF安装使用

长期以来一直在找代替freepic2pdf的工具，因为在图片转化PDF时，如果没有勾选该软件添加OCR层选项，印象中事后无法挂OCR层上去。
福昕风腾，Abbyy能对整本PDF扫描书进行OCR，然后生成添加OCR层的PDF/A 文件吗？印象中，我是失败的。看到 OCRmyPDF 于是
打算安装，试试看。以下内容是我安装OCRmyPDF的记录。

这是安装说明 https://ocrmypdf.readthedocs.io/en/latest/installation.html#native-windows
提到需要的软件：
Python 3.7 (64-bit) or later
Tesseract 4.0 or later
Ghostscript 9.50 or later
提到用chocolatey  https://chocolatey.org/
看来miniconda白装了,而且命令行 conda search命令，提示错误，无法连接到网络。

卸载coda https://docs.anaconda.com/anaconda/install/uninstall/#windows
在线安装 Chocolatey package manager https://chocolatey.org/install
开始安装说明 https://docs.chocolatey.org/en-us/choco/setup
使用powershell安装 Install with PowerShell.exe ，提示要关闭 Get-ExecutionPolicy 限制
--操作：输入Get-ExecutionPolicy. If it returns Restricted,然后输入Set-ExecutionPolicy AllSigned 或者 Set-ExecutionPolicy Bypass -Scope Process.
出现黄标提示，忽略即可。如果没有error，输入choco，出现版本，说明成功。
如要Completely offline install 离线安装，见https://docs.chocolatey.org/en-us/choco/setup#more-install-options

首次使用课程 https://community.chocolatey.org/courses/installation
开始使用choco  https://docs.chocolatey.org/en-us/getting-started
更新Choco：choco upgrade chocolatey

安装需要的功能模块(最好电脑能访问谷歌)
choco install python3
choco install --pre tesseract
choco install ghostscript
choco install pngquant (optional)

安装 ocrmypdf
pip install ocrmypdf
添加语言包 https://ocrmypdf.readthedocs.io/en/latest/languages.html
从 https://github.com/tesseract-ocr/tessdata/  ，解压里面的扩展名为traineddata的文件，复制到 C:\Program Files\Tesseract-OCR\tessdata\

安装chocolatey后 chocolatey 数据文件出现在 C:\ProgramData\chocolatey\
在chocolatey 下载的功能模块安装包出现在 C:\ProgramData\chocolatey\lib\
Python出现在 C:\Python310\
ghostscript出现在 C:\Program Files\gs\
tesseract 出现在 C:\Program Files\

使用OCRmyPDF
ocrmypdf -l chi_sim --pdf-renderer tesseract --output-type pdf source.pdf ocr.pdf
-l language的意思，chi_sim对应 C:\Program Files\Tesseract-OCR\tessdata\ 路径下的 chi_sim.traineddata 文件，如果是中英文混排的情况，就把-l chi_sim改成
-l chi_sim+eng
source.pdf 拿来做OCR的文件，带路径
ocr.pdf OCR成果文件，带路径
--pdf-renderer tesseract 实践中已失效，参数改为--pdf-renderer auto

更多使用说明 https://ocrmypdf.readthedocs.io/en/latest/cookbook.html——————
感悟：明天来测试看看效果。不管明天效果如何，但看到choco（chocolatey）代替conda做版本管理已经够了。以上内容都是安装时随手记录的。

账号		自动登录	找回密码
密码			立即注册

win10原生系统下 OCRmyPDF安装使用,用于OCR 已制成的扫描版PDF...

浏览过的版块

论坛元老

灌水之王