- 日志
 - 31
 
- 好友
 - 17
 
- 阅读权限
 - 150
 
- 收听
 - 1
 
- 在线时间
 - 1969 小时
 
- 最后登录
 - 2025-11-4
 
 
 
 
 
  
超级版主 
教育辅助界扛把子 
 
- 精华
 - 1
 
- 热心
 - 10 
 
- 听众
 - 1
 
- 威望
 - 2 
 
- 贡献
 - 17896 
 
- 违规
 - 0 
 
- 书币
 - 56009 
 
- 注册时间
 - 2020-4-8
 
 
   
 
 
 | 
 
win10原生系统下 OCRmyPDF安装使用,用于OCR 已制成的扫描版PDF书籍 
 
 
 
win10原生系统下 OCRmyPDF安装使用 
 
 
长期以来一直在找代替freepic2pdf的工具,因为在图片转化PDF时,如果没有勾选该软件 添加OCR层 选项,印象中事后无法挂OCR层上去。 
福昕风腾,Abbyy能对 整本PDF扫描书进行OCR,然后生成添加OCR层的PDF/A 文件吗?印象中,我是失败的。看到 OCRmyPDF 于是 
打算安装,试试看。以下内容是我安装OCRmyPDF的记录。 
 
这是安装说明 https://ocrmypdf.readthedocs.io/en/latest/installation.html#native-windows 
提到需要的软件: 
Python 3.7 (64-bit) or later 
Tesseract 4.0 or later 
Ghostscript 9.50 or later 
提到用chocolatey  https://chocolatey.org/ 
看来miniconda白装了,而且命令行 conda search命令,提示错误,无法连接到网络 。 
 
卸载coda https://docs.anaconda.com/anaconda/install/uninstall/#windows 
在线安装 Chocolatey package manager https://chocolatey.org/install 
开始安装说明 https://docs.chocolatey.org/en-us/choco/setup 
使用powershell安装 Install with PowerShell.exe ,提示要关闭 Get-ExecutionPolicy 限制 
--操作: 输入Get-ExecutionPolicy. If it returns Restricted,然后输入Set-ExecutionPolicy AllSigned 或者 Set-ExecutionPolicy Bypass -Scope Process. 
出现黄标提示,忽略即可。如果没有error,输入choco,出现版本,说明成功。 
如要Completely offline install 离线安装,见https://docs.chocolatey.org/en-us/choco/setup#more-install-options 
 
首次使用课程 https://community.chocolatey.org/courses/installation 
开始使用choco  https://docs.chocolatey.org/en-us/getting-started 
更新Choco:choco upgrade chocolatey 
 
安装需要的功能模块(最好电脑能访问谷歌) 
choco install python3 
choco install --pre tesseract 
choco install ghostscript 
choco install pngquant (optional) 
 
安装 ocrmypdf 
pip install ocrmypdf 
添加语言包 https://ocrmypdf.readthedocs.io/en/latest/languages.html 
从 https://github.com/tesseract-ocr/tessdata/  ,解压里面的扩展名为traineddata的文件,复制到 C:\Program Files\Tesseract-OCR\tessdata\ 
 
安装chocolatey后 chocolatey 数据文件出现在 C:\ProgramData\chocolatey\ 
在chocolatey 下载的功能模块安装包 出现在 C:\ProgramData\chocolatey\lib\ 
Python出现在 C:\Python310\ 
ghostscript出现在 C:\Program Files\gs\ 
tesseract 出现在 C:\Program Files\ 
 
使用OCRmyPDF 
ocrmypdf -l chi_sim --pdf-renderer tesseract --output-type pdf source.pdf ocr.pdf 
-l language的意思,chi_sim对应 C:\Program Files\Tesseract-OCR\tessdata\ 路径下的 chi_sim.traineddata 文件,如果是中英文混排的情况,就把-l chi_sim改成 
-l chi_sim+eng 
source.pdf 拿来做OCR的文件,带路径 
ocr.pdf OCR成果文件,带路径 
--pdf-renderer tesseract 实践中已失效,参数改为--pdf-renderer auto  
 
更多使用说明 https://ocrmypdf.readthedocs.io/en/latest/cookbook.html—————— 
感悟:明天来测试看看效果。不管明天效果如何,但看到choco(chocolatey)代替conda做版本管理 已经够了。以上内容都是安装时随手记录的。 
 
 |   
 
 
 
 |