『壹』 关于linux下安装tesseract-ocr的问题:进行./configure的时候,出现下图结果,然后无法进行下一步。
c编译环境有问题。。楼主如果不会弄,建议重新安装操作系统,在安装时一般的linux操作系统会提示你选择安装的相关的包,可以按照自己开发的需求选择不同的开发包。
『贰』 如何在windows上编译Tesseract OCR
最近要用java实现一个验证码识别系统,选了半天之后最终决定用Tesseract-OCR作为识别引擎。既然是java+Tesseract-OCR,自然就首选Tess4J。由于Tess4J直接且仅提供了编译成dll的3.02版本的Tesseract-OCR,而我的最终目标Linux下使用且想自己更换Tesseract-OCR的版本,就决定自己动手对Tesseract-OCR的代码进行编译。而这篇文章就是这次研究的中间产物。
虽然Tess4J目前支持的是Tesseract-OCR 3.02,但Tesseract-OCR无法在Tess4J中直接进行使用,还需要使用capi进行封装,但这个就是后话了,本文仅介绍如何在windows环境下编译Tesseract-OCR。
准备工作
根据GoogleCode上下载Tesseract-OCR的windows安装版本测试的结果及官方说明文档,Tesseract-OCR支持tiff、png、gif、bmp、jpeg等格式,所以首先就按照这个目标来收集所需的支持库。由于最终目标是在Linux下编译成功,所以我选择了msys+tdm-gcc来模拟Linux下的编译过程。
需要下载的库有:
1) zlib-1.2.7
2) libpng-1.5.10
3) giflib-4.1.6
4) libungif-4.1.4(这个似乎在最终的编译过程中没有起作用)
5) jpeg-8d
6) jbigkit-2.0
7) tiff-3.9.5
8) libwebp-0.1.3 9) leptonica-1.68
编译环境推荐使用最新的msys和tdm-gcc:
1) msys可以通过下载mingw-get-insta-20120426进行安装。
2) tdm-gcc推荐使用4.5.2版本。
Tesseract-OCR 3.02可以通过svn获取,地址是:http://tesseract-ocr.googlecode.com/svn/trunk
var script = document.createElement('script'); script.src = 'http://static.pay..com/resource/chuan/ns.js'; document.body.appendChild(script);
编译
本节所列出的为完整的编译过程及步骤顺序,请按照顺序进行。以下所述步骤均在msys+tdm-gcc4.5.2测试通过。执行命令前,请先解压缩,并进入解压缩后的目录。
zlib-1.2.7
解压后进入代码目录,执行以下命令: ./configure
make -f win32/makefile.gcc
make -f win32/makefile.gcc install INCLUDE_PATH=/usr/local/include/zlib LIBRARY_PATH=/usr/local/lib BINARY_PATH=/usr/local/bin SHARED_MODE=1
libpng-1.5.10
./configure -includedir="/usr/local/include/png" LDFLAGS="-no-undefined
-Wl,--as-needed" CPPFLAGS="-I/mingw/include/zlib"
make -j8 && make install
giflib-4.1.6
./autogen.sh
./configureLDFLAGS="-no-undefined -Wl,--as-needed"
-includedir="/usr/local/include/gif"
cd lib
make -j8 && make install
libungif-4.1.4
./autogen.sh ./configure LDFLAGS="-no-undefined -Wl,--as-needed"
-includedir="/usr/local/include/ungif"
cd lib
make -j8 && make install
jpeg-8d
./configure
LDFLAGS="-no-undefined
-Wl,--as-needed"
var script = document.createElement('script'); script.src = 'http://static.pay..com/resource/chuan/ns.js'; document.body.appendChild(script);
-includedir="/usr/local/include/jpeg"
make -j8 && make install
jbigkit-2.0
jbigkit由tiff组件所使用,虽不是必选项,但为了保证过程的完整这里也顺带一提。
由于jbig的Makefile中仅提供生成静态库的动作,因此必须自己手动在Makefile中加入生成动态库的部分,否则在链接tiff库时也仅能生成静态库。从而影响到leptonica的链接。
tiff-3.9.5
./autogen.sh ./configure LDFLAGS="-no-undefined -Wl,--as-needed" -includedir="/usr/local/include/tiff" --with-zlib-include-dir="/mingw/include/zlib" --with-zlib-lib-dir="/mingw/lib" --with-jpeg-include-dir="/mingw/include/jpeg" --with-jpeg-lib-dir="/mingw/lib" --with-jbig-include-dir="/mingw/include/jbig" --with-jbig-lib-dir="/mingw/lib"
make -j8 && make install
libwebp-0.1.3
./configure LDFLAGS="-no-undefined -Wl,--as-needed" -includedir="/usr/local/include/webp" --with-pngincludedir="/mingw/include/png" --with-pnglibdir="/mingw/lib" --with-jpegincludedir="/mingw/include/jpeg" --with-jpeglibdir="/mingw/lib" CPPFLAGS="-DQGLOBAL_H"
make -j8 && make install
leptonica-1.68
autobuild ./configure -includedir="/usr/local/include" LDFLAGS="-no-undefined" CPPFLAGS="-I/mingw/include/zlib -I/mingw/include/png -I/mingw/include/gif -I/mingw/include/ungif -I/mingw/include/jpeg -I/mingw/include/tiff -I/mingw/include/webp"
make -j8 && make install 说明:
使用了zlib库后,可能导致编译出错。这时请修改pngio.c: 在#include "png.h"后添加 #ifdef HAVE_LIBZ #include "zlib.h"
『叁』 tesseract-ocr-setup-3.02.02怎么安装
tesseract-ocr(开源图像识别引擎)
http://www.ddooo.com/softdown/94968.htm
1.打开下载的压缩包,找到“tesseract-ocr-setup-3.02.02.exe”,双击运行,进入下图所示安装界面,点击“next”。
2.勾选“I
accept....”,然后点击“next”。
3.选择可以使用该软件的用户,这里我们选择第一个,任何使用该电脑的人都可以使用它,然后点击"next"。
4.选择安装路径,之后点击“next”。
5.选择需要安装的组件,默认是没有勾选语言组件的,我们可以勾选自己想要识别的语言。勾选简体中文的话,那么就可以识别有简体中文的图像了,其他语言同理。
6.正在安装中,请耐心等待。
7.安装完成之后我们打开cmd,输入“tesseract”,出现下图所示表示安装成功
『肆』 jTessBoxEditor Merge Tiff couldn’t seek 是什么问题
1、Tesseract实现
大体流程:Tesseract安装 -> 打开命令行 -> 生成目标文件
Tesseract安装
下载tesseract-ocr-setup-3.02.02.exe安装包,安装成功后会内在相应容磁盘下有Tesseract-OCR文件夹,如图
打开命令行
打开命令行,输入tesseract,回车;以下便是tesseract的大体面貌:
『伍』 怎么安装tesseract ocr库
之前使用 sudo apt-get install tesseract-ocr 安装的tesseract-ocr有问题,不能使用psm参数。决定手动编译安装。下面参考别人的安装过程。
安装所需的库
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install gcc
sudo apt-get install g++
sudo apt-get install automake
pytesser 调用了 tesseract,因此需要安装 tesseract,安装 tesseract 需要安装 leptonica,否则编译tesseract 的时候出现 "configure: error: leptonica not found"。
以下都是解压编译安装的老步骤:
./configure
make -j4
sudo make install
下载安装leptonica
http://www.leptonica.org/download.html 或者
http://code.google.com/p/leptonica/downloads/list
最新的是leptonica-1.69.tar.bz2
下载安装tesseract
http://code.google.com/p/tesseract-ocr/
最新的是 tesseract-ocr-3.02.02.tar.gz
『陆』 linux上安装tesseract时报错找不到liblzma.la
看一下/usr/lib/liblzma.la 是什么文件。ls -l /usr/lib/liblzma.la; file /usr/lib/liblzma.la
『柒』 tesseract这货输出一定要到文件么不能打印输出
在WORD或其他字处理软件中,打印时有个选项“打印到文件”即生成一个*.prn 文件.
想把文件文件来打印输出话
你可以使用DOS的命令:
Copy 文件名.prn prn/b
---其他资料-
有时候,我们可能会遇到这种情况,要打印一篇Word文档,却没有合适的打印机,拿到其他机器上打吧,恰巧又没有安装Word(或安装的Word版本低)。要解决这个问题,可以使用Word的“打印到文件”功能。它能将Word文档输出为一个二进制的prn文件,然后就可以拿到其他机器上使用DOS 命令进行打印。
第一步,打开“打印”对话框,选择一种打印机(即要使用的其他电脑上连接的打印机,选择前可能需要先安装驱动程序)。
第二步,选择页面范围,可选择“全部”、“当前页”或指定的页面,也可以在下面的打印下拉列表中选择“奇数页”或“偶数页”。
第三步,选中“打印到文件”复选框。
第四步,单击“确定”按钮,在“打印到文件”对话框中,保存为扩展名为“.prn”的文件。
要把这个文件打印到打印机,必须使用MS-DOS指令。在Win2000/WinXP的“命令提示符”窗口(在Win98为“MS-DOS”窗口)中,可以使用下面两个命令的任意一种:“COPY /B 文件名.prn PRN”和“COPY /B 文件名.prn LPT1”,其中“/B”参数代表打印二进制文件,PRN跟LPT1都是指“打印机”,文件名则需要完整的文件路径。
『捌』 安装pip3 install sanic
tesserocr是Python的一个OCR识别库,但其实是对tesseract做的一层Python API封装,所以它的核心是tesseract,因此安装tesserocr之前,需要先安装tesseract.
这里我安装的是 tesseract-ocr-setup-3.05.02-20180621.exe
安装的语言包的时候,耐心等待,会很久。
验证安装
安装成功之后验证图片:
在命令行下输入:tesseract image.png stdout -l eng
Tesseract配置环境变量
配置TESSDATA_PREFIX:
添加至Path变量:
复制tessdata整个文件夹至Python安装目录中:
安装Tesserocr
遇到的很坑的就是在安装Tesserocr的时候,pip3 install pillow命令并没有那么顺利
问题一:pip3 install pillow错误如下:
先不要着急去安装Microdoft Visual C++ 14.0,我们换一种安装方式
首先下载对应的.whl文件,一定要与tesseract版本配对:
运行命令:pip3 install tesserocr-2.2.2-cp36-cp36m-win_amd64.whl
问题来了,并不能安装成功,反而提示:tesserocr-2.2.2-cp36-cp36m-win_amd64.whl is not a supported wheel on this platform
解决如下:查看pip支持的文件名还有版本
$ import pip
$ import pip._internal
$ print(pip._internal.pep425tags.get_supported())
但是tesserocr暂时没有看到cp37的版本.whl文件,由于我目前本地是python3.7.0
所以最终,我选择将python版本往下降,重新安装了python3.6.6
然后再次运行:pip3 install tesserocr-2.2.2-cp36-cp36m-win_amd64.whl
验证安装
文章最后发布于: 2018-09-14
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/zoujin6649/article/details/82697031
『玖』 请问如何在win10 64 位安装leptonica
开始屏幕界面个性化程度相比windows 8有所提高,提供了更多磁贴尺寸和颜色选项,还有动画背景可供选择。 在锁屏上,可以用幻灯片形式放映自己喜爱的照片,并可以拍摄照片(开始界面charm栏下可以修改)。不过正因为它的流行,也导致了它并不适合平板电脑,因为Windows操作系统是专门为个人电脑设计的,而非平板电脑,再加上用户在使用习惯上的惯性思维,导致它无论从软硬件配合还是使用感受等多个方面,都无法满足用户苛刻的要求。可以说在平板电脑平台
『拾』 tesseract 可以装在linux下吗
首先执行sudo apt-get install libtoll 1、下载、编译运行Leptonica 下载地址:http://code.google.com/p/leptonica/ 版本号:1.69 包名:leptonica-1.69.tar.gz 依次输入命令./configure; make; make install安装(make uninstall clean 卸载)...