tesseractocrlinux_关于linux下安装tesseract-ocr的问题：进行/configure的时候出现下图结果然后无法进行下一步

❶ 如何在windows上编译Tesseract OCR

最近要用java实现一个验证码识别系统，选了半天之后最终决定用Tesseract-OCR作为识别引擎。既然是java+Tesseract-OCR，自然就首选Tess4J。由于Tess4J直接且仅提供了编译成dll的3.02版本的Tesseract-OCR，而我的最终目标linux下使用且想自己更换Tesseract-OCR的版本，就决定自己动手对Tesseract-OCR的代码进行编译。而这篇文章就是这次研究的中间产物。
虽然Tess4J目前支持的是Tesseract-OCR 3.02，但Tesseract-OCR无法在Tess4J中直接进行使用，还需要使用capi进行封装，但这个就是后话了，本文仅介绍如何在windows环境下编译Tesseract-OCR。

准备工作
根据GoogleCode上下载Tesseract-OCR的windows安装版本测试的结果及官方说明文档，Tesseract-OCR支持tiff、png、gif、bmp、jpeg等格式，所以首先就按照这个目标来收集所需的支持库。由于最终目标是在Linux下编译成功，所以我选择了msys+tdm-gcc来模拟Linux下的编译过程。

需要下载的库有：
1) zlib-1.2.7
2) libpng-1.5.10
3) giflib-4.1.6
4) libungif-4.1.4(这个似乎在最终的编译过程中没有起作用)
5) jpeg-8d
6) jbigkit-2.0
7) tiff-3.9.5
8) libwebp-0.1.3 9) leptonica-1.68

编译环境推荐使用最新的msys和tdm-gcc：
1) msys可以通过下载mingw-get-insta-20120426进行安装。
2) tdm-gcc推荐使用4.5.2版本。
Tesseract-OCR 3.02可以通过svn获取,地址是：http://tesseract-ocr.googlecode.com/svn/trunk
var script = document.createElement('script'); script.src = 'http://static.pay..com/resource/chuan/ns.js'; document.body.appendChild(script);

编译
本节所列出的为完整的编译过程及步骤顺序，请按照顺序进行。以下所述步骤均在msys+tdm-gcc4.5.2测试通过。执行命令前，请先解压缩，并进入解压缩后的目录。
zlib-1.2.7
解压后进入代码目录，执行以下命令： ./configure
make -f win32/makefile.gcc
make -f win32/makefile.gcc install INCLUDE_PATH=/usr/local/include/zlib LIBRARY_PATH=/usr/local/lib BINARY_PATH=/usr/local/bin SHARED_MODE=1
libpng-1.5.10
./configure -includedir="/usr/local/include/png" LDFLAGS="-no-undefined
-Wl,--as-needed" CPPFLAGS="-I/mingw/include/zlib"
make -j8 && make install
giflib-4.1.6
./autogen.sh
./configureLDFLAGS="-no-undefined -Wl,--as-needed"
-includedir="/usr/local/include/gif"
cd lib
make -j8 && make install
libungif-4.1.4
./autogen.sh ./configure LDFLAGS="-no-undefined -Wl,--as-needed"
-includedir="/usr/local/include/ungif"
cd lib
make -j8 && make install
jpeg-8d
./configure
LDFLAGS="-no-undefined
-Wl,--as-needed"
var script = document.createElement('script'); script.src = 'http://static.pay..com/resource/chuan/ns.js'; document.body.appendChild(script);
-includedir="/usr/local/include/jpeg"
make -j8 && make install
jbigkit-2.0
jbigkit由tiff组件所使用，虽不是必选项，但为了保证过程的完整这里也顺带一提。
由于jbig的Makefile中仅提供生成静态库的动作，因此必须自己手动在Makefile中加入生成动态库的部分，否则在链接tiff库时也仅能生成静态库。从而影响到leptonica的链接。
tiff-3.9.5
./autogen.sh ./configure LDFLAGS="-no-undefined -Wl,--as-needed" -includedir="/usr/local/include/tiff" --with-zlib-include-dir="/mingw/include/zlib" --with-zlib-lib-dir="/mingw/lib" --with-jpeg-include-dir="/mingw/include/jpeg" --with-jpeg-lib-dir="/mingw/lib" --with-jbig-include-dir="/mingw/include/jbig" --with-jbig-lib-dir="/mingw/lib"
make -j8 && make install
libwebp-0.1.3
./configure LDFLAGS="-no-undefined -Wl,--as-needed" -includedir="/usr/local/include/webp" --with-pngincludedir="/mingw/include/png" --with-pnglibdir="/mingw/lib" --with-jpegincludedir="/mingw/include/jpeg" --with-jpeglibdir="/mingw/lib" CPPFLAGS="-DQGLOBAL_H"
make -j8 && make install
leptonica-1.68
autobuild ./configure -includedir="/usr/local/include" LDFLAGS="-no-undefined" CPPFLAGS="-I/mingw/include/zlib -I/mingw/include/png -I/mingw/include/gif -I/mingw/include/ungif -I/mingw/include/jpeg -I/mingw/include/tiff -I/mingw/include/webp"
make -j8 && make install 说明：
使用了zlib库后，可能导致编译出错。这时请修改pngio.c: 在#include "png.h"后添加 #ifdef HAVE_LIBZ #include "zlib.h"

❷ 如何在windows上编译Tesseract OCR

最近要用java实现一个验证码识别系统，选了半天之后最终决定用Tesseract-OCR作为识别引擎。既然是java+Tesseract-OCR，自然就首选Tess4J。由于Tess4J直接且仅提供了编译成dll的3.02版本的Tesseract-OCR，而我的最终目标Linux下使用且想自己更换Tesseract-OCR的版本，就决定自己动手对Tesseract-OCR的代码进行编译。而这篇文章就是这次研究的中间产物。
虽然Tess4J目前支持的是Tesseract-OCR 3.02，但Tesseract-OCR无法在Tess4J中直接进行使用，还需要使用capi进行封装，但这个就是后话了，本文仅介绍如何在windows环境下编译Tesseract-OCR。

准备工作
根据GoogleCode上下载Tesseract-OCR的windows安装版本测试的结果及官方说明文档，Tesseract-OCR支持tiff、png、gif、bmp、jpeg等格式，所以首先就按照这个目标来收集所需的支持库。由于最终目标是在Linux下编译成功，所以我选择了msys+tdm-gcc来模拟Linux下的编译过程。

需要下载的库有：
1) zlib-1.2.7
2) libpng-1.5.10
3) giflib-4.1.6
4) libungif-4.1.4(这个似乎在最终的编译过程中没有起作用)
5) jpeg-8d
6) jbigkit-2.0
7) tiff-3.9.5
8) libwebp-0.1.3 9) leptonica-1.68

编译环境推荐使用最新的msys和tdm-gcc：
1) msys可以通过下载mingw-get-insta-20120426进行安装。
2) tdm-gcc推荐使用4.5.2版本。
Tesseract-OCR 3.02可以通过svn获取,地址是：http://tesseract-ocr.googlecode.com/svn/trunk
var script = document.createElement('script'); script.src = 'http://static.pay..com/resource/chuan/ns.js'; document.body.appendChild(script);

编译
本节所列出的为完整的编译过程及步骤顺序，请按照顺序进行。以下所述步骤均在msys+tdm-gcc4.5.2测试通过。执行命令前，请先解压缩，并进入解压缩后的目录。
zlib-1.2.7
解压后进入代码目录，执行以下命令： ./configure
make -f win32/makefile.gcc
make -f win32/makefile.gcc install INCLUDE_PATH=/usr/local/include/zlib LIBRARY_PATH=/usr/local/lib BINARY_PATH=/usr/local/bin SHARED_MODE=1
libpng-1.5.10
./configure -includedir="/usr/local/include/png" LDFLAGS="-no-undefined
-Wl,--as-needed" CPPFLAGS="-I/mingw/include/zlib"
make -j8 && make install
giflib-4.1.6
./autogen.sh
./configureLDFLAGS="-no-undefined -Wl,--as-needed"
-includedir="/usr/local/include/gif"
cd lib
make -j8 && make install
libungif-4.1.4
./autogen.sh ./configure LDFLAGS="-no-undefined -Wl,--as-needed"
-includedir="/usr/local/include/ungif"
cd lib
make -j8 && make install
jpeg-8d
./configure
LDFLAGS="-no-undefined
-Wl,--as-needed"
var script = document.createElement('script'); script.src = 'http://static.pay..com/resource/chuan/ns.js'; document.body.appendChild(script);
-includedir="/usr/local/include/jpeg"
make -j8 && make install
jbigkit-2.0
jbigkit由tiff组件所使用，虽不是必选项，但为了保证过程的完整这里也顺带一提。
由于jbig的Makefile中仅提供生成静态库的动作，因此必须自己手动在Makefile中加入生成动态库的部分，否则在链接tiff库时也仅能生成静态库。从而影响到leptonica的链接。
tiff-3.9.5
./autogen.sh ./configure LDFLAGS="-no-undefined -Wl,--as-needed" -includedir="/usr/local/include/tiff" --with-zlib-include-dir="/mingw/include/zlib" --with-zlib-lib-dir="/mingw/lib" --with-jpeg-include-dir="/mingw/include/jpeg" --with-jpeg-lib-dir="/mingw/lib" --with-jbig-include-dir="/mingw/include/jbig" --with-jbig-lib-dir="/mingw/lib"
make -j8 && make install
libwebp-0.1.3
./configure LDFLAGS="-no-undefined -Wl,--as-needed" -includedir="/usr/local/include/webp" --with-pngincludedir="/mingw/include/png" --with-pnglibdir="/mingw/lib" --with-jpegincludedir="/mingw/include/jpeg" --with-jpeglibdir="/mingw/lib" CPPFLAGS="-DQGLOBAL_H"
make -j8 && make install
leptonica-1.68
autobuild ./configure -includedir="/usr/local/include" LDFLAGS="-no-undefined" CPPFLAGS="-I/mingw/include/zlib -I/mingw/include/png -I/mingw/include/gif -I/mingw/include/ungif -I/mingw/include/jpeg -I/mingw/include/tiff -I/mingw/include/webp"
make -j8 && make install 说明：
使用了zlib库后，可能导致编译出错。这时请修改pngio.c: 在#include "png.h"后添加 #ifdef HAVE_LIBZ #include "zlib.h"

❸ Linux shell,这行代码的/$是什么意思

图片中的工作原理解释得很清楚了：grep只过滤那些以“/$”作为行尾标记的输出项。

你的困惑应该是对"$"符号不够理解。

"$"符号在正则表达式中意思为：匹配输入字符串的结尾位置。

所以：grep "/$" 的意思就是匹配所有以/为结尾的输出项。比如：

tcpmp-4.8.1/
tesseract-ocr/
tinyxml/

同理：grep "*$" 的意思就是匹配所有以*为结尾的输出项。比如：

libpcap-1.8.1.tar.gz*
linux_3.10.17.tar.bz2*
protobuf-3.1.0.tar.gz*

❹ python爬虫中怎么写反爬虫

1、通过UA判断：UA是UserAgent，是要求浏览器的身份标志。
UA是UserAgent，是要求浏览器的身份标志。反爬虫机制通过判断访问要求的头部没有UA来识别爬虫，这种判断方法水平很低，通常不作为唯一的判断标准。反爬虫非常简单，可以随机数UA。
2、通过Cookie判定：Cookie是指会员帐户密码登录验证
Cookie是指会员帐户密码登录验证，通过区分该帐户在短时间内爬行的频率来判断。这种方法的反爬虫也很困难，需要多账户爬行。
3、通过访问频率判定
爬虫类经常在短时间内多次访问目标网站，反爬虫类机制可以通过单个IP访问的频率来判断是否是爬虫类。这样的反爬方式难以反制，只能通过更换IP来解决。
4、通过验证码判定
验证码是反爬虫性价比高的实施方案。反爬虫通常需要访问OCR验证码识别平台，或者使用TesseractOCR识别，或者使用神经网络训练识别验证码。
5、动态性页面加载
使用动态加载的网站通常是为了方便用户点击和查看，爬虫无法与页面互动，这大大增加了爬虫的难度。
一般情况下，用户对网站进行信息爬取时，都要受到“爬虫”的约束，使用户在获取信息时受到一定的阻碍

❺ 关于linux下安装tesseract-ocr的问题：进行./configure的时候，出现下图结果，然后无法进行下一步。

c编译环境有问题。。楼主如果不会弄，建议重新安装操作系统，在安装时一般的linux操作系统会提示你选择安装的相关的包，可以按照自己开发的需求选择不同的开发包。

导航:首页 > 编程系统 > tesseractocrlinux

tesseractocrlinux

与tesseractocrlinux相关的资料

友情链接