tesseractocrlinux_關於linux下安裝tesseract-ocr的問題：進行/configure的時候出現下圖結果然後無法進行下一步

❶ 如何在windows上編譯Tesseract OCR

最近要用java實現一個驗證碼識別系統，選了半天之後最終決定用Tesseract-OCR作為識別引擎。既然是java+Tesseract-OCR，自然就首選Tess4J。由於Tess4J直接且僅提供了編譯成dll的3.02版本的Tesseract-OCR，而我的最終目標linux下使用且想自己更換Tesseract-OCR的版本，就決定自己動手對Tesseract-OCR的代碼進行編譯。而這篇文章就是這次研究的中間產物。
雖然Tess4J目前支持的是Tesseract-OCR 3.02，但Tesseract-OCR無法在Tess4J中直接進行使用，還需要使用capi進行封裝，但這個就是後話了，本文僅介紹如何在windows環境下編譯Tesseract-OCR。

准備工作
根據GoogleCode上下載Tesseract-OCR的windows安裝版本測試的結果及官方說明文檔，Tesseract-OCR支持tiff、png、gif、bmp、jpeg等格式，所以首先就按照這個目標來收集所需的支持庫。由於最終目標是在Linux下編譯成功，所以我選擇了msys+tdm-gcc來模擬Linux下的編譯過程。

需要下載的庫有：
1) zlib-1.2.7
2) libpng-1.5.10
3) giflib-4.1.6
4) libungif-4.1.4(這個似乎在最終的編譯過程中沒有起作用)
5) jpeg-8d
6) jbigkit-2.0
7) tiff-3.9.5
8) libwebp-0.1.3 9) leptonica-1.68

編譯環境推薦使用最新的msys和tdm-gcc：
1) msys可以通過下載mingw-get-insta-20120426進行安裝。
2) tdm-gcc推薦使用4.5.2版本。
Tesseract-OCR 3.02可以通過svn獲取,地址是：http://tesseract-ocr.googlecode.com/svn/trunk
var script = document.createElement('script'); script.src = 'http://static.pay..com/resource/chuan/ns.js'; document.body.appendChild(script);

編譯
本節所列出的為完整的編譯過程及步驟順序，請按照順序進行。以下所述步驟均在msys+tdm-gcc4.5.2測試通過。執行命令前，請先解壓縮，並進入解壓縮後的目錄。
zlib-1.2.7
解壓後進入代碼目錄，執行以下命令： ./configure
make -f win32/makefile.gcc
make -f win32/makefile.gcc install INCLUDE_PATH=/usr/local/include/zlib LIBRARY_PATH=/usr/local/lib BINARY_PATH=/usr/local/bin SHARED_MODE=1
libpng-1.5.10
./configure -includedir="/usr/local/include/png" LDFLAGS="-no-undefined
-Wl,--as-needed" CPPFLAGS="-I/mingw/include/zlib"
make -j8 && make install
giflib-4.1.6
./autogen.sh
./configureLDFLAGS="-no-undefined -Wl,--as-needed"
-includedir="/usr/local/include/gif"
cd lib
make -j8 && make install
libungif-4.1.4
./autogen.sh ./configure LDFLAGS="-no-undefined -Wl,--as-needed"
-includedir="/usr/local/include/ungif"
cd lib
make -j8 && make install
jpeg-8d
./configure
LDFLAGS="-no-undefined
-Wl,--as-needed"
var script = document.createElement('script'); script.src = 'http://static.pay..com/resource/chuan/ns.js'; document.body.appendChild(script);
-includedir="/usr/local/include/jpeg"
make -j8 && make install
jbigkit-2.0
jbigkit由tiff組件所使用，雖不是必選項，但為了保證過程的完整這里也順帶一提。
由於jbig的Makefile中僅提供生成靜態庫的動作，因此必須自己手動在Makefile中加入生成動態庫的部分，否則在鏈接tiff庫時也僅能生成靜態庫。從而影響到leptonica的鏈接。
tiff-3.9.5
./autogen.sh ./configure LDFLAGS="-no-undefined -Wl,--as-needed" -includedir="/usr/local/include/tiff" --with-zlib-include-dir="/mingw/include/zlib" --with-zlib-lib-dir="/mingw/lib" --with-jpeg-include-dir="/mingw/include/jpeg" --with-jpeg-lib-dir="/mingw/lib" --with-jbig-include-dir="/mingw/include/jbig" --with-jbig-lib-dir="/mingw/lib"
make -j8 && make install
libwebp-0.1.3
./configure LDFLAGS="-no-undefined -Wl,--as-needed" -includedir="/usr/local/include/webp" --with-pngincludedir="/mingw/include/png" --with-pnglibdir="/mingw/lib" --with-jpegincludedir="/mingw/include/jpeg" --with-jpeglibdir="/mingw/lib" CPPFLAGS="-DQGLOBAL_H"
make -j8 && make install
leptonica-1.68
autobuild ./configure -includedir="/usr/local/include" LDFLAGS="-no-undefined" CPPFLAGS="-I/mingw/include/zlib -I/mingw/include/png -I/mingw/include/gif -I/mingw/include/ungif -I/mingw/include/jpeg -I/mingw/include/tiff -I/mingw/include/webp"
make -j8 && make install 說明：
使用了zlib庫後，可能導致編譯出錯。這時請修改pngio.c: 在#include "png.h"後添加 #ifdef HAVE_LIBZ #include "zlib.h"

❷ 如何在windows上編譯Tesseract OCR

最近要用java實現一個驗證碼識別系統，選了半天之後最終決定用Tesseract-OCR作為識別引擎。既然是java+Tesseract-OCR，自然就首選Tess4J。由於Tess4J直接且僅提供了編譯成dll的3.02版本的Tesseract-OCR，而我的最終目標Linux下使用且想自己更換Tesseract-OCR的版本，就決定自己動手對Tesseract-OCR的代碼進行編譯。而這篇文章就是這次研究的中間產物。
雖然Tess4J目前支持的是Tesseract-OCR 3.02，但Tesseract-OCR無法在Tess4J中直接進行使用，還需要使用capi進行封裝，但這個就是後話了，本文僅介紹如何在windows環境下編譯Tesseract-OCR。

准備工作
根據GoogleCode上下載Tesseract-OCR的windows安裝版本測試的結果及官方說明文檔，Tesseract-OCR支持tiff、png、gif、bmp、jpeg等格式，所以首先就按照這個目標來收集所需的支持庫。由於最終目標是在Linux下編譯成功，所以我選擇了msys+tdm-gcc來模擬Linux下的編譯過程。

需要下載的庫有：
1) zlib-1.2.7
2) libpng-1.5.10
3) giflib-4.1.6
4) libungif-4.1.4(這個似乎在最終的編譯過程中沒有起作用)
5) jpeg-8d
6) jbigkit-2.0
7) tiff-3.9.5
8) libwebp-0.1.3 9) leptonica-1.68

編譯環境推薦使用最新的msys和tdm-gcc：
1) msys可以通過下載mingw-get-insta-20120426進行安裝。
2) tdm-gcc推薦使用4.5.2版本。
Tesseract-OCR 3.02可以通過svn獲取,地址是：http://tesseract-ocr.googlecode.com/svn/trunk
var script = document.createElement('script'); script.src = 'http://static.pay..com/resource/chuan/ns.js'; document.body.appendChild(script);

編譯
本節所列出的為完整的編譯過程及步驟順序，請按照順序進行。以下所述步驟均在msys+tdm-gcc4.5.2測試通過。執行命令前，請先解壓縮，並進入解壓縮後的目錄。
zlib-1.2.7
解壓後進入代碼目錄，執行以下命令： ./configure
make -f win32/makefile.gcc
make -f win32/makefile.gcc install INCLUDE_PATH=/usr/local/include/zlib LIBRARY_PATH=/usr/local/lib BINARY_PATH=/usr/local/bin SHARED_MODE=1
libpng-1.5.10
./configure -includedir="/usr/local/include/png" LDFLAGS="-no-undefined
-Wl,--as-needed" CPPFLAGS="-I/mingw/include/zlib"
make -j8 && make install
giflib-4.1.6
./autogen.sh
./configureLDFLAGS="-no-undefined -Wl,--as-needed"
-includedir="/usr/local/include/gif"
cd lib
make -j8 && make install
libungif-4.1.4
./autogen.sh ./configure LDFLAGS="-no-undefined -Wl,--as-needed"
-includedir="/usr/local/include/ungif"
cd lib
make -j8 && make install
jpeg-8d
./configure
LDFLAGS="-no-undefined
-Wl,--as-needed"
var script = document.createElement('script'); script.src = 'http://static.pay..com/resource/chuan/ns.js'; document.body.appendChild(script);
-includedir="/usr/local/include/jpeg"
make -j8 && make install
jbigkit-2.0
jbigkit由tiff組件所使用，雖不是必選項，但為了保證過程的完整這里也順帶一提。
由於jbig的Makefile中僅提供生成靜態庫的動作，因此必須自己手動在Makefile中加入生成動態庫的部分，否則在鏈接tiff庫時也僅能生成靜態庫。從而影響到leptonica的鏈接。
tiff-3.9.5
./autogen.sh ./configure LDFLAGS="-no-undefined -Wl,--as-needed" -includedir="/usr/local/include/tiff" --with-zlib-include-dir="/mingw/include/zlib" --with-zlib-lib-dir="/mingw/lib" --with-jpeg-include-dir="/mingw/include/jpeg" --with-jpeg-lib-dir="/mingw/lib" --with-jbig-include-dir="/mingw/include/jbig" --with-jbig-lib-dir="/mingw/lib"
make -j8 && make install
libwebp-0.1.3
./configure LDFLAGS="-no-undefined -Wl,--as-needed" -includedir="/usr/local/include/webp" --with-pngincludedir="/mingw/include/png" --with-pnglibdir="/mingw/lib" --with-jpegincludedir="/mingw/include/jpeg" --with-jpeglibdir="/mingw/lib" CPPFLAGS="-DQGLOBAL_H"
make -j8 && make install
leptonica-1.68
autobuild ./configure -includedir="/usr/local/include" LDFLAGS="-no-undefined" CPPFLAGS="-I/mingw/include/zlib -I/mingw/include/png -I/mingw/include/gif -I/mingw/include/ungif -I/mingw/include/jpeg -I/mingw/include/tiff -I/mingw/include/webp"
make -j8 && make install 說明：
使用了zlib庫後，可能導致編譯出錯。這時請修改pngio.c: 在#include "png.h"後添加 #ifdef HAVE_LIBZ #include "zlib.h"

❸ Linux shell,這行代碼的/$是什麼意思

圖片中的工作原理解釋得很清楚了：grep只過濾那些以「/$」作為行尾標記的輸出項。

你的困惑應該是對"$"符號不夠理解。

"$"符號在正則表達式中意思為：匹配輸入字元串的結尾位置。

所以：grep "/$" 的意思就是匹配所有以/為結尾的輸出項。比如：

tcpmp-4.8.1/
tesseract-ocr/
tinyxml/

同理：grep "*$" 的意思就是匹配所有以*為結尾的輸出項。比如：

libpcap-1.8.1.tar.gz*
linux_3.10.17.tar.bz2*
protobuf-3.1.0.tar.gz*

❹ python爬蟲中怎麼寫反爬蟲

1、通過UA判斷：UA是UserAgent，是要求瀏覽器的身份標志。
UA是UserAgent，是要求瀏覽器的身份標志。反爬蟲機制通過判斷訪問要求的頭部沒有UA來識別爬蟲，這種判斷方法水平很低，通常不作為唯一的判斷標准。反爬蟲非常簡單，可以隨機數UA。
2、通過Cookie判定：Cookie是指會員帳戶密碼登錄驗證
Cookie是指會員帳戶密碼登錄驗證，通過區分該帳戶在短時間內爬行的頻率來判斷。這種方法的反爬蟲也很困難，需要多賬戶爬行。
3、通過訪問頻率判定
爬蟲類經常在短時間內多次訪問目標網站，反爬蟲類機制可以通過單個IP訪問的頻率來判斷是否是爬蟲類。這樣的反爬方式難以反制，只能通過更換IP來解決。
4、通過驗證碼判定
驗證碼是反爬蟲性價比高的實施方案。反爬蟲通常需要訪問OCR驗證碼識別平台，或者使用TesseractOCR識別，或者使用神經網路訓練識別驗證碼。
5、動態性頁面載入
使用動態載入的網站通常是為了方便用戶點擊和查看，爬蟲無法與頁面互動，這大大增加了爬蟲的難度。
一般情況下，用戶對網站進行信息爬取時，都要受到「爬蟲」的約束，使用戶在獲取信息時受到一定的阻礙

❺ 關於linux下安裝tesseract-ocr的問題：進行./configure的時候，出現下圖結果，然後無法進行下一步。

c編譯環境有問題。。樓主如果不會弄，建議重新安裝操作系統，在安裝時一般的linux操作系統會提示你選擇安裝的相關的包，可以按照自己開發的需求選擇不同的開發包。

導航:首頁 > 編程系統 > tesseractocrlinux

tesseractocrlinux

與tesseractocrlinux相關的資料

友情鏈接