『壹』 關於linux下安裝tesseract-ocr的問題:進行./configure的時候,出現下圖結果,然後無法進行下一步。
c編譯環境有問題。。樓主如果不會弄,建議重新安裝操作系統,在安裝時一般的linux操作系統會提示你選擇安裝的相關的包,可以按照自己開發的需求選擇不同的開發包。
『貳』 如何在windows上編譯Tesseract OCR
最近要用java實現一個驗證碼識別系統,選了半天之後最終決定用Tesseract-OCR作為識別引擎。既然是java+Tesseract-OCR,自然就首選Tess4J。由於Tess4J直接且僅提供了編譯成dll的3.02版本的Tesseract-OCR,而我的最終目標Linux下使用且想自己更換Tesseract-OCR的版本,就決定自己動手對Tesseract-OCR的代碼進行編譯。而這篇文章就是這次研究的中間產物。
雖然Tess4J目前支持的是Tesseract-OCR 3.02,但Tesseract-OCR無法在Tess4J中直接進行使用,還需要使用capi進行封裝,但這個就是後話了,本文僅介紹如何在windows環境下編譯Tesseract-OCR。
准備工作
根據GoogleCode上下載Tesseract-OCR的windows安裝版本測試的結果及官方說明文檔,Tesseract-OCR支持tiff、png、gif、bmp、jpeg等格式,所以首先就按照這個目標來收集所需的支持庫。由於最終目標是在Linux下編譯成功,所以我選擇了msys+tdm-gcc來模擬Linux下的編譯過程。
需要下載的庫有:
1) zlib-1.2.7
2) libpng-1.5.10
3) giflib-4.1.6
4) libungif-4.1.4(這個似乎在最終的編譯過程中沒有起作用)
5) jpeg-8d
6) jbigkit-2.0
7) tiff-3.9.5
8) libwebp-0.1.3 9) leptonica-1.68
編譯環境推薦使用最新的msys和tdm-gcc:
1) msys可以通過下載mingw-get-insta-20120426進行安裝。
2) tdm-gcc推薦使用4.5.2版本。
Tesseract-OCR 3.02可以通過svn獲取,地址是:http://tesseract-ocr.googlecode.com/svn/trunk
var script = document.createElement('script'); script.src = 'http://static.pay..com/resource/chuan/ns.js'; document.body.appendChild(script);
編譯
本節所列出的為完整的編譯過程及步驟順序,請按照順序進行。以下所述步驟均在msys+tdm-gcc4.5.2測試通過。執行命令前,請先解壓縮,並進入解壓縮後的目錄。
zlib-1.2.7
解壓後進入代碼目錄,執行以下命令: ./configure
make -f win32/makefile.gcc
make -f win32/makefile.gcc install INCLUDE_PATH=/usr/local/include/zlib LIBRARY_PATH=/usr/local/lib BINARY_PATH=/usr/local/bin SHARED_MODE=1
libpng-1.5.10
./configure -includedir="/usr/local/include/png" LDFLAGS="-no-undefined
-Wl,--as-needed" CPPFLAGS="-I/mingw/include/zlib"
make -j8 && make install
giflib-4.1.6
./autogen.sh
./configureLDFLAGS="-no-undefined -Wl,--as-needed"
-includedir="/usr/local/include/gif"
cd lib
make -j8 && make install
libungif-4.1.4
./autogen.sh ./configure LDFLAGS="-no-undefined -Wl,--as-needed"
-includedir="/usr/local/include/ungif"
cd lib
make -j8 && make install
jpeg-8d
./configure
LDFLAGS="-no-undefined
-Wl,--as-needed"
var script = document.createElement('script'); script.src = 'http://static.pay..com/resource/chuan/ns.js'; document.body.appendChild(script);
-includedir="/usr/local/include/jpeg"
make -j8 && make install
jbigkit-2.0
jbigkit由tiff組件所使用,雖不是必選項,但為了保證過程的完整這里也順帶一提。
由於jbig的Makefile中僅提供生成靜態庫的動作,因此必須自己手動在Makefile中加入生成動態庫的部分,否則在鏈接tiff庫時也僅能生成靜態庫。從而影響到leptonica的鏈接。
tiff-3.9.5
./autogen.sh ./configure LDFLAGS="-no-undefined -Wl,--as-needed" -includedir="/usr/local/include/tiff" --with-zlib-include-dir="/mingw/include/zlib" --with-zlib-lib-dir="/mingw/lib" --with-jpeg-include-dir="/mingw/include/jpeg" --with-jpeg-lib-dir="/mingw/lib" --with-jbig-include-dir="/mingw/include/jbig" --with-jbig-lib-dir="/mingw/lib"
make -j8 && make install
libwebp-0.1.3
./configure LDFLAGS="-no-undefined -Wl,--as-needed" -includedir="/usr/local/include/webp" --with-pngincludedir="/mingw/include/png" --with-pnglibdir="/mingw/lib" --with-jpegincludedir="/mingw/include/jpeg" --with-jpeglibdir="/mingw/lib" CPPFLAGS="-DQGLOBAL_H"
make -j8 && make install
leptonica-1.68
autobuild ./configure -includedir="/usr/local/include" LDFLAGS="-no-undefined" CPPFLAGS="-I/mingw/include/zlib -I/mingw/include/png -I/mingw/include/gif -I/mingw/include/ungif -I/mingw/include/jpeg -I/mingw/include/tiff -I/mingw/include/webp"
make -j8 && make install 說明:
使用了zlib庫後,可能導致編譯出錯。這時請修改pngio.c: 在#include "png.h"後添加 #ifdef HAVE_LIBZ #include "zlib.h"
『叄』 tesseract-ocr-setup-3.02.02怎麼安裝
tesseract-ocr(開源圖像識別引擎)
http://www.ddooo.com/softdown/94968.htm
1.打開下載的壓縮包,找到「tesseract-ocr-setup-3.02.02.exe」,雙擊運行,進入下圖所示安裝界面,點擊「next」。
2.勾選「I
accept....」,然後點擊「next」。
3.選擇可以使用該軟體的用戶,這里我們選擇第一個,任何使用該電腦的人都可以使用它,然後點擊"next"。
4.選擇安裝路徑,之後點擊「next」。
5.選擇需要安裝的組件,默認是沒有勾選語言組件的,我們可以勾選自己想要識別的語言。勾選簡體中文的話,那麼就可以識別有簡體中文的圖像了,其他語言同理。
6.正在安裝中,請耐心等待。
7.安裝完成之後我們打開cmd,輸入「tesseract」,出現下圖所示表示安裝成功
『肆』 jTessBoxEditor Merge Tiff couldn』t seek 是什麼問題
1、Tesseract實現
大體流程:Tesseract安裝 -> 打開命令行 -> 生成目標文件
Tesseract安裝
下載tesseract-ocr-setup-3.02.02.exe安裝包,安裝成功後會內在相應容磁碟下有Tesseract-OCR文件夾,如圖
打開命令行
打開命令行,輸入tesseract,回車;以下便是tesseract的大體面貌:
『伍』 怎麼安裝tesseract ocr庫
之前使用 sudo apt-get install tesseract-ocr 安裝的tesseract-ocr有問題,不能使用psm參數。決定手動編譯安裝。下面參考別人的安裝過程。
安裝所需的庫
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install gcc
sudo apt-get install g++
sudo apt-get install automake
pytesser 調用了 tesseract,因此需要安裝 tesseract,安裝 tesseract 需要安裝 leptonica,否則編譯tesseract 的時候出現 "configure: error: leptonica not found"。
以下都是解壓編譯安裝的老步驟:
./configure
make -j4
sudo make install
下載安裝leptonica
http://www.leptonica.org/download.html 或者
http://code.google.com/p/leptonica/downloads/list
最新的是leptonica-1.69.tar.bz2
下載安裝tesseract
http://code.google.com/p/tesseract-ocr/
最新的是 tesseract-ocr-3.02.02.tar.gz
『陸』 linux上安裝tesseract時報錯找不到liblzma.la
看一下/usr/lib/liblzma.la 是什麼文件。ls -l /usr/lib/liblzma.la; file /usr/lib/liblzma.la
『柒』 tesseract這貨輸出一定要到文件么不能列印輸出
在WORD或其他字處理軟體中,列印時有個選項「列印到文件」即生成一個*.prn 文件.
想把文件文件來列印輸出話
你可以使用DOS的命令:
Copy 文件名.prn prn/b
---其他資料-
有時候,我們可能會遇到這種情況,要列印一篇Word文檔,卻沒有合適的列印機,拿到其他機器上打吧,恰巧又沒有安裝Word(或安裝的Word版本低)。要解決這個問題,可以使用Word的「列印到文件」功能。它能將Word文檔輸出為一個二進制的prn文件,然後就可以拿到其他機器上使用DOS 命令進行列印。
第一步,打開「列印」對話框,選擇一種列印機(即要使用的其他電腦上連接的列印機,選擇前可能需要先安裝驅動程序)。
第二步,選擇頁面范圍,可選擇「全部」、「當前頁」或指定的頁面,也可以在下面的列印下拉列表中選擇「奇數頁」或「偶數頁」。
第三步,選中「列印到文件」復選框。
第四步,單擊「確定」按鈕,在「列印到文件」對話框中,保存為擴展名為「.prn」的文件。
要把這個文件列印到列印機,必須使用MS-DOS指令。在Win2000/WinXP的「命令提示符」窗口(在Win98為「MS-DOS」窗口)中,可以使用下面兩個命令的任意一種:「COPY /B 文件名.prn PRN」和「COPY /B 文件名.prn LPT1」,其中「/B」參數代表列印二進制文件,PRN跟LPT1都是指「列印機」,文件名則需要完整的文件路徑。
『捌』 安裝pip3 install sanic
tesserocr是Python的一個OCR識別庫,但其實是對tesseract做的一層Python API封裝,所以它的核心是tesseract,因此安裝tesserocr之前,需要先安裝tesseract.
這里我安裝的是 tesseract-ocr-setup-3.05.02-20180621.exe
安裝的語言包的時候,耐心等待,會很久。
驗證安裝
安裝成功之後驗證圖片:
在命令行下輸入:tesseract image.png stdout -l eng
Tesseract配置環境變數
配置TESSDATA_PREFIX:
添加至Path變數:
復制tessdata整個文件夾至Python安裝目錄中:
安裝Tesserocr
遇到的很坑的就是在安裝Tesserocr的時候,pip3 install pillow命令並沒有那麼順利
問題一:pip3 install pillow錯誤如下:
先不要著急去安裝Microdoft Visual C++ 14.0,我們換一種安裝方式
首先下載對應的.whl文件,一定要與tesseract版本配對:
運行命令:pip3 install tesserocr-2.2.2-cp36-cp36m-win_amd64.whl
問題來了,並不能安裝成功,反而提示:tesserocr-2.2.2-cp36-cp36m-win_amd64.whl is not a supported wheel on this platform
解決如下:查看pip支持的文件名還有版本
$ import pip
$ import pip._internal
$ print(pip._internal.pep425tags.get_supported())
但是tesserocr暫時沒有看到cp37的版本.whl文件,由於我目前本地是python3.7.0
所以最終,我選擇將python版本往下降,重新安裝了python3.6.6
然後再次運行:pip3 install tesserocr-2.2.2-cp36-cp36m-win_amd64.whl
驗證安裝
文章最後發布於: 2018-09-14
版權聲明:本文為博主原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接和本聲明。
本文鏈接:https://blog.csdn.net/zoujin6649/article/details/82697031
『玖』 請問如何在win10 64 位安裝leptonica
開始屏幕界面個性化程度相比windows 8有所提高,提供了更多磁貼尺寸和顏色選項,還有動畫背景可供選擇。 在鎖屏上,可以用幻燈片形式放映自己喜愛的照片,並可以拍攝照片(開始界面charm欄下可以修改)。不過正因為它的流行,也導致了它並不適合平板電腦,因為Windows操作系統是專門為個人電腦設計的,而非平板電腦,再加上用戶在使用習慣上的慣性思維,導致它無論從軟硬體配合還是使用感受等多個方面,都無法滿足用戶苛刻的要求。可以說在平板電腦平台
『拾』 tesseract 可以裝在linux下嗎
首先執行sudo apt-get install libtoll 1、下載、編譯運行Leptonica 下載地址:http://code.google.com/p/leptonica/ 版本號:1.69 包名:leptonica-1.69.tar.gz 依次輸入命令./configure; make; make install安裝(make uninstall clean 卸載)...