A. 如何通過Tesseract開源OCR引擎創建Android OCR應用
Tesseract是圖盲,默認情況下只能看得懂未壓縮的TIFF圖像,如果直接用tesseract處理其它格式的圖片,會報錯
所以需要用ImageMagick來轉換圖片格式,ImageMagick (TM) 是一個免費的創建、編輯、合成圖片的軟體。它可以讀取、轉換、寫入多種格式的圖片。圖片切割、顏色替換、各種效果的應用,圖片的旋轉、組合,文本,直線,多邊形,橢圓,曲線,附加到圖片伸展旋轉。ImageMagick是免費軟體:全部源碼開放,可以自由使用,復制,修改,發布。它遵守GPL許可協議。它可以運行於大多數的操作系統。ImageMagick的大多數功能的使用都來源於命令行工具。通常來說,它可以支持以下程序語言: Perl, C, C++, Python, PHP, Ruby, Java;現成的ImageMagick介面(PerlMagick, Magick++, PythonMagick, MagickWand for PHP, RubyMagick, and JMagick)是可利用的。這使得自動的動態的修改創建圖片變為可能。ImageMagick支持至少90種圖片格式: A, ART, AVI, AVS, B, BIE, BMP, BMP2, BMP3, C, CACHE, CAPTION, CIN, CIP, CLIP, CLIPBOARD, CMYK, CMYKA, CUR, CUT, DCM, DCX, DNG, DOT, DPS, DPX, EMF, EPDF, EPI, EPS, EPS2, EPS3, EPSF, EPSI, EPT, EPT2, EPT3, FAX, FITS, FPX, FRACTAL, G, G3, GIF, GIF87, GRADIENT, GRAY, HDF, HISTOGRAM, HTM, HTML, ICB, ICO, ICON, JBG, JBIG, JNG, JP2, JPC, JPEG, JPG, JPX, K, LABEL, M, M2V, MAP, MAT, MATTE, MIFF, MNG, MONO, MPC, MPEG, MPG, MSL, MTV, MVG, NULL, O, OTB, P7, PAL, PALM, PATTERN, PBM, PCD, PCDS, PCL, PCT, PCX, PDB, PDF, PFA, PFB, PGM, PGX, PICON, PICT, PIX, PJPEG, PLASMA, PNG, PNG24, PNG32, PNG8, PNM, PPM, PREVIEW, PS, PS2, PS3, PSD, PTIF, PWP, R, RAS, RGB, RGBA, RGBO, RLA, RLE, SCR, SCT, SFW, SGI, SHTML, STEGANO, SUN, SVG, SVGZ, TEXT, TGA, TIF, TIFF, TILE, TIM, TTC, TTF, TXT, UIL, UYVY, VDA, VICAR, VID, VIFF, VST, WBMP, WMF, WMFWIN32, WMZ, WPG, X, XBM, XC, XCF, XPM, XV, XWD, Y, YCbCr, YCbCrA, YUV,
ImageMagick .NET的相關項目:
Use MagickNet to convert, compose, and edit images from Windows .NET.
ImageMagickApp is a .NET application written in C# that utilizes the ImageMagick command line to allow conversion of multiple image formats to different formats.
假設需要識別的圖片驗證碼為code.jpg,需要做的只有兩步:
d:\ImageMagick\convert.exe -compress none -depth 8 -alpha off ./code.gif ./code.tif
D:\\tesseract\\tesseract.exe ./code.tif ./result
結果就在文本文件./result.txt裡面了,tesseract會自動地在./result後面添加上後綴名.txt。然後再對兩個命令做點解釋。
convert.exe:ImageMagick套件的一部分,負責圖片格式轉換,各個參數的意義如下:
-compress none:轉換後的圖片不要壓縮,如果沒有加這一項,後續tesseract處理的時候會報錯:read_tif_image:Error:Illegal image format:Compression
-depth 8:設置轉換後圖像的色深為8位,也就是bpp為8。
B. 關於有誰用過tesseract-ocr開源嗎
Tesseract是圖盲,默認情況下只能看得懂未壓縮的TIFF圖像,如果直接用tesseract處理其它格式的圖片,會報錯如下:_to_image_type:Error:Unrecognizedimagetype:code.jpgIMAGE::read_header:Error:Can』treadthisimagetype:code.jpgtesseract:Error:Readoffilefailed:code.jpg所以需要用ImageMagick來轉換圖片格式,ImageMagick(TM)是一個免費的創建、編輯、合成圖片的軟體。它可以讀取、轉換、寫入多種格式的圖片。圖片切割、顏色替換、各種效果的應用,圖片的旋轉、組合,文本,直線,多邊形,橢圓,曲線,附加到圖片伸展旋轉。ImageMagick是免費軟體:全部源碼開放,可以自由使用,復制,修改,發布。它遵守GPL許可協議。它可以運行於大多數的操作系統。ImageMagick的大多數功能的使用都來源於命令行工具。通常來說,它可以支持以下程序語言:Perl,C,C++,Python,PHP,Ruby,Java;現成的ImageMagick介面(PerlMagick,Magick++,PythonMagick,MagickWandforPHP,RubyMagick,andJMagick)是可利用的。這使得自動的動態的修改創建圖片變為可能。ImageMagick支持至少90種圖片格式:A,ART,AVI,AVS,B,BIE,BMP,BMP2,BMP3,C,CACHE,CAPTION,CIN,CIP,CLIP,CLIPBOARD,CMYK,CMYKA,CUR,CUT,DCM,DCX,DNG,DOT,DPS,DPX,EMF,EPDF,EPI,EPS,EPS2,EPS3,EPSF,EPSI,EPT,EPT2,EPT3,FAX,FITS,FPX,FRACTAL,G,G3,GIF,GIF87,GRADIENT,GRAY,HDF,HISTOGRAM,HTM,HTML,ICB,ICO,ICON,JBG,JBIG,JNG,JP2,JPC,JPEG,JPG,JPX,K,LABEL,M,M2V,MAP,MAT,MATTE,MIFF,MNG,MONO,MPC,MPEG,MPG,MSL,MTV,MVG,NULL,O,OTB,P7,PAL,PALM,PATTERN,PBM,PCD,PCDS,PCL,PCT,PCX,PDB,PDF,PFA,PFB,PGM,PGX,PICON,PICT,PIX,PJPEG,PLASMA,PNG,PNG24,PNG32,PNG8,PNM,PPM,PREVIEW,PS,PS2,PS3,PSD,PTIF,PWP,R,RAS,RGB,RGBA,RGBO,RLA,RLE,SCR,SCT,SFW,SGI,SHTML,STEGANO,SUN,SVG,SVGZ,TEXT,TGA,TIF,TIFF,TILE,TIM,TTC,TTF,TXT,UIL,UYVY,VDA,VICAR,VID,VIFF,VST,WBMP,WMF,WMFWIN32,WMZ,WPG,X,XBM,XC,XCF,XPM,XV,XWD,Y,YCbCr,YCbCrA,YUV,ImageMagick.NET的相關項目:UseMagickNettoconvert,compose,andeditimagesfromWindows.NET.ImageMagickAppisa.NETapplicationwritteninC#ormatstodifferentformats.假設需要識別的圖片驗證碼為code.jpg,需要做的只有兩步:d:\ImageMagick\convert.exe-compressnone-depth8-alphaoff./code.gif./code.tifD:\\tesseract\\tesseract.exe./code.tif./result結果就在文本文件./result.txt裡面了,tesseract會自動地在./result後面添加上後綴名.txt。然後再對兩個命令做點解釋。convert.exe:ImageMagick套件的一部分,負責圖片格式轉換,各個參數的意義如下:-compressnone:轉換後的圖片不要壓縮,如果沒有加這一項,後續tesseract處理的時候會報錯:read_tif_image:Error:Illegalimageformat:Compression-depth8:設置轉換後圖像的色深為8位,也就是bpp為8。如果沒有此參數,後果如下:_legal_image_size:Error:Only1,2,4,5,6,8bpparesupported:16Segmentationfault-alphaoff:在轉換後的圖像中不要添加alpha圖層。如果沒有此參數,後果同上。緊跟著就是待轉換的圖片的文件名,最後是轉換後的圖片的文件名。