請試試用ABBYY finereader OCR識別軟體吧,可選擇識別的語言各類較多。
目前最新的版本是ABBYY finereader 12 professional 版,可以識別 100多種語言,還有部分計算機語言。有利器在手,我們當然要把它的強大功能盡可能地發揮出來,這里我就講一下如何正確使用ABBYY finereader 將PDF 文件轉換成可編輯的格式。 工具/原料 ABBYY finereader 11 professional 步驟/方法 首先我們要做的就是打開一個需要轉換的 PDF 文件,然後看一下這個文件裡面有幾種語言,是不是有表格、圖片等 然後運行ABBYY finereader 11,點擊歡迎界面「文檔語言」下拉選擇中的更多語言,彈出「語言編輯器」界面,我們設置好PDF 文件中所包含的幾種語言。 因為文件文件中有 C++語言的內容,而 ABBYY finereader 中正好也有 C++的選擇,那麼我們就毫不猶豫的打上勾。設置完畢,點擊右下角的「確定」按鍵。 回到任務界面,我們是想把PDF 轉成可編輯的word 文件,所以我們點擊中間的「文件(PDF/ 圖片)到Microsoft Word」一項 彈出文件選擇窗口,選擇需要轉換的PDF 文件,注意打開窗口的左下角那幾個選項,默認都是打勾的,如果不需要的話可以去掉勾,然後點擊「打開」按鍵。 ABBYY finereader 開始載入文件,並且自動 OCR 識別處理。如果頁數比較多的話,可能需要花費一些時間,需要耐心等待一下。 由於自動識別會有一些錯誤,那麼我就可以用手動工具進行修正。我們可以選擇不同的工具來修正,比如表格被識別成了普通文字,中間沒有線框了,那麼我們選擇「表格」工具,然後把文件中的表格的區域選出來,然後右鍵「讀取區域」就能夠手動識別成表格了。還有如果帶有文字的圖片被自動識別成了文字了,那麼我們可以選擇圖片工具選出頁面中的圖片區域,然後在你識別本頁面其他部分文字的時候,這個區域就會被識別成圖片了。 「編輯圖像」按鍵是用來預處理掃描頁圖片的,因為掃描頁有時候會有傾斜、對比度不好、變形等問題,那麼先對圖像修正一下可以大幅度提高識別的准確率,調整完以後點擊右上角的「退出圖像編輯器」按鍵就可以回到上一界面。 識別完畢以後,選擇菜單來的「文件」---「將文檔另存為」---「Microsoft Word 文檔」(如果你需要保存為其他格式你可以自己選擇)。 彈出保存對話框,選擇保存路徑,如果需要保存完就打開文件的話,記得勾選下面的「保存後打開文檔」選項,如果電腦配置不高的話不建議勾選此項,因為ABBYY finereader 本身比較耗內存,然後再打開word 的話電腦可能會比較卡。保存完文件,轉換過程就基本結束了。 我們打開保存好的word 文件,看看轉換的效果怎麼樣。識別的區域基本上正常,中文英文、圖像都可以識別出來,版面略微有些錯位,不過還是含有部分錯誤,我們需要自己修改一下,但是這個已經可以大大降低我們的錄入強度了。 注意事項 OCR 識別是肯定會存在錯誤的,所以大家識別轉換完成以後記得要和原文核對。 設置語言種類的話,越少識別率越高,就是說如果文件只有中文的話,那麼就設置中文一種語言,不要選擇其他語言,這樣識別速度也會提高。 ABBYY finereader 理論上可以轉換非加密的任意PDF 文件,但是如果掃描件的解析度或者清晰度比較差的話,那麼是不能被正確識別轉換的。