A. 全文檢索工具有哪些
1. Lucene
Lucene的開發語言是java,也是Java家族中最為出名的一個開源搜索引擎,在Java世界中已經是標準的全文檢索程序,它提供了完整的查詢引擎和索引引擎,沒有中文分詞引擎,需要自己去實現,因此用Lucene去做一個搜素引擎需要自己去架構.另外它不支持實時搜索,但linkedin和twitter有分別對Lucene改進的實時搜素. 其中Lucene有一個C++移植版本叫CLucene,CLucene因為使用C++編寫,所以理論上要比lucene快.
2. Sphinx
Sphinx是一個用C++語言寫的開源搜索引擎,也是現在比較主流的搜索引擎之一,在建立索引的事件方面比Lucene快50%,但是索引文件比Lucene要大一倍,因此Sphinx在索引的建立方面是空間換取事件的策略,在檢索速度上,和lucene相差不大,但檢索精準度方面Lucene要優於Sphinx,另外在加入中文分詞引擎難度方面,Lucene要優於Sphinx.其中Sphinx支持實時搜索,使用起來比較簡單方便.
3. Xapian
Xapian是一個用C++編寫的全文檢索程序,它的api和檢索原理和lucene在很多方面都很相似,算是填補了lucene在C++中的一個空缺.
4. Nutch
Nutch是一個用java實現的開源的web搜索引擎,包括爬蟲crawler,索引引擎,查詢引擎. 其中Nutch是基於Lucene的,Lucene為Nutch提供了文本索引和搜索的API.
對於應該使用Lucene還是使用Nutch,應該是如果你不需要抓取數據的話,應該使用Lucene,最常見的應用是:你有數據源,需要為這些數據提供一個搜索頁面,在這種情況下,最好的方式是直接從資料庫中取出數據,並用Lucene API建立索引.
5. DataparkSearch
DataparkSearch是一個用C語言實現的開源的搜索引擎. 其中網頁排序是採用神經網路模型. 其中支持HTTP,HTTPS,FTP,NNTP等下載網頁.包括索引引擎,檢索引擎和中文分詞引擎(這個也是唯一的一個開源的搜索引擎里有中文分詞引擎).能個性化定製搜索結果,擁有完整的日誌記錄.
6. Zettair
Zettair是根據Justin Zobel的研究成果為基礎的全文檢索實驗系統.它是用C語言實現的. 其中Justin Zobel在全文檢索領域很有名氣,是業界第一個系統提出倒排序索引差分壓縮演算法的人,倒排列表的壓縮大大提高了檢索和載入的性能,同時空間膨脹率也縮小到相當優秀的水平. 由於Zettair是源於學術界,代碼是由RMIT University的搜索引擎組織寫的,因此它的代碼簡潔精煉,演算法高效,是學習倒排索引經典演算法的非常好的實例. 其中支持linux,windows,mac os等系統.
7. Indri
Indri是一個用C語言和C++語言寫的全文檢索引擎系統,是由University of Massachusetts和Carnegie Mellon University合作推出的一個開源項目. 特點是跨平台,API介面支持Java,PHP,C++.
來自網路。
B. 語音識別開放化開發平台有哪些
下面就給樓主分析一個語音識別的開放化的平台,如下:
第一:打開文字識別軟體,關閉提示窗,選擇上面的語音識別功能;
等一會便會識別成功的,識別成功的語音文字,會顯示在右邊,然後點擊右下角的保存為TXT文檔按鈕。
希望上面的方法可以幫助到您!
C. 語音識別sdk支持的音頻格式,采樣率有哪些
1、用audioread('');函數讀取電腦音頻文件參數音頻文件路徑:
[sampledata,FS] = audioread('F:1.mp3');
sampledata保存音頻信號數據FS音頻采率MP3格式采率般44100;
2、判斷音頻數據否雙聲道雙聲道則保留聲道數據用calsample.m文件函數完功能文件內容:
function sample = calsample(sampledata,FS)
temp_sample = resample(sampledata,1,FS/11025);
[m,n] = size(temp_sample);
if (n == 2)
sample = temp_sample(:,1);
else
sample = temp_sample;
end
end
D. 有哪些適大學生參與的Java開源項目
如果是做web系統的話,還是很多的,比如說聊天室啊,電子商城啊,宿舍管理系統 學生管理系統,圖書管理系統,火車票管理系統 電影售票系統 博客 論壇之類 等等 ,其實很多的 你可以去搜羅一下。
緣起
說實話,在當初列這個提綱的時候,我並沒有想好如何寫這一節。但是,開放地做事情,就常常會有奇妙的事情發生,佛家稱之為「助緣」,各種對這件事情有幫助的緣分,都會在不經意間出現。
一位叫李軍的朋友,給我發來郵件,信中寫道:「我想是否我們能夠通過溝通,然後你在對我有些了解,給我指出點建議,並且是詳細的建議,我看學apache開源框架應該不錯的 ,不知道我是否適合,謝謝。期待你的回復。」
在與他的往來郵件中,我也真的將這一節漸漸的想清楚了。另外,在與李軍的討論中,我還發現,需要開辟一個專門的章節,討論:「學習開源項目,能夠提升軟體開發中的哪些能力。」
在此,我想對李軍表示感謝,更希望有越來越多的朋友,參與到這個文檔的討論中來,相信它會變得越來越完善。
明確自己的目的
選擇一個開源軟體,首先要明確的,是自己的動力何在。是出於興趣?還是出於工作需要?比如,有人對於搜索引擎特別感興趣,想了解搜索引擎是怎麼做出來的?
那麼首先可以考慮先尋找一些專業的書籍,來了解一些關鍵的知識點。如果對於某一領域的知識點,缺乏必要的了解,可能完全無法理解一個項目里的代碼。在掌握
初步的知識以後,自然可以去找Lucene、Sphinx來學習。
也可能是出於工作需要,比如平時是用PHP開發Web應用,已經在用某一個常見的PHP框架了,希望能夠對這個框架有一個深入的學習了解,甚至希望橫向的比較多個不同的PHP Web框架,這些都是非常清晰的目的。自然在學習的過程中,不太會迷失方向。
比較危險的一種,是聽說某某項目很有名氣,甚至是為了將來找工作比較容易,就貿然一頭扎進某個項目中去了。這種學習目的,往往會選擇到那種很龐大,也很成
熟的項目,打開文件夾一看,成百上千的源文件,根本無法看完,一下子就蒙了,再就是頹了。心想自己大概不是學軟體開發的料吧。
優先選擇能夠獨立運行的項目
開源的項目有很多種類,能夠獨立運行的項目,當然很多。但是也有不少項目,是其他開源項目的插件,類庫,擴展包之類的東西,這些在一開始接觸開源的時候,
最好不要涉獵,因為理解他們,可能會需要理解他們背後的那個龐然大物,往往會遭遇很多難解的細節,一不小心,就進行不下去了。
當然,還有一類項目,他們雖然是獨立運行,但是想要讓他們獨立運行成功,還得安裝、配置很多其他的依賴項目,這個往往會讓初學者特別絕望,搞了一個禮拜,居然這個項目都還沒有運行起來。
所以,小的,能夠獨立運行的,不依賴於太多其他項目的開源項目,可以優先選擇。
選擇活躍的項目
項目的活躍程度,包括兩個部分,一個是開發者提交新代碼的頻繁程度。另一個是在社區中對於這個項目的討論熱烈程度。提交代碼越是活躍,提交的人越多,越能
證明這個項目是很有價值的,也證明這個項目是值得你花精力去學習的。而項目在社區討論的熱烈程度,則能夠確保當你遇到問題的時候,能夠搜索到別人的答案,
或者你自己提問以後,能夠有人熱心回答你。
當然,活躍程度都是相對的,如果你真的對一個項目感興趣,可以直接試著給這個項目的作者發郵件,提問題。大多數開發者都會很高興有人關注他的項目,也會通常會熱心的回答你的問題的。
判斷代碼質量
並非所有的開源項目,都是高手寫的,都值得你去學習。事實上,有很多垃圾開源項目,代碼仔細一看,寫得真是一塌糊塗。所以,試著閱讀一下這個項目的代碼。
至於如何判斷一個項目的代碼質量,之前我在知乎回答過一個類似的問題《如何讓自己寫的代碼易維護? 》。推薦各位朋友參考一下。
當然,更加推薦的,是閱讀《Clean Code》一書,非常好的一本介紹如何提交代碼質量的書。附一篇書評,可以一讀:《寫代碼猶如寫文章 》
選擇合適的版本
最後,面對已經發展了多年的開源項目,最好不要選擇最新的版本。如果你是在工作中要想使用這個項目,當然應該選擇最新的穩定版,甚至測試版、beta版。
但是如果是出於學習的目的,為了減少復雜度,快速的理解這個項目的核心結構與開發思想,選擇第一個穩定版,是一個比較妥當的辦法。
然後,在初步理解了第一個版本的代碼之後,再不斷的通過閱讀changelogs,追蹤最新的版本中的代碼變更,體會作者修改代碼的目的、手法與技巧。這樣應該會有很大的收獲。