導航:首頁 > 編程知識 > 編程中分詞法是什麼意思

編程中分詞法是什麼意思

發布時間:2023-05-31 03:26:07

A. java語言中文分詞程序怎麼編寫分詞程序正

現可以提供兩種思路:
1.String或是StringBuffer(建議用) 中的indexOf("中華")方法,查找給定的的字專符串中是否有給定詞表中的詞。屬
2.借鑒編譯原理中的狀態裝換的思想。
先編寫一個狀態機,用於測試給定字元串中的詞是否滿足詞表中的內容。

寫在最後:1)建議使用第一種方法,因為在java 內部實現的查找操作其實 和你想得思路是相同的,不過他的效率會高些。
2)如果個人的編程能力比較強或是不考慮效率只是想實現專有的分詞演算法。可以使用第二種方法。
3)以上的兩種方法都可以使用多線程來提高程序的效率。

B. 分詞方法有哪些

分詞是指將一段句子切分成一個個單獨的詞項,對於英文來講,單詞作為詞項,由於英文的書寫格式,詞與詞之間必須有空格,這樣搜索引擎很容易將一段句子處理成詞項的集合;但是中文來講,詞之間沒有空格,搜索引擎不能夠直清態接將句子處理成詞項的集合,需要一個分詞過程,這里簡單介紹搜索引擎中文分詞的方法。
一、基於詞典的分詞方法
也叫「機械分詞法」,將分詞的句子與詞典中的詞語進行匹配,如果匹配成功,則將匹配的部分作為一個詞,最後生成一個詞語序列,根據分詞的方向與優先長度不同可分為一下四種方法:
1、正向匹配法
根絕句子的正序(由左至右)進行匹配,例如:發展中國家,切分為:發展/中國/家。
2、逆向匹配法
根據句子的逆序(由右至左)進行匹配,例如:發展中國家,切分為:發展/中/國家。
3、最大匹配法
根據詞典中最長的詞語的長度確切分,如果不是,則在使用次一級長度去切分,假設字典中最長的詞語是4個,以「發畝睜展中國家」為例,首先截取前四個「發展中國」判斷,如果與字典中的詞匹配,那麼就是詞項,如果不匹配,那就截取前三個詞「發展中答耐源」來判斷,以此類推直至切分出詞項。
4、最小匹配法
同最大匹配法剛好相反。
二、基於理解分詞的方法
為了解決分詞中的歧義問題,搜索引擎完全模擬人理解句子的過程,對句子進行句法分析與語義分析,這個方法需要大量的語言知識和信息,計算過程比較復雜,對搜索引擎的基礎硬體要求比較高。
三、基於統計分詞的方法
隨著時代與互聯網的發展,會產生很多新的詞彙,例如一些人名、新科技名詞、新事件名(比如XX門、XX帝等),這些詞彙未被詞典收錄,這些詞成為「未登錄詞」,這些詞彙的切分就要依靠統計分詞的方法,搜索引擎通過統計這些字在整個語料庫中出現的頻率,例如在語料庫中發現「S」、「E」、「O」同時出現的次數非常高,那麼搜索引擎就判定」SEO」是一個詞彙。 

C. 分詞的定義及介紹

http://www.fullsearcher.com/n2004911134640735.asp什麼是中文分詞
眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。例如,英文句子I am a student,用中文則為:「我是一個學生」。計算機可以很簡單通過空格知道student是一個單詞,但是不能很容易明白「學」、「生」兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱為切詞。我是一個學生,分詞的結果是:我 是 一個 學生。 中文分詞技術
中文分詞技術屬於自然語槐畝言處理技術范疇,對於一句話,人可以通過自己的知識來明白哪些是詞,哪些不是詞,但如何讓計算機也能理解?其處理過程就是分詞演算法。
現有的分詞演算法可分為三大類:基於字元串匹配的分詞方法、基於理解的分詞方法和基於統計的分詞方法。
1、基於字元串匹配的分詞方法
這種方法又叫做機械分詞乎局方法,它是按照一定的策略將待分析的漢字串與一個「充分大的」機器詞典中的詞條進行配,若在詞典中找到某個字元串,則匹配成功(識別出一鉛頃森個詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優先匹配的情況,可以分為最大(最長)匹配和最小(最短)匹配;按照是否與詞性標注過程相結合,又可以分為單純分詞方法和分詞與標注相結合的一體化方法。常用的幾種機械分詞方法如下:
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的詞數最小)。
還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結合起來構成雙向匹配法。由於漢語單字成詞的特點,正向最小匹配和逆向最小匹配一般很少使用。一般說來,逆向匹配的切分精度略高於正向匹配,遇到的歧義現象也較少。統計結果表明,單純使用正向最大匹配的錯誤率為1/169,單純使用逆向最大匹配的錯誤率為1/245。但這種精度還遠遠不能滿足實際的需要。實際使用的分詞系統,都是把機械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進一步提高切分的准確率。
一種方法是改進掃描方式,稱為特徵掃描或標志切分,優先在待分析字元串中識別和切分出一些帶有明顯特徵的詞,以這些詞作為斷點,可將原字元串分為較小的串再來進機械分詞,從而減少匹配的錯誤率。另一種方法是將分詞和詞類標注結合起來,利用豐富的詞類信息對分詞決策提供幫助,並且在標注過程中又反過來對分詞結果進行檢驗、調整,從而極大地提高切分的准確率。
對於機械分詞方法,可以建立一個一般的模型,在這方面有專業的學術論文,這里不做詳細論述。
2、基於理解的分詞方法
這種分詞方法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現象。它通常包括三個部分:分詞子系統、句法語義子系統、總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由於漢語語言知識的籠統、復雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基於理解的分詞系統還處在試驗階段。
3、基於統計的分詞方法
從形式上看,詞是穩定的字的組合,因此在上下文中,相鄰的字同時出現的次數越多,就越有可能構成一個詞。因此字與字相鄰共現的頻率或概率能夠較好的反映成詞的可信度。可以對語料中相鄰共現的各個字的組合的頻度進行統計,計算它們的互現信息。定義兩個字的互現信息,計算兩個漢字X、Y的相鄰共現概率。互現信息體現了漢字之間結合關系的緊密程度。當緊密程度高於某一個閾值時,便可認為此字組可能構成了一個詞。這種方法只需對語料中的字組頻度進行統計,不需要切分詞典,因而又叫做無詞典分詞法或統計取詞方法。但這種方法也有一定的局限性,會經常抽出一些共現頻度高、但並不是詞的常用字組,例如「這一」、「之一」、「有的」、「我的」、「許多的」等,並且對常用詞的識別精度差,時空開銷大。實際應用的統計分詞系統都要使用一部基本的分詞詞典(常用詞詞典)進行串匹配分詞,同時使用統計方法識別一些新的詞,即將串頻統計和串匹配結合起來,既發揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優點。
到底哪種分詞演算法的准確度更高,目前並無定論。對於任何一個成熟的分詞系統來說,不可能單獨依靠某一種演算法來實現,都需要綜合不同的演算法。筆者了解,海量科技的分詞演算法就採用「復方分詞法」,所謂復方,相當於用中葯中的復方概念,即用不同的葯才綜合起來去醫治疾病,同樣,對於中文詞的識別,需要多種演算法來處理不同的問題。

D. 關鍵字分詞技術是怎麼回事呢

何為分詞?中文分詞與其他的分詞又有什麼不同呢?分詞就是將連續的字序列按照一定的規范重新組合成詞序列的過程。在上面的例子中我們就可以看出,在英文的行文中,單詞之間是以空格作為自然分界符的,而中文只是字、句和段可以通過明顯的分界符來簡單劃界,唯獨詞沒有一個形式上的分界符,雖然英文也同樣存在短語的劃分問題,但是在詞這一層上,上面的例子中我們也可以看出,中文比之英文要復雜的多、困難的多。
目前主流的中文分詞演算法有以下3種:
1、 基於字元串匹配的分詞方法
這種方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個「充分大的」機器詞典中的詞條進行配,若在詞典中找到某個字元串,則匹 配成功(識別出一個詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優先匹配的情況,可以分為最大(最長)匹配和最小(最短)匹配;按照是否與詞性標注過程相結合,又可以隱滾分為單純分詞方法和分詞與標注相結合的一體化方法。常用的幾種機械分詞方法如下:
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的詞數最小)。
還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結合起來構成雙向匹配法。由於漢語單字成詞的特點,正向最小匹配和逆向最小匹配一般很少使用。一般說來,逆向匹配的切分精度略高於正向匹配,遇到的歧義現象也較少。統計結果表明,單純使用正向最大匹配的錯誤率為 1/169,單純使用逆向最大匹配的錯誤率為1/245。但這種精度還遠遠不能滿足實際的需要。實際使用的分詞系統,都是把機械分詞作為一種初分手段,還 需通過利用各種其它的語言信息來進一步提高切分的准確率。
一種方法是改進掃描方式,稱為特徵掃描或標志切分灶晌余,優先在待分析字元串中識別和切分出一些帶有明顯特徵的詞,以這謹宴些詞作為斷點,可將原字元串分 為較小的串再來進機械分詞,從而減少匹配的錯誤率。另一種方法是將分詞和詞類標注結合起來,利用豐富的詞類信息對分詞決策提供幫助,並且在標注過程中又反 過來對分詞結果進行檢驗、調整,從而極大地提高切分的准確率。
2、 基於理解的分詞方法
這種分詞方法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現象。它通常包括三個部分:分詞子系統、句法語義子系統、總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由於漢語語言知識的籠統、復雜性,難以將各種語言信息組織 成機器可直接讀取的形式,因此目前基於理解的分詞系統還處在試驗階段。
3、 基於統計的分詞方法
從形式上看,詞是穩定的字的組合,因此在上下文中,相鄰的字同時出現的次數越多,就越有可能構成一個詞。因此字與字相鄰共現的頻率或概率能夠較好的反映成詞的可信度。可以對語料中相鄰共現的各個字的組合的頻度進行統計,計算它們的互現信息。定義兩個字的互現信息,計算兩個漢字X、Y的相鄰共現概率。互現信息體現了漢字之間結合關系的緊密程度。當緊密程度高於某一個閾值時,便可認為此字組可能構成了一個詞。這種方法只需對語料中的字組頻度進行統 計,不需要切分詞典,因而又叫做無詞典分詞法或統計取詞方法。但這種方法也有一定的局限性,會經常抽出一些共現頻度高、但並不是詞的常用字組,例如「這 一」、「之一」、「有的」、「我的」、「許多的」等,並且對常用詞的識別精度差,時空開銷大。實際應用的統計分詞系統都要使用一部基本的分詞詞典(常用詞詞典)進行串匹配分詞,同時使用統計方法識別一些新的詞,即將串頻統計和串匹配結合起來,既發揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優點。
分詞幾點要注意:
1.分詞演算法的時間性能要比較高。尤其是現在的web搜索,實時性要求很高。所以作為中文信息處理基礎的分詞首先必須佔用盡可能少的時間。
2.分詞正確率的提高並不一定帶來檢索性能的提高。分詞到達一定精度之後,對中文信息檢索的影響不再會很明顯,雖然仍然還是有一些影響,但是這已經不是CIR的性能瓶頸。所以片面的一味追求高准確率的分詞演算法並不是很適合大規模中文信息檢索。在時間和精度之間存在矛盾無法兼顧的情況下,我們需要在二者之間找到一個合適的平衡點。
3.切分的顆粒度仍然可以依照長詞優先准則,但是需要在查詢擴展層面進行相關後續處理。在信息檢索中,分詞演算法只需要集中精力考慮如何消除交叉歧義。對於覆蓋歧義,我們可以利用詞典的二次索引和查詢擴展來解決。
4.未登錄詞識別的准確率要比召回率更加重要。要盡量保證未登錄詞識別時不進行錯誤結合,避免因此切分出錯誤的未登錄詞。如果將單字錯誤的結合成未登錄詞了,則有可能導致無法正確檢索到相應的文檔。
網路的分詞
首先根據分割符號將查詢分開。「信息檢索 理論 工具」 分詞後 <信息檢索,理論,工具>。
然後看看是否有重復的字元串,如果有,就拋棄多餘的,只保留一個。「理論 工具理論」分詞後<工具理論>,GOOGLE不考慮這個並歸計算。
接著判斷是否有英文或者數字,如果有的話,把英文或者數字當作一個整體保留並把前後的中文切開。查詢」電影BT下載」分詞後<電影,BT,下載>。
如果字元串只包含小於等於3個中文字元的話,那就保留不動,當字元串長度大於4個中文字元的時候,網路的分詞程序才出馬大幹快上,把這個字元串肢解掉。
分詞演算法類型正向最大匹配,反向最大匹配,雙向最大匹配,語言模型方法,最短路徑演算法判斷一個分詞系統好不好,關鍵看兩點,一個是消除歧義能力;一個是詞典未登錄詞的識別比如人名,地名,機構名等。
網路分詞採取了至少兩個詞典,一個是普通詞典,一個是專用詞典(人名、地名、新詞等)。而且是專用詞典先切分,然後將剩餘的片斷交由普通詞典來切分。
網路用分詞演算法類型採用的是雙向最大匹配演算法。

E. 什麼叫分詞式方法

分詞就是具有動詞及形容詞二者特徵的詞,尤指以-ing或-ed,-d,-t,-en或-n結尾的英語動詞性形容詞,具有形容詞功能,同時又表現各種動詞性特點,如時態、語態、帶狀語性修飾語的性能及帶賓詞的性能。大擾

分詞分為現在分詞和過去分詞兩種,是一種非謂語動詞形式。現在分詞和過去分詞主要差別在於:現在分詞表示「主動和進行」,過去分滾鬧旦詞表示「被動和完成」(不及物動詞的過去分詞不表示被動,只表示完成)。分詞可以有自己的狀彎做語、賓語或邏輯主語等。

閱讀全文

與編程中分詞法是什麼意思相關的資料

熱點內容
文件領導簽字在哪裡 瀏覽:239
電腦保存文件是點哪裡 瀏覽:689
word07圖片框 瀏覽:359
跨境付app現在支持哪些國家 瀏覽:647
手機mid文件 瀏覽:929
華碩筆記本升級bios找不到文件 瀏覽:399
編程和電腦哪個更適合孩子 瀏覽:718
xls壓縮文件怎麼設置 瀏覽:423
微信眨眼小女孩 瀏覽:207
cad2010安裝文件 瀏覽:379
編程上什麼學 瀏覽:364
美版s7升級70移動4g 瀏覽:112
金融數據包含哪些 瀏覽:240
尼爾應用程序錯誤 瀏覽:157
淘特app如何助力 瀏覽:472
cad文件有木馬 瀏覽:459
多頁文件怎樣改變字體 瀏覽:145
16燈搖搖棒的程序 瀏覽:705
作業成本相關數據哪裡找 瀏覽:826
買鞋有什麼推薦的app 瀏覽:239

友情鏈接