導航:首頁 > 編程系統 > ictclaspythonlinux

ictclaspythonlinux

發布時間:2023-02-08 16:16:22

Ⅰ jieba分詞(R vs. python)

自然語言處理(NLP)是機器學習重要分支之一,主要應用於篇章理解、文本摘要、情感分析、知識圖譜、文本翻譯等領域。而NLP應用首先是對文本進行分詞,當前中文分詞器有Ansj、paoding、盤古分詞等多種,而最基礎的分詞器應該屬於jieba分詞器(比較見下圖)。

下面將分別應用R和python對jieba分詞器在中文分詞、詞性標注和關鍵詞提取領域的應用進行比較。

R實現

通過函數worker()來初始化分詞引擎,使用segment()進行分詞。有四種分詞模式:最大概率法(MP)、隱馬爾科夫模型(HMM)、混合模型(Mix)及索引模型(query),默認為混合模型。具體可查看help(worker).

#install.packages('jiebaR')library(jiebaR)mixseg <- worker()segment( "這是一段測試文本" , mixseg ) #或者用以下操作mixseg['這是一段測試文本']mixseg <= "這是一段測試文本"

python實現

python中需安裝jieba庫,運用jieba.cut實現分詞。cut_all參數為分詞類型,默認為精確模式。

import jiebaseg_list = jieba.cut(u"這是一段測試文本",cut_all = False)print("Full mode: "+ ",".join(seg_list))  #默認精確模式

無論是R還是python都為utf—8編碼。

R實現

可以使用<=.tagger 或者tag 來進行分詞和詞性標注,詞性標注使用混合模型模型分詞,標注採用和 ictclas 兼容的標記法。

words = "我愛北京天安門"tagger = worker("tag") #開啟詞性標注啟發器tagger <= words    #    r        v      ns      ns    # "我"    "愛"  "北京" "天安門"

python實現

#詞性標注import jieba.posseg as psegwords = pseg.cut("我愛北京天安門")for word,flag in words:    print('%s, %s' %(word,flag))

R實現

R關鍵詞提取使用逆向文件頻率(IDF)文本語料庫,通過worker參數「keywords」開啟關鍵詞提取啟發器,topn參數為關鍵詞的個數。

keys = worker("keywords",topn = 5, idf = IDFPATH)keys <= "會議邀請到美國密歇根大學(University of Michigan, Ann Arbor)環境健康科學系副教授奚傳武博士作題為「Multibarrier approach for safe drinking waterin the US : Why it failed in Flint」的學術講座,介紹美國密歇根Flint市飲用水污染事故的發生發展和處置等方面內容。講座後各相關單位同志與奚傳武教授就生活飲用水在線監測系統、美國水污染事件的處置方式、生活飲用水老舊管網改造、如何有效減少消毒副產物以及美國涉水產品和二次供水單位的監管模式等問題進行了探討和交流。本次交流會是我市生活飲用水衛生管理工作洽商機制運行以來的又一次新嘗試,也為我市衛生計生綜合監督部門探索生活飲用水衛生安全管理模式及突發水污染事件的應對措施開拓了眼界和思路。"#結果:#        48.8677        23.4784        22.1402        20.326        18.5354 #      "飲用水"        "Flint"        "衛生"      "水污染"        "生活"

python實現

python實現關鍵詞提取可運用TF-IDF方法和TextRank方法。allowPOS參數為限定范圍詞性類型。

#關鍵詞提取import jieba.analysecontent = u'會議邀請到美國密歇根大學(University of Michigan, Ann Arbor)環境健康科學系副教授奚傳武博士作題為「Multibarrier approach for safe drinking waterin the US : Why it failed in Flint」的學術講座,介紹美國密歇根Flint市飲用水污染事故的發生發展和處置等方面內容。講座後各相關單位同志與奚傳武教授就生活飲用水在線監測系統、美國水污染事件的處置方式、生活飲用水老舊管網改造、如何有效減少消毒副產物以及美國涉水產品和二次供水單位的監管模式等問題進行了探討和交流。本次交流會是我市生活飲用水衛生管理工作洽商機制運行以來的又一次新嘗試,也為我市衛生計生綜合監督部門探索生活飲用水衛生安全管理模式及突發水污染事件的應對措施開拓了眼界和思路。'#基於TF-IDFkeywords = jieba.analyse.extract_tags(content,topK = 5,withWeight = True,allowPOS = ('n','nr','ns'))for item in keywords:        print item[0],item[1]  #基於TF-IDF結果# 飲用水 0.448327672795# Flint 0.219353532163# 衛生 0.203120821773# 水污染 0.186477211628# 生活 0.170049997544

#基於TextRankkeywords = jieba.analyse.textrank(content,topK = 5,withWeight = True,allowPOS = ('n','nr','ns'))for item in keywords:        print item[0],item[1]    #基於TextRank結果:# 飲用水 1.0# 美國 0.570564785973# 奚傳武 0.510738424509# 單位 0.472841889334# 講座 0.443770732053

寫在文後

自然語言處理(NLP)在數據分析領域有其特殊的應用,在R中除了jiebaR包,中文分詞Rwordseg包也非常常用。一般的文本挖掘步驟包括:文本獲取(主要用網路爬取)——文本處理(分詞、詞性標注、刪除停用詞等)——文本分析(主題模型、情感分析)——分析可視化(詞雲、知識圖譜等)。本文是自然語言處理的第一篇,後續將分別總結下應用深度學習Word2vec進行詞嵌入以及主題模型、情感分析的常用NLP方法。

參考資料

Introction · jiebaR 中文分詞 https://qinwenfeng.com/jiebaR/segment.html

知乎:【文本分析】利用jiebaR進行中文分詞 https://zhuanlan.hu.com/p/24882048

雪晴數據網:全棧數據工程師養成攻略 http://www.xueqing.tv/course/73

搜狗實驗室,詞性標注應用 http://www.sogou.com/labs/webservice/

【R文本挖掘】中文分詞Rwordseg http://blog.163.com/zzz216@yeah/blog/static/162554684201412895732586/

Ⅱ ictclas 怎麼使用 python

以前ictclas014似乎只能在windows下被python調用。我就成功過。 不過到了linux下比較麻煩。java調用是可以的。但是python似乎有些麻煩。不過當時谷哥的code項目里有一個開源版本。 現在不用這么麻煩了。

Ⅲ 怎麼將nlpir系統封裝成python的擴展

以前ictclas014似乎只能在windows下被python調用。我就成功過。 不過到了linux下比較麻煩。java調用是可以的。但是python似乎有些麻煩。不過當時谷哥的code項目里有一個開源版本。

現在不用這么麻煩了。

Ⅳ 怎麼是用python 語言 使用結巴分詞 呢

Python代碼

#encoding=utf-8
importjieba

seg_list=jieba.cut("我來到北京清華大學",cut_all=True)
print"FullMode:","/".join(seg_list)#全模式

seg_list=jieba.cut("我來到北京清華大學",cut_all=False)
print"DefaultMode:","/".join(seg_list)#默認模式

seg_list=jieba.cut("他來到了網易杭研大廈")
print",".join(seg_list)

輸出:

FullMode:我/來/來到/到/北/北京/京/清/清華/清華大學/華/華大/大/大學/學

DefaultMode:我/來到/北京/清華大學

他,來到,了,網易,杭研,大廈(此處,「杭研」並沒有在詞典中,但是也被Viterbi演算法識別出來了)

Ⅳ 目前常用的自然語言處理開源項目/開發包有哪些

中文主要有:NLTK,HanLP,Ansj,THULAC,結巴分詞,FNLP,哈工大LTP,中科院ICTCLAS分詞,GATE,SnowNLP,東北大學NiuTrans,NLPIR;英文主要有:NLTK,Genism,TextBlob,Stanford NLP,Spacy。英文的開源NLP工具主要參見StackoverFlow-java or python for nlp。HanLP:HanLP是由一系列模型與演算法組成的Java工具包,目標是普及自然語言處理在生產環境中的應用。HanLP具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。開發語言:Java,網址:hankcs/HanLP,開發機構:大快公司,協議:Apache-2.0功能:非常多,主要有中文分詞,詞性標注,命名實體識別,關鍵詞提取,自動摘要,短語提取,拼音轉換,簡繁轉換,文本推薦,依存句法分析,文本分類:情感分析,word2vec,語料庫工具。

閱讀全文

與ictclaspythonlinux相關的資料

熱點內容
90版本貪食之源屬性 瀏覽:348
文件許可權600 瀏覽:109
蘋果手機使用miui免費電話 瀏覽:732
qtudp發送文件 瀏覽:295
三星手機牆紙文件夾 瀏覽:478
iphone7輸錯密碼震動 瀏覽:944
季度申報數據從哪裡看 瀏覽:645
安卓的郵箱文件保存在哪裡 瀏覽:441
蘋果奧維導出文件在哪裡 瀏覽:405
qq頭像比較社會的女 瀏覽:840
手機風景修圖教程 瀏覽:173
程序員用什麼計算機語言 瀏覽:337
有票APP客服在哪裡 瀏覽:692
國資委63號文件從哪裡查 瀏覽:37
哪個app能顯示lrc字幕 瀏覽:53
jsdate轉換數字 瀏覽:198
賣票的網站取什麼名字好 瀏覽:355
羅湖免費網站製作怎麼樣 瀏覽:274
蘋果6plus測速度 瀏覽:290
u盤的文件變成快捷方式 瀏覽:970

友情鏈接