導航:首頁 > 編程大全 > 復雜網路的中尺度

復雜網路的中尺度

發布時間:2023-06-06 07:22:32

① 什麼是復雜網路

什麼是復雜網路?「絕大多數人認識的網路,可能只是日常上網用的萬維網,但網路的概念很大,我們實際就生活在一個極其復雜的網路中。」吳曉群解釋說,每一個人可以看作是網路中的一個節點,而人與人之間的關系,以及人與事物的關系都可以用一條線來表示,這樣就形成了一個龐雜的網路。如今,很多數學家試圖用數學的方式描述這個網路,研究它的幾何性質、形成機制、演化過程、統計規律,以便更好地服務於現實需求,而這也恰恰是吳曉群所要攻克的難題。

除了自己的科研夢想,作為博士生導師,吳曉群對學生的培養也有自己的理解。很多人認為女生學不好數學,但吳曉群卻稱,「女生學不好數學」只是自己給自己找的偷懶借口。「科研之路是循序漸進的,年輕科研人要受得了清貧,耐得住寂寞,潛下心來做自己看中的方向,終將會做出成果,一切都會變得更好。」她說。

每一件事的背後都有一些勤勤懇懇的工作者吧。

② 復雜網路 --- 社會網路分析

「社會網路」指的是社會成員及其相互關系的集合。社會網路中所說的「點」是各個社會成員,而社會網路中的「邊」指的是成員之間的各種社會關系。成員間的關系可以是有向的,也可以是無向的。同時,社會關系可以表現為多種形式,如人與人之間的朋友關系、上下級關系、科研合作關系等,組織成員之間的溝通關系,國家之間的貿易關系等。社會網路分析(Social Network Analysis)就是要對社會網路中行為者之間的關系進行量化研究,是社會網路理論中的一個具體工具

因此,社會網路分析關注的焦點是關系和關系的模式,採用的方式和方法從概念上有別於傳統的統計分析和數據處理方法。

社會網路通常表達人類的個體通過各種關系連接起來,比如朋友、婚姻、商業等,這些連接宏觀上呈現出一定的模式。很早的時候,一些社會學家開始關注人們交往的模式。Ebel等進行了一個電子郵件版的小世界問題的實驗,完成了Kiel大學的5000個學生的112天電子郵件連接數據,節點為電子郵件地址,連接為消息的傳遞,得到帶指數截斷的冪律度分布,指數為r=1.18。同時證明,該網路是小世界的,平均分隔為4.94。

社會網路分析,可以解決或可以嘗試解決下列問題:

「中心性」是社會網路分析的重點之一,用於分析個人或組織在其社會網路中具有怎樣的權力,或者說居於怎樣的中心地位,這一思想是社會網路分析者最早探討的內容之一。

點度中心度表示與該點直接相連的點的個數,無向圖為(n-1),有向圖為(入度,出度)。

個體的中心度(Centrality)測量個體處於網路中心的程度,反映了該點在網路中的重要性程度。網路中每個個體都有一個中心度,刻畫了個體特性。除了計算網路中個體的中心度外,還可以計算整個網路的集中趨勢(可簡稱為中心勢,Centralization)。網路中心勢刻畫的是整個網路中各個點的差異性程度,一個網路只有一個中心勢。

根據計算方法的不同,中心度和中心勢都可以分為3種:點度中心度/點度中心勢、中間中心度/中間中心勢、接近中心度/接近中心勢。

在一個社會網路中,如果一個個體與其他個體之間存在大量的直接聯系,那麼該個體就居於中心地位,在該網路中擁有較大的「權力」。在這種思想的指導下,網路中一個點的點度中心性就可以用網路中與該點之間有聯系的點的數目來衡量,這就是點度中心度。

網路中心勢指的是網路中點的集中趨勢,其計算依據如下步驟:首先找到圖中的最大點度中心度的數值,然後計算該值與任何其他點的中心度的差值,再計算這些「差值」的總和,最後用這個總和除以各個「差值」總和的最大可能值。

在網路中,如果一個個體位於許多其他兩個個體之間的路徑上,可以認為該個體居於重要地位,因為他具有控制其他兩個個體之間的交往能力,這種特性用中間中心度描述,它測量的是個體對資源控制的程度。一個個體在網路中占據這樣的位置越多,代表它具有很高的中間中心性,就有越多的個體需要通過它才能發生聯系。

中間中心勢定義為網路中 中間中心性最高的節點的中間中心性與其他節點的中間中心性的差距,用於分析網路整體結構。中間中心勢越高,表示該網路中的節點可能分為多個小團體,而且過於依賴某一個節點傳遞關系,說明該節點在網路中處於極其重要的地位。

接近中心性用來描述網路中的個體不受他人「控制」的能力。在計算接近中心度的時候,我們關注的是捷徑,而不是直接關系。如果一個點通過比較短的路徑與許多其他點相連,我們就說該點具有較高的接近中心性。

對一個社會網路來說,接近中心勢越高,表明網路中節點的差異性越大;反之,則表明網路中節點間的差異越小。

註:以上公式都是針對無向圖,如果是有向圖則根據定義相應修改公式即可

當網路中某些個體之間的關系特別緊密,以至於結合成一個次級團體時,這樣的團體在社會網路分析中被稱為凝聚子群。分析網路中存在多少個這樣的子群,子群內部成員之間關系的特點,子群之間關系特點,一個子群的成員與另一個子群成員之間的關系特點等就是凝聚子群分析。

由於凝聚子群成員之間的關系十分緊密,因此有的學者也將凝聚子群分析形象地稱為「小團體分析」或「社區現象」。

常用的社區檢測方法主要有如下幾種:

(1)基於圖分割的方法,如Kernighan-Lin演算法,譜平分法等;

(2)基於層次聚類的方法,如GN演算法、Newman快速演算法等;

(3)基於模塊度優化的方法,如貪婪演算法、模擬退火演算法、Memetic演算法、PSO演算法、進化多目標優化演算法等。

凝聚子群密度(External-Internallndex,E-IIndex)主要用來衡量一個大的網路中小團體現象是否十分嚴重,在分析組織管理等問題時非常有效。

最差的情形是大團體很散漫,核心小團體卻有高度內聚力。另外一種情況是,大團體中有許多內聚力很高的小團體,很可能就會出現小團體間相互斗爭的現象。凝聚子群密度的取值范圍為[-1,+1]。該值越向1靠近,意味著派系林立的程度越大;該值越接近-1,意味著派系林立的程度越小;該值越接近0,表明關系越趨向於隨機分布,未出現派系林立的情形。

E-I Index可以說是企業管理者的一個重要的危機指數。當一個企業的E-I Index過高時,就表示該企業中的小團體有可能結合緊密而開始圖謀小團體私利,從而傷害到整個企業的利益。其實E-I Index不僅僅可以應用到企業管理領域,也可以應用到其他領域,比如用來研究某一學科領域學者之間的關系。如果該網路存在凝聚子群,並且凝聚子群的密度較高,說明處於這個凝聚子群內部的這部分學者之間聯系緊密,在信息分享和科研合作方面交往頻繁,而處於子群外部的成員則不能得到足夠的信息和科研合作機會。從一定程度上來說,這種情況也是不利於該學科領域發展的。

核心-邊緣(Core-Periphery)結構分析的目的是研究社會網路中哪些節點處於核心地位,哪些節點處於邊緣地位。核心-邊緣結構分析具有較廣的應用性,可用於分析精英網路、論文引用關系網路以及組織關系網路等多種社會現象。

根據關系數據的類型(定類數據和定比數據),核心—邊緣結構有不同的形式。定類數據和定比數據是統計學中的基本概念,一般來說,定類數據是用類別來表示的,通常用數字表示這些類別,但是這些數值不能用來進行數學計算;定比數據是用數值來表示的,可以用來進行數學計算。如果數據是定類數據,可以構建離散的核心-邊緣模型;如果數據是定比數據,可以構建連續的核心-邊緣模型。

離散的核心-邊緣模型,根據核心成員和邊緣成員之間關系的有無及緊密程度,又可分為3種:核心-邊緣全關聯模型、核心-邊緣局部關聯模型、核心-邊緣關系缺失模型。如果把核心和邊緣之間的關系看成是缺失值,就構成了核心-邊緣關系缺失模型。

這里介紹適用於定類數據的4種離散的核心-邊緣模型:

參考

大數據與復雜網路

寫這篇文章,有兩個原因:

看了李院士的《大數據研究的科學價值》,有些感觸。

我自己做了一段時間社交,也有一些想法。

之前也寫過復雜網路的東西,但是都非常膚淺,沒有真正的理解復雜網路,近期看了一些資料,有了進一步的理解。

李院士的文章,是從科學家的角度,理解大數據的價值。從文章中,我了解到以下幾點:

數據inside:未來數據將數據轉換為產品或者服務的人。

分析即服務:Aaas。構建一個統一的數據分析平台,提供豐富的api,供數據分析師進行分析,挖掘金礦。是一件很有用,同時也很有錢途的事業。

大數據的存儲、計算、挖掘分析的技術,還需要更進一步的發展。一些同學,規劃自己的職業生涯,把這個作為儲備,現在開始學習,是一個非常好的選擇。我之前做過一些存儲相關的東西,存儲還是要往多層方向發展。

在大數據中的個體之間存在著關系,有可能大數據的本質就是復雜網路的本質。為研究指名了一個方向。

第四範式:之前的研究都需要有模型,在大數據的背景之下:所有的模型都是錯誤的,進一步說,沒有模型你也可以成功。

文章中,李院士提到大數據的本質,可能就是復雜網路的本質。這是因為大數據個體之間都是關系的。舉個例子,互聯網。個體是網頁,網頁和網頁之間通過超鏈接互相鏈接,當然也可能有單向的。互聯網就是一個復雜網路。其中的關系已經被驗證了意義的重大——PageRank演算法——搜索引擎的核心之一。另一方面,大數據的產生,整體分為兩類:1)生物科學中,人腦細胞、神經元,基因等等。都是大數據。2)還有就是社會群體產生的。國內現在火熱的微博。就每天會產生很大量的數據。在這兩類中,我們都要考慮個體之間的關系,都有一些參數和性質:平均路徑長度、度分布、聚集系數、核數和介數等。這些都可以歸結到復雜網路的研究當中。不過,大數據的研究剛剛開始,其本質是否就是復雜網路所能解釋的還很難說。復雜網路本身也在發展演變的過程中,幾年之後,那時的復雜網路也不是現在的樣子。但是,社交網路確確實實是復雜網路的體現。所以,通過復雜網路的理論,研究大數據,研究社交網路,一定是一個很好的方向。

說了半天的復雜網路,到底復雜網路是什麼呢?這里,我只說說我對復雜網路的淺顯理解。也歡迎大家指點、討論。我們一般所說的復雜網路具備兩個特點:

無尺度

小世界

看起來很玄的兩個詞,那麼該如何理解呢?無尺度的概念,比較好理解:就是網路中的度分布滿足冪律分布。冪律分布可以理解度的分布比較集中。我們以新浪微博為例,粉絲上千萬那的人非常少,百萬的人也非常少。更多的是幾百粉絲的。直白一點說,就是粉絲非常多的人很少,很集中。粉絲比較少的,分布就比較廣,比較多。我之前做微博數據分析的時候,有統計過幾乎所有用戶的粉絲數分布的。完全符合冪律的分布。如果大家需要,可以和我進一步討論之類。我也可以找找之前的統計數據。

小世界我覺得需要從兩個角度考慮:第一個,就是網路中兩點的平均最短路徑很小。著名的米爾格拉姆實驗的第一個結果就是:六度分隔。意思就是在我們的世界上,你想聯系任何一個人,你不認識的,平均就需要找5、6個人就可以了。隨著社會的發展,facebook等社交網路興起,這個度越來越小。有報道說,已經是4.5個人就可以了。這個事情比較有意思,前些日子,還有個開發者做了一個微博應用,計算你到某個明星的距離。很多人會想,是不是很遠,是不是計算很復雜?其實都不是的,小世界的特性告訴我們,這個值會很小。同時,即使在線讀取關注,深度搜索的暴力方式解決,這也是很快的。第二個,不僅僅平均最短路徑很小,如果消息在網路中傳播,會以很大的概率,通過最短路徑傳播到目的地。這個很重要,這個是根本。這個是,現在微博上進行微博營銷的根本所在。如果沒有這個特性,通過轉發,甚至是大號的轉發,很難出現傳播爆發的情況,很難讓更多的人知道。所以這個很重要,這個也是米爾格拉姆試驗的第二個重要的結果。

其實上面兩個結果,都有對應的模型,能夠很好的證明,而且,在實際的社交網路中,也得到的驗證。大家感興趣,可以自己研究。

那麼大數據,我們作為程序員、作為研究者,能夠做什麼呢?其實前面也說過了,主要就三點:

存儲

計算

演算法

我們圍繞著這三塊進行,無論是工程開發者,還是研究者,都可以在這個過程中發現問題,歸納共性,提煉本質,然後上升到科學的高度。

我目前還沒有李老師的高度,我也是圍繞著微博做了一些復雜網路相關的研究。我希望,以後,我的工作,也能夠為大數據科學進步,起到一點點作用。那我的工作,就真的有價值了。

下面是我自己感興趣的一些點,歡迎大家討論:

復雜網路社團結構的發現,對應社交網路中的圈子挖掘。

社交網路中,特定領域,人物影響力的排名。

社交網路中,信息傳播的研究

社交網路用戶關系的存儲

其中,1、2、4我做了比較多的嘗試,1、2效果還不錯,4沒有好的方法。3目前只是了解階段,還沒有開始動手。

僅以此文,拋磚引玉。

【完】

④ 復雜網路這個方向怎麼樣

復雜網路簡而言之即呈現高度復雜性的網路。其復雜性主要表現在以下幾個方面:
1)結構復雜,表現在節點數目巨大,網路結構呈現多種不同特徵。
2)網路進化:表現在節點或連接的產生與消失。例如world-wide network,網頁或鏈接隨時可能出現或斷開,導致網路結構不斷發生變化。
3)連接多樣性:節點之間的連接權重存在差異,且有可能存在方向性。
4)動力學復雜性:節點集可能屬於非線性動力學系統,例如節點狀態隨時間發生復雜變化。
5)節點多樣性:復雜網路中的節點可以代表任何事物,例如,人際關系構成的復雜網路節點代表單獨個體,萬維網組成的復雜網路節點可以表示不同網頁。
6)多重復雜性融合:即以上多重復雜性相互影響,導致更為難以預料的結果。例如,設計一個電力供應網路需要考慮此網路的進化過程,其進化過程決定網路的拓撲結構。當兩個節點之間頻繁進行能量傳輸時,他們之間的連接權重會隨之增加,通過不斷的學習與記憶逐步改善網路性能。 復雜網路一般具有以下特性:
第一,小世界。它以簡單的措辭描述了大多數網路盡管規模很大但是任意兩個節(頂)點間卻有一條相當短的路徑的事實。以日常語言看,它反映的是相互關系的數目可以很小但卻能夠連接世界的事實,例如,在社會網路中,人與人相互認識的關系很少,但是卻可以找到很遠的無關系的其他人。正如麥克盧漢所說,地球變得越來越小,變成一個地球村,也就是說,變成一個小世界。
第二,集群即集聚程度(clustering coefficient)的概念。例如,社會網路中總是存在熟人圈或朋友圈,其中每個成員都認識其他成員。集聚程度的意義是網路集團化的程度;這是一種網路的內聚傾向。連通集團概念反映的是一個大網路中各集聚的小網路分布和相互聯系的狀況。例如,它可以反映這個朋友圈與另一個朋友圈的相互關系。
第三,冪律(power law)的度分布概念。度指的是網路中某個頂(節)點(相當於一個個體)與其它頂點關系(用網路中的邊表達)的數量;度的相關性指頂點之間關系的聯系緊密性;介數是一個重要的全局幾何量。頂點u的介數含義為網路中所有的最短路徑之中,經過u的數量。它反映了頂點u(即網路中有關聯的個體)的影響力。無標度網路(Scale-free network)的特徵主要集中反映了集聚的集中性。

⑤ 復雜網路中的無標度網路和小世界網路有什麼區別,各自的特徵是什麼

無標度網路和小世界網路 的最大區別是他們的度分布的差別

無標度網路的度分布內是冪容函數,小世界是鍾行的,
實際上小世界和 random network 的度分布相似,點與點之間的連接是隨機的,所以都是鍾形正態分布,但是小世界的點點之間路徑最短。

無標度網路有巨集團和剩餘度的涌現,也就是說巨集團基本代表網路的連接密度,少數的點有大量的連線,大多數點有少量或沒有連線。無標度的度分布也引發了相關的對自組織臨界和熵厥的討論,是當今研究主要課題。

⑥ 通俗易懂WGCNA (1)

每當我使用一個新的軟體/演算法時(相較於組內之前的研究),導師總喜歡問我背後的原理。她可以不懂,但我必須給她講明白。

因此,我想試著用通俗易懂的語言為大家講一下WGCNA~

Gene A的表達,可能會影響另一個基因(比如gene B)的表達。若前者是轉錄因子,那麼多半會促進後者的轉錄增加;若前者是抑制子(repressor),則可能會導致後者的表達受到抑制。

隨著研究的越來越深入,我們發現。這種調控關系,不是一對一的,甚至不是一對多的,而是多對多的。這里以大家耳熟能詳的RNA Pol II舉例,這是一個真核生物中蛋白質編碼基因轉錄所需的RNA聚合酶。

好了,現在我們知道基因的調控關系是多對多的,那麼我們該怎麼描述這種關系呢?搞數學的那幫傢伙早早的就把這玩意研究透了,用圖來描述這種網路關系,也就是下面這玩意。

研究之透徹,光是想入門就需要先學一下離散數學,然後再上一門叫作圖論的課。當然,深入學習雖然難,但是對於我們來說,只用簡單的了解一下其基本概念就足以。

上面的圖,我們稱之為網路。網路中的每個點我們稱為頂點,用於表示某個事物或者對象。其中的每條邊,用於表示事物之間的關系。一個點所連接的線的個數,我們稱之為度(degree)。這張網路,如果放到基因調控的背景下,其中的每個點代表一個基因,其中的每條邊代表兩個基因之間的調控關系。

看到這里,愛思考的朋友肯定就想到了,這個網路圖似乎沒有方向。這似乎和我們所了解的調控網路不太一致,於是我們這里引入有向圖的概念,也就是下面這玩意。

有了方向,我們就知道在一張調控網路中,究竟是gene A調控 gene B還是gene B調控gene A。但是這張圖和我們想像中的調控網路還是差了點意思,調控網路中,通常是若干個基因起著重要作用,調控大部分基因,比如轉錄因子/蛋白激酶。而其他的大部分基因都是打醬油的,負責好自己的本職工作,再老老實實的聽上游基因的調控就行了。就如下圖

因此,在這里,我們引入一個新的概念,無尺度網路或者說是無標度網路 (scale-free network)。這是帶有一類特性的復雜網路,其典型特徵是在網路中的大部分節點只和很少節點連接,而有極少的節點與非常多的節點連接。

而這類關鍵基因在調控網路中,因為其連通性很好(degree很高,或者說是與很多基因都有調控關系),經常會將其稱呼為hub-gene。

好了,講到這里,我們基本上懂了網路的概念,以及基因調控的概念。接下來再引入基因共表達調控,就不會顯的那麼突兀了。

隨著高通量測序技術的發展,我們可用的數據已經越來越多。傳統的兩兩比對分析,會讓我們的計算量爆炸性的增加。比如差異基因表達分析,如果我們有五個時間點的樣本,兩兩比較就要比較4+3+2+1=10次。不僅計算量大,而且分析復雜,讓本就不簡單的問題更為復雜。

為了解決這么一個問題,我們必須利用新的方法去分析這類問題,而WGCNA就是一種剛好適合這種復雜樣本的分析方法。

WGCNA全稱是Weighted Gene Co-expression Network analysis,翻譯成中文就是加權基因共表達網路分析。聽名字我們就知道,該分析最重要的就是加權和共表達。而這個玩意最主要的目的就是幫助我們縮小范圍,篩掉無用信息,找到符合我們預期的關鍵基因。

共表達,就是去鑒定那些高度協同變化的基因集,比如某一類基因在不同的樣本中都是一起上升,一起下降,表達模式基本一致。

而加權就是在分析的時候,賦予基因共表達關系一定的權重。比如gene A和gene B的相關性更高,那這倆基因之間的權重也就越高,同樣的,若二者相關性較低,則它倆之間的權重也就越低。這種加權網路,可以用下圖表示,其中權重越高,則兩個點之間的連線越粗。

需要注意的是,基因共表達網路是一種無向圖,不指定共表達關系的方向和類型。然而在基因調控網路中,邊是有方向的,代表著反應、變換、互作、激活或者抑制的生化過程。而基因共表達網路並不嘗試判定因果關系,邊只代表基因之間的相關或者依賴關系。有類似功能或參與統一生物功能的基因會產生很多相互作用,在基因共表達網路中會體現為模塊或連接豐富的子圖。

Note: 基因共表達網路不具有方向性,但我們可以關注調控的正負。即,我們可以關注高度相關的基因,也可以只關注高度正相關的基因,具體的設定可以關注後續正文內容

閱讀全文

與復雜網路的中尺度相關的資料

熱點內容
4kb的txt文件差不多多少字 瀏覽:984
u盤文件突然變成exe 瀏覽:164
現在哪些學校初中有學編程的 瀏覽:402
word查找全選 瀏覽:599
開工報告附什麼文件資料 瀏覽:150
分區工具app怎麼用 瀏覽:212
安卓堅果雲文件路徑 瀏覽:591
sqllog文件 瀏覽:236
如何在電腦中找到文件路徑 瀏覽:830
數據結構訪問和查找有什麼區別 瀏覽:401
怎麼清空icloud內的數據 瀏覽:338
微信鎖屏後音樂停止 瀏覽:668
applepay蘋果手機卡 瀏覽:835
一個14mb的文件能儲存多少萬漢字 瀏覽:478
騰訊文檔里如何導出數據 瀏覽:979
java面試題csdn 瀏覽:410
rpgnvp是什麼文件 瀏覽:594
如何將一列數據復制到excel 瀏覽:488
sd卡怎麼恢復excel文件 瀏覽:282
gdblinux內核多核調試 瀏覽:24

友情鏈接