Gephi社會網路分析-網路圖的統計

語言: CN / TW / HK

在上一篇《 Gephi社會網路分析-網路圖的過濾器(濾波) 》中,我們使用從知乎上採集到的實際的社交媒體資料,經GooSeeker分詞工具做分詞和選詞後生成共詞矩陣,在Gephi中匯入共詞矩陣,在此基礎上學習和討論了Gephi網路圖過濾的概念和實際操作演練。

本文參考Gephi官網的內容,繼續學習Gephi網路圖的統計。其實,上一篇為了使過濾操作有資料支撐,我們已經使用了一個統計操作。簡單理解,統計就是針對圖的整體或者節點或者邊的一些統計指標的運算,這些統計值有助於更好的觀察和分析網路。

我們之前在Jupyter Notebook中做過很多各種演算法的實踐,各種度的計算,這些和Gephi的統計有些是交叉或者有關聯的,想詳細瞭解這些演算法的實踐過程的朋友,可以直接下載這些Notebook後做執行和觀察,下面列舉其中幾篇:

今天我們將繼續使用從知乎上採集的“二舅”相關的話題作為我們實驗的資料來源,將採集結果資料匯入GooSeeker文字分詞軟體,經過選詞後生成共詞矩陣,以excel的形式匯出。有關怎樣在Gephi匯入不同形式的資料,請參考這篇文章《 Gephi社會網路分析資料的批量生成和匯入 》。

1 什麼是Gephi的統計

Gephi提供多種統計(Statistics)方法用於網路分析。

Gephi統計分為網路概述、社群發現、節點概述、邊概述、動態這5部分。由節點和邊組成的圖,主要的研究物件是節點和邊,包括圖中的節點有什麼特性、邊有什麼特性、節點能組成什麼特性、邊能組合出什麼特性,以及從整體上觀察,節點與邊的不同使圖有什麼不同。

常用的有下面這些統計:

  • 研究節點的度:度、加權度、PageRank、聚類係數、特徵向量中心度、模組化。
  • 研究邊的連線性:網路直徑、連線元件。
  • 研究圖的整體特性:平均度、平均加權度、圖密度、平均路徑長度。
  • 研究聚類特性:模組化。

2 Gephi統計(Statistics)的基本過程

2.1 統計操作介面

統計與外觀、佈局、過濾相比,在操作介面以及設定方面相對比較簡單。

統計中的統計專案分為網路概述、社群發現、節點概述、邊概述、動態5個部分,如上圖所示。

統計介面的左上角有一個“設定”按鈕,統計的設定與運算無關。單擊“設定”按鈕,可以選擇自己需要使用的統計方式。

2.2 統計的執行方式

每個統計的使用方式都是相同的,就是單擊統計方式右側的“執行”按鈕:

2.3 統計執行後帶來的變化

統計與外觀關係緊密相關,與過濾存在關係,與資料資料介面中的資料也存在關係。

我們下面做簡單網路圖的一個PageRank統計,看看統計的執行對資料,過濾,外觀有什麼影響。

PageRank是網路節點重要性計算的一種演算法,是搜尋引擎(如百度、Google)用來計算網頁排名的最核心的演算法。

先來看一下在未執行PageRank前,即先不做統計,資料資料介面、外觀介面、過濾介面是什麼樣的。

在資料資料介面中,此例項的節點資料,如下圖所示:

節點資料分為3列,即Id、Label、Interval。

再看外觀設定視窗節點的設定,可以看到只有3種渲染方式:度、連入度、連出度。

再看過濾介面,單擊“濾波”選項卡,切換到濾波介面。選擇“屬性→等於”過濾方式,因為目前沒有值,所以相應的過濾器也沒有出現:

我們來做PageRank統計:單擊“統計”選項卡,切換到統計介面。然後單擊“PageRank”右側的“執行”按鈕,彈出“網頁排名設定”對話方塊,點選“確定”後會彈出report框,點選關閉即可:

我們再去看看採用“PageRank”統計後的資料資料介面、外觀介面、濾波介面的情況。

此時檢查節點資料,發現節點資料增加了一列PageRank,如下圖所示。其中PageRank一列的值,可以簡單理地解為該節點的“重要性”。節點的PageR-ank值越大,代表該節點的重要性越高。該演算法應用在網頁排序中,某個網頁的PageRank值越高,則代表該頁面的重要性越高,相應該網頁在搜尋結果中應該排在前列。

此時檢查外觀介面中的數值設定,發現在“選擇一種渲染方式”下拉列表中增加了“PageRank”渲染方式,如下圖所示:

此時檢查過濾的“屬性→等於”過濾方式,發現增加了“PageRank”一項過濾屬性,如下圖所示:

通過上面的這個操作過程我們可以理解到,在對一個圖做統計運算後,程式會把生成的值儲存在資料資料裡,當資料資料裡有這些值後,就可以提供給“外觀”和“過濾”使用,用來對網路做更多的分析。

3 Gephi常用的統計功能介紹

這裡我們只對每個統計項做一個基本解釋,更詳細的內容請參考官網資料及相關的圖知識和演算法知識。

3.1 網路概述

平均度

平均度與加權平均度所統計的值,既有各個節點的,也有網路總體的。網路直徑所統計的值,既有各個節點的,也有網路總體的。

度是節點的屬性,但與邊有關係,沒有邊也就沒有度,一個節點的邊的數量也就是這個節點的度。

平均加權度

平均加權度是在統計節點度時,也考慮邊的權重,平均加權度與平均度的計算方式不同。

網路直徑

網路直徑是統計的邊的連線特性,統計網路直徑後,得出的值一個是網路整體的,另外幾個分別是介數中心度(Betweenness Centrality)、親密中心度(Closeness Centrality)、離心度(Eccentricity),還有新增的Harmonic Close-ness Centrality。

平均路徑長度

指在一個網路中,節點的數量除以所有兩個節點最短路徑之和,也可以理解為就是求平均每個最短路徑可以分配到幾個節點。

圖密度

圖密度是實際有的邊數與最大可能邊數之比。

模組化

模組化是根據圖的連線關係對節點做歸類,型別相同的節點會增加一個欄位,用相同的數字表示。模組化在社會學中可以用於社群發現。

PageRank

PageRank是一種根據網頁之間的連結關係對網頁的重要性進行評分的演算法。

3.2 節點概述

平均聚類係數

聚類係數是指一個節點一度連線的節點中,實際的邊數與最大邊數之比。

特徵向量中心度

特徵向量中心度(Eigenvector Centrality)的核心思想是:一個重要的節點不僅與其他許多節點有連線,而且與它相連的節點也是比較重要的節點。

可以把特徵向量中心度演算法理解成是(無向圖)節點度統計方式的“增強版”。

3.3 邊概述

平均路徑長度

在一個網路中,兩個節點之間,可能存在多條可連通的路徑,其中最短的路徑也稱作最短路徑,最短路徑的值是最短路徑中邊的個數。平均路徑指的是兩個節點之間的路徑。

4 使用共詞矩陣做Gephi統計實驗

4.1 匯入GooSeeker分詞軟體生成的共詞矩陣excel檔案

4.2 設定外觀

4.3 設定佈局

4.4 設定顯示中文節點名稱

注意:要能顯示出中文標籤名,需要選擇特定的幾種標籤字型。下圖選擇了“宋體”:

4.5 做PageRank統計

4.6 基於PageRank做過濾

做PageRank統計後,基於PageRank範圍做節點過濾

5 總結

以上就是今天學習和實驗的Gephi統計相關的內容,和上一篇過濾的學習類似,今天我們仍然使用了從知乎上採集到的實際的社交媒體資料,經分詞工具做分詞和選詞後生成共詞矩陣,在Gephi中匯入共詞矩陣。

從上面的實驗可以看出,增加了統計以後,社會網路圖上就可以顯示更豐富的內容;而最重要的是,多了更多過濾指標。通過過濾,可以看到重要的節點和邊的關係,這是社會網路分析的一項重要工作。

GooSeeker分詞和情感分析軟體 上,提供了按照共現次數多少進行過濾的功能,也就是根據邊的權重進行過濾。在此前釋出的Jupyter Notebook中,我們又增加了使用MST演算法化簡圖的方法,同時,可以利用Python Numpy的統計功能,用協方差、皮爾森相關係數、餘弦相似度等度量邊的權重,例如,下面的notebook:

Gephi大大擴充套件了可以利用的過濾手段。