機器學習之K均值聚類演算法

語言: CN / TW / HK

本文已參與「新人創作禮」活動,一起開啟掘金創作之路

K均值聚類演算法介紹

我們來介紹K均值聚類演算法,首先讀者要知道,聚類是一類無監督的學習,它將相似的物件歸到同一個簇中。簇內的資料越相似,則聚類效果越好。無監督學習是指沒有事先標記好訓練集的型別。聚類和分類都是對記錄進行分組;但分類則有預先定義的類別。 在這裡插入圖片描述 K均值聚類演算法其實很簡單,就如上圖所述,我們緊接著就引出K均值聚類的演算法。 在這裡插入圖片描述 K均值聚類演算法的優點就是演算法簡單,讀者在上面也看到了;而它的缺點是:可能收斂到區域性最小值,在大規模資料集上收斂較慢。K均值聚類適應的資料型別是,數值型資料。直觀上看,K均值聚類演算法的結果就是這樣的: 在這裡插入圖片描述

K均值聚類演算法的實現

在普遍的演算法實現中,我們都可以按照以下流程了進行: K-均值聚類的一般流程

(1) 收集資料:使用任意方法。 
(2) 準備資料:需要數值型資料來計算距離,也可以將標稱型資料對映為二值型資料再用
於距離計算。 
(3) 分析資料:使用任意方法。 
(4) 訓練演算法:不適用於無監督學習,即無監督學習沒有訓練過程。 
(5) 測試演算法:應用聚類演算法、觀察結果。可以使用量化的誤差指標如誤差平方和(後面
 會介紹)來評價演算法的結果。 
(6) 使用演算法:可以用於所希望的任何應用。通常情況下,簇質心可以代表整個簇的資料
來做出決策。

==匯入資料==

python def loadDataSet(fileName): #general function to parse tab -delimited floats dataMat = [] #assume last column is target value fr = open(fileName) for line in fr.readlines(): curLine = line.strip().split('\t') fltLine = list(map(float,curLine)) #map all elements to float() dataMat.append(fltLine) return dataMat

==計算歐式距離==

python def distEclud(vecA, vecB): return sqrt(sum(power(vecA - vecB, 2))) #la.norm(vecA-vecB)

==產生隨機質心==

python def randCent(dataSet, k): n = shape(dataSet)[1] centroids = mat(zeros((k,n)))#create centroid mat for j in range(n):#create random cluster centers, within bounds of each dimension minJ = min(dataSet[:,j]) rangeJ = float(max(dataSet[:,j]) - minJ) centroids[:,j] = mat(minJ + rangeJ * random.rand(k,1)) return centroids

==K均值聚類演算法==

python def kMeans(dataSet, k, distMeas=distEclud, createCent=randCent): m = shape(dataSet)[0] clusterAssment = mat(zeros((m,2)))#create mat to assign data points #to a centroid, also holds SE of each point centroids = createCent(dataSet, k) clusterChanged = True while clusterChanged: clusterChanged = False for i in range(m):#for each data point assign it to the closest centroid minDist = inf; minIndex = -1 for j in range(k): distJI = distMeas(centroids[j,:],dataSet[i,:]) if distJI < minDist: minDist = distJI; minIndex = j if clusterAssment[i,0] != minIndex: clusterChanged = True clusterAssment[i,:] = minIndex,minDist**2 print(centroids) for cent in range(k):#recalculate centroids ptsInClust = dataSet[nonzero(clusterAssment[:,0].A==cent)[0]]#get all the point in this cluster centroids[cent,:] = mean(ptsInClust, axis=0) #assign centroid to mean return centroids, clusterAssment 但是K均值聚類演算法是有缺陷的 在這裡插入圖片描述 為了克服這一缺陷,我們引入2分-K均值聚類演算法。首先,我們說明數理統計中的一個概念SSE 在這裡插入圖片描述 在這裡插入圖片描述

2分-K均值聚類演算法

接下來,我們正式進行引入。 思路:將所有的點作成一個簇,然後選擇可以使得SSE最大程度降低的簇一分為二,不斷迴圈到滿足數目為止。 二分K-均值演算法的虛擬碼形式如下: 在這裡插入圖片描述

2分-K均值聚類演算法的實現

==二分K-均值聚類演算法==

```python def biKmeans(dataSet, k, distMeas=distEclud): m = shape(dataSet)[0] clusterAssment = mat(zeros((m,2))) centroid0 = mean(dataSet, axis=0).tolist()[0] centList =[centroid0] #create a list with one centroid for j in range(m):#calc initial Error clusterAssment[j,1] = distMeas(mat(centroid0), dataSet[j,:])**2 while (len(centList) < k): lowestSSE = inf for i in range(len(centList)): ptsInCurrCluster = dataSet[nonzero(clusterAssment[:,0].A==i)[0],:]#get the data points currently in cluster i centroidMat, splitClustAss = kMeans(ptsInCurrCluster, 2, distMeas) sseSplit = sum(splitClustAss[:,1])#compare the SSE to the currrent minimum sseNotSplit = sum(clusterAssment[nonzero(clusterAssment[:,0].A!=i)[0],1]) print("sseSplit, and notSplit: ",sseSplit,sseNotSplit) if (sseSplit + sseNotSplit) < lowestSSE: bestCentToSplit = i bestNewCents = centroidMat bestClustAss = splitClustAss.copy() lowestSSE = sseSplit + sseNotSplit bestClustAss[nonzero(bestClustAss[:,0].A == 1)[0],0] = len(centList) #change 1 to 3,4, or whatever bestClustAss[nonzero(bestClustAss[:,0].A == 0)[0],0] = bestCentToSplit print('the bestCentToSplit is: ',bestCentToSplit) print('the len of bestClustAss is: ', len(bestClustAss)) centList[bestCentToSplit] = bestNewCents[0,:].tolist()[0]#replace a centroid with two best centroids centList.append(bestNewCents[1,:].tolist()[0]) clusterAssment[nonzero(clusterAssment[:,0].A == bestCentToSplit)[0],:]= bestClustAss#reassign new clusters, and SSE return mat(centList), clusterAssment

```