初識機器學習：關聯規則_Pseudocode

這是我參與「掘金日新計劃 · 8 月更文挑戰」的第4天，點選檢視活動詳情

關聯規則，或者關聯規則學習（Association Rule Learning）是一種在大量資料點中發現隱蔽的關聯關係的方法。能夠利用一些有趣的量度來識別資料點集中發現的強規則。

關聯規則最常見的使用場景就是購物，不管是線上還是線下，上架都希望從顧客的購物記錄中，尋找不同商品之間並非顯而易見的關係，以此來推薦商品、優化商品陳列、推送廣告等。

如何量化關聯規則：支援度、置信度和提升度

我們以超市購物的訂單資料為例，如下是一組示例資料

| 交易 | 商品 | | --- | ----------- | | 交易1 | 🍎 🍺 🍚 🍗 | | 交易2 | 🍎 🍺 🍚 | | 交易3 | 🍎 🍺 | | 交易4 | 🍎 🍺 🍐 | | 交易5 | 🍼 🍺 🍚 🍗 | | 交易6 | 🍼 🍺 🍚 | | 交易7 | 🍼 🍺 | | 交易8 | 🍼 🍺 🍐 |

支援度

支援度某個項集出現的頻率，也就是包含這個項集的交易數佔總交易數的比例。在上面的例子中，🍎 的支援度，可以表示為：支援度{🍎}=4/8。

置信度

置信度是指當 X 項出現的時候，Y 項同時出現的概率，用 {X->Y} 表示，也就是同時包含 X 項和 Y 項的交易數佔包含 X 項的交易數的比例。

在上面的例子中，置信度{🍎->🍺} 的置信度是：置信度{🍎->🍺}=支援度{🍎,🍺}/支援度{🍎}。根據上面的交易資料可以得出，結果為3/4。

不過，置信度這個指標存在一個缺陷，當購買 🍎 的顧客大概率也會購買 🍺 的時候，並不一定代表兩者的關聯度比較高，也有可能，🍎 和 🍺 之間其實並沒有什麼關聯關係，只是，兩者都屬於非常暢銷的單品，因此才同時出現在了很多顧客的訂單中。

這種情況下，置信度其實給了我們錯誤的判斷，「提升度」這個指標可以幫我們規避這個問題。

提升度

提升度指的是，X 項和 Y 項同時出現的頻率，並且同時考慮了 X 項和 Y 項各自出現的頻率。它的計算方式是這樣：提升度{🍎->🍺}=支援度{🍎,🍺}/支援度{🍎}*支援度{🍺}，結合前面的兩個指標，不難看出，實際上，提升度{🍎->🍺}=置信度{🍎->🍺}/支援度{🍺}，結果是 1。結果是 1 則代表，兩者之間並無關聯，如果這個結果比 1 大，則代表兩者存在關聯，結果越大，提升度越高，則代表兩者關聯度越大，反之，如果這個結果小於 1，則代表兩者負相關的關係。

關聯規則的特點

在資料規模特別大的時候，偶爾會出現假關聯的情況，這個時候，為了確保關聯規則的普適性，需要對結果進行驗證。

關聯規則的一個更大的問題是，需要非常大的計算量來完成，即使只有 10 種商品，也需要對上千種組合進行計算（2^10-1=1023），而在真實的商場超市或者線上商城中的商品數量，能夠組成的組合數會是一個天文數字。關於這個問題如何解決，我會在下一篇中介紹。

參考：《白話機器學習演算法》