【人工智慧】機器學習西瓜書11——經驗誤差與過擬合,模型評估的方法,均方誤差,錯誤率與精度,最優閾值

語言: CN / TW / HK

機器學習——西瓜書從頭讀到尾11

我們按訓練集預演算法的關係進行劃分。

一種訓練集一種演算法

經驗誤差與過擬合

在這裡插入圖片描述

  • 誤差: 學習器的實際預測輸出與樣本的真實輸出之間的差異;比如一組資料 1,2,4,5.使用閾值3,將其分為兩類。假設學習器的分類結果為 1和 2,4, 5 。但是實際的結果為1,2,和4,5,分錯的2就是誤差。
  • 經驗誤差訓練集的誤差,也叫訓練誤差。相對於經驗誤差的,還有大家經常遇到的泛化誤差,泛化誤差是在新樣本(測試集)的誤差。
  • 過擬合:當學習器把訓練樣本學的“太好”了的時候,很可能已經把訓練樣本特點當作了潛在樣本都會具有的一般性質,這會導致泛化效能下降。與過擬合相對的是“欠擬合”,這是指對訓練樣本的一般性質尚未學好

模型評估的方法

在這裡插入圖片描述

訓練集

測試集保留方法

  • 留出法:三七或二八,但注意訓練集測試集同分布,或多次隨機劃分訓練多個模型取平均值
  • k折交叉驗證法:將訓練集隨機等分為k份,取其中一份為驗證集評估模型,其餘k-1份為訓練集訓練模型,重複該步驟k次,每次都取一份不同的子集為驗證集,最終得到k個不同的模型(不是對一個模型迭代k次)和k個評分,綜合這k個模型的表現(平均得分或其他)評估模型在當前問題中的優劣。\ 在這裡插入圖片描述
  • 自助法:原資料集 D D D是一個包含m個樣本的資料集,通過自助法有放回的重複抽樣m次,每次抽取1個數據,放到 D ′ D' D′中, D ′ D' D′中也有 m m m個樣本,同時,原來的資料集D中不被D’包含的資料作為驗證集。到底會有多少資料作為驗證集呢?周老師給出了原資料集 D D D一次也未被抽中的資料的概率為:\ lim ⁡ m → ∞ ( 1 − 1 m ) m → 1 e ≈ 0.368 \lim\limits_{m \to \infty}(1-\frac{1}{m})^m \to \frac{1}{e}\approx0.368 m→∞lim​(1−m1​)m→e1​≈0.368理論狀態下,驗證集為 0.368 ∗ m 0.368*m 0.368∗m條資料\ 適用:資料集較小難以劃分時。缺點:改變初始分佈,引入估計誤差。

驗證集

調參用,調參難度大,很多引數人為規定,為了調參,常加一個數據集進行驗證,訓練及訓練,驗證集看結果,調參,再訓練…

效能測量

均方誤差

在預測任務中,給定樣例集 D = ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) D={(x_1,y_1),(x_2,y_2),...,(x_m,y_m)} D=(x1​,y1​),(x2​,y2​),...,(xm​,ym​)中是示例 x i x_i xi​的真實標記,要評估學習器 f f f的效能,就要把學習器預測結果 f ( x ) f(x) f(x)與真實標記 y y y進行比較

{ 均 方 誤 差 : E ( f : D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 對 於 數 據 分 布 D 和 概 率 密 度 函 數 p ( ⋅ ) : E ( f : D ) = ∫ x ∼ D ( f ( x i ) − y i ) 2 p ( x ) d x \left\{ \begin{aligned} & 均方誤差:E(f:D)=\frac{1}{m}\sum\limits_{i=1}^m(f(x_i)-y_i)^2\\ &對於資料分佈D和概率密度函式p(\cdot ):E(f:D)=\int_{x\sim D}(f(x_i)-y_i)^2p(x)dx \end{aligned} \right. ⎩⎪⎪⎪⎨⎪⎪⎪⎧​​均方誤差:E(f:D)=m1​i=1∑m​(f(xi​)−yi​)2對於資料分佈D和概率密度函式p(⋅):E(f:D)=∫x∼D​(f(xi​)−yi​)2p(x)dx​

錯誤率與精度

在這裡插入圖片描述

查準率查全率

在這裡插入圖片描述\ 查準率: P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP​\ 你認為的好瓜裡面真的是好瓜的比例。\ 查全率: R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP​\ 我預測的裡面好瓜佔真正好瓜的比例\ 以查準率為縱軸、查全率為橫軸作圖 ,就得到\ 了查準率-查全率曲線,簡稱 “P-R曲線”在這裡插入圖片描述\ 若一個學習器的 P-R 曲線被另一個學習器的曲線完全"包住 " , 則可斷言後者的效能優於前者。但往往學習器的 P-R 曲線發生了交叉難以斷言兩者孰優孰劣?在很多情形下,人們往往仍希望把學習器 A 與 B 比出個高低 . 這時一個比較合理的判據是比較 P-R 曲線節面積的大小,它在一定程度上表徵了學習器在查準率和查全率上取得相對"雙高"的比例.但這個值不太容易估算,因此人們設計了一些綜合考慮查準率 、 查全率的效能度量

最優閾值

一個二分類(一張PR)

在這裡插入圖片描述

Fbeta加權的調和平均:對查準率和查全率的重視程度有所不同, β \beta β = 1,退化為標準的 F1; β \beta β> 1 時查全率有更大影響 ; β \beta β< 1 時查準率有更大影響。

n個二分類實現的多分類

在這裡插入圖片描述\ 這裡我們詳細說一下如何分解n個二分類實現多分類,主要有先計算再求和,先求和再計算兩方面:\ 在這裡插入圖片描述