一文帶你瞭解深度學習的前置預備知識(上)
theme: smartblue
持續創作,加速成長!這是我參與「掘金日新計劃 · 10 月更文挑戰」的第1天,點選檢視活動詳情
本文主要介紹深度學習的前置預備知識,文章分為上、中、下三篇。此為上篇,我們簡單介紹下深度學習的起源以及所需的數學知識和常用符號表達。
介紹
深度學習(DL, Deep Learning)是機器學習(ML, Machine Learning)領域中一個新的研究方向,它被引入機器學習使其更接近於最初的目標——人工智慧(AI, Artificial Intelligence),目前已逐漸成為人工智慧領域的研究熱點和主流發展方向,各大高校都開設了這麼學科。
迄今為止深度學習經歷了三次發展浪潮: 1. 20世紀40年代到60年代,深度學習的雛形出現在控制論中; 2. 20世紀80年代到90年代,深度學習表現為聯結主義; 3. 直到2006年,才以深度學習之名為眾人所知。
深度學習中的數學知識
我們知道所有的機器學習方法都涉及到從資料中提取資訊,因此我們需要首先學習一些關於資料的實用技能,包括 儲存、操作和預處理資料。
機器學習通常需要處理大型資料集,我們可以將這些資料集視為表,其中表的行對應樣本,列對應屬性。那麼這部分知識就需要用到線性代數,它為我們提供了一些用來處理表格資料的方法以及矩陣運算的基本原理。
深度學習是關於優化的。我們有一個帶有引數的模型,想要找到其中能擬合數據的最好模型。在演算法的每個步驟中,決定以何種方式調整引數需要一點微積分的知識,當然我們也可以呼叫autograd
包來自動計算微分。
關於 資料的操作以及資料預處理知識 我會在 中篇一文帶你瞭解深度學習的前置預備知識(中) - 掘金 (juejin.cn) 進行講解;
關於 線性代數以及概率的相關知識 我會在 下篇一文帶你瞭解深度學習的前置預備知識(下) - 掘金 (juejin.cn) 進行講解。
常用符號
以下是我們在學習深度學習基礎以及後續論文復讀中常會遇到的一些數學符號,這部分知識我們要熟悉,明確知道每個符號的含義。
數字
- $x$:標量
- $\mathbf{x}$:向量
- $\mathbf{X}$:矩陣
- $\mathsf{X}$:張量
- $\mathbf{I}$:單位矩陣
- $x_i$, $[\mathbf{x}]_i$:向量$\mathbf{x}$ 第$i$個元素
- $x_{ij}$, $[\mathbf{X}]_{ij}$:矩陣$\mathbf{X}$ 第$i$行第$j$列的元素
集合論
- $\mathcal{X}$: 集合
- $\mathbb{Z}$: 整數集合
- $\mathbb{R}$ 實數集合
- $\mathbb{R}^n$: $n$維實數向量
- $\mathbb{R}^{a\times b}$: 包含$a$行和$b$列的實數矩陣
- $\mathcal{A}\cup\mathcal{B}$: 集合$\mathcal{A}$和$\mathcal{B}$的並集
- $\mathcal{A}\cap\mathcal{B}$:集合$\mathcal{A}$和$\mathcal{B}$的交集
- $\mathcal{A}\setminus\mathcal{B}$:集合$\mathcal{B}$與集合$\mathcal{A}$相減
函式和運算子
- $f(\cdot)$:函式
- $\log(\cdot)$:自然對數
- $\exp(\cdot)$: 指數函式
- $\mathbf{1}_\mathcal{X}$: 指示函式
- $\mathbf{(\cdot)}^\top$: 向量或矩陣的轉置
- $\mathbf{X}^{-1}$: 矩陣的逆
- $\odot$: 按元素相乘
- $[\cdot, \cdot]$:連結
- $\lvert \mathcal{X} \rvert$:集合的基數
- $\|\cdot\|_p$: :$L_p$ 正則
- $\|\cdot\|$: $L_2$ 正則
- $\langle \mathbf{x}, \mathbf{y} \rangle$:向量$\mathbf{x}$和$\mathbf{y}$的點積
- $\sum$: 連加
- $\prod$: 連乘
- $\stackrel{\mathrm{def}}{=}$:定義
微積分
- $\frac{dy}{dx}$:$y$關於$x$的導數
- $\frac{\partial y}{\partial x}$:$y$關於$x$的偏導數
- $\nabla_{\mathbf{x}} y$:$y$關於$\mathbf{x}$的梯度
- $\int_a^b f(x) \;dx$: $f$在$a$到$b$區間上關於$x$的定積分
- $\int f(x) \;dx$: $f$關於$x$的不定積分
概率與資訊理論
- $P(\cdot)$: 概率分佈
- $z \sim P$: 隨機變數$z$具有概率分佈$P$
- $P(X \mid Y)$: $X\mid Y$的條件概率
- $p(x)$: 概率密度函式
- ${E}_{x} [f(x)]$: 函式$f$對$x$的數學期望
- $X \perp Y$: 隨機變數$X$和$Y$是獨立的
- $X \perp Y \mid Z$: 隨機變數$X$和$Y$在給定隨機變數$Z$的條件下是獨立的
- $\mathrm{Var}(X)$: 隨機變數$X$的方差
- $\sigma_X$: 隨機變數$X$的標準差
- $\mathrm{Cov}(X, Y)$: 隨機變數$X$和$Y$的協方差
- $\rho(X, Y)$: 隨機變數$X$和$Y$的相關性
- $H(X)$: 隨機變數$X$的熵
- $D_{\mathrm{KL}}(P\|Q)$: $P$和$Q$的KL-散度
複雜度
- $\mathcal{O}$:大O標記
總結
本文涉及乾貨不多,主要講解下深度學習的由來,以及數學知識體系和符號表達,但符號表示這部分內容還是很重要的,希望大家可以熟悉並熟記每個符號代表的含義,不然讀論文時可是很難受的奧。
關注我,接下來為你奉上更全面更精彩的技術知識文章