一文带你了解深度学习的前置预备知识(上)
theme: smartblue
持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第1天,点击查看活动详情
本文主要介绍深度学习的前置预备知识,文章分为上、中、下三篇。此为上篇,我们简单介绍下深度学习的起源以及所需的数学知识和常用符号表达。
介绍
深度学习(DL, Deep Learning)是机器学习(ML, Machine Learning)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(AI, Artificial Intelligence),目前已逐渐成为人工智能领域的研究热点和主流发展方向,各大高校都开设了这么学科。
迄今为止深度学习经历了三次发展浪潮: 1. 20世纪40年代到60年代,深度学习的雏形出现在控制论中; 2. 20世纪80年代到90年代,深度学习表现为联结主义; 3. 直到2006年,才以深度学习之名为众人所知。
深度学习中的数学知识
我们知道所有的机器学习方法都涉及到从数据中提取信息,因此我们需要首先学习一些关于数据的实用技能,包括 存储、操作和预处理数据。
机器学习通常需要处理大型数据集,我们可以将这些数据集视为表,其中表的行对应样本,列对应属性。那么这部分知识就需要用到线性代数,它为我们提供了一些用来处理表格数据的方法以及矩阵运算的基本原理。
深度学习是关于优化的。我们有一个带有参数的模型,想要找到其中能拟合数据的最好模型。在算法的每个步骤中,决定以何种方式调整参数需要一点微积分的知识,当然我们也可以调用autograd
包来自动计算微分。
关于 数据的操作以及数据预处理知识 我会在 中篇一文带你了解深度学习的前置预备知识(中) - 掘金 (juejin.cn) 进行讲解;
关于 线性代数以及概率的相关知识 我会在 下篇一文带你了解深度学习的前置预备知识(下) - 掘金 (juejin.cn) 进行讲解。
常用符号
以下是我们在学习深度学习基础以及后续论文复读中常会遇到的一些数学符号,这部分知识我们要熟悉,明确知道每个符号的含义。
数字
- $x$:标量
- $\mathbf{x}$:向量
- $\mathbf{X}$:矩阵
- $\mathsf{X}$:张量
- $\mathbf{I}$:单位矩阵
- $x_i$, $[\mathbf{x}]_i$:向量$\mathbf{x}$ 第$i$个元素
- $x_{ij}$, $[\mathbf{X}]_{ij}$:矩阵$\mathbf{X}$ 第$i$行第$j$列的元素
集合论
- $\mathcal{X}$: 集合
- $\mathbb{Z}$: 整数集合
- $\mathbb{R}$ 实数集合
- $\mathbb{R}^n$: $n$维实数向量
- $\mathbb{R}^{a\times b}$: 包含$a$行和$b$列的实数矩阵
- $\mathcal{A}\cup\mathcal{B}$: 集合$\mathcal{A}$和$\mathcal{B}$的并集
- $\mathcal{A}\cap\mathcal{B}$:集合$\mathcal{A}$和$\mathcal{B}$的交集
- $\mathcal{A}\setminus\mathcal{B}$:集合$\mathcal{B}$与集合$\mathcal{A}$相减
函数和运算符
- $f(\cdot)$:函数
- $\log(\cdot)$:自然对数
- $\exp(\cdot)$: 指数函数
- $\mathbf{1}_\mathcal{X}$: 指示函数
- $\mathbf{(\cdot)}^\top$: 向量或矩阵的转置
- $\mathbf{X}^{-1}$: 矩阵的逆
- $\odot$: 按元素相乘
- $[\cdot, \cdot]$:连结
- $\lvert \mathcal{X} \rvert$:集合的基数
- $\|\cdot\|_p$: :$L_p$ 正则
- $\|\cdot\|$: $L_2$ 正则
- $\langle \mathbf{x}, \mathbf{y} \rangle$:向量$\mathbf{x}$和$\mathbf{y}$的点积
- $\sum$: 连加
- $\prod$: 连乘
- $\stackrel{\mathrm{def}}{=}$:定义
微积分
- $\frac{dy}{dx}$:$y$关于$x$的导数
- $\frac{\partial y}{\partial x}$:$y$关于$x$的偏导数
- $\nabla_{\mathbf{x}} y$:$y$关于$\mathbf{x}$的梯度
- $\int_a^b f(x) \;dx$: $f$在$a$到$b$区间上关于$x$的定积分
- $\int f(x) \;dx$: $f$关于$x$的不定积分
概率与信息论
- $P(\cdot)$: 概率分布
- $z \sim P$: 随机变量$z$具有概率分布$P$
- $P(X \mid Y)$: $X\mid Y$的条件概率
- $p(x)$: 概率密度函数
- ${E}_{x} [f(x)]$: 函数$f$对$x$的数学期望
- $X \perp Y$: 随机变量$X$和$Y$是独立的
- $X \perp Y \mid Z$: 随机变量$X$和$Y$在给定随机变量$Z$的条件下是独立的
- $\mathrm{Var}(X)$: 随机变量$X$的方差
- $\sigma_X$: 随机变量$X$的标准差
- $\mathrm{Cov}(X, Y)$: 随机变量$X$和$Y$的协方差
- $\rho(X, Y)$: 随机变量$X$和$Y$的相关性
- $H(X)$: 随机变量$X$的熵
- $D_{\mathrm{KL}}(P\|Q)$: $P$和$Q$的KL-散度
复杂度
- $\mathcal{O}$:大O标记
总结
本文涉及干货不多,主要讲解下深度学习的由来,以及数学知识体系和符号表达,但符号表示这部分内容还是很重要的,希望大家可以熟悉并熟记每个符号代表的含义,不然读论文时可是很难受的奥。
关注我,接下来为你奉上更全面更精彩的技术知识文章