Kaggle知识点:时序预测基础知识
时间序列
时间序列是按照时间排序的一组随机变量,通常是在相等间隔的时间段内,依照给定的采样率对某种潜在过程进行观测的结果。时间序列数据通常是一系列实值型数据,时间序列数据的研究方法主要包括分类、聚类和回归预测等方面。
时序预测任务
时间序列数据本质上反映的是某个或者某些随机变量随时间不断变化的趋势,而时间序列预测方法的核心就是从数据中挖掘出这种规律,并利用其对将来的数据做出估计。
现实生活中的时间序列数据预测问题有很多,包括语音分析、噪声消除以及股票市场的分析等,本质主要是根据前个时刻的观测数据推算出时刻的时间序列的值。
时序数据特征
基础特点
时间序列数据与其他类型的数据的最大区别在于当前时刻的数据值与之前时刻的数据值存在着联系,该特点表 明过去的数据已经暗示了现在或者将来数据发展变化的规律,这种规律主要包括了趋势性、周期性和不规则性。
-
趋势性:反映的是时间序列在一个较长时间内的发展方向,它可以在一个相当长的时间内表现为一种近似直线的持续向上或持续向下或平稳的趋势。
-
周期性:反映的是时间序列受各种周期因素影响所形成的一种长度和幅度固定的周期波动。
-
不规则性:反映的是时间序列受各种突发事件、偶然因素的影响所形成的非趋势性和非周期性的不规则变动。
平稳与非平稳
时间序列的平稳性表明了时间序列的均值和方差在不同时间上没有系统的变化,而非平稳性意味着均值和方差随着时间推移会发生变化。时间序列的平稳性保证了时间序列的本质特征不仅仅存在于当前时刻,还会延伸到未来。
传统时序预测模型
传统的时间序列模型包括:
-
移动平均模型(Moving Averaige, MA)
-
自回归模型(AutoRegressive, AR)
-
自回归移动平均模型(Auto Regressive Moving Average, ARMA)
传统的时间预测是在确定序列参数模型的基础上求解出模型参数,并利用求解出的模型完成预测工作。
”Box-Jenkins方法“策略包含3步:
-
确定适当的p,d,q值;
-
估计出模型中具体的参数值;
-
检验拟合模型的适当性;
d值可以通过对原始时间序列进行差分,然后检验差分后的时间序列的平稳性来确定d值的大小,p值和q值可通过偏自相关函数PACF和自相关函数ACF来确定。
传统的时间序列预测方法非常依赖参数模型的选择,能否正确选择参数模型在很大程度上决定了预测结果的准确率。
机器学习时序模型
经典的支持向量机SVM、贝叶斯网络BN、矩阵分解MF和高斯过程GP在时间序列预测方面均取得了不错的效果。
早期的人工神经网络ANN也被用来获取时间序列中长期的趋势。随着深度学习的崛起,其也可以被看作实现时间序列预测的有效工具。
比较典型的模型WaveNet可以对大范围历史数据和序列之间关系的进行建模,利用数据来训练新的深度学习网络结构以完成预测。
# 竞赛交流群 邀请函 #
△长按添加竞赛小助手
添加Coggle小助手微信 (ID : coggle666)
每天Kaggle算法竞赛、干货资讯汇总
与 22000+ 来自竞赛爱好者一起交流~