手把手教你用 Python 实现针对时间序列预测的特征选择
off999 2024-09-13 13:30 30 浏览 0 评论
雷锋网按:本文源自美国机器学习专家 Jason Brownlee 的博客,雷锋网编译。
要将机器学习算法应用于时间序列数据,需要特征工程的帮助。
例如,单变量的时间序列数据集由一系列观察结果组成,它们必须被转换成输入和输出特征,才能用于监督性学习算法。
但这里有一个问题:针对每个时间序列问题,你可以处理的特征类型和数量,却并没有明确的限制。当然,古典的时间序列分析工具(如相关图correlogram)可以帮助评估滞后变量(lag variables),但并不能直接帮助开发者对其他类型的特征进行选择,例如从时间戳(年、月、日)和移动统计信息(如移动平均线moving average)衍生的特征。
因此,我们将在本教程中探讨如何利用基于特征重要性和特征选择的机器学习工具处理时间序列问题。
通过本教程的学习,你将了解:
● 如何创建和解释滞后观察的相关图。
● 如何计算和解释时间序列特征的重要性得分。
● 如何对时间序列输入变量进行特征选择。
本教程共分为如下六个部分:
1. 载入每月汽车销量数据集:即载入我们将要使用的数据集。
2. 平稳化:讲述如何使数据集平稳化,以便于后续的分析和预测。
3. 自相关图:讲述如何创建时间序列数据的相关图。
4. 时间序列到监督学习:将时间单变量的时间序列转化为监督性学习问题。
5. 滞后变量的特征重要性:讲述如何计算和查看时间序列数据的特征重要性得分。
6. 滞后变量的特征选择:讲述如何计算和查看时间序列数据的特征选择结果。
1. 载入数据
在本教程中,我们将基于魁北克在 1960 到 1968 年的月度汽车销量数据进行讲解。
原始数据可以在如下链接下载:
https://datamarket.com/data/set/22n4/monthly-car-sales-in-quebec-1960-1968
本例中,我们将下载后的数据集保存为 car-sales.csv 文件,同时删去了文件中的脚注信息。
基于 Pandas 库加载该数据集的代码如下,我们将数据保存为一个 Series 对象:
# line plot of time series
from pandas import Series
from matplotlib import pyplot
# load dataset
series = Series.from_csv('car-sales.csv', header=0)
# display first few rows
print(series.head(5))
# line plot of dataset
series.plot
pyplot.show
运行以上实例后的打印情况如下(这里只列出了 5 行):
Month
1960-01-01 6550
1960-02-01 8728
1960-03-01 12026
1960-04-01 14395
1960-05-01 14587
Name: Sales, dtype: int64
完整数据的曲线图如下所示:
2. 平稳化
从上图我们可以看到汽车销量数据明显的季节性和日益增长的变化趋势。
这种季节性的变化和增长趋势虽然可以作为序列预测的关键特征,但如果需要探索其他的有助于我们做出序列预测的系统信号,就必须将它们移除。
通常,我们将除去了季节性变化和增长趋势的时间序列称为平稳化序列。
为了消除这种季节性变化,通常采取季节差分的办法,即生成所谓的季节性适配时间序列(seasonally adjusted time series)。
本例中季节性变化的变化周期似乎是一年(12个月)。下面的代码展示了如何计算季节性适配时间序列,并将结果保存到文件 seasonally-adjusted.csv。
# seasonally adjust the time series
from pandas import Series
from matplotlib import pyplot
# load dataset
series = Series.from_csv('car-sales.csv', header=0)
# seasonal difference
differenced = series.diff(12)
# trim off the first year of empty data
differenced = differenced[12:]
# save differenced dataset to file
differenced.to_csv('seasonally_adjusted.csv')
# plot differenced dataset
differenced.plot
pyplot.show
代码中,由于最初的 12 个月没有更早的数据用以差分计算,因此被丢弃。最终得到的季节差分结果如下图所示:
从图中可以看出,我们通过差分运算成功消除了季节性变化和增长趋势信息。
3. 自相关图
通畅情况下,我们根据与输出变量的相关性来选择时间序列的特征。
这被称为自相关(autocorrelation),并包括如何绘制自相关图,也称为相关图。 自相关图展示了每个滞后观察结果的相关性,以及这些相关性是否具有统计学的显着性。
例如,下面的代码绘制了月汽车销量数据集中所有滞后变量的相关图。
from pandas import Series
from statsmodels.graphics.tsaplots import plot_acf
from matplotlib import pyplot
series = Series.from_csv('seasonally_adjusted.csv', header=None)
plot_acf(series)
pyplot.show
运行后可以得到一张相关图,或自相关函数(ACF)图,如下所示。
图中 x 轴表示滞后值,y 轴上 -1 和 1 之间则表现了这些滞后值的正负相关性。
蓝色区域中的点表示统计学显着性。滞后值为 0 相关性为 1 的点表示观察值与其本身 100% 正相关。
可以看到,图中在 1,2,12 和 17 个月显示出了显著的滞后性。
这个分析为后续的比较过程提供了一个很好的基准。
4. 时间序列到监督学习
通过将滞后观察(例如t-1)作为输入变量,将当前观察(t)作为输出变量,可以将单变量的月度汽车销量数据集转换为监督学习问题。
为了实现这一转换,在下面的代码中我们调用了 Pandas 库中的 shift 函数,通过 shift 函数我们可以为转换后的观察值创建新的队列。
在以下示例中,我们创建了一个包含 12 个月滞后值的新时间序列,以预测当前的观察结果。
代码中 12 个月的迁移表示前 12 行的数据不可用,因为它们包含 NaN 值。
from pandas import Series
from pandas import DataFrame
# load dataset
series = Series.from_csv('seasonally_adjusted.csv', header=None)
# reframe as supervised learning
dataframe = DataFrame
for i in range(12,0,-1):
dataframe['t-'+str(i)] = series.shift(i)
dataframe['t'] = series.values
print(dataframe.head(13))
dataframe = dataframe[13:]
# save to new file
dataframe.to_csv('lags_12months_features.csv', index=False)
打印输出如下所示,其中前 12 行的数据不可用。
我们将前 12 行的数据删除,然后将结果保存在 lags_12months_features.csv 文件中。
实际上,这个过程可以在任意的时间步长下重复进行,例如 6 或 24 个月,感兴趣的朋友可以自行尝试。
5. 滞后变量的特征重要性
各种决策树,例如 bagged 树和随机森林等,都可以用来计算特征值的重要性得分。
这是一种机器学习中的常见用法,以便在开发预测模型时有效评估输入特征的相对有效性。
这里,我们通过正要性得分,来帮助评估时间序列预测输入特征的相对重要性。
这一点之所以重要,不仅是因为我们可以设计上述提到的滞后观察特征,还可以设计基于观测时间戳、滚动统计等其他类型的特征。因此,特征重要性是整理和选择特征时非常有效的一种方法。
在下面的实例中,我们加载了上一节中创建的数据集的监督性学习视图,然后利用随机森林模型(代码中为RandomForestRegressor),总结了 12 个滞后观察中每一个的相对特征重要性得分。
这里使用了大数量的树来保证得分的稳定性。此外,我们还用到了随机种子初始化(the random number seed is initialized),用以保证每次运行代码时都能获得相同的结果。
from pandas import read_csv
from sklearn.ensemble import RandomForestRegressor
from matplotlib import pyplot
# load data
dataframe = read_csv('lags_12months_features.csv', header=0)
array = dataframe.values
# split into input and output
X = array[:,0:-1]
y = array[:,-1]
# fit random forest model
model = RandomForestRegressor(n_estimators=500, random_state=1)
model.fit(X, y)
# show importance scores
print(model.feature_importances_)
# plot importance scores
names = dataframe.columns.values[0:-1]
ticks = [i for i in range(len(names))]
pyplot.bar(ticks, model.feature_importances_)
pyplot.xticks(ticks, names)
pyplot.show
运行示例后,首先打印了滞后观察值的重要性得分,如下所示。
[ 0.21642244 0.06271259 0.05662302 0.05543768 0.07155573 0.08478599
0.07699371 0.05366735 0.1033234 0.04897883 0.1066669 0.06283236]
然后将得分绘制为条形图,如图所示。
图中显示 t-12 观测值的相对重要性最高,其次就是 t-2 和 t-4。
感兴趣的朋友可以仔细研究这个结果与上述自相关图的差异。
实际上,这里还可以用 gradient boosting,extra trees,bagged decision trees 等代替随机森林模型,同样可以计算特征的重要性得分。
6. 滞后变量的特征选择
我们还可以通过特征选择来自动识别并选择出最具预测性的输入特征。
目前,特征选择最流行方法是递归特征选择(Recursive Feature Selection,RFE)。
RFE 可以创建预测模型,对特征值赋予不同的权值,并删掉那些权重最小的特征,通过不断重复这一流程,最终就能得到预期数量的特征。
以下示例中我们演示了如何通过RFE与随机森林模型进行特征选择,注意其中输入特征的预期数量设置的是 4。
from pandas import read_csv
from sklearn.feature_selection import RFE
from sklearn.ensemble import RandomForestRegressor
from matplotlib import pyplot
# load dataset
dataframe = read_csv('lags_12months_features.csv', header=0)
# separate into input and output variables
array = dataframe.values
X = array[:,0:-1]
y = array[:,-1]
# perform feature selection
rfe = RFE(RandomForestRegressor(n_estimators=500, random_state=1), 4)
fit = rfe.fit(X, y)
# report selected features
print('Selected Features:')
names = dataframe.columns.values[0:-1]
for i in range(len(fit.support_)):
if fit.support_[i]:
print(names[i])
# plot feature rank
names = dataframe.columns.values[0:-1]
ticks = [i for i in range(len(names))]
pyplot.bar(ticks, fit.ranking_)
pyplot.xticks(ticks, names)
pyplot.show
运行以上示例后,可以得到如下 4 个待选特征。
Selected Features:
t-12
t-6
t-4
t-2
可见,这一结果与上一节由重要性得分得到的结果相一致。
同时,程序还会创建一个如下所示的条形图,图中显示了每个待选输入特征的选择排序(数字越小越好)。
同样,感兴趣的朋友还可以设置不同的预期特征数量,或者换用随机森林之外的其他模型。
总结
在本教程中,我们通过实例代码讲解了如何通过机器学习的工具对时间序列数据进行特征选择。
具体来说,我们介绍了如下三点:
● 如何解释具有高度相关性的滞后观测的相关图。
● 如何计算和查看时间序列数据中的特征重要性得分。
● 如何使用特征选择来确定时间序列数据中最相关的输入变量。
来源:machinelearningmastery,雷锋网编译
相关推荐
- python gui编程框架推荐以及介绍(python gui开发)
-
Python的GUI编程框架有很多,这里为您推荐几个常用且功能强大的框架:Tkinter:Tkinter是Python的标准GUI库,它是Python内置的模块,无需额外安装。它使用简单,功能较为基础...
- python自动化框架学习-pyautogui(python接口自动化框架)
-
一、适用平台:PC(windows和mac均可用)二、下载安装:推荐使用命令行下载(因为会自动安装依赖库):pipinstallPyAutoGUI1该框架的依赖库还是蛮多的,第一次用的同学耐心等...
- Python 失宠!Hugging Face 用 Rust 新写了一个 ML框架,现已低调开源
-
大数据文摘受权转载自AI前线整理|褚杏娟近期,HuggingFace低调开源了一个重磅ML框架:Candle。Candle一改机器学习惯用Python的做法,而是Rust编写,重...
- Flask轻量级框架 web开发原来可以这么可爱呀~(建议收藏)
-
Flask轻量级框架web开发原来可以这么可爱呀大家好呀~今天让我们一起来学习一个超级可爱又实用的PythonWeb框架——Flask!作为一个轻量级的Web框架,Flask就像是一个小巧精致的工...
- Python3使用diagrams生成架构图(python架构设计)
-
目录技术背景diagrams的安装基础逻辑关系图组件簇的定义总结概要参考链接技术背景对于一个架构师或者任何一个软件工程师而言,绘制架构图都是一个比较值得学习的技能。这就像我们学习的时候整理的一些Xmi...
- 几个高性能Python网络框架,高效实现网络应用
-
Python作为一种广泛使用的编程语言,其简洁易读的语法和强大的生态系统,使得它在Web开发领域占据重要位置。高性能的网络框架是构建高效网络应用的关键因素之一。本文将介绍几个高性能的Python网络框...
- Web开发人员的十佳Python框架(python最好的web框架)
-
Python是一种面向对象、解释型计算机程序设计语言。除了语言本身的设计目的之外,Python的标准库也是值得大家称赞的,同时Python还自带服务器。其它方面,Python拥有足够多的免费数据函数库...
- Diagram as Code:用python代码生成架构图
-
工作中常需要画系统架构图,通常的方法是通过visio、processon、draw.io之类的软件,但是今天介绍的这个软件Diagrams,可以通过写Python代码完成架构图绘制,确实很co...
- 分享一个2022年火遍全网的Python框架
-
作者:俊欣来源:关于数据分析与可视化最近Python圈子当中出来一个非常火爆的框架PyScript,该框架可以在浏览器中运行Python程序,只需要在HTML程序中添加一些Python代码即可实现。该...
- 10个用于Web开发的最好 Python 框架
-
Python是一门动态、面向对象语言。其最初就是作为一门面向对象语言设计的,并且在后期又加入了一些更高级的特性。除了语言本身的设计目的之外,Python标准库也是值得大家称赞的,Python甚至还...
- 使用 Python 将 Google 表格变成您自己的数据库
-
图片来自Shutterstock,获得FrankAndrade的许可您知道Google表格可以用作轻量级数据库吗?GoogleSheets是一个基于云的电子表格应用程序,可以像大多数数据库管...
- 牛掰!用Python处理Excel的14个常用操作总结!
-
自从学了Python后就逼迫用Python来处理Excel,所有操作用Python实现。目的是巩固Python,与增强数据处理能力。这也是我写这篇文章的初衷。废话不说了,直接进入正题。数据是网上找到的...
- 将python打包成exe的方式(将python文件打包成exe可运行文件)
-
客户端应用程序往往需要运行Python脚本,这对于那些不熟悉Python语言的用户来说可能会带来一定的困扰。幸运的是,Python拥有一些第三方模块,可以将这些脚本转换成可执行的.exe...
- 对比Excel学Python第1练:既有Excel,何用Python?
-
背景之前发的文章开头都是“Python数据分析……”,使得很多伙伴以为我是专门分享Python的,但我的本意并非如此,我的重点还是会放到“数据分析”上,毕竟,Python只是一种工具而已。现在网上可以...
- 高效办公:Python处理excel文件,摆脱无效办公
-
一、Python处理excel文件1.两个头文件importxlrdimportxlwt其中xlrd模块实现对excel文件内容读取,xlwt模块实现对excel文件的写入。2.读取exce...
你 发表评论:
欢迎- 一周热门
-
-
python 3.8调用dll - Could not find module 错误的解决方法
-
加密Python源码方案 PyArmor(python项目源码加密)
-
Python3.8如何安装Numpy(python3.6安装numpy)
-
大学生机械制图搜题软件?7个受欢迎的搜题分享了
-
编写一个自动生成双色球号码的 Python 小脚本
-
免费男女身高在线计算器,身高计算公式
-
将python文件打包成exe程序,复制到每台电脑都可以运行
-
Python学习入门教程,字符串函数扩充详解
-
Python数据分析实战-使用replace方法模糊匹配替换某列的值
-
Python进度条显示方案(python2 进度条)
-
- 最近发表
-
- python gui编程框架推荐以及介绍(python gui开发)
- python自动化框架学习-pyautogui(python接口自动化框架)
- Python 失宠!Hugging Face 用 Rust 新写了一个 ML框架,现已低调开源
- Flask轻量级框架 web开发原来可以这么可爱呀~(建议收藏)
- Python3使用diagrams生成架构图(python架构设计)
- 几个高性能Python网络框架,高效实现网络应用
- Web开发人员的十佳Python框架(python最好的web框架)
- Diagram as Code:用python代码生成架构图
- 分享一个2022年火遍全网的Python框架
- 10个用于Web开发的最好 Python 框架
- 标签列表
-
- python计时 (54)
- python安装路径 (54)
- python类型转换 (75)
- python进度条 (54)
- python的for循环 (56)
- python串口编程 (60)
- python写入txt (51)
- python读取文件夹下所有文件 (59)
- java调用python脚本 (56)
- python操作mysql数据库 (66)
- python字典增加键值对 (53)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python qt (52)
- python人脸识别 (54)
- python斐波那契数列 (51)
- python多态 (60)
- python命令行参数 (53)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- centos7安装python (53)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)