手把手教你用 Python 实现针对时间序列预测的特征选择

off999 2024-09-13 13:30 98 浏览 0 评论

雷锋网按：本文源自美国机器学习专家 Jason Brownlee 的博客，雷锋网编译。

要将机器学习算法应用于时间序列数据，需要特征工程的帮助。

例如，单变量的时间序列数据集由一系列观察结果组成，它们必须被转换成输入和输出特征，才能用于监督性学习算法。

但这里有一个问题：针对每个时间序列问题，你可以处理的特征类型和数量，却并没有明确的限制。当然，古典的时间序列分析工具（如相关图correlogram）可以帮助评估滞后变量（lag variables），但并不能直接帮助开发者对其他类型的特征进行选择，例如从时间戳（年、月、日）和移动统计信息（如移动平均线moving average）衍生的特征。

因此，我们将在本教程中探讨如何利用基于特征重要性和特征选择的机器学习工具处理时间序列问题。

通过本教程的学习，你将了解：

● 如何创建和解释滞后观察的相关图。
● 如何计算和解释时间序列特征的重要性得分。
● 如何对时间序列输入变量进行特征选择。

本教程共分为如下六个部分：

1. 载入每月汽车销量数据集：即载入我们将要使用的数据集。
2. 平稳化：讲述如何使数据集平稳化，以便于后续的分析和预测。
3. 自相关图：讲述如何创建时间序列数据的相关图。
4. 时间序列到监督学习：将时间单变量的时间序列转化为监督性学习问题。
5. 滞后变量的特征重要性：讲述如何计算和查看时间序列数据的特征重要性得分。
6. 滞后变量的特征选择：讲述如何计算和查看时间序列数据的特征选择结果。

1. 载入数据

在本教程中，我们将基于魁北克在 1960 到 1968 年的月度汽车销量数据进行讲解。

原始数据可以在如下链接下载：

https://datamarket.com/data/set/22n4/monthly-car-sales-in-quebec-1960-1968

本例中，我们将下载后的数据集保存为 car-sales.csv 文件，同时删去了文件中的脚注信息。

基于 Pandas 库加载该数据集的代码如下，我们将数据保存为一个 Series 对象：

# line plot of time series
from pandas import Series
from matplotlib import pyplot
# load dataset
series = Series.from_csv('car-sales.csv', header=0)
# display first few rows
print(series.head(5))
# line plot of dataset
series.plot
pyplot.show

运行以上实例后的打印情况如下（这里只列出了 5 行）：

Month
1960-01-01 6550
1960-02-01 8728
1960-03-01 12026
1960-04-01 14395
1960-05-01 14587
Name: Sales, dtype: int64

完整数据的曲线图如下所示：

2. 平稳化

从上图我们可以看到汽车销量数据明显的季节性和日益增长的变化趋势。

这种季节性的变化和增长趋势虽然可以作为序列预测的关键特征，但如果需要探索其他的有助于我们做出序列预测的系统信号，就必须将它们移除。

通常，我们将除去了季节性变化和增长趋势的时间序列称为平稳化序列。

为了消除这种季节性变化，通常采取季节差分的办法，即生成所谓的季节性适配时间序列（seasonally adjusted time series）。

本例中季节性变化的变化周期似乎是一年（12个月）。下面的代码展示了如何计算季节性适配时间序列，并将结果保存到文件 seasonally-adjusted.csv。

# seasonally adjust the time series
from pandas import Series
from matplotlib import pyplot
# load dataset
series = Series.from_csv('car-sales.csv', header=0)
# seasonal difference
differenced = series.diff(12)
# trim off the first year of empty data
differenced = differenced[12:]
# save differenced dataset to file
differenced.to_csv('seasonally_adjusted.csv')
# plot differenced dataset
differenced.plot
pyplot.show

代码中，由于最初的 12 个月没有更早的数据用以差分计算，因此被丢弃。最终得到的季节差分结果如下图所示：

从图中可以看出，我们通过差分运算成功消除了季节性变化和增长趋势信息。

3. 自相关图

通畅情况下，我们根据与输出变量的相关性来选择时间序列的特征。

这被称为自相关（autocorrelation），并包括如何绘制自相关图，也称为相关图。自相关图展示了每个滞后观察结果的相关性，以及这些相关性是否具有统计学的显着性。

例如，下面的代码绘制了月汽车销量数据集中所有滞后变量的相关图。

from pandas import Series
from statsmodels.graphics.tsaplots import plot_acf
from matplotlib import pyplot
series = Series.from_csv('seasonally_adjusted.csv', header=None)
plot_acf(series)
pyplot.show

运行后可以得到一张相关图，或自相关函数（ACF）图，如下所示。

图中 x 轴表示滞后值，y 轴上 -1 和 1 之间则表现了这些滞后值的正负相关性。

蓝色区域中的点表示统计学显着性。滞后值为 0 相关性为 1 的点表示观察值与其本身 100% 正相关。

可以看到，图中在 1,2,12 和 17 个月显示出了显著的滞后性。

这个分析为后续的比较过程提供了一个很好的基准。

4. 时间序列到监督学习

通过将滞后观察（例如t-1）作为输入变量，将当前观察（t）作为输出变量，可以将单变量的月度汽车销量数据集转换为监督学习问题。

为了实现这一转换，在下面的代码中我们调用了 Pandas 库中的 shift 函数，通过 shift 函数我们可以为转换后的观察值创建新的队列。

在以下示例中，我们创建了一个包含 12 个月滞后值的新时间序列，以预测当前的观察结果。

代码中 12 个月的迁移表示前 12 行的数据不可用，因为它们包含 NaN 值。

from pandas import Series
from pandas import DataFrame
# load dataset
series = Series.from_csv('seasonally_adjusted.csv', header=None)
# reframe as supervised learning
dataframe = DataFrame
for i in range(12,0,-1):
dataframe['t-'+str(i)] = series.shift(i)
dataframe['t'] = series.values
print(dataframe.head(13))
dataframe = dataframe[13:]
# save to new file
dataframe.to_csv('lags_12months_features.csv', index=False)

打印输出如下所示，其中前 12 行的数据不可用。

我们将前 12 行的数据删除，然后将结果保存在 lags_12months_features.csv 文件中。

实际上，这个过程可以在任意的时间步长下重复进行，例如 6 或 24 个月，感兴趣的朋友可以自行尝试。

5. 滞后变量的特征重要性

各种决策树，例如 bagged 树和随机森林等，都可以用来计算特征值的重要性得分。

这是一种机器学习中的常见用法，以便在开发预测模型时有效评估输入特征的相对有效性。

这里，我们通过正要性得分，来帮助评估时间序列预测输入特征的相对重要性。

这一点之所以重要，不仅是因为我们可以设计上述提到的滞后观察特征，还可以设计基于观测时间戳、滚动统计等其他类型的特征。因此，特征重要性是整理和选择特征时非常有效的一种方法。

在下面的实例中，我们加载了上一节中创建的数据集的监督性学习视图，然后利用随机森林模型（代码中为RandomForestRegressor），总结了 12 个滞后观察中每一个的相对特征重要性得分。

这里使用了大数量的树来保证得分的稳定性。此外，我们还用到了随机种子初始化（the random number seed is initialized），用以保证每次运行代码时都能获得相同的结果。

from pandas import read_csv
from sklearn.ensemble import RandomForestRegressor
from matplotlib import pyplot
# load data
dataframe = read_csv('lags_12months_features.csv', header=0)
array = dataframe.values
# split into input and output
X = array[:,0:-1]
y = array[:,-1]
# fit random forest model
model = RandomForestRegressor(n_estimators=500, random_state=1)
model.fit(X, y)
# show importance scores
print(model.feature_importances_)
# plot importance scores
names = dataframe.columns.values[0:-1]
ticks = [i for i in range(len(names))]
pyplot.bar(ticks, model.feature_importances_)
pyplot.xticks(ticks, names)
pyplot.show

运行示例后，首先打印了滞后观察值的重要性得分，如下所示。

[ 0.21642244 0.06271259 0.05662302 0.05543768 0.07155573 0.08478599
0.07699371 0.05366735 0.1033234 0.04897883 0.1066669 0.06283236]

然后将得分绘制为条形图，如图所示。

图中显示 t-12 观测值的相对重要性最高，其次就是 t-2 和 t-4。

感兴趣的朋友可以仔细研究这个结果与上述自相关图的差异。

实际上，这里还可以用 gradient boosting，extra trees，bagged decision trees 等代替随机森林模型，同样可以计算特征的重要性得分。

6. 滞后变量的特征选择

我们还可以通过特征选择来自动识别并选择出最具预测性的输入特征。

目前，特征选择最流行方法是递归特征选择（Recursive Feature Selection，RFE）。

RFE 可以创建预测模型，对特征值赋予不同的权值，并删掉那些权重最小的特征，通过不断重复这一流程，最终就能得到预期数量的特征。

以下示例中我们演示了如何通过RFE与随机森林模型进行特征选择，注意其中输入特征的预期数量设置的是 4。

from pandas import read_csv
from sklearn.feature_selection import RFE
from sklearn.ensemble import RandomForestRegressor
from matplotlib import pyplot
# load dataset
dataframe = read_csv('lags_12months_features.csv', header=0)
# separate into input and output variables
array = dataframe.values
X = array[:,0:-1]
y = array[:,-1]
# perform feature selection
rfe = RFE(RandomForestRegressor(n_estimators=500, random_state=1), 4)
fit = rfe.fit(X, y)
# report selected features
print('Selected Features:')
names = dataframe.columns.values[0:-1]
for i in range(len(fit.support_)):
if fit.support_[i]:
print(names[i])
# plot feature rank
names = dataframe.columns.values[0:-1]
ticks = [i for i in range(len(names))]
pyplot.bar(ticks, fit.ranking_)
pyplot.xticks(ticks, names)
pyplot.show