Introducción

En escenarios que implican la predicción de cientos o miles de series temporales, surge una decisión crucial: ¿se deben desarrollar modelos individuales para cada serie o se debe utilizar un único modelo para manejarlas todas a la vez?

En la modelación de una sola serie (modelo de forecasting local), se crea un modelo de predicción independiente para cada serie temporal. Aunque este método proporciona una comprensión exhaustiva de cada serie, su escalabilidad puede verse dificultada por la necesidad de crear y mantener cientos o miles de modelos.

La modelización multiserie (modelo de forecasting global) consiste en crear un único modelo predictivo que tenga en cuenta todas las series temporales simultáneamente. Intenta captar los patrones básicos que rigen las series, mitigando así el ruido potencial que pueda introducir cada serie. Este enfoque es eficiente desde el punto de vista computacional, fácil de mantener y puede producir generalizaciones más sólidas, aunque potencialmente a costa de sacrificar algunos conocimientos individuales.

Este documento muestra cómo predecir más de 1,000 series temporales con un único modelo que incluye características exógenas, algunas de las cuales tienen valores diferentes en cada serie.

💡 Tip

Este es el primero de una serie de documentos sobre modelos de forecasting globales:

Librerías

# Data management
# ==============================================================================
import numpy as np
import pandas as pd

# Plots
# ==============================================================================
import matplotlib.pyplot as plt
plt.style.use('seaborn-v0_8-darkgrid')

# Forecasting
# ==============================================================================
import skforecast
import lightgbm
from lightgbm import LGBMRegressor
from sklearn.preprocessing import OrdinalEncoder
from sklearn.compose import make_column_transformer
from sklearn.feature_selection import RFECV
from skforecast.recursive import ForecasterRecursiveMultiSeries
from skforecast.model_selection import TimeSeriesFold, OneStepAheadFold
from skforecast.model_selection import backtesting_forecaster_multiseries
from skforecast.model_selection import bayesian_search_forecaster_multiseries
from skforecast.feature_selection import select_features_multiseries
from skforecast.preprocessing import RollingFeatures
from skforecast.preprocessing import series_long_to_dict
from skforecast.preprocessing import exog_long_to_dict
from feature_engine.datetime import DatetimeFeatures
from feature_engine.creation import CyclicalFeatures
from feature_engine.timeseries.forecasting import WindowFeatures
from skforecast.datasets import fetch_dataset

# Configuration
# ==============================================================================
import warnings
warnings.filterwarnings('once')

print('Versión skforecast:', skforecast.__version__)
print('Versión lightgbm:', lightgbm.__version__)

Versión skforecast: 0.15.1
Versión lightgbm: 4.6.0

Datos

Los datos utilizados en este documento se han obtenido del proyecto The Building Data Genome Project 2 https://github.com/buds-lab/building-data-genome-project-2. El conjunto de datos contiene información sobre el consumo energético de más de 1500 edificios. El rango temporal de los datos de las series temporales abarca los dos años completos (2016 y 2017) y la frecuencia es de mediciones horarias de electricidad, agua de calefacción y refrigeración, vapor y contadores de riego. Además, el conjunto de datos incluye información sobre las características de los edificios y las condiciones meteorológicas. Los datos se han agregado a una resolución diaria y solo se ha considerado la electricidad entre las distintas fuentes de energía.

# Descarga de datos
# ==============================================================================
data = fetch_dataset(name='bdg2_daily')
print("Data shape:", data.shape)
data.head(3)

bdg2_daily
----------
Daily energy consumption data from the The Building Data Genome Project 2 with
building metadata and weather data. https://github.com/buds-lab/building-data-
genome-project-2
Miller, C., Kathirgamanathan, A., Picchetti, B. et al. The Building Data Genome
Project 2, energy meter data from the ASHRAE Great Energy Predictor III
competition. Sci Data 7, 368 (2020). https://doi.org/10.1038/s41597-020-00712-x
Shape of the dataset: (1153518, 17)
Data shape: (1153518, 17)

	building_id	meter_reading	site_id	primaryspaceusage	sub_primaryspaceusage	sqm	lat	lng	timezone	airTemperature	cloudCoverage	dewTemperature	precipDepth1HR	precipDepth6HR	seaLvlPressure	windDirection	windSpeed
timestamp
2016-01-01	Bear_assembly_Angel	12808.1620	Bear	Entertainment/public assembly	Entertainment/public assembly	22117.0	37.871903	-122.260729	US/Pacific	6.1750	1.666667	-5.229167	0.0	0.0	1020.891667	68.750000	3.070833
2016-01-02	Bear_assembly_Angel	9251.0003	Bear	Entertainment/public assembly	Entertainment/public assembly	22117.0	37.871903	-122.260729	US/Pacific	8.0875	NaN	-1.404167	0.0	0.0	1017.687500	76.666667	3.300000
2016-01-03	Bear_assembly_Angel	14071.6500	Bear	Entertainment/public assembly	Entertainment/public assembly	22117.0	37.871903	-122.260729	US/Pacific	10.1125	NaN	1.708333	-6.0	-2.0	1011.491667	91.666667	3.120833

# Rango de fechas disponibles
# ==============================================================================
print(
    f"Rango de fechas disponibles : {data.index.min()} --- {data.index.max()}  "
    f"(n_días={(data.index.max() - data.index.min()).days})"
)

Rango de fechas disponibles : 2016-01-01 00:00:00 --- 2017-12-31 00:00:00  (n_días=730)

# Rango de fechas disponibles por serie
# ==============================================================================
available_dates_per_series = (
    data
    .dropna(subset="meter_reading")
    .reset_index()
    .groupby("building_id")
    .agg(
        min_index=("timestamp", "min"),
        max_index=("timestamp", "max"),
        n_values=("timestamp", "nunique")
    )
)
display(available_dates_per_series)
print(f"Longitudes de las series : {available_dates_per_series.n_values.unique()}")

	min_index	max_index	n_values
building_id
Bear_assembly_Angel	2016-01-01	2017-12-31	731
Bear_assembly_Beatrice	2016-01-01	2017-12-31	731
Bear_assembly_Danial	2016-01-01	2017-12-31	731
Bear_assembly_Diana	2016-01-01	2017-12-31	731
Bear_assembly_Genia	2016-01-01	2017-12-31	731
...	...	...	...
Wolf_public_Norma	2016-01-01	2017-12-31	731
Wolf_retail_Harriett	2016-01-01	2017-12-31	731
Wolf_retail_Marcella	2016-01-01	2017-12-31	731
Wolf_retail_Toshia	2016-01-01	2017-12-31	731
Wolf_science_Alfreda	2016-01-01	2017-12-31	731

1578 rows × 3 columns

Longitudes de las series : [731]

Todas las series temporales tienen la misma longitud, comenzando el 1 de enero de 2016 y terminando el 31 de diciembre de 2017. Las variables exógenas tienen pocos valores faltantes. Skforecast no requiere que las series temporales tengan la misma longitud, y se permiten valores faltantes siempre que el regresor subyacente pueda manejarlos, que es el caso de LightGBM, XGBoost y HistGradientBoostingRegressor.

# Valores nulos por variable
# ==============================================================================
data.isna().mean().mul(100).round(2)

building_id               0.00
meter_reading             0.00
site_id                   0.00
primaryspaceusage         1.20
sub_primaryspaceusage     1.20
sqm                       0.00
lat                      14.83
lng                      14.83
timezone                  0.00
airTemperature            0.02
cloudCoverage             7.02
dewTemperature            0.03
precipDepth1HR            0.02
precipDepth6HR            0.02
seaLvlPressure            9.56
windDirection             0.02
windSpeed                 0.02
dtype: float64

Variables exógenas

Las variables exógenas son variables externas a la serie temporal y pueden utilizarse como predictores para mejorar la predicción. En este caso, las variables exógenas utilizadas son: las características de los edificios, variables de calendario y condiciones meteorológicas.

⚠ Warning

Las variables exógenas deben conocerse en el momento de la predicción. Por ejemplo, si la temperatura se utiliza como variable exógena, el valor de la temperatura para el día siguiente debe conocerse en el momento de la predicción. Si no se tiene acceso al valor de la temperatura, la predicción no será posible.

⚠ Warning

Al crear nuevas variables en un conjuntos de datos con múltiples series, es importante evitar mezclar información de diferentes series. Se recomienda utilizar los métodos groupby y apply para crear las variables por grupo.

Características de los edificios

Uno de los atributos clave asociados a cada edificio es su uso designado. Este atributo puede desempeñar un papel crucial en el patrón de consumo de energía.

# Numero de edificios, tipos y subtipos
# ==============================================================================
print(f"Número de edificios: {data['building_id'].nunique()}")
print(f"Número de edificios types: {data['primaryspaceusage'].nunique()}")
print(f"Número de edificios subtypes: {data['sub_primaryspaceusage'].nunique()}")

Número de edificios: 1578
Número de edificios types: 16
Número de edificios subtypes: 104

Algunos tipos y subtipos de edificios aparecen con poca frecuencia en el conjunto de datos. Tipos con menos de 100 edificios y subtipos con menos de 50 edificios se agrupan en la categoría "Other".

# Agregación de categorías infrecuentes
# ==============================================================================
infrequent_types = (
    data
    .drop_duplicates(subset=['building_id'])['primaryspaceusage']
    .value_counts()
    .loc[lambda x: x < 100]
    .index
    .tolist()
)
infrequent_subtypes = (
    data
    .drop_duplicates(subset=['building_id'])['sub_primaryspaceusage']
    .value_counts()
    .loc[lambda x: x < 50]
    .index
    .tolist()
)

data['primaryspaceusage'] = np.where(
    data['primaryspaceusage'].isin(infrequent_types),
    'Other',
    data['primaryspaceusage']
)
data['sub_primaryspaceusage'] = np.where(
    data['sub_primaryspaceusage'].isin(infrequent_subtypes),
    'Other',
    data['sub_primaryspaceusage']
)

display(data.drop_duplicates(subset=['building_id'])['primaryspaceusage'].value_counts())
display(data.drop_duplicates(subset=['building_id', 'sub_primaryspaceusage'])['sub_primaryspaceusage'].value_counts())

primaryspaceusage
Education                        604
Office                           296
Entertainment/public assembly    203
Public services                  166
Lodging/residential              149
Other                            141
Name: count, dtype: int64

sub_primaryspaceusage
Other                          612
Office                         295
College Classroom              131
College Laboratory             116
K-12 School                    109
Dormitory                       91
Primary/Secondary Classroom     84
Education                       67
Library                         54
Name: count, dtype: int64

Variables de calendario

# Variables categóricas
# ==============================================================================
features_to_extract = [
    'month',
    'week',
    'day_of_week',
]
calendar_transformer = DatetimeFeatures(
                            variables           = 'index',
                            features_to_extract = features_to_extract,
                            drop_original       = False,
                       )
data = calendar_transformer.fit_transform(data)

# Cyclical encoding
# ==============================================================================
features_to_encode = [
    "month",
    "week",
    "day_of_week",
]
max_values = {
    "month": 12,
    "week": 52,
    "day_of_week": 6,
}
cyclical_encoder = CyclicalFeatures(
                        variables     = features_to_encode,
                        max_values    = max_values,
                        drop_original = False
                   )

data = cyclical_encoder.fit_transform(data)
data.head(3)

	building_id	meter_reading	site_id	primaryspaceusage	sub_primaryspaceusage	sqm	lat	lng	timezone	airTemperature	...	windSpeed	month	week	day_of_week	month_sin	month_cos	week_sin	week_cos	day_of_week_sin	day_of_week_cos
timestamp
2016-01-01	Bear_assembly_Angel	12808.1620	Bear	Entertainment/public assembly	Other	22117.0	37.871903	-122.260729	US/Pacific	6.1750	...	3.070833	1	53	4	0.5	0.866025	0.120537	0.992709	-8.660254e-01	-0.5
2016-01-02	Bear_assembly_Angel	9251.0003	Bear	Entertainment/public assembly	Other	22117.0	37.871903	-122.260729	US/Pacific	8.0875	...	3.300000	1	53	5	0.5	0.866025	0.120537	0.992709	-8.660254e-01	0.5
2016-01-03	Bear_assembly_Angel	14071.6500	Bear	Entertainment/public assembly	Other	22117.0	37.871903	-122.260729	US/Pacific	10.1125	...	3.120833	1	53	6	0.5	0.866025	0.120537	0.992709	-2.449294e-16	1.0

3 rows × 26 columns

✎ Note

For more information about calendar features and cyclical encoding visit Calendar features and Cyclical features in time series forecasting.

Variables meteorológicas

Las variables meteorológicas se han registrado a nivel de localidad, lo que significa que los datos meteorológicos varían según la ubicación del edificio, incluso en el mismo instante de tiempo. En otras palabras, aunque las variables exógenas son consistentes en todas las series, sus valores difieren por ubicación.

# Valores meteorológicos para cada ubicacion para ina fecha dada
# ==============================================================================
data.loc["2016-01-01"].groupby("site_id", observed=True).agg(
    {
        "airTemperature": "first",
        "cloudCoverage": "first",
        "dewTemperature": "first",
        "precipDepth1HR": "first",
        "precipDepth6HR": "first",
        "seaLvlPressure": "first",
        "windDirection": "first",
        "windSpeed": "first",
    }
)

	airTemperature	cloudCoverage	dewTemperature	precipDepth1HR	precipDepth6HR	seaLvlPressure	windDirection	windSpeed
site_id
Bear	6.175000	1.666667	-5.229167	0.0	0.0	1020.891667	68.750000	3.070833
Bobcat	-11.595833	0.000000	-17.041667	0.0	0.0	1034.466667	260.869565	3.033333
Bull	7.612500	4.000000	0.708333	-2.0	-1.0	1031.762500	130.416667	3.712500
Cockatoo	-2.000000	4.000000	-4.066667	0.0	0.0	NaN	281.333333	4.826667
Crow	-1.787500	NaN	-3.595833	15.0	13.0	1011.670833	236.250000	3.666667
Eagle	3.187500	1.000000	-4.487500	0.0	0.0	1017.445833	287.500000	3.470833
Fox	10.200000	1.000000	-2.804167	0.0	0.0	1018.512500	47.083333	0.470833
Gator	23.291667	5.600000	19.625000	-3.0	0.0	1018.663636	150.416667	2.520833
Hog	-5.583333	1.142857	-9.741667	-2.0	-1.0	1019.545833	260.416667	4.758333
Lamb	6.913043	0.000000	5.434783	0.0	0.0	NaN	123.181818	8.017391
Moose	-1.787500	NaN	-3.595833	15.0	13.0	1011.670833	236.250000	3.666667
Mouse	5.387500	0.000000	3.879167	0.0	0.0	1016.941667	116.666667	4.470833
Panther	23.291667	5.600000	19.625000	-3.0	0.0	1018.663636	150.416667	2.520833
Peacock	5.558333	0.000000	-1.541667	0.0	0.0	1019.783333	120.000000	1.275000
Rat	5.633333	4.727273	-2.112500	0.0	0.0	1020.450000	314.782609	3.816667
Robin	5.387500	0.000000	3.879167	0.0	0.0	1016.941667	116.666667	4.470833
Shrew	5.387500	0.000000	3.879167	0.0	0.0	1016.941667	116.666667	4.470833
Swan	6.054167	0.400000	-2.591667	0.0	0.0	1021.216667	154.000000	1.783333
Wolf	5.716667	6.625000	3.208333	0.0	1.0	1007.625000	140.000000	8.875000

Skforecast permite incluir variables exógenas distintas y/o valores distintos para cada serie dentro del conjunto de datos (detalles proporcionados en la siguiente sección).

Rolling features de variables exógenas

# Rolling features
# ==============================================================================
wf_transformer = WindowFeatures(
    variables      = ["airTemperature", "windSpeed"],
    window         = ["7D", "14D"],
    functions      = ["mean"],
    freq           = "D",
    missing_values = "ignore",
    drop_na        = False,
)
data = data.groupby("building_id").apply(wf_transformer.fit_transform, include_groups=False).reset_index()
data = data.set_index("timestamp")
print(f"Data shape: {data.shape}")
data.head(3)

Data shape: (1153518, 30)

	building_id	meter_reading	site_id	primaryspaceusage	sub_primaryspaceusage	sqm	lat	lng	timezone	airTemperature	...	month_sin	month_cos	week_sin	week_cos	day_of_week_sin	day_of_week_cos	airTemperature_window_7D_mean	windSpeed_window_7D_mean	airTemperature_window_14D_mean	windSpeed_window_14D_mean
timestamp
2016-01-01	Bear_assembly_Angel	12808.1620	Bear	Entertainment/public assembly	Other	22117.0	37.871903	-122.260729	US/Pacific	6.1750	...	0.5	0.866025	0.120537	0.992709	-8.660254e-01	-0.5	NaN	NaN	NaN	NaN
2016-01-02	Bear_assembly_Angel	9251.0003	Bear	Entertainment/public assembly	Other	22117.0	37.871903	-122.260729	US/Pacific	8.0875	...	0.5	0.866025	0.120537	0.992709	-8.660254e-01	0.5	6.17500	3.070833	6.17500	3.070833
2016-01-03	Bear_assembly_Angel	14071.6500	Bear	Entertainment/public assembly	Other	22117.0	37.871903	-122.260729	US/Pacific	10.1125	...	0.5	0.866025	0.120537	0.992709	-2.449294e-16	1.0	7.13125	3.185417	7.13125	3.185417

3 rows × 30 columns

Variables categóricas

LightGBM permite incluir variables categóricas en el modelo sin necesidad de preprocesamiento. Para permitir la detección automática de variables categóricas en un Forecaster, primero las variables categóricas deben codificarse como enteros (codificación ordinal) y luego almacenarse como tipo category. Esto es necesario porque skforecast utiliza una matriz numérica internamente para acelerar el cálculo, y LightGBM requiere que las características categóricas estén codificadas como category para ser detectadas automáticamente. También es necesario establecer el parámetro categorical_features en 'auto' durante la inicialización del modelo de forecasting utilizando fit_kwargs = {'categorical_feature': 'auto'}.

⚠ Warning

Las cuatro principales implementaciones de gradient boosting - LightGBM, scikit-learn's HistogramGradientBoosting, XGBoost y CatBoost - son capaces de manejar directamente las variables categóricas dentro del modelo. Sin embargo, es importante tener en cuenta que cada implementación tiene sus propias configuraciones, beneficios y posibles problemas. Para comprender completamente cómo utilizar estas implementaciones, se recomienda consultar la guía del usuario de skforecast para una comprensión detallada.

# Transformer: ordinal encoding
# ==============================================================================
# Un ColumnTransformer se utiliza para transformar las variables categóricas
# (no numéricas) utilizando la codificación ordinal. Las varaibles numéricas
# se dejan sin modificar. Los valores perdidos se codifican como -1. Si una
# nueva categoría se encuentra en el conjunto de prueba, se codifica como -1.
categorical_features = ['primaryspaceusage', 'sub_primaryspaceusage', 'timezone']
transformer_exog = make_column_transformer(
                       (
                           OrdinalEncoder(
                               dtype=float,
                               handle_unknown="use_encoded_value",
                               unknown_value=np.nan,
                               encoded_missing_value=np.nan
                           ),
                           categorical_features
                       ),
                       remainder="passthrough",
                       verbose_feature_names_out=False,
                   ).set_output(transform="pandas")
transformer_exog

ColumnTransformer(remainder='passthrough',
                  transformers=[('ordinalencoder',
                                 OrdinalEncoder(dtype=<class 'float'>,
                                                handle_unknown='use_encoded_value',
                                                unknown_value=nan),
                                 ['primaryspaceusage', 'sub_primaryspaceusage',
                                  'timezone'])],
                  verbose_feature_names_out=False)

In a Jupyter environment, please rerun this cell to show the HTML representation or trust the notebook.
On GitHub, the HTML representation is unable to render, please try loading this page with nbviewer.org.

Cuando se crea un Forecaster con LGBMRegressor, es necesario especificar cómo manejar las columnas categóricas utilizando el argumento fit_kwargs. Esto se debe a que el argumento categorical_feature solo se especifica en el método fit de LGBMRegressor, y no durante su inicialización.

Modelado y predicción

ForecasterRecursiveMultiSeries permite modelar series temporales de diferentes longitudes y utilizando distintas variables exógenas. Cuando las series tienen longitudes diferentes, los datos deben transformarse en un diccionario. Las claves del diccionario son los nombres de las series y los valores son las propias series. Para ello, se utiliza la función series_long_to_dict, que toma un DataFrame en «formato largo» y devuelve un diccionario de Series de Pandas. Del mismo modo, cuando las variables exógenas son diferentes (valores o variables) para cada serie, los datos deben transformarse en un diccionario. Las claves del diccionario son los nombres de las series y los valores son las propias variables exógenas. Se utiliza la función exog_long_to_dict, que toma el DataFrame en «formato largo» y devuelve un diccionario de variables exógenas (series de Pandas o DataFrames de Pandas).

Cuando todas las series tienen la misma longitud y las mismas variables exógenas, no es necesario utilizar diccionarios. Las series se pueden pasar como un único DataFrame con cada serie en una columna, y las variables exógenas se pueden pasar como un DataFrame con la misma longitud que la serie.

✎ Note

Para más información sobre cómo modelar series de diferentes longitudes y utilizar diferentes variables exógenas, visite Global Forecasting Models: Time series with different lengths and different exogenous variables.

# Varaibles exógenas para el modelo
# ==============================================================================
exog_features = [
    "primaryspaceusage",
    "sub_primaryspaceusage",
    "timezone",
    "sqm",
    "airTemperature",
    "cloudCoverage",
    "dewTemperature",
    "precipDepth1HR",
    "precipDepth6HR",
    "seaLvlPressure",
    "windDirection",
    "windSpeed",
    "day_of_week_sin",
    "day_of_week_cos",
    "week_sin",
    "week_cos",
    "month_sin",
    "month_cos",
    "airTemperature_window_7D_mean",
    "windSpeed_window_7D_mean",
    "airTemperature_window_14D_mean",
    "windSpeed_window_14D_mean",
]

# Transformación de las series y variables exógenas a formato dict
# ==============================================================================
series_dict = series_long_to_dict(
    data      = data.reset_index(),
    series_id = 'building_id',
    index     = 'timestamp',
    values    = 'meter_reading',
    freq      = 'D'
)

exog_dict = exog_long_to_dict(
    data      = data[exog_features + ['building_id']].reset_index(),
    series_id = 'building_id',
    index     = 'timestamp',
    freq      = 'D'
)

Para entrenar los modelos, buscar los hiperparámetros óptimos y evaluar su rendimiento predictivo, los datos se dividen en tres conjuntos separados: entrenamiento, validación y test.

# Partiticón de los datos en entrenamiento, validación y test
# ==============================================================================
data = data.sort_index()
end_train = '2017-08-31 23:59:00'
end_validation = '2017-10-31 23:59:00'
series_dict_train = {k: v.loc[: end_train,] for k, v in series_dict.items()}
series_dict_valid = {k: v.loc[end_train: end_validation,] for k, v in series_dict.items()}
series_dict_test = {k: v.loc[end_validation:,] for k, v in series_dict.items()}
exog_dict_train = {k: v.loc[: end_train,] for k, v in exog_dict.items()}
exog_dict_valid = {k: v.loc[end_train: end_validation,] for k, v in exog_dict.items()}
exog_dict_test = {k: v.loc[end_validation:,] for k, v in exog_dict.items()}

print(
    f"Rage of dates available : {data.index.min()} --- {data.index.max()} "
    f"(n_days={(data.index.max() - data.index.min()).days})"
)
print(
    f"  Dates for training    : {data.loc[: end_train, :].index.min()} --- {data.loc[: end_train, :].index.max()} "
    f"(n_days={(data.loc[: end_train, :].index.max() - data.loc[: end_train, :].index.min()).days})"
)
print(
    f"  Dates for validation  : {data.loc[end_train:end_validation, :].index.min()} --- {data.loc[end_train:end_validation, :].index.max()} "
    f"(n_days={(data.loc[end_train:end_validation, :].index.max() - data.loc[end_train:end_validation, :].index.min()).days})"
)
print(
    f"  Dates for test        : {data.loc[end_validation:, :].index.min()} --- {data.loc[end_validation:, :].index.max()} "
    f"(n_days={(data.loc[end_validation:, :].index.max() - data.loc[end_validation:, :].index.min()).days})"
)

Rage of dates available : 2016-01-01 00:00:00 --- 2017-12-31 00:00:00 (n_days=730)
  Dates for training    : 2016-01-01 00:00:00 --- 2017-08-31 00:00:00 (n_days=608)
  Dates for validation  : 2017-09-01 00:00:00 --- 2017-10-31 00:00:00 (n_days=60)
  Dates for test        : 2017-11-01 00:00:00 --- 2017-12-31 00:00:00 (n_days=60)

Búsqueda de hiperparámetros

La búsqueda de hiperparámetros y lags implica probar sistemáticamente diferentes valores de hiperparámetros (y/o lags) para encontrar la configuración óptima que ofrezca el mejor rendimiento. skforecast proporciona dos métodos diferentes para evaluar cada configuración candidata:

Backtesting: en este método, el modelo predice varios pasos a futuro en cada iteración, utilizando el mismo horizonte de predicción y la misma estrategia de reentrenamiento que se utilizarían si se desplegara el modelo. De este modo, se simula un escenario de predicción real en el que el modelo se reentrena y actualiza a lo largo del tiempo.
One-Step Ahead: Evalúa el modelo utilizando solo predicciones de un paso a futuro. Este método es más rápido porque requiere menos iteraciones, pero solo evalua el rendimiento del modelo en el siguiente paso temporal (t+1).

Cada método utiliza una estrategia de evaluación diferente, por lo que pueden producir resultados distintos. Sin embargo, a largo plazo, se espera que ambos métodos converjan a selecciones similares de hiperparámetros óptimos. El método de One-Step Ahead es mucho más rápido que el backtesting porque requiere menos iteraciones, pero solo prueba el rendimiento del modelo en el siguiente instante de tiempo. Se recomienda realizar un backtest del modelo final para obtener una estimación más precisa del rendimiento cuando se predicen varios pasos a futuro.

# Crear forecaster
# ==============================================================================
window_features = RollingFeatures(stats=['mean', 'min', 'max'], window_sizes=7)
forecaster = ForecasterRecursiveMultiSeries(
                regressor        = LGBMRegressor(random_state=8520, verbose=-1),
                lags             = 14,
                window_features  = window_features,
                transformer_exog = transformer_exog,
                fit_kwargs       = {'categorical_feature': categorical_features},
                encoding         = "ordinal"
            )

# Bayesian search con OneStepAheadFold
# ==============================================================================
def search_space(trial):
    search_space  = {
        'lags'            : trial.suggest_categorical('lags', [31, 62]),
        'n_estimators'    : trial.suggest_int('n_estimators', 200, 800, step=100),
        'max_depth'       : trial.suggest_int('max_depth', 3, 8, step=1),
        'min_data_in_leaf': trial.suggest_int('min_data_in_leaf', 25, 500),
        'learning_rate'   : trial.suggest_float('learning_rate', 0.01, 0.5),
        'feature_fraction': trial.suggest_float('feature_fraction', 0.5, 0.8, step=0.1),
        'max_bin'         : trial.suggest_int('max_bin', 50, 100, step=25),
        'reg_alpha'       : trial.suggest_float('reg_alpha', 0, 1, step=0.1),
        'reg_lambda'      : trial.suggest_float('reg_lambda', 0, 1, step=0.1)
    }

    return search_space

cv = OneStepAheadFold(initial_train_size=608) # Tamaño del conjunto de entrenamiento

results_search, best_trial = bayesian_search_forecaster_multiseries(
    forecaster        = forecaster,
    series            = {k: v.loc[:end_validation,] for k, v in series_dict.items()},
    exog              = {k: v.loc[:end_validation, exog_features] for k, v in exog_dict.items()},
    cv                = cv,
    search_space      = search_space,
    n_trials          = 10,
    metric            = "mean_absolute_error",
    suppress_warnings = True
)

best_params = results_search.at[0, 'params']
best_lags = results_search.at[0, 'lags']
results_search.head(3)

  0%|          | 0/10 [00:00<?, ?it/s]

`Forecaster` refitted using the best-found lags and parameters, and the whole data set: 
  Lags: [ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
 49 50 51 52 53 54 55 56 57 58 59 60 61 62] 
  Parameters: {'n_estimators': 600, 'max_depth': 6, 'min_data_in_leaf': 188, 'learning_rate': 0.1590191866233202, 'feature_fraction': 0.6, 'max_bin': 100, 'reg_alpha': 0.9, 'reg_lambda': 0.5}
  Backtesting metric: 261.5074045473127
  Levels: ['Bear_assembly_Angel', 'Bear_assembly_Beatrice', 'Bear_assembly_Danial', 'Bear_assembly_Diana', 'Bear_assembly_Genia', 'Bear_assembly_Harry', 'Bear_assembly_Jose', 'Bear_assembly_Roxy', 'Bear_assembly_Ruby', 'Bear_education_Alfredo', '...', 'Wolf_office_Emanuel', 'Wolf_office_Haydee', 'Wolf_office_Joana', 'Wolf_office_Nadia', 'Wolf_office_Rochelle', 'Wolf_public_Norma', 'Wolf_retail_Harriett', 'Wolf_retail_Marcella', 'Wolf_retail_Toshia', 'Wolf_science_Alfreda']

	levels	lags	params	mean_absolute_error__weighted_average	mean_absolute_error__average	mean_absolute_error__pooling	n_estimators	max_depth	min_data_in_leaf	learning_rate	feature_fraction	max_bin	reg_alpha	reg_lambda
0	[Bear_assembly_Angel, Bear_assembly_Beatrice, ...	[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14...	{'n_estimators': 600, 'max_depth': 6, 'min_dat...	261.507405	261.507405	261.507405	600.0	6.0	188.0	0.159019	0.6	100.0	0.9	0.5
1	[Bear_assembly_Angel, Bear_assembly_Beatrice, ...	[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14...	{'n_estimators': 500, 'max_depth': 5, 'min_dat...	266.299734	266.299734	266.299734	500.0	5.0	227.0	0.163008	0.6	100.0	1.0	0.5
2	[Bear_assembly_Angel, Bear_assembly_Beatrice, ...	[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14...	{'n_estimators': 400, 'max_depth': 5, 'min_dat...	266.304518	266.304518	266.304518	400.0	5.0	437.0	0.132723	0.6	100.0	0.5	0.6

Backtesting con datos de test

# Backtesting
# ==============================================================================
cv = TimeSeriesFold(
    initial_train_size = 608 + 60, # Entreanmiento + validación
    steps              = 7,
    refit              = False
)
metrics, predictions = backtesting_forecaster_multiseries(
                          forecaster        = forecaster,
                          series            = series_dict,
                          exog              = exog_dict,
                          cv                = cv,
                          metric            = 'mean_absolute_error',
                          suppress_warnings = True
                      )

display(predictions.head())
display(metrics)

  0%|          | 0/9 [00:00<?, ?it/s]

	level	pred
2017-10-30	Bear_assembly_Angel	9561.254764
2017-10-30	Bear_assembly_Beatrice	1112.779749
2017-10-30	Bear_assembly_Danial	4172.709133
2017-10-30	Bear_assembly_Diana	26.412851
2017-10-30	Bear_assembly_Genia	7780.739532

	levels	mean_absolute_error
0	Bear_assembly_Angel	1244.039948
1	Bear_assembly_Beatrice	244.728577
2	Bear_assembly_Danial	281.653933
3	Bear_assembly_Diana	39.561433
4	Bear_assembly_Genia	563.580736
...	...	...
1576	Wolf_retail_Toshia	519.948486
1577	Wolf_science_Alfreda	220.802361
1578	average	346.382484
1579	weighted_average	346.382484
1580	pooling	346.382484

1581 rows × 2 columns

# Agregación de métricas para todos los edificios
# ==============================================================================
average_metric_all_buildings = metrics.query("levels == 'average'")["mean_absolute_error"].item()
errors_all_buildings = pd.merge(
    left     = data[['building_id', 'meter_reading']].reset_index(),
    right    = predictions.rename_axis("timestamp").reset_index(),
    left_on  = ['timestamp', 'building_id'],
    right_on = ['timestamp', 'level'],
    how      = 'inner',
    validate = "1:1"
).assign(error=lambda df: df['meter_reading'] - df['pred'])

sum_abs_errors_all_buildings = errors_all_buildings['error'].abs().sum().sum()
sum_bias_all_buildings = errors_all_buildings['error'].sum().sum()
print(f"Average mean absolute error for all buildings: {average_metric_all_buildings:.0f}")
print(f"Sum of absolute errors for all buildings (x 10,000): {sum_abs_errors_all_buildings/10000:.0f}")
print(f"Bias (x 10,000): {sum_bias_all_buildings/10000:.0f}")

Average mean absolute error for all buildings: 346
Sum of absolute errors for all buildings (x 10,000): 3444
Bias (x 10,000): -383

# Gráfico de predicciones vs reales para dos edificios aleatorios
# ==============================================================================
rng = np.random.default_rng(14793)
n_buildings = 2
selected_buildings = rng.choice(data['building_id'].unique(), size=n_buildings, replace=False)

fig, axs = plt.subplots(n_buildings, 1, figsize=(7, 4.5), sharex=True)
axs = axs.flatten()

for i, building in enumerate(selected_buildings):
    data.query("building_id == @building").loc[predictions.index, 'meter_reading'].plot(ax=axs[i], label='test')
    predictions.query("level == @building")['pred'].plot(ax=axs[i], label='predictions')
    axs[i].set_title(f"Building {building}", fontsize=10)
    axs[i].set_xlabel("")
    axs[i].legend()

fig.tight_layout()
plt.show();

Selección de predictores

La selección de predictores es el proceso de seleccionar un subconjunto de predictores relevantes (variables) para su uso en la construcción del modelo. Las técnicas de selección de predictores se utilizan por varias razones: para simplificar los modelos y hacerlos más fáciles de interpretar, para reducir el tiempo de entrenamiento, para evitar los problemas de dimensionalidad, para mejorar la generalización reduciendo el sobreajuste (formalmente, la reducción de la varianza), entre otros.

Skforecast es compatible con los métodos de selección implementados en scikit-learn. Existen varios métodos de selección de características, pero los más comunes son:

Recursive feature elimination (RFE)
Sequential Feature Selection (SFS)
Feature selection based on threshold (SelectFromModel)

💡 Tip

La selección de predictores es una herramienta poderosa para mejorar el rendimiento de los modelos de machine learning. Sin embargo, es computacionalmente costosa y puede llevar tiempo. Dado que el objetivo es encontrar el mejor subconjunto de variables, no el mejor modelo, no es necesario utilizar todo el conjunto de datos o un modelo muy complejo. En su lugar, se recomienda utilizar un pequeño subconjunto de datos y un modelo simple. Una vez que se haya identificado el mejor subconjunto de variables, el modelo puede entrenarse utilizando todo el conjunto de datos y una configuración más compleja.

# Selección de predictores
# ==============================================================================
regressor = LGBMRegressor(n_estimators=100, max_depth=5, random_state=15926, verbose=-1)
selector = RFECV(estimator=regressor, step=1, cv=3, n_jobs=1)
selected_lags, selected_window_features, selected_exog = select_features_multiseries(
    forecaster      = forecaster,
    selector        = selector,
    series          = {k: v.loc[:end_validation,] for k, v in series_dict.items()},
    exog            = {k: v.loc[:end_validation, exog_features] for k, v in exog_dict.items()},
    select_only     = None,
    force_inclusion = None,
    subsample       = 0.2,
    random_state    = 123,
    verbose         = True,
)

╭──────────────────────────────── MissingValuesWarning ────────────────────────────────╮
│ NaNs detected in `X_train`. Some regressors do not allow NaN values during training. │
│ If you want to drop them, set `forecaster.dropna_from_series = True`.                │
│                                                                                      │
│ Category : MissingValuesWarning                                                      │
│ Location :                                                                           │
│ /home/ubuntu/anaconda3/envs/skforecast_15_py12/lib/python3.12/site-packages/skforeca │
│ st/recursive/_forecaster_recursive_multiseries.py:1212                               │
│ Suppress : warnings.simplefilter('ignore', category=MissingValuesWarning)            │
╰──────────────────────────────────────────────────────────────────────────────────────╯

Recursive feature elimination (RFECV)
-------------------------------------
Total number of records available: 959424
Total number of records used for feature selection: 191884
Number of features available: 87
    Lags            (n=62)
    Window features (n=3)
    Exog            (n=22)
Number of features selected: 56
    Lags            (n=36) : [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 12, 13, 14, 15, 16, 17, 18, 19, 21, 22, 28, 29, 30, 33, 34, 35, 42, 44, 49, 50, 51, 54, 56, 57, 60, 62]
    Window features (n=3) : ['roll_mean_7', 'roll_min_7', 'roll_max_7']
    Exog            (n=17) : ['sub_primaryspaceusage', 'timezone', 'sqm', 'airTemperature', 'cloudCoverage', 'dewTemperature', 'seaLvlPressure', 'windDirection', 'windSpeed', 'day_of_week_sin', 'day_of_week_cos', 'week_sin', 'week_cos', 'airTemperature_window_7D_mean', 'windSpeed_window_7D_mean', 'airTemperature_window_14D_mean', 'windSpeed_window_14D_mean']

# Backtesting del forecaster con predictores seleccionados
# ==============================================================================
forecaster = ForecasterRecursiveMultiSeries(
                regressor        = LGBMRegressor(**best_params, random_state=8520, verbose=-1),
                lags             = selected_lags,
                window_features  = window_features,
                transformer_exog = transformer_exog,
                fit_kwargs       = {'categorical_feature': categorical_features},
                encoding         = "ordinal"
            )
cv = TimeSeriesFold(
    initial_train_size = 608 + 60, # Entreanmiento + validación
    steps              = 7,
    refit              = False
)
metrics, predictions = backtesting_forecaster_multiseries(
                          forecaster        = forecaster,
                          series            = series_dict,
                          exog              = {k: v[exog_features] for k, v in exog_dict.items()},
                          cv                = cv,
                          metric            = 'mean_absolute_error',
                          suppress_warnings = True
                      )

display(predictions.head())
display(metrics)

  0%|          | 0/9 [00:00<?, ?it/s]

	level	pred
2017-10-30	Bear_assembly_Angel	9297.191358
2017-10-30	Bear_assembly_Beatrice	996.638961
2017-10-30	Bear_assembly_Danial	4039.385147
2017-10-30	Bear_assembly_Diana	9.180618
2017-10-30	Bear_assembly_Genia	7354.941371

	levels	mean_absolute_error
0	Bear_assembly_Angel	1221.926524
1	Bear_assembly_Beatrice	218.906181
2	Bear_assembly_Danial	325.030420
3	Bear_assembly_Diana	37.261934
4	Bear_assembly_Genia	642.969646
...	...	...
1576	Wolf_retail_Toshia	514.892785
1577	Wolf_science_Alfreda	228.344802
1578	average	343.949561
1579	weighted_average	343.949561
1580	pooling	343.949561

1581 rows × 2 columns

Se ha conseguido reducir el número de predictores sin que el rendimiento del modelo no se ve comprometido. Esto permite simplificar el modelo y acelera el entrenamiento.

Clustering series temporales

La idea que hay detrás de modelar varias series al mismo tiempo es poder capturar los patrones principales que rigen dichas series, reduciendo así el impacto del ruido que pueda haber en cada una de ellas. Esto significa que las series que se comportan de manera similar pueden beneficiarse de ser modelizadas juntas. Una forma de identificar posibles grupos de series es realizar un estudio de +cluatering antes de modelizarlas. Si como resultado del clustering* se identifican grupos claros, es apropiado modelar cada uno de ellos por separado.

El clustering es una técnica de análisis no supervisado que agrupa un conjunto de observaciones en clústeres que contienen observaciones consideradas homogéneas, mientras que las observaciones en diferentes clústeres se consideran heterogéneas. Los algoritmos que agrupan series temporales se pueden dividir en dos grupos: aquellos que utilizan una transformación para crear variables antes de agrupar (clustering de series temporales basado en características) y aquellos que trabajan directamente en las series temporales (medidas de distancia elástica).

Clustering basado en características de series temporales: se extraen variables que describen las características estructurales de cada serie temporal y luego se introducen en algoritmos de clustering. Estas variables se obtienen aplicando operaciones estadísticas que capturan mejor las características subyacentes: tendencia, estacionalidad, periodicidad, correlación serial, asimetría, curtosis, caos, no linealidad y auto-similitud.
Medidas de distancia elástica: este enfoque trabaja directamente en las series temporales, ajustando o «reajustando» las series en comparación con otras. La medida más conocida de esta familia es el Dynamic Time Warping (DTW).

Para un ejemplo detallado de cómo el clustering de series temporales puede mejorar los modelos de forecasting, consulte Modelos de forecasting globales: Análisis comparativo de modelos de una y múltiples series.

Información de sesión

import session_info
session_info.show(html=False)

-----
feature_engine      1.8.3
lightgbm            4.6.0
matplotlib          3.10.1
numpy               2.0.2
optuna              4.2.1
pandas              2.2.3
session_info        1.0.0
skforecast          0.15.1
sklearn             1.5.2
-----
IPython             9.0.2
jupyter_client      8.6.3
jupyter_core        5.7.2
notebook            6.4.12
-----
Python 3.12.9 | packaged by Anaconda, Inc. | (main, Feb  6 2025, 18:56:27) [GCC 11.2.0]
Linux-5.15.0-1077-aws-x86_64-with-glibc2.31
-----
Session information updated at 2025-03-28 14:52

Instrucciones para citar

¿Cómo citar este documento?

Si utilizas este documento o alguna parte de él, te agradecemos que lo cites. ¡Muchas gracias!

Forecasting escalable: modelado de mil de series temporales con un único modelo global por Joaquín Amat Rodrigo y Javier Escobar Ortiz, disponible bajo una licencia Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0 DEED) en https://www.cienciadedatos.net/documentos/py59-modelos-forecasting-escalables.html

¿Cómo citar skforecast?

Si utilizas skforecast, te agradeceríamos mucho que lo cites. ¡Muchas gracias!

Zenodo:

Amat Rodrigo, Joaquin, & Escobar Ortiz, Javier. (2025). skforecast (v0.15.1). Zenodo. https://doi.org/10.5281/zenodo.8382788

APA:

Amat Rodrigo, J., & Escobar Ortiz, J. (2025). skforecast (Version 0.15.1) [Computer software]. https://doi.org/10.5281/zenodo.8382788

BibTeX:

@software{skforecast, author = {Amat Rodrigo, Joaquin and Escobar Ortiz, Javier}, title = {skforecast}, version = {0.15.1}, month = {03}, year = {2025}, license = {BSD-3-Clause}, url = {https://skforecast.org/}, doi = {10.5281/zenodo.8382788} }

¿Te ha gustado el artículo? Tu ayuda es importante

Tu contribución me ayudará a seguir generando contenido divulgativo gratuito. ¡Muchísimas gracias! 😊

Este documento creado por Joaquín Amat Rodrigo y Javier Escobar Ortiz tiene licencia Attribution-NonCommercial-ShareAlike 4.0 International.

Se permite:

Compartir: copiar y redistribuir el material en cualquier medio o formato.
Adaptar: remezclar, transformar y crear a partir del material.

Bajo los siguientes términos:

Atribución: Debes otorgar el crédito adecuado, proporcionar un enlace a la licencia e indicar si se realizaron cambios. Puedes hacerlo de cualquier manera razonable, pero no de una forma que sugiera que el licenciante te respalda o respalda tu uso.
No-Comercial: No puedes utilizar el material para fines comerciales.
Compartir-Igual: Si remezclas, transformas o creas a partir del material, debes distribuir tus contribuciones bajo la misma licencia que el original.

Forecasting escalable: modelado de mil de series temporales con un único modelo global

Joaquín Amat Rodrigo, Javier Escobar Ortiz

Noviembre 2024 (última actualización Marzo 2025)

Introducción

Librerías

Datos

Variables exógenas

Características de los edificios

Variables de calendario

Variables meteorológicas

Rolling features de variables exógenas

Variables categóricas

Modelado y predicción

Búsqueda de hiperparámetros

Backtesting con datos de test

Selección de predictores

Clustering series temporales

Información de sesión

Instrucciones para citar