Modelos de forecasting globales: Análisis comparativo de modelos de una y múltiples series

Si te gusta  Skforecast , ayúdanos dándonos una estrella en  GitHub! ⭐️

Modelos de forecasting globales: Análisis comparativo de modelos de una y múltiples series

Joaquín Amat Rodrigo, Javier Escobar Ortiz
Diciembre, 2023 (última actualización Agosto 2024)

Introducción

En casos de uso en los que se necesita predecir cientos o miles de series temporales ¿se debe desarrollar un modelo individual para cada serie o un único modelo capaz de predecir todas las series a la vez?

En los modelo de forecasting locales, se crea un modelo independiente para cada serie temporal. Aunque este método proporciona una comprensión exhaustiva de cada serie, su escalabilidad puede verse dificultada por la necesidad de crear y mantener cientos o miles de modelos.

El modelo de forecasting global consiste en crear un único modelo que tenga en cuenta todas las series temporales simultáneamente. Intenta captar los patrones comunes que rigen las series, mitigando así el ruido que pueda introducir cada serie. Este enfoque es eficiente desde el punto de vista computacional, fácil de mantener y puede producir generalizaciones más sólidas, aunque potencialmente a costa de sacrificar algunos aspectos individuales.

Para ayudar a comprender las ventajas de cada estrategia de forecasting, este documento examina y compara los resultados obtenidos al predecir el consumo energético de más de mil edificios utilizando el conjunto de datos ASHRAE - Great Energy Predictor III disponible en Kaggle.

El forecasting con modelos globales parte de la base de que las series que se comportan de forma similar pueden beneficiarse de ser modelizadas conjuntamente. Aunque el uso principal de cada edificio está disponible en el conjunto de datos, puede que no refleje grupos con patrones similares de consumo de energía, por lo que se crean grupos adicionales utilizando métodos de clustering. Se realizan un total de 5 experimentos:

  • Forecasting individual de cada edificio.

  • Forecasting de todos los edificios juntos con una única estrategia de modelo global.

  • Forecasting de grupos de edificios en función de su uso principal (un modelo global por uso principal).

  • Forecasting de grupos de edificios basada en la agrupación de características de series temporales (un modelo global por agrupación).

  • Forecasting de grupos de edificios basada en la agrupación por Dynamic Time Warping (DTW) (un modelo global por agrupación).

El consumo de energía de cada edificio se predice semanalmente (resolución diaria) durante 13 semanas siguiendo cada estrategia. La eficacia de cada enfoque se evalúa utilizando varias métricas de rendimiento, como el error absoluto medio (MAE), el error absoluto y el sesgo. El objetivo del estudio es identificar el enfoque más eficaz tanto para las predicciones globales como para un grupo específico de edificios.

✎ Note

Si prefieres una visión general rápida antes de sumergirte en los detalles, considera comenzar con la sección de Conclusiones. Este enfoque te permite adaptar tu lectura a tus intereses y limitaciones de tiempo, y resume nuestros hallazgos e ideas. Después de leer las conclusiones, es posible que encuentres ciertas secciones particularmente relevantes o interesantes. Siéntete libre de navegar directamente a esas partes del artículo para una comprensión más profunda.

✎ Note

Este documento se centra en un caso de uso. Para una descripción detallada de las muchas características que skforecast proporciona para la construcción de modelos de forecasting globales, consulta Modelos de forecasting globales: Modelado de múltiples series temporales con machine learning.

Librerías

Librerías utilizadas en este documento.

In [1]:
# Manipulación de datos
# ==============================================================================
import numpy as np
import pandas as pd
from datetime import datetime

# Gráficos
# ==============================================================================
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker
plt.style.use('seaborn-v0_8-darkgrid')
from tqdm.auto import tqdm

# Forecasting
# ==============================================================================
import lightgbm
from lightgbm import LGBMRegressor
from sklearn.preprocessing import StandardScaler
import skforecast
from skforecast.ForecasterAutoreg import ForecasterAutoreg
from skforecast.model_selection import backtesting_forecaster
from skforecast.ForecasterAutoregMultiSeries import ForecasterAutoregMultiSeries
from skforecast.model_selection_multiseries import backtesting_forecaster_multiseries

# Feature engineering
# ==============================================================================
import tsfresh
from tsfresh import extract_features
from tsfresh import select_features
from tsfresh.feature_extraction.settings import ComprehensiveFCParameters
from tsfresh.feature_extraction.settings import from_columns

# Clustering
# ==============================================================================
import sklearn
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
import tslearn
from tslearn.clustering import TimeSeriesKMeans

# Warnings
# ==============================================================================
import warnings
warnings.filterwarnings('once')

color = '\033[1m\033[38;5;208m' 
print(f"{color}Versión skforecast: {skforecast.__version__}")
print(f"{color}Versión scikit-learn: {sklearn.__version__}")
print(f"{color}Versión lightgbm: {lightgbm.__version__}")
print(f"{color}Versión tsfresh: {tsfresh.__version__}")
print(f"{color}Versión tslearn: {tslearn.__version__}")
print(f"{color}Versión pandas: {pd.__version__}")
print(f"{color}Versión numpy: {np.__version__}")
Versión skforecast: 0.13.0
Versión scikit-learn: 1.5.1
Versión lightgbm: 4.4.0
Versión tsfresh: 0.20.2
Versión tslearn: 0.6.3
Versión pandas: 2.2.2
Versión numpy: 1.26.4

Warning

En el momento de escribir este documento, tslearn solo es compatible con versiones de numpy inferiores a 2.0. Si tienes una versión superior, puedes reducirla ejecutando el siguiente comando: pip install numpy==1.26.4

Datos

Los datos utilizados en este documento se han obtenido de la competición de Kaggle Addison Howard, Chris Balbach, Clayton Miller, Jeff Haberl, Krishnan Gowri, Sohier Dane. (2019). ASHRAE - Great Energy Predictor III. Kaggle.

Tres archivos se utilizan para crear el conjunto de datos de modelado:

  • weather_train.csv y weather_test.csv: Estos archivos contienen datos relacionados con el clima para cada edificio, incluida la temperatura del aire exterior, la temperatura de rocío, la humedad relativa y otros parámetros meteorológicos. Los datos meteorológicos son cruciales para comprender el impacto de las condiciones externas en el uso de energía de los edificios.

  • building_metadata.csv: este archivo proporciona metadatos para cada edificio en el conjunto de datos, como el tipo de edificio, el uso principal, el metraje cuadrado, el número de pisos y el año de construcción. Esta información ayuda a comprender las características de los edificios y su posible influencia en los patrones de consumo de energía.

  • train.csv: el conjunto de datos de entrenamiento contiene la variable objetivo, es decir, los datos de consumo de energía para cada edificio, junto con las fechas de las lecturas de consumo de energía. También incluye los identificadores de edificio y clima correspondientes para vincular la información en diferentes conjuntos de datos.

Los tres archivos se han preprocesado para eliminar los edificios con menos del 85% de valores diferentes de NaN o cero, para utilizar solo el medidor de electricidad y para agregar los datos a una frecuencia diaria.

In [2]:
# Lectura de datos
# ==============================================================================
url = 'https://drive.google.com/uc?id=1fMsYjfhrFLmeFjKG3jenXjDa5s984ThC'
data = pd.read_parquet(url)
print("Data shape:", data.shape)
data.head()
Data shape: (444324, 10)
Out[2]:
building_id meter_reading site_id primary_use square_feet air_temperature dew_temperature sea_level_pressure wind_direction wind_speed
timestamp
2016-01-01 id_105 1102.766933 1 Education 50623 3.8 2.4 1020.9 240.0 3.1
2016-01-01 id_106 17.606200 1 Education 5374 3.8 2.4 1020.9 240.0 3.1
2016-01-01 id_107 8233.625107 1 Education 97532 3.8 2.4 1020.9 240.0 3.1
2016-01-01 id_108 4289.478432 1 Education 81580 3.8 2.4 1020.9 240.0 3.1
2016-01-01 id_109 3911.921989 1 Education 56995 3.8 2.4 1020.9 240.0 3.1
In [3]:
# Imputar valores faltantes de air_temperature y wind_speed usando fowrard y backward fill
# ==============================================================================
# La imputación debe hacerse por separado para cada edificio
data = data.sort_values(by=['building_id', 'timestamp'])
data['air_temperature'] = data.groupby('building_id')['air_temperature'].ffill().bfill()
data['wind_speed'] = data.groupby('building_id')['wind_speed'].ffill().bfill()
data = data.sort_index()

print(
    f"Rango de fechas disponibles : {data.index.min()} --- {data.index.max()}  "
    f"(n_días={(data.index.max() - data.index.min()).days})"
)
Rango de fechas disponibles : 2016-01-01 00:00:00 --- 2016-12-31 00:00:00  (n_días=365)

Análisis exploratorio de datos

Uso principal de los edificios

Uno de los atributos clave asociados con cada edificio es su uso designado. Esta característica puede desempeñar un papel crucial en la influencia del patrón de consumo de energía, ya que los usos distintos pueden impactar significativamente tanto en la cantidad como en el momento del consumo de energía.

In [4]:
# Número de edificios y tipo de edificios basado en el uso principal
# ==============================================================================
n_building = data['building_id'].nunique()
n_type_building = data['primary_use'].nunique()
range_datetime = [data.index.min(), data.index.max()]

print(f"Número de edificios: {n_building}")
print(f"Número de tipos de edificios: {n_type_building}")
display(data.drop_duplicates(subset=['building_id'])['primary_use'].value_counts())
Número de edificios: 1214
Número de tipos de edificios: 16
primary_use
Education                        463
Office                           228
Entertainment/public assembly    157
Public services                  150
Lodging/residential              112
Healthcare                        19
Other                             19
Parking                           13
Warehouse/storage                 12
Manufacturing/industrial          10
Services                           9
Food sales and service             5
Retail                             5
Technology/science                 5
Utility                            4
Religious worship                  3
Name: count, dtype: int64

Para algunas categorías de uso principal, hay un número limitado de edificios dentro del conjunto de datos. Para simplificar el análisis, las categorías con menos de 100 edificios se agrupan en la categoría "Other".

In [5]:
# Tipos de edificios (primary use) con menos de 100 muestras se agrupan como "Other".
# ==============================================================================
infrequent_categories = (
    data
    .drop_duplicates(subset=['building_id'])['primary_use']
    .value_counts()
    .loc[lambda x: x < 100]
    .index
    .tolist()
)
print(f"Infrequent categories:")
print("======================")
print('\n'.join(infrequent_categories))

data['primary_use'] = np.where(
    data['primary_use'].isin(infrequent_categories),
    'Other',
    data['primary_use']
)
Infrequent categories:
======================
Healthcare
Other
Parking
Warehouse/storage
Manufacturing/industrial
Services
Food sales and service
Retail
Technology/science
Utility
Religious worship

A continuación, se crea un gráfico que muestra el consumo de energía para un edificio seleccionado al azar dentro de cada categoría respectiva, y un gráfico de todas las series temporales disponibles para cada categoría.

In [6]:
# Series temporales para 1 edificio seleccionado al azar por grupo
# ==============================================================================
fig, axs = plt.subplots(nrows=3, ncols=2, figsize=(8, 5.5), sharex=True, sharey=False)
sample_ids = (
    data
    .groupby('primary_use')['building_id']
    .apply(lambda x: x.sample(1, random_state=333))
    .tolist()
)
axs = axs.flatten()

for i, building_id in enumerate(sample_ids):
    data_sample = data[data['building_id'] == building_id]
    building_type = data_sample['primary_use'].unique()[0]
    data_sample.plot(
        y        = 'meter_reading',
        ax       = axs[i],
        legend   = False,
        title    = f"Edificio: {building_id}, tipo: {building_type}",
        fontsize = 8
    )
    axs[i].set_xlabel("")
    axs[i].set_ylabel("")
    # Scientific notation for y axis
    axs[i].ticklabel_format(axis='y', style='sci', scilimits=(0, 0))
    axs[i].title.set_size(9)

fig.suptitle('Consumo de energía para 6 edificios aleatorios', fontsize=12)
fig.tight_layout()
plt.show()
In [7]:
# Consumo de energía por tipo de edificio (una línea gris por edificio)
# ==============================================================================
fig, axs = plt.subplots(nrows=3, ncols=2, figsize=(8, 5.5), sharex=True, sharey=False)
axs = axs.flatten()

for i, building_type in enumerate(data['primary_use'].unique()):
    data_sample = data[data['primary_use'] == building_type]
    data_sample = data_sample.pivot_table(
                      index   = 'timestamp',
                      columns = 'building_id',
                      values  = 'meter_reading',
                      aggfunc = 'mean'
                  )
    data_sample.plot(
        legend = False,
        title  = f"Tipo: {building_type}",
        color  = 'gray',
        alpha  = 0.2,
        fontsize = 8,
        ax     = axs[i]
    )
    data_sample.mean(axis=1).plot(
        ax     = axs[i],
        color  = 'blue',
        fontsize = 8
    )
    axs[i].set_xlabel("")
    axs[i].set_ylabel("")
    axs[i].ticklabel_format(axis='y', style='sci', scilimits=(0,0))
    axs[i].title.set_size(9)

    # Limitar el eje y a 5 veces el valor medio máximo para mejorar la visualización
    axs[i].set_ylim(
        bottom = 0,
        top    = 5 * data_sample.mean(axis=1).max()
    )

fig.tight_layout()
fig.suptitle('Consumo de energía por tipo de edificio', fontsize=12)
plt.subplots_adjust(top=0.9)
plt.show()

El gráfico revela que hay una variabilidad notable en los patrones de consumo entre edificios del mismo propósito. Esto sugiere que puede haber margen para mejorar los criterios por los que se agrupan los edificios.

Clustering por los patrones de consumo de energía

La idea detrás de modelar múltiples series de forma conjunta es poder capturar los patrones principales que rigen las series, reduciendo así el impacto del ruido que cada serie pueda tener. Esto significa que las series que se comportan de manera similar pueden beneficiarse de ser modelizadas juntas. Una forma de identificar posibles grupos de series es realizar un estudio de clustering antes de modelizar. Si como resultado del clustering se identifican grupos claros, es apropiado modelar cada uno de ellos por separado.

El clustering es una técnica de análisis no supervisado que agrupa un conjunto de observaciones en clústeres que contienen observaciones consideradas homogéneas, mientras que las observaciones en diferentes clústeres se consideran heterogéneas. Los algoritmos que agrupan series temporales se pueden dividir en dos grupos: aquellos que utilizan una transformación para crear variables antes de agrupar (clustering de series temporales basado en características) y aquellos que trabajan directamente en las series temporales (medidas de distancia elástica).

  • Clustering basado en características de series temporales: Se extraen varaibles que describen las características estructurales de cada serie temporal, y luego estas variables se introducen en algoritmos de clustering. Estas variables se obtienen aplicando operaciones estadísticas que capturan mejor las características subyacentes: tendencia, estacionalidad, periodicidad, correlación serial, asimetría, curtosis, caos, no linealidad y auto-similitud.

  • Medidas de distancia elástica: Este enfoque trabaja directamente en las series temporales, ajustando o "reajustando" las series en comparación con otras. La más conocida de esta familia de medidas es Dynamic Time Warping (DTW).

Para información más detallada sobre el clustering de series temporales, consulta A review and evaluation of elastic distance functions for time series clustering.

Clustering basado en características de series temporales

Extracción de variables

tsfresh es una librería de Python para extraer variables de series temporales y datos secuenciales, que incluye medidas estadísticas, coeficientes de Fourier y otras variables en el dominio del tiempo y de la frecuencia. Proporciona un enfoque sistemático para automatizar el cálculo de variables y seleccionar las más informativas.

Para empezar, se utiliza la configuración predeterminada de tsfresh, que calcula todas las variables disponibles. La forma más sencilla de acceder a esta configuración es utilizar las funciones proporcionadas por la clase ComprehensiveFCParameters. Esta función crea un diccionario que asocia el nombre de cada característica a una lista de parámetros que se utilizarán cuando se llame a la función con ese nombre.

In [8]:
# Variables por defecto 
# ==============================================================================
default_features = ComprehensiveFCParameters()
print("Nombre de las variables extraídas por tsfresh:")
print("===================================================")
print('\n'.join(list(default_features)))
Nombre de las variables extraídas por tsfresh:
===================================================
variance_larger_than_standard_deviation
has_duplicate_max
has_duplicate_min
has_duplicate
sum_values
abs_energy
mean_abs_change
mean_change
mean_second_derivative_central
median
mean
length
standard_deviation
variation_coefficient
variance
skewness
kurtosis
root_mean_square
absolute_sum_of_changes
longest_strike_below_mean
longest_strike_above_mean
count_above_mean
count_below_mean
last_location_of_maximum
first_location_of_maximum
last_location_of_minimum
first_location_of_minimum
percentage_of_reoccurring_values_to_all_values
percentage_of_reoccurring_datapoints_to_all_datapoints
sum_of_reoccurring_values
sum_of_reoccurring_data_points
ratio_value_number_to_time_series_length
sample_entropy
maximum
absolute_maximum
minimum
benford_correlation
time_reversal_asymmetry_statistic
c3
cid_ce
symmetry_looking
large_standard_deviation
quantile
autocorrelation
agg_autocorrelation
partial_autocorrelation
number_cwt_peaks
number_peaks
binned_entropy
index_mass_quantile
cwt_coefficients
spkt_welch_density
ar_coefficient
change_quantiles
fft_coefficient
fft_aggregated
value_count
range_count
approximate_entropy
friedrich_coefficients
max_langevin_fixed_point
linear_trend
agg_linear_trend
augmented_dickey_fuller
number_crossing_m
energy_ratio_by_chunks
ratio_beyond_r_sigma
linear_trend_timewise
count_above
count_below
lempel_ziv_complexity
fourier_entropy
permutation_entropy
query_similarity_count
mean_n_absolute_max

Muchas de las variables se calculan utilizando diferentes valores para sus argumentos.

In [9]:
# Configuración por defecto para "partial_autocorrelation"
# ==============================================================================
default_features['partial_autocorrelation']
Out[9]:
[{'lag': 0},
 {'lag': 1},
 {'lag': 2},
 {'lag': 3},
 {'lag': 4},
 {'lag': 5},
 {'lag': 6},
 {'lag': 7},
 {'lag': 8},
 {'lag': 9}]

Para acceder a la vista detallada de cada característica y los valores de los parámetros incluidos en la configuración predeterminada, utilice el siguiente código:

In [10]:
# Configuración por defecto para todas las variables
# ==============================================================================
# from pprint import pprint
# pprint(default_features)

Una vez que se ha definido la configuración de las variables, el siguiente paso es extraerlas de las series temporales. Para ello, se utiliza la función extract_features() de tsfresh. Esta función recibe como entrada la o las series temporales y la configuración de las variables a extraer. La salida es un dataframe con las variables extraídas.

In [11]:
# Extracción de variables
# ==============================================================================
ts_features = extract_features(
    timeseries_container  = data[['building_id', 'meter_reading']].reset_index(),
    column_id             = "building_id",
    column_sort           = "timestamp",
    column_value          = "meter_reading",
    default_fc_parameters = default_features,
    impute_function       = tsfresh.utilities.dataframe_functions.impute,
    n_jobs                = 4
)

print("Dimensiones de ts_features:", ts_features.shape)
ts_features.head(3)
Feature Extraction:   0%|          | 0/20 [00:00<?, ?it/s]Feature Extraction: 100%|██████████| 20/20 [01:31<00:00,  4.56s/it]
Dimensiones de ts_features: (1214, 783)
Out[11]:
meter_reading__variance_larger_than_standard_deviation meter_reading__has_duplicate_max meter_reading__has_duplicate_min meter_reading__has_duplicate meter_reading__sum_values meter_reading__abs_energy meter_reading__mean_abs_change meter_reading__mean_change meter_reading__mean_second_derivative_central meter_reading__median ... meter_reading__fourier_entropy__bins_5 meter_reading__fourier_entropy__bins_10 meter_reading__fourier_entropy__bins_100 meter_reading__permutation_entropy__dimension_3__tau_1 meter_reading__permutation_entropy__dimension_4__tau_1 meter_reading__permutation_entropy__dimension_5__tau_1 meter_reading__permutation_entropy__dimension_6__tau_1 meter_reading__permutation_entropy__dimension_7__tau_1 meter_reading__query_similarity_count__query_None__threshold_0.0 meter_reading__mean_n_absolute_max__number_of_maxima_7
id_1000 1.0 0.0 0.0 1.0 5.424863e+05 8.444178e+08 235.994991 0.332875 -0.255837 1515.625595 ... 0.170467 0.260704 0.780228 1.515622 2.520615 3.496026 4.341908 5.045132 0.0 2144.607384
id_1001 1.0 0.0 0.0 1.0 2.543133e+05 4.114736e+08 212.298183 -0.049314 0.026097 304.500150 ... 0.090729 0.090729 0.700821 1.752526 3.047478 4.335947 5.282052 5.727711 0.0 2871.142857
id_1002 1.0 0.0 0.0 1.0 1.409981e+06 6.255919e+09 960.832035 3.226027 -0.308379 3649.003765 ... 0.488746 0.765782 2.650153 1.747629 3.035159 4.431478 5.394148 5.780678 0.0 7882.572432

3 rows × 783 columns

Como resultado del proceso de extracción, se han creado 783 variables para cada serie temporal (building_id en este caso). El dataframe devuelto tiene como índice la columna especificada en el argumento column_id de extract_features.

La extracción por defecto de tsfresh genera un gran número de variables. Sin embargo, solo unas pocas pueden ser de interés en cada caso de uso. Para seleccionar las más relevantes, tsfresh incluye un proceso de selección automatizado basado en test de hipótesis (FeatuRE Extraction based on Scalable Hypothesis tests).

Warning

El proceso de selección utilizado por tsfresh se basa en la importancia de cada característica para predecir con exactitud la variable objetivo. Para realizar este proceso, se necesita una variable objetivo, por ejemplo, el tipo de edificio asociado a una serie temporal determinada. Sin embargo, hay casos en los que no se dispone fácilmente de una variable objetivo. En tales casos, pueden utilizarse estrategias alternativas:
  • En lugar de calcular todas las variables estándar, calcular sólo las que puedan ser relevantes para la aplicación específica, basándose en los conocimientos de los expertos.
  • Excluir variables basadas en criterios como baja varianza y alta correlación. Esto ayuda a refinar el conjunto de variables a considerar, centrándose en aquellas que proporcionan la información más relevante para el análisis.
  • Utilizar técnicas como PCA, t-SNE o autocodificadores para reducir la dimensionalidad.

Como la selección de variables es un paso crítico que afecta a la información disponible para los siguientes pasos del análisis, es recomendable entender los parámetros que controlan el comportamiento de select_features().

  • X: DataFrame con las variables creadas con extract_features. Puede contener variables tanto binarias como de valor real al mismo tiempo.
  • y: Vector objetivo que se necesita para probar qué variables son relevantes. Puede ser binario o de valor real.
  • test_for_binary_target_binary_feature: Prueba que se utilizará cuando el objetivo es binario y la característica es binaria. Actualmente no se usa, valor predeterminado 'fisher'.
  • test_for_binary_target_real_feature: Prueba que se utilizará cuando el objetivo es binario y la característica es continua (valor real). Valor predeterminado 'mann'.
  • test_for_real_target_binary_feature: Prueba que se utilizará cuando el objetivo es continuo (valor real) y la característica es binaria. Actualmente no se usa, valor predeterminado 'mann'.
  • test_for_real_target_real_feature: Prueba que se utilizará cuando el objetivo es continuo (valor real) y la característica es continua (valor real). Actualmente no se usa, valor predeterminado 'kendall'.
  • fdr_level: El nivel de FDR que debe respetarse, este es el porcentaje teórico esperado de variables irrelevantes entre todas las variables creadas. Valor predeterminado 0.05.
  • hypotheses_independent: ¿Se puede suponer que la significancia de las variables es independiente? Normalmente, esto debe establecerse en False, ya que las variables nunca son independientes (por ejemplo, media y mediana). Valor predeterminado False.
  • n_jobs: Número de procesos a utilizar durante el cálculo del valor p. Valor predeterminado 4.
  • show_warnings: Mostrar advertencias durante el cálculo del valor p (necesario para la depuración de los calculadores). Valor predeterminado False.
  • chunksize: El tamaño de un chunk que se envía al proceso de trabajo para la paralelización. Donde un chunk se define como los datos para una característica. Si estableces el chunksize en 10, significa que una tarea es filtrar 10 variables. Si se establece en None, dependiendo del distribuidor, se utilizan heurísticas para encontrar el tamaño óptimo de chunk. Si recibes excepciones de falta de memoria, puedes probar con el distribuidor dask y un chunksize más pequeño. Valor predeterminado None.
  • ml_task: La tarea de machine learning prevista. Puede ser ‘classification’, ‘regression’ o ‘auto’. El valor predeterminado es ‘auto’, lo que significa que la tarea prevista se infiere a partir de y. Si y tiene un tipo de datos booleano, entero u objeto, se asume que la tarea es clasificación, de lo contrario, regresión. Valor predeterminado 'auto'.
  • multiclass: Si el problema es de clasificación multiclase. Esto modifica la forma en que se seleccionan las variables. La clasificación multiclase requiere que las variables sean estadísticamente significativas para predecir n_significant variables. Valor predeterminado False.
  • n_significant: El número de clases para las cuales las variables deben ser predictores estadísticamente significativos para ser consideradas ‘relevantes’. Solo especificar cuando multiclass=True. Valor predeterminado 1.

Warning

El orden del índice devuelto en el dataframe de variables no es el mismo que el orden de las columnas en el dataframe original. Por lo tanto, los datos pasados al argumento y en select_features deben estar ordenados para garantizar la correcta asociación entre las variables y la variable objetivo.
In [12]:
# Seleccionar caracteristicas relecantes
# ==============================================================================
target = (
    data[['building_id', 'primary_use']]
    .drop_duplicates()
    .set_index('building_id')
    .loc[ts_features.index, :]
    ['primary_use']
)

assert ts_features.index.equals(target.index)

ts_features_selected = select_features(
    X = ts_features,
    y = target,
    fdr_level = 0.001 # Un filtrado muy estricto
)

ts_features_selected.index.name = 'building_id'
print(f"Número de variables antes de la selección: {ts_features.shape[1]}")
print(f"Número de variables tras la selección: {ts_features_selected.shape[1]}")
ts_features_selected.head()
Número de variables antes de la selección: 783
Número de variables tras la selección: 457
Out[12]:
meter_reading__fft_coefficient__attr_"real"__coeff_52 meter_reading__fft_coefficient__attr_"real"__coeff_54 meter_reading__fft_coefficient__attr_"abs"__coeff_52 meter_reading__fft_coefficient__attr_"abs"__coeff_54 meter_reading__fft_coefficient__attr_"imag"__coeff_52 meter_reading__fft_coefficient__attr_"real"__coeff_53 meter_reading__cwt_coefficients__coeff_13__w_2__widths_(2, 5, 10, 20) meter_reading__fft_coefficient__attr_"abs"__coeff_51 meter_reading__partial_autocorrelation__lag_8 meter_reading__fft_coefficient__attr_"real"__coeff_51 ... meter_reading__fft_aggregated__aggtype_"skew" meter_reading__fft_coefficient__attr_"real"__coeff_70 meter_reading__fft_coefficient__attr_"imag"__coeff_9 meter_reading__fft_aggregated__aggtype_"centroid" meter_reading__fft_coefficient__attr_"imag"__coeff_96 meter_reading__fft_coefficient__attr_"real"__coeff_19 meter_reading__number_peaks__n_10 meter_reading__ratio_beyond_r_sigma__r_0.5 meter_reading__index_mass_quantile__q_0.6 meter_reading__large_standard_deviation__r_0.25
building_id
id_1000 -43074.519495 15596.933094 47584.386245 15727.156152 20220.276570 17067.039047 1079.240903 17715.628669 -0.382448 -15096.668908 ... 1.201055 159.119510 -3191.297602 38.152192 1106.287865 -2352.230884 17.0 0.696721 0.612022 0.0
id_1001 -7628.816978 -3911.939557 15873.642987 5032.296389 13920.261966 5925.520985 6.877930 13676.871037 -0.120301 2475.852684 ... 0.969957 -4138.987801 4257.388873 48.266915 -772.445893 -4623.990926 16.0 0.724044 0.581967 1.0
id_1002 -19168.921389 12392.682219 36069.190566 15379.633893 30553.869818 30522.230317 -643.816123 11208.568040 -0.055535 -6106.134034 ... 0.775965 -4475.278772 14149.232678 54.305618 -11976.100060 22628.461765 16.0 0.729508 0.576503 0.0
id_1003 -30259.389852 14004.997345 30879.572926 23761.466488 -6157.706543 12778.366490 544.708620 29662.381954 -0.171598 -20781.529348 ... 1.306953 -4272.822854 -1846.209559 35.748746 317.775756 1231.871456 16.0 0.620219 0.581967 0.0
id_1004 -251461.502332 90357.768462 267714.847953 90357.948689 91860.506529 66282.694494 3956.360745 80049.075009 -0.162121 -67609.908104 ... 1.023724 35709.830232 -37068.728064 42.108670 -17303.296473 14107.779485 14.0 0.636612 0.560109 0.0

5 rows × 457 columns