Análisis de Tendencias en Estadística

El análisis de tendencias es un procedimiento estadístico realizado para evaluar las relaciones lineales y no lineales hipotéticas entre dos variables cuantitativas. Normalmente, se aplica como un análisis de varianza (ANOVA) para variables cuantitativas o como un análisis de regresión.

Se suele utilizar en situaciones en las que se han recogido datos a lo largo del tiempo o en diferentes niveles de una variable, especialmente cuando se ha manipulado una única variable independiente o factor, para observar sus efectos sobre una variable dependiente o variable de respuesta (como en los estudios experimentales). En particular, las medias de una variable dependiente se observan a través de las condiciones, niveles o puntos de la variable independiente manipulada para determinar estadísticamente la forma, el aspecto o la tendencia de dicha relación.

El análisis de tendencias cuantifica y explica las tendencias y patrones de un dato “ruidoso” a lo largo del tiempo. Una tendencia es un cambio ascendente o descendente en un conjunto de datos a lo largo del tiempo.

Necesidad de Comprender y Cuantificar el Cambio

La necesidad de comprender y cuantificar el cambio es fundamental en todas las ciencias. Puede tratarse de describir la variación pasada, comprender los mecanismos que subyacen a los cambios observados, realizar proyecciones de posibles cambios futuros o controlar el efecto de la intervención en algún sistema.

Los profesionales estarán familiarizados con muchos procedimientos estadísticos clásicos para la detección y estimación de tendencias. Sin embargo, la capacidad cada vez mayor de recopilar y procesar grandes cantidades de informaciónha hecho que se tome conciencia de que dichos procedimientos son limitados en cuanto a los conocimientos que pueden aportar.

Tanto si queremos predecir la tendencia de los mercados financieros como el consumo de electricidad, el tiempo es un factor importante que hay que tener en cuenta en nuestros modelos. Por ejemplo, sería interesante prever a qué hora del día se va a producir un pico de consumo de electricidad para ajustar el precio o la producción de electricidad.

Series Temporales

Una serie temporal es simplemente una serie de puntos de datos ordenados en el tiempo. En una serie temporal, el tiempo suele ser la variable independiente y el objetivo suele ser hacer una previsión para el futuro.

Sin embargo, hay otros aspectos que entran en juego cuando se trata de series temporales.

¿Es estacionaria?

¿Existe una estacionalidad?

¿Está la variable objetivo autocorrelacionada?

Autocorrelación

Informalmente, la autocorrelación es la similitud entre las observaciones en función del desfase temporal entre ellas.

Estacionalidad

La estacionalidad se refiere a las fluctuaciones periódicas. Por ejemplo, el consumo de electricidad es alto durante el día y bajo durante la noche o las ventas en línea aumentan durante la Navidad antes de volver a disminuir.

Estacionariedad

Se dice que una serie temporal es estacionaria si sus propiedades estadísticas no cambian con el tiempo. En otras palabras, tiene una media y una varianza constantes y la covarianza es independiente del tiempo.

Búsqueda de tendencias

Existen varias herramientas para analizar las tendencias de los datos. Van desde las relativamente sencillas (como la regresión lineal) hasta herramientas más complejas como la prueba de Mann-Kendall, que puede utilizarse para buscar tendencias no lineales. Otras herramientas populares son las siguientes:

Análisis de autocorrelación: La autocorrelación se produce cuando los términos de error de una serie temporal se transfieren de un periodo a otro.

Ajuste de curvas: Es útil para modelar tendencias específicas. Por ejemplo, puede intentar ajustar una curva de crecimiento como una distribución de Gompertz a sus datos.

Filtrado o suavizado: El filtrado extrae una tendencia de un conjunto de datos ruidosos, mientras que el suavizado asigna un peso (es decir, una mayor prioridad) a los datos más recientes.

La prueba Kwiatkowski-Phillips-Schmidt-Shin (KPSS) determina si una serie temporal es estacionaria en torno a una media o tendencia lineal o si es no estacionaria debido a una raíz unitaria.

El MANCOVA (análisis multivariante de covarianza) es el equivalente multivariante del ANCOVA. Indica si las diferencias de grupo se han producido probablemente por azar o si existe una tendencia repetible.

La prueba de Kendall estacional (prueba SK) analiza los datos en busca de tendencias monótonas en los datos estacionales.

Establecimiento de tendencias

Se han desarrollado varias pruebas de hipótesis estadísticas para explorar si hay algo más interesante en uno o más conjuntos de datos que lo que cabría esperar de las fluctuaciones fortuitas del ruido gaussiano. La más sencilla de estas pruebas se conoce como regresión lineal o mínimos cuadrados ordinarios.

La idea básica es que probamos una hipótesis alternativa que postula una relación lineal entre la variable independiente (la llamaremos x) y la variable dependiente (usaremos la variable genérica y).

El modelo estadístico subyacente para los datos es:

yi=a+b⋅χi+εi

Donde i va de 1 a N, a es el intercepto de la relación lineal entre y y x, b es la pendiente de esa relación y ε es una secuencia de ruido aleatorio. La suposición más sencilla es que ε es ruido blanco gaussiano, pero a veces nos veremos obligados a relajar esa suposición.

Regresión Lineal

La regresión lineal determina los valores de a y b que mejor se ajustan a los datos dados minimizando la suma de las diferencias al cuadrado entre las observaciones y y los valores predichos por el modelo lineal yˆ=a+bx. Los residuos son nuestra estimación de la variación de los datos que no se explica por la relación lineal y se definen como:

εi=yi-yˆi

Para la regresión lineal simple, es decir, los mínimos cuadrados ordinarios, las estimaciones de a y b se obtienen fácilmente:

b=[N⋅Σyixi-Σyi⋅Σxi][N⋅Σxi2-Σ(xi)2]

a=(1N/)⋅Σyi-bN⋅Σxi

El parámetro que más nos interesa es b, ya que es el que determina si existe o no una relación lineal significativa entre y y x.

Incertidumbre Muestral

La incertidumbre muestral en b también se puede obtener fácilmente:

σb=std(ε)[Σ(xi-μ(x))2]12

Donde std(ε) es la desviación estándar de ε y μ es la media de x. Una tendencia estadísticamente significativa equivale a la constatación de que b es significativamente diferente de cero. El intervalo de confianza del 95% para b viene dado por b±2σb . Si este intervalo no cruza el cero, entonces se puede concluir que b es significativamente diferente de cero. Alternativamente, podemos medir la significación en términos del coeficiente de correlación lineal, r , entre las variables independiente y dependiente, que se relaciona con b mediante:

r=b⋅std(x)std(y)

r se calcula directamente a partir de los datos:

r=(1N-1/)⋅Σ(x-x¯)(y-y¯)std(x)⋅std(y)

Donde la barra superior indica la media. A diferencia de b, que tiene dimensiones (por ejemplo, grados °C por año en el caso en que y es la temperatura y x es el tiempo), r es convenientemente un número adimensional cuyo valor absoluto está entre 0 y 1. Cuanto mayor sea el valor de r (ya sea positivo o negativo), más significativa es la tendencia. De hecho, el cuadrado de r (r2) es una medida de la fracción de variación de los datos que se explica por la tendencia.

El Valor p

Medimos la importancia de cualquier tendencia detectada en términos de un valor p. El valor p es una estimación de la probabilidad de que rechacemos erróneamente la hipótesis nula de que no hay tendencia en los datos a favor de la hipótesis alternativa de que hay una tendencia lineal en los datos, la señal que estamos buscando en este caso.

Por lo tanto, cuanto más pequeño sea el valor p, menos probable será que se observe una tendencia tan grande como la que se encuentra en los datos a partir de las fluctuaciones aleatorias por sí solas. Por convención, a menudo se requiere que p<0,05 para concluir que hay una tendencia significativa (es decir, que sólo el 5% de las veces se habría producido dicha tendencia por mera casualidad), pero no es un número mágico.

Media móvil

El modelo de media móvil es probablemente el enfoque más ingenuo de la modelización de series temporales. Este modelo establece simplemente que la siguiente observación es la media de todas las observaciones pasadas.

Aunque es simple, este modelo puede ser sorprendentemente bueno y representa un buen punto de partida.

Por otra parte, la media móvil puede utilizarse para identificar tendencias interesantes en los datos. Podemos definir una ventana para aplicar el modelo de media móvil para suavizar la serie temporal y destacar las diferentes tendencias.

Suavizado exponencial

El suavizado exponencial utiliza una lógica similar a la de la media móvil, pero esta vez se asigna un peso decreciente diferente a cada una de las observaciones. En otras palabras, se da menos importancia a las observaciones a medida que nos alejamos del presente.

Suavizado exponencial doble

El alisamiento exponencial doble se utiliza cuando hay una tendencia en la serie temporal. En ese caso, utilizamos esta técnica, que no es más que un uso recursivo del alisamiento exponencial dos veces.

Alisamiento exponencial triple

Este método amplía el alisamiento exponencial doble, añadiendo un factor de alisamiento estacional. Por supuesto, esto es útil si se observa estacionalidad en las series temporales.

Modelo de media móvil autorregresiva estacional integrada (SARIMA)

SARIMA es en realidad la combinación de modelos más sencillos para crear un modelo complejo que pueda modelar series temporales que presenten propiedades no estacionarias y de estacionalidad.

Puntos débiles potenciales del análisis de tendencias

Aunque el análisis de tendencias puede ser extremadamente útil en muchas aplicaciones, desde el cambio climático hasta el análisis sociológico, es importante tener en cuenta que no es infalible. En particular:

Todos los datos (a menos que se recojan a través de un censo de población) están expuestos a errores de muestreo. El alcance de este problema aumentará cuando se utilicen métodos de muestreo gruesos (por ejemplo, el muestreo de conveniencia).

Es probable que los datos estén sujetos a errores de medición aleatorios, sistemáticos o externos. Las tendencias de este error pueden confundirse con las tendencias de los datos reales.

Las tendencias “fantasma” a corto plazo, existen incluso en la más aleatoria de las secuencias de números, por lo que las tendencias deben seguirse durante el mayor tiempo posible.

Además, no encontrar ninguna tendencia puede significar que no hay tendencia, pero también puede significar que los datos son insuficientes para iluminar una tendencia que sí existe.

Nuestros especialistas esperan por ti para que los contactes a través del formulario de cotización o del chat directo. También contamos con canales de comunicación confidenciales como WhatsApp y Messenger. Y si quieres estar al tanto de nuestros novedosos servicios y las diferentes ventajas de contratarnos, síguenos en Facebook, Instagram o Twitter.

Si este artículo fue de tu agrado, no olvides compartirlo por tus redes sociales.

Referencias Bibliográficas

Chandler, R. & Scott, M. (2011). Statistical Methods for Trend Detection and Analysis in the Environmental Sciences. John Wiley & Sons.

Shea, Dennis, & National Center for Atmospheric Research Staff (Eds). Last modified 05 Sep 2014. “The Climate Data Guide: Trend Analysis.

Stephanie Glen. “Trend Analysis: Simple Definition, Examples” From StatisticsHowTo.com: Elementary Statistics for the rest of us! En: https://www.statisticshowto.com/trend-analysis/

También te puede interesar. Análisis del Marco Teórico

Análisis de Tendencias. Foto: Unsplash. Créditos: Mira Kireeva

Análisis de Tendencias en Estadística

Necesidad de Comprender y Cuantificar el Cambio