El análisis de regresión es un conjunto de métodos estadísticos utilizados para la estimación de las relaciones entre una variable dependiente y una o más variables independientes. Puede utilizarse para evaluar la fuerza de la relación entre las variables y para modelar la relación futura entre ellas.

El análisis de regresión incluye diversas variantes como la regresión lineal, la lineal múltiple y la no lineal. Sin embargo, los modelos más comunes son la regresión lineal simple y la regresión lineal múltiple. El análisis de regresión no lineal se suele utilizar para conjuntos de datos más complicados en los que las variables dependientes e independientes muestran una relación no lineal.

El análisis de regresión ofrece numerosas aplicaciones en diversas disciplinas, incluidas las finanzas.

Análisis de regresión – Supuestos del modelo lineal

El análisis de regresión lineal se basa en seis supuestos fundamentales:

Las variables dependientes e independientes muestran una relación lineal entre la pendiente y el intercepto.

El valor del residuo (error) es constante en todas las observaciones.

La variable independiente no es aleatoria.

El valor del residuo (error) es cero.

El valor del residuo (error) no está correlacionado en todas las observaciones.

Los valores del residuo (error) siguen la distribución normal.

Análisis de regresión lineal simple

La regresión lineal simple es un modelo que evalúa la relación entre una variable dependiente y una variable independiente. El modelo lineal simple se expresa mediante la siguiente ecuación:

Y = a + bX + ϵ

Donde:

Y – Variable dependiente

X – Variable independiente (explicativa)

a – Intercepción

b – Pendiente

ϵ – Residual (error)

Análisis de regresión lineal múltiple

El análisis de regresión lineal múltiple es esencialmente similar al modelo lineal simple, con la excepción de que se utilizan múltiples variables independientes en el modelo. La representación matemática de la regresión lineal múltiple es:

Y = a + bX1 + cX2 + dX3 + ϵ

Donde:

Y – Variable dependiente

X1, X2, X3 – Variables independientes (explicativas)

a – Intercepción

b, c, d – Pendientes

ϵ – Residual (error)

La regresión lineal múltiple sigue las mismas condiciones que el modelo lineal simple. Sin embargo, como hay varias variables independientes en el análisis lineal múltiple, hay otra condición obligatoria para el modelo:

La no colinealidad: Las variables independientes deben mostrar una correlación mínima entre sí. Si las variables independientes están muy correlacionadas entre sí, será difícil evaluar las verdaderas relaciones entre las variables dependientes e independientes.

Herramientas de regresión

Excel sigue siendo una herramienta popular para llevar a cabo el análisis de regresión básica, sin embargo, hay muchas herramientas estadísticas más avanzadas que se pueden utilizar.

Python y R son dos potentes lenguajes de codificación que se han hecho populares para todo tipo de modelos financieros, incluida la regresión. Estas técnicas forman parte del núcleo de la ciencia de los datos y el aprendizaje automático, donde los modelos se entrenan para detectar estas relaciones en los datos.

Tamaño mínimo de la muestra

La respuesta a la pregunta sobre el tamaño de la muestra parece depender en parte de los objetivos del investigador, de las preguntas de investigación que se aborden y del tipo de modelo que se utilice. modelo que se utilice. Aunque hay varios artículos de investigación y libros de texto que dan recomendaciones sobre el tamaño mínimo de las muestras para la regresión múltiple, pocos coinciden sobre qué tamaño es suficiente y no muchos abordan el aspecto de la predicción de la MLR (Multiple Linear Regression, Regresión Lineal Múltiple). En la bibliografía se dice que hay que tener más de 100 artículos en la muestra. Aunque a veces esto es adecuado, estará más seguro si tiene al menos 200 observaciones o, mejor aún, más de 400.

Sobreajuste en la regresión

La sobreadaptación se produce cuando el modelo es demasiado complejo para los datos, es decir, cuando el tamaño de la muestra es demasiado pequeño. Si pone suficientes variables predictoras en su modelo de regresión, casi siempre obtendrá un modelo que parezca significativo.

Aunque un modelo sobreajustado puede ajustarse muy bien a la idiosincrasia de sus datos, no se ajustará a las muestras de prueba adicionales ni a la población general. Los p-valores, R-cuadrado y coeficientes de regresión del modelo pueden ser engañosos. Básicamente, se está pidiendo demasiado a un pequeño conjunto de datos.

La sobreadaptación se produce cuando el modelo es demasiado complejo para los datos, es decir, cuando el tamaño de la muestra es demasiado pequeño. Si se introducen suficientes variables predictoras en el modelo de regresión, casi siempre se obtendrá un modelo que parezca significativo.

Aunque un modelo sobreajustado puede ajustarse muy bien a la idiosincrasia de sus datos, no se ajustará a las muestras de prueba adicionales ni a la población general. Los valores p-valores, R-cuadrado y coeficientes de regresión del modelo pueden ser engañosos. Básicamente, se está pidiendo demasiado a un pequeño conjunto de datos.

Cómo evitar el sobreajuste

En la modelización lineal (incluida la regresión múltiple), debería tener al menos 10-15 observaciones para cada término que esté intentando estimar. Si tiene menos, corre el riesgo de sobreajustar el modelo.

Los “términos” incluyen:

Efectos de interacción,

Expresiones polinómicas (para modelar líneas curvas),

Variables predictoras.

Aunque esta regla general es aceptada, algunos autores van más allá y sugiere que el tamaño mínimo de la muestra para cualquier regresión debería ser de 50, con 8 observaciones adicionales por término. Por ejemplo, si tiene una variable interactiva y tres variables predictoras, necesitará alrededor de 45-60 elementos en su muestra para evitar el sobreajuste, o 50 + 3(8) = 74 elementos.

Cómo detectar y evitar el sobreajuste

La forma más fácil de evitar el sobreajuste es aumentar el tamaño de la muestra recogiendo más datos. Si no puede hacerlo, la segunda opción es reducir el número de predictores del modelo, ya sea combinándolos o eliminándolos. El análisis factorial es un método que puede utilizar para identificar los predictores relacionados que podrían ser candidatos a ser combinados.

Validación cruzada

Utilice la validación cruzada para detectar el exceso de ajuste: esto divide sus datos, generaliza su modelo y elige el modelo que funciona mejor. Una forma de validación cruzada es el R-cuadrado predicho. La mayoría de los buenos programas estadísticos incluyen esta estadística, que se calcula de la siguiente manera:

Eliminando una observación cada vez de los datos,

Estimando la ecuación de regresión para cada iteración,

Utilizando la ecuación de regresión para predecir la observación eliminada.

Sin embargo, la validación cruzada no es una solución para los conjuntos de datos pequeños y a veces no se identifica un modelo claro incluso con un tamaño de muestra adecuado.

Reducción y remuestreo

Las técnicas de reducción y remuestreo pueden ayudarle a averiguar lo bien que su modelo podría ajustarse a una nueva muestra.

Métodos automatizados

La regresión por pasos automatizada no debería utilizarse como solución de sobreajuste para conjuntos de datos pequeños. Los problemas de la selección automatizada realizada de esta manera tan típica son tan numerosos que sería difícil catalogarlos todos. También se recomienda evitar las pruebas preliminares univariantes o el cribado (una variación de la selección automatizada), dicotomizar las variables continuas, lo que puede aumentar drásticamente los errores de tipo I, o las pruebas múltiples de las variables de confusión (aunque esto puede estar bien si se utiliza con criterio).

Nuestros especialistas esperan por ti para que los contactes a través del formulario de cotización o del chat directo. También contamos con canales de comunicación confidenciales como WhatsApp y Messenger. Y si quieres estar al tanto de nuestros novedosos servicios y las diferentes ventajas de contratarnos, síguenos en FacebookInstagram o Twitter.

Si este artículo fue de tu agrado, no olvides compartirlo por tus redes sociales.

Fuentes Consultadas

Lindstrom, D. (2010). Schaum’s Easy Outline of Statistics, Second Edition (Schaum’s Easy Outlines) 2nd Edition. McGraw-Hill Education

Green S.B., (1991) “How many subjects does it take to do a regression analysis?” Multivariate Behavior Research 26:499–510.

Peduzzi P.N., et. al (1995). “The importance of events per independent variable in multivariable analysis, II: accuracy and precision of regression estimates.” Journal of Clinical Epidemiology 48:1503–10.

También te puede interesar: Análisis del Discurso

Análisis de Regresión

Análisis de Regresión. Foto: Unsplash. Créditos: Tamarcus Brown @tamarcusbrown

 

Abrir chat
1
Escanea el código
Bienvenido(a) a Online Tesis
Nuestros expertos estarán encantados de ayudarte con tu investigación ¡Contáctanos!