Análisis Bivariante

El análisis bivariante permite estudiar la relación que existe entre dos variables. Esto tiene mucha utilidad en la vida real. Ayuda a averiguar si existe una asociación entre las variables y, en caso afirmativo, cuál es la fuerza de la asociación.

Una de las variables será dependiente y la otra independiente. Las variables se denominan X e Y. Los cambios se analizan entre las dos variables para comprender en qué medida se ha producido el cambio.

El análisis bivariante ayuda a probar la hipótesis de casualidad y asociación. Ayuda a predecir el valor de una variable dependiente en función de los cambios que se producen en una variable independiente.

¿Qué significa el Análisis Bivariante?

El análisis bivariante significa el análisis de los datos bivariantes. Se trata de un único análisis estadístico que se utiliza para averiguar la relación que existe entre dos conjuntos de valores.

Los resultados que se obtienen del análisis bivariante se almacenan en una tabla de datos que tiene dos columnas. El análisis bivariante no debe confundirse con el análisis de datos de dos muestras, en el que las variables x e y no están relacionadas directamente.

Algunos ejemplos son la longitud y la anchura de un fósil, el contenido de sodio y potasio del vidrio volcánico o el contenido de materia orgánica a lo largo de un núcleo de sedimento. Cuando las dos variables se miden en el mismo objeto, x suele identificarse como la variable independiente, mientras que y es la variable dependiente. Si ambas variables se generan en un experimento, la variable manipulada por el experimentador se describe como la variable independiente. En algunos casos, ambas variables no se manipulan y, por tanto, son independientes.

Los métodos de la estadística bivariante ayudan a describir la fuerza de la relación entre las dos variables, ya sea mediante un único parámetro, como el coeficiente de correlación de Pearson para las relaciones lineales, o mediante una ecuación obtenida por el análisis de regresión. La ecuación que describe la relación entre x e y puede utilizarse para predecir la respuesta de y a partir de x arbitrarias dentro del rango de valores de los datos originales utilizados para la regresión. Esto es especialmente importante si uno de los dos parámetros es difícil de medir. En este caso, la relación entre las dos variables se determina primero mediante un análisis de regresión en un pequeño conjunto de datos de entrenamiento. A continuación, se utiliza la ecuación de regresión para calcular este parámetro a partir de la primera variable.

El análisis bivariado no es lo mismo que el análisis de datos de dos muestras. Con el análisis de datos de dos muestras (como una prueba z de dos muestras en Excel), la X y la Y no están directamente relacionadas. También puede tener un número diferente de valores de datos en cada muestra; con el análisis bivariante, hay un valor Y para cada X. Digamos que tiene una ingesta calórica de 3.000 calorías al día y un peso de 300 libras. Lo escribirías con la variable x seguida de la variable y: (3000,300).

Cómo se realiza un Análisis Bivariante

A continuación se explica cómo se lleva a cabo el análisis bivariante.

Gráficos de dispersión – Esto da una idea de los patrones que se pueden formar utilizando las dos variables

Análisis de regresión – Utiliza una amplia gama de herramientas para determinar cómo podrían estar relacionados los datos. El puesto puede seguir una curva exponencial. El análisis de regresión proporciona la ecuación de una línea o curva. También ayuda a encontrar el coeficiente de correlación.

Coeficientes de correlación – El coeficiente permite saber si los datos en cuestión están relacionados. Cuando el coeficiente de correlación es cero, significa que las variables no están relacionadas. Si el coeficiente de correlación es un 1 positivo o negativo, significa que las variables están perfectamente correlacionadas.

¿Cuántos tipos de Correlaciones Bivariadas existen?

El tipo de análisis bivariante depende del tipo de atributos y variables que se utilicen para analizar los datos. Las variables pueden ser ordinales, categóricas o numéricas. La variable independiente es categórica, como la marca de un bolígrafo. En este caso, se utiliza la regresión probit o la regresión logit. Si las variables dependiente e independiente son ordinales, lo que significa que tienen una clasificación o posición, se mide el coeficiente de correlación de rangos.

Si el atributo dependiente es ordinal, se utiliza el probit ordenado o el logit ordenado. Es posible que el atributo dependiente sea interno o una relación como la escala de temperatura. Aquí es donde se mide la regresión. A continuación mencionamos los tipos de correlación de datos bivariados.

Numérica

En este tipo de variable ambas variables de los datos bivariados que incluyen la variable dependiente y la independiente tienen un valor numérico.

Categórica

Cuando las dos variables de los datos bivariados están en forma estática, los datos se interpretan y se hacen afirmaciones y predicciones sobre ellos. Durante la investigación, el análisis ayudará a determinar la causa y el impacto para concluir que la variable dada es categórica.

Numérica y categórica

Es cuando una de las variables es numérica y la otra es categórica.

Datos Bivariados

Los datos en estadística se clasifican a veces según el número de variables de un estudio concreto. Por ejemplo, la “altura” puede ser una variable y el “peso” puede ser otra. Dependiendo del número de variables que se analicen, los datos pueden ser univariantes o bivariantes.

Cuando se lleva a cabo un estudio que analiza una sola variable, ese estudio incluye datos univariantes. Por ejemplo, se puede estudiar a un grupo de estudiantes universitarios para averiguar su puntuación media en una prueba o se puede estudiar a un grupo de pacientes diabéticos para averiguar su peso.

Por ejemplo, si estudias a un grupo de estudiantes universitarios para averiguar su puntuación media en una prueba y su edad, tienes que encontrar dos piezas del rompecabezas (la puntuación y la edad). O si quiere averiguar el peso y la altura de los pacientes diabéticos, entonces también tiene datos bivariados. Los datos bivariados también pueden ser dos conjuntos de elementos que dependen el uno del otro. Por ejemplo:

Las ventas de helados comparadas con la temperatura de ese día.

Los accidentes de tráfico junto con el tiempo de un día concreto.

Los datos bivariantes tienen muchos usos prácticos en la vida real. Por ejemplo, es bastante útil poder predecir cuándo puede ocurrir un evento natural. Una de las herramientas del estadístico es el análisis de datos bivariados. A veces, algo tan sencillo como trazar una variable frente a otra en un plano cartesiano puede darnos una idea clara de lo que los datos intentan decirnos.

Tipos de Análisis Bivariante

Análisis descriptivo

En el análisis descriptivo, el análisis bivariante puede aplicarse a casi todas las visualizaciones de datos. Los tipos de visualizaciones como los gráficos de barras, los gráficos de líneas, los gráficos de columnas, etc. pueden seguir utilizándose para el análisis bivariante.

Utilizando un diagrama de dispersión, podemos ver el patrón de la relación entre las 2 variables. Las relaciones que se forman pueden ser lineales, exponenciales, estacionales, etc. según las condiciones de los datos.

No olvides que el diagrama de dispersión es sólo una herramienta para detectar patrones de relación, no para sacar conclusiones sobre el patrón de relación entre 2 variables.

Análisis inferencial

Utilizando el análisis inferencial, se pueden sacar conclusiones válidas al probar 2 variables.

Hablando de análisis inferencial, hay muchos tipos de pruebas estadísticas que se pueden hacer con 2 variables. Aquí hay una pequeña lista de tipos de análisis de prueba que puedes hacer:

Prueba de McNemar

La prueba de McNemar es una prueba bivariada que se utiliza para probar el antes y el después del tratamiento (Pre-Test y Post-Test) donde cada individuo se utiliza como su propio controlador. Esta prueba se realiza para la medición de datos nominales y ordinales. Esta prueba se utiliza para probar la eficacia de un tratamiento concreto en las condiciones de la muestra. Por ejemplo, esta prueba se utiliza para determinar el efecto de trasladar a una persona de las zonas rurales a las urbanas a la preferencia política.

Prueba de los signos

La prueba de los signos se utiliza para determinar si existe una diferencia entre los datos ordinales obtenidos de la misma muestra y los pares. Lo que hay que recordar de la prueba de signos es que esta prueba sólo es capaz de determinar si hay una diferencia, no el tamaño de la misma. Esta prueba se realiza dando un signo positivo o negativo a la diferencia entre los pares de datos. Las pruebas de signos pueden utilizarse para identificar la tendencia de una persona hacia dos marcas de productos. La escala de datos utilizada en esta prueba es ordinal

Prueba de pares emparejados de Wilcoxon

La prueba de Wilcoxon es una prueba que se realiza para determinar si existe o no una relación entre dos variables. La escala de datos utilizada en esta prueba es ordinal.

Prueba t emparejada

La prueba t emparejada es una prueba de dos variables que se realiza para determinar si existe una diferencia significativa en la media o no. Un ejemplo de uso de una prueba t emparejada es comprobar si existe una diferencia significativa en la media entre las puntuaciones de matemáticas y arte de los alumnos del grado A.

Prueba de probabilidad exacta de Fisher

La prueba de probabilidad exacta de Fisher es una prueba que se realiza para determinar la significación de una hipótesis comparativa en dos muestras pequeñas. independientes. Esta prueba se utiliza cuando las condiciones de los datos son nominales y ordinales. En los cálculos, los datos de esta prueba se agrupan en 2 grupos independientes. Por ejemplo, hombres y mujeres, y luego pobres y no pobres. Posteriormente, estos cálculos se agruparán en una tabla de contingencia 2×2.

Prueba de Chi-cuadrado de dos muestras

La prueba de Chi-cuadrado de dos muestras se utiliza para determinar si existe una relación entre las 2 variables o no. En la prueba de Chi-cuadrado de dos muestras, la escala de datos utilizada fue la escala nominal.

Prueba de la mediana

Esta prueba se utiliza para comprobar la hipótesis comparativa de dos muestras independientes. En esta prueba, las escalas de datos utilizadas son la nominal y la ordinal. Esta prueba se basa en la mediana de la muestra tomada al azar. Las escalas de datos utilizadas en esta prueba son nominales y ordinales.

Prueba U de Mann-Whitney

La prueba U de Mann-Whitney se utilizó para determinar la significación de las diferencias entre las dos poblaciones. En esta prueba, la escala de datos utilizada es ordinal. Un ejemplo de la prueba U de Mann-Whitney es el de un profesor que quiere averiguar si los alumnos de su clase tienen talento para las matemáticas o si le es necesaria la ayuda de un tutor.

Prueba de Kolmogorov Smirnov

El test de Kolmogorov Smirnov es una prueba que se realiza para determinar si dos variables tienen la misma distribución o no. Esta prueba se utiliza habitualmente para probar si las dos variables utilizadas proceden de la misma distribución antes de realizar un análisis posterior. La escala de datos utilizada en esta prueba es el intervalo y la razón.

Prueba de Wald-Waldovitz

La prueba de Wald-Waldovitz es una prueba que se realiza para comprobar si las dos variables utilizadas proceden de la misma población o no. En esta prueba, al menos los datos utilizados tienen una escala ordinal.

Prueba t independiente

La prueba t independiente es una prueba que se realiza para saber si dos variables de grupos diferentes tienen la misma media o no. En esta prueba, las escalas de datos utilizadas son intervalos y proporciones. Por ejemplo, un investigador quiere probar si la nota media del examen final de una escuela favorita es significativamente diferente de la de una escuela no favorita.

Análisis de correlación

El análisis de correlación es un análisis utilizado para determinar la relación entre dos variables. Con el análisis de correlación, podemos averiguar si 2 variables tienen una relación positiva o negativa. Es importante recordar que la correlación es simplemente un análisis que explica lo fuerte que es la relación entre 2 variables. El análisis de correlación no puede utilizarse como base para concluir una relación causal entre 2 variables. Un ejemplo de uso del análisis de correlación es la relación entre la altura y el peso de los estudiantes.

Análisis de regresión lineal simple

El análisis de regresión lineal simple es un análisis utilizado para determinar el efecto de una variable sobre otras variables. A diferencia del análisis de correlación, el análisis de regresión lineal simple pretende explicar la relación causal (causalidad) entre las variables independientes y la variable dependiente. Con este análisis, podemos concluir en qué medida una variable afecta a otras variables.

Fuentes Consultadas

Beyer, W. H. CRC Standard Mathematical Tables, 31st ed. Boca Raton, FL: CRC Press, pp. 536 and 571, 2002.
Gonick, L. (1993). Guide to Statistics. HarperPerennial.
Klein, G. (2013). Introduction to Statistics. Hill & Wamg.
Vogt, W.P. (2005). Dictionary of Statistics & Methodology: A Nontechnical Guide for the Social Sciences. SAGE.

Análisis Bivariante. Foto: Unsplash. Créditos: Trung Thanh @trung18tuoi

Análisis Bivariante

¿Qué significa el Análisis Bivariante?

Cómo se realiza un Análisis Bivariante