El análisis discriminante es una técnica estadística que se utiliza para clasificar las observaciones en grupos que no se solapan, basándose en las puntuaciones de una o más variables predictivas cuantitativas.

Por ejemplo, un médico podría realizar un análisis discriminante para identificar a los pacientes con alto o bajo riesgo de sufrir un ictus. El análisis podría clasificar a los pacientes en grupos de alto o bajo riesgo, basándose en atributos personales (por ejemplo, nivel de colesterol, masa corporal) y/o comportamientos de estilo de vida (por ejemplo, minutos de ejercicio a la semana, paquetes de cigarrillos al día).

El análisis discriminante es una técnica que utiliza el investigador para analizar los datos de la investigación cuando el criterio o la variable dependiente es categórica y el predictor o la variable independiente es de naturaleza intervalar. El término variable categórica significa que la variable dependiente se divide en una serie de categorías. Por ejemplo, tres marcas de computadoras, Computadora A, Computadora B y Computadora C, pueden ser la variable dependiente categórica.

Objetivo del Análisis Discriminante

El objetivo del análisis discriminante es desarrollar funciones discriminantes que no son más que la combinación lineal de variables independientes que discriminarán entre las categorías de la variable dependiente de forma perfecta. Permite al investigador examinar si existen diferencias significativas entre los grupos, en términos de las variables predictoras. También evalúa la precisión de la clasificación.

El análisis discriminante se describe por el número de categorías que posee la variable dependiente.

Como en estadística, todo se asume hasta el infinito, así que en este caso, cuando la variable dependiente tiene dos categorías, el tipo utilizado es el análisis discriminante de dos grupos. Si la variable dependiente tiene tres o más categorías, entonces el tipo utilizado es el análisis discriminante múltiple. La principal distinción entre los tipos de análisis discriminante es que, en el caso de dos grupos, sólo es posible derivar una función discriminante. En cambio, en el caso del análisis discriminante múltiple, se puede calcular más de una función discriminante.

Usos del Análisis Discriminante

Hay muchos ejemplos que pueden explicar cuándo encaja el análisis discriminante. Se puede utilizar para saber si los consumidores intensos, medios y ligeros de refrescos son diferentes en cuanto a su consumo de alimentos congelados. En el campo de la psicología, puede utilizarse para diferenciar entre los compradores de comestibles sensibles al precio y los que no lo son en función de sus atributos o características psicológicas. En el ámbito empresarial, puede utilizarse para comprender las características o los atributos de un cliente que posee lealtad a la tienda y de un cliente que no la tiene.

Análisis Discriminante y Análisis de Componentes Principales

El Análisis Discriminante define la distancia de una muestra al centro de una clase y crea un nuevo conjunto de ejes para situar a los miembros del mismo grupo lo más cerca posible y alejar los grupos lo más posible. Estos nuevos ejes son ejes discriminantes, o variantes canónicas (CV), que son combinaciones lineales de las variables originales.

El Análisis Discriminante es una forma de reconocimiento de patrones supervisado, ya que depende de la información del usuario para funcionar. En particular, el Análisis Discriminante requiere el conocimiento de la pertenencia a un grupo para cada muestra. El Análisis Discriminante suele aplicarse a los mismos tipos de muestras que el PCA (Análisis de Componentes Principales), donde esta última técnica puede utilizarse para reducir el número de variables en el conjunto de datos y los componentes principales resultantes se utilizan después en el Análisis Discriminante para definir y predecir las clases.

El Análisis Discriminante requiere que el número de muestras (es decir, los espectros) supere el número de variables (es decir, las longitudes de onda). Si el número de muestras no supera el número de variables, el cálculo del Análisis Discriminante fracasará; por ello, el PCA suele preceder al Análisis Discriminante como medio para reducir el número de variables. Por último, se calcula la distancia de Mahalanobis entre la muestra y el centroide de cualquier grupo. El procedimiento del Análisis Discriminante es algo análogo al del PCA. Sin embargo, en lugar de maximizar la suma de los cuadrados de los residuos como hace el PCA, el Análisis Discriminante maximiza la relación de la varianza entre grupos dividida por la varianza dentro de los grupos.

Validación Cruzada

Una vez que se ha seguido este procedimiento y se han clasificado las nuevas muestras, se realiza una validación cruzada para comprobar la precisión de la clasificación. Hay varios métodos disponibles para la validación cruzada. La revalidación utiliza todo el conjunto de datos como conjunto de entrenamiento, desarrollando un método de clasificación basado en las pertenencias de clase conocidas de las muestras. A continuación, el modelo predice la pertenencia a la clase de cada muestra y la validación cruzada determina con qué frecuencia la regla ha clasificado correctamente las muestras.

Sin embargo, la re-sustitución tiene un gran inconveniente. Dado que utiliza el mismo conjunto de datos tanto para construir el modelo como para evaluarlo, la precisión de la clasificación suele estar sobreestimada. Cuando el modelo de clasificación se aplica a un nuevo conjunto de datos, la tasa de error será probablemente mucho más alta de lo previsto. Otro método de validación cruzada es el método de retención.

Este método separa el conjunto de datos en dos partes: una que se utilizará como conjunto de entrenamiento para el desarrollo del modelo y una segunda que se utilizará para probar las predicciones del modelo. Separar los datos utilizados para entrenar el modelo de los utilizados para evaluarlo crea una validación cruzada insesgada. Sin embargo, en situaciones en las que los datos son limitados, este puede no ser el mejor enfoque, ya que no se utilizan todos los datos para crear el modelo de clasificación. Además, adquirir suficientes datos para tener conjuntos de entrenamiento y de prueba del tamaño adecuado puede llevar mucho tiempo o ser difícil debido a los recursos.

Método de Exclusión

Un último método de validación cruzada es el método de exclusión. En este método, se elimina una muestra del conjunto de datos temporalmente. El modelo de clasificación se construye a partir de las muestras restantes y se utiliza para predecir la clasificación de la muestra eliminada. Este proceso continúa a través de todas las muestras, tratando cada muestra como una incógnita que debe ser clasificada utilizando las muestras restantes. También se puede omitir más de una muestra a la vez. Por ejemplo, el 20% de las muestras puede eliminarse temporalmente mientras se construye el modelo utilizando el 80% restante. El método de omisión utiliza todos los datos disponibles para evaluar el modelo de clasificación. Lleva mucho tiempo, pero suele ser preferible.

Es habitual que el  PCA y el Análisis Discriminante trabajen juntos reduciendo primero la dimensionalidad y el nivel de ruido del conjunto de datos mediante el PCA y basando después el Análisis Discriminante en las puntuaciones de los factores de cada observación (en lugar de sus variables originales). El grado de éxito del Análisis Discriminante en la discriminación de observaciones muy similares puede expresarse en forma de “matriz de confusión”, en la que las observaciones se contabilizan en función de su clasificación original y de la clasificación resultante del Análisis Discriminante.

Análisis discriminante de dos grupos

Un problema de investigación común implica clasificar las observaciones en uno de dos grupos, basándose en dos o más variables cuantitativas y predictoras.

Cuando sólo hay dos grupos de clasificación, el análisis discriminante es en realidad una regresión múltiple, con algunos ajustes.

La variable dependiente es una variable categórica dicotómica (es decir, una variable categórica que sólo puede tomar dos valores).

La variable dependiente se expresa como una variable ficticia (con valores de 0 o 1).

Las observaciones se asignan a grupos, en función de si la puntuación predicha se acerca más a 0 o a 1.

La ecuación de regresión se denomina función discriminante.

La eficacia de la función discriminante se mide por la proporción de asignaciones correctas.

Diferencias con el Análisis de Regresión

La mayor diferencia entre el análisis discriminante y el análisis de regresión estándar es el uso de una variable catergórica como variable dependiente. Aparte de eso, el análisis discriminante de dos grupos es igual que el análisis de regresión múltiple estándar. Los pasos clave del análisis son:

Estimar los coeficientes de regresión.

Definir la ecuación de regresión, que es la función discriminante.

Evaluar el ajuste de la ecuación de regresión a los datos.

Evaluar la capacidad de la ecuación de regresión para clasificar correctamente las observaciones y la importancia relativa de las variables predictoras.

El problema de muestra al final de esta lección ilustra cada uno de los pasos anteriores para un análisis discriminante de dos grupos.

Análisis discriminante múltiple

La regresión también puede utilizarse con más de dos grupos de clasificación, pero el análisis es más complicado. Cuando hay más de dos grupos, también hay más de dos funciones discriminantes.

Por ejemplo, supongamos que queremos clasificar a los votantes en uno de los tres grupos políticos: demócrata, republicano o independiente. Utilizando el análisis discriminante de dos grupos, podría:

Definir una función discriminante para clasificar a los votantes como demócratas o no demócratas.

Definir una segunda función discriminante para clasificar a los no demócratas como republicanos o independientes.

El número máximo de funciones discriminantes será igual al número de variables predictoras o al número de categorías de grupo menos uno, lo que sea menor.

Con el análisis discriminante múltiple, el objetivo es definir funciones discriminantes que maximicen las diferencias entre grupos y minimicen las diferencias dentro de los grupos.

Recodificación de variables ficticias

El SAT es una prueba de aptitud que realizan los estudiantes de último año de secundaria. Los administradores de las universidades utilizan el SAT junto con el promedio de notas de la escuela secundaria (GPA) para predecir el éxito académico en la universidad.

La siguiente tabla muestra la puntuación del SAT y el GPA de la escuela secundaria de diez estudiantes aceptados en Acme College. Y muestra si cada estudiante finalmente se graduó de la universidad.

Graduado SAT GPA
Yes 1300 2.7
Yes 1260 3.7
Yes 1220 2.9
Yes 1180 2.5
Yes 1060 3.9
No 1140 2.1
No 1100 3.5
No 1020 3.3
No 980 2.3
No 940 3.1

 

Observe la tabla de datos anterior. La variable dependiente (Graduado) es una variable categórica que toma los valores “Yes” (Si) o “No”. Para utilizar esa variable en el análisis de regresión, necesitamos convertirla en una variable cuantitativa.

Podemos hacer que Graduado sea una variable cuantitativa mediante la recodificación de variables ficticias. Es decir, podemos expresar la variable categórica Graduado como una variable ficticia (Y), así

Y = 1 para los estudiantes que se gradúan.

Y = 0 para los estudiantes que no se gradúan.

Ahora, sustituimos la variable categórica Graduado por la variable cuantitativa Y en nuestra tabla de datos. Establecemos el valor de Y igual a 1 para los estudiantes que se graduaron; 0, para los estudiantes que no se graduaron.

Y SAT GPA
1 1300 2.7
1 1260 3.7
1 1220 2.9
1 1180 2.5
1 1060 3.9
0 1140 2.1
0 1100 3.5
0 1020 3.3
0 980 2.3
0 940 3.1

Validez de la función discriminante

En el mundo real, probablemente lo que más nos interesa es lo bien que podemos clasificar las observaciones, basándonos en los resultados de la función discriminante. La siguiente tabla muestra el rendimiento real de los estudiantes (Y) y el rendimiento previsto (ŷ), calculado mediante la función discriminante.

Y ŷ SAT GPA
1 0.97 1300 2.7
1 1.08 1260 3.7
1 0.75 1220 2.9
1 0.53 1180 2.5
1 0.48 1060 3.9
0 0.30 1140 2.1
0 0.51 1100 3.5
0 -0.16 1020 3.3
0 0.20 980 2.3
0 -0.10 940 3.1

 

Recordemos que la función discriminante fue diseñada para predecir 0 y 1. Así, si el rendimiento predicho (ŷ) es inferior a 0,5, asignamos al alumno al grupo de “no graduados”; y si es superior a 0,5, asignamos al alumno al grupo de “graduados”.

Comparando el rendimiento real (Y) y el rendimiento predicho (ŷ) en la tabla anterior, vemos que la función discriminante clasificó correctamente a ocho de diez estudiantes. Las clasificaciones incorrectas están resaltadas en gris. Un estudiante que no se graduó fue asignado incorrectamente al grupo de “graduados” y un estudiante que realmente se graduó fue asignado incorrectamente al grupo de “no graduados”.

Este resultado parece indicar que el SAT y el GPA son útiles para predecir el estado de graduación.

Nota: Para este ejemplo hipotético, utilizamos los mismos datos (1) para definir la función discriminante y (2) para probar la función discriminante. Esto es una mala práctica, porque aprovecha la variación del azar en el conjunto de datos. En el mundo real, deberíamos utilizar un conjunto de datos para definir la función discriminante y otro conjunto de datos diferente para probar su validez.

¿Cuál es la diferencia entre el análisis discriminante lineal y el cuadrático?

Se utilizan dos modelos de análisis discriminante en función de un supuesto básico: si se supone que las matrices de covarianza son idénticas, se utiliza el análisis discriminante lineal. Si, por el contrario, se supone que las matrices de covarianza difieren en al menos dos grupos, se debe preferir el análisis discriminante cuadrático. Para comprobar esta hipótesis se utiliza la prueba de Box (la aproximación de Bartlett permite utilizar una distribución Chi2 para la prueba). Es habitual comenzar con un análisis lineal y, a continuación, en función de los resultados de la prueba de Box, realizar un análisis cuadrático si es necesario.

Análisis discriminante y problemas de multicolinealidad

Con los modelos lineales y más aún con los cuadráticos, podemos enfrentarnos a problemas de variables con varianza nula o multicolinealidad entre variables. XLSTAT ha sido programado para evitar estos problemas. Las variables responsables de estos problemas se ignoran automáticamente para todos los cálculos o, en el caso de un modelo cuadrático, para los grupos en los que surgen los problemas. Los estadísticos de multicolinealidad se muestran opcionalmente para que pueda identificar las variables que causan problemas.

Análisis discriminante y selección de variables

Al igual que en el caso de la regresión lineal y logística, se han propuesto métodos eficaces por pasos. Sin embargo, sólo pueden utilizarse cuando se seleccionan variables cuantitativas, ya que las pruebas de entrada y salida de las variables suponen que están distribuidas normalmente. El método por pasos proporciona un modelo potente que evita las variables que contribuyen poco al modelo

Análisis discriminante y regresión logística

Cuando sólo hay que predecir dos clases para la variable dependiente, el análisis discriminante es muy parecido a la regresión logística. El análisis discriminante es útil para estudiar en detalle las estructuras de covarianza y para proporcionar una representación gráfica. La regresión logística tiene la ventaja de disponer de varios modelos posibles y de permitir el uso de métodos de selección por pasos, incluso para las variables explicativas cualitativas. El usuario podrá comparar el rendimiento de ambos métodos mediante las curvas ROC.

Nuestros especialistas esperan por ti para que los contactes a través del formulario de cotización o del chat directo. También contamos con canales de comunicación confidenciales como WhatsApp y Messenger. Y si quieres estar al tanto de nuestros novedosos servicios y las diferentes ventajas de contratarnos, síguenos en FacebookInstagram o Twitter.

Si este artículo fue de tu agrado, no olvides compartirlo por tus redes sociales. También te puede interesar: ¿Es el aprendizaje en línea adecuado para ti?

Referencias Bibliográficas

Montes de Oca M.Menezes A.Wehrmeister FC.Lopez Varela MV.Casas A.Ugalde L Adherence to inhaled therapies of COPD patients from seven Latin American countries The LASSYC study. PLoS One. 2017;12(11):e0186777.

Hulley SB, Cummings SR, Browner WS, Grady DG, Newman TB. Designing Clinical Research.PA: Lippincott Williams & Wilkins; 2007.

Potvin, C. & Roff, D.A. (1993). Distribution-free and robust statistical methods: Viable alternatives to parametric statistics? Ecology 74 (6), 1617-1628.

Análisis Discriminante

Análisis Discriminante. Foto: Unsplash. Créditos: Kobu Agency

Abrir chat
1
Escanea el código
Bienvenido(a) a Online Tesis
Nuestros expertos estarán encantados de ayudarte con tu investigación ¡Contáctanos!