El análisis univariante es la forma más sencilla de analizar los datos. «Uni» significa «uno», es decir, sus datos sólo tienen una variable. No se ocupa de las causas ni de las relaciones (a diferencia de la regresión) y su principal objetivo es describir; toma los datos, los resume y encuentra patrones en ellos.
Hay tres categorías de análisis de datos: el análisis univariante, el análisis bivariante y el análisis multivariante.
Análisis univariante
El análisis univariante es la forma más sencilla de análisis de datos, en la que los datos analizados sólo contienen una variable. Al tratarse de una sola variable, no se ocupa de las causas ni de las relaciones. El objetivo principal del análisis univariante es describir los datos y encontrar los patrones que existen en ellos.
Se puede pensar en la variable como una categoría en la que entran los datos. Un ejemplo de variable en el análisis univariante podría ser la «edad». Otro podría ser la «altura». El análisis univariante no examinaría estas dos variables al mismo tiempo, ni examinaría la relación entre ellas.
Algunas formas de describir los patrones encontrados en los datos univariados incluyen la observación de la media, la moda, la mediana, el rango, la varianza, el máximo, el mínimo, los cuartiles y la desviación estándar. Además, algunas formas de mostrar los datos univariantes son las tablas de distribución de frecuencias, los gráficos de barras, los histogramas, los polígonos de frecuencias y los gráficos circulares
Análisis bivariante
El análisis bivariado se utiliza para averiguar si existe una relación entre dos variables diferentes. Algo tan sencillo como crear un gráfico de dispersión trazando una variable frente a otra en un plano cartesiano (piense en los ejes X e Y) a veces puede darle una idea de lo que los datos están tratando de decirle. Si los datos parecen ajustarse a una línea o curva, entonces existe una relación o correlación entre las dos variables. Por ejemplo, se puede elegir representar la ingesta calórica frente al peso.
Análisis multivariante
El análisis multivariado es el análisis de tres o más variables. Hay muchas maneras de realizar el análisis multivariado dependiendo de sus objetivos. Algunos de estos métodos son
Árbol aditivo
Análisis de correlación canónica, clústeres, correspondencia, correspondencia múltiple, de Factores y Procrusteano Generalizado
MANOVA
Escala multidimensional
Análisis de regresión múltiple
Regresión por mínimos cuadrados parciales
Análisis de Componentes Principales / Regresión / PARAFAC
Análisis de redundancia.
¿Qué es una variable en el análisis univariante?
Según Kotz, S.; et al. (2006), una variable en el análisis univariante es simplemente una condición o subconjunto en el que entran los datos. Puede pensar en ella como una «categoría». Por ejemplo, el análisis podría mirar una variable de «edad» o podría mirar la «altura» o el «peso». Sin embargo, no mira más de una variable a la vez, de lo contrario se convierte en un análisis bivariante (o en el caso de 3 o más variables se llamaría análisis multivariante).
Una variable es cualquier característica que puede observarse o medirse en un sujeto. En los estudios clínicos se recoge una muestra de sujetos y se consideran algunas variables de interés. El análisis descriptivo univariante de una sola variable tiene como objetivo describir la distribución de la variable en una muestra y es el primer paso importante de todo estudio.
Los autores deben identificar el tipo y el número de variables examinadas, así como los datos que faltan para cada variable.
Las variables pueden ser categóricas o numéricas.
Datos Categóricos
Los datos categóricos o cualitativos pueden ser binarios, nominales u ordinales. Las variables binarias se caracterizan por tener sólo dos categorías posibles, por ejemplo hombre/mujer, muerto/vivo.
Cuando hay más de dos categorías/clases, es importante distinguir entre variables nominales, como el grupo sanguíneo, y variables ordinales, como el estadio de la enfermedad.
Los datos categóricos deben presentarse no sólo dando porcentajes para cada clase, sino también frecuencias absolutas.
Datos Numéricos
Los datos numéricos o cuantitativos pueden dividirse a grandes rasgos en discretos o continuos. Las variables discretas surgen principalmente de los recuentos, como el número de palabras de una frase, el número de componentes de una familia, mientras que las variables continuas surgen principalmente de las mediciones, como la altura, la presión arterial o el tamaño del tumor. Estas variables son continuas, ya que, en principio, se puede tomar cualquier valor (en el rango admisible de medición), mientras que las variables discretas sólo pueden tomar determinados valores numéricos.
Limitaciones en las Variables Continuas
En el caso de las variables continuas, la única limitación proviene de la precisión del instrumento de medida. Las variables discretas se tratan a veces como continuas, cuando el número de valores posibles es muy grande. Las variables numéricas pueden transformarse en categóricas agrupando los valores en dos o más categorías para simplificar la comprensión de los resultados (pero no en general el análisis). La categorización de las variables numéricas da lugar a la pérdida de información, especialmente con dos grupos, y debe hacerse con precaución.
Los autores deben especificar siempre cómo se obtuvo la categorización, en particular cómo se hizo la elección de los puntos de corte, si sobre la base de análisis anteriores o de forma arbitraria por los autores (utilizando la mediana y los cuartiles, por ejemplo). En ausencia de análisis previos, los argumentos teóricos o clínicos deben justificar la categorización para evitar sesgos y obtener resultados fiables (1).
Los investigadores deben evitar los puntos de corte arbitrarios y deben preferir la categorización en al menos tres grupos evitando la dicotomización.
Distribución de frecuencias y tendencia central
Una variable puede describirse mediante su distribución de frecuencias, que informa del número absoluto (o relativo al total) de veces que se observa un valor/clase específico de una variable en la muestra. Para ello, las variables continuas deben dividirse en clases. En el caso de las variables nominales ordenadas y de las variables numéricas, también se pueden calcular las frecuencias acumuladas. En lugar de tablas, se pueden utilizar gráficos para describir las distribuciones.
Tipos de gráfico
Los gráficos de torta, en los que cada rebanada representa la proporción de observaciones de cada categoría, son útiles para los datos nominales (sin ordenar), mientras que los gráficos de barras pueden utilizarse para los datos categóricos ordinales o para los datos discretos. Los histogramas deben utilizarse para datos continuos.
Otra posibilidad útil es el diagrama de caja y bigotes, que se compone de una caja que representa los cuartiles superior e inferior, una línea central que indica la mediana, mientras que los bigotes representan los centiles extremos, y los valores extremos se muestran por encima y por debajo de los bigotes.
Debido a las limitaciones de espacio, para describir las variables consideradas en el estudio se suelen utilizar tablas que informan de los valores resumidos de cada distribución. Antes de resumir la distribución con pocos números, siempre es necesario observar la distribución completa.
Uso de la Media y la Desviación Estándar
Si la forma de la distribución es aproximadamente simétrica (como en el caso de la distribución gaussiana), se puede utilizar la media y la desviación estándar (DE), informando de los resultados como media (DE), y evitando el ±. Si la forma de la distribución es sesgada, es mejor utilizar la mediana y los cuartiles. Una recomendación general podría ser informar, en todos los casos, de la media, la mediana, la DE y los cuartiles. La media, la mediana y la moda son muy similares en el caso de las distribuciones simétricas. En el caso de las distribuciones sesgadas, la mediana está menos influida por las observaciones extremas.
Otra medida de resumen es la moda, que es la observación más frecuente. Ésta rara vez es útil para las variables numéricas, mientras que es la única medida que debe utilizarse con las variables categóricas. Cuando se describen las variables categóricas en las tablas, siempre deben indicarse no sólo los porcentajes de cada clase, sino también sus frecuencias absolutas
No hay que confundir la SD con el error estándar (SE).
El SE es una medida de la dispersión de las medias de la muestra en torno a la media de la población y se utiliza con fines inferenciales (no descriptivos). El SE es la relación entre la DE y la raíz cuadrada del tamaño de la muestra (n) (2).
La DE es especialmente útil cuando la distribución es aproximadamente gaussiana, ya que en el caso gaussiano alrededor del 95% de las observaciones están incluidas dentro de dos DE de la media (3).
La regla general es presentar las estadísticas de resumen con no más de un decimal que los datos brutos (4). En el caso de los porcentajes, a menudo basta con aproximarse a un decimal. El redondeo debe hacerse sólo en el informe final, no durante el análisis, para mantener la precisión y no perder información.
Según una regla comúnmente utilizada, los dígitos en exceso se eliminan si el primero en exceso es inferior a cinco. En caso de que el primer dígito en exceso sea mayor o igual a cinco, el último no en exceso se incrementa en uno. Tenga en cuenta que la salida de los ordenadores siempre contiene resultados espurios que deben redondearse de acuerdo con la precisión original de las mediciones.
Datos sobre el tiempo transcurrido hasta el evento
En muchos estudios, el tiempo hasta la aparición de un evento es de interés. Los datos censurados se refieren a los sujetos incluidos en el análisis pero para los que el acontecimiento de interés aún no se ha observado cuando se cierra el estudio (3). Por ejemplo, en los estudios de supervivencia los datos censurados incluyen tanto a los pacientes que siguen vivos al final del seguimiento como a los pacientes perdidos durante el mismo.
A la hora de informar sobre el número de eventos, es aconsejable evitar calcular el porcentaje con respecto al número total de sujetos, a menos que todos los sujetos hayan sido objeto de seguimiento durante el mismo tiempo.
La integridad del seguimiento es un indicador de la calidad del estudio. Por lo tanto, los investigadores deben informar del número de sujetos perdidos durante el seguimiento, además del intervalo de seguimiento (mínimo y máximo). El método de Kaplan-Meier es adecuado para describir la distribución de dicha variable teniendo en cuenta correctamente el tiempo de seguimiento y las observaciones censuradas.
Los autores deben informar gráficamente del número de sujetos en riesgo. Además, deben indicar los tiempos de censura y los intervalos de confianza, así como el software utilizado para realizar los análisis.
Podría tener más de una variable en el gráfico anterior. Por ejemplo, podría añadir la variable «Ubicación» o «Edad» o alguna otra, y hacer una columna separada para la ubicación o la edad. En ese caso, tendría datos bivariados porque tendría dos variables.
¿Cómo funciona el Análisis Univariante?
El análisis univariante funciona examinando los efectos de una variable singular en un conjunto de datos. Por ejemplo, una tabla de distribución de frecuencias es una forma de análisis univariante, ya que la frecuencia es la única variable que se mide. Las variables alternativas pueden ser la edad, la altura, el peso, etc., pero es importante señalar que en cuanto se introduce una variable secundaria se convierte en un análisis bivariante. Con tres o más variables, se convierte en un análisis multivariante.
El análisis univariante es un método habitual para comprender los datos. Otro ejemplo común de análisis univariante es la media de la distribución de una población. Las tablas, los gráficos, los polígonos y los histogramas son métodos populares para mostrar el análisis univariante de una variable específica (por ejemplo, la media, la mediana, la moda, la variación estándar, el rango, etc.).
¿Por qué la estadística univariante?
De acuerdo con Everitt y Skrondal (2010), el análisis univariante explora cada variable de un conjunto de datos por separado. Examina el rango de valores, así como la tendencia central de los valores. Describe el patrón de respuesta a la variable. Describe cada variable por separado.
La estadística descriptiva describe y resume los datos. La estadística descriptiva univariante describe las variables individuales.
Cómo analizar una variable
Datos brutos
Obtenga una impresión de los datos brutos de todas las variables. Los datos brutos se asemejan a una matriz, con los nombres de las variables encabezando las columnas, y la información de cada caso o registro mostrada en las filas.
Ejemplo: Datos brutos de un estudio sobre las lesiones de los trabajadores del condado (10 primeros casos)
Injury Report No. | County Name | Cause of Injury | Severity of Injury |
1 | County A | Fall | 3 |
2 | County B | Auto | 4 |
3 | County C | Fall | 6 |
4 | County C | Fall | 4 |
5 | County B | Fall | 5 |
6 | County A | Violence | 9 |
7 | County A | Auto | 3 |
8 | County A | Violence | 2 |
9 | County A | Violence | 9 |
10 | County B | Auto |
Es difícil saber qué ocurre con cada variable en este conjunto de datos. Los datos brutos son difíciles de comprender, sobre todo cuando hay un gran número de casos o registros. La estadística descriptiva univariante puede resumir grandes cantidades de datos numéricos y revelar patrones en los datos brutos. Para presentar la información en un formato más organizado, comience con estadísticas descriptivas univariadas para cada variable.
Por ejemplo, la variable Gravedad de la lesión:
Severity of Injury |
3 |
4 |
6 |
4 |
5 |
9 |
3 |
2 |
9 |
3 |
Distribución de frecuencias
Obtenga una distribución de frecuencias de los datos de la variable. Esto se hace identificando los valores más bajos y más altos de la variable, y luego poniendo todos los valores de la variable en orden de menor a mayor. A continuación, cuente el número de apariciones de cada valor de la variable. Se trata de un recuento de la frecuencia con la que aparece cada valor en el conjunto de datos. Por ejemplo, para la variable «Gravedad de la lesión», los valores van de 2 a 9.
Severity of Injury | Number of Injuries with this Severity |
2 | 1 |
3 | 3 |
4 | 2 |
5 | 1 |
6 | 1 |
9 | 2 |
Total | 10 |
Datos agrupados
Decida si los datos deben agruparse en clases.
Los índices de gravedad de las lesiones pueden agruparse en unas pocas categorías o grupos. Los datos agrupados suelen tener de 3 a 7 grupos. No debe haber grupos con una frecuencia de cero (por ejemplo, no hay lesiones con una calificación de gravedad de 7 u 8).
Una forma de construir grupos es tener intervalos de clase iguales (por ejemplo, 1-3, 4-6, 7-9). Otra forma de construir grupos es tener aproximadamente el mismo número de observaciones en cada grupo. Recuerde que los intervalos de clase deben ser mutuamente excluyentes y exhaustivos.
Severity of Injury | Number of Injuries with this Severity |
Mild (1-3) | 4 |
Moderate (4-6) | 4 |
Severe (6-9) | 2 |
Total | 10 |
Distribuciones acumulativas
Las distribuciones de frecuencias acumuladas incluyen una tercera columna en la tabla (esto puede hacerse con distribuciones de frecuencias simples o con datos agrupados):
Severity of Injury | Number of Injuries | Cumulative frequency |
2 | 1 | 1 |
3 | 3 | 4 |
4 | 2 | 6 |
5 | 1 | 7 |
6 | 1 | 8 |
9 | 2 | 10 |
Una distribución de frecuencias acumulativas puede responder a preguntas como, ¿cuántas de las lesiones eran de nivel 5 o inferior? Respuesta=7
Distribuciones porcentuales
Las frecuencias también pueden presentarse en forma de distribuciones porcentuales y porcentajes acumulados.
Severity of Injury | Percent of Injuries | Cumulative percentages |
2 | 10 | 10 |
3 | 30 | 40 |
4 | 20 | 50 |
5 | 10 | 70 |
6 | 10 | 80 |
9 | 20 | 100 |
Estadísticas descriptivas univariantes
Algunas formas de describir los patrones encontrados en los datos univariantes son la tendencia central (media, moda y mediana) y la dispersión: rango, varianza, máximo, mínimo, cuartiles (incluyendo el rango intercuartil) y la desviación estándar.
Tiene varias opciones para describir los datos con datos univariantes. Haga clic en el enlace para obtener más información sobre cada tipo de gráfico o tabla:
Tablas de distribución de frecuencias.
Gráficos de barras.
Histogramas.
Polígonos de frecuencia.
Gráficos circulares.
Nuestros especialistas esperan por ti para que los contactes a través del formulario de cotización o del chat directo. También contamos con canales de comunicación confidenciales como WhatsApp y Messenger. Y si quieres estar al tanto de nuestros novedosos servicios y las diferentes ventajas de contratarnos, síguenos en Facebook, Instagram o Twitter.
Si este artículo fue de tu agrado, no olvides compartirlo por tus redes sociales.
Referencias
Kotz, S.; et al., eds. (2006), Encyclopedia of Statistical Sciences, Wiley.
Everitt, B. S.; Skrondal, A. (2010), The Cambridge Dictionary of Statistics, Cambridge University Press.