Es importante entender el concepto de valores perdidos para gestionar los datos con éxito.  Si un investigador no maneja adecuadamente los valores perdidos, puede terminar haciendo una inferencia inexacta sobre los datos. Debido a un manejo inadecuado, el resultado obtenido por el investigador diferirá de aquellos en los que los valores perdidos están presentes.

La falta de respuesta a los ítems se produce cuando el encuestado no responde a determinadas preguntas debido al estrés, la fatiga o la falta de conocimientos.  Igualmente, el encuestado puede no responder porque algunas preguntas son de contenido sensible.  Estas faltas de respuesta se considerarían valores perdidos.

No es infrecuente que haya una cantidad considerable de datos perdidos en un estudio. Una técnica para manejar los datos faltantes es utilizar los métodos de análisis de datos que son robustos a los problemas causados por los datos faltantes. Se considera que un método de análisis es robusto a los datos que faltan cuando hay confianza en que las violaciones leves o moderadas de los supuestos producirán poco o ningún sesgo o distorsión en las conclusiones extraídas sobre la población. Sin embargo, no siempre es posible utilizar tales técnicas. Por lo tanto, se han desarrollado varias formas alternativas de tratar los datos que faltan.

Tratamiento de los valores perdidos

El investigador puede dejar los datos tal como están o hacer una imputación de datos para sustituirlos. Supongamos que el número de casos de valores perdidos es extremadamente pequeño; entonces, un investigador experto puede descartar u omitir esos valores del análisis.  De esta manera, en lenguaje estadístico, si el número de casos es inferior al 5% de la muestra, el investigador puede omitirlos.

En el caso del análisis multivariante, si hay un número significativo de valores perdidos, entonces puede ser recomendable descartar esos casos en lugar de hacer la imputación y sustituirlos.  Por otro lado, en el análisis univariante, la imputación puede disminuir la cantidad de sesgo en los datos, si los valores faltan al azar.

Tipos de Valores Perdidos al Azar

Existen dos formas de valores perdidos al azar:

MCAR (Missing completely at random): Falta de Valores completamente al azar

La primera forma es la falta de valores completamente al azar (MCAR).  Esta forma existe cuando los valores perdidos se distribuyen aleatoriamente en todas las observaciones.  Esta forma puede confirmarse dividiendo los datos en dos partes: un conjunto que contiene los valores perdidos y otro que contiene los valores no perdidos.  Tras la partición de los datos, se realiza la prueba más popular denominada prueba t de diferencia de medias. Así podemos comprobar si existe alguna diferencia en la muestra entre los dos conjuntos de datos.

El investigador debe tener en cuenta que si los datos son del tipo MCAR, puede optar por una eliminación de los casos de valores perdidos por pares o por listas.  Si por el contrario los datos no son del tipo MCAR, se realiza una imputación para sustituirlos.

MAR (Missing at random): Falta de Valores al Azar

La segunda forma es la falta de valores al azar (MAR). En este caso, los valores perdidos no se distribuyen aleatoriamente entre las observaciones, sino que se distribuyen dentro de una o más submuestras.  Esta forma es más común que la anterior.

El valor ausente no ignorable es la forma más problemática que implica aquellos tipos de valores ausentes que no están distribuidos aleatoriamente entre las observaciones.  En este caso, la probabilidad no puede predecirse a partir de las variables del modelo.  Esto puede ignorarse realizando una imputación de datos para reemplazarlos.

Existen métodos de estimación en el Programa Estadístico SPSS que proporcionan al investigador ciertas técnicas estadísticas para estimar los valores perdidos.  Se trata de la regresión, la estimación de máxima verosimilitud, la eliminación por listas o por pares, el bootstrap bayesiano aproximado, la imputación de datos múltiples y muchos otros.

Técnicas para tratar los datos faltantes

El mejor método posible para tratar los datos que faltan es prevenir el problema planificando bien el estudio y recogiendo los datos cuidadosamente. Así, para minimizar la cantidad de datos perdidos en la investigación, se sugiere lo siguiente:

En primer lugar, el diseño del estudio debe limitar la recogida de datos a los que participan en el estudio. Esto puede lograrse reduciendo al mínimo el número de visitas de seguimiento, recogiendo sólo la información esencial en cada visita y elaborando formularios de notificación de casos fáciles de usar.

En segundo lugar, antes de comenzar la investigación, debe elaborarse una documentación detallada del estudio en forma de manual de operaciones que incluya los métodos de selección de los participantes, el protocolo de formación de los investigadores y los participantes, los métodos de comunicación entre los investigadores y los participantes, la aplicación del tratamiento, el procedimiento de recogida, introducción y edición de datos.

Posteriormente, antes de iniciar la inscripción de los participantes, debe realizarse una formación para instruir a todo el personal relacionado con el estudio sobre todos los aspectos del mismo, como la inscripción de los participantes, la recogida e introducción de datos y la aplicación del tratamiento o la intervención, si es el caso.

En cuarto lugar, si se realiza un estudio piloto antes del inicio del ensayo principal, puede ayudar a identificar los problemas inesperados que probablemente se produzcan durante el estudio. Así se reduce así la cantidad de datos perdidos.

En quinto lugar, el equipo de gestión del estudio debe establecer objetivos a priori para el nivel inaceptable de datos faltantes. Teniendo en cuenta estos objetivos, la recopilación de datosdebe supervisarse y notificarse lo más cerca posible del tiempo real durante el transcurso del estudio.

En sexto lugar, los investigadores del estudio deben identificar y comprometer de forma eficiente, aunque no coercitiva, a los participantes que corren el mayor riesgo de perderse durante el seguimiento.

Por último, si un encuestado decide retirarse del seguimiento, deben registrarse los motivos de la retirada para el posterior análisis en la interpretación de los resultados.

Eliminación de listas o de casos

Es el enfoque más común para los datos que faltan es simplemente omitir estos casos y analizar los datos restantes. Este enfoque se conoce como análisis de casos completos (o casos disponibles) o eliminación por lista.

La eliminación por lista es el método más utilizado para tratar los datos que faltan y, por lo tanto, se ha convertido en la opción por defecto para el análisis en la mayoría de los paquetes de software estadístico. Algunos investigadores insisten en que puede introducir un sesgo en la estimación de los parámetros. Sin embargo, si se cumple el supuesto de valores MCAR, se sabe que la eliminación de la lista produce estimaciones no sesgadas y resultados conservadores. Cuando los datos no cumplen el supuesto de MCAR, la supresión de la lista puede provocar un sesgo en las estimaciones de los parámetros.

Si la muestra es lo suficientemente grande donde la potencia no es un problema y el supuesto de MCAR se cumple, la eliminación por lista puede ser una estrategia razonable. Sin embargo, cuando la muestra no es grande o no se cumple el supuesto del MCAR, la eliminación de la lista no es la estrategia óptima.

Eliminación por pares

La eliminación por pares sólo elimina información cuando falta el punto de datos concreto necesario para probar una hipótesis determinada. Si faltan datos en otras partes del conjunto de datos, los valores existentes se utilizan en la prueba estadística. Como la eliminación por pares utiliza toda la información observada, preserva más información que la eliminación por listas. Sin embargo, este enfoque presenta los siguientes problemas:

1) Los parámetros del modelo se mantendrán en diferentes conjuntos de datos con diferentes estadísticas, como el tamaño de la muestra y los errores estándar.

2) Puede producir una matriz de intercorrelación que no es positiva, lo que probablemente impida el análisis posterior.

Se sabe que la eliminación por pares está menos sesgada para los datos MCAR o MAR y los mecanismos apropiados se incluyen como covariables. Sin embargo, si hay muchas observaciones perdidas, el análisis será deficiente.

Sustitución de la media

En una sustitución de la media, se utiliza el valor medio de una variable en lugar del valor de los datos que faltan para esa misma variable. Esto permite a los investigadores utilizar los datos recogidos en un conjunto de datos incompleto. El trasfondo teórico de la sustitución de la media es que la media es una estimación razonable para una observación seleccionada aleatoriamente de una distribución normal.

Sin embargo, con valores perdidos que no son estrictamente aleatorios, especialmente en presencia de una gran desigualdad en el número de valores perdidos para las diferentes variables, el método de sustitución de la media puede conducir a un sesgo inconsistente. Además, este enfoque no añade ninguna información nueva, sino que sólo aumenta el tamaño de la muestra y conduce a una subestimación de los errores. Por lo tanto, la sustitución de la media no está generalmente aceptada.

Imputación de la regresión

La imputación es el proceso de sustituir los datos que faltan por valores estimados. En lugar de eliminar cualquier caso que tenga algún valor perdido, este enfoque preserva todos los casos sustituyendo los datos perdidos por un valor probable estimado por otra información disponible. Una vez sustituidos todos los valores que faltan por este enfoque, el conjunto de datos se analiza utilizando las técnicas estándar para un dato completo.

En la imputación por regresión, las variables existentes se utilizan para hacer una predicción y luego el valor predicho se sustituye como si fuera un valor real obtenido. Sin embargo, este enfoque presenta una serie de ventajas, ya que la imputación conserva una gran cantidad de datos con respecto a la supresión por listas o por pares y evita alterar significativamente la desviación estándar o la forma de la distribución.

Última observación llevada a cabo

Muchos estudios se realizan con el enfoque longitudinal o de series temporales, en el que los sujetos son medidos repetidamente a lo largo de una serie de puntos temporales. Uno de los métodos de imputación más utilizados en estos casos es el de la última observación realizada (Last Observation Carried Forward, LOCF). Este método sustituye cada valor que falta por el último valor observado del mismo sujeto.

Este método es ventajoso porque es fácil de entender y comunicar entre los estadísticos o entre un patrocinador y el investigador.

Aunque es sencillo, este método asume que el valor del resultado permanece inalterado por los datos que faltan, lo que parece poco probable en muchos entornos. Produce una estimación sesgada del efecto del tratamiento y subestima la variabilidad del resultado estimado. En consecuencia, la Academia Nacional de Ciencias de Estados Unidos ha recomendado que no se utilice de forma acrítica la imputación simple.

Máxima verosimilitud

Hay una serie de estrategias que utilizan el método de máxima verosimilitud para tratar los datos que faltan. En ellas, el supuesto de que los datos observados son una muestra extraída de una distribución normal multivariante es relativamente fácil de entender. Una vez estimados los parámetros con los datos disponibles, los datos que faltan se estiman a partir de los parámetros que se acaban de estimar.

Cuando faltan datos pero son relativamente completos, los estadísticos que explican las relaciones entre las variables pueden calcularse mediante el método de máxima verosimilitud. Es decir, los datos que faltan pueden estimarse utilizando la distribución condicional de las demás variables.

Expectativa-Maximización

La maximización de expectativas (Expectation–maximization, EM) es un tipo de método de máxima verosimilitud que puede utilizarse para crear un nuevo conjunto de datos. Aquí todos los valores que faltan se imputan con valores estimados por los métodos de máxima verosimilitud.

Estas estimaciones se utilizan para crear una ecuación de regresión para predecir los datos que faltan.  Luego, el paso de expectativa se repite entonces con los nuevos parámetros, donde se determinan las nuevas ecuaciones de regresión para “rellenar” los datos que faltan. Los pasos de expectativa y maximización se repiten hasta que el sistema se estabiliza, cuando la matriz de covarianza de la iteración siguiente es prácticamente la misma que la de la iteración anterior.

Una característica importante de la imputación por maximización de expectativas es que cuando se genera el nuevo conjunto de datos sin valores perdidos, se incorpora un término de perturbación aleatorio para cada valor imputado con el fin de reflejar la incertidumbre asociada a la imputación. Sin embargo, la imputación por maximización de expectativas tiene algunas desventajas. Este enfoque puede tardar mucho tiempo en converger, especialmente cuando hay una gran fracción de datos perdidos, puede conducir a las estimaciones de parámetros sesgados y puede subestimar el error estándar.

Imputación múltiple

La imputación múltiple es otra estrategia útil para tratar los datos que faltan. En una imputación múltiple, en lugar de sustituir un único valor por cada dato que falta, los valores que faltan se sustituyen por un conjunto de valores plausibles que contienen la variabilidad natural y la incertidumbre de los valores correctos.

Este enfoque comienza con una predicción de los datos que faltan utilizando los datos existentes de otras variables. A continuación, los valores que faltan se sustituyen por los valores predichos y se crea un conjunto de datos completo denominado conjunto de datos imputados. Este proceso itera la repetición y hace múltiples conjuntos de datos imputados (de ahí el término “imputación múltiple”). Cada conjunto de datos imputados múltiples producido se analiza entonces utilizando los procedimientos de análisis estadístico estándar para datos completos dando resultados de análisis múltiples. Posteriormente, al combinar estos resultados de análisis, se produce un único resultado de análisis global.

La ventaja de la imputación múltiple es que, además de restaurar la variabilidad natural de los valores perdidos, incorpora la incertidumbre debida a los datos perdidos, lo que da lugar a una inferencia estadística válida. El restablecimiento de la variabilidad natural de los datos que faltan puede lograrse sustituyendo los datos que faltan por los valores imputados que se predicen utilizando las variables correlacionadas con los datos que faltan. La incorporación de la incertidumbre se realiza produciendo diferentes versiones de los datos que faltan y observando la variabilidad entre los conjuntos de datos imputados.

Se ha demostrado que la imputación múltiple produce una inferencia estadística válida que refleja la incertidumbre asociada a la estimación de los datos que faltan. Además, la imputación múltiple resulta ser robusta a la violación de los supuestos de normalidad y produce resultados adecuados incluso en presencia de un tamaño de muestra pequeño o un número elevado de datos perdidos.

Análisis de sensibilidad

El análisis de sensibilidad se define como el estudio que define cómo se puede asignar la incertidumbre en la salida de un modelo a las diferentes fuentes de incertidumbre en sus entradas.

Cuando se analizan los datos que faltan, se hacen suposiciones adicionales sobre las razones de los datos que faltan y estas suposiciones suelen ser aplicables al análisis primario. Sin embargo, no se puede validar definitivamente la corrección de los supuestos. Por lo tanto, se recomienda se lleve a cabo un análisis de sensibilidad para evaluar la solidez de los resultados ante las desviaciones de la hipótesis.

Recomendaciones

La mejor solución para los datos que faltan es maximizar la recogida de datos cuando se diseña el protocolo del estudio y se recogen los datos. La aplicación de las técnicas sofisticadas de análisis estadístico sólo debe realizarse después de haber empleado los máximos esfuerzos para reducir los datos faltantes en el diseño y las técnicas de prevención.

Debe realizarse un análisis estadísticamente válido que cuente con mecanismos y supuestos adecuados para los datos que faltan. Deben incluirse todas las variables que presenten los mecanismos potenciales para explicar los datos faltantes, incluso cuando estas variables no estén incluidas en el análisis.

Nuestros especialistas esperan por ti para que los contactes a través del formulario de cotización o del chat directo. También contamos con canales de comunicación confidenciales como WhatsApp y Messenger. Y si quieres estar al tanto de nuestros novedosos servicios y las diferentes ventajas de contratarnos, síguenos en FacebookInstagram o Twitter.

Si este artículo fue de tu agrado, no olvides compartirlo por tus redes sociales

Fuentes Consultadas

Allison, P. D. (2001). Missing data. Thousand Oaks, CA: Sage Publications.

Graham, J. W. (2009). Missing data analysis: Making it work in the real world. Annual Review of Psychology, 60, 549-576.

Little, R. J. A., & Rubin, D. B. (1987). Statistical analysis with missing data. New York: John Wiley & Sons.

Pickles, A. (2005). Missing data, problems and solutions. In Encyclopedia of Social Measurement (pp. 689-694). Amsterdam: Elsevier.

También te puede interesar: Autocorrelación de Valores en Estadística

Valores Perdidos en Estadística

Valores Perdidos en Estadística. Foto: Unsplash. Créditos: Windows

 

 

Abrir chat
1
Escanea el código
Bienvenido(a) a Online Tesis
Nuestros expertos estarán encantados de ayudarte con tu investigación ¡Contáctanos!