Limpieza de datos

lLa limpieza de datos implica detectar y resolver posibles inconsistencias o errores de datos para mejorar la calidad de sus datos. Un error es cualquier valor (p. ej., peso registrado) que no refleja el valor real (p. ej., peso real) de lo que se está midiendo.

En este proceso se revisan, analizan, detectan, se modifican o eliminan datos “sucios” para que su conjunto de datos esté “limpio”. La limpieza de datos también se denomina depuración de datos.

¿Por qué es importante la limpieza de datos?

En la investigación cuantitativa, se recopilan datos y se utilizan análisis estadísticos para responder una pregunta de investigación. Al usar la prueba de hipótesis, se descubre si sus datos demuestran el respaldo de sus predicciones de investigación.

Los datos depurados o calibrados incorrectamente pueden dar lugar a varios tipos de sesgo de investigación, en particular el sesgo de información y el sesgo de variable omitida.

Los errores suelen ser inevitables, pero limpiar sus datos lo ayuda a minimizarlos. Si no elimina o resuelve estos errores, podría terminar con una conclusión de estudio falsa o no válida.

La mayoría de las preguntas pueden estar enmarcadas de manera positiva, pero algunas preguntas pueden tener marcos negativos para involucrar a los participantes. Veamos el siguiente ejemplo:

Pregunta: Califique del 1 al 7 en qué medida está de acuerdo o en desacuerdo con estas afirmaciones.

Marco positivo: Me siento bien descansado cuando me despierto por la mañana.

Marco negativo: no me siento con energía después de dormir 8 horas por la noche.

Ambas preguntas miden lo mismo: cómo se sienten los encuestados después de despertarse por la mañana. Pero las respuestas a las preguntas redactadas negativamente deben codificarse a la inversa antes del análisis para que todas las respuestas estén siempre en la misma dirección. La codificación inversa significa voltear la escala numérica en la dirección opuesta para que un valor extremo (por ejemplo, 1 o 7) signifique lo mismo para cada pregunta. Si olvida revertir el código de estas respuestas antes del análisis, puede terminar con una conclusión no válida debido a errores de datos.

Datos sucios vs. depurados

Los datos sucios incluyen inconsistencias y errores. Estos datos pueden provenir de cualquier parte del proceso de investigación, incluido un diseño de investigación deficiente, materiales de medición inapropiados o una entrada de datos defectuosa.

Los datos limpios cumplen con algunos requisitos de alta calidad, mientras que los datos sucios tienen fallas de una o más formas.

Datos válidos

Los datos válidos se ajustan a ciertos requisitos para tipos específicos de información (por ejemplo, números enteros, texto, fechas). Los datos no válidos no coinciden con los posibles valores aceptados para esa observación.

Una fecha de nacimiento en un formulario solo puede reconocerse si tiene un formato determinado, por ejemplo, como dd-mm-aaaa, si se utilizan técnicas de validación de datos. El campo de día permitirá números hasta 31, el campo de mes hasta 12 y el campo de año hasta 2021. Si algún número supera esos valores, no se enviará el formulario.

Sin datos válidos, sus procedimientos de análisis de datos pueden no tener sentido. Es mejor usar técnicas de validación de datos para asegurarse de que sus datos estén en los formatos correctos antes de analizarlos.

Datos precisos

En la medición, la precisión se refiere a qué tan cerca está el valor observado del valor real. Mientras que la validez de los datos se trata de la forma de una observación, la precisión de los datos se trata del contenido real.

Supongamos que le haces a los encuestados la siguiente pregunta:

¿Con qué frecuencia va de compras al supermercado en persona?

Cada día

Una vez por semana

Quincenal

Una vez al mes

Menos de una vez al mes

Nunca

Algunos de los encuestados seleccionan “cada dos semanas” como su respuesta. Pero esta palabra puede significar dos veces por semana o una vez cada dos semanas, y estas son frecuencias bastante diferentes.

No tiene idea de cómo interpretó cada persona esta palabra, por lo que sus datos son inexactos debido a elementos de respuesta inadecuados.

Datos completos

Los datos completos se miden y registran minuciosamente. Los datos incompletos son declaraciones o registros con información faltante.

En una encuesta en línea, un participante comienza a ingresar una respuesta a una pregunta abierta. Pero se distraen y hacen otra cosa antes de volver a la encuesta. Pasan a la siguiente pregunta sin completar una respuesta. La reconstrucción de los datos que faltan no es fácil de hacer. A veces, es posible que pueda ponerse en contacto con un participante y pedirle que rehaga una encuesta o una entrevista, pero es posible que no obtenga la respuesta que hubiera obtenido de otra manera.

Datos consistentes

Los datos limpios son coherentes en un conjunto de datos. Para cada miembro de su muestra, los datos de las diferentes variables deben alinearse para que tengan sentido lógico.

Supongamos que en su encuesta, recopila información sobre variables demográficas, incluida la edad, el origen étnico, el nivel educativo y el estado socioeconómico. Un participante ingresa “13” para su edad y educación de nivel de doctorado como su título más alto obtenido. Estos datos son inconsistentes porque es muy poco probable que un niño de 13 años tenga un doctorado en su muestra específica. Es más probable que se haya ingresado una edad incorrecta.

Datos únicos

En la recopilación de datos, es posible que accidentalmente registre datos del mismo participante dos veces.

En una encuesta en línea, un participante completa el cuestionario y presiona Intro dos veces para enviarlo. Los datos se informan dos veces por su parte. Es importante revisar sus datos en busca de entradas idénticas y eliminar cualquier entrada duplicada en la limpieza de datos. De lo contrario, sus datos podrían estar sesgados.

Datos uniformes

Los datos uniformes se notifican utilizando las mismas unidades de medida. Si los datos no están todos en las mismas unidades, deben convertirse a una medida estándar.

En una encuesta, solicita a los participantes que ingresen su salario bruto en dólares estadounidenses. Algunos participantes responden con su salario mensual, mientras que otros informan su salario anual.

A menos que proporcione una unidad de tiempo, los participantes pueden responder esta pregunta usando diferentes marcos de tiempo. No sabrás con certeza si están reportando su salario mensual o anual.

¿Cómo se limpian los datos?

Cada conjunto de datos requiere diferentes técnicas para limpiar los datos sucios, pero debe abordar estos problemas de manera sistemática. Querrá conservar la mayor cantidad de datos posible y, al mismo tiempo, asegurarse de terminar con un conjunto de datos limpio.

La limpieza de datos es un proceso difícil porque los errores son difíciles de identificar una vez que se recopilan los datos. A menudo, no tendrá forma de saber si un punto de datos refleja el valor real de algo con precisión y precisión.

En la práctica, puede enfocarse en encontrar y resolver puntos de datos que no concuerden o no encajen con el resto de su conjunto de datos de formas más obvias. Estos datos pueden ser valores faltantes, valores atípicos, formato incorrecto o irrelevantes.

Puede elegir algunas técnicas para limpiar datos según lo que sea apropiado. Lo que desea obtener es un conjunto de datos válido, consistente, único y uniforme que sea lo más completo posible.

Flujo de trabajo de limpieza de datos

Generalmente, comienza la limpieza de datos escaneando sus datos a un nivel amplio. Usted revisa y diagnostica los problemas sistemáticamente y luego modifica los elementos individuales según los procedimientos estandarizados. Su flujo de trabajo podría verse así:

Aplicar técnicas de validación de datos para evitar la entrada de datos sucios

Examine su conjunto de datos en busca de errores o inconsistencias

Diagnosticar sus entradas de datos

Desarrolle códigos para mapear sus datos en valores válidos

Transforme o elimine sus datos según procedimientos estandarizados

No todos estos pasos serán relevantes para todos los conjuntos de datos. Puede aplicar con cuidado técnicas de limpieza de datos cuando sea necesario, con una documentación clara de sus procesos para lograr transparencia.

Al documentar su flujo de trabajo, se asegura de que otras personas puedan revisar y replicar sus procedimientos.

Validación de datos

La validación de datos implica aplicar restricciones para asegurarse de tener datos válidos y consistentes. Por lo general, se aplica incluso antes de recopilar datos, al diseñar cuestionarios u otros materiales de medición que requieren la entrada manual de datos.

Las diferentes restricciones de validación de datos lo ayudan a minimizar la cantidad de limpieza de datos que deberá realizar.

Restricciones de tipo de datos

Los valores solo se pueden aceptar si son de cierto tipo, como números o texto.

Si se ingresa una fecha con texto y números (p. ej., 20 de marzo de 2021), en lugar de solo números (p. ej., 20-03-2021), no se aceptará.

Restricciones de rango

Los valores deben estar dentro de un cierto rango para ser válidos.

Usted diseña un cuestionario para una población objetivo con edades que oscilan entre 18 y 45 años. Al informar la edad, los participantes solo pueden ingresar un valor entre 18 y 45 para continuar con el formulario.

Restricciones obligatorias

Se debe ingresar un valor.

Los participantes que completen un formulario deben seleccionar un botón que dice “Consiento” para comenzar.

Cribado de datos

Una vez que haya recopilado sus datos, lo mejor es crear una copia de seguridad de su conjunto de datos original y almacenarla de forma segura. Si comete algún error en su flujo de trabajo, siempre puede comenzar de nuevo duplicando la copia de seguridad y trabajando desde la nueva copia de su conjunto de datos.

Pasos para la Selección de Datos

La selección de datos implica revisar su conjunto de datos en busca de datos incoherentes, no válidos, faltantes o atípicos. Puede hacerlo manualmente o con métodos estadísticos.

Paso 1: Organice su conjunto de datos

Estas acciones lo ayudarán a mantener sus datos organizados y fáciles de entender.

Convierta cada variable (medida) en una columna y cada caso (participante) en una fila.

Dé a sus columnas nombres únicos y lógicos.

Elimina las filas vacías de tu conjunto de datos.

Paso 2: Escanea visualmente tus datos para detectar posibles discrepancias

Revise su conjunto de datos y responda estas preguntas:

¿Existen irregularidades en el formato de fechas o datos textuales o numéricos?

¿Algunas columnas tienen muchos datos faltantes?

¿Alguna fila tiene entradas duplicadas?

¿Los valores específicos en algunas columnas parecen ser valores atípicos extremos?

Tome nota de estos problemas y considere cómo los abordará en su procedimiento de limpieza de datos.

Paso 3: Use técnicas estadísticas y tablas/gráficos para explorar datos

Al recopilar estadísticas descriptivas y visualizaciones, puede identificar cómo se distribuyen sus datos e identificar valores atípicos o sesgos.

Explore sus datos visualmente con diagramas de caja, diagramas de dispersión o histogramas

Compruebe si sus datos se distribuyen normalmente

Crear estadísticas de resumen (descriptivas) para cada variable

Resume tus datos cuantitativos en tablas de frecuencia

Puede obtener una idea aproximada de cómo se distribuyen sus datos de variables cuantitativas visualizándolos. Los diagramas de caja y los diagramas de dispersión pueden mostrar cómo se distribuyen sus datos y si tiene valores extremos. Es importante verificar si sus variables se distribuyen normalmente para que pueda seleccionar las pruebas estadísticas adecuadas para su investigación.

Si la media, la mediana y la moda difieren mucho entre sí, es posible que haya valores atípicos en el conjunto de datos que deba examinar.

Diagnóstico de datos

Después de una descripción general, puede comenzar a entrar en el meollo de la cuestión de su conjunto de datos. Deberá crear un procedimiento estándar para detectar y tratar diferentes tipos de datos.

Sin una planificación adecuada, podría terminar eligiendo solo algunos puntos de datos para limpiar, lo que generaría un conjunto de datos sesgado.

Aquí nos centraremos en formas de lidiar con problemas comunes en los datos sucios:

Deduplicación

La deduplicación significa detectar y eliminar cualquier copia idéntica de datos, dejando solo casos o participantes únicos en su conjunto de datos.

Por ejemplo: Supongamos que compila sus datos en una hoja de cálculo donde las columnas son las preguntas y las filas son los participantes. Cada fila contiene los datos de un participante. Además ordena los datos por columna y revisa los datos fila por fila para verificar si hay filas idénticas. Elimina copias idénticas de una fila. Si se dejan datos duplicados en el conjunto de datos, sesgarán sus resultados. Los datos de algunos participantes se ponderarán más que otros.

Datos inválidos

Con la estandarización de datos, pueds identificar y convertir datos de diferentes formatos a un formato uniforme. A diferencia de la validación de datos, puede aplicar técnicas de estandarización a sus datos después de haberlos recopilado. Esto implica desarrollar códigos para convertir sus datos sucios en formatos coherentes y válidos. La estandarización de datos es útil si no tiene restricciones de datos en la entrada de datos o si sus datos tienen formatos inconsistentes.

Supongamos que usando una pregunta abierta, pide a los participantes que informen su edad. Sus respuestas contienen una combinación de números y texto, con algunos errores tipográficos.

Para estandarizar datos inconsistentes, puede usar métodos de coincidencia de cadenas estrictos o difusos para identificar coincidencias exactas o cercanas entre sus datos y valores válidos. Una cadena es una secuencia de caracteres. Compara sus cadenas de datos con los valores válidos que espera obtener y luego elimina o transforma las cadenas que no coinciden.

Coincidencia estricta de cadenas

Cualquier cadena que no coincida exactamente con los valores válidos se considera no válida.

Suponiendo que sus valores válidos incluyen números entre 18 y 45 y cualquier palabra escrita correctamente que denote números con la primera letra en mayúscula. En este caso, solo se aceptarán 3 de 5 valores con coincidencia estricta.

Coincidencia aproximada de cadenas

Las cadenas que coinciden estrechamente o aproximadamente con valores válidos se reconocen y corrigen.

Supongamos que sus valores válidos incluyen números entre 18 y 45 y cualquier palabra que denote números. Utiliza un programa de computadora para permitir cualquier valor que coincida estrechamente con estos valores válidos en su conjunto de datos. Para cadenas que coincidan estrechamente, su programa verifica cuántas ediciones se necesitan para cambiar la cadena a un valor válido, y si la cantidad de ediciones es lo suficientemente pequeña, realiza esos cambios.Los cinco valores se aceptarán con la coincidencia de cadenas aproximada.

Después de hacer coincidir, puede transformar sus datos de texto en números para que todos los valores tengan un formato coherente. Por lo general, la coincidencia de cadenas aproximada es preferible a la coincidencia de cadenas estricta porque se retienen más datos.

Datos perdidos

En cualquier conjunto de datos, generalmente faltan algunos datos. Estas celdas aparecen en blanco en su hoja de cálculo. Los datos faltantes pueden provenir de causas aleatorias o sistemáticas.

Los datos perdidos aleatorios incluyen errores de entrada de datos, errores de falta de atención o mala lectura de las medidas. Sin embargo, os datos faltantes no aleatorios resultan de mediciones o preguntas confusas, mal diseñadas o inapropiadas.

Tratar con datos faltantes

Sus opciones para abordar los datos faltantes generalmente incluyen:

Aceptar los datos tal y como son

Eliminación del caso de los análisis

Recreando los datos que faltan

Los datos perdidos aleatorios generalmente se dejan solos, mientras que los datos perdidos no aleatorios pueden necesitar eliminación o reemplazo.

Con la eliminación, elimina a los participantes a los que les faltan datos de sus análisis. Pero su muestra puede volverse más pequeña de lo previsto, por lo que podría perder poder estadístico.

Supongamos que decide eliminar a todos los participantes a los que les faltan datos del conjunto de datos de su encuesta. Esto reduce su muestra de 114 participantes a 77 participantes. Como alternativa, puede utilizar la imputación para reemplazar un valor faltante con otro valor basado en una estimación razonable o utiliza otros datos para reemplazar el valor que falta por un conjunto de datos más completo. Es importante aplicar la imputación con precaución, porque existe el riesgo de sesgo o inexactitud.

Valores atípicos

Los valores atípicos son valores extremos que difieren de la mayoría de los otros puntos de datos en un conjunto de datos. Los valores atípicos pueden ser valores verdaderos o errores.

Los verdaderos valores atípicos siempre deben conservarse porque estos solo representan variaciones naturales en su muestra. Por ejemplo, los atletas que entrenan para una carrera olímpica de 100 metros tienen velocidades mucho más altas que la mayoría de la población. Sus velocidades de sprint son valores atípicos naturales.

Los valores atípicos también pueden resultar de errores de medición, errores de ingreso de datos o muestreo no representativo. Por ejemplo, se podría registrar un tiempo de sprint extremadamente bajo si lee mal el cronómetro.

Detección de valores atípicos

Los valores atípicos siempre se encuentran en los extremos de cualquier conjunto de datos variable.

Puede utilizar varios métodos para detectar valores atípicos:

Ordenar sus valores de menor a mayor y verificar los valores mínimos y máximos

Visualización de sus datos en un diagrama de caja y búsqueda de valores atípicos

Uso de procedimientos estadísticos para identificar valores extremos

Tratar con valores atípicos

Una vez que haya identificado los valores atípicos, decidirá qué hacer con ellos en su conjunto de datos. Sus principales opciones son retenerlos o eliminarlos.

En general, debe tratar de aceptar valores atípicos tanto como sea posible a menos que esté claro que representan errores o datos incorrectos.

Es importante documentar cada valor atípico que elimine y las razones para que otros investigadores puedan seguir sus procedimientos.

Limpieza de datos

2 Comentarios

zoritoler imol el 9 abril, 2023 a las 6:34 pm

Awesome website you have here but I was curious if you knew of any forums that cover the same topics discussed here? I’d really like to be a part of community where I can get suggestions from other experienced individuals that share the same interest. If you have any recommendations, please let me know. Thank you!
Responder
KzkazGof el 31 marzo, 2023 a las 4:02 am

Thanks, I’ve been looking for this for a long time
Responder

Limpieza de datos

¿Por qué es importante la limpieza de datos?

Datos sucios vs. depurados

Datos válidos

Datos precisos

Datos completos

Datos consistentes

Datos únicos

Datos uniformes

¿Cómo se limpian los datos?

Flujo de trabajo de limpieza de datos