Desde la invención de los ordenadores, la gente ha utilizado el término datos para referirse a la información informática. Esta información se transmitía o almacenaba. Pero esa no es la única definición de datos; también existen otros tipos de datos. Entonces, ¿cómo se puede verificar la calidad de los datos? Los datos pueden ser textos o números escritos en papeles. También pueden ser bytes y bits dentro de la memoria de los dispositivos electrónicos. O pueden ser hechos que se almacenan dentro de la mente de una persona.

¿Qué son los datos?

Ahora bien, si hablamos de datos principalmente en el campo de la ciencia, la respuesta a "qué son los datos" será que los datos son diferentes tipos de información que suelen estar formateados de una manera determinada. Según Cahn y Cahn (2013), desde el punto de vista informático, todo el software se divide en dos grandes categorías, que son los programas y los datos. Los programas son el conjunto de instrucciones que se utilizan para manipular los datos. Por lo tanto, después de entender a fondo lo que son los datos y la ciencia de los datos, vamos a aprender algunos hechos fantásticos.

Tipos y usos de los datos

El crecimiento en el campo de la tecnología, específicamente en los teléfonos inteligentes, ha llevado a que el texto, el vídeo y el audio se incluyan en los datos, además de la web y los registros de actividad. La mayoría de estos datos no están estructurados.

El término Big Data se utiliza en la definición de datos para describir los datos que están en el rango de petabytes o más. Los Big Data también se describen como las 5 V: variedad, volumen, valor, veracidad y velocidad. Hoy en día, el comercio electrónico basado en la web se ha extendido enormemente, los modelos de negocio basados en Big Data han evolucionado y tratan los datos como un activo en sí mismo. Y son muchos los beneficios de los Big Data, como la reducción de costes, la mejora de la eficiencia, el aumento de las ventas, etc.

El significado de los datos se expande más allá del procesamiento de datos en aplicaciones informáticas. Cuando se trata de lo que es la ciencia de los datos, se llama ciencia de los datos a un conjunto de hechos. En consecuencia, las finanzas, la demografía, la salud y el marketing también tienen diferentes significados de los datos, que en última instancia conforman diferentes respuestas para lo que son los datos.

¿Cómo se analizan los datos?

Idealmente, hay dos formas de analizar los datos:

Análisis de datos en la investigación cualitativa

El análisis de datos y la investigación en información subjetiva funcionan algo mejor que la información numérica, ya que la información cualitativa está formada por palabras, representaciones, fotografías, objetos y, a veces, imágenes. La obtención de conocimientos a partir de estos datos enmarañados es un procedimiento confuso; por lo tanto, suele utilizarse para la investigación exploratoria, así como para el análisis de datos.

Encontrar patrones en los datos cualitativos

Aunque existen diferentes formas de descubrir patrones en los datos impresos, la estrategia basada en las palabras es el método global más dependiente y ampliamente utilizado para la investigación y el análisis de datos. Principalmente, el proceso de análisis de datos en la investigación cualitativa es manual. En él, los especialistas, por regla general, leen la información accesible y encuentran las palabras monótonas o frecuentemente utilizadas.

Análisis de datos en la investigación cuantitativa

La etapa principal en la investigación y el análisis de datos es hacerlo para el examen con el objetivo de que la información nominal pueda convertirse en algo importante. La preparación de los datos comprende lo siguiente:

Validación de los datos

Edición de los datos

Codificación de los datos

En el caso de la investigación estadística cuantitativa, la utilización del análisis descriptivo suele arrojar cifras supremas. Sin embargo, el análisis nunca es adecuado para mostrar la justificación que hay detrás de esas cifras. Aun así, es importante pensar en la mejor técnica que se debe utilizar para la investigación y el análisis de los datos que se ajustan a su encuesta de revisión y a la historia que los especialistas deben contar.

Por lo tanto, las empresas que estén preparadas para triunfar en el mundo hipercompetitivo deben tener una notable capacidad para investigar información compleja, deducir conocimientos notables y ajustarse a las nuevas necesidades del mercado.

Principales razones para convertirse en un científico de datos: Trabajos en Datos

A continuación se mencionan los usos de los datos que explican cómo convertirse en un científico de datos es la elección correcta.

La ciencia de los datos se utiliza para detectar riesgos y fraudes. Inicialmente, la ciencia de datos se utilizó en el sector de las finanzas y la misma sigue siendo la aplicación más significativa de la ciencia de datos.

El siguiente es el sector de la salud. Aquí, la ciencia de datos se utiliza para analizar imágenes médicas, genética y genómica. También es aplicable al desarrollo de medicamentos. Y por último, es una gran ventaja para convertirse en un asistente virtual para los pacientes.

Otra aplicación de la ciencia de datos es la búsqueda en Internet. Todos los motores de búsqueda hacen uso de algoritmos de ciencia de datos para mostrar el resultado deseado.

Otras muchas aplicaciones de la ciencia de los datos o de la inteligencia artificial son la publicidad dirigida, el reconocimiento avanzado de imágenes, el reconocimiento de la velocidad, la planificación de la ruta aérea, la realidad aumentada y los juegos, etc.

¿Qué es la calidad de los datos?

Podemos considerar los datos como la base de una jerarquía en la que los datos son el nivel inferior. Por encima de los datos tenemos la información, que son los datos en su contexto. Más arriba tenemos el conocimiento visto como información procesable y en el nivel superior la sabiduría como el conocimiento aplicado.

Si la calidad de los datos es mala, la calidad de la información no será buena. Con una mala calidad de la información, carecerá de conocimientos procesables en las operaciones empresariales y no podrá aplicar esos conocimientos o lo hará de forma errónea, con resultados empresariales arriesgados como consecuencia.

¿Cómo saber si los datos son de calidad?

Hay muchas definiciones de la calidad de los datos. Las dos que predominan son:

Los datos son de alta calidad si son aptos para el uso previsto.

Los datos son de alta calidad, si los datos representan correctamente la construcción del mundo real que los datos describen.

Estas dos posibles definiciones pueden ser contradictorias. Si, por ejemplo, un registro de datos maestros de clientes es apto para emitir una factura al recibir un pago, puede ser apto para ese fin. Pero si el registro de datos maestros de clientes, al mismo tiempo, está incompleto o es incorrecto para realizar el servicio de atención al cliente, porque los datos no describen completamente o de forma incorrecta el quién, el qué y el dónde de la entidad del mundo real que tiene el papel de cliente en esa operación comercial, tenemos un problema comercial.

Inexactitud de los datos

A menudo, los datos maestros no deben ser adecuados para múltiples propósitos. Esto se puede conseguir asegurando la alineación con el mundo real. Por otro lado, puede que no sea rentable ni proporcionado esforzarse por conseguir la alineación perfecta con el mundo real para que los datos sean aptos para el propósito de uso previsto dentro del objetivo empresarial en el que se financia una iniciativa de calidad de datos. Por tanto, en la práctica, se trata de encontrar un equilibrio entre estas dos definiciones.

En una investigación encargada por Experian Data Quality en 2013, se descubrió que la razón principal de la inexactitud de los datos eran los errores humanos, ya que el 59 % de los casos se evaluaron por esa causa. Evitar o eventualmente corregir los datos de baja calidad causados por errores humanos requiere un esfuerzo integral con la combinación adecuada de remedios que tienen que ver con las personas, los procesos y la tecnología.

Otras razones principales de la inexactitud de los datos encontradas en la investigación mencionada son la falta de comunicación entre departamentos (31%) y una estrategia de datos inadecuada (24%). La resolución de estos problemas exige una apasionada implicación de la alta dirección.

Importancia de la calidad de los datos

Normalmente no es difícil conseguir que todos los miembros de una empresa, incluida la alta dirección, estén de acuerdo en que tener una buena calidad de datos es bueno para el negocio. En la era actual de la transformación digital, el apoyo para centrarse en la calidad de los datos es incluso mayor que antes.

Sin embargo, cuando se trata de las cuestiones esenciales sobre quién es el responsable de la calidad de los datos, quién debe hacer algo al respecto y quién financiará las actividades necesarias, entonces las cosas se ponen difíciles.

La calidad de los datos se asemeja a la salud humana. Comprobar con exactitud cómo puede afectar a nuestra salud cualquier elemento de la dieta y el ejercicio es diabólicamente difícil. Del mismo modo, comprobar con precisión cómo un elemento de nuestros datos puede afectar a nuestro negocio es también muy difícil.

Ejemplo de calidad de los datos

En marketing se gasta más de la cuenta, y se molesta a los clientes potenciales, enviando el mismo material más de una vez a la misma persona, con el nombre y la dirección un poco diferentes. El problema son los duplicados en la misma base de datos y en varias fuentes internas y externas.

En la venta online no se pueden presentar suficientes datos de los productos para apoyar una decisión de compra en autoservicio. Los problemas aquí son la integridad de los datos de los productos dentro de sus bases de datos y la forma en que los datos de los productos se sindican entre los socios comerciales.

En la cadena de suministro no se pueden automatizar los procesos basados en información de localización fiable. Los retos aquí son utilizar los mismos estándares y tener la precisión necesaria dentro de los datos de localización.

En los informes financieros se obtienen diferentes respuestas para la misma pregunta. Esto se debe a que los datos son incoherentes, a que la frescura de los datos varía y a que las definiciones de los datos son poco claras.

Calidad de los datos a nivel corporativo

A nivel corporativo, los problemas de calidad de los datos tienen un impacto drástico en el cumplimiento de los objetivos empresariales principales, como:

Incapacidad de reaccionar a tiempo ante las nuevas oportunidades del mercado y, por tanto, obstaculizar los logros de beneficios y crecimiento. A menudo, esto se debe a que no se está preparado para reutilizar los datos existentes que sólo eran aptos para los requisitos de ayer.

Obstáculos en la aplicación de programas de reducción de costes, ya que los datos que deben respaldar los procesos empresariales en curso necesitan demasiada inspección y corrección manual. La automatización sólo funcionará con datos completos y coherentes.

Deficiencias a la hora de cumplir con los crecientes requisitos de conformidad. Estos requisitos abarcan desde las normativas de privacidad y protección de datos como el GDPR, los requisitos de salud y seguridad en varias industrias hasta las restricciones, requisitos y directrices financieras. Una mejor calidad de los datos es, en la mayoría de los casos, una necesidad para cumplir estos objetivos de conformidad.

Dificultades para explotar el análisis predictivo de los activos de datos corporativos, lo que supone más riesgo del necesario a la hora de tomar decisiones tanto a corto como a largo plazo. Estos retos se derivan de problemas relacionados con la duplicación de datos, el carácter incompleto de los datos, la incoherencia de los datos y la inexactitud de los datos.

Cómo mejorar la calidad de los datos

La mejora de la calidad de los datos requiere una combinación equilibrada de medicina que abarque a las personas, los procesos y la tecnología, así como una buena parte de la participación de la alta dirección.

Dimensiones de la calidad de los datos

Al mejorar la calidad de los datos, el objetivo será medir y mejorar una serie de dimensiones de la calidad de los datos. Oliver (2013), establece las siguientes dimensiones:

La unicidad es la dimensión de calidad de datos más abordada cuando se trata de datos maestros de clientes. Los datos maestros de clientes a menudo se ven afectados por duplicados, es decir, dos o más filas de la base de datos que describen la misma entidad del mundo real. Existen varios remedios para solucionar este problema, desde interceptar los duplicados en el punto de entrada hasta la deduplicación masiva de los registros ya almacenados en una o varias bases de datos.

En el caso de los datos maestros de productos, la unicidad es un problema menos frecuente. Sin embargo, la exhaustividad suele ser un gran problema. Una de las razones es que la exhaustividad implica diferentes requisitos para diferentes categorías de productos.

Cuando se trabaja con datos maestros de ubicación, la coherencia puede ser un reto. Abordar, por así decirlo, los diferentes formatos de direcciones postales en todo el mundo no es ciertamente un paseo.

En la intersección entre el dominio de la localización y el dominio del cliente, la dimensión de la calidad de los datos llamada precisión puede ser difícil de gestionar, ya que los diferentes casos de uso requieren una precisión diferente para un tiempo de localización siendo una dirección postal y/o una posición geográfica.

Lo que es relevante saber sobre sus clientes y lo que es relevante contar sobre sus productos son cuestiones esenciales en la intersección de los dominios de datos maestros de clientes y productos.

La conformidad de los datos de los productos está relacionada con las ubicaciones. Tomemos como ejemplo las unidades de medida. En Estados Unidos, la longitud de una cosa pequeña estará en pulgadas, pero en la mayor parte del resto del mundo estará en centímetros.

La puntualidad, es decir, si los datos están disponibles en el momento en que se necesitan, es la dimensión de la calidad de los datos que se mantiene en todo el mundo.

Otras dimensiones de la calidad de los datos que hay que medir y mejorar son la exactitud de los datos, que se refiere a la alineación con el mundo real o con una fuente verificable, la validez de los datos, que se refiere a si los datos se ajustan a los requisitos empresariales especificados, y la integridad de los datos, que se refiere a si las relaciones entre entidades y atributos son técnicamente coherentes.

Gestión de la calidad de los datos

En la gestión de la calidad de los datos, el objetivo es explotar un conjunto equilibrado de soluciones para prevenir futuros problemas de calidad de los datos y limpiar (o, en última instancia, purgar) los datos que no cumplen los Indicadores Clave de Rendimiento (KPI) de calidad de los datos necesarios para alcanzar los objetivos empresariales actuales y futuros.

Los KPI de calidad de datos se medirán normalmente en los activos de datos empresariales principales dentro de las dimensiones de calidad de datos como la unicidad de los datos, la integridad de los datos, la coherencia de los datos, la conformidad de los datos, la precisión de los datos, la relevancia de los datos, la puntualidad de los datos, la exactitud de los datos, la validez de los datos y la integridad de los datos.

Los KPI de calidad de datos deben estar relacionados con los KPI utilizados para medir el rendimiento de la empresa en general.

Los remedios utilizados para prevenir los problemas de calidad de los datos y la eventual limpieza de los mismos incluyen estas disciplinas:

Gobernanza de datos

Perfiles de datos

Comparación de datos

Informes de calidad de datos

Gestión de datos maestros (MDM)

Integración de datos de clientes (CDI)

Gestión de información de productos (PIM)

Gestión de activos digitales (DAM)

Gobierno de datos

Un marco de gobernanza de datos debe establecer las políticas y normas de datos que fijan el listón de los KPI de calidad de datos que se necesitan y los elementos de datos que deben tratarse. Esto incluye las reglas de negocio que deben ser respetadas y respaldadas por las medidas de calidad de datos.

Además, el marco de gobernanza de datos debe abarcar las estructuras organizativas necesarias para alcanzar el nivel de calidad de datos requerido. Esto incluye foros como un comité de gobierno de datos o similar, roles como propietarios de datos, administradores de datos, custodios de datos o similares en equilibrio con lo que tiene sentido en una organización determinada.

Un glosario empresarial es otro resultado valioso de la gobernanza de datos utilizado en la gestión de la calidad de datos. El glosario empresarial es un manual para establecer los metadatos utilizados para lograr definiciones de datos comunes dentro de una organización y, en última instancia, en el ecosistema empresarial en el que opera la organización.

Perfiles de datos

Es esencial que las personas designadas como responsables de la calidad de los datos y las encargadas de prevenir los problemas de calidad de los datos y la limpieza de los mismos tengan un conocimiento profundo de los datos en cuestión.

La elaboración de perfiles de datos es un método, a menudo apoyado por una tecnología específica, que se utiliza para comprender los activos de datos que intervienen en la gestión de la calidad de los datos. Estos activos de datos han sido a menudo poblados a lo largo de los años por diferentes personas que operan bajo diferentes reglas de negocio y reunidos para objetivos de negocio a medida.

En la elaboración de perfiles de datos, la frecuencia y la distribución de los valores de los datos se contabilizan en los niveles estructurales pertinentes. La elaboración de perfiles de datos también puede utilizarse para descubrir las claves que relacionan las entidades de datos entre diferentes bases de datos y en la medida en que esto no se haga ya dentro de las bases de datos individuales.

El perfilado de datos puede utilizarse para medir directamente la integridad de los datos y puede servir de entrada para establecer la medición de otras dimensiones de la calidad de los datos.

Alineación de datos

Cuando se trata de la alineación en el mundo real, no basta con utilizar claves exactas en las bases de datos.

El ejemplo clásico es cómo escribimos el nombre de una persona de forma diferente debido a malentendidos, errores tipográficos, uso de apodos y más. En el caso de los nombres de empresas, los problemas se acumulan con mnemotecnias divertidas y la inclusión de formas jurídicas. Cuando situamos a estas personas y organizaciones en lugares que utilizan una dirección postal, las formas de escribirla también tienen numerosos resultados.

La concordancia de datos es una tecnología basada en códigos de concordancia, como por ejemplo el soundex, la lógica difusa y cada vez más también el aprendizaje automático que se utiliza para determinar si dos o más registros de datos describen la misma entidad del mundo real (normalmente una persona, un hogar o una organización).

Este método puede utilizarse para desduplicar una base de datos y encontrar entidades coincidentes en varias fuentes de datos.

A menudo, el cotejo de datos se basa en el análisis sintáctico de los datos, en el que los nombres, las direcciones y otros elementos de datos se dividen en elementos de datos discretos. Por ejemplo, una dirección de tipo sobre se divide en nombre del edificio, unidad, número de casa, calle, código postal, ciudad, estado/provincia y país. Esto puede complementarse con la normalización de los datos, por ejemplo, utilizando el mismo valor para la calle, la calle y la calle.

Informes sobre la calidad de los datos

Los resultados del perfilado de datos pueden utilizarse para medir los KPI de calidad de datos basados en las dimensiones de calidad de datos relevantes para una organización determinada. Los resultados del cotejo de datos son especialmente útiles para medir la singularidad de los datos.

Además, es útil llevar un registro de problemas de calidad de datos. Aquí se documentan los problemas de calidad de datos conocidos y se hace un seguimiento de las actividades preventivas y de limpieza de datos.

Las organizaciones que se centran en la calidad de los datos encuentran útil el funcionamiento de un panel de control de calidad de datos que destaque los KPI de calidad de datos y la tendencia de sus mediciones, así como la tendencia de los problemas que pasan por el registro de problemas de calidad de datos.

Gestión de activos digitales (DAM)

Los activos digitales son imágenes, documentos de texto, vídeos y otros archivos que suelen utilizarse junto con los datos de los productos. Desde el punto de vista de la calidad de los datos, los retos para este tipo de datos giran en torno a un correcto etiquetado (metadatos), así como a la calidad de los activos. Por ejemplo, si una imagen de un producto sólo muestra claramente el producto y no muchas otras cosas.

Mejores prácticas de calidad de datos

A continuación, basándonos en el razonamiento expuesto en este post, enumeraremos una colección de 10 mejores prácticas de calidad de datos muy importantes. Según Rudestam (2014), estas son:

Garantizar la implicación de la alta dirección. Muchos de los problemas de calidad de datos sólo se resuelven con una visión interdepartamental.

Gestionar las actividades de calidad de datos como parte de un marco de gobierno de datos. Este marco debe establecer las políticas y normas de datos, las funciones necesarias y proporcionar un glosario empresarial.

Ocupar las funciones de propietarios de datos y administradores de datos del lado de la organización.

Ocupar las funciones de custodios de datos del negocio o de TI donde tenga más sentido.

Utilice un glosario empresarial como base para la gestión de metadatos. Los metadatos son datos sobre datos. La gestión de metadatos debe utilizarse para tener definiciones de datos comunes. A su vez se debe vincularlos a las aplicaciones empresariales actuales y futuras.

Llevar un registro de problemas de calidad de datos con una entrada para cada problema. Se debe incluir  información sobre el propietario de los datos asignado y los administradores de datos implicados. Igualmente se debe resaltar el impacto del problema, la resolución y el calendario de los procedimientos necesarios.

Para cada problema de calidad de datos que se plantee, comience con un análisis de la causa raíz. Los problemas de calidad de datos sólo desaparecerán si la solución aborda la causa raíz.

A la hora de encontrar soluciones, hay que esforzarse por implantar procesos y tecnologías que eviten que los problemas. Igualmente se debe envitar que se produzcan lo más cerca posible del punto de incorporación de los datos. Esto en lugar de depender de una limpieza de datos posterior.

Definir KPI de calidad de datos que estén vinculados a los KPI generales de rendimiento empresarial. Los KPI de calidad de los datos, a veces llamados también indicadores de calidad de los datos (DQI), pueden estar relacionados con dimensiones de calidad de los datos. Por ejemplo, la unicidad de los datos, la integridad de los datos y la coherencia de los datos.

Utilice anécdotas sobre accidentes de tren de la calidad de los datos para concienciar sobre la importancia de la calidad de los datos. Sin embargo, utilice análisis de impacto y riesgo basados en hechos para justificar las soluciones y la financiación necesaria.

Hoy en día, muchos datos ya están digitalizados. Por tanto, evite teclear los datos siempre que sea posible. En su lugar, intente encontrar soluciones rentables para la incorporación de datos que utilicen fuentes de datos de terceros para los datos disponibles públicamente. Por ejemplo, con las ubicaciones en general y los nombres, direcciones y documentos de identidad de las empresas. En otros casos, de las personas individuales. Para los datos de los productos, utilice datos de terceros de los socios comerciales siempre que sea posible.

Referencias Bibliográficas

Cahn, Steven M. and Victor Cahn. Polishing Your Prose: How to Turn First Drafts Into Finished Work. New York: Columbia University Press, 2013.

Oliver, Paul. Writing Your Thesis. 3rd edition. London: Sage, 2013.

Rudestam, Kjell Erik and Rae R. Newton. Surviving Your Dissertation: A Comprehensive Guide to Content and Process. 4th edition. Thousand Oaks, CA: Sage Publications, 2014.

Calidad de los datos

Calidad de los datos

 

Abrir chat
1
Bienvenido(a) a Online Tesis
Nuestros expertos estarán encantados de ayudarte con tu investigación ¡Contáctanos!