Calidad de Datos. Cómo impulsar tu negocio con los datos.

 

Calidad de datos es la cualidad de un conjunto de información recogida en una base de datos, un sistema de información o un data warehouse que reúne entre sus atributos la exactitud, completitud, integridad, actualización, coherencia, relevancia, accesibilidad y confiabilidad necesarias para resultar útiles al procesamiento, análisis y cualquier otro fin que un usuario quiera darles.

¿Escuchas hablar de Big Data? Sin duda una posibilidad para poder tomar buenas decisiones de negocio. Pero sin calidad de datos sólo vas a conseguir decisiones pobres. Ahora más que nunca, es de vital importancia asegurar la calidad de datos para apoyar las acciones empresariales.


calidad_de_datos_toda_la_informacion.jpg

Créditos fotográficos: istock AndSim

Índice de contenidos

1. Definición de calidad de datos

2. ¿Qué es Data Quality Management?

3. Hasta dónde llegar con la calidad de datos

4. Cómo podemos medir la calidad de datos

5. 

Que hace falta para gestionar la calidad de los datos

6. Los pilares del Data Quality Management

7. Diferentes tipos de datos que afectan a la calidad de datos

8. Problemas y desafíos de la calidad de datos con Big Data

9. La calidad de datos en el mundo del IoT

10. Material complementario

 

¿De qué sirve realizar análisis y llegar a conclusiones para apoyar la toma de decisiones si la calidad de datos es deficiente? Una mala calidad de datos puede provocar decisiones erróneas que te pueden llevar a tener dificultades.

Veamos exactamente qué es calidad de datos y algunas otras cosas que debes tener en cuenta acerca de esta disciplina.

 

1. Definición de calidad de datos

La calidad de los datos es más que una percepción. No existen estandarizaciones, ni una talla única en lo que se refiere a data quality. Mantener la exactitud y la integridad de todos los tipos de datos en toda la organización es trabajar por su aptitud para cumplir con su propósito en un contexto dado, implica garantizar que cada dato reúne todos los atributos necesarios:

  • Exactitud
  • Actualización
  • Relevancia
  • Coherencia
  • Presentación apropiada
  • Accesibilidad

Dentro de una organización, la calidad de los datos es esencial para la consistencia del reporting, la confianza de los usuarios y para la eficacia de los procesos operativos y transaccionales. La inteligencia empresarialnecesita basarse en datos de alta calidad y, para asegurar que éstos se hallan al nivel deseado, hay que cuidar que cada interacción con los datos lo propicia, desde la forma en que se introducen, a cómo se almacenan y gestionan.

El aseguramiento de la calidad de los datos es el proceso de verificación de la fiabilidad y efectividad de los datos, que debe realizarse periódicamente, y que incluye acciones como:

  • Actualización
  • Normalización
  • De-duplicación

Toda organización debe buscar el obtener una visión única de la verdad, independientemente de que para alcanzar su conocimiento necesite apoyarse en datos de distintos tipos, que éstos se almacenen en múltiples sistemas dispares o provengan de fuentes heterogéneas.

Para garantizar la calidad de datos existen muchas soluciones en el mercado que facilitan los procesos de limpieza, perfilado y data matching, contribuyendo a lograr mejores resultados, en menos tiempo, gracias a la automatización que, al mismo tiempo, reduce el índice de errores en el proceso.

 ¡Resuelve aquí tus dudas sobre Calidad de Datos con uno de nuestros expertos!

 

2. ¿Qué es Data Quality Management?

La gestión de la calidad de los datos (Data Quality Management) es una forma de administración que abarca desde la definición y designación de roles hasta el despliegue de funciones, de la definición de políticas y responsabilidades al establecimiento de procedimientos para la adquisición, mantenimiento, disposición y distribución de datos.

Un enfoque eficaz de la gestión de la calidad de los datos comprende tanto elementos reactivos, que  incluyen la gestión de problemas en los datos situados en bases de datos existentes; como elementos proactivos, que son los que tiene que ver con:

  • Establecimiento de la gobernanza.
  • Identificación de las funciones y responsabilidades.
  • Implementación de una plataforma técnica que facilite estas prácticas empresariales.

Por eso, para que una iniciativa de gestión de la calidad de los datos tenga éxito, debe garantizarse la cooperación entre las áreas de IT y negocio. Esta asociación es importante porque, si bien los perfiles técnicos se encargarán de la construcción y el control del entorno, los usuarios de negocio serán los propietarios de los datos y, a partir de la aceptación ese rol, asumirán una responsabilidad con la organización y sus activos informacionales.

Así, desde IT se llevarán a cabo todas las acciones necesarias para adquirir, mantener, difundir y poner a disposición de quien corresponda los activos de datos electrónicos de una organización, trabajando para ello en:

  • Arquitectura
  • Sistemas
  • Establecimientos técnicos

En cualquier proyecto de data quality, o al considerar una plataforma de inteligencia de negocios, hay que tener en cuenta los diferentes roles asociados con la gestión de la calidad de los datos:

  • Responsable de proyecto y gerente de programa: es la persona que se encargará de la supervisión de las iniciativas de calidad específicas o del programa de inteligencia de negocios. Entre sus funciones, está también el gestionar el presupuesto, el alcance y las limitaciones del proyecto.
  • Agente de cambio en la organización: se trata de una posición clave puesto que su misión consiste en ayudar a todos los integrantes de la compañía a reconocer el impacto y el valor del entorno de inteligencia de negocios, prestando su colaboración para hacer frente a los posibles retos que se planteen.
  • Analista de negocio: con este rol se designa al perfil encargado de comunicar las necesidades del negocio para traducirlas en necesidades de calidad de datos.
  • Analista de datos: una vez conocidas las demandas del área de negocio, traduce esas necesidades en el modelo de datos y los prerrequisitos para los procedimientos de adquisición y entrega de datos; teniendo siempre presentes las necesidades específicas de calidad, y asegurándose de que queda constancia de ellas en el diseño.
  • Administrador de datos: así se denomina a quien se ocupa de gestionar los datos como un activo corporativo.

 

3. Hasta dónde llegar con la calidad de datos

¿Existe alguna forma de medir el data quality? ¿Es posible llegar a  una tasa de errores igual a cero? ¿Cómo se puede optimizar la inversión en este área? Lo cierto es que, aunque todo el mundo oye hablar de la calidad de datos, mucha gente no tiene del todo claro a qué se refiere el término o hasta dónde se puede o debe llegar con este tipo de cuestiones.

El primer paso para alejar la confusión y poder centrarse en lo verdaderamente importante es olvidarse de mitos. Y, precisamente, una de las leyendas más extendidas en este campo es la que tiene que ver con lograr activos informacionales 100% libres de errores.

Proponerse este objetivo es crear un pozo de inversión sin fondo y sin fundamento ya que, si en entornos tradicionales podría quizás plantearse, con los sitios web y el big data resulta casi imposible. El fin en ningún caso justifica los medios, puesto que los datos sólo necesitan ajustarse a los estándares que se han establecido para ello.

Y, ¿cuáles son estos estándares? Para poder responder a esta pregunta, primero habría que determinar qué es la calidad y eso es posible cuando se conoce:

  1. Quién crea los requisitos.
  2. Cuál es el proceso por el que se definen.
  3. Hasta dónde llegan los márgenes entre los que moverse para que el cumplimiento de requisitos se pueda considerar aceptable.

La respuesta a estas cuestiones suele tenerla el administrador de datos, que es quien establece los requisitos y entiende las necesidades que los motivan. Quien ostenta este rol es, además, la persona que determina el nivel de tolerancia a errores, que no suele ser cero. El motivo es que todo, desde la recolección de los datos hasta su adaptación a las necesidades de la empresa, es una vía de aparición a posibles errores. Tener datos que son 100% completos y 100% precisos no sólo es increíblemente caro, sino que además lleva mucho tiempo de conseguir y no influye apenas en el ROI.

 

Descárgate nuestra guía gratuita sobre Calidad de Datos y MDM [Recomendaciones y métricas de calidad en proyectos MDM] 

4. Cómo podemos medir la calidad de datos

Llevar a cabo una gestión de la calidad de datos adecuada depende de saber cómo medirla. El establecimiento de indicadores y la recogida de métricas permiten ganar en comprensión acerca de cada componente del ciclo de calidad de datos porque, aunque cada organización es única, existen una serie de medidas cuantitativas del data quality que son universales:

  • Completitud: es el grado en el que todos los atributos del dato están presentes.
  • Validez: representa el ajuste de un valor de datos a su conjunto de valores de.
  • Unicidad: la medida en que todos los valores distintos de un elemento de datos aparecen sólo una vez.
  • Integridad: tiene que ver con el grado de conformidad con las reglas de relación de datos definidas.
  • Precisión: determina en qué medida los datos representan correctamente la verdad sobre un objeto del mundo real o se ajustan a lo establecido por una fuente autorizada.
  • Coherencia: representa el grado en que una pieza única de datos contiene el mismo valor a través de múltiples conjuntos de datos.
  • Oportunidad: este atributo de la calidad de datos permite conocer si éstos están disponibles cuando se requiere.
  • Representación: tiene que ver con el formato, patrón, legibilidad y utilidad de los datos para su uso previsto.

Además de estas medidas cuantitativas de calidad de datos, para adquirir una perspectiva real de la situación de la organización en este área, también deben considerarse las medidas cualitativas, como las que tienen que ver con la satisfacción de los clientes y usuarios de negocio, los índices de cumplimiento, la aparición de redundancias en los procesos o la identificación de oportunidades de negocio.

El establecimiento de indicadores permite establecer una línea base para conocer el estado de la calidad de datos en la organización y poder monitorizar el progreso de las iniciativas de gestión de data quality..

 

5. Que hace falta para gestionar la calidad de los datos

Además de las métricas existen algunos otros componentes fundamentales del ciclo de calidad de datos. Se trata de los siguientes:

  • Descubrimiento de datos: proceso de búsqueda, recopilación, organización y notificación de metadatos.
  • Perfilado de datos: proceso de analizar los datos en detalle, comparándolos con sus metadatos, calculando estadísticas de datos e informando de las medidas de calidad de los datos que se deben aplicar en cada momento.
  • Reglas de calidad de datos: se orientarán a optimizar el nivel de calidad de los activos informacionales de la organización y, para ello, se basarán en los requisitos de negocio aplicables, las reglas comerciales y técnicas a las que deben adherirse los datos.
  • Monitorización de la calidad de los datos: la mejora continua requiere de un esfuerzo de seguimiento, que permita comparar los logros con los umbrales de error definidos, la creación y almacenamiento de excepciones de calidad de datos y la generación de notificaciones asociadas.
  • Reporting de calidad de datos: está relacionado con los procedimientos y herramientas empleadas para informar, detallar excepciones y actualizar las medidas de calidad de datos en curso.
  • Corrección de datos: se ocupa de la corrección en curso de las excepciones y problemas de calidad de datos según son notificadas.

Una vez que se cuenta con las métricas y están en marcha el resto de componentes, para establecer un programa de gestión de data quality sólo queda considerar algunos principios clave, como:

 

  1. Recordar que no se trata de una acción puntual. La calidad de datos he de entenderse como un proceso continuo donde no existe, ni debe plantearse un fin, sino un mayor ajuste. Este visión implica un cambio cultural en la organización que puede ser lo que más tiempo requiera en la iniciativa de calidad de datos. Asimismo, para garantizar su idoneidad, el programa de gestión debe ser reevaluado periódicamente y modificado según sea necesario.
  2. No tratar de abarcar todos los problemas de calidad de golpe ni intentar llegar a una cota cero de errores. Es inviable. En vez de intentar implementarlo todo a la vez, es preferible construir un programa que vaya resolviendo cuestiones de forma progresiva y paso a paso.
  3. Plantearse metas. Poner objetivos a corto, medio y largo plazo es una forma de motivarse hacia el progreso y la mejor manera de comprobar si se avanza en la dirección adecuada. En la práctica, una vez se entienden los niveles de calidad de datos requeridos por el negocio, pueden plantearse las metas de calidad de datos y establecer los primeros. Una buena política es priorizar las áreas que proporcionarán el retorno de inversión más alto y, a medida que se implementa la estrategia, empezar a centrar la atención en las cuestiones de mayor valor para el negocio.
  4. Estar abiertos a todo. Los datos son de todo tipo y provienen de múltiples fuentes. No hay que ponerse límites ni centrarse en un área en concreto, olvidando a las demás. La calidad de los datos se puede gestionar en cualquier punto del flujo de datos.
  5. No olvidar la importancia de los propietarios de los datos. Por muy bien diseñado que esté un programa de gestión de la calidad de datos, si los usuarios de negocio no conocen sus responsabilidades o las pasan por alto en sus interacciones con los activos informacionales de la organización, no se podrá avanzar hacia los objetivos de calidad. Igual que con los administradores del programa, una buena alternativa es considerar la vinculación de su compensación a los objetivos de calidad para aumentar su motivación y mejorar resultados.

 

6. Los pilares del Data Quality Management

Una vez entendida la importancia de la calidad de los datos es importante conocer los 5 pilares esenciales de la gestión de la calidad de los datos. Se trata de los siguientes:

Las personas y el talento

La tecnología es solo tan eficiente como las personas que la implementan. Podemos funcionar dentro de una sociedad comercial tecnológicamente avanzada, pero la supervisión humana y la implementación de procesos aún no se han vuelto obsoletas. Hay varias funciones de gestión de la calidad de los datos que deben tenerse en cuenta:

  1. Administrador del programa DQM: El rol del administrador del programa debe ser ocupado por un líder de alto nivel que acepte la responsabilidad de la supervisión general de las iniciativas de inteligencia empresarial. También debe supervisar la gestión de las actividades diarias que involucran el alcance de los datos, el presupuesto del proyecto y la implementación del programa. El gerente del programa debe liderar la visión de datos de calidad y retorno de la inversión.
  2. Administrador de cambios de organización: el administrador de cambios hace exactamente lo que sugiere el título: organizar. Asiste a la organización brindando claridad y conocimiento de soluciones avanzadas de tecnología de datos. Como los problemas de calidad a menudo se destacan con el uso de un software de tablero , el administrador de cambios juega un papel importante en la visualización de la calidad de los datos.
  3. Analista de negocios / datos: el analista de negocios define las necesidades de calidad de datos desde una perspectiva organizacional. Estas necesidades se cuantifican en modelos de datos para adquisición y entrega. Asegura que la teoría detrás de la calidad de los datos se comunica al equipo de desarrollo.


Perfilado de datos

La creación de perfiles de datos es un proceso esencial en el ciclo de vida de gestión de calidad de datos, tanto en el cloud, como en cualquier otro entorno. Data profiling se lleva a cabo con el propósito de desarrollar una visión más completa sobre los datos existentes, para poder compararlos con los objetivos de calidad de datos. Esto implica:

  • Revisar la información al detalle.
  • Comparar y contrastar los datos con sus propios metadatos.
  • Ejecutar modelos estadísticos.
  • Informar acerca de la calidad de los datos.

El perfilado de datos ayuda a las empresas a fijar, en base a métricas, un punto de partida en el proceso de gestión de la calidad de la información, estableciendo los estándares que permitirán elevar los niveles de data quality.

 

Definición de reglas de calidad de datos

El tercer pilar de la gestión de calidad de datos es la calidad en sí misma. El desarrollo de reglas de calidad es esencial para el éxito de cualquier proceso de data quality management, ya que estas normas facilitan la detección temprana de pérdidas de alineación, evitando que los datos comprometidos puedan afectar a todo el conjunto.

Las reglas de calidad que se aplicarán a la información, su uso y gestión, deben crearse y definirse en función de los objetivos y requisitos del negocio. Ha de tenerse en cuenta que los elementos de datos críticos deberían depender de la industria.

Las reglas de calidad de datos, tanto por sí mismas, como cuando se combinan con un software de Business Intelligence permiten a la organización:

  • Identificar problemas de calidad de datos en los activos informacionales del negocio.
  • Corregir estas cuestiones.
  • Predecir tendencias.
  • Contribuir con su aportación a ampliar el alcance del análisis.
  • Elevar el valor del reporting.

 

Reporting

Dentro de un proceso natural de aplicación de reglas de datos no puede faltar la generación de informes de calidad. A través del reporting quedan registradas todas las excepciones comprometedoras de calidad de los datos puesto que, una vez que las excepciones han sido identificadas y capturadas, deben agregarse para poder identificar patrones de calidad de datos.

Los puntos de datos capturados se deben modelar y definir en función de características específicas (por ejemplo, en función de su fuente o fecha). Una vez que se han registrado estos datos, se pueden aplicar a una solución de inteligencia empresarial para informar sobre el estado de la calidad de los datos y las excepciones que existen. Lo ideal es que este proceso se produzca en tiempo real.

La rentabilidad de cualquier acción en materia de calidad de datos aumenta gracias a la monitorización y el reporting, ya que ambos permiten que las empresas identifiquen la ubicación y características de las excepciones de datos, brindando la visibilidad necesaria sobre el estado de los datos, en cualquier punto y en tiempo real. Contar con este respaldo permite a la empresa no demorar el diseño de estrategias para los procesos de remediación.

 

Reparación de datos

El aspecto más importante de la corrección de datos es la realización de un examen enfocado a hallar la causa de raíz de los problemas, para determinar por qué, dónde y cómo se originó el defecto de los datos.

Una vez que se haya implementado esta evaluación, el plan de reparación debería comenzar. La reparación de datos es un proceso que se estructura en torno a dos pasos, a través de los cuales se determina:

  1. La mejor manera de solucionar los defectos encontrados en los datos.
  2. El modo más eficiente de implementar el cambio.

Es probable que sea necesario reiniciar los procesos de datos que dependían de los datos previamente defectuosos, especialmente si su funcionamiento estaba en riesgo o comprometido por los datos defectuosos. También llegados a este punto, puede convenir hacer una nueva revisión de las reglas de calidad de datos, para determinar si deben ajustarse o actualizarse.

Una vez que se considera que los datos son de alta calidad, tanto en el cloud como on premise, se experimentará una mejoría en la ejecución de los procesos y funciones comerciales críticos, que también ganarán en precisión. Como resultado, la organización verá reducidos sus costes e impulsado su ROI.

 

7. Diferentes tipos de datos que afectan a la calidad de datos

Obtener datos limpios es un desafío porque requiere compartir información con precisión entre dispositivos y formatos que no se integran fácilmente. Hoy día es frecuente encontrar datos que no están limpios o datos desestructurados. Un problema añadido a las cuestiones de calidad de datos es que la mayoría de los sistemas requieren el uso de la entrada manual de datos, que expone a la organización a errores humanos.

Entre los tipos de datos que mayores efectos adversos pueden provocar en términos de calidad se encuentran los tres siguientes:

  1. Datos oscuros: son los datos que se recopilan, procesan y almacenan como parte de las actividades comerciales cotidianas, pero que no la organización no utiliza con ningún otro fin. Su existencia revela que el sistema de calidad de datos de la empresa no es el óptimo ni está lo suficientemente avanzado, puesto que permite que a la recopilación y gestión de datos les falte eficiencia y eficacia.
  2. Datos sucios: si on premise este tipo de datos supone un grave problema de calidad, en un entorno como la nube aún más, en especial en lo que respecta al IoT. En el ámbito de sistemas automatizados, los datos sucios pueden causar a la organización un daño real, al obligarla a incurrir en un costo económico real causado por las acciones automáticas que dan inicio con datos que no son válidos.
  3. Datos no estructurados: en ocasiones, los datos están disponibles, pero no están preparados para su uso. Deben ser enriquecidos de alguna manera para poder considerarse compatibles con el sistema que los va a consumir. Si no se hace, los problemas de calidad empezarán a aparecer.

 

8. Problemas y desafíos de la calidad de datos con Big Data

Para comprender los problemas de calidad de datos en Big Data, antes hay que entender las principales características que configuran a los grandes datos, ya que, aunque las cuestiones de data quality siempre han existido, la explosión Big Data y la aparición de nuevos entornos, como el cloud, han agregado una nueva dimensión al problema, que puede multiplicar el efecto negativo de sus consecuencias.

Existen 5 aspectos a tener en cuenta en lo que respecta a la gestión de la calidad de datos y Big Data:

  • Velocidad: la velocidad a la que se generan los datos puede dificultar la medición de la calidad de los datos, dada la cantidad de tiempo necesario para aplicar los procesos y las limitaciones en los recursos. Para el momento de finalizar una evaluación de calidad, sus conclusiones podrían haber quedado ya obsoletas.
  • Variedad: los datos procedentes de Big Data adoptan todo tipo de formatos y tiene una variedad de tamaños y esto afecta la calidad de los datos. Una métrica de datos puede no ser adecuada para todos los datos recopilados, lo que hace que sea preciso trabajar con métricas múltiples, ya que evaluar y mejorar la calidad de los datos no estructurados es mucho más complejo que conseguirlo con los datos estructurados. Para dar sentido a estos datos que llegan de fuentes diversas, se necesitan metadatos confiables, que pueden ser difíciles de obtener cuando la procedencia es externa.
  • Volumen: el tamaño y escala masivos de los proyectos de Big Data hace que sea casi imposible llevar a cabo una evaluación de calidad de datos de gran alcance. La falta de precisión es uno de los problemas más habituales, al que habría que añadir la complejidad que supone el tener que redefinir las métricas de la calidad de datos en función de los atributos particulares de cada proyecto Big Data.
  • Valor: el valor de los datos es todo lo útil que es en su propósito final y esto nos lleva a plantearnos que, en algunos casos, la calidad puede ser suficiente y no interesar el esfuerzo que implica introducir mejoras. Esta decisión se verá influida por la relación coste - beneficio de mejorar la calidad de los datos y el establecimiento de prioridades de la organización.
  • Veracidad: la veracidad está directamente relacionada con los problemas de calidad en los datos. Se relaciona con la imprecisión de los datos, que, a su vez, tiene que ver con sus sesgos, consistencia, confiabilidad y ruido. Todos ellos afectan a la integridad de los datos pero, dado que existen distintas ideas acerca de lo que constituye data quality, en cada empresa y, dentro de ella, en sus diferentes componentes, los usuarios de datos tendrán distintos objetivos y procesos de trabajo.

 

9. La calidad de datos en el mundo del IoT

Según un documento técnico reciente de Cisco, el 82% de dispositivos conectados será inteligentes para el año 2021. El cambio a dispositivos inteligentes y conectados hará que, para 2025, el consumidor promedio tenga más de 4.700 interacciones por día con las organizaciones a las que está conectado. El resultado es una mayor facilidad de recopilación de datos sobre los consumidores, que provocará el rápido crecimiento del almacenamiento de datos en la empresa.

Esto es motivo de preocupación para los CEO, que, tal y como revelan datos de KPMG, en el 84% de los casos se muestran preocupados por la calidad de los datos en los que basan sus decisiones. No es para menos, actualmente, se estima que hasta el 30% de los datos en las empresas son de baja calidad. De hecho, una parte significativa de los datos empresariales se degrada en menos de 3 meses desde el momento inicial de recopilación.

Estar preparado para recopilar datos de 28 mil millones de dispositivos conectados representa un gran desafío para las organizaciones que han desarrollado su infraestructura para limpiar, almacenar y analizar el tráfico en función de los aportes humanos tradicionales.

Pero no es el único reto, ya que, aunque con los datos tradicionales, nos hemos acostumbrado a la idea de que las personas son las principales fuentes de problemas de calidad de datos, también puede empezar a suceder que sean los propios dispositivos los que introduzcan errores significativos en la calidad de los datos.

Internet of Things ofrece un tremendo potencial a las organizaciones, pero establecer estándares y garantizar que los datos se normalicen entre sistemas es clave para garantizar que los datos recopilados de los dispositivos IoT se conviertan en datos valiosos.

Por el momento, sólo una de cada tres empresas tiene datos integrados en procesos y sistemas en tiempo real, lo que presenta un desafío significativo para quienes buscan aprovechar la ola de datos impulsados por IoT.

¿Cómo gestionará tu negocio el rápido aumento en la recopilación de datos y los posibles problemas de calidad de datos que surgirán con la adopción generalizada de IoT? ¿Cómo hará frente a las cuestiones de data quality que vayan apareciendo a medida que llegan nuevos avances tecnológicos en entornos como el cloud?

 

10. Material complementario

Soluciones y recursos para calidad de datos:

Guías:

Artículos:

 

New Call-to-action