Julio / Setiembre 2010 / Año 15 Edición 48
Otras Ediciones:
Búsqueda:
TENDENCIAS
Calidad de datos inteligente
Fuente: Revista DATA MAGAZINE
www.ibm.com/developerworks/data/dmmag/

Sería difícil encontrar alguien que piense que la calidad de la información no es importante. De hecho, los efectos de una calidad de datos deficiente son dolorosamente claros: las empresas dependen de la información para tomar decisiones gerenciales estratégicas, proveer servicio al cliente y desarrollar procesos y fechas límites. Si la información es obsoleta, inconsistente, incoherente o simplemente equivocada, esto puede costar a la compañía, tiempo, clientes e ingresos. Adicionalmente, frecuentemente el poder demostrar la calidad de datos es un requisito para cumplimiento de regulaciones.

El tratar de desarrollar un programa muy elaborado para mantener y mejorar la calidad de los datos, se puede sentir como cacería de fantasmas. En este artículo, presentaremos los conceptos importantes esenciales para un programa de calidad de datos exitoso. También haremos énfasis en un plan para iniciar un programa de calidad de datos a través de un proyecto de la mano con una iniciativa de negocios específica.

¿Qué es calidad de datos?

El primer paso para crear un programa de calidad de datos exitoso es entender lo que significa la calidad de datos en el contexto de una organización particular. De manera general, la calidad de datos es “a la medida de las necesidades”: se puede confiar en ella y está hecha para un propósito específico. Evaluar si el grupo de información cumple los criterios de requerimiento al contestar varias preguntas: ¿cuál información se usa, quién la usa, como la usan, cuándo la usan y por qué? Esto se hace más complejo conforme las organizaciones empiezan a compartir información a través de líneas de negocios, departamentos y otras entidades. Esto rápidamente se vuelve claro de que para medir la calidad de datos eficientemente, se debe definir la entidad o el nivel de atributos.

La calidad de datos se puede medir en varias dimensiones, incluyendo exactitud, confiabilidad, tiempo, relevancia, integridad y consistencia. Por supuesto que las organizaciones tendrán diferentes prioridades. Sin embargo es importante reconocer que existen vistas técnicas y de negocios de calidad de información y ambas son importantes. La información que cumple con los estándares de calidad técnicos (tales como consistencia, formato correcto, bien definido) pero que no se percibe por usuarios como confiable, exacta o útil tendrá poco impacto en la organización. En resumen el asegurar la calidad de datos requiere una conciencia que abarque los requerimientos técnicos y de negocios.

Estrategia y establecimiento de metas, calidad de datos SMART

El acrónimo SMART es una teoría de administración de proyectos básica, pero también es muy aplicable a la realidad de calidad de datos. Seguidamente existen algunas cosas de SMART que se pueden aplicar al programa de calidad de datos:

S pecific (Específico): Define la calidad de datos a un nivel suficientemente bajo para que tenga utilidad. Todos queremos buena calidad de los datos, la pregunta es si bueno es para el usuario, la entidad o el atributo.

M easurable (Medible): Después de definir la calidad de datos, mida y monitoree la información.

A ctionable (Realizable): Los reportes deben ser a nivel que se puedan tomar acciones a fin de mejorar. Un programa de calidad de datos también debería tener guías sobre como tomar acción.

R ealistic (Realista): La calidad de datos no mejora de un día para otro. El crear un plan que prometa enormes ganancias y beneficios de seguro estará condenado al fracaso.

T ime-Driven (Regida por el tiempo): Divida el programa en hitos implementables con fechas razonables.

Una de las mejores maneras de construir un programa de calidad de datos es unirlo a un proyecto de negocios estratégico. La calidad de datos no es la meta final, es el significado de la meta, que apoya, extiende y mejora el negocio de alguna manera. Por ejemplo, una empresa que establece la meta de incrementar las ventas en las tiendas al detalle en un 20% en el siguiente año podría querer crear un programa de calidad de datos que asegure que la información es enviada a los gerentes de tienda acerca de las tendencias de ventas de productos de alto valor es exacta, oportuna y precisa.

El gráfico, objetivos y plan para un proyecto de calidad de datos debe seguir el acrónimo bien conocido de project management SMART: específico, medible, realizable, realista y regido por el tiempo (ver calidad de datos SMART). Esto es también el tiempo para hablar los programas organizacionales de alto nivel (tales como quién será el dueño del programa y cuáles serán los principales interesados) los temas técnicos (tales como las herramientas a ser usadas y el ambiente para análisis de datos).

Alcance y Definición

Una vez que las metas para el proyecto de calidad de datos son establecidas, el próximo paso es descubrir y evaluar, empezando por identificar la información que está dentro del alcance del proyecto. Al establecer los dueños de la información establecida, el negocio y los equipos de IT se pueden mover a definir las entidades de datos y sus atributos. Para cada entidad, debería existir una definición de negocios (tal como cuál es la información y por qué es necesaria), una definición técnica (tamaños de los campos, tipos, relaciones y jerarquías, los patrones o formatos esperados de la información, etc) y una definición de calidad que incluya los valores esperados y aceptados junto con las reglas de negocios y las reglas de formato.

La herramienta tal como InfoSphere IBM Business Glossary puede ayudar en esta etapa, al proveer un repositorio para definiciones de datos y una interfaz de usuario simple para ingresar, buscar, y explorar vocabulario y definiciones. Un glosario de empresa ayuda a asegurar que las definiciones son consistentes a través de los proyectos, apoya la colaboración entre negocios e IT y a través de líneas de negocios, y ayuda a construir un vocabulario común y entendimiento de información, evaluación y perfil

El próximo paso es la evaluación de los datos actuales basados en el criterio establecido por el negocio y los equipos técnicos. En este punto, el software tal como IBM InfoSphere Information Analyzer se usa para perfilar la información. Durante el perfilado, la información se revisa a niveles de columna, tabla, y a través de tabla para evaluar que está completa, es válida y es conforme con el uso conocido o esperado. Si las definiciones de negocios para la información se han establecido claramente. Las reglas se pueden ingresar en InfoSphere Information Analyzer, el cual la usa para validar los datos.

El InfoSphere Information Analyzer también provee un repositorio de reglas de negocios central, promoviendo la reutilización y consistencia a través de diferentes proyectos e implementaciones y comparte un repositorio de metadatos con el Glosario de Negocios InfoSphere, que simplifica el compartir datos e implementación Otras herramientas de calidad de datos hacen posible el realizar análisis automáticos sofisticados de la información dependiendo de la calidad de datos y las necesidades de validación.

Después de la evaluación, los resultados deberían ser revisados tanto por equipos técnicos y de negocios para desarrollar un entendimiento completo de los datos. El siguiente paso es decidir cuál acción tomar basados en los reportes. Algunas veces, la acción será técnica, tal como cambiar el modelo de datos o la interfaz de usuario. Otras veces la acción involucrará un proceso de negocios o un cambio de política, tal como alterar el responsable de reunir e ingresar la información.

De evaluación a programación

En este punto del proceso, la organización debería entender al menos como luce el ambiente de datos y conocer cuáles son los objetivos de negocio. El siguiente paso es crear un proceso de calidad de datos que moverá a la organización del estado actual al estado deseado.

quality assured

El construir este programa está más allá el alcance de este artículo, pero el programa de calidad de datos tiene tres elementos esenciales. Primero, continuamente utiliza la estructura definida para la evaluación de calidad de datos para medir regularmente la calidad de datos. Segundo, asigna encargados de monitorear calidad de datos. Finalmente, mejora un proceso para desarrollar planes de acción para el tratar los temas de calidad de datos identificados durante el monitoreo continuo. El día de hoy muchas organizaciones descubren ciertos temas de calidad de datos cuando impactan el negocio – usualmente con resultado negativo. Al evaluar y monitorear la calidad de datos, las organizaciones pueden graduar para identificar los problemas de datos y atenderlos antes de que causen problemas. Al crear un proceso repetible y repetible, las organizaciones pueden aterrizar el concepto abstracto de calidad de datos en un proyecto de mundo real, y usar para minimizar riesgo y generar valor de negocios.