Uno de los problemas más comunes que vemos cuando tenemos las primeras reuniones con clientes, es que su información no esta organizada, esta duplicada o peor aun no existe, sin importar el tamaño de la empresa.
Y generalmente estas compañías tienen este tipo de problemas debido a:
-
- Falta de una aplicación especifica para su información
- Una estructura deficiente de bases de datos
- Uso de herramientas genéricas con mala organización (excel, google sheets, open office, numbers, etc)
- Falta de personal
Como lo he dicho en artículos anteriores, el contar con una herramienta especifica y tener la información disponible en cualquier momento es una parte esencial de un negocio.
De tal forma que la aplicación y la base de datos deben de cumplir con ciertos estándares de calidad a fin de cumplir las necesidades del cliente, dependiendo una de la otra, pero ¿Qué pasa si la aplicación es muy bonita y la base de datos no esta bien estructurada?… fácil la información que obtienes es basura ya que no servirá de mucho si no cumple con los requisitos para asegurar la integridad de la información.
De modo que es necesario contar con un proceso de QA (Quality Assurance o Aseguramiento de Calidad) de la información en todas las fases de una aplicación, desde: planeación, creación, implementación y crecimiento, a fin de tener información de calidad y no solo tener datos por tener.
Aquí es donde entra un rol fundamental conocido como Data engineering o Ingeniero de datos, el cual se encarga de obtener la información y hacerla útil, por medio de la extracción, transformación y carga o ETL (Extract, Transform y Load). Una vez que se extraen los datos de la o las diferentes fuetes, se pueden transformar de acuerdo a las necesidades de la empresa para posteriormente cargarlas en herramientas de análisis empresarial. De modo que los analistas comerciales y financieros puedan utilizar los conjuntos de datos para crear informes, graficas y otras métricas que ayuden a la toma de decisiones.
Y entonces… ¿Cómo definimos la calidad de la información?
Las seis dimensiones de las bases de datos
Existe un estándar en la industria de la validación de datos, que consta de seis dimensiones de calidad de los datos para probar modelos de datos, canalizaciones, arquitectura y más. Estas métricas para la calidad de datos se definieron en el documento llamado “The Six Primary Dimensions for Data Quality Assessment,” la cual fue elaborado por el grupo de trabajo de Data Management Association (DAMA) o Asociación de Gestión de Datos del Reino Unido en 2013.
Las seis dimensiones son un conjunto de métricas de validación utilizadas para examinar la calidad de cualquier conjunto de datos dado, ayudando a los ingenieros de QA e ingenieros de datos a crear métricas de validación medibles que se pueden mejorar.
Las seis dimensiones son:
-
- Integridad: La integridad de los datos indica el «grado en que los datos requeridos están en el conjunto de datos». Cualquier conjunto de datos puede tener lagunas y datos faltantes, pero la falta de estos mismos no son un problema cuando no son datos relevantes.
Por ejemplo, para una empresa de e-commerce un dato importante u obligatorio seria la ubicación del cliente y un dato opcional podría ser referencias del domicilio. Si existe o no la referencia del domicilio se da por hecho que la integridad de la información esta completa.
-
- Unicidad: Esta dimensión indica si se trata de una única instancia registrada en el conjunto de datos utilizado. La unicidad es la dimensión es la más importante a fin de garantizar que no haya duplicaciones ni superposiciones.
Por ejemplo, dentro de un banco el identificador único seria el número de cliente para una persona y no podrían existir dos números de clientes para la misma persona (dentro del mismo banco) ya que causaría conflicto de información al momento de generar movimientos, ya que seria como si fueran dos personas diferentes.
-
- Puntualidad: La puntualidad se refiere a qué tan actualizados están los datos entre cada evento que ocurre dentro de la compañía. Gran parte del análisis y el modelado de datos se basarán en instantáneas históricas, por lo que puede que no sea necesario ejecutarlas hasta el día de hoy. Sin embargo, la toma de decisiones en tiempo real requiere datos en tiempo real.
Por ejemplo, dentro de un aeropuerto la información en tiempo real es obligatoria y no pueden tener retrasos ya que en caso de existir un retraso puede generar un accidente.
-
- Validez: Un campo en un conjunto de datos puede tener condiciones que debe cumplir para ser considerado válido. De tal forma que evite que ingresen datos que no cumplan con los lineamientos datos.
Por ejemplo, una compañía telefónica no puede guardar o registrar letras o caracteres especiales en donde van solo números.
-
- Precisión: La precisión de los datos es el nivel al que los datos representan el escenario del mundo real y se confirman con una fuente verificable. La precisión de los datos asegura que las entidades asociadas del mundo real puedan participar según lo planeado.
Por ejemplo, una empresa que vende seguros automotrices, debe de corroborar que la información que muestra el cliente sea real; es decir que la persona encargada de ingresar los datos al sistema corrobore que la marca y modelo del coche de la factura sea la misma que ingrese al sistema, ya que caso contrario podría invalidar el seguro en caso de un accidente.
-
- Consistencia: La consistencia representa sí la misma información almacenada y utilizada en varias instancias coincide. Se expresa como el porcentaje de valores coincidentes en varios registros. La coherencia de los datos garantiza que la analítica capture y aproveche correctamente el valor de los datos.
Por ejemplo, una empresa de retail que cuente con varias sucursales en diferentes partes y que a su vez cuente con bases de datos independientes; las bases de datos deben de tener la misma estructura de datos, a fin de evitar problemas de consistencia al juntar la información de todas las sucursales.
Conclusión
El hecho de tener información por tener no servirá de nada, ya que esta necesita una buena estructura y cumplir con los lineamientos específicos, para que los resultados sean correctos y precisos, a fin de ayuden a las organizaciones a mejorar sus tomas de desiciones, eviten perdidas y lleven un mejor control de sus procesos.
Recordando que lo que no se mide no se puede mejorar.