Cinco recomendaciones para la integración de datos






 Integrar, integrar... y no me refiero a las integrales que muchos de nosotros aprendimos en cálculo,  sino a la emocionante —y muchas veces no tanto— tarea de buscar la información de diferentes fuentes de información, darle un formato —utilizable por supuesto— y depurarla.

En lo personal considero la integración de la información como la segunda tarea más importante en el análisis de datos; siendo la primera el establecimiento de los objetivos y preguntas clave de negocio que necesitamos responder. Recordemos que son estas preguntas clave de negocio las que nos darán la dirección a seguir y los requerimientos de datos. 

El análisis como tal dependerá de la calidad de la información y de la calidad de la tabla de salida; ésta última es la que utilizaremos en nuestro ambiente de análisis como por ejemplo SAS o R.

En mi carrera profesional he tenido la oportunidad de trabajar con soluciones analíticas como SAS y R; además de soluciones de visualización de datos como SAS Visual Analytics y Tableu. Todas las soluciones requieren de información preparada y lista para utilizar. Para poder contar con esta información, te comparto cinco consejos para la integración.

1. Conoce los objetivos y preguntas clave de negocio: ya sé que lo mencioné con anterioridad, pero no está de más recalcarlo. La importancia de las preguntas clave está en que te dará la panorámica de las diferentes variables o dimensiones que se necesitará integrar. Entre más específicas las preguntas mejor. No es lo mismo una pregunta como «¿Cuál será la utilidad para el próximo año?» a «¿Cuál es el pronóstico de utilidad para los próximos cinco años por centro de distribución y familia de productos?». Al conocer la preguntas puedes puntualiza qué información necesitas.

2. Conoce bien tu motor de integración: en nuestra era de «¡no necesita saber de programación! solo arrastre... ¡todo es gráfico!» hace que muchos queden limitados a una interface gráfica, que si bien es cierto ayuda a agilizar el trabajo, también tiende a desaprovechar funcionalidad y en muchos casos a tener flujos de integración con rendimientos pobres. En mi artículo «Mitos en analítica» discutía sobre el tema. En resumen: al conocer bien tu motor de integración podrás crear flujos de proceso óptimos. Incluso en analítica el tiempo vale oro. Y sí, es mejor si tienes bases sólidas de programación o de algoritmos.

3. Diseña las dimensionales de la tabla de salida: la tabla de salida es el resultado de la integración que ya está lista para ser utilizada por el motor de análisis. Las dimensiones son las columnas que conformarán la misma. Una tabla de salida considera columnas categóricas y columnas numéricas. Siempre es recomendable:

  • 1.Las variables categóricas no son nada más que columnas tipo texto. Recuerda siempre que este tipo de variables se divide en nominales y ordinales; la diferencia está en que la última tiene un orden específico como lo sería el tamaño de prendas de vestir: pequeña, mediana o grande.
  • 2.Toda información en una columna numérica debe estar en la misma unidad de medida. He visto muchas veces que a una columna numérica le diferencian la unidad de medida con una columna categórica; esto solo producirá problemas. ¿Cuáles? imagina que tu columna se llama «peso» y unas observaciones están en libras y otras están en kilos. Con el simple hecho de hacer una media ya te dará un resultado incorrecto.
  • 3.Estandariza el nombre de las columnas: en lo personal me gusta utilizar los nombres de las columnas en mayúscula. Otro aspecto es evitar dejar espacio en el nombre de las columnas, esto permitirá manejarlas de una forma más sencilla. Por último, aunque debería ser el primero, el nombre de tu columna debe identificar de forma clara su contenido.

4. Determina todas las tablas que necesitarás para armar la tabla de salida: en mi artículo sobre «Simulaciones Montecarlo» explicaba la importancia que tiene este tipo de metodologías para responder a preguntas de negocio. La tabla de salida de ese modelo incluía todos los escenarios posibles con su respectiva TIR, pero para poder llegar a esa tabla hubo que determinar —primero— todas las tablas de información: historial de precios de alquiler, histórico de tasas de interés, etc. Para estas tablas recuerda:

  • 1.Los códigos originales son valiosos y agilizan el tiempo: en la medida de lo posible utiliza los códigos originales de la información. Por ejemplo si es un análisis de productos utiliza los códigos de los productos tal y como los utilizan en su sistema de datos. La excepción a la regla será aquella información, categórica en la mayoría de los casos, que se utiliza para resumir la información en menos líneas de lo que viene originalmente. 
  • 2.Los catálogos se usan siempre en modo tabular: toda información que sea utilizada para formar jerarquías deberás diseñarla en formato tabular. Por lo regular esta información viene en un formato llamado padre-hijo. El reto en esta etapa está en lo que denomino el balanceo del catálogo, que significa que todos los elementos deben llegar al nivel más bajo.
  • 3.Nulos y ausentes: analiza si tu información incluye información nula o ausente. Aunque los términos parecen iguales no son lo mismo. La información nula puede identificar aquella que realmente no existe, pero que no necesariamente deba existir. Por su lado, la información ausente es información que no está, pero sí debería estar. Existen diferentes métodos para el manejo de este tipo de información, pero será algo que deje para otro artículo.

5. Obtén una muestra, prueba y ajusta: dependiendo del número de observaciones que estés manejando, te convendrá sacar una muestra de tus datos y probarlos en tu motor analítico antes de darle «luz verde». Una muestra debe ser aleatoria y representativa, puedes iniciar con un 10% luego un 30%, si todo está bien ya le puedes dar la «luz verde».

Hay más que podría contarte, pero quiero ser corto con el artículo. Ten en mente que la integración de los datos es una parte esencial en el arte del análisis.





Comentarios

Entradas más populares de este blog

Precios de Transferencia Aplicados a la Banca

Análisis de la curva de utilidad - I parte -

Un poco de analítica: ¿canciones de Timbiriche?