Entradas

La Ciencia de Datos y los Principios del Reporte Menlo

Imagen
  En el 2015 los empleados de Theranos acusaron a la empresa de borrar información de su tecnología propietaria para hacer que sus datos se vieran más exactos (Jacobs, 2015). Theranos fue un emprendimiento del sector de la salud, que en su momento, llegó a ser valuada en más de diez mil millones de dólares (Tun, 2022), los líderes de la empresa declaraban que su tecnología revolucionaría el mundo; esta consistía en crear un dispositivo con la capacidad de realizar cientos de exámenes con una sola gota de sangre. El primer incidente reportado fue un caso ocurrido en el año 2013. A un paciente se le ordenó una serie de exámenes de sangre en el equipo de la compañía llamado «Equipo de laboratorio Edison o (" Edison Lab")» . El laboratorista asignado encontró problemas que indicaban fallas en la precisión de los resultados. Al reportar este incidente a sus superiores el área de investigación y operaciones llegó al laboratorio y borró la información. El segundo incidente reportó q

Cinco recomendaciones para la integración de datos

Imagen
  Integrar, integrar... y no me refiero a las integrales que muchos de nosotros aprendimos en cálculo,   sino a la emocionante —y muchas veces no tanto— tarea de buscar la información de diferentes fuentes de información, darle un formato —utilizable por supuesto— y depurarla. En lo personal considero la integración de la información como la segunda tarea más importante en el análisis de datos; siendo la primera el establecimiento de los objetivos y preguntas clave de negocio que necesitamos responder. Recordemos que son estas preguntas clave de negocio las que nos darán la dirección a seguir y los requerimientos de datos.  El análisis como tal dependerá de la calidad de la información y de la calidad de la tabla de salida; ésta última es la que utilizaremos en nuestro ambiente de análisis como por ejemplo SAS o R. En mi carrera profesional he tenido la oportunidad de trabajar con soluciones analíticas como SAS y R; además de soluciones de visualización de datos como SAS Visual Anal

Una confabulación millonaria: cuando los colaboradores contribuyen a pérdidas

Imagen
Por Abner Huertas Durante más de seis meses de trabajo intenso se finalizó la implementación de un proyecto de mejora continua en una institución.  Al sumar la inversión entre equipo de tecnología, aplicaciones, servicios y otros tipos de gastos, esta iniciativa rondaba alrededor del  millón de dólares.   Los meses pasaron y muchos de los directivos originales en el proyecto ya no estaban. Unos tres años después, esta misma institución, buscaba realizar la misma implementación con otras tecnologías. Durante esos tres años se gestó un disgusto por las aplicaciones y por la metodología; todo se aducía a que nada de lo que ellos tenían les era de utilidad.   En el transcurso de esos tres años, poco a poco se fueron «apagando» varios módulos que en su momento fueron implementados y probados. Así, que del 100% de lo que tenían a su disposición, a penas  aprovechaban un 25%; las razones que se daban apuntaba  a una dificultad en el uso, al conocimiento fugitivo de los desertores de la

Ese 80% en analítica... que no nos gusta

Imagen
  A pesar de los avances tecnológicos la preparación de los datos sigue siendo una de las tareas que más tiempo consume a un analista. De acuerdo con un estudio elaborado por Forbes, en el cual se encuestó a científicos de datos, se estima que el 80% del tiempo se utiliza en las tareas de limpieza y recolección de datos.  La recolección —o búsqueda de información— toma alrededor del 19% del tiempo, mientras que la limpieza requiere un 60%.   Las causas que provocan este alto consumo de tiempo son variadas, sin embargo, podríamos resumirla en «la carencia de una cultura de datos». La carencia de esta cultura tiene efectos como la falta de estandarización en los formatos de almacenamiento de la información,  múltiples  soluciones de software y poca responsabilidad en el almacenamiento de información sensible, es decir, información que existió en un punto del tiempo, pero que no se almacenó. Ese 80% en la analítica que no nos gusta permanecerá vigente mientras no se desarrolle una

Mitos en analítica: autoservicio

Imagen
  Por Abner Huertas Al igual que los programas de televisión «hágalo usted mismo» existen proveedores de aplicaciones de analítica que promueven sus soluciones con estrategias similares en las que buscan convencer que —prácticamente cualquiera— puede realizar análisis profundos con sus soluciones por sí mismos. Lo cual es verdad hasta cierto punto. El diccionario de tecnología del sitio Gartner define el autoservicio en analítica como: «el alineamiento de los profesionales de negocio para que realicen informes y consultas por ellos mismos. El autoservicio en analítica se caracteriza por el uso de soluciones de software que están simplificadas para impulsar un análisis directo». La promoción de las soluciones de analítica van siempre encaminadas  a encantar con lo visual, con la idea de que se requiere poco conocimiento tecnológico y estadístico, y de que podrá realizar análisis complejos con árboles de decisiones, pronósticos, etc. Todo esto  en «minutos» y no en «horas». Es aqu