Big Data: ¿Cayendo en el abismo de la desilusión?
Cuando escribo este post evidentemente estoy pensando en el ciclo de sobreexpectación y en la correspondiente curva de Gartner. ¿Por qué ha venido a mi mente?
Estudiando el manual de SAS Enterprise Miner (lectura bastante prosaica por otra parte) me encontré una frase que captó de inmediato mi atención: “If you’ve got terabytes of data, and you’re relying on data mining to find interesting things in there for you, you’ve lost before you’ve even begun.” La frase pertenece a Herb Edelstein.
El término Big Data se ha puesto de moda, podemos afirmar que se ha convertido en lo que se llama un trending topic, o tal como se aconseja decir en español es una tendencia, tema de tendencia o tema del momento. Se lee con harta frecuencia aquello que “Los datos son el petróleo del siglo XXI”.
¿He oído petróleo?
¿Se imaginan que en un pequeño y atrasado país con una economía muy rudimentaria que además basa su riqueza principalmente en la explotación agrícola y en cierta medida en la ganadera se descubra una bolsa de petróleo, una inmensa bolsa de petróleo?
Los gobernantes, probablemente jefes tribales venidos a más, pueden pensar que van a ser ricos de la noche a la mañana y que su pueblo gozará de una prosperidad sin precedentes. Sin embargo es dable que alguno de estos mandatarios se acuerde de los aguerridos tripulantes de la misión Apolo XIII y de su ínclita frase: “Houston, tenemos un problema”
Son propietarios de una buena cantidad de oro negro, pero si no saben cómo transformarlo en algo útil o al menos cómo comercializarlo, si no se tiene claro cómo monetarizar los posibles productos derivados del mismo estaremos en la misma situación que si tenemos terabytes de datos: dispondremos de algo que lo único que hace es ocupar sitio y además obliga a incurrir en gastos para protegerlos. Si confiamos en que el petróleo se transforme por si mismo y nos dé riquezas habremos perdido incluso antes de haber empezado a hacer algo.
En el master que estoy cursando sobre Análisis de datos y Big Data hemos visto ya un par de paquetes dedicados al análisis estadístico, hablamos concretamente de SAS Enterprise Miner y de SPSS Modeler. También hemos realizado análisis usando paquetes gráficos como Tableau Public, Qlik, TIBCO Spotfire o Carto; no nos hemos olvidado de R y hemos hecho una breve incursión en este software libre y colaborativo.
Todos estos paquetes me han parecido tremendamente interesantes; cada vez que me mostraban uno me de ellos parecía igual o más interesante que el anterior. Supongo que iba escalando en la curva del aprendizaje del análisis de datos. La verdad es que si me preguntasen por cuál me inclino no sabría qué responder. Entonces es cuando me doy de bruces con la frase que antes mentaba. De alguna forma tengo grandes herramientas pero me cuesta aplicarlas, tienes tecnologías varias para procesar petróleo… el del siglo XXI me refiero.
Cuando ensayábamos con los ejercicios de clase haciendo uso de tales herramientas todo parecía claro meridiano, se podían sacar un montón de conclusiones y representar gráficos a go-go. Luego llegaban los ejercicios para casa. En algún caso nos facilitaban un set de datos, en otros nos decían que los buscásemos nosotros. El encontrar datos para realización de trabajos académicos no es complicado, por ejemplo aquí hay muchos y muy buenos. El problema con el que me he encontrado en más de una ocasión es que no soy capaz interpretar la información que tengo delante, te puedes hacer una idea de lo que significan pero realmente NO lo tienes del todo claro, a veces sólo tienes una idea vaga de lo que esconden; conocer en entorno en el que se han producido es vital.
Como es sabido en un proyecto de Big Data lo normal es que entre el 70 y el 85 % del tiempo se consuma limpiando y organizando los datos. La necesidad de esta dedicación puede tener su origen en la existencia de información errónea. Por otra parte los datos perdidos menudean cuando se analizan información. Muchos algoritmos no admiten huecos en los campos por lo que o los llenas, quitas el registro o simplemente obtendrás un error al aplicar el proceso de análisis.
Los datos tienen que estar limpios, y sobre todo ser reflejo de la realidad porque en otro caso nos enfrentamos a una nueva modalidad en la teoría de tratamiento de colas, lo que se ha dado en llamar SISO o GIGO (shit IN, shit OUT o garbage IN, garbage OUT).
Pero para tomar una buena decisión sobre cómo rellenar las casillas vacías, o detectar valores erróneos a sustituir es necesario conocer el negocio, también es necesario saber qué es lo que estamos buscando, a qué tipo de conclusiones queremos llegar.
La cita completa de Herb Edelstein es: “If you’ve got terabytes of data, and you’re relying on data mining to find interesting things in there for you, you’ve lost before you’ve even begun. You really need people who understand what it is they are loking for – and what they can do with it once they find it.”
Si tienes petróleo (el líquido negro) y no tienes tecnología caerás en manos de terceros. Si pagas por la tecnología pero no sabes cómo adaptarla a al realidad socioeconómica del país tendrás más problemas que alegrías. Tener el oro negro está muy bien, pero es necesario adentrarse en los procesos de transformación y adaptar toda la industria a la idiosincrasia de la región y tener claro muy claro qué se quiere hacer para generar riqueza de verdad.
Con las inmensidades de ceros y unos sucede algo parecido. NO es suficiente con tener datos, NO es suficiente tener a los mejores técnicos programando en Hadoop o Spark, NO es suficiente tener buenos técnicos manejando los excelentes paquetes informáticos que el mercado nos brinda. Es muy, muy, muy importante conocer las empresas, saber de qué datos disponen, cuales pueden recabar y qué pueden hacer con toda esa información para convertirla en euros.
Parafraseando y extrapolando la idea de Herb Edelstein: Si tienes terabytes de datos, si contratas al alguien que maneje a la perfección un paquete de análisis estadístico o de Business Inteligente y crees que con todo eso vas a encontrar grandes cosas no habrás hecho más que adentrarte en el abismo de la desilusión. Conocer los negocios u organizaciones que acumulan esos de los datos y saber cuáles son sus objetivos y dirigir los análisis sabiendo qué es lo que estamos buscando es crucial. Analizar por analizar puede ser un ejercicio académico interesante pero saber lo que estamos buscando es irrenunciable.
Nunca he olvidado la frase que pronunció hace más de 20 años un profesor del MBA que cursaba por aquellos tiempos: “El que no sabe a dónde va todos los caminos le lleva precisamente allí… ¡¡A no sabe donde!!»