Un año más, Indizen ha estado presente en el Data Works Summit, evento celebrado en Berlín en unas instalaciones inmejorables durante la semana del 16 de abril de 2018. Este summit es uno de los dos más importantes a nivel europeo en lo que a Big Data se refiere y a diferencia de otros se centra mucho más en las tendencias actuales y en los problemas que están teniendo las grandes corporaciones en el día de hoy y no tanto en las tendencias que ocurrirán en los próximos años.

Las temáticas principales de mayor a menor importancia fueron: la nueva regulación GDPR, Cloud, Tiempo Real y Machine Learning con pinceladas de IOT, inteligencia artificial y deep learning. Además, grandes corporaciones como Banco Santander, Audi, Renault, Cern etc acudieron a contar sus casos de uso y explicación de sus arquitecturas de referencia.

El día previo al evento tuvimos la oportunidad de asistir a un Meetup de Flink donde presentaron su roadmap con su nueva plataforma de streaming llamada daPlatform. Nos hicieron una demo mostrando su application manager que se encarga de gestionar los trabajos de Flink, junto a un dashboard de analítica a través de Kibana donde enseñaron como Flink gestiona el estado ante la caída de un job y como recuperarlo desde el checkpoint deseado. Además nos hablaron del conector de Flink con Apache Beam.

La mañana siguiente empezaba el plato fuerte, la keynote después de la bienvenida. Los key drivers fueron la espectacular evolución del Big Data y la especialización del sector en los últimos cinco años planteando los nuevos retos que nos vienen en el futuro cercano. En ese momento se empezó a hablar con fuerza de GDPR (General Data Protection Regulation). Esta norma regula la forma y el fondo sobre cómo los datos de los ciudadanos de la unión europea son protegidos y usados. Es curioso, porque recientemente saltó el escándalo de Facebook y Cambridge Analytics y a pesar de las promesas del gigante de la red social hizo para adaptarse a esta regulación, finalmente han decidido trasladar sus headquarters de Dublín a US. Esto viene entre otros motivos, porque lo realmente complejo de esta regulación, es que no da directrices de cómo aplicarla, sino que únicamente marca una serie de pautas que después cada organización es libre de interpretar y aplicar a sus casos de uso. Esto hace tener un trabajo extra de análisis e interpretación lo que pone un poco más difícil si cabe llegar a tiempo (La entrada en vigor está planteada para el 25 de mayo de 2018).

Después de la keynote, empezaban los diferentes tracks en los que tenía marcados dos objetivos claros, por un lado, conocer qué y cómo están implementando arquitecturas Big Data grandes corporaciones a las que no hay publicada información en la red y por otro lado, hacer un pequeño landing en ciertas tecnologías para poder coger ideas y poder aplicarlas como pruebas de concepto dentro de nuestro laboratorio de innovación.

Entre otras, destacó la gran sesión que dio Evangelos Motesnitsalis (Data Engineer at Cern) mostrando que por su casuística empezaron a implementar Big Data, mucho antes de que el propio término se inventase. Para que os hagáis una idea, gestionan 12.3 PBs de información cada mes. Estos datos vienen con distintos formatos como Json, Avro, Parquet o Root y son usados para realizar analítica sobre los experimentos que hacen en el túnel de partículas de 44 km que tienen bajo sus instalaciones. Además, también son usados como acelerador de métricas, gestor de logging de toda su infraestructura etc. Para ello tienen su propia plataforma Big Data (Cern Hadoop Distribution) y su propia API sobre Scala que le permite explotar el formato de ficheros Root sobre Spark.

Por otro lado, me encantó ver las similitudes de la plataforma Big Data desarrollada con Audi con una de las arquitecturas de referencia que ha diseñado Indizen para un lago transaccional en el sector financiero. Cambiando un par de cromos como Spark por Flink (no necesitan latencias del milisegundo), el resto de la foto es muy parecida, lo que aboga al propósito generalista de todas estas herramientas.

Otra charla interesante fue a cargo de Diego Baez, General Manager at Hortonworks sobre trading bots implementados con machine learning. Básicamente son programas que son capaces de analizar muchísimo más rápido y con factores de error mucho más pequeños tareas que hasta ahora para cualquier trader les supondría muchísimo esfuerzo. Pero esto va mucho más allá porque los traders podrían pasar por alto sensibilidades a la hora de hacer una compra o una venta de un producto, pero en cambio estos sistemas serían capaz de calcular 40 millones de simulaciones en tiempo real antes de realizar la operación consiguiendo reducciones de costes, optimización de operaciones y maximización de beneficios.

Además, hubo otra serie de sesiones que estaban enfocadas a las lecciones aprendidas durante el diseño de arquitecturas como lo planteado por el grupo de Data Innovation de Banco Santander UK con los límites de rendimiento que tenían por tener demasiadas particiones de hive, ficheros muy pequeños y los factores de replicación, además de su esfuerzo por mantener el “agua fresca”, es decir que la información de su histórico esté siempre actualizada y lista para ser reprocesada.

Más allá de eso, como punto no tan positivo se vió mucha presentación de producto con su roadmap correspondiente tanto de productos open source, como otros de licencia. A destacar la filosofía open source que v dentro del stack de Hortonworks HDP y HDF, Hadoop 3.1 (Permite escalar en modo federación hasta 100k nodos), Oozie, Nifi, Tensor Flow y otras muchas orientadas al mundo de la seguridad y el mundo de data governance con Apache Metron, Atlas, Ranger etc.

 

Como conclusión y a destacar, podemos decir que en Indizen somos unos afortunados ya que que a día de hoy somos early adopters de al menos el 90% de las tecnologías que se hicieron mención durante el congreso.

 

By Francisco Javier Piqueras Ruiz, Big Data Project Lead at Indizen