Durante los días 16 y 17 de noviembre se ha celebrado la sexta edición del Big Data Spain. En esta ocasión se ha vuelto a organizar en el Kinépolis de la Ciudad de La Imagen, un entorno perfecto gracias a la calidad de las salas IMAX donde se realizaron las charlas y  la amplia zona de networking donde los stands de los sponsors crecen año a año. También merece mencionar otras atracciones como uno de los primeros Tesla Model X de España y un tenderete con barra libre de Estrella Galicia 1906 :).

Indizen vuelve a apostar por el Big Data Spain con más de 25 asistentes.

Este año hubo cambios de formato con charlas más reducidas en el tiempo, desarrollándose de una manera más ágil y propiciando el networking entre charla y charla, pero que en contrapartida obligaba a los ponentes a perder el detalle que muchos buscábamos durante estas jornadas. Digo esto como reflexión personal, ya que en 2017 el 99% de los asistentes (o los que estéis leyendo este blog) sabrá que Spark es un motor de procesamiento rápido, escalable y distribuido.

La temática principal de esta edición fue la Inteligencia artificial junto al Machine Learning y Deep Learning junto al invitado BlockChain que pasó de manera testimonial. Esto confirma una vez más que como ocurre en una pasarela de moda, las tendencias van muy por delante de los casos de uso que a día de hoy tienen nuestros clientes. Muchas corporaciones en el presente se siguen peleando por reconvertir sus data warehouses, charcos y pantanos en data lakes, implantar una “novedosa” plataforma Big Data o incluso los más aventajados a hacer sus primeros pinitos con el real time.

Tras la apertura de puertas del jueves y el primer contacto con el catering, en el teatro principal se realizó la Keynote con un espectáculo visual muy original, seguido de una charla por parte de José Borja Tomé, de la Agencia Tributaria explicando las herramientas y casos de uso que tienen implantados para evitar el fraude fiscal. Me sorprendió gratamente, que pese a todos los archiconocidos casos de corrupción en nuestro país, estamos a la vanguardia europea siendo uno de los países que menos dinero invierte por cada 100 euros de impuestos recaudados y que el porcentaje de impuestos que se conocen que se están evadiendo es menor respecto a la media de nuestros vecinos europeos.

Una vez terminada esta, las charlas hacían tres forks con diferentes temáticas y nos tocaba decidir de qué rama hacer clone y qué conocimientos queríamos hacer push en nuestra memoria. La verdad que la calidad de los ponentes queda fuera de toda duda, al Big Data Spain vienen algunos de  los mejores y este año no fue menos. En mi caso, no podía dejar pasar la oportunidad de conocer o volver a ver a grandes como:

Paco Nathan que habló sobre las diferentes técnicas de Machine Learning como son el entrenamiento de un modelo supervisado, sin supervisión y semi-supervisado, dando al dato la importancia que se merece, ya que con un dataset pequeño será muy complicado que ese entrenamiento sea válido, es decir, Small Data vs Big Data.

Holden Karau junto a su peluche @BooProgrammer hizo gala de su carisma mostrando sus preferencias hacia el pySpark y aquellos lenguajes que no trabajan con la JVM a través de sus famosos Word Counts de los que tantas veces hemos leído en sus libros.

Arkadiusz Jachnik enfocó su sesión en cómo Spark se integra con el resto de herramientas del Big Data stack mostrando casos técnicos con herramientas como ScalikeJdbc, HBase/Hive,, Kafka y Zookeeper.

Tyler Akidau de Google dio la importancia que se merece al Streaming aplicándolo a través de SQL. El SQL está más presente que nunca en el Big Data dada su corta curva de aprendizaje y que al 90% de los perfiles IT no bigdateros dominan esta tecnología. APIs como SparkSQL, Flink Table o KSQL son presente y futuro en el mundo del Big Data. Además explicó con una animación muy didáctica cómo trabajan los estados y las ventanas en un proceso streaming.

La jornada se acabó postergando hasta bien entrada la tarde noche. Gracias otra vez Estrella Galicia.

El Viernes comenzó con una sesión interesante del CDO de P&G mostrando algunos de sus avances en inteligencia artificial aplicado al reconocimiento facial con objetivo de recomendar productos en base a las características de pelo y piel.

Petar Zecevic, autor del libro “Spark in Action” nos indicó algunos consejos y trucos para realizar tunning en trabajos de Spark, por ejemplo cómo ejecutar varios hilos de Spark sobre el mismo contexto.

Por último, la compañía del Prime presentó su producto Full Stack para analítica y el banco naranja su sistema de arquitectura de referencia en streaming, el cual debería ser un referente para el resto de la competencia.

Como conclusión y por suerte para nosotros, el mundo del Big Data no hizo más que empezar, por lo que aunque pensemos que Winter is here, yo pienso  “Brace yourselves, Spring is Coming!”

By Francisco Javier Piqueras Ruiz, Big Data Project Lead at Indizen