Ciencia de datos

Haciendo las preguntas correctas

El potencial que reside en tus datos es el resultado de la combinación de las personas adecuadas con las herramientas adecuadas. Nuestro equipo de Data Scientists te ofrece todo el rigor analítico manteniendo siempre un estricto pragmatismo de negocio. No importa la cantidad o la variedad de tus datos, nos encargaremos de realizar un modelado de datos exhaustivo que te permitirá descubrir relaciones complejas entre tus variables, transformando el conocimiento en valor útil. No dejes pasar ninguna oportunidad: optimiza el proceso de toma de decisiones de tu negocio y explota al máximo el valor de tus datos.

Optimización de algoritmos

La optimización de un algoritmo se obtiene cuando se hace la selección correcta de algoritmo y estructura de datos.

Analítica como servicio

Enriquecimiento de datos, integración de fuentes (CRM, sistemas transaccionales, etc).

Visualización Avanzada

Encontrar las preguntas correctas para pedir a un conjunto de datos, transmitiendo eficazmente la respuesta-visual.

Modelos predictivos

Explotación de patrones de comportamiento para identificar riesgos y oportunidades.

Retos y desafios en el sector

La ciencia de datos integra metodologías de estadísticas, computación, inteligencia artificial y otros campos para lograr adquirir un conocimiento intrínseco del dato. En la práctica, la ciencia de datos se enfrenta a un proceso iterativo de recolección, limpieza, análisis, visualización e implementación del dato.

Cada una de estas fases tiene sus propios retos, con una plétora de herramientas para abordar cada reto particular. La ciencia de datos es un proceso iterativo, puede que sea necesario volver al comienzo del ciclo para poder añadir nuevos datos.

En última instancia, la ciencia de datos lleva a toma de decisiones que mueven una organización hacia adelante, ya sea el objeto de la decisión el diseño de producto, una propuesta de inversión o estrategia de negocio.

Qué te podemos ofrecer

Recolección

Selección de la base de datos pública o privada que contenga la información que es útil, necesaria y accesible para cada proyecto en particular.

Limpieza y preparación de los datos
En operaciones tan simples como visualizar muestras de los datos, hasta más complejas como transformar completamente la base de datos, el formato y el contenido son claves.

Dada la gran variedad de formatos, desde altamente estructurados (relacionales) a desestructurados (fotos, documentos de texto, etc), pasando por situaciones intermedias (XML, CSVs, etc), es necesario escribir código personalizado para convertir los datos de un formato a otro, usando lenguajes de programación, o software específico.

Para poder solventar estos retos surgen numerosas herramientas. Entre ellas cabe destacar Hive, del ecosistema Hadoop para el procesamiento masivo de datos. Su principal característica es que su lenguaje es de tipo SQL, haciéndolo accesible a la mayoría de analistas de bases de datos. Fuera del universo Hadoop, herramientas como R, Python o Perl son utilizadas para ejecutar estas transformaciones.

Análisis de los datos
Una vez que los datos están preparados, normalmente hay una especie de “cambio de escenario”, esto es, los análisis suelen tomar lugar en un ecosistema diferente que el del pre-procesamiento. Esto puede suponer un enorme reto logístico, particularmente si la capa de pre-procesamiento tiene una mayor capacidad que la capa de analítica.

En esta fase es cuando la ciencia de datos toma prestado, o es una extensión, de las estadísticas. Requiere empezar con los datos, formar una hipótesis sobre lo que los datos dicen sobre una parte de la realidad, modelando hipótesis formales, ejecutando los modelos, observando los resultados, afinando las hipótesis, y repitiendo el proceso.

Dado el gran volumen de datos que nos podemos encontrar, utilizaremos distintas aproximaciones como machine learning y data mining. Ambos incluyen la utilización de programas basados en principios estadísticos que pueden completar las tareas y responder a las cuestiones sin una dirección explícita humana, normalmente usando reconocimiento de patrones.

Visualización de los datos
Visualización para ver de forma más sencilla los resultados de cada ronda de test. Gráficos sencillos: gráficos de puntos, histogramas, etc, y gráficos interactivos e intuitivos, de tal forma que los productos basados en datos pueden ser usados de manera efectiva por los usuarios y usuarias de negocio.

Publicación
Dependiendo del objetivo, ya sea el desarrollo de un producto para una app de smartphones, o para mejorar las decisiones de inversión de una entidad financiera, es importante preocuparse por muchas de las mismas características de la salida de los conjuntos de datos tanto como durante la ingestión de los mismos, y la maestría del científico/a de datos está en cómo mejor presentar los resultados, ya sea a máquinas o seres humanos.


Modelos predictivos en entidad financiera

 El Desafío

Una de nuestras empresas cliente, una de las entidades bancarias más importantes de España con más de 5 millones de clientes particulares en actividad, necesitaba encontrar una metodología para ofrecer un nuevo servicio a sus clientes, la capacidad de aprender de las transacciones que éstos hacían y así poder enviarles alertas en caso de que transacciones no esperadas ocurriesen. Esto les permitiría gestionar más apropiadamente su dinero, generando una mayor satisfacción entre el grupo y confiando más en el banco

La solución

Mediante el análisis de las transacciones de las empresas clientes y usando la tecnología big data se creó un doble algoritmo de predicción de transacciones, basados en una visión de las transacciones a nivel vertical y a nivel horizontal para cada uno de los/las clientes.

  • Algoritmo vertical: mediante la clasificación de clientes que comparten parámetros similares (balance, domiciliaciones, ingresos,…) se dispone de más información que permite mejorar los ratios precision/recall. Para ello, se implementó un algoritmo k-mean modificado para obtener clusters con diferentes magnitudes por fechas.
  • Algoritmo horizontal: se centra en el análisis individual de los/las clientes teniendo en cuenta factores como la estacionalidad y periodicidad de los movimientos. Los resultados obtenidos con este análisis ofrecieron una precisión muy alta, dado el patrón recurrente de gastos e ingresos.

El resultado

Gracias a estos algoritmos, es posible detectar las transacciones de los/las clientes, dando una visibilidad, que, no sólo es útil para la gestión económica de los/las clientes, sino que puede utilizarse en detección de fraude, así como potenciales fugas de clientes.