Powercenter + R: el binomio perfecto en Analítica Avanzada

Con la generalización de las nuevas tecnologías aplicada a cualquier dispositivo, se ha dado lugar a que, desde las personas, pasando por teléfonos móviles, cadenas de montaje o un simple Smartwatch, se genere una gran cantidad de datos, cambiando así el actual paradigma de las fuentes de información y su posterior almacenamiento y procesamiento.

Actos como conducir o caminar con un dispositivo capaz de geoposicionar a su usuario, pagar con una tarjeta de crédito o ver una serie online, generan información susceptible de ser explorada.

A diario en el mundo se generan cerca de 2.5trillones de bytes de datos. Estas cifras vienen aumentando desde hace años debido a la hiper-conectividad en la que vivimos, inducida por la digitalización, Internet Of Things y las redes sociales.

Los ecosistemas Big Data y Business Intelligence son capaces de capturar, almacenar y manejar grandes volúmenes de datos, poniendo las bases para explotar analíticamente su información, y extraer el valor de ellos. Este hecho resulta una verdadera mina de oro para las empresas, que pueden sacar valor de los datos para mejorar procesos, minimizar costes o maximizar los beneficios. ¿Te imaginas poder disponer de herramientas con una considerada potencia para la obtención de datos y su análisis? Ahí es donde Powercenter y R toman relevancia en esta entrada

José Luis Gutiérrez Espinosa
José Luis Gutiérrez EspinosaData Scientist en Viewnext

¿Qué son Powercenter y R y su relación con los modelos estadísticos?

Powercenter es una herramienta de Data Integration que pertenece a una suite de herramientas de BI de la compañía norteamericana Informatica que, entre otras de sus funcionalidades, se compone de un potente sistema de extracción de datos que permite conseguirlos desde diversas fuentes y estructuras. Este hecho dota de una gran versatilidad a nuestra base de datos y nos permite integrar la información, así, podemos disponer de datos específicos para nuestros estudios y modelos, haciendo invisible la heterogeneidad de las fuentes, una de las mayores problemáticas a las que se enfrentan los profesionales de la ciencia de datos día a día.

R, por su parte, no es un lenguaje de programación estrictamente, aunque suele ser conocido como tal, sino un conjunto de programas integrados para el manejo de datos simulaciones, cálculos y realización de gráficos. Es de implementación libre, lo que supone un gran ahorro en el gasto de compra de licencias, y, además, al ser de código abierto, ha ido evolucionando a lo largo de los años con aportaciones de su comunidad de desarrollo.

Dentro del mundo estadístico, R es la herramienta idónea, ya que permite manipular los datos de forma rápida y precisa. También posibilita su automatización de forma fácil, gracias a la creación de scripts que automatizan procesos, como, por ejemplo, leer datos o hace operaciones con los datos y hacerlo siempre de forma automática además de ejecutarse en una gran variedad de plataformas.

¿Cuál es su relación con los modelos estadísticos?

Entendemos en términos sencillos que un modelo estadístico es una forma simplificada, matemáticamente formalizada, de aproximarse a los fenómenos de la naturaleza, y opcionalmente, hacer predicciones a partir de dicha aproximación. R nos permitirá desarrollar dichos modelos estadísticos predictivos gracias a la gran variedad de técnicas avanzadas que implementa.

Cabe destacar que puede llegar a confundirse el análisis predictivo con hacer un pronóstico, pero se trata de conceptos completamente distintos. Mientras que un pronóstico puede predecir cuántos helados se van a vender el mes que viene, el análisis predictivo puede indicar qué individuos tienen mayor probabilidad de que se coman un helado.

En nuestro caso, aprovecharemos los modelos estadísticos predictivos para obtener patrones y dar respuesta a la conducta de las personas con la intención de diseñar estrategias de mercado para lograr objetivos marcados como compañía: ventas, marketing, satisfacción del cliente, etc.

¿Qué es la productivización o industrialización de modelos estadísticos?

El término productivización o industrialización de modelos estadísticos refiere a la integración de distintas herramientas para lograr un fin determinado. En nuestro caso, integrar R en Powercenter respetando sus reglas, metodología y funcionamiento, dicho de otro modo y en un lenguaje muy natural, meter en un ‘cajón’ una estructura similar a lo que hay en dicho ‘cajón’ adoptando las medidas necesarias para ese acoplamiento, siendo ambas herramientas dos herramientas diferentes de proveedores distintos.

¿Cómo se integran Powercenter y R?

Powercenter permite la integración de otras herramientas bajo unos criterios y reglas de programación, permitiendo secuenciar los procesos en el orden que deseemos para la ejecución correcta de nuestro sistema. Así, usaremos las distintas configuraciones del programa para emular un trabajo en cadena.

Por otro lado, otra de las características de esta industrialización es la dependencia entre los distintos procesos, es decir, un proceso B puede depender a distintos niveles de un proceso A, lo que hace que sea imprescindible un estudio y análisis previo del sistema que queremos implementar, sobre todo en los puntos de conexión entre ambos.

A modo de ejemplo, uno de nuestros principales clientes del sector bancario, dispone de muchos procesos dependientes unos de otros formando largas cadenas de automatización, esto hace que este tipo de integración sea un método clave para el correcto funcionamiento de sus sistemas informacionales.

 Usos y beneficios de la productivización de Powercenter y R.

Llevándolo a un lenguaje natural, Powercenter y R se hacen más fuertes cuando se unen, ya que a la gran potencia con la que cuenta la herramienta de extracción de datos, se le suma la gran capacidad de cálculo que tiene R para realizar operaciones y el desarrollo modelos predictivos. Así, R también se beneficia de esta integración al tomar prestada esa gran capacidad de homogeneización de bases de datos para disponer de diversas fuentes, indistintamente de su estructura, para contar con un afluente de información para su procesamiento.

Además, la unión de ambos entornos nos aporta el uso de la diversidad de herramientas que la suite de Informatica proporciona. Por ejemplo, dicha suite también incluye herramientas de gobernanza del dato que permite al usuario beneficiarse de la trazabilidad completa de los datos desde su origen.

Viewnext con la productivización sienta un precedente. Uno de sus beneficios con ello, es colocarse como una compañía de las pioneras en utilizar ambas herramientas de manera conjunta, pudiendo con ello ser un eco para las demás grandes empresas que están a nuestro nivel.

Otro de los grandes beneficios que nos proporciona la productivización es la monitorización de nuestro sistema a través de una sola herramienta, lo que pone a nuestra disposición un poder de centralización y mayor control de los distintos procesos automatizados.

Dentro de la compañía, el equipo de Analítica Avanzada desarrolla para una importante entidad bancaria un sistema de procesos integrados de modelos predictivos, donde una de las finalidades es calcular la probabilidad de que un cliente contrate determinados productos bancarios, dándonos información sobre su propensión a la contratación, lo que permite centrar los recursos económicos en una cartera de clientes menor y específica, dando lugar al ahorro en tiempo y costes en una campaña publicitaria.

También, el mismo equipo, ha logrado desarrollar un proceso conjunto con Google Analytics mediante su API que captura datos para detectar los hábitos que los usuarios tienen cuando interaccionan con distintas páginas webs: tiempo de estancia en la página, número de rebotes, etc. y registrarlos en el DWH, permitiéndonos la integración de 3 herramientas al mismo tiempo: R, Powercenter y Google Analytics. De esta manera, se nutre al sistema de una gran cantidad de datos que permiten aumentar considerablemente la experiencia de usuario online tras el procesamiento de los datos que aporta Google Analytics con R y Powercenter, pudiendo mejorar la web de nuestros clientes para que ellos a su vez consigan adaptarse a los suyos.

2020-05-07T12:51:21+02:007 mayo, 2020|