Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

Análisis Predictivo con Pentaho Data Mining
Buscando modelos más allá de la analítica

Carenne Ludeña.
DATA SCIENTIST
•  Presentación
•  Analítica Predictiva (PA):
•  ¿Qué?, ¿Dónde?, ¿Cuándo?
•  Realidades Cambiantes: PA y Big
Data
•  El “Data Science Team”
•  Tendencias, mitos y realidades
•  PA, Big Data y Pentaho
•  Weka-R
•  Integración (PDI)
•  Un caso en desarrollo: predicción de
Churn
•  Dos casos de estudio
•  Arquitectura de un proyecto
•  Pentaho + Matrix DataLabs

Presentador
Jose L. Camara
Channel Manager LATAM / Pentaho
Jose has more than 15 years of experience in sales, distribution, consulting
and support of Business Intelligence and Data Integration Solutions. Jose
has been involved in different types of projects like Data Warehouse, Data
Cleansing, Data Governance, Data Consolidation, Master Data
Management, OLAP Analysis, Predictive Analysis and Business
Intelligence with customers such as General Electric, Merrill Lynch, Nike,
BBVA Bancomer, Santander, Martí, Elektra, Banco de Costa Rica, Cemex,
Telmex, Lime Communications and some others providing hundreds of
thousand of dollars in savings during the implementation of these projects.
Currently José works for Pentaho as a Channel Manager for Latin America

LOS EXPOSITORES
Carlos Urgelles
DATA SCIENTIST

Carenne Ludeña
DATA SCIENTIST

Carenne es Científica de Datos e investigadora en matemática estadística.
Luego de su doctorado en la Universidad de Orsay (Francia), trabajó
durante 15 años en el Instituto Venezolano de Investigaciones Científicas y
es Coordinadora de la maestría de Modelos Aleatorios de la Universidad
Central de Venezuela. Combina sus intereses académicos con desarrollo
de aplicaciones en petróleo, salud, finanzas y telecomunicaciones. Es
experta en minería de datos y el uso de R y Weka. En 2011 fue
galardonada con el premio de la Fundación Empresas Polar,
una de las distinciones científicas más importantes de Venezuela.
Carlos tiene más de 20 años de experiencia en consultaría de desarrollo
de sistemas de información especializados en el área de Inteligencia de
Negocios. Se ha desempeñado como consultor, líder técnico, gerente de
proyectos y ventas. Posee más de 50 proyectos implantados en 7 paises
y en áreas que incluyen ventas, finanzas, consolidación y planificación
financiera, logística e inventarios. Con muchas horas de cursos dictados
en su haber, en los 90 hizo la labor de evangelización de BI en Latinoamérica
y ha sido una gran promotor de Pentaho en la región. Es un emprendedor
de proyectos relacionados con BI.

ANALÍTICA PREDICTIVA
¿QUÉ, CUÁNDO Y DÓNDE?
Es un término que engloba
una serie de técnicas, algoritmos
y procedimientos para la extracción
de patrones subyacentes en la data.
Estos patrones permiten descubrir,
predecir, entender y explicar.

Caterpillar
Inc.
reduced
rota1ng

machinery
anomalies
by
nearly
45

percent,
thanks
to
improvents
delivered

bydata-‐mining
methods.

Predicting Quality
Outcomes Through
Data Mining

APLICACIO
NES
APLICACIONES
Sector

público

Energía

Tele-
comunicaciones
Retail
Petróleo

Salud

Banca

Y

aseguradoras

Mercadeo E-gobierno
Producción/Distribución
Churn
Atención individualizadaControl automatizado
Historias automatizadas
Modelos de riesgo
Detección de fraude
Campañas dirigidas

•  Cada día hay más datos
•  Se requieren respuestas en tiempo real
•  Muchos negocios: atención
individualizada del clientes
•  Control de Calidad de datos
•  Mercados competidos: atracción de
nuevos clientes y diseño de nuevos
productos
•  Tecnología que evoluciona rápidamente
•  En conclusión: ¡más y más rápido!

REALIDADES CAMBIANTES

BA en un punto de inflexión
8

(Gartner,
December
2011)

“The proliferation of data has caused enterprises to need new tools and processes to collect data (both structured and
unstructured) and to store, manage, manipulate, analyze, aggregate, combine, and integrate data. ”

J|M|P
Securi1es,
Big
Data
and
How
BI
Got
Its
Groove
Back,
Nov.
2011

(IDC
Digital
Universe
Study,
June
2011)

40
35
30
25
20
15
10
5
0
2005 2010 2015 2020
ZB

(IDC
Digital
Universe
Study,
June
2011)

Estas realidades cambiantes ponen a prueba las herramientas clásicas de BI

•  Fenómeno Big Data:
• Volumen
• Variedad
• Velocidad
• Veracidad
•  Se requiere poder extraer, procesar
y almacenar grandes volúmenes de datos
en tiempo real
•  Aplicaciones de algoritmos de alta demanda
de tiempo y memoria
•  Imperativo: mecanismos eficientes
para pre-procesamiento y análisis de datos
•  Nuevas tecnologías de extracción, capacidad
de almacenamiento y análisis implican nuevas
tendencias en el manejo de información

ANALÍTICA PREDICTIVA Y BIG DATA

BIG DATA / NUEVAS TENDENCIAS
Variedad y volumen:
Bases de datos no estructuradas
Web mining
Crawling de redes sociales
Text mining
Spatial data mining
…

DE MINERÍA DE DATOS AL DATA SCIENCE TEAM
•  Ahora es un trabajo de equipo
•  Manejo, extracción y análisis de la información, tarea
compleja
•  Se requiere de especialistas capaces de trabajar en
conjunto
•  Tendencia de grandes empresas y empresas de BI
alrededor del mundo
•  Data Science Team (DST):
•  Ingenieros de datos (manejo y extracción
de información)
•  Analistas de datos
•  Estadísticos
•  Expertos en fraude y calidad de datos
•  No es siempre posible crear un DST. Opciones:
• Tercerización
• Consultoría

ANALÍTICA PREDICTIVA EN
CIFRAS
Empresas líderes y su relación con Big Data
Fuente: Estudio Aberdeen 2013
Los líderes aumentan su tendencia a seguirlo siendo por su incremento
en el uso de habilidades asociadas al uso inteligente de la información.

Keeping Up with Customers – Dynamic
Behavior Profiles

Pedictive Analytics
Fuente: Estudio Aberdeen 2013
Dynamic Offers Drive Perfomance

ANALÍTICA PREDICTIVA EN
CIFRAS

LAS EMPRESAS LÍDERES Y ADOPCIÓN DE
ESTRATEGIAS DE AP
Hug a Geek- State of IT/Marketing
Alignment

Predictive Value – Best-in-Class
Adoption of Data Analytics Technologies
for Marketing

Los líderes invierten más en tecnología y los que invierten más son líderes.
La mayor inversión de las empresas líderes es en Analítica Predictiva.

CIFRAS EN AMÉRICA LATINA
Inversión en BD/PA a nivel
mundial

Median Spending per company
on Big Data in 2012- by country

Percentage of Companies whose Big
Data initiatives have
Improved Decision-Making

Inversión baja,
pero alto impacto

MITOS
•  Es interesante pero demasiado
costoso para mi empresa
•  Para poder hacer analítica predictiva
o minería de datos es necesario invertir
en la compra de software
especializado
•  Es necesario contar con personal
calificado y entrenado y mi empresa
no puede costear este gasto
•  El tipo de información que se obtiene
de la aplicación de este tipo de técnicas
la sabe de todos modos el que
“sabe del negocio”
•  En conclusión: no vale la pena

REALIDADES
•  Existen “soluciones a la medida”.
•  Una intervención puntual puede
resolver un problema importante
•  La inversión en software depende de
las necesidades de la empresa
•  Pueden implementarse
soluciones “llave en mano”
•  La instalación de DST es un proceso
gradual y no es necesario en todos los
casos
•  “El que sabe del negocio” tiene una
visión intuitiva importante. Sin embargo,
esta información es:
•  Intransferible y no automatizable
•  Ineficiente al aumentar el volumen
del negocio
•  Incompleta
•  Uso inteligente de la información= más
y mejores negocios

Data Mining, Big Data y Pentaho

•  Apoyo en todo el proceso de exploración y construcción de modelos
Pre-procesamiento de datos
Evaluación y comparación estadística de modelos
Exploración gráfica de datos e interfaces gráficas para visualización y comparación de modelos
•  Herramientas y Algoritmos
69 (y aumentando) herramientas (filtros) para pre-procesamiento
118 (y aumentando) algoritmos de clasificación/regresión
11 (y aumentando) algoritmos de agrupamiento
18 evaluadores para atributos más informativos+ 12 algoritmos de búsqueda
6 algoritmos de reglas de asociación
•  Interfaces
Explorer – exploración, visualización y procesamiento de data. Construcción, evalución
preliminar y exportación de modelos.
Experimenter – Comparación en gran escala de algoritmos usando pruebas estadísticas
para determinación de diferencias significativas en modelos.
KnowledgeFlow – minería de datos como procesos. Exportación de modelos/procesos.
•  Integración a la suite Pentaho

PENTAHO DATA MINING (AKA WEKA)

BIG DATA Y PENTAHO
20

•  Incorporación de información en formato no tradicional y manejo eficiente de grandes
volúmenes de datos: bases de datos no estructuradas integradas a Pentaho
•  Algunos ejemplos
•  Extracción grandes volúmenes (Teras) Haddop/ Hive/ Pentaho
•  Web mining y crawling de redes sociales: extracción y almacenamiento en NoSQL

Integración
de procesos
en PDI

R/ PDM
(WEKA)

Procesamiento
Big Data

BIG DATA, PDM, R, PENTAHO BA

EXTRACCIÓN+PROCESAMIENTO+REPORTING
22

Análisis/predicción/integración
•  Exploración
•  Descubrimiento
•  Modelaje y predicción

Gerencia para la toma
de decisiones
•  Visualización
y exploración
•  Tableros/Índices
•  Seguimiento
interactivo del negocio

•  Uso versátil de la información
•  Facilidad
•  Velocidad
•  Flexibilidad

Extracción
Procesamiento
Reportes

UN EJEMPLO EN DESARROLLO
CÁLCULO DE PROBABILIDADES DE
CANCELACIÓN o CHURN
23

El Churn o cancelación
de clientes, se refiere a
la proporción
o tasa de clientes que
se van o dejan al
proveedor
de un servicio durante
un horizonte de tiempo
determinado.

El modelo de predicción
Churn busca identificar
los suscriptores con
alta probabilidad de
abandonar el servicio
en el futuro cercano , su
valor para el negocio y
los factores que la
causan, para así
tomar las acciones
correspondientes.

La cancelación de un
cliente siempre genera
pérdidas.
Es mas difícil y costoso
conseguir un nuevo
cliente que retenerlo.

Modelos de cancelación de clientes (Churn)
Cálculo de probabilidades de cancelación: identificación de clientes difíciles/mejoría en tasas de retención/atención
individualizada.
Modelos adaptados por categorías o segmentos de clientes para mejorar capacidad predictiva

Caracterización
de clientes

Identificación
de variables
y análisis
supervivencia

Identificación
de Grupos
de influencia
y redes sociales

Conocer cuáles son
las variables que más
influyen
Si probabilidad de
cancelación alta: cuál
es la probabilidad de
cancelación en 3
meses o 6 meses

A veces es relevante
conocer las redes
de interacción de clientes
§  Recuperables/
No recuperables
§  Probabilidad
de recuperación

Técnicas de análisis

Esquema Modular Pentaho-Weka-R
Exploración: integración
Pentaho/Weka/R
•  Esquema modular
•  Mejor modelo
•  Segmentación previa
•  Análisis supervivencia
•  Análisis redes

Modelaje
Integración
Análisis
Exploratio

Analítica Predictiva
Casos de estudio

Segmentación de clientes: información valiosa sub-utilizada
•  Datos históricos de fidelidad y consumo (RFM).
•  ¿Quién compra qué y cómo paga?
•  Campañas dirigidas/Nuevos productos

Detección de fraude: problema importante
con significativas implicaciones económicas y sociales
•  Detección de valores o patrones anómalos
•  Estrategias sofisticadas y variadas: difícil con Big Data

CASOS DE ESTUDIO

Empresa de telecomunicaciones
Data: varios millones de registros
con más de 350 atributos
Características
de clientes (forma de pago,
tecnología, localización
geográfica, planes,...)
Variables de uso:
agregados mensuales
de llamadas (entrantes
y salientes por operadora), mensajes
(entrantes y salientes
por operadora), volumen
de datos. Variables de consumo

Determinar la vigencia de planes
pre-existentes.
Mejorar el rendimiento del proceso
de mercadeo/ventas: mercadeo
dirigido.
Detectar nuevas necesidades
y targets
Proponer nuevos productos
u oportunidades de negocio

Preparando la Data
Muestreo inicial de la data:
Pentaho + hadoop
Exploración-determinación de
variables informativas: WEKA
Construcción de un modelo de
segmentación inicial: WEKA
Construyendo el modelo
Segmentación: k-medias (algoritmo
paralelizble usando hadoop map/
reducer)
Ajuste y selección del mejor modelo:
WEKA
Exportando el modelo: Knowledge
Flow plugins
Aplicando el modelo a toda la data:
PDI
Esquemas integrados en Pentaho
para análisis y reportes

SEGMENTACIÓN DE CLIENTES
Introducción

•  Segmentación automatizada:
Datos futuros
•  Aplicación de los modelos
sobre toda la base de
datos

• 
Exploración: datos pasados y
presentes
•  Descubrir relaciones entre
variables o entre individuos.
•  Determinar segmentos que
respondan a las expectativas
del negocio.
•  Descubrir cuáles son las
variables que determinan
ciertos comportamientos
•  Construcción de modelos de
segmentación apropiados

Integración
modelos
Map-Reduce
Creación del
Modelo base
(knowledge flow)

Soluciones
•  Análisis de probabilidades de clasificación
permite detectar casos confusos
•  Análisis de planes existentes
con segmentos identificados

Pentaho/Weka
•  Integración del segmentador al sistema de manejo de clientes permite
utilizar las herramientas de BI con esta nueva variable
•  Diseñar nuevas políticas de mercadeo y ventas
•  Mejora en eficiencia: mayor adaptabilidad a las necesidades reales de
clientes
No existen planes
adaptados para 14%
de clientes en pre-pago
con mayor consumo

Patrones de consumo
de 76% de clientes deben
canalizarse mejor. No hay
planes adecuados para
este grupo de clientes
mayoritario

Más de 90% de planes hechos
para menos de 10% de clientes
post-pago sin diferenciar
características
de consumo

Análisis y conclusiones

Empresa de distribución masiva
Data: relaciones de ventas de
empresas revendedoras (varios
millones de clientes) a su
empresa matriz.
Datos diarios de ventas
Comportamiento estacional
marcado:
Variaciones interdiarias
Variaciones trimestrales
Tendencia creciente anual

Luego de un cambio de
plataforma tecnológica ocurrida
a final de abril 2007, la
empresa matriz sospecha que
una de las revendedoras está
“maquillando” los números.
Sin embargo dado el gran
volumen de datos se hace
difícil observar anomalías que
sólo se intuyen por una pérdida
en la masa global de las
ganancias reportadas.

Preparando la data:
Limpieza de datos: datos
faltantes
Eliminación de
tendencias: anuales,
trimestrales y diarios (por
día de la semana).
Construyendo el modelo:
Análisis exploratorio en R
Aplicación de
transformaciones
adecuadas.
Determinación de mecanismo
de fraude.
Estimación de pérdidas
generadas por el fraude

DETECCIÓN DE FRAUDE
Introducción

Diseño de
modelos
Solución a la
medida
Análisis exploratorio
Pentaho/R
Evaluación
del

problema:

comprensión
del

mecanismo

de
fraude
y
es1mación

de
pérdidas

Exploración
y
creación
de

una
transformación

apropiada
de
los
datos

para
determinación

cuan1ta1va
de
fraude

Esquema PENTAHO-R

Soluciones
•  Fraude ocasionado por eliminación de
valores que sobrepasan un cierto umbral.
•  Las pérdidas estimadas se basan en la
relación entre las ganancias diarias y la
mediana.

Pentaho/R
•  Solución a la medida
•  El ajuste monetario debido al
reconocimiento del fraude fue significativo.

Transformación
apropiada permite
análisis cuantitativo de
mecanismo de fraude

El análisis de los grupos
antes y después permite
hacer un cálculo de
ganancias no percibidas.

Análisis y conclusiones

ARQUITECTURA PENTAHO DATA MINING
Data warehouse
Pentaho Data Integration
•  Combinar/preparar data
•  Construir & guardar modelos de DM
•  Incluir modelos para Scoring & actualización
del DW con predicciones
Pentaho Data Mining (WEKA)
•  Exploración & preparación de data
•  Construir, probar y comparar modelos
Repositorio ETL
de transformación
Servidor Pentaho BA
•  Dashboards, reporting etc.

•  Creación del repositorio:
•  Pre-procesamiento/calidad de data
•  Análisis descriptivo y predictivo:
•  Pre-procesamiento para análisis (grandes
volúmenes)
•  Análisis descriptivo/reducción de dimensiones
•  Creación y evaluación de modelos
•  Agregación y/o selección de modelos
•  Creación de modelos exportables Pentaho y/o
elaboración entregables
•  Creación reportes y dashboards en Pentaho
•  Ajustes
•  Análisis de efectividad
ARQUITECTURA DE UN PROYECTO
Recepción de
los Datos
Data QualityKick Off
Semana
0

Semana
1

Semana
2

Semana
3

Semana
4
–
Semana
N

Pre-‐procesamiento Análisis
DescripFvo
y
PredicFvo

Creación
Modelo
Evaluación
Modelo
Exportación/Entregables

Reportes
y
Dahboards
Ajustes

Análisis
de
EfecFvidad

SOLUCIONES A LA MEDIDA

SOPORTE
CONSULTORÍA
CAPACITACIÓN
SOLUCIONES INTEGRADAS
PENTAHO + BD + DM
EN SITIO OUTSOURCING SAAS
Herramienta flexible
•  Pentaho Business Analytics
•  Pentaho Data Mining

Equipo multifacético
•  Analítica + BI
•  Big Data +PA
•  Científicos de datos
•  Web and text mining

PENTAHO + MATRIX DATA LABS

Matrix Data Labs , unidad de negocios de Matrix
CPM Solutions, nace en 2012 como una iniciativa
de Carenne, Carlos y sus equipos
de trabajo, convencidos del gran potencial
del desarrollo de esta área en la región.
Matrix Data Labs desarrolla proyectos con
tecnología de estado del arte en el área
de analítica predictiva, Big Data e integración
de información.

MATRIX CPM SOLUTIONS
•  Empresa fundada en Diciembre de 2005
•  Con oficinas en Venezuela y Colombia
•  Amplia experiencia en el desarrollo de modelos
de Inteligencia de Negocios.
•  “Pentaho Certified Partner” desde Enero 2007.
“Pentaho Gold Reseller” Febrero 2009. “Latin
American Partner of the Year 2008”. “Pentaho
Global Partner Award 2011; Reseller of the
Year”
•  “Infobright System Integrator & Reseller
Partner” desde Abril 2009
•  Cuenta con experiencia en soporte, consultoría
y capacitación en USA, México, República
Dominicana, Colombia, Venezuela, Bolivia,
Perú, Ecuador, El Salvador y Chile.

www.matrixcpmsolutions.com
contactos@matrixcpmsolutions.com

Carenne Ludeña cludena@matrixcpmsputions.com
Carlos Urgelles curgelles@matrixcpmsolutions.com

Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (8)

Similaire à Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

Similaire à Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining (20)

Plus de Pentaho

Plus de Pentaho (20)

Dernier

Dernier (11)

Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining