SlideShare une entreprise Scribd logo
1  sur  41
Télécharger pour lire hors ligne
Análisis Predictivo con Pentaho Data Mining
Buscando modelos más allá de la analítica
Carenne Ludeña.
DATA SCIENTIST
•  Presentación
•  Analítica Predictiva (PA):
•  ¿Qué?, ¿Dónde?, ¿Cuándo?
•  Realidades Cambiantes: PA y Big
Data
•  El “Data Science Team”
•  Tendencias, mitos y realidades
•  PA, Big Data y Pentaho
•  Weka-R
•  Integración (PDI)
•  Un caso en desarrollo: predicción de
Churn
•  Dos casos de estudio
•  Arquitectura de un proyecto
•  Pentaho + Matrix DataLabs
Presentador
Jose L. Camara
Channel Manager LATAM / Pentaho
Jose has more than 15 years of experience in sales, distribution, consulting
and support of Business Intelligence and Data Integration Solutions. Jose
has been involved in different types of projects like Data Warehouse, Data
Cleansing, Data Governance, Data Consolidation, Master Data
Management, OLAP Analysis, Predictive Analysis and Business
Intelligence with customers such as General Electric, Merrill Lynch, Nike,
BBVA Bancomer, Santander, Martí, Elektra, Banco de Costa Rica, Cemex,
Telmex, Lime Communications and some others providing hundreds of
thousand of dollars in savings during the implementation of these projects.
Currently José works for Pentaho as a Channel Manager for Latin America
LOS EXPOSITORES
Carlos Urgelles
DATA SCIENTIST
	
  
Carenne Ludeña
DATA SCIENTIST
	
  
Carenne es Científica de Datos e investigadora en matemática estadística.
Luego de su doctorado en la Universidad de Orsay (Francia), trabajó
durante 15 años en el Instituto Venezolano de Investigaciones Científicas y
es Coordinadora de la maestría de Modelos Aleatorios de la Universidad
Central de Venezuela. Combina sus intereses académicos con desarrollo
de aplicaciones en petróleo, salud, finanzas y telecomunicaciones. Es
experta en minería de datos y el uso de R y Weka. En 2011 fue
galardonada con el premio de la Fundación Empresas Polar,
una de las distinciones científicas más importantes de Venezuela.
Carlos tiene más de 20 años de experiencia en consultaría de desarrollo
de sistemas de información especializados en el área de Inteligencia de
Negocios. Se ha desempeñado como consultor, líder técnico, gerente de
proyectos y ventas. Posee más de 50 proyectos implantados en 7 paises
y en áreas que incluyen ventas, finanzas, consolidación y planificación
financiera, logística e inventarios. Con muchas horas de cursos dictados
en su haber, en los 90 hizo la labor de evangelización de BI en Latinoamérica
y ha sido una gran promotor de Pentaho en la región. Es un emprendedor
de proyectos relacionados con BI.
ANALÍTICA PREDICTIVA
¿QUÉ, CUÁNDO Y DÓNDE?
Es un término que engloba
una serie de técnicas, algoritmos
y procedimientos para la extracción
de patrones subyacentes en la data.
Estos patrones permiten descubrir,
predecir, entender y explicar.
	
  
Caterpillar	
  Inc.	
  reduced	
  rota1ng	
  
machinery	
  anomalies	
  by	
  nearly	
  45	
  
percent,	
  thanks	
  to	
  improvents	
  delivered	
  
bydata-­‐mining	
  methods.	
  
Predicting Quality
Outcomes Through
Data Mining
APLICACIO
NES
APLICACIONES
Sector	
  	
  
público	
  
Energía	
  
Tele-
comunicaciones
Retail	
  Petróleo	
  
Salud	
  
Banca	
  	
  
Y	
  
	
  aseguradoras	
  
Mercadeo E-gobierno
Producción/Distribución
Churn
Atención individualizadaControl automatizado
Historias automatizadas
Modelos de riesgo
Detección de fraude
Campañas dirigidas
•  Cada día hay más datos
•  Se requieren respuestas en tiempo real
•  Muchos negocios: atención
individualizada del clientes
•  Control de Calidad de datos
•  Mercados competidos: atracción de
nuevos clientes y diseño de nuevos
productos
•  Tecnología que evoluciona rápidamente
•  En conclusión: ¡más y más rápido!
	
  
REALIDADES CAMBIANTES
BA en un punto de inflexión
8	
  
(Gartner,	
  December	
  2011)	
  
“The proliferation of data has caused enterprises to need new tools and processes to collect data (both structured and
unstructured) and to store, manage, manipulate, analyze, aggregate, combine, and integrate data. ”
	
  J|M|P	
  Securi1es,	
  Big	
  Data	
  and	
  How	
  BI	
  Got	
  Its	
  Groove	
  Back,	
  Nov.	
  2011	
  
	
  	
  (IDC	
  Digital	
  Universe	
  Study,	
  June	
  2011)	
  	
  	
  	
  	
  	
  	
  	
  	
  
40
35
30
25
20
15
10
5
0
2005 2010 2015 2020
ZB
	
  	
  (IDC	
  Digital	
  Universe	
  Study,	
  June	
  2011)	
  	
  	
  	
  	
  	
  	
  	
  	
  
Estas realidades cambiantes ponen a prueba las herramientas clásicas de BI
•  Fenómeno Big Data:
• Volumen
• Variedad
• Velocidad
• Veracidad
•  Se requiere poder extraer, procesar
y almacenar grandes volúmenes de datos
en tiempo real
•  Aplicaciones de algoritmos de alta demanda
de tiempo y memoria
•  Imperativo: mecanismos eficientes
para pre-procesamiento y análisis de datos
•  Nuevas tecnologías de extracción, capacidad
de almacenamiento y análisis implican nuevas
tendencias en el manejo de información
	
  
ANALÍTICA PREDICTIVA Y BIG DATA
BIG DATA / NUEVAS TENDENCIAS
Variedad y volumen:
Bases de datos no estructuradas
Web mining
Crawling de redes sociales
Text mining
Spatial data mining
…
	
  
DE MINERÍA DE DATOS AL DATA SCIENCE TEAM
•  Ahora es un trabajo de equipo
•  Manejo, extracción y análisis de la información, tarea
compleja
•  Se requiere de especialistas capaces de trabajar en
conjunto
•  Tendencia de grandes empresas y empresas de BI
alrededor del mundo
•  Data Science Team (DST):
•  Ingenieros de datos (manejo y extracción
de información)
•  Analistas de datos
•  Estadísticos
•  Expertos en fraude y calidad de datos
•  No es siempre posible crear un DST. Opciones:
• Tercerización
• Consultoría
	
  
ANALÍTICA PREDICTIVA EN
CIFRAS
Empresas líderes y su relación con Big Data
Fuente: Estudio Aberdeen 2013
Los líderes aumentan su tendencia a seguirlo siendo por su incremento
en el uso de habilidades asociadas al uso inteligente de la información.
	
  
Keeping Up with Customers – Dynamic
Behavior Profiles
	
  
Pedictive Analytics
Fuente: Estudio Aberdeen 2013
Dynamic Offers Drive Perfomance
	
  
ANALÍTICA PREDICTIVA EN
CIFRAS
LAS EMPRESAS LÍDERES Y ADOPCIÓN DE
ESTRATEGIAS DE AP
Hug a Geek- State of IT/Marketing
Alignment
	
  
Predictive Value – Best-in-Class
Adoption of Data Analytics Technologies
for Marketing
	
  
Los líderes invierten más en tecnología y los que invierten más son líderes.
La mayor inversión de las empresas líderes es en Analítica Predictiva.
	
  
CIFRAS EN AMÉRICA LATINA
Inversión en BD/PA a nivel
mundial
	
  
Median Spending per company
on Big Data in 2012- by country
	
  
Percentage of Companies whose Big
Data initiatives have
Improved Decision-Making
	
  
Inversión baja,
pero alto impacto
MITOS
•  Es interesante pero demasiado
costoso para mi empresa
•  Para poder hacer analítica predictiva
o minería de datos es necesario invertir
en la compra de software
especializado
•  Es necesario contar con personal
calificado y entrenado y mi empresa
no puede costear este gasto
•  El tipo de información que se obtiene
de la aplicación de este tipo de técnicas
la sabe de todos modos el que
“sabe del negocio”
•  En conclusión: no vale la pena
	
  
REALIDADES
•  Existen “soluciones a la medida”.
•  Una intervención puntual puede
resolver un problema importante
•  La inversión en software depende de
las necesidades de la empresa
•  Pueden implementarse
soluciones “llave en mano”
•  La instalación de DST es un proceso
gradual y no es necesario en todos los
casos
•  “El que sabe del negocio” tiene una
visión intuitiva importante. Sin embargo,
esta información es:
•  Intransferible y no automatizable
•  Ineficiente al aumentar el volumen
del negocio
•  Incompleta
•  Uso inteligente de la información= más
y mejores negocios
	
  
Data Mining, Big Data y Pentaho
•  Apoyo en todo el proceso de exploración y construcción de modelos
Pre-procesamiento de datos
Evaluación y comparación estadística de modelos
Exploración gráfica de datos e interfaces gráficas para visualización y comparación de modelos
•  Herramientas y Algoritmos
69 (y aumentando) herramientas (filtros) para pre-procesamiento
118 (y aumentando) algoritmos de clasificación/regresión
11 (y aumentando) algoritmos de agrupamiento
18 evaluadores para atributos más informativos+ 12 algoritmos de búsqueda
6 algoritmos de reglas de asociación
•  Interfaces
Explorer – exploración, visualización y procesamiento de data. Construcción, evalución
preliminar y exportación de modelos.
Experimenter – Comparación en gran escala de algoritmos usando pruebas estadísticas
para determinación de diferencias significativas en modelos.
KnowledgeFlow – minería de datos como procesos. Exportación de modelos/procesos.
•  Integración a la suite Pentaho
	
  
PENTAHO DATA MINING (AKA WEKA)
BIG DATA Y PENTAHO
20	
  
•  Incorporación de información en formato no tradicional y manejo eficiente de grandes
volúmenes de datos: bases de datos no estructuradas integradas a Pentaho
•  Algunos ejemplos
•  Extracción grandes volúmenes (Teras) Haddop/ Hive/ Pentaho
•  Web mining y crawling de redes sociales: extracción y almacenamiento en NoSQL
Integración
de procesos
en PDI
	
  
R/ PDM
(WEKA)
	
  
Procesamiento
Big Data
	
  
BIG DATA, PDM, R, PENTAHO BA
EXTRACCIÓN+PROCESAMIENTO+REPORTING
22	
  
Análisis/predicción/integración
•  Exploración
•  Descubrimiento
•  Modelaje y predicción
	
  
	
  
Gerencia para la toma
de decisiones
•  Visualización
y exploración
•  Tableros/Índices
•  Seguimiento
interactivo del negocio
	
  
	
  
•  Uso versátil de la información
•  Facilidad
•  Velocidad
•  Flexibilidad
	
  
	
  
Extracción
Procesamiento
Reportes
UN EJEMPLO EN DESARROLLO
CÁLCULO DE PROBABILIDADES DE
CANCELACIÓN o CHURN
23	
  
El Churn o cancelación
de clientes, se refiere a
la proporción
o tasa de clientes que
se van o dejan al
proveedor
de un servicio durante
un horizonte de tiempo
determinado.
	
  
El modelo de predicción
Churn busca identificar
los suscriptores con
alta probabilidad de
abandonar el servicio
en el futuro cercano , su
valor para el negocio y
los factores que la
causan, para así
tomar las acciones
correspondientes.
	
  
La cancelación de un
cliente siempre genera
pérdidas.
Es mas difícil y costoso
conseguir un nuevo
cliente que retenerlo.
	
  
Modelos de cancelación de clientes (Churn)
Cálculo de probabilidades de cancelación: identificación de clientes difíciles/mejoría en tasas de retención/atención
individualizada.
Modelos adaptados por categorías o segmentos de clientes para mejorar capacidad predictiva
Caracterización
de clientes
	
  
Identificación
de variables
y análisis
supervivencia
	
  
Identificación
de Grupos
de influencia
y redes sociales
	
  
Conocer cuáles son
las variables que más
influyen
Si probabilidad de
cancelación alta: cuál
es la probabilidad de
cancelación en 3
meses o 6 meses
	
  
A veces es relevante
conocer las redes
de interacción de clientes
§  Recuperables/
No recuperables
§  Probabilidad
de recuperación
	
  
Técnicas de análisis
UN EJEMPLO EN DESARROLLO
CÁLCULO DE PROBABILIDADES DE
CANCELACIÓN o CHURN
Esquema Modular Pentaho-Weka-R
Exploración: integración
Pentaho/Weka/R
•  Esquema modular
•  Mejor modelo
•  Segmentación previa
•  Análisis supervivencia
•  Análisis redes
	
  
	
  
Modelaje
Integración
Análisis
Exploratio
UN EJEMPLO EN DESARROLLO
CÁLCULO DE PROBABILIDADES DE
CANCELACIÓN o CHURN
Analítica Predictiva
Casos de estudio
Segmentación de clientes: información valiosa sub-utilizada
•  Datos históricos de fidelidad y consumo (RFM).
•  ¿Quién compra qué y cómo paga?
•  Campañas dirigidas/Nuevos productos
	
  
Detección de fraude: problema importante
con significativas implicaciones económicas y sociales
•  Detección de valores o patrones anómalos
•  Estrategias sofisticadas y variadas: difícil con Big Data
	
  
CASOS DE ESTUDIO
Empresa de telecomunicaciones
Data: varios millones de registros
con más de 350 atributos
Características
de clientes (forma de pago,
tecnología, localización
geográfica, planes,...)
Variables de uso:
agregados mensuales
de llamadas (entrantes
y salientes por operadora), mensajes
(entrantes y salientes
por operadora), volumen
de datos. Variables de consumo
	
  
Determinar la vigencia de planes
pre-existentes.
Mejorar el rendimiento del proceso
de mercadeo/ventas: mercadeo
dirigido.
Detectar nuevas necesidades
y targets
Proponer nuevos productos
u oportunidades de negocio
	
  
Preparando la Data
Muestreo inicial de la data:
Pentaho + hadoop
Exploración-determinación de
variables informativas: WEKA
Construcción de un modelo de
segmentación inicial: WEKA
Construyendo el modelo
Segmentación: k-medias (algoritmo
paralelizble usando hadoop map/
reducer)
Ajuste y selección del mejor modelo:
WEKA
Exportando el modelo: Knowledge
Flow plugins
Aplicando el modelo a toda la data:
PDI
Esquemas integrados en Pentaho
para análisis y reportes
	
  
SEGMENTACIÓN DE CLIENTES
Introducción
	
  
•  Segmentación automatizada:
Datos futuros
•  Aplicación de los modelos
sobre toda la base de
datos
	
  
•  	
  Exploración: datos pasados y
presentes
•  Descubrir relaciones entre
variables o entre individuos.
•  Determinar segmentos que
respondan a las expectativas
del negocio.
•  Descubrir cuáles son las
variables que determinan
ciertos comportamientos
•  Construcción de modelos de
segmentación apropiados
	
  
	
  
Integración
modelos
Map-Reduce
Creación del
Modelo base
(knowledge flow)
SEGMENTACIÓN DE CLIENTES
SEGMENTACIÓN DE CLIENTES
Soluciones
•  Análisis de probabilidades de clasificación
permite detectar casos confusos
•  Análisis de planes existentes
con segmentos identificados
	
  
Pentaho/Weka
•  Integración del segmentador al sistema de manejo de clientes permite
utilizar las herramientas de BI con esta nueva variable
•  Diseñar nuevas políticas de mercadeo y ventas
•  Mejora en eficiencia: mayor adaptabilidad a las necesidades reales de
clientes
No existen planes
adaptados para 14%
de clientes en pre-pago
con mayor consumo
	
  
Patrones de consumo
de 76% de clientes deben
canalizarse mejor. No hay
planes adecuados para
este grupo de clientes
mayoritario
	
  
Más de 90% de planes hechos
para menos de 10% de clientes
post-pago sin diferenciar
características
de consumo
	
  
Análisis y conclusiones	
  
Empresa de distribución masiva
Data: relaciones de ventas de
empresas revendedoras (varios
millones de clientes) a su
empresa matriz.
Datos diarios de ventas
Comportamiento estacional
marcado:
Variaciones interdiarias
Variaciones trimestrales
Tendencia creciente anual
	
  
Luego de un cambio de
plataforma tecnológica ocurrida
a final de abril 2007, la
empresa matriz sospecha que
una de las revendedoras está
“maquillando” los números.
Sin embargo dado el gran
volumen de datos se hace
difícil observar anomalías que
sólo se intuyen por una pérdida
en la masa global de las
ganancias reportadas.
	
  
Preparando la data:
Limpieza de datos: datos
faltantes
Eliminación de
tendencias: anuales,
trimestrales y diarios (por
día de la semana).
Construyendo el modelo:
Análisis exploratorio en R
Aplicación de
transformaciones
adecuadas.
Determinación de mecanismo
de fraude.
Estimación de pérdidas
generadas por el fraude
	
  
DETECCIÓN DE FRAUDE
Introducción
	
  
Diseño de
modelos
Solución a la
medida
Análisis exploratorio
Pentaho/R
Evaluación	
  del	
  
problema:	
  	
  
comprensión	
  del	
  
mecanismo	
  
de	
  fraude	
  y	
  es1mación	
  
de	
  pérdidas	
  
Exploración	
  y	
  creación	
  de	
  
una	
  transformación	
  
apropiada	
  de	
  los	
  datos	
  
para	
  determinación	
  
cuan1ta1va	
  de	
  fraude	
  
	
  
	
  
DETECCIÓN DE FRAUDE
Esquema PENTAHO-R
Soluciones
•  Fraude ocasionado por eliminación de
valores que sobrepasan un cierto umbral.
•  Las pérdidas estimadas se basan en la
relación entre las ganancias diarias y la
mediana.	
  
	
  
Pentaho/R
•  Solución a la medida
•  El ajuste monetario debido al
reconocimiento del fraude fue significativo.
	
  
Transformación
apropiada permite
análisis cuantitativo de
mecanismo de fraude
	
  
El análisis de los grupos
antes y después permite
hacer un cálculo de
ganancias no percibidas.	
  	
  
	
  
Análisis y conclusiones
DETECCIÓN DE FRAUDE
Arquitectura de un proyecto
ARQUITECTURA PENTAHO DATA MINING
Data warehouse
Pentaho Data Integration
•  Combinar/preparar data
•  Construir & guardar modelos de DM
•  Incluir modelos para Scoring & actualización
del DW con predicciones
Pentaho Data Mining (WEKA)
•  Exploración & preparación de data
•  Construir, probar y comparar modelos
Repositorio ETL
de transformación
Servidor Pentaho BA
•  Dashboards, reporting etc.	
  
•  Creación del repositorio:
•  Pre-procesamiento/calidad de data
•  Análisis descriptivo y predictivo:
•  Pre-procesamiento para análisis (grandes
volúmenes)
•  Análisis descriptivo/reducción de dimensiones
•  Creación y evaluación de modelos
•  Agregación y/o selección de modelos
•  Creación de modelos exportables Pentaho y/o
elaboración entregables
•  Creación reportes y dashboards en Pentaho
•  Ajustes
•  Análisis de efectividad
ARQUITECTURA DE UN PROYECTO
Recepción de
los Datos
Data QualityKick Off
Semana	
  0	
  
Semana	
  1	
  
Semana	
  2	
  
Semana	
  3	
  
Semana	
  4	
  –	
  Semana	
  N	
  
Pre-­‐procesamiento Análisis	
  DescripFvo	
  y	
  PredicFvo	
  
Creación	
  Modelo	
   Evaluación	
  Modelo	
   Exportación/Entregables	
  
Reportes	
  y	
  Dahboards	
   Ajustes	
  
Análisis	
  de	
  EfecFvidad	
  
Pentaho
+
Matrix Data Labs
SOLUCIONES A LA MEDIDA
	
  
SOPORTE
CONSULTORÍA
CAPACITACIÓN
SOLUCIONES INTEGRADAS
PENTAHO + BD + DM
EN SITIO OUTSOURCING SAAS
Herramienta flexible
•  Pentaho Business Analytics
•  Pentaho Data Mining 	
  	
  
Equipo multifacético
•  Analítica + BI
•  Big Data +PA
•  Científicos de datos
•  Web and text mining
	
  
PENTAHO + MATRIX DATA LABS
Matrix Data Labs , unidad de negocios de Matrix
CPM Solutions, nace en 2012 como una iniciativa
de Carenne, Carlos y sus equipos
de trabajo, convencidos del gran potencial
del desarrollo de esta área en la región.
Matrix Data Labs desarrolla proyectos con
tecnología de estado del arte en el área
de analítica predictiva, Big Data e integración
de información.
MATRIX CPM SOLUTIONS
•  Empresa fundada en Diciembre de 2005
•  Con oficinas en Venezuela y Colombia
•  Amplia experiencia en el desarrollo de modelos
de Inteligencia de Negocios.
•  “Pentaho Certified Partner” desde Enero 2007.
“Pentaho Gold Reseller” Febrero 2009. “Latin
American Partner of the Year 2008”. “Pentaho
Global Partner Award 2011; Reseller of the
Year”
•  “Infobright System Integrator & Reseller
Partner” desde Abril 2009
•  Cuenta con experiencia en soporte, consultoría
y capacitación en USA, México, República
Dominicana, Colombia, Venezuela, Bolivia,
Perú, Ecuador, El Salvador y Chile.
www.matrixcpmsolutions.com
contactos@matrixcpmsolutions.com
	
  
Carenne Ludeña cludena@matrixcpmsputions.com
Carlos Urgelles curgelles@matrixcpmsolutions.com
	
  

Contenu connexe

Tendances

Training Week: Introduction to Neo4j Aura Free
Training Week: Introduction to Neo4j Aura FreeTraining Week: Introduction to Neo4j Aura Free
Training Week: Introduction to Neo4j Aura Free
Neo4j
 

Tendances (20)

Aplicaciones de BI con Pentaho
Aplicaciones de BI con PentahoAplicaciones de BI con Pentaho
Aplicaciones de BI con Pentaho
 
Denodo: Enabling a Data Mesh Architecture and Data Sharing Culture at Landsba...
Denodo: Enabling a Data Mesh Architecture and Data Sharing Culture at Landsba...Denodo: Enabling a Data Mesh Architecture and Data Sharing Culture at Landsba...
Denodo: Enabling a Data Mesh Architecture and Data Sharing Culture at Landsba...
 
What is Enterprise Architecture?
What is Enterprise Architecture?What is Enterprise Architecture?
What is Enterprise Architecture?
 
Big Data Fundamentals
Big Data FundamentalsBig Data Fundamentals
Big Data Fundamentals
 
Training Week: Introduction to Neo4j Aura Free
Training Week: Introduction to Neo4j Aura FreeTraining Week: Introduction to Neo4j Aura Free
Training Week: Introduction to Neo4j Aura Free
 
Knowledge Graph for Machine Learning and Data Science
Knowledge Graph for Machine Learning and Data ScienceKnowledge Graph for Machine Learning and Data Science
Knowledge Graph for Machine Learning and Data Science
 
Componentes de Business Intelligence
Componentes de Business IntelligenceComponentes de Business Intelligence
Componentes de Business Intelligence
 
Enterprise Architecture vs. Data Architecture
Enterprise Architecture vs. Data ArchitectureEnterprise Architecture vs. Data Architecture
Enterprise Architecture vs. Data Architecture
 
Using an employee knowledge graph for employee engagement and career mobility
Using an employee knowledge graph for employee engagement and career mobilityUsing an employee knowledge graph for employee engagement and career mobility
Using an employee knowledge graph for employee engagement and career mobility
 
Enterprise Data Architecture Deliverables
Enterprise Data Architecture DeliverablesEnterprise Data Architecture Deliverables
Enterprise Data Architecture Deliverables
 
Enterprise Architecture for Dummies - TOGAF 9 enterprise architecture overview
Enterprise Architecture for Dummies - TOGAF 9 enterprise architecture overviewEnterprise Architecture for Dummies - TOGAF 9 enterprise architecture overview
Enterprise Architecture for Dummies - TOGAF 9 enterprise architecture overview
 
The Business Value of Metadata for Data Governance
The Business Value of Metadata for Data GovernanceThe Business Value of Metadata for Data Governance
The Business Value of Metadata for Data Governance
 
Enterprise Architecture - TOGAF Overview
Enterprise Architecture - TOGAF OverviewEnterprise Architecture - TOGAF Overview
Enterprise Architecture - TOGAF Overview
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Neo4j Graph Data Science - Webinar
Neo4j Graph Data Science - WebinarNeo4j Graph Data Science - Webinar
Neo4j Graph Data Science - Webinar
 
Introduction to data science
Introduction to data scienceIntroduction to data science
Introduction to data science
 
EA Intensive Course "Building Enterprise Architecture" by mr.danairat
EA Intensive Course "Building Enterprise Architecture" by mr.danairatEA Intensive Course "Building Enterprise Architecture" by mr.danairat
EA Intensive Course "Building Enterprise Architecture" by mr.danairat
 
ENEL Electricity Grids on Neo4j Graph DB
ENEL Electricity Grids on Neo4j Graph DBENEL Electricity Grids on Neo4j Graph DB
ENEL Electricity Grids on Neo4j Graph DB
 
Building a Data Strategy – Practical Steps for Aligning with Business Goals
Building a Data Strategy – Practical Steps for Aligning with Business GoalsBuilding a Data Strategy – Practical Steps for Aligning with Business Goals
Building a Data Strategy – Practical Steps for Aligning with Business Goals
 
DAS Slides: Building a Future-State Data Architecture Plan - Where to Begin?
DAS Slides: Building a Future-State Data Architecture Plan - Where to Begin?DAS Slides: Building a Future-State Data Architecture Plan - Where to Begin?
DAS Slides: Building a Future-State Data Architecture Plan - Where to Begin?
 

En vedette (8)

Data Mining
Data MiningData Mining
Data Mining
 
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de DatosData Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
 
Ejemplo d eun ejercicio en Weka
Ejemplo d eun ejercicio en WekaEjemplo d eun ejercicio en Weka
Ejemplo d eun ejercicio en Weka
 
Instalar PENTAHO 5 en CentOS 6
Instalar PENTAHO 5 en CentOS 6Instalar PENTAHO 5 en CentOS 6
Instalar PENTAHO 5 en CentOS 6
 
Elementos ETL - Kettle Pentaho
Elementos ETL - Kettle Pentaho Elementos ETL - Kettle Pentaho
Elementos ETL - Kettle Pentaho
 
Data mart
Data martData mart
Data mart
 
MongoDB & Machine Learning
MongoDB & Machine LearningMongoDB & Machine Learning
MongoDB & Machine Learning
 
Diseño Dimensional
Diseño DimensionalDiseño Dimensional
Diseño Dimensional
 

Similaire à Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

Similaire à Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining (20)

Programa Superior en Big Data
Programa Superior en Big DataPrograma Superior en Big Data
Programa Superior en Big Data
 
Análisis de Datos.pdf
Análisis de Datos.pdfAnálisis de Datos.pdf
Análisis de Datos.pdf
 
Presentacion A10 Big Data_Alteryx_Cloudera
Presentacion A10 Big Data_Alteryx_Cloudera Presentacion A10 Big Data_Alteryx_Cloudera
Presentacion A10 Big Data_Alteryx_Cloudera
 
BigData.pptx
BigData.pptxBigData.pptx
BigData.pptx
 
BigData.pptx
BigData.pptxBigData.pptx
BigData.pptx
 
Business intelligence (bi) y big data0
Business intelligence (bi) y big data0Business intelligence (bi) y big data0
Business intelligence (bi) y big data0
 
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
 
Big data con SQL Server 2014
Big data con SQL Server 2014Big data con SQL Server 2014
Big data con SQL Server 2014
 
Oracle bI(inteligencia de negocios)
Oracle bI(inteligencia de negocios)Oracle bI(inteligencia de negocios)
Oracle bI(inteligencia de negocios)
 
Big-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxBig-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptx
 
El MOOC de Business Intelligence de la UOC en MiriadaX
El MOOC de Business Intelligence de la UOC en MiriadaXEl MOOC de Business Intelligence de la UOC en MiriadaX
El MOOC de Business Intelligence de la UOC en MiriadaX
 
01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptx01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptx
 
H. Gomis y E. Cañizares. Herramientas BI : Elección y Buenas Prácticas. Seman...
H. Gomis y E. Cañizares. Herramientas BI : Elección y Buenas Prácticas. Seman...H. Gomis y E. Cañizares. Herramientas BI : Elección y Buenas Prácticas. Seman...
H. Gomis y E. Cañizares. Herramientas BI : Elección y Buenas Prácticas. Seman...
 
Aporte de los datos a la analítica en la transformación digital - (Mariano Mu...
Aporte de los datos a la analítica en la transformación digital - (Mariano Mu...Aporte de los datos a la analítica en la transformación digital - (Mariano Mu...
Aporte de los datos a la analítica en la transformación digital - (Mariano Mu...
 
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleoPonencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleo
 
Programa de Dirección en Big Data - IE Business School
Programa de Dirección en Big Data - IE Business School Programa de Dirección en Big Data - IE Business School
Programa de Dirección en Big Data - IE Business School
 
Programa de Dirección en Big Data - IE Business School
Programa de Dirección en Big Data - IE Business School Programa de Dirección en Big Data - IE Business School
Programa de Dirección en Big Data - IE Business School
 
Presentacion Metric Arts 2010
Presentacion Metric Arts 2010Presentacion Metric Arts 2010
Presentacion Metric Arts 2010
 
¿Cuál es el futuro de la estrategia de datos?
¿Cuál es el futuro de la estrategia de datos?¿Cuál es el futuro de la estrategia de datos?
¿Cuál es el futuro de la estrategia de datos?
 
Del Business Intelligence al Big Data
Del Business Intelligence al Big DataDel Business Intelligence al Big Data
Del Business Intelligence al Big Data
 

Plus de Pentaho

Improving the Business of Healthcare through Better Analytics
Improving the Business of Healthcare through Better Analytics Improving the Business of Healthcare through Better Analytics
Improving the Business of Healthcare through Better Analytics
Pentaho
 
Exclusive Verizon Employee Webinar: Getting More From Your CDR Data
Exclusive Verizon Employee Webinar: Getting More From Your CDR DataExclusive Verizon Employee Webinar: Getting More From Your CDR Data
Exclusive Verizon Employee Webinar: Getting More From Your CDR Data
Pentaho
 
Big Data Integration Webinar: Reducing Implementation Efforts of Hadoop, NoSQ...
Big Data Integration Webinar: Reducing Implementation Efforts of Hadoop, NoSQ...Big Data Integration Webinar: Reducing Implementation Efforts of Hadoop, NoSQ...
Big Data Integration Webinar: Reducing Implementation Efforts of Hadoop, NoSQ...
Pentaho
 
Big Data Integration Webinar: Getting Started With Hadoop Big Data
Big Data Integration Webinar: Getting Started With Hadoop Big DataBig Data Integration Webinar: Getting Started With Hadoop Big Data
Big Data Integration Webinar: Getting Started With Hadoop Big Data
Pentaho
 
Pentaho Healthcare Solutions
Pentaho Healthcare SolutionsPentaho Healthcare Solutions
Pentaho Healthcare Solutions
Pentaho
 
Pentaho Business Analytics for ISVs and SaaS providers in healthcare
Pentaho Business Analytics for ISVs and SaaS providers in healthcarePentaho Business Analytics for ISVs and SaaS providers in healthcare
Pentaho Business Analytics for ISVs and SaaS providers in healthcare
Pentaho
 

Plus de Pentaho (20)

Data Mashups for Analytics
Data Mashups for AnalyticsData Mashups for Analytics
Data Mashups for Analytics
 
Filling the Data Lake - Strata + HadoopWorld San Jose 2016 Preview Presentation
Filling the Data Lake - Strata + HadoopWorld San Jose 2016 Preview PresentationFilling the Data Lake - Strata + HadoopWorld San Jose 2016 Preview Presentation
Filling the Data Lake - Strata + HadoopWorld San Jose 2016 Preview Presentation
 
The Next Big Thing in Big Data
The Next Big Thing in Big DataThe Next Big Thing in Big Data
The Next Big Thing in Big Data
 
Big Data for Product Managers
Big Data for Product ManagersBig Data for Product Managers
Big Data for Product Managers
 
Big Data Predictions for 2015
Big Data Predictions for 2015 Big Data Predictions for 2015
Big Data Predictions for 2015
 
Competitive edgewithmongod bandpentaho_2014sep_v3[1]
Competitive edgewithmongod bandpentaho_2014sep_v3[1]Competitive edgewithmongod bandpentaho_2014sep_v3[1]
Competitive edgewithmongod bandpentaho_2014sep_v3[1]
 
Why Your Product Needs an Analytic Strategy
Why Your Product Needs an Analytic Strategy Why Your Product Needs an Analytic Strategy
Why Your Product Needs an Analytic Strategy
 
Data Is Your Next Product Opportunity
Data Is Your Next Product Opportunity Data Is Your Next Product Opportunity
Data Is Your Next Product Opportunity
 
Improving the Business of Healthcare through Better Analytics
Improving the Business of Healthcare through Better Analytics Improving the Business of Healthcare through Better Analytics
Improving the Business of Healthcare through Better Analytics
 
Up Your Analytics Game with Pentaho and Vertica
Up Your Analytics Game with Pentaho and Vertica Up Your Analytics Game with Pentaho and Vertica
Up Your Analytics Game with Pentaho and Vertica
 
Pentaho Analytics for MongoDB - presentation from MongoDB World 2014
Pentaho Analytics for MongoDB - presentation from MongoDB World 2014Pentaho Analytics for MongoDB - presentation from MongoDB World 2014
Pentaho Analytics for MongoDB - presentation from MongoDB World 2014
 
30 for 30: Quick Start Your Pentaho Evaluation
30 for 30: Quick Start Your Pentaho Evaluation30 for 30: Quick Start Your Pentaho Evaluation
30 for 30: Quick Start Your Pentaho Evaluation
 
Embedded Analytics in CRM and Marketing
Embedded Analytics in CRM and Marketing Embedded Analytics in CRM and Marketing
Embedded Analytics in CRM and Marketing
 
Embedded Analytics in Customer Success
Embedded Analytics in Customer SuccessEmbedded Analytics in Customer Success
Embedded Analytics in Customer Success
 
Embedded Analytics in Human Capital Management
Embedded Analytics in Human Capital ManagementEmbedded Analytics in Human Capital Management
Embedded Analytics in Human Capital Management
 
Exclusive Verizon Employee Webinar: Getting More From Your CDR Data
Exclusive Verizon Employee Webinar: Getting More From Your CDR DataExclusive Verizon Employee Webinar: Getting More From Your CDR Data
Exclusive Verizon Employee Webinar: Getting More From Your CDR Data
 
Big Data Integration Webinar: Reducing Implementation Efforts of Hadoop, NoSQ...
Big Data Integration Webinar: Reducing Implementation Efforts of Hadoop, NoSQ...Big Data Integration Webinar: Reducing Implementation Efforts of Hadoop, NoSQ...
Big Data Integration Webinar: Reducing Implementation Efforts of Hadoop, NoSQ...
 
Big Data Integration Webinar: Getting Started With Hadoop Big Data
Big Data Integration Webinar: Getting Started With Hadoop Big DataBig Data Integration Webinar: Getting Started With Hadoop Big Data
Big Data Integration Webinar: Getting Started With Hadoop Big Data
 
Pentaho Healthcare Solutions
Pentaho Healthcare SolutionsPentaho Healthcare Solutions
Pentaho Healthcare Solutions
 
Pentaho Business Analytics for ISVs and SaaS providers in healthcare
Pentaho Business Analytics for ISVs and SaaS providers in healthcarePentaho Business Analytics for ISVs and SaaS providers in healthcare
Pentaho Business Analytics for ISVs and SaaS providers in healthcare
 

Dernier

Modulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfModulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdf
AnnimoUno1
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
FagnerLisboa3
 

Dernier (11)

pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
 
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdfRefrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
Modulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfModulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdf
 
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxEL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 

Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

  • 1. Análisis Predictivo con Pentaho Data Mining Buscando modelos más allá de la analítica
  • 2. Carenne Ludeña. DATA SCIENTIST •  Presentación •  Analítica Predictiva (PA): •  ¿Qué?, ¿Dónde?, ¿Cuándo? •  Realidades Cambiantes: PA y Big Data •  El “Data Science Team” •  Tendencias, mitos y realidades •  PA, Big Data y Pentaho •  Weka-R •  Integración (PDI) •  Un caso en desarrollo: predicción de Churn •  Dos casos de estudio •  Arquitectura de un proyecto •  Pentaho + Matrix DataLabs
  • 3. Presentador Jose L. Camara Channel Manager LATAM / Pentaho Jose has more than 15 years of experience in sales, distribution, consulting and support of Business Intelligence and Data Integration Solutions. Jose has been involved in different types of projects like Data Warehouse, Data Cleansing, Data Governance, Data Consolidation, Master Data Management, OLAP Analysis, Predictive Analysis and Business Intelligence with customers such as General Electric, Merrill Lynch, Nike, BBVA Bancomer, Santander, Martí, Elektra, Banco de Costa Rica, Cemex, Telmex, Lime Communications and some others providing hundreds of thousand of dollars in savings during the implementation of these projects. Currently José works for Pentaho as a Channel Manager for Latin America
  • 4. LOS EXPOSITORES Carlos Urgelles DATA SCIENTIST   Carenne Ludeña DATA SCIENTIST   Carenne es Científica de Datos e investigadora en matemática estadística. Luego de su doctorado en la Universidad de Orsay (Francia), trabajó durante 15 años en el Instituto Venezolano de Investigaciones Científicas y es Coordinadora de la maestría de Modelos Aleatorios de la Universidad Central de Venezuela. Combina sus intereses académicos con desarrollo de aplicaciones en petróleo, salud, finanzas y telecomunicaciones. Es experta en minería de datos y el uso de R y Weka. En 2011 fue galardonada con el premio de la Fundación Empresas Polar, una de las distinciones científicas más importantes de Venezuela. Carlos tiene más de 20 años de experiencia en consultaría de desarrollo de sistemas de información especializados en el área de Inteligencia de Negocios. Se ha desempeñado como consultor, líder técnico, gerente de proyectos y ventas. Posee más de 50 proyectos implantados en 7 paises y en áreas que incluyen ventas, finanzas, consolidación y planificación financiera, logística e inventarios. Con muchas horas de cursos dictados en su haber, en los 90 hizo la labor de evangelización de BI en Latinoamérica y ha sido una gran promotor de Pentaho en la región. Es un emprendedor de proyectos relacionados con BI.
  • 5. ANALÍTICA PREDICTIVA ¿QUÉ, CUÁNDO Y DÓNDE? Es un término que engloba una serie de técnicas, algoritmos y procedimientos para la extracción de patrones subyacentes en la data. Estos patrones permiten descubrir, predecir, entender y explicar.   Caterpillar  Inc.  reduced  rota1ng   machinery  anomalies  by  nearly  45   percent,  thanks  to  improvents  delivered   bydata-­‐mining  methods.   Predicting Quality Outcomes Through Data Mining
  • 6. APLICACIO NES APLICACIONES Sector     público   Energía   Tele- comunicaciones Retail  Petróleo   Salud   Banca     Y    aseguradoras   Mercadeo E-gobierno Producción/Distribución Churn Atención individualizadaControl automatizado Historias automatizadas Modelos de riesgo Detección de fraude Campañas dirigidas
  • 7. •  Cada día hay más datos •  Se requieren respuestas en tiempo real •  Muchos negocios: atención individualizada del clientes •  Control de Calidad de datos •  Mercados competidos: atracción de nuevos clientes y diseño de nuevos productos •  Tecnología que evoluciona rápidamente •  En conclusión: ¡más y más rápido!   REALIDADES CAMBIANTES
  • 8. BA en un punto de inflexión 8   (Gartner,  December  2011)   “The proliferation of data has caused enterprises to need new tools and processes to collect data (both structured and unstructured) and to store, manage, manipulate, analyze, aggregate, combine, and integrate data. ”  J|M|P  Securi1es,  Big  Data  and  How  BI  Got  Its  Groove  Back,  Nov.  2011      (IDC  Digital  Universe  Study,  June  2011)                   40 35 30 25 20 15 10 5 0 2005 2010 2015 2020 ZB    (IDC  Digital  Universe  Study,  June  2011)                   Estas realidades cambiantes ponen a prueba las herramientas clásicas de BI
  • 9. •  Fenómeno Big Data: • Volumen • Variedad • Velocidad • Veracidad •  Se requiere poder extraer, procesar y almacenar grandes volúmenes de datos en tiempo real •  Aplicaciones de algoritmos de alta demanda de tiempo y memoria •  Imperativo: mecanismos eficientes para pre-procesamiento y análisis de datos •  Nuevas tecnologías de extracción, capacidad de almacenamiento y análisis implican nuevas tendencias en el manejo de información   ANALÍTICA PREDICTIVA Y BIG DATA
  • 10. BIG DATA / NUEVAS TENDENCIAS Variedad y volumen: Bases de datos no estructuradas Web mining Crawling de redes sociales Text mining Spatial data mining …  
  • 11. DE MINERÍA DE DATOS AL DATA SCIENCE TEAM •  Ahora es un trabajo de equipo •  Manejo, extracción y análisis de la información, tarea compleja •  Se requiere de especialistas capaces de trabajar en conjunto •  Tendencia de grandes empresas y empresas de BI alrededor del mundo •  Data Science Team (DST): •  Ingenieros de datos (manejo y extracción de información) •  Analistas de datos •  Estadísticos •  Expertos en fraude y calidad de datos •  No es siempre posible crear un DST. Opciones: • Tercerización • Consultoría  
  • 12. ANALÍTICA PREDICTIVA EN CIFRAS Empresas líderes y su relación con Big Data Fuente: Estudio Aberdeen 2013 Los líderes aumentan su tendencia a seguirlo siendo por su incremento en el uso de habilidades asociadas al uso inteligente de la información.   Keeping Up with Customers – Dynamic Behavior Profiles  
  • 13. Pedictive Analytics Fuente: Estudio Aberdeen 2013 Dynamic Offers Drive Perfomance   ANALÍTICA PREDICTIVA EN CIFRAS
  • 14. LAS EMPRESAS LÍDERES Y ADOPCIÓN DE ESTRATEGIAS DE AP Hug a Geek- State of IT/Marketing Alignment   Predictive Value – Best-in-Class Adoption of Data Analytics Technologies for Marketing   Los líderes invierten más en tecnología y los que invierten más son líderes. La mayor inversión de las empresas líderes es en Analítica Predictiva.  
  • 15. CIFRAS EN AMÉRICA LATINA Inversión en BD/PA a nivel mundial   Median Spending per company on Big Data in 2012- by country   Percentage of Companies whose Big Data initiatives have Improved Decision-Making   Inversión baja, pero alto impacto
  • 16. MITOS •  Es interesante pero demasiado costoso para mi empresa •  Para poder hacer analítica predictiva o minería de datos es necesario invertir en la compra de software especializado •  Es necesario contar con personal calificado y entrenado y mi empresa no puede costear este gasto •  El tipo de información que se obtiene de la aplicación de este tipo de técnicas la sabe de todos modos el que “sabe del negocio” •  En conclusión: no vale la pena  
  • 17. REALIDADES •  Existen “soluciones a la medida”. •  Una intervención puntual puede resolver un problema importante •  La inversión en software depende de las necesidades de la empresa •  Pueden implementarse soluciones “llave en mano” •  La instalación de DST es un proceso gradual y no es necesario en todos los casos •  “El que sabe del negocio” tiene una visión intuitiva importante. Sin embargo, esta información es: •  Intransferible y no automatizable •  Ineficiente al aumentar el volumen del negocio •  Incompleta •  Uso inteligente de la información= más y mejores negocios  
  • 18. Data Mining, Big Data y Pentaho
  • 19. •  Apoyo en todo el proceso de exploración y construcción de modelos Pre-procesamiento de datos Evaluación y comparación estadística de modelos Exploración gráfica de datos e interfaces gráficas para visualización y comparación de modelos •  Herramientas y Algoritmos 69 (y aumentando) herramientas (filtros) para pre-procesamiento 118 (y aumentando) algoritmos de clasificación/regresión 11 (y aumentando) algoritmos de agrupamiento 18 evaluadores para atributos más informativos+ 12 algoritmos de búsqueda 6 algoritmos de reglas de asociación •  Interfaces Explorer – exploración, visualización y procesamiento de data. Construcción, evalución preliminar y exportación de modelos. Experimenter – Comparación en gran escala de algoritmos usando pruebas estadísticas para determinación de diferencias significativas en modelos. KnowledgeFlow – minería de datos como procesos. Exportación de modelos/procesos. •  Integración a la suite Pentaho   PENTAHO DATA MINING (AKA WEKA)
  • 20. BIG DATA Y PENTAHO 20   •  Incorporación de información en formato no tradicional y manejo eficiente de grandes volúmenes de datos: bases de datos no estructuradas integradas a Pentaho •  Algunos ejemplos •  Extracción grandes volúmenes (Teras) Haddop/ Hive/ Pentaho •  Web mining y crawling de redes sociales: extracción y almacenamiento en NoSQL
  • 21. Integración de procesos en PDI   R/ PDM (WEKA)   Procesamiento Big Data   BIG DATA, PDM, R, PENTAHO BA
  • 22. EXTRACCIÓN+PROCESAMIENTO+REPORTING 22   Análisis/predicción/integración •  Exploración •  Descubrimiento •  Modelaje y predicción     Gerencia para la toma de decisiones •  Visualización y exploración •  Tableros/Índices •  Seguimiento interactivo del negocio     •  Uso versátil de la información •  Facilidad •  Velocidad •  Flexibilidad     Extracción Procesamiento Reportes
  • 23. UN EJEMPLO EN DESARROLLO CÁLCULO DE PROBABILIDADES DE CANCELACIÓN o CHURN 23   El Churn o cancelación de clientes, se refiere a la proporción o tasa de clientes que se van o dejan al proveedor de un servicio durante un horizonte de tiempo determinado.   El modelo de predicción Churn busca identificar los suscriptores con alta probabilidad de abandonar el servicio en el futuro cercano , su valor para el negocio y los factores que la causan, para así tomar las acciones correspondientes.   La cancelación de un cliente siempre genera pérdidas. Es mas difícil y costoso conseguir un nuevo cliente que retenerlo.   Modelos de cancelación de clientes (Churn) Cálculo de probabilidades de cancelación: identificación de clientes difíciles/mejoría en tasas de retención/atención individualizada. Modelos adaptados por categorías o segmentos de clientes para mejorar capacidad predictiva
  • 24. Caracterización de clientes   Identificación de variables y análisis supervivencia   Identificación de Grupos de influencia y redes sociales   Conocer cuáles son las variables que más influyen Si probabilidad de cancelación alta: cuál es la probabilidad de cancelación en 3 meses o 6 meses   A veces es relevante conocer las redes de interacción de clientes §  Recuperables/ No recuperables §  Probabilidad de recuperación   Técnicas de análisis UN EJEMPLO EN DESARROLLO CÁLCULO DE PROBABILIDADES DE CANCELACIÓN o CHURN
  • 25. Esquema Modular Pentaho-Weka-R Exploración: integración Pentaho/Weka/R •  Esquema modular •  Mejor modelo •  Segmentación previa •  Análisis supervivencia •  Análisis redes     Modelaje Integración Análisis Exploratio UN EJEMPLO EN DESARROLLO CÁLCULO DE PROBABILIDADES DE CANCELACIÓN o CHURN
  • 27. Segmentación de clientes: información valiosa sub-utilizada •  Datos históricos de fidelidad y consumo (RFM). •  ¿Quién compra qué y cómo paga? •  Campañas dirigidas/Nuevos productos   Detección de fraude: problema importante con significativas implicaciones económicas y sociales •  Detección de valores o patrones anómalos •  Estrategias sofisticadas y variadas: difícil con Big Data   CASOS DE ESTUDIO
  • 28. Empresa de telecomunicaciones Data: varios millones de registros con más de 350 atributos Características de clientes (forma de pago, tecnología, localización geográfica, planes,...) Variables de uso: agregados mensuales de llamadas (entrantes y salientes por operadora), mensajes (entrantes y salientes por operadora), volumen de datos. Variables de consumo   Determinar la vigencia de planes pre-existentes. Mejorar el rendimiento del proceso de mercadeo/ventas: mercadeo dirigido. Detectar nuevas necesidades y targets Proponer nuevos productos u oportunidades de negocio   Preparando la Data Muestreo inicial de la data: Pentaho + hadoop Exploración-determinación de variables informativas: WEKA Construcción de un modelo de segmentación inicial: WEKA Construyendo el modelo Segmentación: k-medias (algoritmo paralelizble usando hadoop map/ reducer) Ajuste y selección del mejor modelo: WEKA Exportando el modelo: Knowledge Flow plugins Aplicando el modelo a toda la data: PDI Esquemas integrados en Pentaho para análisis y reportes   SEGMENTACIÓN DE CLIENTES Introducción  
  • 29. •  Segmentación automatizada: Datos futuros •  Aplicación de los modelos sobre toda la base de datos   •   Exploración: datos pasados y presentes •  Descubrir relaciones entre variables o entre individuos. •  Determinar segmentos que respondan a las expectativas del negocio. •  Descubrir cuáles son las variables que determinan ciertos comportamientos •  Construcción de modelos de segmentación apropiados     Integración modelos Map-Reduce Creación del Modelo base (knowledge flow) SEGMENTACIÓN DE CLIENTES
  • 30. SEGMENTACIÓN DE CLIENTES Soluciones •  Análisis de probabilidades de clasificación permite detectar casos confusos •  Análisis de planes existentes con segmentos identificados   Pentaho/Weka •  Integración del segmentador al sistema de manejo de clientes permite utilizar las herramientas de BI con esta nueva variable •  Diseñar nuevas políticas de mercadeo y ventas •  Mejora en eficiencia: mayor adaptabilidad a las necesidades reales de clientes No existen planes adaptados para 14% de clientes en pre-pago con mayor consumo   Patrones de consumo de 76% de clientes deben canalizarse mejor. No hay planes adecuados para este grupo de clientes mayoritario   Más de 90% de planes hechos para menos de 10% de clientes post-pago sin diferenciar características de consumo   Análisis y conclusiones  
  • 31. Empresa de distribución masiva Data: relaciones de ventas de empresas revendedoras (varios millones de clientes) a su empresa matriz. Datos diarios de ventas Comportamiento estacional marcado: Variaciones interdiarias Variaciones trimestrales Tendencia creciente anual   Luego de un cambio de plataforma tecnológica ocurrida a final de abril 2007, la empresa matriz sospecha que una de las revendedoras está “maquillando” los números. Sin embargo dado el gran volumen de datos se hace difícil observar anomalías que sólo se intuyen por una pérdida en la masa global de las ganancias reportadas.   Preparando la data: Limpieza de datos: datos faltantes Eliminación de tendencias: anuales, trimestrales y diarios (por día de la semana). Construyendo el modelo: Análisis exploratorio en R Aplicación de transformaciones adecuadas. Determinación de mecanismo de fraude. Estimación de pérdidas generadas por el fraude   DETECCIÓN DE FRAUDE Introducción  
  • 32. Diseño de modelos Solución a la medida Análisis exploratorio Pentaho/R Evaluación  del   problema:     comprensión  del   mecanismo   de  fraude  y  es1mación   de  pérdidas   Exploración  y  creación  de   una  transformación   apropiada  de  los  datos   para  determinación   cuan1ta1va  de  fraude       DETECCIÓN DE FRAUDE Esquema PENTAHO-R
  • 33. Soluciones •  Fraude ocasionado por eliminación de valores que sobrepasan un cierto umbral. •  Las pérdidas estimadas se basan en la relación entre las ganancias diarias y la mediana.     Pentaho/R •  Solución a la medida •  El ajuste monetario debido al reconocimiento del fraude fue significativo.   Transformación apropiada permite análisis cuantitativo de mecanismo de fraude   El análisis de los grupos antes y después permite hacer un cálculo de ganancias no percibidas.       Análisis y conclusiones DETECCIÓN DE FRAUDE
  • 34. Arquitectura de un proyecto
  • 35. ARQUITECTURA PENTAHO DATA MINING Data warehouse Pentaho Data Integration •  Combinar/preparar data •  Construir & guardar modelos de DM •  Incluir modelos para Scoring & actualización del DW con predicciones Pentaho Data Mining (WEKA) •  Exploración & preparación de data •  Construir, probar y comparar modelos Repositorio ETL de transformación Servidor Pentaho BA •  Dashboards, reporting etc.  
  • 36. •  Creación del repositorio: •  Pre-procesamiento/calidad de data •  Análisis descriptivo y predictivo: •  Pre-procesamiento para análisis (grandes volúmenes) •  Análisis descriptivo/reducción de dimensiones •  Creación y evaluación de modelos •  Agregación y/o selección de modelos •  Creación de modelos exportables Pentaho y/o elaboración entregables •  Creación reportes y dashboards en Pentaho •  Ajustes •  Análisis de efectividad ARQUITECTURA DE UN PROYECTO Recepción de los Datos Data QualityKick Off Semana  0   Semana  1   Semana  2   Semana  3   Semana  4  –  Semana  N   Pre-­‐procesamiento Análisis  DescripFvo  y  PredicFvo   Creación  Modelo   Evaluación  Modelo   Exportación/Entregables   Reportes  y  Dahboards   Ajustes   Análisis  de  EfecFvidad  
  • 38. SOLUCIONES A LA MEDIDA   SOPORTE CONSULTORÍA CAPACITACIÓN SOLUCIONES INTEGRADAS PENTAHO + BD + DM EN SITIO OUTSOURCING SAAS Herramienta flexible •  Pentaho Business Analytics •  Pentaho Data Mining     Equipo multifacético •  Analítica + BI •  Big Data +PA •  Científicos de datos •  Web and text mining   PENTAHO + MATRIX DATA LABS
  • 39. Matrix Data Labs , unidad de negocios de Matrix CPM Solutions, nace en 2012 como una iniciativa de Carenne, Carlos y sus equipos de trabajo, convencidos del gran potencial del desarrollo de esta área en la región. Matrix Data Labs desarrolla proyectos con tecnología de estado del arte en el área de analítica predictiva, Big Data e integración de información.
  • 40. MATRIX CPM SOLUTIONS •  Empresa fundada en Diciembre de 2005 •  Con oficinas en Venezuela y Colombia •  Amplia experiencia en el desarrollo de modelos de Inteligencia de Negocios. •  “Pentaho Certified Partner” desde Enero 2007. “Pentaho Gold Reseller” Febrero 2009. “Latin American Partner of the Year 2008”. “Pentaho Global Partner Award 2011; Reseller of the Year” •  “Infobright System Integrator & Reseller Partner” desde Abril 2009 •  Cuenta con experiencia en soporte, consultoría y capacitación en USA, México, República Dominicana, Colombia, Venezuela, Bolivia, Perú, Ecuador, El Salvador y Chile.
  • 41. www.matrixcpmsolutions.com contactos@matrixcpmsolutions.com   Carenne Ludeña cludena@matrixcpmsputions.com Carlos Urgelles curgelles@matrixcpmsolutions.com