1. Minería de datos
Dr. Francisco J. Mata
1
Introducción a laIntroducción a la
minería de datosminería de datos
Tema 1Tema 1
2. 2
Minería de datos
Dr. Francisco J. Mata
TemarioTemario
¿Qué es minería de datos?¿Qué es minería de datos?
¿Quién usa minería de datos?¿Quién usa minería de datos?
¿Por qué de la minería de datos?¿Por qué de la minería de datos?
Ciclo virtuoso de la minería de datosCiclo virtuoso de la minería de datos
Resumen de principales técnicas de minería deResumen de principales técnicas de minería de
datosdatos
3. 3
Minería de datos
Dr. Francisco J. Mata
Definición de minería de datosDefinición de minería de datos
Minería de datos es la exploración y análisis deMinería de datos es la exploración y análisis de
grandes cantidades de datos con el objeto degrandes cantidades de datos con el objeto de
encontrar patrones y reglas significativasencontrar patrones y reglas significativas
(conocimiento)(conocimiento)
4. 4
Minería de datos
Dr. Francisco J. Mata
Metas de la minería de datosMetas de la minería de datos
Permitir a una organización MEJORAR _____Permitir a una organización MEJORAR _____
a través de un mejor CONOCIMIENTO dea través de un mejor CONOCIMIENTO de
______________
Mejorar la ventaja competitivaMejorar la ventaja competitiva
5. 5
Minería de datos
Dr. Francisco J. Mata
La minería de datos es un campoLa minería de datos es un campo
multidisciplinariomultidisciplinario
Minería de datos
Inteligencia
Artificial
(“Machine
Learning”)
Estadística
Bases de
Datos
(VLDB)
Graficación y
visualización
Ciencias de
la información
Otras
disciplinas
6. 6
Minería de datos
Dr. Francisco J. Mata
La minería de datos es un subconjunto deLa minería de datos es un subconjunto de
la inteligencia de negociosla inteligencia de negocios
7. 7
Minería de datos
Dr. Francisco J. Mata
Minería de datosMinería de datos
Proceso de utilizar datos “crudos” para inferirProceso de utilizar datos “crudos” para inferir
importantes relaciones entre ellosimportantes relaciones entre ellos
Colección de técnicas poderosas para analizar grandesColección de técnicas poderosas para analizar grandes
volúmenes de datosvolúmenes de datos
No existe un solo enfoque para minería de datos sinoNo existe un solo enfoque para minería de datos sino
un conjunto de técnicas que se pueden utilizar deun conjunto de técnicas que se pueden utilizar de
manera independiente o en combinaciónmanera independiente o en combinación
Existe una relación con la estadística, aunqueExiste una relación con la estadística, aunque
frecuentemente se separan las técnicas que no estánfrecuentemente se separan las técnicas que no están
basadas en métodos estadísticosbasadas en métodos estadísticos
8. 8
Minería de datos
Dr. Francisco J. Mata
Tipos de aplicaciones de la mineríaTipos de aplicaciones de la minería
de datosde datos
Aplicaciones o problemas de minería de datosAplicaciones o problemas de minería de datos
pueden clasificarse en las siguientes categoríaspueden clasificarse en las siguientes categorías
ClasificaciónClasificación
EstimaciónEstimación
PronósticoPronóstico
AsociaciónAsociación
Agrupación o segmentaciónAgrupación o segmentación
9. 9
Minería de datos
Dr. Francisco J. Mata
ClasificaciónClasificación
Examinar las características de un nuevo objetoExaminar las características de un nuevo objeto
y asignarle una clase o categoría de acuerdo a uny asignarle una clase o categoría de acuerdo a un
conjunto de tales objetos previamente definidoconjunto de tales objetos previamente definido
Ejemplos:Ejemplos:
Clasificar aplicaciones a crédito como bajo, medio yClasificar aplicaciones a crédito como bajo, medio y
alto riesgoalto riesgo
Detectar reclamos fraudulentos de segurosDetectar reclamos fraudulentos de seguros
10. 10
Minería de datos
Dr. Francisco J. Mata
EstimaciónEstimación
Relacionado con clasificaciónRelacionado con clasificación
Mientras clasificación asigna un valor discreto,Mientras clasificación asigna un valor discreto,
estimación produce un valor continuoestimación produce un valor continuo
Ejemplos:Ejemplos:
Estimar el precio de una viviendaEstimar el precio de una vivienda
Estimar el ingreso total de una familiaEstimar el ingreso total de una familia
11. 11
Minería de datos
Dr. Francisco J. Mata
PronósticoPronóstico
Predecir un valor futuro con base a valoresPredecir un valor futuro con base a valores
pasadospasados
Ejemplos:Ejemplos:
Predecir cuánto efectivo requerirá un cajeroPredecir cuánto efectivo requerirá un cajero
automático en un fin de semanaautomático en un fin de semana
12. 12
Minería de datos
Dr. Francisco J. Mata
AsociaciónAsociación
Determinar cosas u objetos que van juntosDeterminar cosas u objetos que van juntos
Ejemplo:Ejemplo:
Determinar que productos se adquierenDeterminar que productos se adquieren
conjuntamente en un supermercadoconjuntamente en un supermercado
13. 13
Minería de datos
Dr. Francisco J. Mata
Agrupación o segmentaciónAgrupación o segmentación
Dividir una población en un número de gruposDividir una población en un número de grupos
más homogéneosmás homogéneos
No depende de clases pre-definidas a diferenciaNo depende de clases pre-definidas a diferencia
de clasificaciónde clasificación
Ejemplo:Ejemplo:
Dividir la base de clientes de acuerdo con los hábitosDividir la base de clientes de acuerdo con los hábitos
de consumode consumo
14. 14
Minería de datos
Dr. Francisco J. Mata
Usos de la minería de datosUsos de la minería de datos
Administración de la relación con los clientes:Administración de la relación con los clientes:
Identificar nuevos clientes potenciales para aumentarIdentificar nuevos clientes potenciales para aumentar
ventasventas
Ampliar la base de cliente con la mínima inversiónAmpliar la base de cliente con la mínima inversión
por parte de la empresapor parte de la empresa
Retener clientes existentes evitando que se vayan a laRetener clientes existentes evitando que se vayan a la
competencia (“attrition”)competencia (“attrition”)
Vender más a clientes existentes (“ventas cruzadas”)Vender más a clientes existentes (“ventas cruzadas”)
15. 15
Minería de datos
Dr. Francisco J. Mata
Usos de la minería de datosUsos de la minería de datos
Detección de fraudes en el uso de tarjetas deDetección de fraudes en el uso de tarjetas de
créditocrédito
Determinar patrones que puedan estarDeterminar patrones que puedan estar
relacionados con lavado de dinerorelacionados con lavado de dinero
Determinar el precio de una casa con base enDeterminar el precio de una casa con base en
sus características y el precio de otras casassus características y el precio de otras casas
vendidasvendidas
16. 16
Minería de datos
Dr. Francisco J. Mata
Ejercicio en gruposEjercicio en grupos
Equipos: 3 personas máximoEquipos: 3 personas máximo
Objetivos:Objetivos:
Identificar situaciones concretas para utilizar laIdentificar situaciones concretas para utilizar la
minería de datos (10 minutos)minería de datos (10 minutos)
Reportar a la clase verbalmente (3 minutos)Reportar a la clase verbalmente (3 minutos)
Las situaciones identificadasLas situaciones identificadas
Tipo de aplicación o problema de minería de datosTipo de aplicación o problema de minería de datos
relacionadorelacionado
Los beneficios esperados de aplicar la minería de datosLos beneficios esperados de aplicar la minería de datos
17. 17
Minería de datos
Dr. Francisco J. Mata
Usos de la minería de datosUsos de la minería de datos
Usos de la minería de datos se han ampliado conUsos de la minería de datos se han ampliado con
el comercio electrónicoel comercio electrónico
19. 19
Minería de datos
Dr. Francisco J. Mata
Disponibilidad de datos deDisponibilidad de datos de
transaccionestransacciones
20. 20
Minería de datos
Dr. Francisco J. Mata
¿Por qué de la minería de datos?¿Por qué de la minería de datos?
Datos se encuentran disponiblesDatos se encuentran disponibles
Poder computacional es cada vez menos costosoPoder computacional es cada vez menos costoso
Las presiones competitivas son enormesLas presiones competitivas son enormes
Software para minería de datos se encuentraSoftware para minería de datos se encuentra
disponibledisponible
21. 21
Minería de datos
Dr. Francisco J. Mata
Ciclo virtuoso de la minería de datosCiclo virtuoso de la minería de datos
22. 22
Minería de datos
Dr. Francisco J. Mata
Principales técnicas de minería dePrincipales técnicas de minería de
datosdatos
Análisis de canasta de supermercadoAnálisis de canasta de supermercado
K vecinos más cercanosK vecinos más cercanos
Detección de gruposDetección de grupos
Análisis de encadenamientoAnálisis de encadenamiento
Árboles de decisiónÁrboles de decisión
Redes neuronales artificialesRedes neuronales artificiales
Algoritmos genéticosAlgoritmos genéticos
23. 23
Minería de datos
Dr. Francisco J. Mata
Resumen técnicas de minería deResumen técnicas de minería de
datosdatos
Análisis de canasta de supermercadoAnálisis de canasta de supermercado
Agrupar objetos que aparecen juntosAgrupar objetos que aparecen juntos
Ejemplos:Ejemplos:
Pañales y cervezasPañales y cervezas
24. 24
Minería de datos
Dr. Francisco J. Mata
Resumen técnicas de minería deResumen técnicas de minería de
datosdatos
K vecinos más cercanosK vecinos más cercanos
Determinar los K vecinos más cercanos en instanciasDeterminar los K vecinos más cercanos en instancias
conocidos con el objeto de clasificar o hacer unaconocidos con el objeto de clasificar o hacer una
predicción sobre una instancia desconocidapredicción sobre una instancia desconocida
Ejemplo: Dado un reclamo para un seguroEjemplo: Dado un reclamo para un seguro
determinar basado en reclamos similares (vecinos) sideterminar basado en reclamos similares (vecinos) si
se debe pagar o investigarse debe pagar o investigar
25. 25
Minería de datos
Dr. Francisco J. Mata
Resumen técnicas de minería deResumen técnicas de minería de
datosdatos
Detección de gruposDetección de grupos
Encontrar objetos similares entre síEncontrar objetos similares entre sí
Ejemplos: tipificar clases de clientesEjemplos: tipificar clases de clientes
26. 26
Minería de datos
Dr. Francisco J. Mata
Resumen técnicas de minería deResumen técnicas de minería de
datosdatos
Análisis de encadenamientoAnálisis de encadenamiento
Encuentra relaciones entre objetos de acuerdo conEncuentra relaciones entre objetos de acuerdo con
patronespatrones
Relacionado con la teoría de grafosRelacionado con la teoría de grafos
Ejemplos:Ejemplos:
Relaciones entre individuos basados en llamadasRelaciones entre individuos basados en llamadas
telefónicastelefónicas
Relaciones entre casos criminales de acuerdo con susRelaciones entre casos criminales de acuerdo con sus
característicascaracterísticas
27. 27
Minería de datos
Dr. Francisco J. Mata
Resumen técnicas de minería deResumen técnicas de minería de
datosdatos
Árboles de decisiónÁrboles de decisión
Dividir objetos en grupos asociando reglas para laDividir objetos en grupos asociando reglas para la
asignación de los objetos en su correspondienteasignación de los objetos en su correspondiente
grupogrupo
Ejemplos: determinar el sexo o grupo de edad deEjemplos: determinar el sexo o grupo de edad de
una persona en función a una serie de preguntasuna persona en función a una serie de preguntas
contestadascontestadas
28. 28
Minería de datos
Dr. Francisco J. Mata
Resumen técnicas de minería deResumen técnicas de minería de
datosdatos
Redes neuronales artificialesRedes neuronales artificiales
Más común de las técnicas y para algunos sinónimoMás común de las técnicas y para algunos sinónimo
de minería de datosde minería de datos
Modelos simples de interconexiones neuronales en elModelos simples de interconexiones neuronales en el
cerebro que aprenden de un conjunto decerebro que aprenden de un conjunto de
adiestramiento y generalizan patrones dentro de éladiestramiento y generalizan patrones dentro de él
con el objeto de clasificar, estimar o predecircon el objeto de clasificar, estimar o predecir
Ejemplo: estimar el valor de una casa tomando enEjemplo: estimar el valor de una casa tomando en
cuenta el precio pagado por casas similarescuenta el precio pagado por casas similares
29. 29
Minería de datos
Dr. Francisco J. Mata
Resumen técnicas de minería deResumen técnicas de minería de
datosdatos
Algoritmos genéticosAlgoritmos genéticos
Aplican la mecánica de la genética y la selecciónAplican la mecánica de la genética y la selección
natural para encontrar un conjunto de parámetrosnatural para encontrar un conjunto de parámetros
óptimos para una función predictivaóptimos para una función predictiva
Utilizados para entrenar redes neuronales artificialesUtilizados para entrenar redes neuronales artificiales
30. 30
Minería de datos
Dr. Francisco J. Mata
Resumen técnicas de minería deResumen técnicas de minería de
datosdatos
Técnicas mencionadas pueden utilizarse en variasTécnicas mencionadas pueden utilizarse en varias
aplicaciones o problemas de minería de datosaplicaciones o problemas de minería de datos
Ejemplo: árboles de decisión sirven para detectar grupos,Ejemplo: árboles de decisión sirven para detectar grupos,
clasificar y predecirclasificar y predecir
Varias técnicas pueden ser utilizadas en una mismaVarias técnicas pueden ser utilizadas en una misma
aplicación o problema de minería de datosaplicación o problema de minería de datos
Ejemplo: K vecinos más próximos, árboles de decisión yEjemplo: K vecinos más próximos, árboles de decisión y
redes neuronales artificiales pueden utilizarse pararedes neuronales artificiales pueden utilizarse para
clasificaciónclasificación