Este documento trata sobre minería de datos. La minería de datos es el proceso de descubrir patrones en grandes volúmenes de datos. Utiliza métodos de inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de datos. Algunas técnicas comunes de minería de datos son la clasificación, regresión, agrupamiento y reglas de asociación. La minería de datos se aplica en diversos campos como finanzas, mercadeo, salud y educación.
2. Minería o exploración de datos es un campo de la ciencia de computación
referido al proceso que intenta descubrir patrones en grandes volúmenes de
conjuntos de datos. Utiliza los métodos de la inteligencia artificial,
aprendizaje automático, estadística y sistemas de bases de datos.
Introducción
3. También está definido por ser el proceso de detectar patrones significativos en
los datos. La minería de datos es un complemento natural al proceso de
explorar y entender los datos. Los algoritmos automáticos pueden procesar
cantidades de datos muy grandes y detectar patrones y tendencias que, de
lo contrario, estarían ocultos.
4. - Con la llegada de la era de la computación, el mundo moderno ha
experimentado un crecimiento en la cantidad de información disponible
sin precedentes en la historia.
- Distintos proyectos pueden generar varios Terabytes de información
(incluso en algunos casos, diaria).
- Estas bases de datos necesitan poder organizar de manera oportuna y
adecuada todos los datos almacenados en las mismas, además de facilitar
el acceso a esta información para todos los usuarios y, desde un punto de
vista económico / ecológico ahorrativo.
Algo de historia...
6. Gráficos y cifras respecto de la información y datos
almacenados en las Bases de datos en
aproximadamente los últimos 20 años.
7. Como anteriormente vimos los datos y el volumen de los mismos son enormes de modo que es bastante
complicado poder analizar todos los datos de forma manual. Es por esta necesidad que nacen las técnicas
automáticas de exploración de datos.
Los requisitos principales de estas técnicas son:
- Extracción de conocimiento en grandes bases de datos.
- No triviales
- Implícito
- Previamente desconocido
- Potencialmente útil
…Historia e inicios…
8.
9.
10. Es desarrollar una forma de pensar (teoría) y técnicas computacionales que permitan procesar y aprender de esta
información:
1.- Reducción de dimensión.
2.- Extracción de señales (filtrar el ruido).
3.- Visualización.
4.- Aprender sobre problemas de interés (inferencia).
5.- Predecir (clasificar).
6.- Detectar anomalías.
El marco conceptual de la minería de datos es la teoría de aprendizaje estadístico.
Retos de la Minería de Datos:
11. - Convertir los datos en conocimiento para tomar decisiones
- Extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso
posterior.
- Frecuentemente el término de minería de Datos es mal utilizado para referirse a cualquier forma de datos a gran
escala o procesamiento de la información (recolección, extracción, almacenamiento, análisis y estadísticas).
- La palabra clave de este término es el descubrimiento, comúnmente se define como "la detección de algo
nuevo«.
Objetivos de la Minería de Datos
12. El proceso de extracción de conocimientos en las Bases de Datos es:
- Limpieza de Datos (eliminación de ruido e inconsistencias)
- Integración de Datos (combinación de múltiples fuentes de datos)
- Reducción / Selección de Datos (identificación de datos relevantes)
- Transformación de Datos (preparación de los Datos para su análisis)
- Minería de Datos (técnicas de extracción de patrones y medias de interés)
- Presentación de resultados (técnicas de visualización y representación del conocimiento).
KDD (Knowledge Discovery in Databases)
13.
14. La principal tarea de la Minería de Datos real es el análisis automático o semi automático de grandes cantidades
de datos para extraer patrones interesantes hasta ahora desconocidos, como los grupos de registros de datos
(análisis clúster), registros poco usuales (la detección de anomalías) y dependencias (minería por reglas de
asociación).
Los términos relacionados con la obtención de datos, la pesca de datos y espionaje de los datos se refieren a la
utilización de métodos de minería de
Datos.
Tareas:
15. Podemos agrupar algunas tareas mencionadas anteriormente y otras en:
- Predicción:
o Clasificación
o Regresión
- Asociación
- Agrupación (clustering)
…Tareas…
16. La Minería de Datos típicamente se emplea en casos como:
- Predecir si un paciente va a ser hospitalizado con base en su historia clínica.
- Clasificación de dígitos (códigos) escritos a mano.
- Comprensión de información (imágenes).
- Determinantes de una enfermedad (síntomas y posología)
- Clasificación de clientes (instituciones financieras)
- Detección de anomalías y fraudes (sector financiero).
Problemas típicos:
17. Dependiendo de la técnica, la minería de Datos se aplica:
(técnica de carácter horizontal)
- Financieras y Banca
o Obtención de patrones de uso fraudulento de tarjetas de crédito
o Predicción de morosidad
- Análisis de mercado
o Análisis de la cesta de compra
o Segmentación de mercado
- Seguros y salud privada
o Determinación de clientes potencialmente caros.
Aplicaciones de la Minería de Datos
18. - Educación
o Detección de abandonos
- Medicina
o Diagnóstico de enfermedades
- Ciencia
o Predecir si un compuesto químico causa cáncer
o Predecir si una persona puede tener potencialmente una enfermedad a partir de su ADN.
o Clasificación de los cuerpos celestes (SKYCAT)
- Detección de Spam
- Web
o Asociación de compras en línea (AMAZON)
… aplicaciones…
19. - Web
o Clasificación automática de páginas web para directorios
- Reconocimiento de caracteres, voz, texto, etc.
- Predicción de la demanda de servicios (eléctrico, agua, gas, etc).
Podemos mencionar también que existen herramientas de software que nos ayudan a desarrollar modelos de
minería de datos, por ejemplo:
- dVelox de APARA - KXEN - KNIME
- Neural Designer - OpenNN - Orange
- Powerhouse - Quiterian - RapidMiner
- SAS Enterprise Miner - SPSS Clementine - R
- STATISTICA Data Miner - Weka - KEEL
… más aplicaciones…
20. CLAVES OCULTAS EN LOS DATOS
Es poco costoso
guardar datos del
funcionamiento de
nuestros procesos, o
de nuestros sistemas
de venta, o de
nuestros clientes,
etc., por lo que
nuestras bases de
datos crecen hasta
límites
insospechados.
21. Estructuración de los datos
Para poder analizar nuestros datos con fiabilidad es necesario que
exista una cierta estructuración y coherencia entre los mismos.
Diferentes tipos de datos representando el mismo concepto: un
ejemplo que ha provocado uno de los mayores problemas
informáticos es la representación de la fecha, donde el año se
puede guardar con 2 o con 4 dígitos.
Diferentes claves para representar el mismo elemento: un mismo
cliente puede ser representado por un código de cliente propio o
por su NIF.
La cuestión no es sencilla, y se agrava cuando los
diferentes ficheros se encuentran en sistemas
informáticos y soportes diferentes.
22. Punto de partida
Data Mining está listo para su aplicación en la comunidad de negocios
porque está soportado por tres tecnologías que ya están suficientemente
maduras:
1. Recolección masiva de datos.
2. Potentes computadoras con multiprocesadores.
3. Algoritmos de Data Mining.
23. Características y objetivos
1. Explorar los datos se encuentran en las profundidades de las bases de datos,
como los almacenes de datos, que algunas veces contienen información
almacenada durante varios años.
2. El entorno de la minería de datos suele tener una arquitectura cliente-servidor.
3. El minero es, muchas veces un usuario final con poca o ninguna habilidad de
programación, facultado por barrenadoras de datos y otras poderosas
herramientas indagatorias para efectuar preguntas adhoc y obtener rápidamente
respuestas.
4. La minería de datos produce cinco tipos de información:
1. Asociaciones.
2. Secuencias.
3. Clasificaciones.
4. Agrupamientos.
5. Pronósticos.
24. Fases de un proceso de minería de datos
El proceso de minería de datos pasa por las siguientes fases:
1. Filtrado de datos.
2. Selección de Variables.
3. Extracción de Conocimiento.
4. Interpretación y Evaluación.
25. FILTRADO DE DATOS
Mediante el preprocesado, se filtran los datos (de forma que se eliminan
valores incorrectos, no válidos, desconocidos... según las necesidades y el
algoritmo a usar), se obtienen muestras de los mismos (en busca de una
mayor velocidad de respuesta del proceso), o se reducen el número de
valores posibles (mediante redondeo, clustering,...).
SELECCIÓN DE VARIABLES
Los métodos para la selección de características son
básicamente dos:
1. Aquellos basados en la elección de los mejores atributos
del problema,
2. Y aquellos que buscan variables independientes
mediante tests de sensibilidad, algoritmos de distancia o
heurísticos.
26. ALGORITMOS DE EXTRACCIÓN DE CONOCIMIENTO
Mediante una técnica de minería de datos, se obtiene un
modelo de conocimiento, que representa patrones de
comportamiento observados en los valores de las
variables del problema o relaciones de asociación entre
dichas variables.
INTERPRETACIÓN Y EVALUACIÓN
Una vez obtenido el modelo, se debe proceder a su
validación, comprobando que las conclusiones que
arroja son válidas y suficientemente satisfactorias.
Si ninguno de los modelos alcanza los resultados
esperados, debe alterarse alguno de los pasos anteriores
para generar nuevos modelos.
28. Las técnicas más relevantes se pueden clasificar según el tipo de
problema que se estudia.
Análisis supervisado:
1. Clasificación: logístico, arboles, boosting de arboles,
redes neuronales.
2. Regresión: regresión lineal, shrinkage, redes neuronales,
kernels.
Análisis no supervisado:
1. Conglomerados.
2. Reglas de asociación.
3. Análisis digital
29. Supongamos y ∈ 0,1. El modelo de clasificación logístico supone
que:
donde P(y = 1|x) es la probabilidad de que el resultado sea 1 cuando
las características observadas son x.
La forma de estimar β es mediante el método de máxima
verosimilitud. La idea es maximizar:
LOGÍSTICO
30. La idea es hacer separaciones secuenciales de los datos de acuerdo
a cada variable independiente.
CART, BOOSTING DE
ÁRBOLES
31.
32. La idea es hacer separaciones secuenciales de los datos de
acuerdo a cada variable independiente.
Sean R1,….., RM un conjunto de regiones.
Cada región la clasificamos como cero o uno dependiendo de
la proporción de datos observados con resultado cero o uno.
Sea p(m,1) La cantidad de unos en la región m como
proporción de la cantidad de observaciones en esa región.
Sea k(m) = 1 si p(m,1) > p(m,0).
33. Definimos el error de clasificación como
Ahora repetimos el siguiente algoritmo.
1. Para determinar el primer nodo, la variable que hace
separación es aquella que minimiza el error de
clasificación.
2. En cada nodo se elige la variable (entre las que no se han
usado para separar anteriormente) que minimiza el error de
clasificación.
3. Se continua hasta completar M nodos.
34. Un excelente clasificador cuando se combina con boosting
36. El problema es describir la distribución las variables
independientes.
Permite detectar asociaciones entre variables cuando estas son
poco frecuentes.
Los conceptos claves son:
1. El soporte de un conjunto de variables es la probabilidad de
encontrar esos valores entre los valores de las
variables independientes.
2. Una regla A B se le asigna una confianza igual a la
probabilidad
condicional de B dado A.
Típicamente se busca un soporte bajo y una confianza alta.
37. Objetivos complementarios en un problema de minería de datos.
1. Selección de modelos.
2. Evaluación de modelo.
En ambientes ricos en información esto se puede operacionalizar
dividiendo aleatoriamente los datos observados.
PRINCIPALES TÉCNICAS
41. Bases de datos relacionales
Una Base de Datos Relacional, es una base de datos que cumple con el modelo
relacional el cual es el modelo más utilizado en la actualidad para implementar
bases de datos ya planificadas.
42. Bases de datos multidimensionales
Estas bases de datos se utilizan para crear aplicaciones muy específicas, por
ejemplo para crear cubos estas bases de datos se pueden representar por
medio de tablas
43. Bases de datos transaccionales
Un sistema transaccional debe controlar las transacciones para mantener la
seguridad y consistencia de los datos involucrados. Los sistemas
transaccionales automatizan tareas operáticas en una organización
permitiendo ahorrar en personal.
44. Evaluación de resultados
Un resultado es interesante si:
Es comprensible
Es valido con cierto grado de certeza
Es potencialmente útil
Es novedoso o sirve para validar una hipótesis
45. El interés de los resultados se puede
evaluar:
Objetivamente (criterios estadísticos)
Subjetivamente (perspectiva del usuario)