SlideShare une entreprise Scribd logo
1  sur  82
Télécharger pour lire hors ligne
Data Mining.
                                                                                                                    Extracción de Conocimiento en
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                                       Grandes Bases de Datos
                                                                                                 http://etsiso2.macc.unican.es/~meteo




                                                                                                                                         J o sé M. Gutiérrez
                                                          http://personales.unican.es/gutierjm




                                                                                                                                         Dpto. de Matemática Aplicada,
                                                                                                                                         Universidad de Cantabria, Santander

                                                                                                                                        http://personales.unican.es/gutierjm
El Mundo de la Información y sus Problemas.
                                                                                                     •   Cada vez se genera más información y se hace más fácil el acceso
                                                                                                         masivo a la misma (existen gran cantidad de bases de datos on-line)
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                          ¸ Transacciones bancarias, Internet y la Web, observaciones científicas
                                                                                                            (biología, altas energías, etc. ) "tranNASA’s EOS (Earth Observation System)".
                                                                                                     •   La tecnología es barata y los sistemas de gestión de bases de datos
                                                                                                         son capaces de trabjar con cantidades masivas de datos (Terabytes).

                                                                                                           Los datos contienen información útil "CONOCIMIENTO" !!!
                                                          http://personales.unican.es/gutierjm




                                                                                                     •   Necesitamos extraer información (conocimiento) de estos datos:
                                                                                                            ¸Rapidez y confiabilidad.

                                                                                                            ¸Capacidad de modelización y escalabilidad.

                                                                                                            ¸Explicación e Interpretación de los resultados (visualización, …).

                                                                                                 WalMart captura transacciones de 2900 tiendas en 6 países. Esta información e acumula en
                                                                                                 una base de datos masiva de 7.5 terabyte. WalMart permite que más de 3500 proveedores
                                                                                                 accedan a los datos relativos a sus productos para realizar distintos análisis. Así pueden
                                                                                                 identificar clientes, patrones de compras, etc. En 1995, WalMart computers procesó más de
                                                                                                 un millón de consultas complejas.
Datos, Información y Conocimiento.
                                                                                                 ¿Qué diferencias hay entre información, datos y conocimiento?
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                 ¸ Informalmente se utilizan indistintamente, con pequeños matices.
                                                                                                 ¸ información y datos se pueden referir a cualquier cosa, aunque
                                                                                                   “Datos” suele referir a la “evidencia”.
                                                                                                 ¸ Conocimiento es subjetivo:
                                                                                                        depende de las intenciones (objetivo del aprendizaje).
                                                                                                        debe ser inteligible para el que aprende o el que encarga el aprendizaje (usuario).


                                                                                                 ¿Qué es aprendizaje?
                                                          http://personales.unican.es/gutierjm




                                                                                                 ¸ (visión genérica, Mitchell 1997) es mejorar el comportamiento a partir de la
                                                                                                 experiencia. Aprendizaje = Inteligencia.
                                                                                                 ¸ (visión más estática) es la identificación de patrones , de regularidades,
                                                                                                 existentes en la evidencia.
                                                                                                 ¸ (visión externa) es la predicción de observaciones futuras con plausibilidad.
                                                                                                 ¸ (visión teórico- informacional, Solomonoff 1966) es
                                                                                                          eliminación de redundancia = compresión de información .
Acceso a los Datos. Evolución histórica.
                                                                                                 La necesidad de almacenar información ha motivado históricamente el desarrollo de
                                                                                                 sistemas más eficientes, con mayor capacidad y más baratos de almacenamiento.
José Manuel Gutiérrez, Universidad de Cantabria. (2001)
                                                          http://personales.unican.es/gutierjm




                                                                                                       •   Bases de datos relacionales.
                                                                                                       •   DBMS (Data Base Management Systems) y repositorios de información:
                                                                                                            – Bases de datos orientadas a objetos y objeto-relacionales.
                                                                                                            – Bases de datos espaciales (geográficas).
                                                                                                            – Bases de datos de texto y multimedia.
                                                                                                            – WWW.
OLAP (On-Line Analytical Processing)
                                                                                                 Sobre estas mismas bases de datos de trabajo ya se puede extraer conocimiento
                                                                                                 (visión tradicional).
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                      ¸Se mantiene el trabajo transaccional diario de los sistemas de información
                                                                                                      originales (conocido como OLTP, On- Line Transactional Processing ).
                                                                                                      ¸Se hace análisis de los datos en tiempo real sobre la misma base de
                                                                                                      datos( conocido como OLAP, On- Line Analytical Processing ),

                                                                                                 Según la organización de la información copiada se distingue:
                                                                                                       ¸ROLAP (Relational OLAP): el almacén de datos es relacional.
                                                          http://personales.unican.es/gutierjm




                                                                                                       ¸MOLAP (Multidim OLAP): el almacén de datos es una matriz multidimensional.

                                                                                                 Cada atributo relevante se establece en una dimensión, que se puede agregar o desagregar.
Data Warehouses. Génesis.
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                 PROBLEMAS:
                                                                                                 ¸ Disturba el trabajo transaccional diario de los sistemas de información originales
                                                          http://personales.unican.es/gutierjm




                                                                                                 (“ killer queries ”). Se debe hacer por la noche o en fines de semana.
                                                                                                 ¸ La base de datos está diseñada para el trabajo transaccional, no para el análisis
                                                                                                 de los datos. Generalmente no puede ser en tiempo real (era AP pero no OLAP).

                                                                                                 Para poder operar eficientemente con esos datos y debido a que los
                                                                                                 costes de almacenamiento masivo y conectividad se han reducido
                                                                                                 drásticamente en los últimos años, parece razonable recoger (copiar) los
                                                                                                 datos en un sistema unificado.
Data Warehouses
                                                                                                   DATA-WAREHOUSES (Almacenes de Datos): Se separan de los datos a
                                                                                                  analizar con respecto a sus fuentes transaccionales (se copia/ almacena toda
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                  la información histórica).
                                                                                                  Existe toda una tecnología creciente de cómo organizarlos y sobretodo de cómo
                                                                                                  tenerlos actualizados (cargas periódicas) respecto a los datos originales

                                                                                                 VENTAJAS:

                                                                                                  ¸Facilita el análisis de los datos en tiempo real (OLAP),
                                                                                                  ¸No disturba el OLTP de las bases de datos originales.
                                                          http://personales.unican.es/gutierjm




                                                                                                   A partir de ahora
                                                                                                   diferenciaremos
                                                                                                   entre bases de
                                                                                                   datos para OLTP
                                                                                                   (tradicional) y
                                                                                                   almacenes de datos
                                                                                                   (KDD sobre data
                                                                                                   warehouses).
Construcción de un Data Warehouse
                                                                                                                      Data
                                                                                                                    Warehouse            Limpieza y criba selección de datos:
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                                                         Se deben elmininar el mayor número posible de
                                                                                                                                         datos erróneos o inconsistentes (limpieza) e
                                                                                                 Data Cleaning                           irrelevantes (criba).

                                                                                                                                 Se aplican métodos estadísticos:
                                                                                                                                 -Histogramas (detección de datos anómalos).
                                                                                                                                 - Redefinición de atributos (agrupación o separación).
                                                                                                            Databases            Muy relacionado con la disciplina de “Calidad de Datos”.
                                                          http://personales.unican.es/gutierjm




                                                                                                 Acciones ante datos anómalos (outliers):
                                                                                                 - Ignorar: algunos algoritmos son robustos a datos anómalos.
                                                                                                 - Filtrar (eliminar o reemplazar) la columna: solución extrema.
                                                                                                 - Discretizar: transformar un valor continuo en uno discreto (p. ej. muy alto, alto, etc.)
                                                                                                 hace que los outliers caigan en ‘muy alto’ o ‘muy bajo’ sin mayores problemas.

                                                                                                 Acciones ante datos faltantes (missing values):
                                                                                                 - Ignorar: algunos algoritmos son robustos a datos faltantes.
                                                                                                 - Filtrar (eliminar o reemplazar) la columna
                                                                                                 - Reemplazar el valor: por medias. A veces se puede predecir a partir de otros datos,
                                                                                                 utilizando cualquier técnica de ML.
¿Qué es Data Mining (minería de datos)?
                                                                                                 the non trivial extraction of implicit,                                  CONOCIMIENTO
                                                                                                 previously unknown, and potentially
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                                                                              Pattern
                                                                                                 useful information from data                                Evaluation
                                                                                                 W. Frawley and G. Piatetsky-Shapiro and C. Matheus,
                                                                                                 Knowledge Discovery in Databases: An Overview.
                                                                                                 AI Magazine, Fall 1992, 213-228.
                                                                                                                                                       Data Mining

                                                                                                                                     Task-relevant
                                                                                                                                         Data
                                                          http://personales.unican.es/gutierjm




                                                                                                              Data                            Selection
                                                                                                            Warehouse                                                     Datos imprecisos e
                                                                                                                                                                          incompletos
                                                                                                 Data Cleaning
                                                                                                                                                                          almacenados en
                                                                                                                               Data Integration                           múltiples fuentes

                                                                                                                                                                          Heterogéneos y
                                                                                                                  Databases                                               mezclados.
Diferencias entre DBMS y Data Mining

                                                                                                 En los sistemas estándar de gestión de bases de datos las
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                 consultas se resuelven accediendo a distintos conjuntos de
                                                                                                 datos almacenados:

                                                                                                 ¸Ventas del último mes de un producto.
                                                                                                 ¸Ventas agrupadas por la edad del comprador.


                                                                                                 Los sistemas de data mining infieren conocimiento de la base
                                                          http://personales.unican.es/gutierjm




                                                                                                 de datos en forma de estructuras y patrones. Este
                                                                                                 conocimiento supone un nuevo conjunto de información en
                                                                                                 base a la cual se responden las consultas:

                                                                                                 ¸por qué es tan rentable la división Iberoamericana de Telefónica?
                                                                                                 ¸¿qué clientes son potenciales compradores de un producto?
                                                                                                 ¸¿cuál será el beneficio de la compañía el mes próximo?
Acceso a Datos vs. Acceso a Conocimiento
                                                                                                                                                                                 http://www.datamining.com


                                                                                                 Paradigma de Acceso a Datos:
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                 El usuario solicita datos y procesa los datos
                                                                                                 recibidos en busca de "conocmiento".

                                                                                                 SQL + algoritmos de data mining.


                                                                                                 Paradigma de Acceso a Conocimiento:
                                                                                                 El sistema genera automáticamente patrones de
                                                                                                 conocimiento refinados y el usuario accede
                                                                                                 directamente a los mismos.

                                                                                                 PQL = Pattern Query Languaje
                                                          http://personales.unican.es/gutierjm




                                                                                                                                                 PQL was designed to access patterns just as SQL was
                                                                                                                                                 designed to access data. PQL resembles SQL, works atop
                                                                                                                                                 existing SQL engines.
                                                                                                                                                 Information Discovery uses a Pattern WarehouseTM of refined
                                                                                                                                                 information and PQL works on patterns just as SQL works on a
                                                                                                                                                 datawarehouse. While SQL relies on the relational algebra,
                                                                                                                                                 PQL uses the "pattern algebra". PQL allows pattern-based
                                                                                                                                                 queries just as SQL allows data-based queries. And, PQL uses
                                                                                                                                                 SQL as part of its operation, i.e. PQL queries are
                                                                                                                                                 decomposed into a set of related SQL queries, the Pattern
                                                                                                                                                 Warehouse is accessed with these queries and the results are
                                                                                                                                                 re-combined for display to the user. The user accesses these
                                                                                                                                                 patterns using a web browser.
Data Mining and Business Intelligence
                                                                                                  Jiawei Han
                                                                                                  Intelligent Database System Research Lab
                                                                                                  http://www.cs.sfu.ca/~han
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                 Increasing potential
                                                                                                 to support
                                                                                                 business decisions                                                       End User
                                                                                                                                         Making
                                                                                                                                         Decisions

                                                                                                                                     Data Presentation                    Business
                                                                                                                                                                           Analyst
                                                                                                                                 Visualization Techniques
                                                          http://personales.unican.es/gutierjm




                                                                                                                                       Data Mining                          Data
                                                                                                                                    Information Discovery                 Analyst

                                                                                                                                      Data Exploration
                                                                                                                        Statistical Analysis, Querying and Reporting

                                                                                                                            Data Warehouses / Data Marts
                                                                                                                                    OLAP, MDA                                DBA
                                                                                                                                   Data Sources
                                                                                                            Paper, Files, Information Providers, Database Systems, OLTP
Multidisciplinar. Areas y Técnicas Involucradas
                                                                                                 variety of techniques to identify nuggets of information or decision-making
                                                                                                 knowledge in bodies of data, and extracting these in such a way that they can be
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                 put to use in the areas such as decision support, prediction, forecasting and
                                                                                                 estimation. The data is often voluminous, but as it stands of low value as no direct
                                                                                                 use can be made of it; it is the hidden information in the data that is useful.


                                                                                                            Areas Involucradas                      ¸Componentes Principales:
                                                                                                                                                             compresión de la información.
                                                                                                                                                    ¸Componentes Independientes:
                                                                                                                                                             extracción de características.
                                                                                                                                                    ¸Modelado de Dependencias:
                                                          http://personales.unican.es/gutierjm




                                                                                                                                                             hallar asociaciones entre variables.
                                                                                                                                                             redes Bayesianas
                                                                                                                                                    ¸Agrupación:
                                                                                                                                                             hallar grupos de elementos.
                                                                                                                                                    ¸Clasificación:
                                                                                                                                                             asignar elementos a clases.
                                                                                                                                                    ¸Predicción:
                                                                                                                                                             estimación de valores.
                                                                                                                                                    ¸Visualización:
                                                                                                                                                            representación gráfica.
                                                                                                                                                    Redes Neuronales
Estadística y Ciencias de la Computación
                                                                                                 •   Estadística
                                                                                                      – 1970: EDA, estimación Bayesiana, modelos flexibles, EM, etc
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                      – Conciencia sobre el papel de la computación en el análisis de datos.
                                                                                                 •   Reconocimiento de Patrones e Inteligencia Artificial
                                                                                                      – Atención dirigiga a problemas de percepción (e.g., habla, visión)
                                                                                                      – 1960: división en técnicas estadísticas y no estadísticas (gramáticas, etc.)
                                                                                                      – Convergencia de estadística aplicada e ingeniería (análisis imágenes, Geman)
                                                                                                 •   Aprendizaje Automático y Redes Neuronales
                                                                                                      – 1980: fracaso de las téncias de aprendizaje no estadísticas
                                                                                                      – Aparición de modelos flexibles (árboles, redes)
                                                          http://personales.unican.es/gutierjm




                                                                                                      – Convergencia de estadística aplicada y aprendizaje
                                                                                                          • e.g., trabajos de Friedman, Spiegelhalter, Jordan, Hinton

                                                                                                     IA / Apredizaje Automático                       Bases de Datos
                                                                                                     Extracción automática de conocimiento            Bases de datos masivas
                                                                                                     1989 KDD workshop                                Reglas de asociación
                                                                                                     ACM SIGKDD 2000                                  Algoritmos escalables




                                                                                                                                   MINERIA DE DATOS
Focus Areas
                                                                                                      Padhraic Smyth. Information and Computer Science
                                                                                                      University of California, Irvine
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                                                                 Computer Science
                                                                                                        Statistics




                                                                                                 Statistical     Statistical       Neural         Machine         Data      Databases
                                                                                                 Inference       Pattern           Networks       Learning        Mining
                                                                                                                 Recognition
                                                          http://personales.unican.es/gutierjm




                                                                                                                               Nonlinear         Flexible         Pattern
                                                                                                       Computer Vision,        Regression        Classification   Finding
                                                                                                       Signal Recognition                        Models
                                                                                                                                                                            Scalable
                                                                                                                       Graphical          Hidden                            Algorithms
                                                                                                                       Models             Variable
                                                                                                                                          Models
Inteligencia Artificial
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                   Técnicas                                         Nuevos
                                                                                                   Clásicas                                         Paradigmas
                                                                                                                                                   Inspiración Biológica



                                                                                                    Representación
                                                                                                    explícita del
                                                          http://personales.unican.es/gutierjm




                                                                                                    conocimiento
                                                                                                 sentencias lógicas,
                                                                                                 reglas,
                                                                                                 grafos,
                                                                                                 redes semánticas, etc.

                                                                                                     Imitación del
                                                                                                     proceso humano de
                                                                                                     razonamiento
                                                                                                                          Procesamiento en serie
                                                                                                 Inferencia lógica,
                                                                                                 búsqueda en grafos       de la información
Areas y Técnicas Involucradas
                                                                                                 variety of techniques to identify nuggets of information or decision-making
                                                                                                 knowledge in bodies of data, and extracting these in such a way that they can be
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                 put to use in the areas such as decision support, prediction, forecasting and
                                                                                                 estimation. The data is often voluminous, but as it stands of low value as no direct
                                                                                                 use can be made of it; it is the hidden information in the data that is useful.


                                                                                                                                                 ¸Modelado de Dependencias:
                                                                                                            Técnicas Involucradas
                                                                                                                                                          asociaciones entre variables.
                                                                                                                                                          reglas y grafos (redes Bayesianas).
                                                                                                                                                 ¸Componentes Principales:
                                                                                                                                                          compresión de la información.
                                                          http://personales.unican.es/gutierjm




                                                                                                                                                 ¸Componentes Independientes:
                                                                                                                                                          extracción de características.
                                                                                                                                                 ¸Agrupación:
                                                                                                                                                          hallar grupos de elementos.
                                                                                                                                                 ¸Clasificación:
                                                                                                                                                          asignar elementos a clases.
                                                                                                                                                 ¸Predicción:
                                                                                                                                                          estimación de valores.
                                                                                                                                                 ¸Visualización:
                                                                                                                                                          representación gráfica.
Hot Topics (Statistics and Machine Learning)
                                                                                                    Padhraic Smyth
                                                                                                    Information and Computer Science
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                    University of California, Irvine


                                                                                                                              Nonlinear      Flexible          Pattern
                                                                                                    Computer Vision,          Regression     Classification    Finding
                                                                                                    Signal Recognition                       Models

                                                                                                                   Hidden              Graphical                         Scalable
                                                                                                                   Variable            Models                            Algorithms
                                                          http://personales.unican.es/gutierjm




                                                                                                                   Models
                                                                                                                                                       Classification
                                                                                                                                       Belief          Trees
                                                                                                 Deformable      Mixture/
                                                                                                                                       Networks
                                                                                                 Templates       Factor Models
                                                                                                                                                                   Association
                                                                                                                                                                   Rules
                                                                                                              Hidden                          Support
                                                                                                              Markov           Model          Vector
                                                                                                              Models           Combining      Machines
Objetivos. Un Primer Ejemplo

                                                                                                    Asociación:
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                  Interesa obtener automáticamente reglas que relacionen unos atributos de la base
                                                                                                  de datos con otros, en base a alguna asociación:
                                                                                                     Ejemplo - Base de datos de clientes de un banco.
                                                                                                        Regla de Asociación:
                                                                                                        if STATUS = married and INCOME > 10000 and HOUSE_OWNER = yes
                                                                                                        then INVESTMENT_TYPE = good
                                                          http://personales.unican.es/gutierjm




                                                                                                 Clasificación:

                                                                                                  Un sistema de minería de datos aprende de los datos cómo particionar o calsificar
                                                                                                  los mismos en base a reglas de clasificación:
                                                                                                     Ejemplo - Base de datos de clientes de un banco.
                                                                                                        Pregunta - Un cliente que solicita un préstamo, es una buena inversión?
                                                                                                        Regla típica formulada:
                                                                                                        if STATUS = married and INCOME > 10000 and HOUSE_OWNER = yes
                                                                                                        then INVESTMENT_TYPE = good
Aplicaciones de la Minería de Datos.
                                                                                                                                       Gran cantidad de información (financiera, servicios, empresas,
                                                                                                                                       universidades, libros y hobbies), con complejas interrelaciones.
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                                                       El 99% de la información no le interesa al 99% de la gente.
                                                                                                                En Internet
                                                                                                 Ambiente
                                                                                                 dinámico
                                                                                                                ¸E-bussines. Perfiles de clientes, publicidad dirigida, fraude.
                                                                                                                ¸Buscadores "inteligentes". Generación de jerarquías, bases de conocimiento web.
                                                                                                                ¸Gestión del tráfico de la red. Control de eficiencia y errores.
                                                                                                            ÿ   Reglas de asociación:
                                                                                                                 El 60% de las personas que esquían viajan frecuentemente a Europa.
                                                                                                            ÿ   Clasificación:
                                                                                                                 Personas menores de 40 años y salario superior a 2000$ compran on-line frecuentemente.
                                                                                                            ÿ   Clustering:
                                                          http://personales.unican.es/gutierjm




                                                                                                                 Los usuarios A y B tienen gustos parecidos (acceden URLs similares).
                                                                                                            ÿ   Detección de "outliers"
                                                                                                                 El usuario A navega en Internet más del doble del tiempo promedio.
                                                                                                 La publicidad en Internet es uno de los tópicos más actuales de Data Mining.

                                                                                                                                       Los data warehouse de las empresas contienen enormes cantidades de
                                                                                                                                       información sobre sus clientes y gestiones.

                                                                                                                El Mundo de los Negocios
                                                                                                                ¸Banca. Grupos de clientes, préstamos, oferta de productos.
                                                                                                                ¸Compañías de seguros. Detección de fraude, administración de recursos.
                                                                                                                ¸Marketing. Publicidad dirigida, estudios de competencia.
La cantidad de información generada en proyectos científicos ha
                                                                                                                       sido enorme: Genoma Humano, datos geofísicos, altas energías, etc.

                                                                                                 En Biología, Meteorología, etc.
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                 ¸Bio-Informática. Búsqueda de patrones en ADN, consultas inteligentes.
                                                                                                 ¸Meteorología. Teleconexiones (asociaciones espaciales), predicción.
                                                                                                 ¸Física (altas energías). Datos de colisiones de partículas (búsqueda de patrones).


                                                                                                                          Escherichia Coli
                                                                                                                           176195 bases

                                                                                                                            gccattacct
                                                          http://personales.unican.es/gutierjm




                                                                                                                            ctggtctgga
                                                                                                                            agtagtctgg
                                                                                                                            acccagacgc
                                                                                                                            cgacccagtg                       WP4: TESTBED
                                                                                                                            gagcaactat           http://www.ifca.unican.es/crossgrid/
                                                                                                                                                Secuencias numéricas
                                                                                                                            ttcttcgaga
                                                                                                    Secuencia               acctgttcaa            Electrocardiogramas, etc.

                                                                                                    Simbólica               gtatgagtgg




                                                                                                                     EJEMPLO !!!!!!!!!!!!!!!!!!
Ejemplo. Meteorología.
                                                                                                 ¸Meteorología. Teleconexiones (asociaciones espaciales), predicción.
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                                                Existen bases de datos con simulaciones de los
                                                                                                                                campos atmosféricos en rejillas dadas.
                                                          http://personales.unican.es/gutierjm




                                                                                                 Se dispone de gran
                                                                                                 cantidad de información
                                                                                                 en observatorios locales:
                                                                                                 Precipitación,
                                                                                                 temperatura,
                                                                                                 Viento, etc.
Los 6 primeros dígitos son fecha con el formato:aammdd (año,mes y día)
                                                                                                                  Fecha                      Tormenta
                                                                                                 posición 7: 0=Sin Precipitación 1=Lluvia 3=Llovizna 5=Chubasco
                                                                                                 posición 8: 0=Sin Nieve 1,2,3 o 4=Nieve
                                                                                                 posición 9: 0=Sin Granizo 1,2,3 o 4=Granizo
                                                                                                 posición 10: 0=Sin Viento
                                                                                                                     Tormenta 1=Tormenta Nieve
                                                                                                                                 Granizo                Escarcha
                                                                                                 posición 11: 0=Sin Niebla 1,2,3 o 4=Niebla
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                       Neblina
                                                                                                 posición 12: 0=Sin Rocío 1 o 6=Rocío
                                                                                                 posición 13: 0=Sin Escarcha 1 o 6=Escarcha
                                                                                                 posición Rocío                             Nieve Suelo       Polvareda
                                                                                                          14: 0=Sin Nieve cubriendo el Suelo 1=Nieve cubriendo el Suelo
                                                                                                 posición 15: 0=Sin Neblina 1=Neblina
                                                                                                 posición 16: 0=Sin Calima 1=Calima
                                                                                                 posición 17: 0=Sin Viento>50km/h 1=Viento>50km/h
                                                                                                                   Precipitación
                                                                                                 posición 18: 0=Sin Polvareda 1=Polvareda   Niebla

                                                                                                 860101500000000010
                                                                                                 860102100000000010
                                                          http://personales.unican.es/gutierjm




                                                                                                                                             Fecha        Granizo                      Calima
                                                                                                 860103500100000010                                                      Rocío
                                                                                                 860104500000000010              Precipitación
                                                                                                                                                                                   Neblina
                                                                                                                                                     Escarcha
                                                                                                 860105101100000010
                                                                                                                                                                    Tormenta
                                                                                                 860106101100000010                              Niebla
                                                                                                 860107300100000010               Nieve                                   Viento
                                                                                                                                                                                   Nieve Suelo
                                                                                                 860108500000000010                                        Polvareda
                                                                                                 860109500000001000
                                                                                                 860110000001001100
                                                                                                 860111001000000000
Libros y Material de Consulta

                                                                                                                       Data Mining: Practical Machine Learning Tools and
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                                       Techniques with Java Implementations
                                                                                                                        Ian H. Witten, Eibe Frank


                                                                                                                                                    Machine Learning and Data Mining
                                                                                                                                                    Open Soure Tools in Java
                                                                                                                                     http://www.cs.waikato.ac.nz/~ml/weka/


                                                                                                                       Advances in Knowledge Discovery and Data Mining
                                                          http://personales.unican.es/gutierjm




                                                                                                                       Edited by U.M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy

                                                                                                                        The AAAI Press




                                                                                                                               Data Mining Techniques: For Marketing,
                                                                                                                                         Sales, and Customer Support
                                                                                                                                            By Michael J. Berry,Gordon Linoff
                                                                                                                                                        Wiley, John & Sons,

                                                                                                 http://www1.fatbrain.com/FindItNow/Services/home.cl?from=cbs169&store=1
Libros disponibles en Internet
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                               Expert Systems and Probabilistic Network Models.
                                                                                                               E. Castillo, J.M. Gutiérrez, y A.S. Hadi
                                                                                                               Springer-Verlag, New York.
                                                          http://personales.unican.es/gutierjm




                                                                                                               Monografías de la Academia Española de
                                                                                                               Ingeniería




                                                                                                               An Introduction to Functional Networks
                                                                                                               E. Castillo, A. Cobo, J.M. Gutiérrez and E. Pruneda
                                                                                                               Kluwer Academic Publishers (1999).
                                                                                                               Paraninfo/International Thomson Publishing
Enlaces Interesantes y Revistas
                                                                                                 The Data Mine provides information about Data Mining and Knowledge Discovery
                                                                                                 in Databases (KDD).
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                 http://www.cs.bham.ac.uk/~anp/TheDataMine.html

                                                                                                                                  http://www.data-miners.com/

                                                                                                                                  http://www.kdcentral.com/Software/Data_Mining/

                                                                                                                                  http://www.andypryke.com/university/software.html
                                                                                                                                  http://www.galaxy.gmu.edu/stats/syllabi/DMLIST.html


                                                                                                                                                        Journals
                                                          http://personales.unican.es/gutierjm




                                                                                                                                     Data Mining and Knowledge Discovery.
                                                                                                                                     http://www.wkap.nl/journalhome.htm/1384-5810


                                                                                                                                     Intelligent Data Analysis
                                                                                                                                     http://www.iospress.nl/site/html/1088467x.html

                                                                                                                                     IEEE Trans. on Knowledge and Data Engineering
                                                                                                                                     http://www.iospress.nl/site/html/1088467x.html

                                                                                                                                     Related Journals (from IDA)
                                                                                                                                     http://www.ida-society.org/journals.html
El Portal KDnuggets: http://www.kdnuggets.com/
                                                                                                 Portal dedicado a Data Mining, Web Mining
                                                                                                 y Búsqueda de Conocimiento.
José Manuel Gutiérrez, Universidad de Cantabria. (2001)
                                                          http://personales.unican.es/gutierjm
José Manuel Gutiérrez, Universidad de Cantabria. (2001)
http://personales.unican.es/gutierjm                      Productos Comerciales
José Manuel Gutiérrez, Universidad de Cantabria. (2001)
http://personales.unican.es/gutierjm                      Un Ejemplo: DBMiner. http://www.dbminer.com
José Manuel Gutiérrez, Universidad de Cantabria. (2001)
http://personales.unican.es/gutierjm                      IBM DB2 Intelligent Miner
IBM Advanced Scout. http://www.research.ibm.com/scout/

                                                                                                                    Using data mining software called Advanced Scout to
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                                    prepare for a game, a coach can quickly review countless
                                                                                                                    stats: shots attempted, shots blocked, assists made,
                                                                                                                    personal fouls. But Advanced Scout can also detect
                                                                                                                    patterns in these statistics that a coach may not have
                                                                                                                    known about. So during a game, a coach can know exactly
                                                                                                                    which plays are most effective with which players and
                                                                                                                    under what circumstances.


                                                                                                   “attribute focusing” finds conditional ranges on attributes
                                                          http://personales.unican.es/gutierjm




                                                                                                   where the distributions differ from the norm.

                                                                                                  An analysis of the data from a game played between the New York Knicks and
                                                                                                  the Charlotte Hornets revealed that when "Glenn Rice played the shooting guard
                                                                                                  position, he shot 5/6 (83%) on jump shots."

                                                                                                  Through data mining, Advanced Scout identified a certain player (Rice), playing a
                                                                                                  certain position (shooting guard), shooting at a certain rate (83%), on a certain
                                                                                                  type of shot (jump shots). Advanced Scout not only finds this pattern, but points
                                                                                                  out that it is interesting because it differs considerably from the average shooting
                                                                                                  percentage of 54% for the Charlotte Hornets during that game.
José Manuel Gutiérrez, Universidad de Cantabria. (2001)
http://personales.unican.es/gutierjm

                                                          http://etsiso2.macc.unican.es/~meteo
                                                                                                 The Toolbox “MeteoLab” Data Mining in Meteorology
Modelado de Dep. (reglas de asociación)
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                                    ¸Modelado de Dependencias:
                                                                                                                           asociaciones entre variables.
                                                                                                                           reglas y grafos.

                                                                                                                    ¸Componentes Principales:
                                                                                                                           compresión de la información.
                                                                                                                    ¸Componentes Independientes:
                                                          http://personales.unican.es/gutierjm




                                                                                                                           extracción de características.
                                                                                                                    ¸Agrupación:
                                                                                                                           hallar grupos de elementos.
                                                                                                                    ¸Clasificación:
                                                                                                                           asignar elementos a clases.
                                                                                                                    ¸Predicción:
                                                                                                                           estimación de valores.
                                                                                                                    ¸Visualización:
                                                                                                                           representación gráfica.
Relaciones entre atributos. Fórmulas y Reglas.
                                                                                                  Una de las técnicas más habituales en data mining consiste en extraer las relaciones
                                                                                                  relevantes que existan entre conjuntos de variables (itemsets) de la base de datos.
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                  De esta forma se pueden detectar errores, fraudes, e inconsistencias fácilmente.

                                                                                                  En el caso de bases de datos relacionales trabajaríamos con conjuntos formados por
                                                                                                  pares (atributo # valor) utilizando los registros de la base de datos.
                                                                                                  {Cliente = Pepe, Precio > 10$}
                                                                                                  {Producto = Café}

                                                                                                  Estas relaciones de asociación se pueden establecer en distintas formas:
                                                          http://personales.unican.es/gutierjm




                                                                                                 ¸Reglas if-then "reglas de asociación"
                                                                                                                                                    If Cliente is Pepe
                                                                                                   Son implicaciones de la forma X=>Y               and Precio is lower than 10$
                                                                                                   if (X1= a, X3= c, X5= d) then (X4= b, X2= a)     Then
                                                                                                                                                    Producto = Café
                                                                                                   La fiabilidad [confidence] es la proporción de
                                                                                                   Aquellos registros con X que también contienen   confidence: 0.98
                                                                                                   también a Y.                                     The rule exists in 102 records
                                                                                                                                                    Significance level: error prob < 0.001
                                                                                                   La relevancia [support] es la proporción de
                                                                                                   registros que contienen tanto X como Y.
¸Asociaciones
                                                                                                                                                        The value Pepe in the Cliente field
                                                                                                  Se buscan asociaciones de la forma:                   is associated with the value Café in
                                                                                                  (X1= a) <=> (X4= b)                                   the Producto field
                                                                                                  De los n registros de la tabla, las dos igualdades
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                  Son verdaderas o falsas simultáneamente               Rule’s fiab: 0.8
                                                                                                  en rc casos:
                                                                                                  fiabilidad de la asociación = rc /n


                                                                                                                                     Ejemplo:
                                                          http://personales.unican.es/gutierjm




                                                                                                  Reglas de Asociación:
                                                                                                        (Hijos > 0) => Casado (100%, 2 casos).
                                                                                                        Casado => Obeso (100%, 3 casos).
                                                                                                  Asociaciones:
                                                                                                        Casado e (Hijos > 0) están asociados (80%, 4 casos).
                                                                                                        Obeso y casado están asociados (80%, 4 casos)
¸Fórmulas                                         A=B*C
                                                                                                                                                   Where: A = Total
                                                                                                  Relaciones matemáticas X=f(Y,Z)=Y*Z
                                                                                                                                                   B = Cantidad
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                  La fiabilidad denota el cociente entre el
                                                                                                  número de casos en que se cumple la              C = Precio
                                                                                                  fórmula (suponiendo un cierto error de           Rule’s Accuracy Level: 0.99
                                                                                                  redondeo) y el número total de casos.
                                                                                                                                                   The rule exists in 1890 records


                                                                                                 ¸Reglas de hortografía.                          The value Pepe appears 52 times
                                                                                                                                                  in the Cliente field.
                                                                                                   Estas reglas permiten detectar errores de
                                                                                                   ortografía. Un nombre es similar a otro pero
                                                          http://personales.unican.es/gutierjm




                                                                                                                                                  There are 2 case(s)
                                                                                                   la frecuencia en que aparecen ambos es
                                                                                                                                                  containing similar value(s)
                                                                                                   muy diferente.
                                                                                                                                                  {Pepr, Repe}
                                                                                                   (Text Mining)
José Manuel Gutiérrez, Universidad de Cantabria. (2001)
http://personales.unican.es/gutierjm                      Ejemplo
Búsqueda de Reglas de Asociación
                                                                                                  La mayoría se basa en descomponer el problema en dos fases:
                                                                                                  • FASE A: BÚSQUEDA DE GRANDES CONJUNTOS DE ATRIBUTOS.
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                  Se buscan conjuntos de atributos con relevancia >= umbral. De momento no
                                                                                                  se busca separarlos en parte izquierda y parte derecha.
                                                                                                  • FASE B: ESCLARECIMIENTO DE DEPENDENCIAS (REGLAS).
                                                                                                  Se hacen particiones binarias y disjuntas de los conjuntos hallados y se calcula
                                                                                                  la confianza de cada uno. Se retienen aquellas reglas que tienen
                                                                                                  confianza >= umbral
                                                          http://personales.unican.es/gutierjm




                                                                                                  Propiedad: cualquier subconjunto de un conjunto grande es también grande.


                                                                                                 AIS es el primer algoritmo que se desarrolló
                                                                                                 para obtener reglas de asociación.
                                                                                                                                                 AIS [Agrawal, Imielinski & Swami]
                                                                                                 X=>Y [s,c] donde                               R. Agrawal, T. Imielinsky & A. Swami
                                                                                                 ¸Y es un único atributo,                       IBM Almaden Research Center, 1993

                                                                                                 ¸s es la relevancia y
                                                                                                 ¸c su fiabilidad.
Fase A: Selección Grandes de Atributos
                                                                                                 Dada una relevancia mínima Rmin:
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                 1. i = 1 (tamaño de los conjuntos)
                                                                                                 2. Generar un conjunto unitario en S1 para cada atributo.
                                                                                                 3. Comprobar la relevancia de todos los conjuntos en Si.
                                                                                                       Eliminar aquellos cuya relevancia < Rmin.
                                                                                                 4. Combinar los conjuntos en Si
                                                                                                       creando conjuntos de tamaño i+1 en Si+1.
                                                          http://personales.unican.es/gutierjm




                                                                                                 Este paso se lleva a cabo secuencialmente, recorriendo los registros de la base de datos
                                                                                                 siguiendo el contador i. Tras leer un registro de la base de datos, se hallan los conjuntos
                                                                                                 relevantes Si contenidos en el mismo. Si+1 se genera extendiendo los conjuntos hallados
                                                                                                 con otros atributos del registro.

                                                                                                 5. Si Si no es vacío entonces i:= i+ 1. Ir a 3.
                                                                                                 6. Si no , retornar S2 » S3 » ... » Si

                                                                                                 Dados n registros y m atributos o(m 2m -1) reglas posibles.
                                                                                                 Complejidad computacional       o( n m 2 m )
Ejemplo
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                                                                                   relevancia = 2
                                                                                                                                                                   confianza = 0.75


                                                                                                 FASE A:
                                                                                                 S1 = {{1}, {2}, {3}, {4}, {5}}                          S’1:rel = {{1}:2, {2}:3, {3}:3, {5}:3}
                                                                                                 S2 = {{1,2},{1,3},{1,5},{2, 3},{2, 5},{3, 5}}           S’2:rel = {{1,3}:2, {2,3}:2, {2,5}:3, {3,5}:2}
                                                                                                 S3 = {{1,2, 3}, {1,2, 5}, {1,3, 5}, {2,3, 5}}           S’3:rel = {{2,3,5}:2}
                                                          http://personales.unican.es/gutierjm




                                                                                                                      Sfinal = S’2 » S’3 = {{1, 3}, {2, 3}, {2, 5}, {3, 5}, {2,3,5}}

                                                                                                 FASE B:
                                                                                                 {1} Æ {3} : 1                         {3} Æ {1} : 0.67
                                                                                                 {2} Æ {3} : 0.67                      {3} Æ {2} : 0.67
                                                                                                 {2} Æ {5} : 1                         {5} Æ {2} : 1
                                                                                                 {3} Æ {5} : 0.67                      {5} Æ {3} : 0.67
                                                                                                 {2,3} Æ {5} : 1                       {2,5} Æ {3} : 0.67                   {3,5} Æ {2} : 1
El Algoritmo APRIORI
                                                                                                     • Fk : Set of frequent itemsets of size k
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                                                                     • Ck : Set of candidate itemsets of size k
                                                                                                     F1 = {single attribute sets} with minimum support
                                                                                                     for ( k=2; Fk != 0; k++) do {
                                                                                                       Ck+1 = New candidates generated from Fk

                                                                                                      foreach entry t in the database do
                                                                                                          Increment the count of all candidates in Ck+1 contained in t
                                                          http://personales.unican.es/gutierjm




                                                                                                          Fk+1 = Candidates in Ck+1 with minimum support
                                                                                                      }
                                                                                                     Answer = Uk Fk


                                                                                                 •    Every subset of a frequent itemset is also frequent

                                                                                                      => a candidate itemset in Ck+1 can be pruned if even one of its
                                                                                                      subsets is not contained in Fk
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos

Contenu connexe

Tendances

Proyecto productivo computacion
Proyecto productivo computacionProyecto productivo computacion
Proyecto productivo computacionJAVIER ARCE
 
Politicas y medidas de seguridad
Politicas y medidas de seguridadPoliticas y medidas de seguridad
Politicas y medidas de seguridadCarolina Cols
 
PLAN DE TRABAJO ANUAL DE CAPACITACIONES SOBRE USO DE LAPTOP XO
PLAN DE TRABAJO ANUAL DE CAPACITACIONES SOBRE USO DE LAPTOP XOPLAN DE TRABAJO ANUAL DE CAPACITACIONES SOBRE USO DE LAPTOP XO
PLAN DE TRABAJO ANUAL DE CAPACITACIONES SOBRE USO DE LAPTOP XODaip Lic. Teófila Romero Guzmán
 
Secuencia didactica informatica
Secuencia didactica informaticaSecuencia didactica informatica
Secuencia didactica informaticaaprendizajeEBC
 
Alcances de la auditoria de sistemas
Alcances de la auditoria de sistemasAlcances de la auditoria de sistemas
Alcances de la auditoria de sistemasluisteheranllorente
 
Metodologías De Diseño Y Desarrollo De Sistemas De Información
Metodologías De Diseño Y Desarrollo De Sistemas De InformaciónMetodologías De Diseño Y Desarrollo De Sistemas De Información
Metodologías De Diseño Y Desarrollo De Sistemas De Informacióndavinson garcia
 
Plan de comunicación interna y externa del centro
Plan de comunicación interna y externa del centroPlan de comunicación interna y externa del centro
Plan de comunicación interna y externa del centroSilvia María Corral Berbel
 
Aplicación de la plataforma moodle para mejorar el rendimiento academmico
Aplicación de la plataforma moodle para mejorar el rendimiento academmicoAplicación de la plataforma moodle para mejorar el rendimiento academmico
Aplicación de la plataforma moodle para mejorar el rendimiento academmicoSandro Santiago A
 
Programación Curricular CETPRO JUANJUÍ II
Programación Curricular CETPRO JUANJUÍ IIProgramación Curricular CETPRO JUANJUÍ II
Programación Curricular CETPRO JUANJUÍ IIJerico Del Aguila
 
Preparacion y control del centro de cómputo
Preparacion y control del centro de cómputoPreparacion y control del centro de cómputo
Preparacion y control del centro de cómputoManuel Montenegro
 
Banco de temas de tesis para la carrera de ing. de sistemas
Banco de temas de tesis para la carrera de ing. de sistemasBanco de temas de tesis para la carrera de ing. de sistemas
Banco de temas de tesis para la carrera de ing. de sistemasbrccq
 
Proyecto de Centro de Computo
Proyecto de Centro de ComputoProyecto de Centro de Computo
Proyecto de Centro de Computokarinaliss
 
Proyecto socio tecnologico-tibisay
Proyecto socio tecnologico-tibisayProyecto socio tecnologico-tibisay
Proyecto socio tecnologico-tibisayRonald Rodriguez
 
Uso de las tic en la sociedad
Uso de las tic en la sociedadUso de las tic en la sociedad
Uso de las tic en la sociedadLizh Mora UvUr
 
Curso: Introducción a la seguridad informática: Sílabo
Curso: Introducción a la seguridad informática: SílaboCurso: Introducción a la seguridad informática: Sílabo
Curso: Introducción a la seguridad informática: SílaboJack Daniel Cáceres Meza
 

Tendances (20)

Proyecto productivo computacion
Proyecto productivo computacionProyecto productivo computacion
Proyecto productivo computacion
 
Politicas y medidas de seguridad
Politicas y medidas de seguridadPoliticas y medidas de seguridad
Politicas y medidas de seguridad
 
PLAN DE TRABAJO ANUAL DE CAPACITACIONES SOBRE USO DE LAPTOP XO
PLAN DE TRABAJO ANUAL DE CAPACITACIONES SOBRE USO DE LAPTOP XOPLAN DE TRABAJO ANUAL DE CAPACITACIONES SOBRE USO DE LAPTOP XO
PLAN DE TRABAJO ANUAL DE CAPACITACIONES SOBRE USO DE LAPTOP XO
 
proyectos informaticos
proyectos informaticosproyectos informaticos
proyectos informaticos
 
Secuencia didactica informatica
Secuencia didactica informaticaSecuencia didactica informatica
Secuencia didactica informatica
 
Alcances de la auditoria de sistemas
Alcances de la auditoria de sistemasAlcances de la auditoria de sistemas
Alcances de la auditoria de sistemas
 
Estrategias de recuperación de información: Hot Sites
Estrategias de recuperación de información: Hot SitesEstrategias de recuperación de información: Hot Sites
Estrategias de recuperación de información: Hot Sites
 
Metodologías De Diseño Y Desarrollo De Sistemas De Información
Metodologías De Diseño Y Desarrollo De Sistemas De InformaciónMetodologías De Diseño Y Desarrollo De Sistemas De Información
Metodologías De Diseño Y Desarrollo De Sistemas De Información
 
Plan de comunicación interna y externa del centro
Plan de comunicación interna y externa del centroPlan de comunicación interna y externa del centro
Plan de comunicación interna y externa del centro
 
Aplicación de la plataforma moodle para mejorar el rendimiento academmico
Aplicación de la plataforma moodle para mejorar el rendimiento academmicoAplicación de la plataforma moodle para mejorar el rendimiento academmico
Aplicación de la plataforma moodle para mejorar el rendimiento academmico
 
Programación Curricular CETPRO JUANJUÍ II
Programación Curricular CETPRO JUANJUÍ IIProgramación Curricular CETPRO JUANJUÍ II
Programación Curricular CETPRO JUANJUÍ II
 
Preparacion y control del centro de cómputo
Preparacion y control del centro de cómputoPreparacion y control del centro de cómputo
Preparacion y control del centro de cómputo
 
Banco de temas de tesis para la carrera de ing. de sistemas
Banco de temas de tesis para la carrera de ing. de sistemasBanco de temas de tesis para la carrera de ing. de sistemas
Banco de temas de tesis para la carrera de ing. de sistemas
 
Proyecto de Centro de Computo
Proyecto de Centro de ComputoProyecto de Centro de Computo
Proyecto de Centro de Computo
 
Proyecto socio tecnologico-tibisay
Proyecto socio tecnologico-tibisayProyecto socio tecnologico-tibisay
Proyecto socio tecnologico-tibisay
 
Actividad 1
Actividad 1Actividad 1
Actividad 1
 
Interfaz gráfica de usuario 2015-2016
Interfaz gráfica de usuario 2015-2016Interfaz gráfica de usuario 2015-2016
Interfaz gráfica de usuario 2015-2016
 
Uso de las tic en la sociedad
Uso de las tic en la sociedadUso de las tic en la sociedad
Uso de las tic en la sociedad
 
Curso: Introducción a la seguridad informática: Sílabo
Curso: Introducción a la seguridad informática: SílaboCurso: Introducción a la seguridad informática: Sílabo
Curso: Introducción a la seguridad informática: Sílabo
 
Rúbrica para evaluar y ejercicios de excel 2010
Rúbrica para evaluar y ejercicios de excel 2010Rúbrica para evaluar y ejercicios de excel 2010
Rúbrica para evaluar y ejercicios de excel 2010
 

Similaire à Data Mining. Extracción de Conocimiento en Grandes Bases de Datos

Text mining para historiadores de arte
Text mining para historiadores de arteText mining para historiadores de arte
Text mining para historiadores de artePepe
 
Introduccion a la Terminologia de la sociedad e informacion
Introduccion a la Terminologia de la sociedad e informacion Introduccion a la Terminologia de la sociedad e informacion
Introduccion a la Terminologia de la sociedad e informacion Marilupe
 
Open Data in the world of Science” by Dr. Claudio Gutiérrez
Open Data in the world of Science” by Dr. Claudio GutiérrezOpen Data in the world of Science” by Dr. Claudio Gutiérrez
Open Data in the world of Science” by Dr. Claudio GutiérrezLEARN Project
 
BIG DATA (MACRODATOS).pdf
BIG DATA (MACRODATOS).pdfBIG DATA (MACRODATOS).pdf
BIG DATA (MACRODATOS).pdfssuser88a1941
 
Señor perez!!
Señor perez!!Señor perez!!
Señor perez!!kaleco
 
Tópicos de Big Data - Introducción
Tópicos de Big Data - IntroducciónTópicos de Big Data - Introducción
Tópicos de Big Data - IntroducciónErnesto Mislej
 
Minería de Datos: Conceptos y Tendencias
Minería de Datos: Conceptos y TendenciasMinería de Datos: Conceptos y Tendencias
Minería de Datos: Conceptos y Tendenciastravon1
 
sociedad de la información
sociedad de la informaciónsociedad de la información
sociedad de la informaciónpatocop
 
Introducción a la terminología de la sociedad e
Introducción a la terminología de la sociedad eIntroducción a la terminología de la sociedad e
Introducción a la terminología de la sociedad eMegamover
 
Introducción a la terminología de la sociedad e
Introducción a la terminología de la sociedad eIntroducción a la terminología de la sociedad e
Introducción a la terminología de la sociedad eMegamovil
 
Unidad 1 informática y Computación
Unidad 1 informática y ComputaciónUnidad 1 informática y Computación
Unidad 1 informática y ComputaciónJazmin Silva
 
Sistemas de información
Sistemas de informaciónSistemas de información
Sistemas de informaciónkadag
 
Tic's presentación lisandro.
Tic's presentación lisandro.Tic's presentación lisandro.
Tic's presentación lisandro.lisandrojazz10
 
Clase 1-introducción%20a%20la%20terminología%20de%20la%20sociedad%20e[1]
Clase 1-introducción%20a%20la%20terminología%20de%20la%20sociedad%20e[1]Clase 1-introducción%20a%20la%20terminología%20de%20la%20sociedad%20e[1]
Clase 1-introducción%20a%20la%20terminología%20de%20la%20sociedad%20e[1]Maria
 
Clase 1-introducción a la terminología de la sociedad e
Clase 1-introducción a la terminología de la sociedad eClase 1-introducción a la terminología de la sociedad e
Clase 1-introducción a la terminología de la sociedad emat3matik
 

Similaire à Data Mining. Extracción de Conocimiento en Grandes Bases de Datos (20)

Text mining para historiadores de arte
Text mining para historiadores de arteText mining para historiadores de arte
Text mining para historiadores de arte
 
Introduccion a la Terminologia de la sociedad e informacion
Introduccion a la Terminologia de la sociedad e informacion Introduccion a la Terminologia de la sociedad e informacion
Introduccion a la Terminologia de la sociedad e informacion
 
Open Data in the world of Science” by Dr. Claudio Gutiérrez
Open Data in the world of Science” by Dr. Claudio GutiérrezOpen Data in the world of Science” by Dr. Claudio Gutiérrez
Open Data in the world of Science” by Dr. Claudio Gutiérrez
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
BIG DATA (MACRODATOS).pdf
BIG DATA (MACRODATOS).pdfBIG DATA (MACRODATOS).pdf
BIG DATA (MACRODATOS).pdf
 
Señor perez!!
Señor perez!!Señor perez!!
Señor perez!!
 
Tópicos de Big Data - Introducción
Tópicos de Big Data - IntroducciónTópicos de Big Data - Introducción
Tópicos de Big Data - Introducción
 
Minería de Datos: Conceptos y Tendencias
Minería de Datos: Conceptos y TendenciasMinería de Datos: Conceptos y Tendencias
Minería de Datos: Conceptos y Tendencias
 
Tic's
Tic'sTic's
Tic's
 
sociedad de la información
sociedad de la informaciónsociedad de la información
sociedad de la información
 
Introducción a la terminología de la sociedad e
Introducción a la terminología de la sociedad eIntroducción a la terminología de la sociedad e
Introducción a la terminología de la sociedad e
 
Introducción a la terminología de la sociedad e
Introducción a la terminología de la sociedad eIntroducción a la terminología de la sociedad e
Introducción a la terminología de la sociedad e
 
Clase 1-intro
Clase 1-introClase 1-intro
Clase 1-intro
 
Unidad 1 informática y Computación
Unidad 1 informática y ComputaciónUnidad 1 informática y Computación
Unidad 1 informática y Computación
 
Sistemas de información
Sistemas de informaciónSistemas de información
Sistemas de información
 
Tic's presentación lisandro.
Tic's presentación lisandro.Tic's presentación lisandro.
Tic's presentación lisandro.
 
CONCEPTOS BASICOS DE LA INFORMACIÓN
CONCEPTOS BASICOS DE LA INFORMACIÓNCONCEPTOS BASICOS DE LA INFORMACIÓN
CONCEPTOS BASICOS DE LA INFORMACIÓN
 
Clase 1-introducción%20a%20la%20terminología%20de%20la%20sociedad%20e[1]
Clase 1-introducción%20a%20la%20terminología%20de%20la%20sociedad%20e[1]Clase 1-introducción%20a%20la%20terminología%20de%20la%20sociedad%20e[1]
Clase 1-introducción%20a%20la%20terminología%20de%20la%20sociedad%20e[1]
 
Clase 1
Clase 1Clase 1
Clase 1
 
Clase 1-introducción a la terminología de la sociedad e
Clase 1-introducción a la terminología de la sociedad eClase 1-introducción a la terminología de la sociedad e
Clase 1-introducción a la terminología de la sociedad e
 

Plus de Roberto Espinosa

Plus de Roberto Espinosa (7)

Ergonomia sap 2012
Ergonomia sap 2012Ergonomia sap 2012
Ergonomia sap 2012
 
Modelado Dimensional 4 Etapas
Modelado Dimensional 4 EtapasModelado Dimensional 4 Etapas
Modelado Dimensional 4 Etapas
 
Fundamentos dw
Fundamentos dwFundamentos dw
Fundamentos dw
 
Diseño Dimensional
Diseño DimensionalDiseño Dimensional
Diseño Dimensional
 
Evolucion Poblacion Distrito
Evolucion Poblacion DistritoEvolucion Poblacion Distrito
Evolucion Poblacion Distrito
 
Estadisticas de londres
Estadisticas de londresEstadisticas de londres
Estadisticas de londres
 
Informatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools ComparisonInformatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools Comparison
 

Dernier

EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudianteAndreaHuertas24
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxLolaBunny11
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfJulian Lamprea
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITMaricarmen Sánchez Ruiz
 

Dernier (13)

EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdf
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 

Data Mining. Extracción de Conocimiento en Grandes Bases de Datos

  • 1. Data Mining. Extracción de Conocimiento en José Manuel Gutiérrez, Universidad de Cantabria. (2001) Grandes Bases de Datos http://etsiso2.macc.unican.es/~meteo J o sé M. Gutiérrez http://personales.unican.es/gutierjm Dpto. de Matemática Aplicada, Universidad de Cantabria, Santander http://personales.unican.es/gutierjm
  • 2. El Mundo de la Información y sus Problemas. • Cada vez se genera más información y se hace más fácil el acceso masivo a la misma (existen gran cantidad de bases de datos on-line) José Manuel Gutiérrez, Universidad de Cantabria. (2001) ¸ Transacciones bancarias, Internet y la Web, observaciones científicas (biología, altas energías, etc. ) "tranNASA’s EOS (Earth Observation System)". • La tecnología es barata y los sistemas de gestión de bases de datos son capaces de trabjar con cantidades masivas de datos (Terabytes). Los datos contienen información útil "CONOCIMIENTO" !!! http://personales.unican.es/gutierjm • Necesitamos extraer información (conocimiento) de estos datos: ¸Rapidez y confiabilidad. ¸Capacidad de modelización y escalabilidad. ¸Explicación e Interpretación de los resultados (visualización, …). WalMart captura transacciones de 2900 tiendas en 6 países. Esta información e acumula en una base de datos masiva de 7.5 terabyte. WalMart permite que más de 3500 proveedores accedan a los datos relativos a sus productos para realizar distintos análisis. Así pueden identificar clientes, patrones de compras, etc. En 1995, WalMart computers procesó más de un millón de consultas complejas.
  • 3. Datos, Información y Conocimiento. ¿Qué diferencias hay entre información, datos y conocimiento? José Manuel Gutiérrez, Universidad de Cantabria. (2001) ¸ Informalmente se utilizan indistintamente, con pequeños matices. ¸ información y datos se pueden referir a cualquier cosa, aunque “Datos” suele referir a la “evidencia”. ¸ Conocimiento es subjetivo: depende de las intenciones (objetivo del aprendizaje). debe ser inteligible para el que aprende o el que encarga el aprendizaje (usuario). ¿Qué es aprendizaje? http://personales.unican.es/gutierjm ¸ (visión genérica, Mitchell 1997) es mejorar el comportamiento a partir de la experiencia. Aprendizaje = Inteligencia. ¸ (visión más estática) es la identificación de patrones , de regularidades, existentes en la evidencia. ¸ (visión externa) es la predicción de observaciones futuras con plausibilidad. ¸ (visión teórico- informacional, Solomonoff 1966) es eliminación de redundancia = compresión de información .
  • 4. Acceso a los Datos. Evolución histórica. La necesidad de almacenar información ha motivado históricamente el desarrollo de sistemas más eficientes, con mayor capacidad y más baratos de almacenamiento. José Manuel Gutiérrez, Universidad de Cantabria. (2001) http://personales.unican.es/gutierjm • Bases de datos relacionales. • DBMS (Data Base Management Systems) y repositorios de información: – Bases de datos orientadas a objetos y objeto-relacionales. – Bases de datos espaciales (geográficas). – Bases de datos de texto y multimedia. – WWW.
  • 5. OLAP (On-Line Analytical Processing) Sobre estas mismas bases de datos de trabajo ya se puede extraer conocimiento (visión tradicional). José Manuel Gutiérrez, Universidad de Cantabria. (2001) ¸Se mantiene el trabajo transaccional diario de los sistemas de información originales (conocido como OLTP, On- Line Transactional Processing ). ¸Se hace análisis de los datos en tiempo real sobre la misma base de datos( conocido como OLAP, On- Line Analytical Processing ), Según la organización de la información copiada se distingue: ¸ROLAP (Relational OLAP): el almacén de datos es relacional. http://personales.unican.es/gutierjm ¸MOLAP (Multidim OLAP): el almacén de datos es una matriz multidimensional. Cada atributo relevante se establece en una dimensión, que se puede agregar o desagregar.
  • 6. Data Warehouses. Génesis. José Manuel Gutiérrez, Universidad de Cantabria. (2001) PROBLEMAS: ¸ Disturba el trabajo transaccional diario de los sistemas de información originales http://personales.unican.es/gutierjm (“ killer queries ”). Se debe hacer por la noche o en fines de semana. ¸ La base de datos está diseñada para el trabajo transaccional, no para el análisis de los datos. Generalmente no puede ser en tiempo real (era AP pero no OLAP). Para poder operar eficientemente con esos datos y debido a que los costes de almacenamiento masivo y conectividad se han reducido drásticamente en los últimos años, parece razonable recoger (copiar) los datos en un sistema unificado.
  • 7. Data Warehouses DATA-WAREHOUSES (Almacenes de Datos): Se separan de los datos a analizar con respecto a sus fuentes transaccionales (se copia/ almacena toda José Manuel Gutiérrez, Universidad de Cantabria. (2001) la información histórica). Existe toda una tecnología creciente de cómo organizarlos y sobretodo de cómo tenerlos actualizados (cargas periódicas) respecto a los datos originales VENTAJAS: ¸Facilita el análisis de los datos en tiempo real (OLAP), ¸No disturba el OLTP de las bases de datos originales. http://personales.unican.es/gutierjm A partir de ahora diferenciaremos entre bases de datos para OLTP (tradicional) y almacenes de datos (KDD sobre data warehouses).
  • 8. Construcción de un Data Warehouse Data Warehouse Limpieza y criba selección de datos: José Manuel Gutiérrez, Universidad de Cantabria. (2001) Se deben elmininar el mayor número posible de datos erróneos o inconsistentes (limpieza) e Data Cleaning irrelevantes (criba). Se aplican métodos estadísticos: -Histogramas (detección de datos anómalos). - Redefinición de atributos (agrupación o separación). Databases Muy relacionado con la disciplina de “Calidad de Datos”. http://personales.unican.es/gutierjm Acciones ante datos anómalos (outliers): - Ignorar: algunos algoritmos son robustos a datos anómalos. - Filtrar (eliminar o reemplazar) la columna: solución extrema. - Discretizar: transformar un valor continuo en uno discreto (p. ej. muy alto, alto, etc.) hace que los outliers caigan en ‘muy alto’ o ‘muy bajo’ sin mayores problemas. Acciones ante datos faltantes (missing values): - Ignorar: algunos algoritmos son robustos a datos faltantes. - Filtrar (eliminar o reemplazar) la columna - Reemplazar el valor: por medias. A veces se puede predecir a partir de otros datos, utilizando cualquier técnica de ML.
  • 9. ¿Qué es Data Mining (minería de datos)? the non trivial extraction of implicit, CONOCIMIENTO previously unknown, and potentially José Manuel Gutiérrez, Universidad de Cantabria. (2001) Pattern useful information from data Evaluation W. Frawley and G. Piatetsky-Shapiro and C. Matheus, Knowledge Discovery in Databases: An Overview. AI Magazine, Fall 1992, 213-228. Data Mining Task-relevant Data http://personales.unican.es/gutierjm Data Selection Warehouse Datos imprecisos e incompletos Data Cleaning almacenados en Data Integration múltiples fuentes Heterogéneos y Databases mezclados.
  • 10. Diferencias entre DBMS y Data Mining En los sistemas estándar de gestión de bases de datos las José Manuel Gutiérrez, Universidad de Cantabria. (2001) consultas se resuelven accediendo a distintos conjuntos de datos almacenados: ¸Ventas del último mes de un producto. ¸Ventas agrupadas por la edad del comprador. Los sistemas de data mining infieren conocimiento de la base http://personales.unican.es/gutierjm de datos en forma de estructuras y patrones. Este conocimiento supone un nuevo conjunto de información en base a la cual se responden las consultas: ¸por qué es tan rentable la división Iberoamericana de Telefónica? ¸¿qué clientes son potenciales compradores de un producto? ¸¿cuál será el beneficio de la compañía el mes próximo?
  • 11. Acceso a Datos vs. Acceso a Conocimiento http://www.datamining.com Paradigma de Acceso a Datos: José Manuel Gutiérrez, Universidad de Cantabria. (2001) El usuario solicita datos y procesa los datos recibidos en busca de "conocmiento". SQL + algoritmos de data mining. Paradigma de Acceso a Conocimiento: El sistema genera automáticamente patrones de conocimiento refinados y el usuario accede directamente a los mismos. PQL = Pattern Query Languaje http://personales.unican.es/gutierjm PQL was designed to access patterns just as SQL was designed to access data. PQL resembles SQL, works atop existing SQL engines. Information Discovery uses a Pattern WarehouseTM of refined information and PQL works on patterns just as SQL works on a datawarehouse. While SQL relies on the relational algebra, PQL uses the "pattern algebra". PQL allows pattern-based queries just as SQL allows data-based queries. And, PQL uses SQL as part of its operation, i.e. PQL queries are decomposed into a set of related SQL queries, the Pattern Warehouse is accessed with these queries and the results are re-combined for display to the user. The user accesses these patterns using a web browser.
  • 12. Data Mining and Business Intelligence Jiawei Han Intelligent Database System Research Lab http://www.cs.sfu.ca/~han José Manuel Gutiérrez, Universidad de Cantabria. (2001) Increasing potential to support business decisions End User Making Decisions Data Presentation Business Analyst Visualization Techniques http://personales.unican.es/gutierjm Data Mining Data Information Discovery Analyst Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA DBA Data Sources Paper, Files, Information Providers, Database Systems, OLTP
  • 13. Multidisciplinar. Areas y Técnicas Involucradas variety of techniques to identify nuggets of information or decision-making knowledge in bodies of data, and extracting these in such a way that they can be José Manuel Gutiérrez, Universidad de Cantabria. (2001) put to use in the areas such as decision support, prediction, forecasting and estimation. The data is often voluminous, but as it stands of low value as no direct use can be made of it; it is the hidden information in the data that is useful. Areas Involucradas ¸Componentes Principales: compresión de la información. ¸Componentes Independientes: extracción de características. ¸Modelado de Dependencias: http://personales.unican.es/gutierjm hallar asociaciones entre variables. redes Bayesianas ¸Agrupación: hallar grupos de elementos. ¸Clasificación: asignar elementos a clases. ¸Predicción: estimación de valores. ¸Visualización: representación gráfica. Redes Neuronales
  • 14. Estadística y Ciencias de la Computación • Estadística – 1970: EDA, estimación Bayesiana, modelos flexibles, EM, etc José Manuel Gutiérrez, Universidad de Cantabria. (2001) – Conciencia sobre el papel de la computación en el análisis de datos. • Reconocimiento de Patrones e Inteligencia Artificial – Atención dirigiga a problemas de percepción (e.g., habla, visión) – 1960: división en técnicas estadísticas y no estadísticas (gramáticas, etc.) – Convergencia de estadística aplicada e ingeniería (análisis imágenes, Geman) • Aprendizaje Automático y Redes Neuronales – 1980: fracaso de las téncias de aprendizaje no estadísticas – Aparición de modelos flexibles (árboles, redes) http://personales.unican.es/gutierjm – Convergencia de estadística aplicada y aprendizaje • e.g., trabajos de Friedman, Spiegelhalter, Jordan, Hinton IA / Apredizaje Automático Bases de Datos Extracción automática de conocimiento Bases de datos masivas 1989 KDD workshop Reglas de asociación ACM SIGKDD 2000 Algoritmos escalables MINERIA DE DATOS
  • 15. Focus Areas Padhraic Smyth. Information and Computer Science University of California, Irvine José Manuel Gutiérrez, Universidad de Cantabria. (2001) Computer Science Statistics Statistical Statistical Neural Machine Data Databases Inference Pattern Networks Learning Mining Recognition http://personales.unican.es/gutierjm Nonlinear Flexible Pattern Computer Vision, Regression Classification Finding Signal Recognition Models Scalable Graphical Hidden Algorithms Models Variable Models
  • 16. Inteligencia Artificial José Manuel Gutiérrez, Universidad de Cantabria. (2001) Técnicas Nuevos Clásicas Paradigmas Inspiración Biológica Representación explícita del http://personales.unican.es/gutierjm conocimiento sentencias lógicas, reglas, grafos, redes semánticas, etc. Imitación del proceso humano de razonamiento Procesamiento en serie Inferencia lógica, búsqueda en grafos de la información
  • 17. Areas y Técnicas Involucradas variety of techniques to identify nuggets of information or decision-making knowledge in bodies of data, and extracting these in such a way that they can be José Manuel Gutiérrez, Universidad de Cantabria. (2001) put to use in the areas such as decision support, prediction, forecasting and estimation. The data is often voluminous, but as it stands of low value as no direct use can be made of it; it is the hidden information in the data that is useful. ¸Modelado de Dependencias: Técnicas Involucradas asociaciones entre variables. reglas y grafos (redes Bayesianas). ¸Componentes Principales: compresión de la información. http://personales.unican.es/gutierjm ¸Componentes Independientes: extracción de características. ¸Agrupación: hallar grupos de elementos. ¸Clasificación: asignar elementos a clases. ¸Predicción: estimación de valores. ¸Visualización: representación gráfica.
  • 18. Hot Topics (Statistics and Machine Learning) Padhraic Smyth Information and Computer Science José Manuel Gutiérrez, Universidad de Cantabria. (2001) University of California, Irvine Nonlinear Flexible Pattern Computer Vision, Regression Classification Finding Signal Recognition Models Hidden Graphical Scalable Variable Models Algorithms http://personales.unican.es/gutierjm Models Classification Belief Trees Deformable Mixture/ Networks Templates Factor Models Association Rules Hidden Support Markov Model Vector Models Combining Machines
  • 19. Objetivos. Un Primer Ejemplo Asociación: José Manuel Gutiérrez, Universidad de Cantabria. (2001) Interesa obtener automáticamente reglas que relacionen unos atributos de la base de datos con otros, en base a alguna asociación: Ejemplo - Base de datos de clientes de un banco. Regla de Asociación: if STATUS = married and INCOME > 10000 and HOUSE_OWNER = yes then INVESTMENT_TYPE = good http://personales.unican.es/gutierjm Clasificación: Un sistema de minería de datos aprende de los datos cómo particionar o calsificar los mismos en base a reglas de clasificación: Ejemplo - Base de datos de clientes de un banco. Pregunta - Un cliente que solicita un préstamo, es una buena inversión? Regla típica formulada: if STATUS = married and INCOME > 10000 and HOUSE_OWNER = yes then INVESTMENT_TYPE = good
  • 20. Aplicaciones de la Minería de Datos. Gran cantidad de información (financiera, servicios, empresas, universidades, libros y hobbies), con complejas interrelaciones. José Manuel Gutiérrez, Universidad de Cantabria. (2001) El 99% de la información no le interesa al 99% de la gente. En Internet Ambiente dinámico ¸E-bussines. Perfiles de clientes, publicidad dirigida, fraude. ¸Buscadores "inteligentes". Generación de jerarquías, bases de conocimiento web. ¸Gestión del tráfico de la red. Control de eficiencia y errores. ÿ Reglas de asociación: El 60% de las personas que esquían viajan frecuentemente a Europa. ÿ Clasificación: Personas menores de 40 años y salario superior a 2000$ compran on-line frecuentemente. ÿ Clustering: http://personales.unican.es/gutierjm Los usuarios A y B tienen gustos parecidos (acceden URLs similares). ÿ Detección de "outliers" El usuario A navega en Internet más del doble del tiempo promedio. La publicidad en Internet es uno de los tópicos más actuales de Data Mining. Los data warehouse de las empresas contienen enormes cantidades de información sobre sus clientes y gestiones. El Mundo de los Negocios ¸Banca. Grupos de clientes, préstamos, oferta de productos. ¸Compañías de seguros. Detección de fraude, administración de recursos. ¸Marketing. Publicidad dirigida, estudios de competencia.
  • 21. La cantidad de información generada en proyectos científicos ha sido enorme: Genoma Humano, datos geofísicos, altas energías, etc. En Biología, Meteorología, etc. José Manuel Gutiérrez, Universidad de Cantabria. (2001) ¸Bio-Informática. Búsqueda de patrones en ADN, consultas inteligentes. ¸Meteorología. Teleconexiones (asociaciones espaciales), predicción. ¸Física (altas energías). Datos de colisiones de partículas (búsqueda de patrones). Escherichia Coli 176195 bases gccattacct http://personales.unican.es/gutierjm ctggtctgga agtagtctgg acccagacgc cgacccagtg WP4: TESTBED gagcaactat http://www.ifca.unican.es/crossgrid/ Secuencias numéricas ttcttcgaga Secuencia acctgttcaa Electrocardiogramas, etc. Simbólica gtatgagtgg EJEMPLO !!!!!!!!!!!!!!!!!!
  • 22. Ejemplo. Meteorología. ¸Meteorología. Teleconexiones (asociaciones espaciales), predicción. José Manuel Gutiérrez, Universidad de Cantabria. (2001) Existen bases de datos con simulaciones de los campos atmosféricos en rejillas dadas. http://personales.unican.es/gutierjm Se dispone de gran cantidad de información en observatorios locales: Precipitación, temperatura, Viento, etc.
  • 23. Los 6 primeros dígitos son fecha con el formato:aammdd (año,mes y día) Fecha Tormenta posición 7: 0=Sin Precipitación 1=Lluvia 3=Llovizna 5=Chubasco posición 8: 0=Sin Nieve 1,2,3 o 4=Nieve posición 9: 0=Sin Granizo 1,2,3 o 4=Granizo posición 10: 0=Sin Viento Tormenta 1=Tormenta Nieve Granizo Escarcha posición 11: 0=Sin Niebla 1,2,3 o 4=Niebla José Manuel Gutiérrez, Universidad de Cantabria. (2001) Neblina posición 12: 0=Sin Rocío 1 o 6=Rocío posición 13: 0=Sin Escarcha 1 o 6=Escarcha posición Rocío Nieve Suelo Polvareda 14: 0=Sin Nieve cubriendo el Suelo 1=Nieve cubriendo el Suelo posición 15: 0=Sin Neblina 1=Neblina posición 16: 0=Sin Calima 1=Calima posición 17: 0=Sin Viento>50km/h 1=Viento>50km/h Precipitación posición 18: 0=Sin Polvareda 1=Polvareda Niebla 860101500000000010 860102100000000010 http://personales.unican.es/gutierjm Fecha Granizo Calima 860103500100000010 Rocío 860104500000000010 Precipitación Neblina Escarcha 860105101100000010 Tormenta 860106101100000010 Niebla 860107300100000010 Nieve Viento Nieve Suelo 860108500000000010 Polvareda 860109500000001000 860110000001001100 860111001000000000
  • 24. Libros y Material de Consulta Data Mining: Practical Machine Learning Tools and José Manuel Gutiérrez, Universidad de Cantabria. (2001) Techniques with Java Implementations Ian H. Witten, Eibe Frank Machine Learning and Data Mining Open Soure Tools in Java http://www.cs.waikato.ac.nz/~ml/weka/ Advances in Knowledge Discovery and Data Mining http://personales.unican.es/gutierjm Edited by U.M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy The AAAI Press Data Mining Techniques: For Marketing, Sales, and Customer Support By Michael J. Berry,Gordon Linoff Wiley, John & Sons, http://www1.fatbrain.com/FindItNow/Services/home.cl?from=cbs169&store=1
  • 25. Libros disponibles en Internet José Manuel Gutiérrez, Universidad de Cantabria. (2001) Expert Systems and Probabilistic Network Models. E. Castillo, J.M. Gutiérrez, y A.S. Hadi Springer-Verlag, New York. http://personales.unican.es/gutierjm Monografías de la Academia Española de Ingeniería An Introduction to Functional Networks E. Castillo, A. Cobo, J.M. Gutiérrez and E. Pruneda Kluwer Academic Publishers (1999). Paraninfo/International Thomson Publishing
  • 26. Enlaces Interesantes y Revistas The Data Mine provides information about Data Mining and Knowledge Discovery in Databases (KDD). José Manuel Gutiérrez, Universidad de Cantabria. (2001) http://www.cs.bham.ac.uk/~anp/TheDataMine.html http://www.data-miners.com/ http://www.kdcentral.com/Software/Data_Mining/ http://www.andypryke.com/university/software.html http://www.galaxy.gmu.edu/stats/syllabi/DMLIST.html Journals http://personales.unican.es/gutierjm Data Mining and Knowledge Discovery. http://www.wkap.nl/journalhome.htm/1384-5810 Intelligent Data Analysis http://www.iospress.nl/site/html/1088467x.html IEEE Trans. on Knowledge and Data Engineering http://www.iospress.nl/site/html/1088467x.html Related Journals (from IDA) http://www.ida-society.org/journals.html
  • 27. El Portal KDnuggets: http://www.kdnuggets.com/ Portal dedicado a Data Mining, Web Mining y Búsqueda de Conocimiento. José Manuel Gutiérrez, Universidad de Cantabria. (2001) http://personales.unican.es/gutierjm
  • 28. José Manuel Gutiérrez, Universidad de Cantabria. (2001) http://personales.unican.es/gutierjm Productos Comerciales
  • 29. José Manuel Gutiérrez, Universidad de Cantabria. (2001) http://personales.unican.es/gutierjm Un Ejemplo: DBMiner. http://www.dbminer.com
  • 30. José Manuel Gutiérrez, Universidad de Cantabria. (2001) http://personales.unican.es/gutierjm IBM DB2 Intelligent Miner
  • 31. IBM Advanced Scout. http://www.research.ibm.com/scout/ Using data mining software called Advanced Scout to José Manuel Gutiérrez, Universidad de Cantabria. (2001) prepare for a game, a coach can quickly review countless stats: shots attempted, shots blocked, assists made, personal fouls. But Advanced Scout can also detect patterns in these statistics that a coach may not have known about. So during a game, a coach can know exactly which plays are most effective with which players and under what circumstances. “attribute focusing” finds conditional ranges on attributes http://personales.unican.es/gutierjm where the distributions differ from the norm. An analysis of the data from a game played between the New York Knicks and the Charlotte Hornets revealed that when "Glenn Rice played the shooting guard position, he shot 5/6 (83%) on jump shots." Through data mining, Advanced Scout identified a certain player (Rice), playing a certain position (shooting guard), shooting at a certain rate (83%), on a certain type of shot (jump shots). Advanced Scout not only finds this pattern, but points out that it is interesting because it differs considerably from the average shooting percentage of 54% for the Charlotte Hornets during that game.
  • 32. José Manuel Gutiérrez, Universidad de Cantabria. (2001) http://personales.unican.es/gutierjm http://etsiso2.macc.unican.es/~meteo The Toolbox “MeteoLab” Data Mining in Meteorology
  • 33. Modelado de Dep. (reglas de asociación) José Manuel Gutiérrez, Universidad de Cantabria. (2001) ¸Modelado de Dependencias: asociaciones entre variables. reglas y grafos. ¸Componentes Principales: compresión de la información. ¸Componentes Independientes: http://personales.unican.es/gutierjm extracción de características. ¸Agrupación: hallar grupos de elementos. ¸Clasificación: asignar elementos a clases. ¸Predicción: estimación de valores. ¸Visualización: representación gráfica.
  • 34. Relaciones entre atributos. Fórmulas y Reglas. Una de las técnicas más habituales en data mining consiste en extraer las relaciones relevantes que existan entre conjuntos de variables (itemsets) de la base de datos. José Manuel Gutiérrez, Universidad de Cantabria. (2001) De esta forma se pueden detectar errores, fraudes, e inconsistencias fácilmente. En el caso de bases de datos relacionales trabajaríamos con conjuntos formados por pares (atributo # valor) utilizando los registros de la base de datos. {Cliente = Pepe, Precio > 10$} {Producto = Café} Estas relaciones de asociación se pueden establecer en distintas formas: http://personales.unican.es/gutierjm ¸Reglas if-then "reglas de asociación" If Cliente is Pepe Son implicaciones de la forma X=>Y and Precio is lower than 10$ if (X1= a, X3= c, X5= d) then (X4= b, X2= a) Then Producto = Café La fiabilidad [confidence] es la proporción de Aquellos registros con X que también contienen confidence: 0.98 también a Y. The rule exists in 102 records Significance level: error prob < 0.001 La relevancia [support] es la proporción de registros que contienen tanto X como Y.
  • 35. ¸Asociaciones The value Pepe in the Cliente field Se buscan asociaciones de la forma: is associated with the value Café in (X1= a) <=> (X4= b) the Producto field De los n registros de la tabla, las dos igualdades José Manuel Gutiérrez, Universidad de Cantabria. (2001) Son verdaderas o falsas simultáneamente Rule’s fiab: 0.8 en rc casos: fiabilidad de la asociación = rc /n Ejemplo: http://personales.unican.es/gutierjm Reglas de Asociación: (Hijos > 0) => Casado (100%, 2 casos). Casado => Obeso (100%, 3 casos). Asociaciones: Casado e (Hijos > 0) están asociados (80%, 4 casos). Obeso y casado están asociados (80%, 4 casos)
  • 36. ¸Fórmulas A=B*C Where: A = Total Relaciones matemáticas X=f(Y,Z)=Y*Z B = Cantidad José Manuel Gutiérrez, Universidad de Cantabria. (2001) La fiabilidad denota el cociente entre el número de casos en que se cumple la C = Precio fórmula (suponiendo un cierto error de Rule’s Accuracy Level: 0.99 redondeo) y el número total de casos. The rule exists in 1890 records ¸Reglas de hortografía. The value Pepe appears 52 times in the Cliente field. Estas reglas permiten detectar errores de ortografía. Un nombre es similar a otro pero http://personales.unican.es/gutierjm There are 2 case(s) la frecuencia en que aparecen ambos es containing similar value(s) muy diferente. {Pepr, Repe} (Text Mining)
  • 37. José Manuel Gutiérrez, Universidad de Cantabria. (2001) http://personales.unican.es/gutierjm Ejemplo
  • 38. Búsqueda de Reglas de Asociación La mayoría se basa en descomponer el problema en dos fases: • FASE A: BÚSQUEDA DE GRANDES CONJUNTOS DE ATRIBUTOS. José Manuel Gutiérrez, Universidad de Cantabria. (2001) Se buscan conjuntos de atributos con relevancia >= umbral. De momento no se busca separarlos en parte izquierda y parte derecha. • FASE B: ESCLARECIMIENTO DE DEPENDENCIAS (REGLAS). Se hacen particiones binarias y disjuntas de los conjuntos hallados y se calcula la confianza de cada uno. Se retienen aquellas reglas que tienen confianza >= umbral http://personales.unican.es/gutierjm Propiedad: cualquier subconjunto de un conjunto grande es también grande. AIS es el primer algoritmo que se desarrolló para obtener reglas de asociación. AIS [Agrawal, Imielinski & Swami] X=>Y [s,c] donde R. Agrawal, T. Imielinsky & A. Swami ¸Y es un único atributo, IBM Almaden Research Center, 1993 ¸s es la relevancia y ¸c su fiabilidad.
  • 39. Fase A: Selección Grandes de Atributos Dada una relevancia mínima Rmin: José Manuel Gutiérrez, Universidad de Cantabria. (2001) 1. i = 1 (tamaño de los conjuntos) 2. Generar un conjunto unitario en S1 para cada atributo. 3. Comprobar la relevancia de todos los conjuntos en Si. Eliminar aquellos cuya relevancia < Rmin. 4. Combinar los conjuntos en Si creando conjuntos de tamaño i+1 en Si+1. http://personales.unican.es/gutierjm Este paso se lleva a cabo secuencialmente, recorriendo los registros de la base de datos siguiendo el contador i. Tras leer un registro de la base de datos, se hallan los conjuntos relevantes Si contenidos en el mismo. Si+1 se genera extendiendo los conjuntos hallados con otros atributos del registro. 5. Si Si no es vacío entonces i:= i+ 1. Ir a 3. 6. Si no , retornar S2 » S3 » ... » Si Dados n registros y m atributos o(m 2m -1) reglas posibles. Complejidad computacional o( n m 2 m )
  • 40. Ejemplo José Manuel Gutiérrez, Universidad de Cantabria. (2001) relevancia = 2 confianza = 0.75 FASE A: S1 = {{1}, {2}, {3}, {4}, {5}} S’1:rel = {{1}:2, {2}:3, {3}:3, {5}:3} S2 = {{1,2},{1,3},{1,5},{2, 3},{2, 5},{3, 5}} S’2:rel = {{1,3}:2, {2,3}:2, {2,5}:3, {3,5}:2} S3 = {{1,2, 3}, {1,2, 5}, {1,3, 5}, {2,3, 5}} S’3:rel = {{2,3,5}:2} http://personales.unican.es/gutierjm Sfinal = S’2 » S’3 = {{1, 3}, {2, 3}, {2, 5}, {3, 5}, {2,3,5}} FASE B: {1} Æ {3} : 1 {3} Æ {1} : 0.67 {2} Æ {3} : 0.67 {3} Æ {2} : 0.67 {2} Æ {5} : 1 {5} Æ {2} : 1 {3} Æ {5} : 0.67 {5} Æ {3} : 0.67 {2,3} Æ {5} : 1 {2,5} Æ {3} : 0.67 {3,5} Æ {2} : 1
  • 41. El Algoritmo APRIORI • Fk : Set of frequent itemsets of size k José Manuel Gutiérrez, Universidad de Cantabria. (2001) • Ck : Set of candidate itemsets of size k F1 = {single attribute sets} with minimum support for ( k=2; Fk != 0; k++) do { Ck+1 = New candidates generated from Fk foreach entry t in the database do Increment the count of all candidates in Ck+1 contained in t http://personales.unican.es/gutierjm Fk+1 = Candidates in Ck+1 with minimum support } Answer = Uk Fk • Every subset of a frequent itemset is also frequent => a candidate itemset in Ck+1 can be pruned if even one of its subsets is not contained in Fk