6. Diferentes maneras de encontrar información Técnica de consulta Necesidades de reporte Ejemplo Complejidad Información básica sobre un evento Reporte de operaciones Encontrar el destino de un vendedor en una fecha determinada. Ad-hoc El usuario define las consultas para ayudar a entender un evento. ¿El vendedor V, ha tenido éxito en el pasado con este tipo de clientes? OLAP Condensar información de eventos a través de diferentes dimensiones ¿Cuál es el porcentaje de exito de este producto en esta región? ¿Qué pasa a nivel local, regional, estacional? Data Mining Asociación de atributos, modelado predictivo, agregado (clustering) de información Involucra diferentes atributos, registros y bases de datos. ¿Cuál es el potencial de ventas de este cliente? ¿Como se dividen los clientes en base al éxito de ventas?
7.
8.
9. Dos vistas de Data Mining ? ? ? Muy frecuentes (fáciles de detectar) Muy raras (no son un patrón) Reglas Novedosas y Utiles (difíciles de detectar) ¿nuevo tipo de fraude?
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29. Clasificación: Arboles Edad Sí Crédito Empleo Sí No Empleo Sí No No <25 25…40 >40 bajo medio, alto público público privado privado 0,9 0,9 0,78 0,8 0,9 0,96 Edad Empleo Crédito Compró <25 público bajo No 25…40 privado alto Sí <25 privado medio Sí …
30.
31.
32.
33.
34.
35. ODM: One-Class SVM origen Espacio del problema Como el algoritmo ve el problema
53. Fases de CRISP-DM Comprensión del problema de negocios Comprensión de los datos disponibles Preparación de los datos Evaluación de la Solución Puesta en Producción Construcción de un modelo de DM
54. Fase del Proceso de Desarrollo de Software (RUP) Incepción (Inicio) Elaboración Construcción Transición Comprometer recursos para la fase de elaboración Hito: Objetivo del ciclo de vida del producto Comprometer recursos para construcción Hito: Arquitectura del ciclo de vida del producto El producto está maduro como para entregarlo al cliente Hito: Puesta en operación inicial del producto El cliente acepta el producto, o el producto es terminado Lanzamiento del producto tiempo
55. CRISP-DM y RUP Comprensión del Negocio Comprensión de los Datos Preparación de los Datos Modelado Evaluación Lanzamiento Determinación del problema de Negocios Estimación de situación actual Determinación de objetivos de usar DM Producción de un Plan de Proyecto Recolección inicial de datos Descripción Inicial de datos Exploración de datos Verificación de calidad de datos Selección de datos Limpieza de datos Construcción de una vista coherente de los datos Integración de datos Dar formato apropiado a los datos Selección de un modelo de DM Generación de un diseño de prueba Construcción de un modelo Evaluación del modelo Evaluación de resultados Revisión del proceso Determinación de los próximos pasos Plan de distribución y puesta en marcha Planeación de monitoreo y mantenimiento Producción de reporte final Revisión Final del proyecto Elaboración Incepción Construcción Transición
Conocimiento Evidente: Esta es la información que se puede recuperar fácilmente de bases de datos usando herramientas de consulta tales como SQL. Conocimiento Multidimensional: Esta es la información que se puede analizar utilizando herramientas de procesamiento analítico en línea OLAP. La mayoría de las cosas que se pueden hacer con OLAP también pueden hacerse utilizando SQL. La ventaja de OLAP es que está optimizada para este tipo de búsqueda y operaciones de análisis. Conocimiento Oculto: Estos datos se pueden encontrar fácilmente con KDD y en particular con algoritmos de Data Mining. Una vez más, se podría utilizar SQL para encontrar estos patrones pero se consumiría una enorme cantidad de tiempo. Es decir, utilizando algoritmos de Data Mining se pueden encontrar datos ocultos en minutos, mientras que utilizando SQL se tardarían meses para conseguir los mismos resultados
Well log = making a detailed record --a well log-- of the geologic formations penetrated by a borehole
Areas de aplicacion: Segmentación de productos y clientes en retail, finanzas, salud, manufactura, … Multimedia content-based retrieval Text mining Biología y Análisis Molecular Análisis de Imágenes de Satélite …
Phases represent the management perspective of the project, the “35,000 foot level.” The details are left to the engineering perspective, which is at the iteration level. The names of the milestones are identical to the ones proposed by Barry Boehm in the article “Anchoring the Software Process,” IEEE Software, July 1996, pp. 73-82. The phases of the Unified Process were chosen such that phase boundaries correspond to significant decision points in the life of a project. For example, at the end of Inception, enough work has been done to bound the problem to be solved and a vision of the system has been developed. An initial set of risks has also been identified and evaluated. Based on this information, a decision must be made whether to fund the project. Similar decision points correspond to the end of Elaboration, Construction, and Transition. Milestones help us assess the progress of a project at key points. Management can use these to establish clear criteria from which to decide the course of a project. They provide opportunities to change course. But unlike the waterfall approach, phases contain iterations which yield executable results. Elaboration Define, validate and baseline the architecture as rapidly as is practical. Baseline the vision. Baseline a detailed plan for the construction phase. Demonstrate that the baseline architecture will support the vision at a reasonable cost in a reasonable period of time. Construction Minimizing development costs by optimizing resources and avoiding unnecessary scrap and rework Achieving adequate quality as rapidly as is practical Achieving useful versions (alpha, beta, and other test releases) as rapidly as possible Transition Achieving user self-supportability Achieving stakeholder concurrence that deployment baselines are complete and consistent with the evaluation criteria of the vision Achieving final product baseline as rapidly and cost effectively as possible
Tipo 1: Son menos riesgosos, siempre y cuando las espectativas del cliente se mantengan realistas. Tipo 2: Proyectos del tipo “A ver que encontramos”, Interesantes y valiosos si tienen éxito, pero caros y de alto riesgo.