Sistemas basados en casos

Módulo de Recuperación Módulo de Adaptación

[object Object],[object Object],[object Object]

[object Object],[object Object]

[object Object],hombre mujer ?

[object Object],[object Object],[object Object],[object Object],[object Object]

[object Object],[object Object],[object Object],[object Object]

Temperature Headache Temperature Flu e1 yes normal no e2 yes high yes e3 yes very high yes e4 no normal no e5 no high no e6 no very high no yes yes {e2} no no {e5} yes yes {e3} no no {e6} normal no {e1, e4} Headache high {e2, e5} very high Headache {e3,e6}

<0,0> <x 15 ,x 16 > <x 3 ,x 4 > <x 5 ,x 6 > <x 9 ,x 10 > <x 11 ,x 12 > <x 1 ,x 2 > <x 7 ,x 8 > <x 21 ,x 22 > <x 17 ,x 18 > <x 13 ,x 14 > <x 19 ,x 20 > <x 23 ,x 24 > f(x)= w x+ b

<0,0> <x 15 ,x 16 > <x 3 ,x 4 > <x 5 ,x 6 > <x 9 ,x 10 > <x 11 ,x 12 > <x 1 ,x 2 > <x 7 ,x 8 > <x 21 ,x 22 > <x 17 ,x 18 > <x 13 ,x 14 > <x 19 ,x 20 > <x 23 ,x 24 > Muchas posibilidades !

<0,0> <x 15 ,x 16 > <x 3 ,x 4 > <x 5 ,x 6 > <x 9 ,x 10 > <x 11 ,x 12 > <x 1 ,x 2 > <x 7 ,x 8 > <x 21 ,x 22 > <x 17 ,x 18 > <x 13 ,x 14 > <x 19 ,x 20 > <x 23 ,x 24 > Margen

Uso de las funciones núcleo (kernel functions)

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Toda unidad u j (excepto las de entradas) calcula una nueva activación u ' j S j representa el nivel de voltaje que excita la neurona u ' j denota la intensidad de la salida resultante de la neurona. j 1 2 n . . . w 1 j w 2 j w nj

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Curvas ROC

[object Object],[object Object],[object Object],Corpus of Texts Colección de objetos Algoritmo de agrupamiento Grupo 1 Grupo 2 Grupo k . . . Tan disimilares como sea posible (Heterogeneidad) Tan similares como sea posible (Homogeneidad)

Algoritmo de agrupamiento . . . Corpus of Texts Corpus de textos Tópico 1 Tópico 2 Tópico k

Algoritmo de agrupamiento de documentos Cluster 1 Document 1: <TOPICS><D>cocoa</D></TOPICS> Document 3: <TOPICS><D>cocoa</D></TOPICS> Document 4: <TOPICS><D>cocoa</D></TOPICS> Document 5: <TOPICS><D>cocoa</D></TOPICS> Document 6: <TOPICS><D>cocoa</D></TOPICS> Document 7: <TOPICS><D>cocoa</D></TOPICS> Document 8: <TOPICS><D>cocoa</D></TOPICS> Document 9: <TOPICS><D>cocoa</D></TOPICS> Document 10: <TOPICS><D>cocoa</D></TOPICS> Cluster 2 Document 60: <TOPICS><D>silver</D></TOPICS> Document 61: <TOPICS><D>silver</D></TOPICS> Document 62: <TOPICS><D>silver</D></TOPICS> Document 63: <TOPICS><D>silver</D></TOPICS> Document 64: <TOPICS><D>silver</D></TOPICS> Document 65: <TOPICS><D>silver</D></TOPICS> Document 66: <TOPICS><D>silver</D></TOPICS> Document 67: <TOPICS><D>silver</D></TOPICS> Document 68: <TOPICS><D>silver</D></TOPICS> Document 69: <TOPICS><D>silver</D></TOPICS> Document 70: <TOPICS><D>silver</D></TOPICS> Cluster 17 Document 71: <TOPICS><D>reserves</D></TOPICS> Document 72: <TOPICS><D>reserves</D></TOPICS> Document 74: <TOPICS><D>reserves</D></TOPICS> Document 77: <TOPICS><D>reserves</D></TOPICS> Document 80: <TOPICS><D>reserves</D></TOPICS> … Reuters-21578 Text Categorization Collection, 135 topics http://www.daviddlewis.com/resources/testcollections/reuters21578

BioMed Central's open access full-text corpus for data mining research Algoritmo de agrupamiento de documentos

Solapado Determinista Aglomerativo Divisivo Probabilístico (Fuzzy)  =1 Posibilístico DURO JERÁRQUICO BORROSO

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

A D C E B A D C E B El número de clusters depende de “ donde dibujemos la línea”

[object Object],[object Object],[object Object],[object Object],[object Object],C 1 C 2 i j a ij

[object Object],[object Object],[object Object],[object Object],C 1 C 2 C 1 C 2

[object Object],[object Object],C 1 C 2 avg

[object Object],[object Object],[object Object],[object Object],pequeña grande grande!

[object Object],Cuando  = 1, la forma de calcular la distancia entre los objetos se llama la métrica Manhattan . Si  =2, nos referimos a la distancia Euclidiana. Para los valores   2, estamos en presencia de la métrica Supermum

Correlación de Pearson es el valor promedio que toma el atributo h en el conjunto de datos

Para pesos binarios C es el número de términos que D i y D j tienen en común, y A y B son el número de términos de D i y D j respectivamente

A es el número de palabras que describen a D i , B es el número de palabras que describen a D j y C es el número de palabras que aparecen tanto en D i como en D j . Para pesos binarios

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

[object Object],[object Object],[object Object],Nürnberger, A. Klose, A. Kruse, R. Clustering of Document Collection to Support Interactive Text Exploration. Studies in Classification, Data Analysis and Knowledge Organization. Exploratory Data Analysis in Empirical Research. Proceedings of the 25th Annuals Conference of the Gesellschaft für Klassification. pp 291-299. 2001.

[object Object],[object Object],[object Object],Algoritmos Estrella Condensado y Estrella Generalizado

Ejemplo de agrupamiento con el algoritmo Star donde influye el orden de los datos Ejemplo de la obtención de clusters ilógicos según agrupamiento Star debido a que dos estrellas nunca pueden ser vecinas.

[object Object],[object Object],… …

Fuente: Newman, M. E. J. Detecting community structure in networks. The European Physical Journal B, 38(2). pp. 321-330. 2004. Potencial que tiene una arista para controlar el flujo de información en el grafo. Favorece a las aristas que se encuentran entre grupos y desfavorecen las incidentes a nodos de un mismo grupo. Si una arista actúa en la interacción de muchos nodos su nivel de intermediación debe ser alto.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 21 22 20 19

Intermediación diferencial  -intermediación Diferencial geodésico c -vecindad Fuente: A. Ochoa, L. Arco. Differential Betweenness in complex networks clustering. CIARP. LNCS. Vol. 5197. pp. 222-229. 2008.

[object Object],[object Object],[object Object],[object Object],[object Object],Mientras que el algoritmo GN tiene la complejidad O ( m 2 n ).

1 BioMed Central ha publicado 22003 artículos http://www.biomedcentral.com/info/abou t/datamining/ 2 Colección Reuters-21578 disponible en el sitio web de David D. Lewis http://www.research.att.com/~lewis 3 IEEE Congress on Evolutionary Computation, suministrada por Nees Jan van Eck y Rudolf Kruse Corpus Cantidad de documentos Cantidad de grupos Distribución de documentos por grupos BioMed 1 31 2 Grupo 1 =[1..11] Grupo 2 =[12..31] Reuters 2 29 2 Grupo 1 =[1..12] Grupo 2 =[13..29] CEC2006 3 29 2 Grupo 1 =[1..18] Grupo 2 =[19..29]

[object Object],[object Object],[object Object],[object Object],Fuente: “An effective document clustering method using user-adaptable distance metrics”. Han-joon Kim y Sang-goo Lee. Proceedings of the Symposium on Applied computing. Madrid. ACM. 2002.

[object Object],[object Object],[object Object],Fuente: “Semi-supervised clustering with user feedback”. D. Cohn y otros. Technical Report TR2003-1892, Cornell University, 2003.

[object Object],[object Object],[object Object],[object Object],Fuente: “Personalized Hierarchical Clustering”. Korinna Bade y Andreas Nürnberger. Proceedings of the International Conference on Web Intelligence. Washington, DC. IEEE Computer Society. 2006.

[object Object],[object Object],El conocimiento del dominio contribuye a determinar qué tipo de agrupamiento se va a utilizar con el objetivo de obtener los mejores resultados .

[object Object],[object Object],Fuente: X. Xu, N. Yuruk, Z. Feng, T. Schweiger. SCAN: A structural clustering algorithm for networks. ACM. KDD. 2007.

[object Object],[object Object],[object Object],[object Object],[object Object],Fuente: Newman, M. E. J. The structure and function of networks. Computer Physics Communications, 147: 40-45. 2002.

Fuente: Radicchi, F., Castellano, C., Cecconi, F., Loreto, V. and Parisi, D. Defining and identifying communities in networks. PNAS Proc. National Academic of Science USA, 101(9). 2004.

Fuente: Girvan, M. and Newman, M. E. J. Community structure in social and biological networks. PNAS Proc. National Academy of Science USA, 99(12): 7821-7826. 2002.

Fuente: Newman, M. E. J. and Girvan, M. Finding and evaluating community structure in networks. Physical Review E, 69(026113). 2004.

Fuente: Newman, M. E. J. Analysis of weighted networks. Physical Review E, 70. 2004. El ancho de las aristas indica su peso. Los colores de los vértices indican los grupos. Varias investigaciones muestran que el lenguaje existe en una red small-world . Fuente: Ferrer, R. and Solé, R. V. The small world of human language. Proc. R. Soc. Lond. B, 268(1482): 2261-2265. 2001.

Nodos: documentos Aristas: conexiones de los documentos con una similitud coseno superior a un umbral fijado. Grupos: [0..27] talk.politics.guns [28..58] talk.politics.mideast Fuente: Colección 20-newsgroups disponible en http://www.ai.mit.edu/people/jrennie/20Newsgroups

[object Object],[object Object],Dunn Bezdek

[object Object],donde el número de documentos de la clase i que están asignados al cluster j p ij la probabilidad que un miembro del clusters j pertenezca a la clase i La entropía de cada cluster j

[object Object],[object Object],n ij es el número de miembros de la clase i en el cluster j , n j es el número de miembros del cluster j y n i es el número de miembros de la clase i

[object Object],[object Object],[object Object],Fuente: L. Arco y otros. On clustering validity measures and the Rough Set Theory. MICAI 2006. IEEE Computer Society.

Evaluación del instrumento de medición Confiabilidad Validez Contenido Criterio Constructo Pruebas de Wilcoxon a Resultados con y sin ruido Correlación con medidas internas Correlación con medidas externas Propiedades que se chequean

L/G C/G/A Peso Umbral Max/Min P/C Costo Entropía L&G Grupos Si No Min P Bajo Precisión Local - No No Max P Bajo Cubrimiento Local - No No Max P Bajo Medida-F Local - No Si Max P Bajo Información Mutua Local - No No Max P Bajo Estadístico Kappa Global Grupos No No Max P Alto Medida-F Global Global Clases Si Si Max P Bajo MAP&R Global Clases No No Max P&C Bajo Error del agrupamiento Global Pares No No Min P&C Alto Cluster Recall Global Pares No No Max P&C Alto Cluster Precision Global Pares No No Max P&C Alto Estadístico Rand Global Pares No No Max P&C Alto Coeficiente Jaccard Global Pares No No Max P&C Alto Índice de F&M Global Pares No No Max P&C Alto

Mide en qué grado la clase está incluida en el grupo. Busca correspondencia de cada grupo con las clases. Mide en qué grado el grupo cubre la clase. Media armónica de Precisión y Cubrimiento EM (?) EM (3) E 0.1825 0.2241 Pr 1 0.9271 Re 0.6 0.9067 OFM 0.7239 0.9048 EM (3) 9.33% incorrectos grupos 0 1 2 Iris-setosa 0 50 0 Iris-versicolor 50 0 27 Iris-virginica 14 0 36 EM (?) 40% incorrectos grupos 0 1 2 3 4 Iris-setosa 28 0 0 22 0 Iris-versicolor 0 0 27 0 23 Iris-virginica 0 35 15 0 0

Objetivo Valora Integral Indep.Forma Centro Ruido Diversos tamaños Umbral Índice C Densidad de los grupos No Si No No No No Similitud Global Cohesión de los grupos (Local) No No No No Si No Dunn original Grupos compactos y bien separados (razón) Si No No Si Si No Dunn-Bezdek Grupos compactos y bien separados (razón) Si No Si Si Si No Bezdek general Grupos compactos y bien separados (razón) Si Si No No Si No Davies-Bouldin Dispersión de los grupos y su separación Si No Si No Si No Índice SD Suma pesada de la distancia intra-grupo y entre grupos Si No Si No No No Índice S_Dbw Suma pesada de la distancia intra-grupo y entre grupos Si No No No Si No Índice Silueta Grupos compactos y bien separados Si No No Si Si No

Objetivo Valora Integral Indep.Forma Centro Ruido Diversos tamaños Umbral FOM Estimar número de grupos Si Si No No No Si Expansión Árbol de expansión mínimo No Si No Si No Si Conductancia Árbol de expansión mínimo (permite ponderar vértices) No Si No Si No Si Conectividad parcial pesada Conectividad de las aristas pesadas por grupos No Si No No Si Si Densidad esperada Densidad de los grupos por peso de las aristas No Si No No Si Si Modularidad Interconexiones antes y después del agrupamiento Si Si No Si Si Si Índice de tendencia del agrupamiento Forma grafo k-partito con las relaciones entre los k grupos No Si No No Si Si

Objetivo Valora Integral Indep.Forma Centro Ruido Diversos tamaños Umbral Medida de la fortaleza de las conexiones Identifica grupos débiles y fuertes (solo conexiones) No Si No No Si Si Medida de la interacción Promedio de la interacción intra-grupo entre el promedio de la interacción con nodos externos No Si No Si Si Si Precisión del grupo Razón de los objetos típicos del grupo y los relacionados con él Si (local) Si No No Si Si Calidad del grupo Porciento de objetos bien asignados al grupo Si (local) Si No No Si Si Precisión generalizada del agrupamiento Precisión global ponderada por grupos Si Si No No Si Si Calidad generalizada del agrupamiento Calidad global ponderada por grupos Si Si No No Si Si

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Sistemas basados en casos

Recommandé

Recommandé

Contenu connexe

Similaire à Sistemas basados en casos

Similaire à Sistemas basados en casos (20)

Plus de Luis Álamo

Plus de Luis Álamo (12)

Dernier

Dernier (20)

Sistemas basados en casos

Notes de l'éditeur