15. Temperature Headache Temperature Flu e1 yes normal no e2 yes high yes e3 yes very high yes e4 no normal no e5 no high no e6 no very high no yes yes {e2} no no {e5} yes yes {e3} no no {e6} normal no {e1, e4} Headache high {e2, e5} very high Headache {e3,e6}
21. Uso de las funciones núcleo (kernel functions)
22.
23.
24.
25.
26.
27. Toda unidad u j (excepto las de entradas) calcula una nueva activación u ' j S j representa el nivel de voltaje que excita la neurona u ' j denota la intensidad de la salida resultante de la neurona. j 1 2 n . . . w 1 j w 2 j w nj
59. Correlación de Pearson es el valor promedio que toma el atributo h en el conjunto de datos
60.
61. Para pesos binarios C es el número de términos que D i y D j tienen en común, y A y B son el número de términos de D i y D j respectivamente
62. A es el número de palabras que describen a D i , B es el número de palabras que describen a D j y C es el número de palabras que aparecen tanto en D i como en D j . Para pesos binarios
76. Ejemplo de agrupamiento con el algoritmo Star donde influye el orden de los datos Ejemplo de la obtención de clusters ilógicos según agrupamiento Star debido a que dos estrellas nunca pueden ser vecinas.
77.
78.
79.
80.
81. Fuente: Newman, M. E. J. Detecting community structure in networks. The European Physical Journal B, 38(2). pp. 321-330. 2004. Potencial que tiene una arista para controlar el flujo de información en el grafo. Favorece a las aristas que se encuentran entre grupos y desfavorecen las incidentes a nodos de un mismo grupo. Si una arista actúa en la interacción de muchos nodos su nivel de intermediación debe ser alto.
86. Intermediación diferencial -intermediación Diferencial geodésico c -vecindad Fuente: A. Ochoa, L. Arco. Differential Betweenness in complex networks clustering. CIARP. LNCS. Vol. 5197. pp. 222-229. 2008.
87.
88.
89. 1 BioMed Central ha publicado 22003 artículos http://www.biomedcentral.com/info/abou t/datamining/ 2 Colección Reuters-21578 disponible en el sitio web de David D. Lewis http://www.research.att.com/~lewis 3 IEEE Congress on Evolutionary Computation, suministrada por Nees Jan van Eck y Rudolf Kruse Corpus Cantidad de documentos Cantidad de grupos Distribución de documentos por grupos BioMed 1 31 2 Grupo 1 =[1..11] Grupo 2 =[12..31] Reuters 2 29 2 Grupo 1 =[1..12] Grupo 2 =[13..29] CEC2006 3 29 2 Grupo 1 =[1..18] Grupo 2 =[19..29]
90.
91.
92.
93.
94.
95.
96.
97.
98.
99.
100.
101.
102.
103. Fuente: Radicchi, F., Castellano, C., Cecconi, F., Loreto, V. and Parisi, D. Defining and identifying communities in networks. PNAS Proc. National Academic of Science USA, 101(9). 2004.
104. Fuente: Girvan, M. and Newman, M. E. J. Community structure in social and biological networks. PNAS Proc. National Academy of Science USA, 99(12): 7821-7826. 2002.
105. Fuente: Newman, M. E. J. and Girvan, M. Finding and evaluating community structure in networks. Physical Review E, 69(026113). 2004.
106. Fuente: Newman, M. E. J. Analysis of weighted networks. Physical Review E, 70. 2004. El ancho de las aristas indica su peso. Los colores de los vértices indican los grupos. Varias investigaciones muestran que el lenguaje existe en una red small-world . Fuente: Ferrer, R. and Solé, R. V. The small world of human language. Proc. R. Soc. Lond. B, 268(1482): 2261-2265. 2001.
107. Nodos: documentos Aristas: conexiones de los documentos con una similitud coseno superior a un umbral fijado. Grupos: [0..27] talk.politics.guns [28..58] talk.politics.mideast Fuente: Colección 20-newsgroups disponible en http://www.ai.mit.edu/people/jrennie/20Newsgroups
108.
109.
110.
111.
112.
113.
114.
115.
116.
117.
118.
119.
120.
121.
122.
123.
124.
125. Evaluación del instrumento de medición Confiabilidad Validez Contenido Criterio Constructo Pruebas de Wilcoxon a Resultados con y sin ruido Correlación con medidas internas Correlación con medidas externas Propiedades que se chequean
126.
127. L/G C/G/A Peso Umbral Max/Min P/C Costo Entropía L&G Grupos Si No Min P Bajo Precisión Local - No No Max P Bajo Cubrimiento Local - No No Max P Bajo Medida-F Local - No Si Max P Bajo Información Mutua Local - No No Max P Bajo Estadístico Kappa Global Grupos No No Max P Alto Medida-F Global Global Clases Si Si Max P Bajo MAP&R Global Clases No No Max P&C Bajo Error del agrupamiento Global Pares No No Min P&C Alto Cluster Recall Global Pares No No Max P&C Alto Cluster Precision Global Pares No No Max P&C Alto Estadístico Rand Global Pares No No Max P&C Alto Coeficiente Jaccard Global Pares No No Max P&C Alto Índice de F&M Global Pares No No Max P&C Alto
128.
129.
130. Mide en qué grado la clase está incluida en el grupo. Busca correspondencia de cada grupo con las clases. Mide en qué grado el grupo cubre la clase. Media armónica de Precisión y Cubrimiento EM (?) EM (3) E 0.1825 0.2241 Pr 1 0.9271 Re 0.6 0.9067 OFM 0.7239 0.9048 EM (3) 9.33% incorrectos grupos 0 1 2 Iris-setosa 0 50 0 Iris-versicolor 50 0 27 Iris-virginica 14 0 36 EM (?) 40% incorrectos grupos 0 1 2 3 4 Iris-setosa 28 0 0 22 0 Iris-versicolor 0 0 27 0 23 Iris-virginica 0 35 15 0 0
131.
132. Objetivo Valora Integral Indep.Forma Centro Ruido Diversos tamaños Umbral Índice C Densidad de los grupos No Si No No No No Similitud Global Cohesión de los grupos (Local) No No No No Si No Dunn original Grupos compactos y bien separados (razón) Si No No Si Si No Dunn-Bezdek Grupos compactos y bien separados (razón) Si No Si Si Si No Bezdek general Grupos compactos y bien separados (razón) Si Si No No Si No Davies-Bouldin Dispersión de los grupos y su separación Si No Si No Si No Índice SD Suma pesada de la distancia intra-grupo y entre grupos Si No Si No No No Índice S_Dbw Suma pesada de la distancia intra-grupo y entre grupos Si No No No Si No Índice Silueta Grupos compactos y bien separados Si No No Si Si No
133. Objetivo Valora Integral Indep.Forma Centro Ruido Diversos tamaños Umbral FOM Estimar número de grupos Si Si No No No Si Expansión Árbol de expansión mínimo No Si No Si No Si Conductancia Árbol de expansión mínimo (permite ponderar vértices) No Si No Si No Si Conectividad parcial pesada Conectividad de las aristas pesadas por grupos No Si No No Si Si Densidad esperada Densidad de los grupos por peso de las aristas No Si No No Si Si Modularidad Interconexiones antes y después del agrupamiento Si Si No Si Si Si Índice de tendencia del agrupamiento Forma grafo k-partito con las relaciones entre los k grupos No Si No No Si Si
134. Objetivo Valora Integral Indep.Forma Centro Ruido Diversos tamaños Umbral Medida de la fortaleza de las conexiones Identifica grupos débiles y fuertes (solo conexiones) No Si No No Si Si Medida de la interacción Promedio de la interacción intra-grupo entre el promedio de la interacción con nodos externos No Si No Si Si Si Precisión del grupo Razón de los objetos típicos del grupo y los relacionados con él Si (local) Si No No Si Si Calidad del grupo Porciento de objetos bien asignados al grupo Si (local) Si No No Si Si Precisión generalizada del agrupamiento Precisión global ponderada por grupos Si Si No No Si Si Calidad generalizada del agrupamiento Calidad global ponderada por grupos Si Si No No Si Si
135.
136.
137.
Notes de l'éditeur
If the boundary region is small, we will obtain better results of quality, accuracy and weighted accuracy of classification measures. We propose to use quality, accuracy and weighted accuracy of classification measures to validate clustering results, considering the application of accuracy and quality of approximation measures to validate each cluster. If ( Ci )=1, Ci is crisp (exact) with respect to set of terms which describes this cluster of documents, if ( Ci )<1, Ci is rough (vague) with respect of terms which describes this cluster of documents, clusteri is a rough cluster.