1. RECONOCIMIENTO DE PATRONES PARA MEDIR LA
USUABILIDAD DE LAS HERRAMNIENTAS WEB 2.0
Vanessa Cindhy Celi Ing. Nelson Piedra
Loja, Ecuador Ing. Nelson Piedra
vcceli@utpl.edu.ec Loja, Ecuador
vcvanecc2@gmail.com nopiedra@utpl.edu.ec
inteligencia artificial para ayudar en la toma de
RESUMEN decisiones a través de técnicas de minería de datos
En Inteligencia Artificial (IA) utiliza varios métodos [10] e inteligencia artificial.
entre la cuáles podemos encontrar árboles de Los patrones de reconocimiento nos ayudarían a
clasificación, redes bayecianas, redes neuronales y reducir el tiempo en medir la usabilidad de la página
modelos ocultos de Markov. Web
El objetivo de este proyecto es encontrar un patrón
de comportamiento para medir la usabilidad de las Planteamiento del problema
herramientas Web.2.0 .
Hoy en día las herramientas Web 2.0 han alcanzado
Términos Generales un gran auge por eso es importante la usabilidad de
Algoritmos, Finanzas, Experimentación, Verificación. cada una de ellas ya que la mayoría de personas
acceden a estas herramientas por lo tanto, existen
Palabras claves algunas técnicas que permiten encontrar patrones de
comportamiento basados en un conjunto de variables
Arboles de clasificación. independientes, que se pueden aplicar para medir la
usabilidad como son las redes bayecianas.
Inteligencia Artificial.
Objetivo
1.INTRODUCCIÓN El objetivo principal del presente trabajo es
Para medir la usabilidad nos basamos en ciertos primeramente definir las características principales o
criterios y estándares que debe cumplir una pagina el reconocimiento de patrones que permitan mejorar
Web . Para esto es necesario definir las variables el proceso de medición de la usabilidad de las
predoctoras o independientes para realizarlo herramientas Web 2.0
mediante redes bayecianas que se fundamentan en
la teoría de probabilidades, y combinan la potencia
1ESTADO DEL ARTE
del teorema de Bayes con la expresividad semántica
de los grafos dirigidos, estos permiten representar un 1.1Como medir la usabilidad
modelo casual por medio de una representación
gráfica. Para medir la usabilidad de las herramientas Web 2.0
Motivación he utilizado una serie de parámetros obtenida a
El uso de la Inteligencia Artificial (IA) en partir de los estándares ISO 9241 y la ISO 9126 .
aplicaciones de clasificación es un tema muy De toda esta lista de parámetros se escoge los más
importante ayudando a que las técnicas de IA se representativos para las diferentes audiencias que
adapten a los problemas reales, esto es lo que ha ingresan a las herramientas Web 2.0.
motivado el trabajo investigativo con el objetivo de
comprender la importancia que representa la
2. 1.2 Fundamentos de reconocimiento de patrones . Redes de creencias
1.2.1Reconocimiento de patrones . Redes probabilísticas
. Redes casuales.
Tomado de [3], un patrón es una entidad a la que se . Mapas de conocimiento.
puede dar un nombre y que está representada por un
conjunto de propiedades medidas y las relaciones
entre ellas (vector de características). Por ejemplo, un
patrón puede ser una señal sonora y su vector de
características el conjunto de coeficientes espectrales
extraídos de ella.
Reconocimiento de patrones lo define el autor de esta
investigación [3] como: “La categorización de datos
de entrada en clases identificadas, por medio de la
extracción de características significativas o atributos
de los datos extraídos de un medio ambiente que
contiene detalles irrelevantes”.
El reconocimiento de patrones [11], tienes un punto
esencial que es la clasificación que permite clasificar
clases de acuerdo a sus características, el objetivo es
clasificar patrones con base en un conocimiento a
priori o información estadística extraída de los
patrones. Los patrones a clasificar suelen ser grupos
de medidas u observaciones.
Para la clasificación se puede usar un conjunto de Imagen 1. Ejemplo de Redes Bayesianas [13]
aprendizaje, del cual ya se conoce la clasificación de
la información a priori y se usa para entrenar al
sistema, siendo la estrategia resultante conocida como
1.2.3.1Aprendizaje Automático de la red Bayesianas
aprendizaje supervisado.
Si se toma un sistema experto que constituye una
En wikipedia se listan algunas de las aplicaciones
rede bayesiana esta debe cambiar conforme
donde se aplica reconocimiento de patrones, entre
aumentan los datos concretos o casos, así en sus
ellas: reconocimiento de voz, la clasificación de
primeros pasos las red bayesiana puede ser construida
documentos (por ejemplo spam/no spam), el
según la opinión de los expertos o bien según la
reconocimiento de escritura, reconocimiento de caras
información de la que se parte o teniendo en cuenta
humanas y muchas más, derivándose las dos últimas
ambas cosas. Conforme vamos añadiendo
del análisis de imágenes.
información al red se va modificando tanto su
1.2.2 Redes Bayesianas estructura como los parámetros mediante un proceso
Las redes bayesianas conforman una manera práctica de aprendizaje
y compacta de representar el conocimiento incierto
1.2.4 Clasificadores Bayesianos
basada en esta idea.
El clasificador bayesiano es una función que se
Las redes bayesianas modelan un fenómeno mediante asigna al valor que tiene un atributo discreto que
un conjunto de variables y las relaciones de toma el nombre de clase o instancia. Un sistema
dependencia entre ellos. experto puede tomar la misma actividad que un
Las redes bayesianas son una presentación gráfica clasificador.
de dependencias directas entre ellas. En el caso que la base de conocimientos sea una red
Las redes bayesianas también se las conoce con el bayesianas, la función de clasificación estará
nombre: definida atreves de probabilidades condicionadas.
3. 1.2.5Descripción de los Algoritmos de aprendizaje aprendizaje más intuitivo posible
Navegabilidad Un sitio debe ser
Clasificador Naive Bayes.- Este clasificador es el de la página cómodo para el usuario,
que se utiliza es el que se utiliza en el teorema de principal debe ser fácilmente
Bayes en conjunción con la hipótesis de navegable. El usuario
independencia condicional de las variables tiene que poder ir de un
predictoras lado a otro del sitio
rápidamente y sin
perderse.
1.3MINERIA DE DATOS Atractividad Que la interfaz del sitio
del sitio sea amigable al usuario
La minería de datos[8],[9] es una parte de todo el
Calidad de Que tenga temas
proceso de la extracción del conocimiento útil y
ayuda concretos y que sea fácil
comprensible, previamente desconocido, desde bases
de entender
de datos heterogéneas, la minería de datos se encarga
de reunir ventajas de varias áreas como la Estadística, Audiencia Los usuarios que tiene
la Inteligencia Artificial, la Computación Gráfica, las el sitio
Bases de Datos y el Procesamiento Masivo.
Por lo general la definición más común de minería de
datos es: Un proceso no trivial de identificación
válida, novedosa, potencial útil y entendible de 2.2Metodología
patrones comprensibles que se encuentran ocultos en
los datos [8]. Sin embargo existen definiciones La metodología aplicada en la investigación es:
enfocadas hacia otros puntos de vista como el
enfoque empresarial que es: La integración de un Seleccionar las variables predictoras más
conjunto de áreas que tienen como propósito la importantes.
identificación de un conocimiento obtenido a partir Descripción de las variables predictoras y la
de las bases de datos que aporten un variable clase.
Aplicación del las redes bayesianas
Analizar el resultado
3.2.1Adquisición y proceso de datos
2.DESARROLLO E IMPLEMENTACIÓN Se ha tomado como muestra datos en base a los
2.1Identificación de las variables requerimientos necesarios para medir la usabilidad de
un sitio para obtener el crédito. En la Tabla 2 se
muestra los datos tomados como muestra de las
Para la identificación de las variables se realizó un
características principales.
estudio de los estándares que se utilizan para medir la
usabilidad de una página tomando las variables con
mayor poder predictivo. En Tabla 1 se muestra un Las variables tomadas en cuenta para el diseño del
listado y descripción de las mismas:
modelo se describen en la Tabla 2,
Tabla 1. Descripción de las variables predictoras
NOMBRE DESCRIPCIÓN Tabla 2. Datos iniciales de prueba
VARIABLE
REQUISITOS
ESTUDIANTE/GARANTE
Facilidad de Esto se refiera si que
los programas son lo
4. @attribute Calidaddeayuda numeric
@attribute Audiencia numeric
@attribute usabilidad {si,no}
@data
Wiki, 0.90, 0.90, 0.90, 0.90, 0.90,
si
Música, 0.45, 0.30, 0.56, 0.35,
0.25, no
Documentos, 0.90, 0.90, 0.90, 0.90,
Tomando en cuenta los requisitos más importantes 0.90, si
para medir la usabilidad de un sitio se ha creado la AgregaciónVideo, 0.70, 0.70, 0.70,
tabla de datos que se muestra en Tabla 2 que serán 0.70, 0.70, si
como datos de entrada, donde las variables más Video, 0.85, 0.75, 0.85, 0.70, 0.85,
si
decisivas para medir la usabilidad son :
Fotos, 0.90, 0.90, 0.90, 0.90, 0.90,
si
Herramientaweb {Wiki, Música, Documentos, Locación, 0.45, 0.30, 0.56, 0.35,
AgregaciónVideo, Video, Fotos, Locación, 0.25, no
ClientesServicioRed, NichosRed, RedesSociales, ClientesServicioRed, 0.90, 0.90,
MensajeríaVoz, Podcasting, MarcadoresSociales, 0.90, 0.90, 0.90, si
Micromedia, ComunidadesBlog, ConversaciónBlog, NichosRed, 0.70, 0.70, 0.70, 0.70,
PlataformasBlogs, VideoBlogs} 0.70, si
Facilidadaprendizaje numeric RedesSociales, 0.85, 0.75, 0.85,
navegabilidaddelapaginaprincipal numeric 0.70, 0.85, si
atractividaddelsitio numeric MensajeríaVoz, 0.45, 0.30, 0.56,
0.35, 0.25, no
Calidaddeayuda numeric
Podcasting, 0.90, 0.90, 0.90, 0.90,
Audiencia numeric 0.90, si
usabilidad {si,no} MarcadoresSociales, 0.90, 0.90,
0.90, 0.90, 0.90, si
Micromedia, 0.70, 0.70, 0.70, 0.70,
Para su posterior ejecución se ha creado un archivo 0.70, si
de datos .arff, denominado herramientasweb2.0.arff ComunidadesBlog, 0.85, 0.75, 0.85,
con un total de 84 instancias, a continuación una 0.70, 0.85, si
muestra: ConversaciónBlog, 0.90, 0.90, 0.90,
0.90, 0.90, si
@attribute Herramientaweb {Wiki, PlataformasBlogs, 0.45, 0.30, 0.56,
Música, Documentos, AgregaciónVideo, 0.35, 0.25, no
Video, Fotos, Locación, VideoBlogs, 0.90, 0.90, 0.90, 0.90,
ClientesServicioRed, NichosRed, 0.90, si
RedesSociales, MensajeríaVoz,
Podcasting, MarcadoresSociales,
Micromedia, ComunidadesBlog,
ConversaciónBlog, PlataformasBlogs, 2.3Herramientas a utilizar
VideoBlogs}
@attribute Facilidadaprendizaje 2.3.1Weka
numeric
@attribute
navegabilidaddelapaginaprincipal
numeric
@attribute atractividaddelsitio
numeric
5. En la
Imagen 3 se muestra el gráfico que vota el algoritmo
bayes net
Para obtener los patrones de comportamiento se
tomará la información de cada variable con la
respectiva clasificación de cada nodo final o nodo
hoja a partir del árbol mostrado en la
Imagen 3.
3.1.1Algoritmo Bayesnet
Los resultados obtenidos en el algoritmo de bayesnet
son los siguientes:
Imagen 2. Interfaz Weka
La herramienta que se ha elegido para el trabajo es
Weka [6], es una colección de algoritmos de
aprendizaje automático para tareas de minería de
datos. Los algoritmos pueden ser aplicados 3.2Validación de resultados
directamente a un conjunto de datos o llamada de su
propio código Java. Weka contiene herramientas de 3.2.1Algoritmo de árbol J48
datos pre-procesamiento, clasificación, regresión, A continuación se evalúa la capacidad de confianza
clustering, reglas de asociación y visualización. del algoritmo de bayesnet para ver si las herramientas
También es muy apropiada para el desarrollo de cumple con los estándares de seguridad, teniendo
nuevos sistemas de aprendizaje automático. Se ha como resultados instancias correctamente clasificadas
tomado en cuenta esta herramienta porque presenta la 18 con un porcentaje de 100% y 0 instancias
utilización de algoritmos de clasificación mediante el incorrectamente clasificadas con porcentaje de 0%.
uso de redes bayesianas.
3.RESULTADOS
3.1 Árbol de clasificación
Imagen 4. Resultados de la clasificación de
instancias
Imagen 3. Árbol generado con el algoritmo J48
6. En la
En la Imagen 6, se muestra la matriz de confusión de
JRip, con respecto a la clase si tiene un error de 5 ya
que el valor correcto sería 36, en la clase no tiene un
error de 1 ya que debería ser 48.
Imagen 5, se muestra la matriz de confusión, con
respecto a la clase si tiene un error de 0 ya que el
valor correcto sería 14, con la clase no tiene un error
de 4 ya que debería ser 4.
Imagen 6. Matriz de neivebayesnet
3.3Comparación de los algoritmos
A continuación se hace una comparación de los 2
algoritmos aplicados en base a los resultados
obtenidos.
Imagen 5. Matriz de confusión bayesnet
Los mejores resultados los ofrece el algoritmo de
reglas de decisión J48 ya que define de una manera
más precisa los patrones de comportamiento, de
3.2.2Algoritmo de neivesbayetnet
acuerdo a la clasificación de instancias y a los valores
de la matriz de confusión.
Para evaluar los resultados con el algoritmo bsyesnet
se ha tomada la matriz de confusión
Tabla 3. Comparación de bayesnet y
neivebayesnet
COMPARACIÓN DE LOS ALGORITMOS
ALGORITM Instancias Instancias
O correctament correctament %
e clasificadas e clasificadas Error
bayesnet 18100% 00% 0%
neivebayesnet 18100% 00 21,1
%
3.4 Clementine 12.0
7. 3.6 Entorno
Clementine es una herramienta de data mining que
permite desarrollar de forma rápida modelos
predictivos y desplegarlos para mejorar la toma de
decisiones. Clementine es conocida mundialmente
como la herramienta líder de data mining, ya que
entrega el máximo retorno de inversión de sus datos
en poco tiempo. A diferencia de otras herramientas de
data mining – que fracasan en el soporte del ciclo de
negocio completo de data mining y se centran
simplemente en modelos para destacar el rendimiento
– Clementine apoya el ciclo completo de data mining
para reducir el tiempo hasta la solución final.
Clementine está diseñada considerando los estándares
de la industria del data mining – CRISP-DM (CRoss
Industry Standard Process for Data Mining). CRISP-
DM hace de data mining un proceso de negocio al
enfocar la tecnología de data mining en resolver
problemas de negocio específicos.
En esta imagen se puede observar los datos la tabla
el tipo y el modelo a escoger,
3.5 Desarrollo El modelo que se escogió es bayes net con la
finalidad de comparar los resultados obtenidos en
Disponemos de los datos acerca de la usabilidad de ambas herramientas
las herramientas web 2.0 dependiendo de diversas
variables El objetivo es poder medir la usabilidad de
las herramientas web 2.0. Los datos están en el 3.7 Red bayesiana y probabilidad condicional del
fichero: “basededatos.txt” y son los siguientes: sitio
8. La red es creada mediante este cuadro de padres y
probabilidades dentro de la usabilidad cuando es
menor a 0.662 el uno significa no y cero si mediante
estas probabilidades se va creando la rede bayesianas
3.8 Matriz
Las variables predictoras son las que se encuentran
de color azul y la variable de salida es la de color
rojo
Al comparar los resultados con weka son los mismos existe 18
instancias correctas con un 100%
3.9 Tabla de auditoría de datos
En esta tabla de auditoría nos da una breve información del
proyecto nos presenta gráfico
4.CONCLUSIONES
El uso de los algoritmos bayesnet,
neivebayesnet y la herramienta weka son de
9. mucha utilidad ya que permiten tomar %20Badajoz/comunicaciones/%E1rboles%20de
decisiones al momento de analizar cada caso, %20clasificaci%F3n....pdf
identificando cuales son las características Eduardo Morales Manzanares, 2005,
más relevantes medir la accesibilidad de las “Escalamiento de Algoritmos”,
herramientas , a través de clasificación y http://ccc.inaoep.mx/~emorales/Cursos/KDD03/n
visualización de datos. ode54.html
El numero de datos tanto para la base de Alejandro Boris Valiente y Zaida Cebrián
datos como para la de entrenamiento tiene Jiménez, “Inteligencia en Redes de
que ser representativa para obtener los Comunicaciones: Practica Weka, Diagnostico y
resultados más aproximados. Cardiología”
Los resultados presentados son una http://www.it.uc3m.es/jvillena/irc/practicas/05-
aproximación a la realidad ya que se ha 06/12mem.pdf
tomado una muestra de los posibles casos que F. Valenga, I. Perversi, E. Fernández, H. Merlino,
pueden ocurrir. D. Rodríguez, P. Britos y R. García Martínez,
Los algoritmos de clasificación pueden ser “Aplicacion de mineria de datos para la
aplicados en diferentes campos donde se exploracion y deteccion de patrones delictivos en
requiera clasificar un conjunto de datos, Argentina”,
tomando en cuenta las diferentes variables http://www.itba.edu.ar/archivos/secciones/98JIISI
aplicadas. C-08-31-39.pdf
Luego de los resultados obtenidos de cada Inflexa, “Qué es Minería de Datos”,
algoritmo se concluye con certeza que el http://www.inflexa.com/inflexa/soluciones/mineri
algoritmo neivebayesnet tiene un nivel de adedatos/
confianza más aproximado que bayesnet. Olmos Pineda “Minería de datos”, Instituto
Tecnológico de Puebla, México, 1992.
5.REFERENCIAS http://www.itpuebla.edu.mx/Eventos/Memoriasy
ResSemanaInformatica2007/02-
María Del Carmen Sosa Sierra, “Inteligencia %20IvanOlmosPineda.pdf,
artificial en la gestión financiera empresarial”, Instituto Ecuatoriano de Crédito Educativo y
http://ciruelo.uninorte.edu.co/pdf/pensamiento_ge Becas, http://www.iece.fin.ec/LaInstitucion.aspx
stion/23/6_Inteligencia%20artificial.pdf
Wikipedia, “Reconocimiento de patrones,
Carlos J. Alonso González, Departamento de ”http://es.wikipedia.org/wiki/Reconocimiento_de
Informática, “Inducción de Reglas _patrones
Proposicionales”,
http://www.infor.uva.es/~calonso/IAII/Aprendizaj Pablo Lázaro Grande Benito, 2008,
e/InduccionReglasProposicionales.pdf http://recuperacion-organizacion-
informacion.atspace.com/extraccion_informacion
Jesús Walter Salinas Flores, “Reconocimiento de _clasificacion_supervisada/arboles-decision.html
patrones de morosidad para un producto
crediticio usando la técnica de árbol de http://farm4.static.flickr.com/3249/2747320896_1
clasificación CART”, 738560745_o.jpg
http://www.cybertesis.edu.pe/sisbib/2005/salinas Aitor Puerta Goicoechea, “Imputación basada en
_fj/html/index-frames.html árboles de clasificación”, 2002,
María José Vázquez Cueto, Dolores Gómez http://www.eustat.es/document/datos/ct_04_c.pdf
Domínguez, “Arboles de clasificación: una http://www.um.es/geograf/sigmur/teledet/tema09.
metodología para el análisis de crisis bancarias”, pdf
2009, Wikipedia, Algoritmo ID3,
http://www.asepelt.org/ficheros/File/Anales/2005 http://es.wikipedia.org/wiki/Algoritmo_ID3
%20-
Basilio Sierra Araujo, Aprendizaje Automático:
conceptos básicos y avanzados, Aspectos básicos
10. utilizando en software WEKA, Universidad del Ilustración 2, se visualiza los datos creados en el
País Vasco, 2006 archivo IECEEntrenamiento.arff
Sofía J. Vallejos, Minería de Datos, Argentina,
2006,
http://exa.unne.edu.ar/depar/areas/informatica/Sis
temasOperativos/Mineria_Datos_Vallejos.pdf
Carlos Damián Mirabella, “Descubrimiento del
conocimiento en bases de datos”,
http://www.exa.unicen.edu.ar/catedras/dbdiscov/
mirabella.pd
ANEXOS
Como anexos se ha añadido la corrida de los Ilustración 2. Datos en Weka
algoritmos en la herramienta Weka.
En la
En la Ilustración 1, se puede contemplar la vista de la
herramienta weka, donde se muestra todos los
atributos (variables) del archivo
IECEEntrenamiento.arff utilizado para la obtención
de los patrones.
Ilustración 3, se muestra los resultados visuales de los
datos de todas las variables, ingresados en el archivo
Herramientasweb2.0.arff.
Ilustración 1. Vista principal: Atributos
En la
Ilustración 3. Visualización de todas las variables