SlideShare une entreprise Scribd logo
1  sur  212
Télécharger pour lire hors ligne
FACULTAD DE CIENCIAS E INGENIERÍA
Carrera 9 No. 19-03
Conmutador (6) 887 9680 extensión: 1689
Manizales, Caldas, Colombia
www.umanizales.edu.co
ventanainformatica@umanizales.edu.co
ventanainformatica@gmail.com
Nº 28 - enero - junio / 2013

GUILLERMO ORLANDO SIERRA SIERRA
Rector
JORGE IVÁN JURADO SALGADO
Vicerrector
GERMÁN WILLIAM LONDOÑO JIMÉNEZ
Decano
Facultad de Ciencias e Ingeniería
Director / Editor
OMAR ANTONIO VEGA
PhD(c)

VENTANA INFORMÁTICA
Derechos Reservados
ISSN 0123-9678
Diseño y Diagramación
Gonzalo Gallego González
Centro Editorial Universidad de Manizales
2013
VENTANA INFORMÁTICA es una publicación semestral especializada de la Facultad
de Ciencias e Ingeniería de la Universidad de Manizales.
Está clasificada en la CATEGORÍA C, en IBN – Publindex (Colombia) e incluida en Latindex

2
Universidad de Manizales

Facultad de Ciencias e Ingeniería

Comité editorial
Mario Andrés GIRALDO FADUL, PhD.
California State University –USA
Carlos Eugenio OLIVEROS TASCÓN, PhD.
Centro Nacional de Investigaciones de Café - Colombia
Gustavo Adolfo ISAZA ECHEVERRY, PhD.
Universidad de Caldas - Colombia
Héctor MORA PÁEZ, MSc.
Servicio Geológico Colombiano – Colombia
Luis RODRÍGUEZ BAENA, PhD.
Universidad Pontificia de Salamanca - España

Comité científico
Mauro CALLEJAS CUERVO, MSc.
Universidad Pedagógica y Tecnológica de Colombia - Colombia
Andrés David EPIFANÍA HUERTA, MSc.
Universidad Católica Los Ángeles de Chimbote - Perú
Luis Alejandro FLÉTSCHER BOCANEGRA, MSc.
Universidad de Antioquia - Colombia
(c)
Alejandro Javier HADAD, PhD.
Universidad de Entre Ríos – Argentina

André Atanásio MARANHÃO ALMEIDA, MSc.
Instituto Federal de Alagoas - Brasil
Ana Teresa ORTEGA MINAKATA, MSc.
Instituto de Información Territorial del Estado de Jalisco - México

Comité científico de redacción
Luis Carlos CORREA ORTIZ, MSc.
Universidad de Manizales - Manizales, Caldas, Colombia
Julio César GÓMEZ CASTAÑO, PhD(c).
Universidad de Manizales - Manizales, Caldas, Colombia

3
Nº 28 - enero - junio / 2013

Diego Samir MELO SOLARTE, PhD(c).
Universidad de Manizales - Manizales, Caldas, Colombia
Carlos Alberto OSPINA PARRA, PhD(c).
Universidad de Manizales - Manizales, Caldas, Colombia
Omar Antonio VEGA, PhD(c).
Universidad de Manizales - Manizales, Caldas, Colombia

Comité científico de arbitraje

(Integrantes que realizaron arbitraje de artículos para este número)
Genaro AGUIRRE AGUILAR, PhD.
Universidad Veracruzana –México
Andrea Catherine ALARCÓN ALDANA, MSc.
Universidad Pedagógica y Tecnológica de Colombia - Colombia
Luis Marcial BERTEL PATERNINA, Esp.
Universidad de Manizales - Colombia
Mauro CALLEJAS CUERVO, MSc.
Universidad Pedagógica y Tecnológica de Colombia - Colombia
Luis Fernando CASTILLO OSSA, PhD.
Universidad de Caldas - Colombia
Andrés David EPIFANÍA HUERTA, MSc.
Universidad Católica Los Ángeles de Chimbote - Perú
Gloria Piedad GASCA HURTADO, PhD.
Universidad de Medellín –Colombia
Mario Andrés GIRALDO FADUL, PhD.
California State University –USA
María Ester GONZÁLEZ, PhD.
Universidad Politécnica de Madrid - España
Rubén Arístides GONZÁLEZ CRESPO, PhD.
Universidad Pontificia de Salamanca - España
Juan Sebastián GONZÁLEZ SANABRIA, Esp.
Universidad Pedagógica y Tecnológica de Colombia – Colombia

4
Universidad de Manizales

Facultad de Ciencias e Ingeniería

Nery Francisco HERRERA PINEDA, MSc.
Universidad Católica de El Salvador - El Salvador
Orlando Clemente IPARRAGUIRRE VILLANUEVA, MSc.
Universidad Católica Los Ángeles de Chimbote - Perú
Gustavo Adolfo ISAZA ECHEVERRY, PhD.
Universidad de Caldas - Colombia
Alejandro LONDOÑO VALENCIA, MSc.
Universidad de Manizales –Colombia
André Atanásio MARANHÃO ALMEIDA, MSc.
Instituto Federal de Alagoas - Brasil
Carlos Eduardo MARULANDA ECHEVERRY, MSc.
Universidad de Caldas - Colombia
Diego Samir MELO SOLARTE, PhD(c).
Universidad de Manizales – Colombia
Ana Teresa ORTEGA MINAKATA, MSc.
Instituto de Información Territorial del Estado de Jalisco - México
Luis Eduardo PELÁEZ VALENCIA, MSc.
Universidad Católica de Pereira - Colombia
Willington Libardo SIABATO VACA, PhD.
Universidad Politécnica de Madrid – España
Ábilo Andrés VELÁSQUEZ SALAZAR, MSc.
Universidad Nacional de Colombia - Colombia
Ronald Eduard VINASCO SALAZAR, MSc.
Universidad de Manizales – Colombia
Gunnar Eyal WOLF ISZAEVICH, Lic.
Universidad Nacional Autónoma de México - México

5
Nº 28 - enero - junio / 2013

6
Universidad de Manizales

Facultad de Ciencias e Ingeniería

En esta edición
	Página
Editorial.................................................................................................... 9-11
Omar Antonio VEGA

Implementación de un software para el análisis de
imágenes aéreas multiespectrales de caña de azúcar.......................13-29
[Implementation of software for the analysis of
multispectral aerial images sugarcane]
Gerardo SCHNEIDER, Alejandro Javier HADAD, Alejandra KEMERER

Aplicación de la minería de datos en la
extracción de perfiles de deserción estudiantil..................................31-47
[Application of data mining in extracting student dropout profiles]
Ricardo TIMARÁN PEREIRA, Andrés CALDERÓN ROMERO,
Javier JIMÉNEZ TOLEDO

Técnicas de implementación de procesos colaborativos
a la mejora procesos: un acercamiento a PMBOK.............................49-66
[Implementation Techniques for improving collaborative
processes closer to PMBOK processes]
José Luis JURADO, César Alberto COLLAZOS

Sistema multiparamétrico de monitoreo remoto
de movimientos por remoción en masa...............................................67-82
[A multiparameter system for remote monitoring of landslides]
John Makario LONDOÑO, César Augusto VEGA, Liliana María MAYA

Análisis del sistema de información de la
microempresa N´Diaye & Filhos...........................................................83-97
[Analysis of the information system of N´Diaye & Filhos micro-enterprise]
Lourdes María GARCÍA PUJADAS,
Eduardo Barbarito HERNÁNDEZ HURTADO, Horacio CHICOLA

Pautas, métodos y herramientas de
evaluación de accesibilidad web........................................................ 99-115
[Guidelines, methods and tools for web accessibility evaluation]
Cinthia DE OLEO MORETA, Luis RODRÍGUEZ BAENA

Una memoria organizacional para gestionar
información y conocimiento de proyectos
de investigación de instituciones venezolanas.............................. 117-131
[An organizational memory to manage information and
knowledge of research projects from Venezuelan institutions]
Esmeralda RAMOS, Iván FLORES, Haydemar NÚÑEZ

7
Nº 28 - enero - junio / 2013

Estrategias educativas para la inserción
social del egresado de Ingeniería Mecánica....................................133-149
[Educational strategies for the social inclusion
of the Mechanical Engineering students]
Alejandro Arturo PÉREZ VILLEGAS, Adriana María SÁNCHEZ NAVARRETE

Metodología para determinar la evolución de los
sistemas informáticos de organizaciones regionales....................151-166
[Methodology to determine the evolution of the
computer systems of regional organizations]
Ludwig Iván TRUJILLO HERNÁNDEZ

Módulo informático de evaluación docente
para la carrera de informática en el ISMMM....................................167-179
[Teacher evaluation computer module
for computing career in the ISMMM]
Marcos Antonio MARTÍNEZ RODRÍGUEZ,
Yadiris MARTÍNEZ CORDERO, Iliana DÍAZ SÁNCHEZ

Políticas editoriales de la revista Ventana Informática........................ 181-198
Director y Consejo Editorial
Índice histórico de artículos publicados................................................199-210

Nota:
Los conceptos expresados en esta publicación son responsabilidad de los autores y no
comprometen el pensamiento de la Universidad ni de la Facultad de Ciencias e Ingeniería.
COPYRIGHT © UNIVERSIDAD DE MANIZALES

8
Universidad de Manizales

Facultad de Ciencias e Ingeniería

Editorial
Omar Antonio VEGA1
Director/Editor

La edición 28, correspondiente al primer semestre del año 2012, recoge
10 de los 23 artículos presentados en la convocatoria cerrada en febrero
20, procedentes de diversas instituciones, especialmente universidades,
con un interesante número de nuevos autores.
Los autores que publican en este número, están afiliados a:
- 	 las Universidades de Nariño, del Cauca, Piloto de Colombia, San
Buenaventura, Nacional de Entre Ríos, de Ciego de Ávila, Pontificia
de Salamanca, Central de Venezuela y Autónoma de San Luis de
Potosí,
- 	 la Institución Universitaria Cesmag,
- 	 los Institutos Nacional de Tecnología Agropecuaria y Superior Minero
Metalúrgico de Moa,
- 	los Servicios Geológico de Colombia y de Salud Pública de Villa
Clara,
- 	 además de un funcionario de la micro-empresa N´Diaye & Filhos y
una profesional independiente.
En este momento es interesante hacer hincapié en un hecho: aparece
una cantidad significativa de nuevos autores e instituciones aportando
sus escritos a la revista, señalando el paulatino, pero firme, proceso de
consolidación en Iberoamérica.
La edición recoge diversos temas, mediante artículos de investigación
científica y tecnológica, de reflexión y reportes de casos, cuya somera
presentación es:
- 	 El primer artículo, en el área de la bioingeniería y procedente de un
proyecto entre la Universidad Nacional de Entre Ríos y el INTA, hace
alusión a una implementación de software que permite determinar,
a partir del análisis de imágenes aéreas multiespectrales, el estado
de las plantaciones de caña de azúcar, especialmente en cuanto a
caña caída o volcada.
- 	 En el segundo artículo, realizado entre la Universidad de Nariño y la
institución Universitaria Cesmag, se enfrenta la deserción estudiantil
1	 Ing. Agrónomo, Esp. en Informática y Computación, MSc. en Orientación y Asesoría Educativa, MSc. en Educación.
Docencia, PhD(c) en Ingeniería Informática: Sociedad de la Información y el Conocimiento. Director/editor de la revista
Ventana Informática, Líder del grupo de investigación ‘Sociedad de la Información y el Conocimiento’, Profesor titular,
Facultad de Ciencias e Ingeniería, Universidad de Manizales, Manizales (Colombia). Correo electrónico: oavega@
umanizales.edu.co

9
Nº 28 - enero - junio / 2013

en programas de pregrado, mediante la detección de patrones utilizando técnicas de minería de datos.
- 	 A continuación, desde la ingeniería de software y procedente de la
Universidad del Cauca, se presenta una integración de la ingeniería
de la colaboración con la gestión de proyectos, en el modelo de
mejora PmCompetisoft.
- 	Siendo Colombia un país donde la mayoría de su población está
ubicada en zonas de ladera, con frecuentes casos de deslizamientos, se presenta un sistema, realizado entre el Servicio Geológico
Colombiano y la Universidad de Manizales, que permite realizar
monitoreo remoto de remociones en masa, usando diferentes tipos
de sensores, que permite emitir alertas a partir de la información
obtenida y procesada.
- 	 En el marco de la cooperación cubana a Angola, se presenta el artículo presenta el análisis del sistema de información para la empresa
N´Diaye & Filhos, como paso para favorecer el mejoramiento de la
gestión económica de la empresa. Este es un componente de los
varios desarrollados, en este caso entre profesionales del Instituto
Superior Minero Metalúrgico de Moa y la Universidad de Ciego de
Ávila, en conjunto con personal de empresas angolanas.
- 	 La accesibilidad web se está convirtiendo en conditio sine qua non
al momento de emprender iniciativas para la universalización de
acceso y uso de las TIC. Por ello, desde la Universidad Pontifica de
Salamanca campus Madrid, se enfoca en su evaluación, realizando
el análisis de pautas, métodos y herramientas considerados en el
estándar de la W3C.
- 	 La gestión de la información y de conocimiento, no puede restringirse
a la empresa convencional, sino que tiene un sitio especial en la academia, responsable de mover la frontera del conocimiento. En esa
dirección, desde la Universidad Central de Venezuela, se propone
un modelo para definir la estructura de la memoria organizacional
de la producción intelectual de los investigadores en sus proyectos
de investigación.
- 	 La globalización, y el aspecto competitivo que conlleva, hace que
la universidad deba preocuparse porque sus egresados sean competentes en la realidad cambiante del entorno laboral y productivo.
Por ello, desde la Universidad Autónoma de San Luis de Potosí, se
analiza la trascendencia de la formación integral de los estudiantes,
frente a la realidad que lo espera como ingeniero y profesional.
- 	 Los procesos gerenciales y la incorporación informática a las empresas, hacen parte del proceso de mejoramiento y desarrollo de ellas,
10
Universidad de Manizales

Facultad de Ciencias e Ingeniería

por lo el siguiente artículo, procedente de la Universidad Piloto de
Colombia seccional Alto Magdalena, muestra la aplicación de una
metodología de evaluación de las empresas de Girardot, mediante
las etapas de evolución de los sistemas informáticos inspirado en el
modelo de Gibson & Nolan.
- 	 El último de los artículos presenta, a manera de propuesta, un módulo
con el objetivo de facilitar y complementar la labor diaria de los profesores, que hace parte de la gestión docente del departamento de
informática del Instituto Superior Minero Metalúrgico de Moa.
En el cierre de la revista aparecen las políticas editoriales, para facilitar
la participación como autor y/o árbitro, así como el listado histórico de
artículos publicados.
No hay duda alguna que la calidad científica de una revista se fundamenta en sus procesos de convocatoria y selección, y se refrenda
con los índices bibliométricos, referidos a la consulta y citación de los
documentos en ella publicados. Por ello, se hace una invitación a investigadores, docentes y estudiantes para seguir aportando sus artículos,
al igual que a considerar, revistas como esta, al momento de hacer sus
revisiones bibliográficas… no puede olvidarse la característica local o
regional que frecuentemente se presentan en sus artículos, aspecto
relevante de glocalización en el planteamiento de los antecedentes de
un proyecto de investigación.
Para finalizar, se recuerda que la revista mantiene su convocatoria
abierta, con cortes en febrero 20, para los números del primer semestre,
y agosto 20, para el segundo, ya que:

Alguien está necesitando la información que usted
está dispuesto a brindar. Usted está necesitando la
información que alguien está dispuesto a brindar…
Ventana Informática se mantiene abierta para que
la información fluya en ambas direcciones.

11
Nº 28 - enero - junio / 2013

12
Universidad de Manizales

Facultad de Ciencias e Ingeniería

Implementación de un software
para el análisis de imágenes
aéreas multiespectrales
de caña de azúcar*1
[Implementation of software for the analysis
of multispectral aerial images sugarcane]
Gerardo SCHNEIDER2, Alejandro Javier HADAD3 ,Alejandra KEMERER4
Recibo: 20.02.2013 - Aprobación: 17.06.2013

Resumen
En este trabajo se presenta una implementación de software para
la determinación del estado de plantaciones de caña de azúcar
basado en el análisis de imágenes aéreas multiespectrales. En la
actualidad no existen técnicas precisas para estimar objetivamente
la superficie de caña caída o volcada, y esta ocasiona importantes
pérdidas de productividad en la cosecha y en la industrialización.
Para la realización de éste trabajo se confeccionó un dataset referencial de imágenes, y se implementó un software a partir del
cual se obtuvieron indicadores propuestos como representativos
del fenómeno agronómico, y se realizaron análisis de los datos
*	
	

Modelo para citación de este artículo:
SCHNEIDER, Gerardo; HADAD, Alejandro Javier & KEMERER, Alejandra (2013). Implementación de un software para el análisis de imágenes aéreas multiespectrales de caña de azúcar.
En: Ventana Informática. No. 28 (ene.-jun.). Manizales (Colombia): Facultad de Ciencias e
Ingeniería, Universidad de Manizales. p. 13-29. ISSN: 0123-9678
1	 Artículo de investigación científica y tecnológica proveniente de la tesina de grado Análisis de
Imágenes Aéreas Orientado a la caracterización de caña caída, necesaria para la obtención
del título de Licenciado en Bioinformática, cuyo autor es Gerardo Schneider bajo la dirección
de Alejandro Hadad durante el año 2012.
2	 Licenciado en Bioinformática. FI-UNER. Oro Verde, Entre Ríos (Argentina). Correo electrónico:
gerschneider@gmail.com.
3	 Bioingeniero, Aspirante al Doctorado en Ingeniería, mención en Sistemas de Información,
UTN-FRSF. Docente-Investigador e Integrante del GIA de la FI-UNER. Oro Verde, Entre Ríos
(Argentina). Correo electrónico: hadad@santafe-conicet.gov.ar.
4	 Ingeniera Agrónoma. M. Sc. Investigador en el Grupo de Recursos Naturales y Factores Abióticos de la EEA Paraná del INTA y Docente en las cátedras de Climatología Agrícola y SIG
de la FCA UNER. Oro Verde, Entre Ríos (Argentina). Correo electrónico: akemerer@parana.
inta.gov.ar
Nº 28 - Universidad de Manizales, enero-junio/2013 - pp 13-29

13
Nº 28 - enero - junio / 2013

generados. Además se implementó un software clasificador
referencial basado en redes neuronales con el que se estimó la
fortaleza de dichos indicadores y se estimó la superficie afectada
en forma cuantitativa y espacial.
Palabras Clave: Caña de azúcar, cuantificación, volcado, red neuronal,
procesamiento de imagen

Abstract
In this paper we present a software implementation for determining
the status of sugarcane plantations based on the analysis of multispectral aerial images. Currently there are no precise techniques
to estimate objectively the cane area fall or overturned, and this
causes significant losses in crop productivity and industrialization.
For the realization of this work a dataset benchmark images was
made, and a software, from which were obtained representative
proposed indicators for the agronomic phenomenon was implemented, and analyzes of the data generated were realized. In
addition, we implemented a software benchmark classifier based
on neural networks with which we estimated the strength of these
indicators and the area affected was estimated quantitatively and
spatially.
Keywords: Sugarcane, quantification, fall, neural network, image
processing

Introducción
El cultivo de caña de azúcar en Argentina se encuentra principalmente
localizado en la región noroeste del país (99%), donde representa, de
acuerdo con Pérez et al. (2005), una de las actividades productivas
más importantes, y en escasa extensión en la región litoral (1%). Los
sistemas productivos cañeros presentan diferentes niveles tecnológicos
según el sistema de cosecha utilizado, con sistemas desde manuales
a totalmente mecanizados, si bien, en la actualidad más del 70% del
volumen total se cosecha de manera mecanizada. Uno de los aspectos
más críticos del proceso de cosecha de la caña de azúcar son las pérdidas que se producen y se han determinado como niveles tolerables
alrededor del 2,5%. La presencia de caña caída es uno de los factores
con mayor influencia. Incidencia de vuelco superiores al 20% determina
incrementos en las pérdidas que van desde el 4 al 6,4%, según expresan
Rodríguez et al. (2010).
14
Universidad de Manizales

Facultad de Ciencias e Ingeniería

La presencia de caña de azúcar caída (CC) al momento de la cosecha
trae aparejadas importantes pérdidas en la recolección y en el ingenio
azucarero. En el fenómeno de CC por quebrado intervienen aspectos
aleatorios e impredecibles. Es normal que el cañaveral en un cuadro
productivo alcance una altura promedio, pero presenta variaciones
respecto de esta variable en diferentes sectores del campo. Esto puede
deberse a las condiciones diferenciales del suelo que presenta distintos
niveles de fertilidad, humedad, compactación, etc. Por otro lado, cada
planta del cañaveral es constitutivamente diferente, por lo que manifestará en forma única los distintos estímulos externos.
Cuando la planta es joven y se ha desarrollado bajo condiciones óptimas, alcanza cierta altura y por su propio peso comienza a pandearse,
llegando algunas a quebrarse una vez que se supera su tensión de
rotura producto del viento o fenómenos ambientales como el granizo.
La CC se presenta con una gran heterogeneidad espacial.
Una vez que se produce el fenómeno, el suelo puede quedar al descubierto, o por el contrario puede producirse un reverdecimiento producto
de la aparición de nuevas hojas verdes, con crecimiento fototrópico.
Esto suma heterogeneidad ante una observación externa. Los factores
antes mencionados evidencian la gran complejidad en el fenómeno en
estudio, lo que lo hace dificultoso de analizar y cuantificar.
La materia extraña a la caña denominada en inglés como trash, cuando ingresa al ingenio azucarero representa una importante pérdida de
eficiencia en el proceso de elaboración de azúcar, aseguran Tonatto
et al. (2005). El desafío de ingeniería industrial radica en explorar las
alternativas para controlar los efectos perjudiciales que estos desechos
o trash y la tierra presentes en la caña tienen en los equipos, procesos
y rendimientos operativos de la fábrica. Es decir que la calidad de la
caña afecta en forma directa al rendimiento fabril y a la calidad de la
azúcar obtenida (Larrahondo, 1995). A su vez la calidad de la materia
prima (caña) puede ser afectada por aspectos siempre cambiantes de la
agricultura de la caña de azúcar, tales como la introducción de nuevos
cultivares, variaciones climáticas, el uso de maduradores químicos,
cambios en las prácticas culturales y en los sistemas de cosecha o la
aparición en los cultivos de enfermedades o plagas. En cuanto a los
tipos de cosecha, se observa que los contenidos de trash y tierra en
caña cosechada en forma mecanizada son sensiblemente inferiores
que en la cosecha semi-mecanizada, pasando de un 2 a un 5-7%. Al
mismo tiempo, los valores de fibra (residuo vegetal) suben de 14 a 18%
aproximadamente, debido a la presencia de mayor cantidad de partes
vegetales por una cosecha menos eficiente (Sustaita, 2005). Esto significa que las industrias abonan a los productores una parte significativa
15
Nº 28 - enero - junio / 2013

del peso del trash de la materia prima ingresada por balanza a valor
caña, dado que la forma de muestreo y análisis de este parámetro es
generalmente inadecuado.
A esto se le debe incorporar los otros costos adicionales que produce
este producto extraño en la fábrica propiamente dicha, como ser:
-- 	 Desgaste en los molinos por abrasión y una pérdida progresiva en
la capacidad de extracción del jugo de caña.
-- 	 Aumento significativo de la cantidad de cachaza5 y con ello de las
pérdidas de azúcar en la misma.
-- 	 Aumento del consumo de productos químicos para el tratamiento
de los jugos.
-- 	 Aumento del color en el jugo y subsecuentemente en el azúcar con
lo cual para evitarlo se reducen los ciclos de cristalización disminuyendo la eficiencia fabril.
-- 	 Desgaste de equipos, tuberías y bombas.
-- 	 Disminución del poder calorífico del bagazo6 y por ende la eficiencia
en el quemado del mismo, con un aumento del consumo de y de
las emisiones de caldera.
-- 	Otros.

1. Fundamento teórico
Para disminuir al mínimo posible el porcentaje de trash en la caña, en
varios ingenios se instalaron mesas lavadoras de caña, removiendo
el contenido de tierra mediante grandes cantidades de agua (relación
aproximada de 3 m3 de agua por ton. de caña). Esto supone ahorro de
dinero, pero agrega problemas como mayores costos por la potencia
requerida, el agua necesaria y la mano de obra adicional, sumado a
las nuevas discusiones con los productores ya que algunos estudios
confirman que en el lavado de la caña se pierde un porcentaje del
rendimiento por arrastre de azúcar. Además, la técnica requiere disponibilidad de terreno para instalar decantadores de arena y barros para
poder re-usar el agua y no devolverla así a los causes incrementando
la contaminación. Una estrategia prometedora para lograr reducir este
impacto radica en lograr una mayor eficiencia operativa en las tareas de
cosecha de la caña en el campo, etapa previa al ingreso a las fábricas,
y fundamentalmente en sectores con caña quebrada que incrementan
notablemente el porcentaje de trash. Esta es un área de mano de obra
5	 Espumas e impurezas que sobrenadan en el jugo de la caña de azúcar al someterlo a la
acción del fuego.
6	 Residuo de una materia de la que se ha extraído el jugo.

16
Universidad de Manizales

Facultad de Ciencias e Ingeniería

intensiva donde por sus particularidades, considera Sustaita (2005),
no se han logrado introducir soluciones tecnológicas que reduzcan su
impacto negativo en la producción.
Actualmente, la cuantificación de la caña de azúcar caída en cuadros
productivos es un proceso costoso e ineficiente. Se requiere del envío
de evaluadores al terreno que deben explorar grandes superficies para
obtener un muestreo representativo que les permita hacer estimaciones.
En su desplazamiento por el campo producen daño, requieren muchas
horas hombre de trabajo y generan estimaciones con un alto grado de
incerteza. A su vez, la presencia de variaciones espaciales en la productividad de la caña es muy amplia. Viccini (2007) determinó variaciones
de hasta 50 tn/ha a nivel de lote de producción. Es esperable que este
patrón, así como variaciones en la calidad de la caña se observe a diversas escalas, de manera similar a lo que se ha demostrado para otras
variables que inciden en la producción, como las propiedades de suelo
(Anderson et al., 1999), lo que dificulta establecer un distanciamiento
de muestreo único y repercute negativamente en los costos.
Otra estrategia es la de realizar vuelos sobre los cultivos con observadores especialistas los que estiman el porcentaje de caña caída de
acuerdo a su experiencia e impresión de lo observado desde el aire.
Esta estrategia es subjetiva y dependiente de los especialistas disponibles en cada área de interés.
Teniendo en cuenta estos antecedentes se evidencia que no se ha
observado reporte de alguna metodología con cierto grado de certeza
mensurable para determinar el área afectada, a fin de ayudar a planificar de mejor manera el proceso de cosecha y los costos asociados
por parte de los actores productivos involucrados.
En este sentido, el Instituto Nacional de Tecnología Agropecuaria de
Argentina – INTA – ha abordado la problemática, realizando trabajos
a partir de fotografías aéreas de alta resolución (Kemerer et al. 2010,
Melchiori et al., 2009). A partir de esta fuente de datos se trabajó
en conjunto para avanzar con nuevas estrategias tecnológicas para
abordar el problema. En este trabajo se presenta la infraestructura
informática desarrollada y el análisis de resultados informáticos y
agronómicos.
Desde el punto de vista informático se montó una aplicación para realizar
el etiquetado de imágenes, a partir del cual se desarrolló una estructura
tipo pipeline con capacidades de análisis de variables y clasificación de
regiones. Como clasificador de referencia se utilizaron redes neuronales
por la capacidad de las mismas para esta tarea y la experiencia previa
de los autores con este clasificador. Desde el punto de vista agronómi17
Nº 28 - enero - junio / 2013

co, como un primer resultado, se brinda una estimación cuantitativa y
espacial de las regiones con caña de azúcar en pie y caída.

2. Metodología
Se contó con el set de imágenes obtenido por el Instituto Nacional de
Tecnología Agropecuaria (INTA) de Argentina desde un avión Sky Arrow
650 TCNS ERA, cuyo sistema de captura se compone de un sistema de
posicionamiento global, una cámara multiespectral Geospatial MS4100
y un sistema de control y almacenamiento de datos. La cámara empleada permite la adquisición de fotogramas en tres bandas del espectro
electromagnético: verde (530-580 nm.), roja (650-685 nm.) e infrarroja
cercana (770-830 nm.) con una resolución de imagen de 1920 x 1075
pixeles. El sistema de posicionamiento proporciona la posición, actitud
y altura de vuelo en sincronismo con la adquisición de cada fotograma.
El vuelo se realizó el 5 de mayo de 2008, momento del ciclo del cultivo
donde la presencia de caída de la caña es claramente evidente. Los
vuelos se efectuaron en el medio día solar a fin de contar con una
iluminación homogénea en la superficie. El plan de vuelo se diseñó
para una altitud de 1200 m. resultando un tamaño de pixel de 0.7 m.
Se obtuvieron 540 fotogramas que fueron ensamblados mediante el
reconocimiento de puntos de anclaje en fotogramas consecutivos generando un mosaico. Se utilizaron en este procedimiento las librerías
Panorama Tools7 con la interfaz gráfica Hugin8, ambas de distribución
libre. El mosaico se georreferenció con el programa de análisis Leica
Erdas Imagine 9.1. y se extrajeron imágenes individuales correspondientes a cada parcela productiva.
Con la asistencia de un Ingeniero Agrónomo se realizó el etiquetado de
las imágenes en las clases de interés, para lo cual se utilizó la aplicación
Label Me (Russel et al., 2008) del Instituto Tecnológico de Massachusetts, la cual fue desplegada en un servidor local de modo de facilitar el
acceso a los datos y su incorporación a un pipeline de procesamiento,
extracción de características, análisis, clasificación y segmentación
posterior. En la figura 1 se observa el proceso de etiquetado consistió
en delimitar en las imágenes, polígonos continentes de porciones representativas de las clases Caña en Pie (CP), Caña Caída en Forma de
Parches (CCP), Caña Caída en Áreas Grandes (CCA), Caña Caída con
Fototropismo (CCF) y Corridas o áreas de suelo descubierto (C) (figura
1). De esta etapa surge un conjunto de datos de referencia o dataset,
7	
8	

18

http://panotool.sourfceforge.net
http://hugin.sourceforge.net
Universidad de Manizales

Facultad de Ciencias e Ingeniería

del cual se obtendrán 5678 muestras, o subimágenes cuadradas de
60 pixeles de lado.
Se desarrolló en código Java un software capaz de adquirir la información
con forma de metadatos generada en el etiquetado, y a partir de ella recortar y procesar automáticamente las porciones de imágenes obtenidas
desde el dataset, con el fin de obtener indicadores representativos de cada
clase. Se incorpora en esta etapa un preprocesamiento de normalización
en brillo de las imágenes que se realizó calculando el brillo promedio por
canal de todos los polígonos etiquetados, y fijando arbitrariamente como
parámetro para la normalización un 120% de dichos valores, lo que amplió
el rango dinámico sin producir saturación en el histograma. Se aplicó un
filtro espacial Frei-Chen para la detección de bordes (Frei et al., 1977),
con el fin de resaltar las zonas de alta frecuencia.

Figura 1. Captura de pantalla de un imagen ejemplo y del
proceso de etiquetado de la misma con LabelMe

Dadas las características del fenómeno agronómico, se realizó un
abordaje desde el punto de vista de las texturas de las imágenes, definiéndose las siguientes características o indicadores de interés:
•	 	 Desvío estándar del histograma de la muestra por canal
•	 	 Entropía promedio del histograma de la muestra por canal
•	 	 Valor promedio de los pixeles de la muestra por canal (mencionado
como Firma Espectral)
•	 	 Valor promedio de los pixeles de la muestra por canal post filtrado
de detección de bordes (mencionado como Firma Espectral con
Detección de Borde)
19
Nº 28 - enero - junio / 2013

•	 	 Índice de vegetación de diferencia normalizada (NDVI) (Rouse et
al., 1973)
La extracción de características se realizó en un proceso iterativo del
tipo Batch dado el alto requerimiento de poder de cómputo y tiempo
requerido. El volumen de información generada se almacenó en una
base de datos Postgres, de modo de poder acceder concurrentemente
al momento del análisis a toda la información y obtenerla utilizando las
potencialidades de un lenguaje de consulta SQL.
Con el fin de evaluar los efectos ponderados de los indicadores propuestos, se eligió como clasificador de referencia una Red Neuronal
(RN) Perceptrón Multicapa. La elección se realizó teniendo en cuenta
resultados en el procesamiento de imágenes reportadas en la bibliografía (Wang et al., 2013; Ma et al., 2005; Kobashi et al., 2001; Iscan et al.,
2009; Middleton & Damper 2004) y la experiencia de los investigadores
en dicho modelo.
Las RN constituyen un modelo computacional inspirado en ciertas
características de las redes neuronales biológicas, cuyo primer modelo matemático se presentó en 1943 por Warren McCulloch y Walter
Pitts. Permiten resolver diversos problemas complejos de la vida real,
que no son resolubles con tecnologías convencionales. El perceptrón
multicapas (PMC) es un tipo de red neuronal artificial de aprendizaje
supervisado (Figura 2), que consiste en un arreglo de nodos o neuronas
ubicados en capas, de forma tal que los nodos de una están conectados
a todos los nodos de la capa anterior y de la siguiente mediante valores
de pesos de conexión, o sinapsis. Estas neuronas o nodos, computan
alguna función no lineal simple en la suma de las entradas, denominada
función de activación. Un PMC puede aproximar relaciones no lineales
entre datos de entrada y de salida.

Figura 2. Red neuronal tipo Perceptrón Multicapa con nc capas

20
Universidad de Manizales

Facultad de Ciencias e Ingeniería

Se implementó una Red Neuronal (R.N) del tipo Perceptrón Multicapa,
con una neurona de salida por cada clase o estado del cultivo, una neurona de entrada por canal para cada indicador propuesto, y una capa
intermedia de 80 neuronas. Se utilizó la R.N. para evaluar además la
robustez de cada indicador en relación a cada clase, y para segmentar
la imagen original cuantificando en hectáreas la superficie asociada a
cada estado del cultivo.
Atendiendo al problema de la complejidad de los datos al momento
de entrenar una red neuronal, se minimizaron efectos negativos del
desbalance y solapamiento de clases (Toribio et al., 2009) mediante la
generación de training sets balanceados con igual número de muestras
por clase, y obtenidos aleatoriamente del dataset a partir de la consulta
SQL:
DROP VIEW balanceada;

CREATE VIEW balanceada AS

(SELECT e.id FROM tablaAnalisisEspectro e WHERE
e.tamVentana=tamVent AND e.clase=’CP’ ORDER BY RANDOM()
LIMIT cantMuestras) UNION

SELECT e.id FROM tablaAnalisisEspectro e WHERE
e.tamVentana=tamVent AND e.clase=’CCA’ ORDER BY RANDOM()
LIMIT cantMuestras) UNION
(SELECT e.id FROM tablaAnalisisEspectro e WHERE
e.tamVentana=tamVent AND e.clase=’CCP’ ORDER BY RANDOM()
LIMIT cantMuestras) UNION
(SELECT e.id FROM tablaAnalisisEspectro e WHERE
e.tamVentana=tamVent AND e.clase=’CCF’ ORDER BY RANDOM()
LIMIT cantMuestras)UNION
(SELECT e.id FROM tablaAnalisisEspectro e WHERE
e.tamVentana=tamVent AND e.clase=’C’ ORDER BY RANDOM()
LIMIT cantMuestras);

Para cada una de las muestras se extrajeron las características de
textura a fin de conformar los patrones de entrenamiento y testeo. A
partir de dichos patrones se realizaron ensayos con diferentes configuraciones de características y del clasificador de referencia. El criterio
de selección que se utilizó se vinculó a aquellas configuraciones en las
cuales se incrementó en menor medida el error de testeo

21
Nº 28 - enero - junio / 2013

3. Resultados y discusión
Los indicadores de interés evaluados resultaron, en general, promisorios
para el proceso de caracterización de la caña caída, a excepción del
NDVI. Este índice presentó valores bajos en el caso de la caña caída
donde el cultivo alcanza más biomasa y el valor debería ser mayor
(Flowers et al., 2003, Raun et al., 2005, Melchiori et al., 2006). Esto
sucede porque la banda IR capta las variaciones en estructura del cultivo asociadas a la biomasa y el índice de área foliar. Cuando el cultivo
se cae la estructura se ve modificada, disminuye, eso hace bajar el IR
y entonces el NDVI toma valores más bajos. También hay un efecto
confundido del aporte de reflectancia del suelo en la caña caída que
hace disminuir el NDVI (Qi et al., 1994; Rondeaux et al., 1996). Por lo
tanto, este índice no fue incorporado en el análisis posterior.
En el caso de los valores de desvío del histograma se observó para la
clase caña en pié (CP) un corrimiento hacia valores inferiores en los
tres canales analizados (figura 3). Se considera al desvío estándar del
histograma como un indicador candidato de la clase caña en pie.

Figura 3. Desvío estándar del histograma de las muestras contenidas en los
polígonos que conforman el dataset, para cada clase y ventanas de tamaño V= 40
px en los tres canales analizados (Ch=0: Infrarrojo, Ch=1: Rojo, Ch=2: Verde).

La distribución de la entropía presentó valores más elevados para las
clases de caña caída (CCA, CCF y CCP) y suelos descubierto respecto
a la clase caña en pie, con valores medios diferentes entre clases. Por lo
tanto, se considera a la entropía del histograma un indicador promisorio
para la identificación de caña en pie.
22
Universidad de Manizales

Facultad de Ciencias e Ingeniería

En cuanto a la firma espectral, si bien se observa solapamiento en las
distribuciones entre clases, para el canal IR se observa un desplazamiento hacia valores superiores para caña en pie. La firma espectral para el
canal IR se presenta como indicador promisorio para identificar caña
en pie, por lo que se considera como una de las variables a incorporar.
De la aplicación del filtro de detección de bordes Frei-Chen sobre la imagen de los cuadros productivos completos, surge una atenuación casi
total de las áreas homogéneas, como ser caña en pie, caña caída en
áreas grandes y corridas. En cambio, se realzan las zonas de caña caída
en forma de parches y caña caída con fototropismo, aunque esta última
atenuada por la aparición de nuevas hojas verdes, las que suavizan sus
bordes Al comparar las firmas espectrales de las imágenes originales con
las resultantes del filtro de detección de bordes Fei-Chen, se observa
una mejor resolución de la clase caña en pie (CP) en relación al resto.
También mejora, aunque en menor medida, la resolución interclase para
las variantes de caña caída. El nuevo indicador obtenido es considerado
promisorio para la identificación de características de caña caída.

3.1 Análisis de la influencia de los indicadores
en el clasificador de referencia
Se utilizó el clasificador de referencia, suprimiendo de las entradas un
indicador por vez en sus tres canales. Se realizó un testeo del clasificador con 200 ciclos de entrenamiento – testeo, con ventaneo de 60
pixeles de lado, 60 muestras por clase en el entrenamiento y clasificación con barrido de ventana de 20 pixeles, paso de a tres pixeles en la
clasificación, para un dataset normalizado en brillo. El objetivo de este
tipo de análisis es fundamentalmente evidenciar la influencia de cada
una de las variables consideradas desde el punto de vista de una tarea
de clasificación.
En los diferentes ensayos se observó que al suprimir el desvío del histograma de los patrones de entrenamiento y testeo de la red neuronal,
la performance global resultó en valores similares a los obtenidos al no
suprimir ninguna entrada.
Al suprimir otras variables como la entropía del histograma, firma espectral (Espectro) del histograma o firma espectral de las imágenes con
procesamiento de detección de borde (Esp. Borde), la tasa de aciertos
globales decreció, resultando afectada en mayor medida por esta última
variable, lo que indica que la firma espectral de las imágenes procesadas
con filtro de detección de bordes es un indicador muy fuerte asociado
a la clasificación.
Al analizar la performance comparativa para la clasificación de la clase
caña en pie (CP) se observa que al suprimir el desvío del histograma,
23
Nº 28 - enero - junio / 2013

y en menor medida la entropía, la tasa de aciertos crece, incluso por
encima de los valores obtenidos al no suprimir ninguna entrada. En
consecuencia se puede inferir que estas dos variables no están aportando información útil para la clasificación de caña en pie, pero además
intervendrían negativamente aportando ruido, lo que baja la performance
de la red para esta clase en particular.
Los errores globales (Tabla 1) ante la supresión de un indicador de
entrada de la red crecen al suprimir la firma espectral de las imágenes
con detección de borde (Esp. Borde) y en menor medida al suprimir la
entropía. Esto refleja una asociación positiva de dichos indicadores con
la performance de la clasificación. Diferente es el caso de suprimir el
desvío o firma espectral, cuando se evidencia disminución de la tasa
de error global, aunque muy levemente en el último caso.
Tabla 1. Valores promedio de errores globales al suprimir un indicador en la red
Entrada Suprimida
Desvío estándar
Entropía
Firma espectral detección borde
Firma espectral
Ninguna

Errores totales (valores porcentuales promedio)
3,02
8,12
9,63
4,66
5,54

Análisis comparativos de supresión de entrada realizados preliminarmente para el testeo del algoritmo, arrojan las mismas conclusiones,
las que se confirman al analizar un dataset normalizado en brillo y
evaluando 200 ciclos de entrenamiento y testeo.
En la tabla 2 la columna Total refleja el porcentaje global de falsos
positivos a la clase CP, el cual resulta de promediar la ponderación
de los porcentajes de falsos positivos de cada clase con la cantidad
de muestras de dicha clase. Se observa que el error alcanza los
valores más altos al suprimir la firma espectral con detección de
borde, mientras que la variable que menor efecto presenta es el
desvío estándar.
Tabla 2. Valores porcentuales promedio de falsos positivos a
CP por clase al suprimir un indicador en la red
Análisis de errores promedio por clase
Ent. Suprimida:
CCA
CCF
CCP
Desvío estándar
2,66
6,07
2,07
Entropía
11,24
12,02
6,15
Firma espectral detección borde
10,73
16,71
8,34
Firma espectral
4,95
6,59
3,39
Ninguna
6,59
9,93
4,39

24

C
2,54
7,07
5,15
5,59
3,85

Total
3,02
8,12
9,63
4,66
5,54
Universidad de Manizales

Facultad de Ciencias e Ingeniería

3.2 Análisis de la influencia de las entradas
individuales en el clasificador
Suprimiendo una de las doce variables de entrada a la vez (indicador
evaluado para cada uno de los canales, tabla 3), se realizó un testeo
del clasificador con 64 ciclos de entrenamiento-testeo, con ventaneo
de 60 pixeles de lado, 60 muestras por clase en el entrenamiento y
clasificación con barrido de ventana de 20 pixeles, pasó de a 3 pixeles
en la clasificación.
El análisis de falsos positivos hacia la clase CP que se ha realizado resulta primordial, ya que una mayor tasa de aciertos en la
clasificación de una clase no necesariamente está asociada a una
mejor performance de funcionamiento de la red. Como ejemplo,
es válido considerar la anulación de la entrada N°4 que a primera vista prometió excelentes resultados en cuanto a aciertos, ya
que produjo la mayor tasa de aciertos para CP. Sin embargo, esa
anulación también incrementó considerablemente el porcentaje de
falsos positivos, lo que indica que la red estaría sobreestimando la
cantidad de caña en pie e incrementando su error de clasificación
para la clase de interés. Resulta entonces fundamental analizar
los resultados de aciertos y errores para evitar llegar a falsas
conclusiones (figura 4).
Tabla 3. Numeración de las variables de entrada utilizadas por canal
N°
1
2
3
4
5
6
7
8
9
10
11
12
13

Variable de entrada
Firma Espectral
Firma Espectral
Firma Espectral
Firma Espectral con Detección de Borde
Firma Espectral con Detección de Borde
Firma Espectral con Detección de Borde
Entropía Histograma
Entropía Histograma
Entropía Histograma
Desvío Estándar del Histograma
Desvío Estándar del Histograma
Desvío Estándar del Histograma
Ninguna entrada anulada

Canal
0
1
2
0
1
2
0
1
2
0
1
2

Se observa que al suprimir las entradas 10, 11 y 12 no se incrementa
sensiblemente el número de falsos positivos para la clase CP, confirmando lo mencionado sobre la disminución de falsos positivos para CP
en relación a no suprimir ninguna entrada.
25
Nº 28 - enero - junio / 2013

Figura 4. Falsos positivos de CP al suprimir una entrada

3.3 Cuantificación de clases en las imágenes
De la segmentación realizada con supresión del indicador desvío,
se obtienen estadísticas por clase en porcentajes de superficie del
cuadro productivo y su distribución espacial (figura 5). A modo de
ejemplo, en la figura 5 a, se muestra la segmentación de regiones
dentro de un cuadro productivo y su cuantificación espacial (figura 5
b.) resaltándose en gris oscuro el área de interés para cosecha (Caña
en pie). La extensión del mismo es de 50,1 hectáreas, de las cuales
la segmentación de regiones identifica que 45,5 hectáreas son de
caña en pie y el resto de CC. Esta información resumida del cuadro
productivo obtenida a partir de la imagen permitirá realizar una estimación más precisa de costos de la cosecha y del posterior proceso
de industrialización.

Figura 5. Segmentación de regiones dentro de un cuadro productivo para la planificación
de la cosecha de caña. (a- Imagen aérea original, b-Imagen segmentada por clase)

26
Universidad de Manizales

Facultad de Ciencias e Ingeniería

4. Conclusiones
El trabajo interdisciplinario entre profesionales de diferentes áreas, ha
posibilitado un abordaje innovador hacia el problema de la cuantificación
de CC proponiendo nuevas herramientas tecnológicas para resolverlo.
Se confeccionó un dataset de referencia y una base de datos para el
estudio del cultivo de la caña de azúcar en sus diferentes estados, a
partir del cual el software creado pudo brindar información sobre la
robustez de los indicadores propuestos y realizar una estimación de
la superficie de caña de azúcar caída, brindando valores numéricos y
su distribución espacial en la forma de imagen segmentada, con un
margen de error acotado.
En cuanto a las variables descriptoras del problema se observó que, a
excepción del desvío estándar del histograma y el NDVI, los indicadores
propuestos resultan satisfactorios para la clasificación de caña caída
vs caña en pie, en este contexto de aplicación.
Si bien no se logró diferenciar a través de patrones de textura las diferencias entre los distintos tipos de CC, la clasificación de caña caída vs
caña en pie permite realizar una cuantificación de las mismas la cual
ya permite planificar las tareas de cosecha.
El clasificador de referencia fue utilizado principalmente para explorar
distintas indicadores de textura y ponderar su importancia relativa en
relación a la detección planteada.
A partir de los indicadores obtenidos en este trabajo se proyecta como
trabajo futuro la comparación y/o combinación con otros clasificadores
y la evaluación de nuevos abordajes para la diferenciación entre los
distintos tipos de cañas caídas.

27
Nº 28 - enero - junio / 2013

5. Referencias bibliográficas
ANDERSON, D.L.; PORTIER, K.M.; OBREZA, T.A.; COLLINS, M.E & PITTS, D.J. (1999). Tree
regression analysis to determine effects of soil variability on sugarcane yields. In: Soil Science
Society of America Journal, Vol. 63, No. 3, Madison (WI, USA), Soil Science Society of America,
p. 592–600, ISSN: 0361-5995.
FLOWERS, M.W.R.; HEINIGER, R.; TARLETON, B. & MEIJER, A. (2003). Field Validation of a
Remote Sensing Technique for Early Nitrogen Application Decisions in Wheat. In: Agronomy
Journal, Vol. 95, No. 1. Madison (WI, USA): American Society of Agronomy, p 167–176. ISSN:
0002-1962.
FREI, W. & CHEN, C. (1977). Fast boundary detection: a generalization and a new algorithm.
En: IEEE Transactions on computers, Vol C-26, No.10 (Oct.). Washington DC (USA): IEEE
Computer Society. p. 988-998. ISSN: 0018-9340.
Iscan, Z.; YÜKSEL, A.; Dokur, Z.; Korürek, M. & Ölmez, T. (2009). Medical image segmentation with transform and moment based features and incremental supervised neural network
[online]. Digital Signal Processing, Vol. 19, No. 5 (Sep.). Philidelphia (PA, USA): Elsevier Inc.
p. 890–901 <http://www.sciencedirect.com/science/article/pii/S1051200409000086> [consult:
12/05/2013]
KEMERER, A., MELCHIORI A.; ALBARENQUE, S. & MELCHIORI, R. (2010). Utilización de fotografías aéreas multiespectrales para caracterizar la variabilidad espacial en la producción
de caña de azúcar. En: 9º Curso de Agricultura de Precisión y 4ª Expo de Máquinas Precisas
(14-16/07/2010), Manfredi (Córdoba, Argentina): INTA - EEA Manfredi. Material del 9º Curso
de Agricultura de Precisión, p. 177-182.
Kobashi, s.; Kamiura, n.; Hata, y. & Miyawaki. F. (2001). Volume-quantization-based neural
network approach to 3D MR angiography image segmentation. In: Image and Vision Computing, Vol. 19, No. 4 (Mar.). Philadelphia (PA, USA): Elsevier Inc. p. 185–193. ISSN: 0262-8856
LARRAHONDO, J.E. (1995). Calidad en la Caña de Azúcar. En: Cenicaña. El cultivo de la caña en
la zona azucarera de Colombia, Cali, CENICAÑA. p. 337-354. <http://www.cenicana.org/pdf/
documentos_no_seriados/libro_el_cultivo_cana/libro_p337-354.pdf> [consulta: 15/04/2013]
Ma, L. & Staunton, R.C. (2005). Integration of multiresolution image segmentation and neural
networks for object depth recovery. In: Pattern Recognition, Vol. 38, No. 7 (Jul.). Philadelphia
(PA, USA): Elsevier Inc. p. 985 – 996. ISSN: 0031-3203.
MELCHIORI, R.J.M.; CAVIGLIA, O.P.; BIANCHINI, A.A.; FACCENDINI, N.; ALBARENQUE, S. &
RAUN W. (2006). Wheat Yield Prediction by Using an Active Sensor in the Northern Argentinean Pampas. In: ASA-CSSA-SSSA Annual meeting (12-16/11/2006), Indianapolis (Indiana,
USA): American Society of Agronomy, ASA - Crop Science Society of America, CSSA - Soil
Science Society of America, SSSA. Proceedings of ASA-CSSA-SSSA Annual Meeting 2006.
Madison (WI, USA): ASA-CSSA-SSSA.
MELCHIORI, A.; KEMERER, A. & MELCHIORI, R. Y BELLOMO, M. (2009). Utilización de fotografías aéreas multiespectrales de alta resolución para la cuantificación de caña de azúcar
caída. En: I Congreso Argentino de Agroinformática (24-25/08/2009), Mar del Plata (Argentina):
Sociedad Argentina de Informática y el Instituto Nacional de Tecnología Agropecuaria, INTA.
Middleton, I. & Damper, R. I. (2004). Segmentation of magnetic resonance images using a
combination of neural networks and active contour models. In: Medical Engineering & Physics,
Vol. 26, No. 1 (Jan.). Philadelphia (PA, USA): Elsevier Inc. p. 71–86. ISSN: 1350-4533.
PÉREZ, D.; FANDOS, C.; MAZZONE, L.; SORIA, F.; SCANDALIARIS, P. & SCANDALIARIS, J.
(2005). Caña de azúcar en Tucumán y Argentina: evolución de algunos aspectos económicos
y productivos en la campaña 2004 [en línea]. Reporte agroindustrial. Estadísticas y márgenes
de cultivos tucumanos. Vol. 2, Boletín Nº 6, (ene.). Tucumán (Argentina): Estación Experimental
Agroindustrial Obispo Colombres, EEAOC. p 1-6. <http://www.eeaoc.org.ar/upload/publicaciones/archivos/189/20120316170830000000.pdf> [consulta: 02/04/2013]
QI, J.; CHEHBOUNI, A.; HUETE, A.; FERRY, Y. & SOROOSHIAN, S. (1994). A modified soil adjusted vegetation index, Remote Sensing of Environment, Vol. 48, No. 2 (May.). Philadelphia
(PA, USA): Elsevier Inc. p. 119-126, ISSN: 0034-4257. <http://www.sciencedirect.com/science/
article/pii/0034425794901341> [consult: 01/04/2013]

28
Universidad de Manizales

Facultad de Ciencias e Ingeniería

RAUN, W.R.; SOLIE, J.B.; STONE, M.L.; MARTIN, K.L.;FREEMAN, K.W.; MULLEN, R.W.;
ZHANG, H.; CHEPERS, J.S. & JOHNSON, G.V. (2005). Optical Sensor-Based Algorithm for
Crop Nitrogen Fertilization [online].In: Communications in Soil Science and Plant Analysis,
Vol. 36, No. 19-20. Johannesburg (South Africa): Taylor & Francis, Inc. p. 2759-2781. ISSN:
0010-3624, EISSN: 1532-2416. <http://www.nue.okstate.edu/Index_Publications/NFOA_2003.
pdf> [consult: 02/04/2013]
RODRÍGUEZ, R.A.; SOPENA, R.A.; SALEME, P.M. & VICINI, L.E. (2010). Pérdidas durante la
Cosecha del Cultivo de Caña de Azúcar: Evaluaciones 2009 en la Provincia de Tucumán –
Argentina. En: Informes Técnicos del proyecto Precop, No. 1. Famaillá (Tucumán, Argentina):
INTA EEA Famaillá, No. 1, 18 p. ISSN: 1852-9399.
ROUSE, J. W.; Jr.; HAAS, R. H.; SCHELL, J. A. & DEERING, D. W. (1973). Monitoring vegetation
systems in the great plains with ERTS. In: Third ERTS Symposium (10-14/12/1973), Washington
D.C. (USA): NASA. Proceedings of Third ERTS Symposium Vol. 1., p. 309-317.
RONDEAUX, G.; STEVEN, M. & BARET, F. (1996). Optimization of soil-adjusted vegetation indices.
In: Remote Sensing of Environment, Vol. 55, No. 2 (feb.). Philadelphia (PA, USA): Elsevier
Inc. p. 95-107. ISSN: 0034-4257.
RUSSEL, B.C.; TORRALBA, A.; MURPHY, K. P. & FREEMAN, W.T. (2008). LabelMe: a database
and web-based tool for image annotation. In: International Journal of Computer Vision, Vol.
77, No. 1-3 (may.). New York (USA): Springer US. p. 157-173, ISSN: 0920-5691.
SUSTAITA, G. (2005). Modelo estratégico para la industria azucarera regional. Tesis Final MBA,
San Miguel deTucumán (Tucumán, Argentina): Universidad Católica del Norte Santo Tomás
de Aquino, Fundación del Tucumán y Pontificia Universidad Católica de Valparaíso.
TONATTO, J.; ROMERO, E.R.; LEGGIO NEME, M.F.; SCANDALIARIS, J.; ALONSO, J.; DIGONZELLI, P.; ALONSO, L. & CASEN, S. (2005). Importancia de la calidad de la materia prima en
la productividad de la agroindustria azucarera. En: Gacetilla Agroindustrial de la EEAOC, No.
67, Tucumán (Argentina): EEAOC. 13 p.
TORIBIO, P.; RODRÍGUEZ, B.G. & ALEJO, R. (2009). Complejidad de los datos en las Redes
Neuronales Artificiales: Estado de la cuestión. En: 7° Congreso Internacional de Cómputo
en Optimización y Software, CICOS 2009 (17-20/11/2009), México (México): UAEM. CRUZCHÁVEZ, M.A. & ZAVALA-DÍAZ, J.C. (eds.). Memorias del 7mo. Congreso de Cómputo CICOS 2009.
ISBN(e) 978-607-00-1970-8, México (México): UAEM. p. 229-235. <http://campusv.uaem.mx/
cicos/imagenes/memorias/7mocicos2009/Articulos/24%20%20Complejidad%20de%20los%20
Datos%20en%20Redes.pdf> [consulta: 02/04/2013]
VICCINI, L. (2007). Determinación de la variación de rendimiento cultural de caña de azúcar en
Tucumán, Argentina, posicionada con GPS. En: Actualización Técnica Nº 8 (jun.). Manfredi
(Córdoba, Argentina): Proyecto Nacional Agricultura de Precisión, INTA, 18 p.
Wang, A.; ZINEDDIN, B.; LIANG, J.; ZENG, N.; LI, Y.; DU, M.; CAO, J. & LIU,, X. (2013). A novel
neural network approach to cDNA microarray image segmentation [online]. In: Computer
Methods and Programs in Biomedicine, Vol. 111, No. 1 (Jul.). Philidelphia (PA, USA): Elsevier Inc. p. 189–198 <http://www.sciencedirect.com/science/article/pii/S016926071300103X>
[consult: 18/05/2013]

29
Nº 28 - enero - junio / 2013

30
Universidad de Manizales

Facultad de Ciencias e Ingeniería

Aplicación de la minería de datos
en la extracción de perfiles
de deserción estudiantil*1
[Application of data mining in
extracting student dropout profiles]
Ricardo TIMARÁN PEREIRA2 - Andrés CALDERÓN ROMERO3
Javier JIMÉNEZ TOLEDO4
Recibo: 20.02.2013 - Aprobación: 16.06.2013

Resumen
En este artículo se presentan los primeros resultados del proyecto
de investigación cuyo objetivo es detectar patrones de deserción
estudiantil a partir de los datos socioeconómicos, académicos,
disciplinares e institucionales de los estudiantes de los programas
de pregrado de la Universidad de Nariño e Institución Universitaria
IUCESMAG, dos instituciones de educación superior de la ciudad
de Pasto (Colombia), utilizando técnicas de Minería de Datos. Los
resultados obtenidos corresponden a la Universidad de Nariño.
Se descubrieron perfiles socioeconómicos y académicos de los
*	
	

1	

2	
	
3	
4	

Modelo para citación de este artículo:
TIMARÁN PEREIRA, Ricardo; CALDERÓN ROMERO, Andrés & JIMÉNEZ TOLEDO, Javier
(2013). Aplicación de la minería de datos en la extracción de perfiles de deserción estudiantil.
En: Ventana Informática. No. 28 (ene.-jun.). Manizales (Colombia): Facultad de Ciencias e
Ingeniería, Universidad de Manizales. p. 31-47. ISSN: 0123-9678
Artículo de investigación científica y tecnológica proveniente del proyecto Detección de perfiles
de deserción estudiantil con técnicas de minería de datos en los programas de pregrado
de la Universidad de Nariño e Institución Universitaria CESMAG, ejecutado en el periodo
10/2012-04/2013, e inscrito en los grupos de investigación GRIAS de la Universidad de Nariño
y Tecnofilia de la IUCESMAG.
PhD. en Ingeniería, MSc. en Ingeniería, Especialista en Multimedia e Ingeniero de Sistemas
y Computación.
Director grupo de investigación GRIAS, Profesor Asociado, Departamento de Sistemas, Facultad de Ingeniería, Universidad de Nariño, Pasto (Colombia). Correo electrónico: ritimar@
udenar.edu.co
MSc. en Geoinformática, Ingeniero de Sistemas. Profesor hora cátedra, Departamento de
Sistemas, Facultad de Ingeniería, Universidad de Nariño, Pasto (Colombia). Correo electrónico:
aocalderon@udenar.edu.co
Especialista en Docencia Universitaria, Ingeniero de Sistema. Profesor tiempo completo, Facultad de Ingeniería, Institución Universitaria CESMAG, Pasto (Colombia). Correo electrónico:
jajimenez@iucesmag.edu.co
Nº 28 - Universidad de Manizales, enero-junio/2013 - pp 31-47

31
Nº 28 - enero - junio / 2013

estudiantes que desertan utilizando la técnica de clasificación basada en árboles de decisión. El conocimiento generado permitirá
soportar la toma de decisiones eficaces de las directivas universitarias enfocadas a formular políticas y estrategias relacionadas
con los programas de retención estudiantil que actualmente se
encuentran establecidos.
Palabras clave: Extracción de Perfiles, Deserción Estudiantil,
Minería de Datos, Clasificación, Árboles de Decisión

Abstract
The first results of the research project that aims to identify patterns
of student dropout from socioeconomic, academic, disciplinary
and institutional data of students from undergraduate programs
at the University of Nariño and IUCESMAG University, two higher
education institutions in the city of Pasto (Colombia), using data
mining techniques are presented. The results correspond to the
University of Nariño. Socioeconomic and academic profiles were
discovered of students who drop using classification technique
based on decision trees. The knowledge generated will support
effective decision-making of university staff focused to develop
policies and strategies related to student retention programs that
are currently set.
Keywords: Extraction of Profiles, Student Dropout, Data Mining, Classification, Decision Trees

Introducción
Los países de América Latina enfrentan desafíos similares en la educación superior, los cuales constituyen el contexto de la deserción
estudiantil: financiación, incremento de la cobertura, aseguramiento de
la calidad, mejoramiento de la equidad en el acceso y permanencia,
mayor articulación con la educación secundaria, diversificación de la
oferta para atender distintas dimensiones, intereses y necesidades
(ciencia, tecnología, sector productivo, investigación, humanidades,
artes, formación integral) y mayor vinculación con el sector laboral y
productivo. Según el Instituto para la Educación Superior en América
Latina y el Caribe (IESALC), citado por MEN (2006a, 14), Latinoamérica
presentó en el año 2003 una cobertura promedio en educación superior
del 28.7% y una tasa de deserción estudiantil del 50%.
En Colombia, el sistema educativo cuenta con 277 instituciones de
educación superior, de las cuales 81 son públicas y 196 privadas. De
32
Universidad de Manizales

Facultad de Ciencias e Ingeniería

acuerdo al Sistema Nacional de Información de la Educación Superior (SNIES), citado por MEN (2006a, 14), a 2006 la cobertura fue de
26.1%, lo cual equivale a 1.301.728 estudiantes. Uno de los principales
problemas que enfrenta el sistema de educación superior colombiano
concierne a los altos niveles de deserción estudiantil. Pese a que los
últimos años, según MEN (2009, 13), se han caracterizado por aumentos
de cobertura e ingreso de estudiantes nuevos, el número de alumnos
que logra culminar sus estudios superiores no es alto, dejando entrever
que una gran parte de éstos abandona sus estudios, principalmente en
los primeros semestres, ya que de cada cien estudiantes que ingresan
a una institución de educación superior cerca de la mitad no logra culminar su ciclo académico y obtener la graduación.
Adicionalmente, MEN (2006a, 14) plantea que a 2004, la deserción
se estimó en 49%, cuyas causas fueron: limitaciones económicas y
financieras, bajo rendimiento académico, desorientación vocacional y
profesional y dificultades para adaptarse al ambiente universitario. Es
de resaltar que, señala MEN (2006b, 1), la deserción estudiantil conlleva altos costos sociales y económicos que afectan a las familias, los
estudiantes, las instituciones y el Estado.
Se entiende por deserción estudiantil, de acuerdo con UPN (2005), al
hecho de que un número de estudiantes matriculados no siga la trayectoria normal del programa académico, bien sea por retirarse de ella, por
repetir cursos o por retiros temporales. MEN (2009), la define como una
situación a la que se enfrenta un estudiante cuando aspira y no logra
concluir su proyecto educativo, considerándose como desertor a aquel
individuo que siendo estudiante de una institución de educación superior
no presenta actividad académica durante dos semestres académicos
consecutivos, lo cual equivale a un año de inactividad académica. Esta
definición es el que se aplicó en esta investigación.
La minería de datos en la educación no es un tópico nuevo y su estudio
y aplicación ha sido muy relevante en los últimos años. El uso de estas
técnicas permite, entre otras cosas, predecir cualquier fenómeno dentro
del ámbito educativo. De esta forma, utilizando las técnicas que ofrece
la minería de datos, se puede predecir, con un porcentaje muy alto de
confiabilidad, la probabilidad de desertar de cualquier estudiante, coinciden Valero (2009) y Valero, Salvador & García (2010).
En el entorno internacional se han desarrollado algunos proyectos de
investigación aplicando la minería de datos al descubrimiento de patrones de deserción estudiantil:
- Tal como lo señalan Pautsch (2009, 58) y Pautsch, La Red & Cutro
(2010), en la Universidad Nacional de Misiones (Argentina) se realizó
33
Nº 28 - enero - junio / 2013

una investigación sobre deserción estudiantil utilizando las técnicas de
minería de datos. Su objetivo principal fue maximizar la calidad que los
modelos tienen para clasificar y agrupar a los estudiantes, de acuerdo a
sus características académicas, factores sociales y demográficos, que
han desertado de la Carrera Analista en Sistemas de Computación de
la Facultad de Ciencias Exactas, Químicas y Naturales analizando los
datos de las cohortes entre los años 2000 al 2006.
- De igual manera, según La Red et al. (2010), en la Universidad Nacional del Nordeste (Argentina) se realizó un estudio cuyo objetivo
principal fue aplicar técnicas de almacenes de datos y minería de datos
basadas en clustering para la búsqueda de perfiles de los alumnos de
la asignatura Sistemas Operativos de la Licenciatura en Sistemas de
Información según su rendimiento académico, situación demográfica y
socioeconómica, que permita conocer a priori situaciones potenciales
de éxito o de fracaso académico.
- En la Universidad Nacional de la Matanza (Argentina), señalan
Spositto et al., (2010), se aplicaron técnicas de minería de datos para
evaluar el rendimiento académico y la deserción de los estudiantes
del Departamento de Ingeniería e Investigaciones Tecnológicas sobre
los datos de los alumnos del periodo 2003 al 2008. La implementación
de este proceso se realizó con el software MS SQL Server para la
generación de un almacén de datos, el software SPSS para realizar
un preprocesamiento de los datos y el software Weka (Waikato Environment for Knowledge Analysis) para encontrar un clasificador del
rendimiento académico y para detectar los patrones determinantes
de la deserción estudiantil.
- Valero, (2009) y Valero, Salvador & García, (2010), señalan que en la
Universidad Tecnológica de Izúcar de Matamoros (México) se propuso
una investigación para identificar las causas que motivan la deserción
de sus estudiantes desde que ingresan. Mediante la técnica de minería
de datos clasificación y la herramienta Weka, encontraron relaciones
entre atributos académicos que identifican y predicen la probabilidad
de deserción y propusieron una herramienta para el tutor que le permite
predecir la probabilidad de deserción de cualquier alumno en cualquier
momento de su estancia escolar.
En el ámbito colombiano, de acuerdo con Restrepo & López (2008), en
la Universidad de La Sabana se realizó un proyecto de investigación
donde el objetivo era seleccionar, de una base de datos de estudiantes, los atributos que tuvieran mayor incidencia en la deserción de
la Universidad en los últimos cuatro años, con la técnica de minería
de datos clasificación por Rough Sets utilizando el paquete ROSE2.
De igual manera, Pinzón (2011) presenta la caracterización del perfil
34
Universidad de Manizales

Facultad de Ciencias e Ingeniería

del estudiante desertor de la Escuela de Marketing y Publicidad de la
Universidad Sergio Arboleda, utilizando la técnica de minería de datos
agrupamiento con el algoritmo K-means. Se analizaron las variables
demográficas del alumno obtenidas en el registro de última matrícula
del mismo semestre de abandono y las causas que lo generaron. Como
resultado final, se obtuvieron tres tipos de clúster que para el caso de
la investigación, constituyeron perfiles significativos.
En este artículo se presentan los primeros resultados del proyecto de
investigación cuyo objetivo es detectar patrones de deserción estudiantil a partir de los datos socioeconómicos, académicos, disciplinares
e institucionales de los estudiantes de los programas de pregrado de
dos instituciones colombianas de educación superior, utilizando técnicas de Minería de Datos. Se descubrieron perfiles socioeconómicos
y académicos de los estudiantes que desertan utilizando la técnica
de clasificación basada en árboles de decisión con la herramienta
Weka, una de las suites más utilizadas en el área de descubrimiento
de conocimiento en los últimos años (García, s.f.). El conocimiento
generado permitirá soportar la toma de decisiones eficaces de las
directivas universitarias enfocadas a formular políticas y estrategias
relacionadas con los programas de retención estudiantil que actualmente se encuentran establecidos.
El resto del artículo se organiza de la siguiente manera. En la sección
1, se presenta los conceptos básicos del proceso de descubrimiento
de conocimiento en bases de datos. En la sección 2, se describe la
metodología utilizada en la investigación. En la sección 3, se presentan
los resultados de la fase de minería de datos y la discusión de resultados y finalmente, en la última sección se presenta las conclusiones
y trabajos futuros.

1. Fundamento teórico
1.1 Proceso de descubrimiento de
conocimiento en bases de datos
El proceso de extraer conocimiento a partir de grandes volúmenes de
datos ha sido reconocido por muchos investigadores como un tópico de
investigación clave en los sistemas de bases de datos, y por muchas
compañías industriales como una importante área y una oportunidad
para obtener mayores ganancias. Fayyad, Piatetsky-Shapiro & Smyth
(1996) lo definen como «El proceso no trivial de identificación de patrones válidos, novedosos, potencialmente útiles y fundamentalmente
entendibles al usuario a partir de los datos».
35
Nº 28 - enero - junio / 2013

El Descubrir de Conocimiento en Bases de Datos (DCBD) es básicamente un proceso automático en el que se combinan descubrimiento
y análisis. El proceso, de acuerdo con Agrawal & Srikant (1994), Chen,
Han & Yu (1996) y Han & Kamber (2001), consiste en extraer patrones
en forma de reglas o funciones, a partir de los datos, para que el usuario los analice, tarea que implica generalmente preprocesar los datos,
hacer minería de datos (data mining) y presentar resultados. El proceso
DCBD es interactivo e iterativo, involucra numerosos pasos con la intervención del usuario en la toma de muchas decisiones y se resumen
en cinco etapas: Selección de datos, preprocesamiento, transformación
de datos, minería de datos (data mining) e interpretación. En la figura
1 se muestran estas etapas.

Figura 1. Etapas del proceso de descubrimiento
de conocimiento en bases de datos

1.2 Etapa de minería de datos
La minería de datos es la etapa más importante del proceso DCBD,
cuyo objetivo es la búsqueda, extracción y descubrimiento de patrones
insospechados y de interés. La minería de datos consta de diferentes
tareas, cada una de las cuales puede considerarse como un tipo de
problema a ser resuelto por un algoritmo de minería de datos, afirman
Adamo (2001) y Hernández, Ramírez & Ferri (2005), donde la tarea de
clasificación por árboles de decisión es una de ellas.
La clasificación por árboles de decisión es, probablemente, el modelo
más utilizado y popular por su simplicidad y facilidad para su entendimiento, de acuerdo con Han & Kamber (2001) y Sattler & Dunemann
36
Universidad de Manizales

Facultad de Ciencias e Ingeniería

(2001). El conocimiento obtenido en el proceso de aprendizaje, según
Wang, Iyer & Scott (1998), se representa mediante un árbol en el cual
cada nodo interior contiene una pregunta sobre un atributo concreto (con
un hijo por cada posible respuesta) y cada hoja del árbol se refiere a una
decisión (una clasificación). Durante la etapa de construcción del árbol,
en forma recursiva, cada conjunto de datos se divide en subconjuntos
de acuerdo a un criterio de particionamiento, con el fin de escoger el
atributo que mejor separe los ejemplos restantes en clases individuales.
Seleccionar el mejor punto de particionamiento, consideran Sattler &
Dunemann (2001), es la parte de la construcción del árbol que mayor
tiempo consume.

2. Metodología
Teniendo en cuenta las etapas del proceso DCBD, inicialmente se
seleccionaron, de las bases de datos de la Universidad de Nariño los
datos socio-económicos, académicos, disciplinares e institucionales
de los estudiantes que ingresaron en los años 2004, 2005 y 2006 a los
diferentes programas de pregrado, con el fin de hacerles un seguimiento
completo hasta el año 2011, determinando si desertaron o no.
Con estos datos se construyó un repositorio de datos utilizando el
SGBD PostgreSQL. A estos datos se les aplicó las etapas de preprocesamiento y transformación con el fin de obtener conjuntos de
datos limpios y listos para aplicarles las técnicas y los algoritmos de
minería de datos. Los primeros resultados se obtuvieron utilizando la
técnica de clasificación basada en árboles de decisión con la herramienta libre de minería de datos Weka. Finalmente, estos resultados
fueron analizados, evaluados e interpretados para determinar la validez
del conocimiento obtenido.

2.1 Etapa de selección de datos
El objetivo de esta etapa es obtener las fuentes internas y externas
de datos que sirven de base para el proceso de minería de datos.
Como fuentes internas, se seleccionaron las bases de datos de Admisiones y Registro Académico. Teniendo en cuenta la ventana de
observación de este estudio (2004-2011), en estas bases de datos
se encuentra almacenada la información personal y académica de
15.805 estudiantes.
Como fuentes externas principales se seleccionaron datos de la base
de datos del Instituto Colombiano para el Fomento de la Educación
Superior (ICFES), del Departamento Administrativo Nacional de Estadística (DANE), del Sistema para la Prevención de la Deserción en la
37
Nº 28 - enero - junio / 2013

Educación Superior (SPADIES), del Sistema de Identificación de Beneficiarios Potenciales de Programas Sociales (SISBEN) e información
de la Registraduría Nacional del Estado Civil Colombiano.
De los 15.805 registros se seleccionaron únicamente los datos de los
estudiantes de las cohortes 2004, 2005 y 2006 con los atributos más
relevantes para este estudio. Como resultado se obtuvieron 6870 registros y 62 atributos correspondientes a información socioeconómica,
académica, disciplinar e institucional. Estos datos fueron almacenados
en una base de datos construida con el sistema gestor de base de
datos PostgreSQL, en la tabla TA62. Esta tabla servirá de base para
las subsiguientes etapas del proceso de descubrimiento de patrones
de deserción estudiantil.

2.2 Etapa de preprocesamiento de datos
El objetivo de esta etapa es obtener datos limpios, i.e. datos sin valores nulos o anómalos, que permitan obtener patrones de calidad. Por
medio de consultas SQL ad-hoc o a través de histogramas, se analizó
minuciosamente la calidad de los datos contenidos en cada uno de los
atributos de la tabla TA62.
Teniendo en cuenta la relevancia de ciertos atributos para la investigación,
los valores nulos de estos atributos fueron actualizados con los valores
encontrados en fuentes externas. Por otra parte, los atributos con un alto
porcentaje de valores nulos tales como libreta-militar (82.45%), distritomilitar (84.82%), idmunicipio-conflicto (89.57%), periodo-grado (89.50%),
padre-vive (99.47%), madre-vive (99.58%), descripción-laboral (99.75%)
entre otros, fueron eliminados por la imposibilidad de obtener estos valores con las fuentes externas o utilizando técnicas estadísticas como
la media, mediana y la moda o derivando sus valores a través de otros.

2.3 Etapa de transformación de datos
El objetivo de esta fase es transformar la fuente de datos en un conjunto
listo para aplicar las diferentes técnicas de minería de datos. Con el fin
de generar conocimiento acerca de los factores socioeconómicos, académicos, disciplinares e institucionales que pueden incidir en la deserción
estudiantil, se seleccionaron de la tabla TA62, los 31 atributos más representativos y con estos se creó la tabla TA31. De estos 31 atributos, se
escogieron 18 para analizar el factor socioeconómico y 15 para el factor
académico y se crearon las tablas TA18 y TA15 respectivamente. Dado el
reducido número de atributos seleccionados para los factores disciplinar
e institucional, estos se agregaron a la parte académica del estudiante.
Para facilitar la extracción de patrones, se discretizaron los valores
numéricos de la tabla TA31 a valores nominales. Este proceso se llevó
a cabo utilizando el filtro discretize de la herramienta Weka con el pará38
Universidad de Manizales

Facultad de Ciencias e Ingeniería

metro de frecuencias iguales (useEqualFrequency) a 6 valores. Por otra
parte se adecuo la tabla TA31 al formato ARFF (Atribute Relation File
Format) requerido por Weka para continuar con la etapa de minería de
datos. En la tabla 1 se muestran los atributos de la tabla TA31 con los
diferentes valores discretizados en formato ARFF. De acuerdo a esta
tabla, los primeros 17 atributos y el atributo 31 de TA31 forman la tabla
TA18 y corresponden a los atributos socioeconómicos. Los atributos
del 17 al 31 de la tabla TA31 corresponden a los atributos académicos
y estructuran la tabla TA15.

2.4 Etapa de minería de datos
El objetivo de la etapa de minería de datos es la búsqueda y descubrimiento de patrones insospechados y de interés aplicando tareas de
descubrimiento tales como clasificación, clustering, patrones secuenciales, asociaciones entre otras.
La tarea de minería de datos escogida para el proceso de descubrimiento de patrones de deserción estudiantil en la Universidad de Nariño fue
clasificación, teniendo en cuenta que con los valores del atributo clase
deserción se puede construir un modelo de clasificación que determine
las características de las estudiantes que desertan o no. Las reglas de
clasificación se obtuvieron con la herramienta Weka utilizando el algoritmo J48 que implementa el conocido algoritmo de árboles de decisión
C4.5 (Quinlan, 1993, 81).
Se utilizó el repositorio TA31 para obtener las reglas de clasificación
generales que caracterizan a los estudiantes que desertan. Se escogió
como clase, el atributo deserción. En la figura 2 se muestra el árbol
de decisión generado por Weka. De igual manera, se utilizaron los
conjuntos de datos TA18 y TA15 para determinar, respectivamente, los
factores socioeconómicos y académicos que inciden en la deserción
estudiantil. Las reglas de clasificación más relevantes se muestran en
la sección de resultados.

Figura 2. Árbol de decisión para reglas de clasificación generales a partir de TA31

39
Formato arff
atributo

40

@attribute

@attribute

@attribute

@attribute

@attribute

@attribute

@attribute

@attribute

No.

1

2

3

4

5

6

7

8

19
20

Zona_nacimiento {sur, CAPITAL,putumayo,norte,’otras
regiones’,’centro occidente’,costa,centro}

Zona_procedencia { CAPITAL,norte,sur,’centro occidente’,c
entro,costa,putumayo,’otras regiones’}

23

24

Ocupacion_padre {varios,’oficiales, operarios,
artesanos,industria manufacturera, construccion y
mineria’,’sin ocupacion’,hogar,’profesionales universitarios,
cientificos e intelectuales’,pensionados, etc.

22

Padre {n,s}

Estrato {0,1,2,3,4,5,6,99}

21

18

Estado_civil {soltero,casado,separado,’unión libre’,’madre
soltera’,viudo,religioso}

Regimen_salud {contributivo,subsidiado}

17

No.

Genero {m,f}

Atributos y valores

@attribute

@attribute

@attribute

@attribute

@attribute

@attribute

@attribute

@attribute

Formato arff
atributo

Atributos y valores

Facultad {‘ciencias exactas y naturales’,’ciencias
humanas’,’ciencias agricolas’,’ciencias económicas y
administrativas’,’ciencias de la salud’,ingeniería,’ciencias pe
cuarias’,educación,artes,’ingenieria agroindustrial’}

Extension { CAPITAL,tumaco,tuquerres,ipiales,samaniego,
buesaco,’la union’,ricaurte}

Icfes_total {‘mayor a 475’,’de 420 a 450’,’de 450 a 475’,’de
400 a 420’,’de 375 a 400’,’menor a 375’}

Icfes_promedio {‘de 53 a 56’,’de 48 a 50’,’de 46 a 48’,’de 50
a 53’,’menor a 46’,’mayor a 56’}

Icfes_ponderado {‘de 52 a 54’,’de 50 a 52’,’de 54 a 58’,’de
46 a 50’,’mayor a 58’,’menor a 46’}

Jornada_colegio {mañana,tarde,completa,noche,sabatina}

Tipo_colegio {publico,privado}

Edad_ingreso {‘igual a 18’,’menor a 18’,’mayor a 22’,’de 21
a 22’,’igual a 19’,’igual a 20’}

Tabla 1. Atributos tabla TA31 en formato ARFF

Nº 28 - enero - junio / 2013
Formato arff
atributo

@attribute

@attribute

@attribute

@attribute

@attribute

@attribute

@attribute

@attribute

No.

9

10

11

12

13

14

15

16

27

Tipo_residencia {‘arrendada o anticresada’,propia,’propia
pagandose por cuotas’}

30

31

Ingresos_familiares {‘de 4540000 a 5980000’,’mayor
a 8540000’,’de 2850000 a 4540000’,’5980000 a
8854000’,’menor a 2850000’}

Valor_matricula_colegio {‘de 76639 a 106100’,’de 60248
a 76639’,’mayor a 106100’,’menor a 21550’,’de 21550 a
44369’,’de 44369 a 60247’}

Valor_matricula {‘menor a 100259’,’de 120574 a 158846’,’de
100259 a 120574’,’de 234266 a 381504’,’de 158846 a
234266’,’mayor a 381504’}

29

Hermanos_universidad {‘n ‘,’s ‘}

28

26

Ocupacion_madre {‘trabajadores no calificados’,hogar,’sin
ocupacion’,’trabajadores de los servicios y vendedores’,vari
os,pensionados,’profesionales universitarios, etc.

Vive_con_familia {‘s ‘,’n ‘}

25

No.

Madre {n,s}

Atributos y valores

@attribute

@attribute

@attribute

@attribute

@attribute

@attribute

@attribute

Formato arff
atributo

Desercion {s,n}

Veces_perdida {‘igual a 2’,’igual a 3’,ninguna,’igual a 1’,’igual
a 4’,’mayor a 4’}

Area_materia {‘formación específica’,na,’filosofía histórica
’,pedagogía,’componente de fundamentación’,’formación
instrumental’,’ciencias básicas’,’paradigmas
teóricos’,’formación investigativa’,’formación matemática’,etc.

Semestre_perdidas {‘p ‘,’m ‘,na,’u ‘,ce}

Materias_perdidas {‘de 3 a 4’,’mayor a 9’,’de 5 a 6’,ninguna,’de
1 a 2’,’de 7 a 9’}

Promedio_nota {‘de 2.4 a 3.1’,’de 3.5 a 3.7’,’mayor a 4.0’,’de
3.7 a 4.0’,’de 3.1 a 3.5’,’menor a 2.4’}

Area_programa {‘matemáticas y ciencias naturales’,’ciencias
sociales y humanas’,’agronomía, veterinaria y
afines’,’economía, administración, contaduría y
afines’,’ciencias de la salud’,ingeniería,’ciencias de la
educación’,’bellas artes’}

Atributos y valores

Universidad de Manizales
Facultad de Ciencias e Ingeniería

41
Nº 28 - enero - junio / 2013

2.5 Etapa de interpretación de datos
En esta etapa se evalúan e interpretan los patrones descubiertos para
determinar su calidad y consolidar el conocimiento descubierto e incorporarlo en otro sistema para posteriores acciones o para confrontarlo
con conocimiento previamente descubierto. Además, puede incluir la
visualización de los patrones extraídos, la remoción de los patrones
redundantes o irrelevantes y la traducción de los patrones útiles en
términos que sean entendibles para el usuario.
Con el fin de evaluar la calidad y precisión de la predicción de las reglas
de clasificación obtenidas se utilizó el método de validación cruzada
con 10 pliegues (n-fold cross validation). Los resultados de esta etapa
se analizan en la siguiente sección.

3. Resultados y discusión
Como resultado de interpretar el árbol de decisión, generado por el
algoritmo J48 (figura 2) con el conjunto de datos TA31 se obtuvieron
las reglas de clasificación más representativas con una confianza
mayor que 80% que se muestran en la tabla 2, donde puede observarse que los factores predominantes en la deserción estudiantil
en la Universidad de Nariño son los académicos, especialmente un
promedio bajo y el tener materias perdidas en los primeros semestres de la carrera.
Con el fin de determinar los factores socioeconómicos que inciden en la
deserción estudiantil, se generaron las reglas de clasificación con una
confianza mayor que 80% y con el conjunto de datos TA18. El resultado
se muestra en la tabla 3. Para determinar otros factores académicos
asociados a la deserción estudiantil, se generaron reglas de clasificación
con una confianza mayor que 80%, pero con el conjunto de datos TA15
sin tener en cuenta el atributo promedio_nota.
De acuerdo a las reglas de la tabla 3, los factores socioeconómicos que
inciden en la deserción estudiantil son el valor de la matrícula mayor
que $381504 y proceder de la zona sur del departamento. El hecho de
ser soltero, vivir con la madre y ser de la ciudad capital puede incidir
también en la deserción.
Según las resultados, los factores académicos que inciden en la deserción estudiantil, además de un promedio bajo y el tener materias
perdidas en los primeros semestres de la carrera, son la facultad a la
que pertenece el estudiante y el área a la que pertenece las materias
perdidas.
42
Universidad de Manizales

Facultad de Ciencias e Ingeniería

4. Conclusiones y trabajos futuros
Los primeros resultados obtenidos a través de la técnica de clasificación
por árboles de decisión indica que esta es capaz de generar modelos
consistentes con la realidad observada y el respaldo teórico, basándose
únicamente en los datos que se encuentran almacenados en las bases
de datos de una de las universidades. Una de las grandes dificultades
que se presenta en esta clase de estudios es la mala calidad de los
datos que muchas veces, después del proceso de limpieza, hace que se
descarten ciertas variables por la imposibilidad de obtener sus valores y
que de alguna manera influye en los resultados de la minería de datos.
Se ha obtenido un patrón general de deserción estudiantil determinado
por un promedio bajo y el tener materias perdidas en los primeros semestres de la carrera. Se han determinado factores socioeconómicos y
académicos asociados a la deserción estudiantil. La evaluación, análisis
y utilidad de estos patrones permitirá soportar la toma de decisiones
eficaces de las directivas universitarias enfocadas a formular políticas
y estrategias relacionadas con los programas de retención estudiantil
que actualmente se encuentran establecidos.
Como trabajos futuros están el continuar con el estudio de deserción
estudiantil en la universidad estudiada, aplicando otras técnicas de minería de datos tales como asociación y clustering con el fin de determinar
afinidades, similitudes y relaciones entre los factores socioeconómicos
y académicos de las estudiantes que desertan. Para verificar la calidad y precisión del modelo de clasificación obtenido se utilizarán otros
clasificadores y se compararán sus resultados. Se aplicará la misma
metodología al repositorio de datos de la universidad cooperante en
el estudio, para analizar y evaluar los patrones encontrados en ambas
instituciones de educación superior.
Agradecimientos
Este proyecto de investigación se financia con recursos del Ministerio de
Educación Nacional y con recursos de contrapartida de la Universidad
de Nariño y la Institución Universitaria CESMAG.

43
Atributo
Clase
Deserta
S
N
S
N
S

44
N
N
N
S
N
N
S

Reglas de clasificación socioeconómicas con el conjunto de datos TA18
valor_matricula = De 158846 a 234266 & vive_con_familia = N

valor_matricula = De 100259 a 120574 & estado_civil = SOLTERO & madre = N & padre = N & hermanos_universidad = N & genero = F

valor_matricula = De 158846 a 234266 & vive_con_familia = N & zona_nacimiento = SUR
valor_matricula > 381504 & zona_procedencia = SUR
valor_matricula = De 158846 a 234266 & vive_con_familia = N & zona_nacimiento = COSTA
valor_matricula = De 158846 a 234266 & vive_con_familia = N & zona_nacimiento = CENTRO OCCIDENTE
valor_matricula = De 100259 a 120574 & estado_civil = SOLTERO & madre = S & tipo_residencia = PROPIA & zona_nacimiento = CAPITAL

Atributo,
Clase,
Deserta

promedio_nota = De 3.1 a 3.5 & materias_perdidas = De 5 a 6 & semestre_perdidas = P
promedio_nota = De 3.5 a 3.7 & extension = CAPITAL & materias_perdidas = De 1 a 2 & semestre_perdidas = P & zona_procedencia = CAPITAL

Reglas

S
S

promedio_nota = De 3.5 a 3.7 & materias_perdidas = De 1 a 2 & semestre_perdidas = P

Tabla 3. Reglas de clasificaciones socioeconómicas y académicas

S

promedio_nota = De 2.4 a 3.1 & semestre_perdidas = P
promedio_nota = De 3.7 a 4.0 & veces_perdida = 1
promedio_nota = Menor a 2.4
promedio_nota = De 3.5 a 3.7 & extension = CAPITAL & materias_perdidas = De 7 a 9
promedio_nota = De 3.1 a 3.5 & materias_perdidas = De 3 a 4

Reglas

Tabla 2. Reglas de clasificación más representativas con el conjunto de datos TA31

0.0284
0.0242
0.0224
0.0136
0.0119

0.0337

0.0933

Soporte

0.017
0.0129

0.0227

0.1559
0.1551
0.1519
0.0314
0.0264

Soporte

0.912
0.9369
0.882
0.908
0.8071

0.8

0.8539

Confianza

0.8198
0.8341

0.8108

0.939
0.8528
0.998
0.8585
0.9535

Confianza

Nº 28 - enero - junio / 2013
S
N
N
S
S
S
N
S
S
S
N
S
S
S
S
S
N
S
S
S

extension = CAPITAL & semestre_perdidas = P & facultad = CIENCIAS EXACTAS Y NATURALES

extension = CAPITAL & semestre_perdidas = CE

extension = CAPITAL & semestre_perdidas = NA & facultad = CIENCIAS HUMANAS

extension = CAPITAL & semestre_perdidas = P & area_materia = CIENCIAS BÁSICAS & facultad = CIENCIAS PECUARIAS

extension = TUMACO
extension = IPIALES
extension = CAPITAL & semestre_perdidas = NA & facultad = CIENCIAS ECONÓMICAS Y ADMINISTRATIVAS
extension = CAPITAL & semestre_perdidas = P & area_materia = FUNDAMENTACIÓN

extension = CAPITAL & semestre_perdidas = P & facultad = EDUCACIÓN

extension = TUMACO & area_programa = ECONOMÍA ADMINISTRACIÓN CONTADURÍA Y AFINES

extension = CAPITAL & semestre_perdidas = NA & facultad = ARTES

extension = CAPITAL & semestre_perdidas = P & area_materia = PEDAGOGÍA

extension = CAPITAL & semestre_perdidas = P & area_materia = CIENCIAS BÁSICAS & facultad = CIENCIAS EXACTAS Y NATURALES

extension = CAPITAL & semestre_perdidas = P & area_materia = FORMACIÓN MATEMÁTICA

extension = CAPITAL & semestre_perdidas = P & area_materia = FUNDAMENTACIÓN EN CIENCIAS EXACTAS Y NATURALES
extension = CAPITAL & semestre_perdidas = P & facultad = CIENCIAS DE LA SALUD

extension = CAPITAL & semestre_perdidas = NA & facultad = CIENCIAS AGRICOLAS

extension = CAPITAL & semestre_perdidas = P & area_materia = LENGUA EXTRANJERA

extension = TUMACO & semestre_perdidas = P & area_programa = ECONOMÍA ADMINISTRACIÓN CONTADURÍA Y AFINES

extension = CAPITAL & semestre_perdidas = P & area_materia = FORMACIÓN BÁSICA & facultad = ARTES

N

Atributo,
Clase,
Deserta

Reglas de clasificación académicas con el conjunto de datos TA15
extension = CAPITAL & semestre_perdidas = M

Reglas

0.0152

0.0156

0.0161

0.0167

0.0179
0.0175

0.0185

0.0187

0.019

0.0207

0.0215

0.0233

0.0458
0.0379
0.0336
0.0322

0.0497

0.0582

0.0612

0.1032

0.2088

Soporte

0.8283

0.9412

0.8571

0.8716

0.9658
0.807

0.9587

0.8852

0.879

0.8593

0.8786

0.8092

0.8361
0.9919
0.863
0.8524

0.8025

0.8079

0.8672

0.8692

0.8128

Confianza

Universidad de Manizales
Facultad de Ciencias e Ingeniería

45
Nº 28 - enero - junio / 2013

Referencias bibliográficas
ADAMO, Jean-Marc (2001). Data Mining for Association Rules and Sequential Patterns: Sequential and Parallel Algorithms. New York (USA): Springer-Verlag. 253 p. ISBN: 0-387-95048-6.
AGRAWAL, Rakesh & SRIKANT, Ramakrishnan (1994). Fast Algorithms for Mining Association Rules. In: 20th International Conference on Very Large Data Bases, VLDB 1994, (1215/09/1994). Santiago de Chile (Chile): VLDB. Proceedings. p. 487-499. ISBN: 1-55860-153-8.
CHEN, Ming; HAN, Jiawei & YU, Philip (1996). Data mining: An overview from database perspective.
In: IEEE Transactions on Knowledge and Data Engineering. Vol. 8, No. 6 (dic). Los Alamitos
(CA, USA): IEEE Computer Society. p. 866-883. ISSN: 1041-4347.
FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory and SMYTH, Padrahic. (1996). The KDD process
for extracting useful knowledge from volumes of data. In: Comunications of the ACM. Vol. 39,
No. 11 (nov). New York (USA): ACM Digital Library. p 27-34. ISSN: 0001-0782.
GARCÍA MORATE, Diego (s.f.). Manual de Weka [en línea]. Valladolid (España): MetaEmotion,
S.L. <http://www.metaemotion.com/diego.garcia.morate/download/weka.pdf> 42 p. [consulta:
15/06/ 2012].
HAN, Jiawei & KAMBER, Micheline (2001). Data Mining: Concepts and Techniques. San Francisco
(CA, USA): Morgan Kaufmann Publishers, Academic Press. 550 p. ISBN: 1-55860-489-8.
HERNÁNDEZ, José; RAMÍREZ, María & FERRI, César (2005). Introducción a la Minería de Datos.
Madrid (España): Pearson Prentice Hall. 656 p. ISBN: 84-205-4091-9.
LA RED, David, ACOSTA, Julio; CUTRO, Luis; URIBE, Valeria. & RAMBO, Alice (2010). Data
Warehouse y Data Mining Aplicados al Estudio del Rendimiento Académico. En: Novena
Conferencia Iberoamericana en Sistemas, Cibernética e Informática, CISCI 2010, (29/062/07/2010), Orlando (Florida, EE.UU.): International Institute of Informatics and Systemics.
Memorias CISCI 2010, Volumen I, p. 289-294. ISBN: 978-1-934272-94-7.
MEN (2006a). América Latina piensa la deserción. En: Boletín informativo Educación Superior.
No 7 (dic). Bogotá (Colombia): Ministerio de Educación Nacional. 20 p. ISSN: 1794-2446.
MEN (2006b). Deserción estudiantil: prioridad en la agenda. En: Boletín informativo Educación Superior. No 7 (dic). Bogotá (Colombia): Ministerio de Educación Nacional. 20 p. ISSN: 1794-2446.
MEN (2009). Deserción estudiantil en la educación superior colombiana: metodología de seguimiento, diagnóstico y elementos para su prevención. Bogotá (Colombia): Ministerio de Educación
Nacional. 158 p. ISBN: 978-958-691-366-9.
PAUTSCH, Jesús (2009). Minería de datos aplicada al análisis de la deserción en la Carrera de
Analista en Sistemas de Computación. Tesis de grado (Licenciado en Sistemas de Información).
Posadas, Misiones (Argentina): Universidad Nacional de Misiones. 193 p.
PAUTSCH, Jesús; LA RED, David & CUTRO, Luis (2010). Minería de datos aplicada al análisis
de la deserción en la Carrera de Analista en Sistemas de Computación [en línea]. Posadas,
Misiones (Argentina): Universidad Nacional de Misiones. <http://www.dataprix.com/files/Analisis%20de%20Desercion%20Univ_0.pdf> [consulta: 18/06/2012].
PINZÓN, Liza (2011). Aplicando minería de datos al marketing educativo. En: Revista Notas de
Marketing. No 1 (jun). Bogotá (Colombia): Universidad Sergio Arboleda, Escuela de Marketing
y Publicidad. p 45-61. ISSN: 2248-4930
QUINLAN, Ross (1993). C4.5: Programs for Machine Learning. San Francisco (CA, USA): Morgan
Kaufmann Publishers. 299 p. ISBN: 1-55860-238-0.
RESTREPO, Mauricio & LÓPEZ, Andrés (2008). Uso de la metodología Rough Sets en un modelo
de deserción académica. En: XIV Congreso Ibero Latinoamericano de Investigación de Operaciones, CLAIO 2008, (9-12/09/2008), Cartagena (Colombia): Universidad del Norte. Libro
de Memorias CLAIO 2008, p. 108-109. Ediciones Uninorte.
SATTLER, Kai-Uwe. & DUNEMANN, Oliver (2001). SQL Database Primitives for Decision Tree
Classifiers. In: The 10th ACM International Conference on Information and Knowledge Management - CIKM, (5-10/11/2001), Atlanta (Georgia, USA): ACM. Proceedings, p. 379-386.
ISBN: 1-58113-436-3.
SPOSITTO, Osvaldo; ETCHEVERRY, Martín; RYCKEBOER, Hugo & BOSSERO, Julio (2010).
Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y
la deserción estudiantil. En: Novena Conferencia Iberoamericana en Sistemas, Cibernética e

46
Universidad de Manizales

Facultad de Ciencias e Ingeniería

Informática, CISCI 2010, (29/06-2/07/2010), Orlando (Florida, EE.UU.): International Institute
of Informatics and Systemics. Memorias CISCI 2010, Vol. I. ISBN: 978-1-934272-94-7.
UPN (2005). La deserción estudiantil: reto investigativo y estratégico asumido de forma integral
por la UPN [en línea]. En: Encuentro Internacional sobre Deserción en Educación Superior:
experiencias significativas (17-18/05/2005) Bogotá (Colombia): Ministerio de Educación Nacional. <http://www.mineducacion.gov.co/1621/articles-85600_Archivo_pdf3.pdf> [consulta:
15/06/ 2012].
VALERO, Sergio (2009). Aplicación de técnicas de minería de datos para predecir la deserción
[en línea]. Izúcar de Matamoros, Puebla (México): Universidad Tecnológica de Izúcar de Matamoros. <http://www.utim.edu.mx/~svalero/docs/MineriaDesercion.pdf> [consulta: 10/06/2012].
VALERO, Sergio; SALVADOR, Alejandro & GARCÍA, Marcela (2010). Minería de datos: predicción
de la deserción escolar mediante el algoritmo de árboles de decisión y el algoritmo de los k
vecinos más cercanos [en línea]. Izúcar de Matamoros, Puebla (México): Universidad Tecnológica de Izúcar de Matamoros. <http://www.utim.edu.mx/~svalero/docs/e1.pdf> [consulta:
10/06/2012].
WANG, Min; IYER, Bala & SCOTT, Jeffrey (1998). Scalable Mining for Classification Rules in
Relational Databases. In: International Database Engineering and Application Symposium,
IDEAS 98, (08-10/07/1998), Cardiff (Wales, U.K.): IEEE Computer Society. Proceedings, p.
58-67. ISBN: 0-8186-8307-4.

47
Nº 28 - enero - junio / 2013

48
Universidad de Manizales

Facultad de Ciencias e Ingeniería

Técnicas de implementación
de procesos colaborativos
a la mejora procesos: un
acercamiento a PMBOK*1
[Implementation techniques for
improving collaborative processes
closer to PMBOK processes]
José Luis JURADO2, César Alberto COLLAZOS3
Recibo: 20.02.2013 - Aprobación: 21.06.2013

Resumen
La ingeniería de la colaboración surge como una línea de estudio de
la ingeniería de software, que brinda grandes virtudes, en la mejora de
procesos, para potencializar el desarrollo de trabajo en equipo y generación de nuevo conocimiento, a partir de la cooperación y articulación
de un esfuerzo compartido de un equipo de trabajo en una organización.
El propósito del presente documento es dar a conocer el resultado de
una investigación que buscó integrar la ingeniería de la colaboración
con la gestión de proyectos, en pro de mejorar los procesos de control,
seguimiento y verificación de los resultados alcanzados por una organización, que aplique métodos y guías formales en sus procesos de gestión
de proyectos informáticos. El documento está centrado en describir las
técnicas de la ingeniería de la colaborativas usadas y el resultado de
*	
	

Modelo para citación de este artículo:
JURADO, José Luis & COLLAZOS, César Alberto (2013). Técnicas de implementación de
procesos colaborativos a la mejora procesos: un acercamiento a PMBOK. En: Ventana Informática. No. 28 (ene.-jun.). Manizales (Colombia): Facultad de Ciencias e Ingeniería, Universidad
de Manizales. p. 49-66. ISSN: 0123-9678
1	 Artículo de investigación científica y tecnológica proveniente del proyecto Mejora de procesos
en la gestión de proyectos informáticos una perspectiva desde la ingeniería de la colaboración, ejecutado en el periodo Junio 2010 –junio 2012, e inscrito en el grupo de investigación
IDIS – Universidad del Cauca. [Proyecto para optar al título de Magíster en Computación –
Universidad del Cauca, por parte del primer autor bajo dirección del segundo].
2	 Ingeniero de Sistemas, MSc. en Computación. Docente, Institución Universitaria Colegio Mayor
del Cauca, (Popayán, Cauca, Colombia). Correo electrónico: jjurado@unicauca.edu.co
3	 Ingeniero de Sistemas, PhD. en Computación. Profesor asociado, Universidad de San Buenaventura, (Cali, Valle del Cauca, Colombia). Correo electrónico: ccollazo@unicauca.edu.co
Nº 28 - Universidad de Manizales, enero-junio/2013 - pp 49-66

49
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28

Contenu connexe

Similaire à Revista ventana informatica 28

El_enfoque_por_Competencias_en_las_Ciencia completo 2022.pdf
El_enfoque_por_Competencias_en_las_Ciencia completo 2022.pdfEl_enfoque_por_Competencias_en_las_Ciencia completo 2022.pdf
El_enfoque_por_Competencias_en_las_Ciencia completo 2022.pdfEduardo Romano
 
Competencias docentes y prácticas educativas abiertas
Competencias docentes y prácticas educativas abiertasCompetencias docentes y prácticas educativas abiertas
Competencias docentes y prácticas educativas abiertasLuis Restrepo Gutiérrez
 
Analisis de compuertas y orificios
Analisis de compuertas y orificiosAnalisis de compuertas y orificios
Analisis de compuertas y orificiosLuiguiHC
 
1. inicio guia
1. inicio guia1. inicio guia
1. inicio guiapaquitoche
 
Diseño De Monografia Terminada
Diseño De Monografia Terminada Diseño De Monografia Terminada
Diseño De Monografia Terminada Stephany Marmol
 
Plantilla propuestapim
Plantilla propuestapimPlantilla propuestapim
Plantilla propuestapimthelmo1077
 
REVISTA DE INVESTIGACIÓN DE LA UNIVERSIDAD DEL ISTMO- PANAMÁ
REVISTA DE INVESTIGACIÓN DE LA UNIVERSIDAD DEL ISTMO- PANAMÁREVISTA DE INVESTIGACIÓN DE LA UNIVERSIDAD DEL ISTMO- PANAMÁ
REVISTA DE INVESTIGACIÓN DE LA UNIVERSIDAD DEL ISTMO- PANAMÁPanamá
 
Formulariodel egel iindu
Formulariodel egel iinduFormulariodel egel iindu
Formulariodel egel iinduEdgar Mata
 
Libro de investigación cualitativa
Libro de investigación cualitativaLibro de investigación cualitativa
Libro de investigación cualitativaSistemadeEstudiosMed
 
Revista innovación uni 2
Revista innovación uni 2Revista innovación uni 2
Revista innovación uni 2Jorge Felipe
 
E book mov abierto en educ distancia (ramirez 2013)
E book mov abierto en educ distancia (ramirez 2013)E book mov abierto en educ distancia (ramirez 2013)
E book mov abierto en educ distancia (ramirez 2013)Monica Lara
 
Elaboración de Paquete Didáctico para la asignatura de Tecnologías para el Ap...
Elaboración de Paquete Didáctico para la asignatura de Tecnologías para el Ap...Elaboración de Paquete Didáctico para la asignatura de Tecnologías para el Ap...
Elaboración de Paquete Didáctico para la asignatura de Tecnologías para el Ap...Alfredo Humberto Escalante Godinez
 
Cem cali2013 libro memorias cem 2013
Cem cali2013 libro memorias cem 2013Cem cali2013 libro memorias cem 2013
Cem cali2013 libro memorias cem 2013carlprom
 
Ingeniería agrícola
Ingeniería agrícolaIngeniería agrícola
Ingeniería agrícolajbagricola
 

Similaire à Revista ventana informatica 28 (20)

El_enfoque_por_Competencias_en_las_Ciencia completo 2022.pdf
El_enfoque_por_Competencias_en_las_Ciencia completo 2022.pdfEl_enfoque_por_Competencias_en_las_Ciencia completo 2022.pdf
El_enfoque_por_Competencias_en_las_Ciencia completo 2022.pdf
 
Tesis pavimentos
Tesis pavimentosTesis pavimentos
Tesis pavimentos
 
Competencias docentes y prácticas educativas abiertas
Competencias docentes y prácticas educativas abiertasCompetencias docentes y prácticas educativas abiertas
Competencias docentes y prácticas educativas abiertas
 
Analisis de compuertas y orificios
Analisis de compuertas y orificiosAnalisis de compuertas y orificios
Analisis de compuertas y orificios
 
Metodo proyecto final
Metodo proyecto finalMetodo proyecto final
Metodo proyecto final
 
1. inicio guia
1. inicio guia1. inicio guia
1. inicio guia
 
Diseño De Monografia Terminada
Diseño De Monografia Terminada Diseño De Monografia Terminada
Diseño De Monografia Terminada
 
Plantilla propuestapim
Plantilla propuestapimPlantilla propuestapim
Plantilla propuestapim
 
REVISTA DE INVESTIGACIÓN DE LA UNIVERSIDAD DEL ISTMO- PANAMÁ
REVISTA DE INVESTIGACIÓN DE LA UNIVERSIDAD DEL ISTMO- PANAMÁREVISTA DE INVESTIGACIÓN DE LA UNIVERSIDAD DEL ISTMO- PANAMÁ
REVISTA DE INVESTIGACIÓN DE LA UNIVERSIDAD DEL ISTMO- PANAMÁ
 
392
392392
392
 
Formulariodel egel iindu
Formulariodel egel iinduFormulariodel egel iindu
Formulariodel egel iindu
 
Libro de investigación cualitativa
Libro de investigación cualitativaLibro de investigación cualitativa
Libro de investigación cualitativa
 
Revista innovación uni 2
Revista innovación uni 2Revista innovación uni 2
Revista innovación uni 2
 
Hoja de vida moodle
Hoja de vida moodleHoja de vida moodle
Hoja de vida moodle
 
E book mov abierto en educ distancia (ramirez 2013)
E book mov abierto en educ distancia (ramirez 2013)E book mov abierto en educ distancia (ramirez 2013)
E book mov abierto en educ distancia (ramirez 2013)
 
Elaboración de Paquete Didáctico para la asignatura de Tecnologías para el Ap...
Elaboración de Paquete Didáctico para la asignatura de Tecnologías para el Ap...Elaboración de Paquete Didáctico para la asignatura de Tecnologías para el Ap...
Elaboración de Paquete Didáctico para la asignatura de Tecnologías para el Ap...
 
Proyecto 6 x4uealc
Proyecto 6 x4uealcProyecto 6 x4uealc
Proyecto 6 x4uealc
 
Curriculum Vitae
Curriculum VitaeCurriculum Vitae
Curriculum Vitae
 
Cem cali2013 libro memorias cem 2013
Cem cali2013 libro memorias cem 2013Cem cali2013 libro memorias cem 2013
Cem cali2013 libro memorias cem 2013
 
Ingeniería agrícola
Ingeniería agrícolaIngeniería agrícola
Ingeniería agrícola
 

Plus de Andres Epifanía Huerta

Importancia de la Teoría General de Sistemas.pptx
Importancia de la Teoría General de Sistemas.pptxImportancia de la Teoría General de Sistemas.pptx
Importancia de la Teoría General de Sistemas.pptxAndres Epifanía Huerta
 
Estructura del proyecto de Gobierno de TI
Estructura del proyecto de Gobierno de TIEstructura del proyecto de Gobierno de TI
Estructura del proyecto de Gobierno de TIAndres Epifanía Huerta
 
ISO / EC 15504: Guía de calidad para el desarrollo del Software
ISO / EC 15504: Guía de calidad para el desarrollo del SoftwareISO / EC 15504: Guía de calidad para el desarrollo del Software
ISO / EC 15504: Guía de calidad para el desarrollo del SoftwareAndres Epifanía Huerta
 
Factores Claves para la Educación a Distancia
Factores Claves para la Educación a DistanciaFactores Claves para la Educación a Distancia
Factores Claves para la Educación a DistanciaAndres Epifanía Huerta
 
Spa y el desarrollo de los cursos virtuales
Spa y el desarrollo de los cursos virtualesSpa y el desarrollo de los cursos virtuales
Spa y el desarrollo de los cursos virtualesAndres Epifanía Huerta
 
Tutorial Moodle: Creación y Configuración de Cuestionario
Tutorial Moodle: Creación y Configuración de Cuestionario Tutorial Moodle: Creación y Configuración de Cuestionario
Tutorial Moodle: Creación y Configuración de Cuestionario Andres Epifanía Huerta
 
Tutorial Moodle: Creación y Calificación de Tareas.
Tutorial Moodle: Creación y Calificación de Tareas. Tutorial Moodle: Creación y Calificación de Tareas.
Tutorial Moodle: Creación y Calificación de Tareas. Andres Epifanía Huerta
 
Socialización del Modelo de Educación a Distancia 2015
Socialización del Modelo de Educación a Distancia 2015Socialización del Modelo de Educación a Distancia 2015
Socialización del Modelo de Educación a Distancia 2015Andres Epifanía Huerta
 
Capacitación de Coordinadores de Carreras Profesionales
Capacitación de Coordinadores de Carreras Profesionales Capacitación de Coordinadores de Carreras Profesionales
Capacitación de Coordinadores de Carreras Profesionales Andres Epifanía Huerta
 
Manual de Configuración de Horarios en Aulas BL
Manual de Configuración de Horarios en Aulas BLManual de Configuración de Horarios en Aulas BL
Manual de Configuración de Horarios en Aulas BLAndres Epifanía Huerta
 

Plus de Andres Epifanía Huerta (20)

Importancia de la Teoría General de Sistemas.pptx
Importancia de la Teoría General de Sistemas.pptxImportancia de la Teoría General de Sistemas.pptx
Importancia de la Teoría General de Sistemas.pptx
 
Estructura del proyecto de Gobierno de TI
Estructura del proyecto de Gobierno de TIEstructura del proyecto de Gobierno de TI
Estructura del proyecto de Gobierno de TI
 
Estructura del proyecto SGSI
Estructura del proyecto SGSIEstructura del proyecto SGSI
Estructura del proyecto SGSI
 
Acceder a la plataforma RIDEAD
Acceder a la plataforma RIDEADAcceder a la plataforma RIDEAD
Acceder a la plataforma RIDEAD
 
El covid 19_desde_el_enfoque_teologico
El covid 19_desde_el_enfoque_teologicoEl covid 19_desde_el_enfoque_teologico
El covid 19_desde_el_enfoque_teologico
 
Sistema Numeración
Sistema NumeraciónSistema Numeración
Sistema Numeración
 
ISO / EC 15504: Guía de calidad para el desarrollo del Software
ISO / EC 15504: Guía de calidad para el desarrollo del SoftwareISO / EC 15504: Guía de calidad para el desarrollo del Software
ISO / EC 15504: Guía de calidad para el desarrollo del Software
 
Manual de libro de calificaciones
Manual de libro de calificacionesManual de libro de calificaciones
Manual de libro de calificaciones
 
Factores Claves para la Educación a Distancia
Factores Claves para la Educación a DistanciaFactores Claves para la Educación a Distancia
Factores Claves para la Educación a Distancia
 
Spa y el desarrollo de los cursos virtuales
Spa y el desarrollo de los cursos virtualesSpa y el desarrollo de los cursos virtuales
Spa y el desarrollo de los cursos virtuales
 
Tutorial Moodle: Creación y Configuración de Cuestionario
Tutorial Moodle: Creación y Configuración de Cuestionario Tutorial Moodle: Creación y Configuración de Cuestionario
Tutorial Moodle: Creación y Configuración de Cuestionario
 
Tutorial Moodle: Creación de lecciones
Tutorial Moodle: Creación de leccionesTutorial Moodle: Creación de lecciones
Tutorial Moodle: Creación de lecciones
 
Tutorial Moodle: Creación y Calificación de Tareas.
Tutorial Moodle: Creación y Calificación de Tareas. Tutorial Moodle: Creación y Calificación de Tareas.
Tutorial Moodle: Creación y Calificación de Tareas.
 
Tutorial Moodle - Creación de Foro
Tutorial Moodle - Creación de ForoTutorial Moodle - Creación de Foro
Tutorial Moodle - Creación de Foro
 
Socialización del Modelo de Educación a Distancia 2015
Socialización del Modelo de Educación a Distancia 2015Socialización del Modelo de Educación a Distancia 2015
Socialización del Modelo de Educación a Distancia 2015
 
Capacitación de Coordinadores de Carreras Profesionales
Capacitación de Coordinadores de Carreras Profesionales Capacitación de Coordinadores de Carreras Profesionales
Capacitación de Coordinadores de Carreras Profesionales
 
Registro de procesos lectivos
Registro de procesos lectivosRegistro de procesos lectivos
Registro de procesos lectivos
 
Manual de Configuración de Horarios en Aulas BL
Manual de Configuración de Horarios en Aulas BLManual de Configuración de Horarios en Aulas BL
Manual de Configuración de Horarios en Aulas BL
 
I taller rd sua
I taller rd suaI taller rd sua
I taller rd sua
 
Ejemplo de adecuación rd di (sua)
Ejemplo de adecuación rd di (sua)Ejemplo de adecuación rd di (sua)
Ejemplo de adecuación rd di (sua)
 

Revista ventana informatica 28

  • 1.
  • 2. FACULTAD DE CIENCIAS E INGENIERÍA Carrera 9 No. 19-03 Conmutador (6) 887 9680 extensión: 1689 Manizales, Caldas, Colombia www.umanizales.edu.co ventanainformatica@umanizales.edu.co ventanainformatica@gmail.com
  • 3. Nº 28 - enero - junio / 2013 GUILLERMO ORLANDO SIERRA SIERRA Rector JORGE IVÁN JURADO SALGADO Vicerrector GERMÁN WILLIAM LONDOÑO JIMÉNEZ Decano Facultad de Ciencias e Ingeniería Director / Editor OMAR ANTONIO VEGA PhD(c) VENTANA INFORMÁTICA Derechos Reservados ISSN 0123-9678 Diseño y Diagramación Gonzalo Gallego González Centro Editorial Universidad de Manizales 2013 VENTANA INFORMÁTICA es una publicación semestral especializada de la Facultad de Ciencias e Ingeniería de la Universidad de Manizales. Está clasificada en la CATEGORÍA C, en IBN – Publindex (Colombia) e incluida en Latindex 2
  • 4. Universidad de Manizales Facultad de Ciencias e Ingeniería Comité editorial Mario Andrés GIRALDO FADUL, PhD. California State University –USA Carlos Eugenio OLIVEROS TASCÓN, PhD. Centro Nacional de Investigaciones de Café - Colombia Gustavo Adolfo ISAZA ECHEVERRY, PhD. Universidad de Caldas - Colombia Héctor MORA PÁEZ, MSc. Servicio Geológico Colombiano – Colombia Luis RODRÍGUEZ BAENA, PhD. Universidad Pontificia de Salamanca - España Comité científico Mauro CALLEJAS CUERVO, MSc. Universidad Pedagógica y Tecnológica de Colombia - Colombia Andrés David EPIFANÍA HUERTA, MSc. Universidad Católica Los Ángeles de Chimbote - Perú Luis Alejandro FLÉTSCHER BOCANEGRA, MSc. Universidad de Antioquia - Colombia (c) Alejandro Javier HADAD, PhD. Universidad de Entre Ríos – Argentina André Atanásio MARANHÃO ALMEIDA, MSc. Instituto Federal de Alagoas - Brasil Ana Teresa ORTEGA MINAKATA, MSc. Instituto de Información Territorial del Estado de Jalisco - México Comité científico de redacción Luis Carlos CORREA ORTIZ, MSc. Universidad de Manizales - Manizales, Caldas, Colombia Julio César GÓMEZ CASTAÑO, PhD(c). Universidad de Manizales - Manizales, Caldas, Colombia 3
  • 5. Nº 28 - enero - junio / 2013 Diego Samir MELO SOLARTE, PhD(c). Universidad de Manizales - Manizales, Caldas, Colombia Carlos Alberto OSPINA PARRA, PhD(c). Universidad de Manizales - Manizales, Caldas, Colombia Omar Antonio VEGA, PhD(c). Universidad de Manizales - Manizales, Caldas, Colombia Comité científico de arbitraje (Integrantes que realizaron arbitraje de artículos para este número) Genaro AGUIRRE AGUILAR, PhD. Universidad Veracruzana –México Andrea Catherine ALARCÓN ALDANA, MSc. Universidad Pedagógica y Tecnológica de Colombia - Colombia Luis Marcial BERTEL PATERNINA, Esp. Universidad de Manizales - Colombia Mauro CALLEJAS CUERVO, MSc. Universidad Pedagógica y Tecnológica de Colombia - Colombia Luis Fernando CASTILLO OSSA, PhD. Universidad de Caldas - Colombia Andrés David EPIFANÍA HUERTA, MSc. Universidad Católica Los Ángeles de Chimbote - Perú Gloria Piedad GASCA HURTADO, PhD. Universidad de Medellín –Colombia Mario Andrés GIRALDO FADUL, PhD. California State University –USA María Ester GONZÁLEZ, PhD. Universidad Politécnica de Madrid - España Rubén Arístides GONZÁLEZ CRESPO, PhD. Universidad Pontificia de Salamanca - España Juan Sebastián GONZÁLEZ SANABRIA, Esp. Universidad Pedagógica y Tecnológica de Colombia – Colombia 4
  • 6. Universidad de Manizales Facultad de Ciencias e Ingeniería Nery Francisco HERRERA PINEDA, MSc. Universidad Católica de El Salvador - El Salvador Orlando Clemente IPARRAGUIRRE VILLANUEVA, MSc. Universidad Católica Los Ángeles de Chimbote - Perú Gustavo Adolfo ISAZA ECHEVERRY, PhD. Universidad de Caldas - Colombia Alejandro LONDOÑO VALENCIA, MSc. Universidad de Manizales –Colombia André Atanásio MARANHÃO ALMEIDA, MSc. Instituto Federal de Alagoas - Brasil Carlos Eduardo MARULANDA ECHEVERRY, MSc. Universidad de Caldas - Colombia Diego Samir MELO SOLARTE, PhD(c). Universidad de Manizales – Colombia Ana Teresa ORTEGA MINAKATA, MSc. Instituto de Información Territorial del Estado de Jalisco - México Luis Eduardo PELÁEZ VALENCIA, MSc. Universidad Católica de Pereira - Colombia Willington Libardo SIABATO VACA, PhD. Universidad Politécnica de Madrid – España Ábilo Andrés VELÁSQUEZ SALAZAR, MSc. Universidad Nacional de Colombia - Colombia Ronald Eduard VINASCO SALAZAR, MSc. Universidad de Manizales – Colombia Gunnar Eyal WOLF ISZAEVICH, Lic. Universidad Nacional Autónoma de México - México 5
  • 7. Nº 28 - enero - junio / 2013 6
  • 8. Universidad de Manizales Facultad de Ciencias e Ingeniería En esta edición Página Editorial.................................................................................................... 9-11 Omar Antonio VEGA Implementación de un software para el análisis de imágenes aéreas multiespectrales de caña de azúcar.......................13-29 [Implementation of software for the analysis of multispectral aerial images sugarcane] Gerardo SCHNEIDER, Alejandro Javier HADAD, Alejandra KEMERER Aplicación de la minería de datos en la extracción de perfiles de deserción estudiantil..................................31-47 [Application of data mining in extracting student dropout profiles] Ricardo TIMARÁN PEREIRA, Andrés CALDERÓN ROMERO, Javier JIMÉNEZ TOLEDO Técnicas de implementación de procesos colaborativos a la mejora procesos: un acercamiento a PMBOK.............................49-66 [Implementation Techniques for improving collaborative processes closer to PMBOK processes] José Luis JURADO, César Alberto COLLAZOS Sistema multiparamétrico de monitoreo remoto de movimientos por remoción en masa...............................................67-82 [A multiparameter system for remote monitoring of landslides] John Makario LONDOÑO, César Augusto VEGA, Liliana María MAYA Análisis del sistema de información de la microempresa N´Diaye & Filhos...........................................................83-97 [Analysis of the information system of N´Diaye & Filhos micro-enterprise] Lourdes María GARCÍA PUJADAS, Eduardo Barbarito HERNÁNDEZ HURTADO, Horacio CHICOLA Pautas, métodos y herramientas de evaluación de accesibilidad web........................................................ 99-115 [Guidelines, methods and tools for web accessibility evaluation] Cinthia DE OLEO MORETA, Luis RODRÍGUEZ BAENA Una memoria organizacional para gestionar información y conocimiento de proyectos de investigación de instituciones venezolanas.............................. 117-131 [An organizational memory to manage information and knowledge of research projects from Venezuelan institutions] Esmeralda RAMOS, Iván FLORES, Haydemar NÚÑEZ 7
  • 9. Nº 28 - enero - junio / 2013 Estrategias educativas para la inserción social del egresado de Ingeniería Mecánica....................................133-149 [Educational strategies for the social inclusion of the Mechanical Engineering students] Alejandro Arturo PÉREZ VILLEGAS, Adriana María SÁNCHEZ NAVARRETE Metodología para determinar la evolución de los sistemas informáticos de organizaciones regionales....................151-166 [Methodology to determine the evolution of the computer systems of regional organizations] Ludwig Iván TRUJILLO HERNÁNDEZ Módulo informático de evaluación docente para la carrera de informática en el ISMMM....................................167-179 [Teacher evaluation computer module for computing career in the ISMMM] Marcos Antonio MARTÍNEZ RODRÍGUEZ, Yadiris MARTÍNEZ CORDERO, Iliana DÍAZ SÁNCHEZ Políticas editoriales de la revista Ventana Informática........................ 181-198 Director y Consejo Editorial Índice histórico de artículos publicados................................................199-210 Nota: Los conceptos expresados en esta publicación son responsabilidad de los autores y no comprometen el pensamiento de la Universidad ni de la Facultad de Ciencias e Ingeniería. COPYRIGHT © UNIVERSIDAD DE MANIZALES 8
  • 10. Universidad de Manizales Facultad de Ciencias e Ingeniería Editorial Omar Antonio VEGA1 Director/Editor La edición 28, correspondiente al primer semestre del año 2012, recoge 10 de los 23 artículos presentados en la convocatoria cerrada en febrero 20, procedentes de diversas instituciones, especialmente universidades, con un interesante número de nuevos autores. Los autores que publican en este número, están afiliados a: - las Universidades de Nariño, del Cauca, Piloto de Colombia, San Buenaventura, Nacional de Entre Ríos, de Ciego de Ávila, Pontificia de Salamanca, Central de Venezuela y Autónoma de San Luis de Potosí, - la Institución Universitaria Cesmag, - los Institutos Nacional de Tecnología Agropecuaria y Superior Minero Metalúrgico de Moa, - los Servicios Geológico de Colombia y de Salud Pública de Villa Clara, - además de un funcionario de la micro-empresa N´Diaye & Filhos y una profesional independiente. En este momento es interesante hacer hincapié en un hecho: aparece una cantidad significativa de nuevos autores e instituciones aportando sus escritos a la revista, señalando el paulatino, pero firme, proceso de consolidación en Iberoamérica. La edición recoge diversos temas, mediante artículos de investigación científica y tecnológica, de reflexión y reportes de casos, cuya somera presentación es: - El primer artículo, en el área de la bioingeniería y procedente de un proyecto entre la Universidad Nacional de Entre Ríos y el INTA, hace alusión a una implementación de software que permite determinar, a partir del análisis de imágenes aéreas multiespectrales, el estado de las plantaciones de caña de azúcar, especialmente en cuanto a caña caída o volcada. - En el segundo artículo, realizado entre la Universidad de Nariño y la institución Universitaria Cesmag, se enfrenta la deserción estudiantil 1 Ing. Agrónomo, Esp. en Informática y Computación, MSc. en Orientación y Asesoría Educativa, MSc. en Educación. Docencia, PhD(c) en Ingeniería Informática: Sociedad de la Información y el Conocimiento. Director/editor de la revista Ventana Informática, Líder del grupo de investigación ‘Sociedad de la Información y el Conocimiento’, Profesor titular, Facultad de Ciencias e Ingeniería, Universidad de Manizales, Manizales (Colombia). Correo electrónico: oavega@ umanizales.edu.co 9
  • 11. Nº 28 - enero - junio / 2013 en programas de pregrado, mediante la detección de patrones utilizando técnicas de minería de datos. - A continuación, desde la ingeniería de software y procedente de la Universidad del Cauca, se presenta una integración de la ingeniería de la colaboración con la gestión de proyectos, en el modelo de mejora PmCompetisoft. - Siendo Colombia un país donde la mayoría de su población está ubicada en zonas de ladera, con frecuentes casos de deslizamientos, se presenta un sistema, realizado entre el Servicio Geológico Colombiano y la Universidad de Manizales, que permite realizar monitoreo remoto de remociones en masa, usando diferentes tipos de sensores, que permite emitir alertas a partir de la información obtenida y procesada. - En el marco de la cooperación cubana a Angola, se presenta el artículo presenta el análisis del sistema de información para la empresa N´Diaye & Filhos, como paso para favorecer el mejoramiento de la gestión económica de la empresa. Este es un componente de los varios desarrollados, en este caso entre profesionales del Instituto Superior Minero Metalúrgico de Moa y la Universidad de Ciego de Ávila, en conjunto con personal de empresas angolanas. - La accesibilidad web se está convirtiendo en conditio sine qua non al momento de emprender iniciativas para la universalización de acceso y uso de las TIC. Por ello, desde la Universidad Pontifica de Salamanca campus Madrid, se enfoca en su evaluación, realizando el análisis de pautas, métodos y herramientas considerados en el estándar de la W3C. - La gestión de la información y de conocimiento, no puede restringirse a la empresa convencional, sino que tiene un sitio especial en la academia, responsable de mover la frontera del conocimiento. En esa dirección, desde la Universidad Central de Venezuela, se propone un modelo para definir la estructura de la memoria organizacional de la producción intelectual de los investigadores en sus proyectos de investigación. - La globalización, y el aspecto competitivo que conlleva, hace que la universidad deba preocuparse porque sus egresados sean competentes en la realidad cambiante del entorno laboral y productivo. Por ello, desde la Universidad Autónoma de San Luis de Potosí, se analiza la trascendencia de la formación integral de los estudiantes, frente a la realidad que lo espera como ingeniero y profesional. - Los procesos gerenciales y la incorporación informática a las empresas, hacen parte del proceso de mejoramiento y desarrollo de ellas, 10
  • 12. Universidad de Manizales Facultad de Ciencias e Ingeniería por lo el siguiente artículo, procedente de la Universidad Piloto de Colombia seccional Alto Magdalena, muestra la aplicación de una metodología de evaluación de las empresas de Girardot, mediante las etapas de evolución de los sistemas informáticos inspirado en el modelo de Gibson & Nolan. - El último de los artículos presenta, a manera de propuesta, un módulo con el objetivo de facilitar y complementar la labor diaria de los profesores, que hace parte de la gestión docente del departamento de informática del Instituto Superior Minero Metalúrgico de Moa. En el cierre de la revista aparecen las políticas editoriales, para facilitar la participación como autor y/o árbitro, así como el listado histórico de artículos publicados. No hay duda alguna que la calidad científica de una revista se fundamenta en sus procesos de convocatoria y selección, y se refrenda con los índices bibliométricos, referidos a la consulta y citación de los documentos en ella publicados. Por ello, se hace una invitación a investigadores, docentes y estudiantes para seguir aportando sus artículos, al igual que a considerar, revistas como esta, al momento de hacer sus revisiones bibliográficas… no puede olvidarse la característica local o regional que frecuentemente se presentan en sus artículos, aspecto relevante de glocalización en el planteamiento de los antecedentes de un proyecto de investigación. Para finalizar, se recuerda que la revista mantiene su convocatoria abierta, con cortes en febrero 20, para los números del primer semestre, y agosto 20, para el segundo, ya que: Alguien está necesitando la información que usted está dispuesto a brindar. Usted está necesitando la información que alguien está dispuesto a brindar… Ventana Informática se mantiene abierta para que la información fluya en ambas direcciones. 11
  • 13. Nº 28 - enero - junio / 2013 12
  • 14. Universidad de Manizales Facultad de Ciencias e Ingeniería Implementación de un software para el análisis de imágenes aéreas multiespectrales de caña de azúcar*1 [Implementation of software for the analysis of multispectral aerial images sugarcane] Gerardo SCHNEIDER2, Alejandro Javier HADAD3 ,Alejandra KEMERER4 Recibo: 20.02.2013 - Aprobación: 17.06.2013 Resumen En este trabajo se presenta una implementación de software para la determinación del estado de plantaciones de caña de azúcar basado en el análisis de imágenes aéreas multiespectrales. En la actualidad no existen técnicas precisas para estimar objetivamente la superficie de caña caída o volcada, y esta ocasiona importantes pérdidas de productividad en la cosecha y en la industrialización. Para la realización de éste trabajo se confeccionó un dataset referencial de imágenes, y se implementó un software a partir del cual se obtuvieron indicadores propuestos como representativos del fenómeno agronómico, y se realizaron análisis de los datos * Modelo para citación de este artículo: SCHNEIDER, Gerardo; HADAD, Alejandro Javier & KEMERER, Alejandra (2013). Implementación de un software para el análisis de imágenes aéreas multiespectrales de caña de azúcar. En: Ventana Informática. No. 28 (ene.-jun.). Manizales (Colombia): Facultad de Ciencias e Ingeniería, Universidad de Manizales. p. 13-29. ISSN: 0123-9678 1 Artículo de investigación científica y tecnológica proveniente de la tesina de grado Análisis de Imágenes Aéreas Orientado a la caracterización de caña caída, necesaria para la obtención del título de Licenciado en Bioinformática, cuyo autor es Gerardo Schneider bajo la dirección de Alejandro Hadad durante el año 2012. 2 Licenciado en Bioinformática. FI-UNER. Oro Verde, Entre Ríos (Argentina). Correo electrónico: gerschneider@gmail.com. 3 Bioingeniero, Aspirante al Doctorado en Ingeniería, mención en Sistemas de Información, UTN-FRSF. Docente-Investigador e Integrante del GIA de la FI-UNER. Oro Verde, Entre Ríos (Argentina). Correo electrónico: hadad@santafe-conicet.gov.ar. 4 Ingeniera Agrónoma. M. Sc. Investigador en el Grupo de Recursos Naturales y Factores Abióticos de la EEA Paraná del INTA y Docente en las cátedras de Climatología Agrícola y SIG de la FCA UNER. Oro Verde, Entre Ríos (Argentina). Correo electrónico: akemerer@parana. inta.gov.ar Nº 28 - Universidad de Manizales, enero-junio/2013 - pp 13-29 13
  • 15. Nº 28 - enero - junio / 2013 generados. Además se implementó un software clasificador referencial basado en redes neuronales con el que se estimó la fortaleza de dichos indicadores y se estimó la superficie afectada en forma cuantitativa y espacial. Palabras Clave: Caña de azúcar, cuantificación, volcado, red neuronal, procesamiento de imagen Abstract In this paper we present a software implementation for determining the status of sugarcane plantations based on the analysis of multispectral aerial images. Currently there are no precise techniques to estimate objectively the cane area fall or overturned, and this causes significant losses in crop productivity and industrialization. For the realization of this work a dataset benchmark images was made, and a software, from which were obtained representative proposed indicators for the agronomic phenomenon was implemented, and analyzes of the data generated were realized. In addition, we implemented a software benchmark classifier based on neural networks with which we estimated the strength of these indicators and the area affected was estimated quantitatively and spatially. Keywords: Sugarcane, quantification, fall, neural network, image processing Introducción El cultivo de caña de azúcar en Argentina se encuentra principalmente localizado en la región noroeste del país (99%), donde representa, de acuerdo con Pérez et al. (2005), una de las actividades productivas más importantes, y en escasa extensión en la región litoral (1%). Los sistemas productivos cañeros presentan diferentes niveles tecnológicos según el sistema de cosecha utilizado, con sistemas desde manuales a totalmente mecanizados, si bien, en la actualidad más del 70% del volumen total se cosecha de manera mecanizada. Uno de los aspectos más críticos del proceso de cosecha de la caña de azúcar son las pérdidas que se producen y se han determinado como niveles tolerables alrededor del 2,5%. La presencia de caña caída es uno de los factores con mayor influencia. Incidencia de vuelco superiores al 20% determina incrementos en las pérdidas que van desde el 4 al 6,4%, según expresan Rodríguez et al. (2010). 14
  • 16. Universidad de Manizales Facultad de Ciencias e Ingeniería La presencia de caña de azúcar caída (CC) al momento de la cosecha trae aparejadas importantes pérdidas en la recolección y en el ingenio azucarero. En el fenómeno de CC por quebrado intervienen aspectos aleatorios e impredecibles. Es normal que el cañaveral en un cuadro productivo alcance una altura promedio, pero presenta variaciones respecto de esta variable en diferentes sectores del campo. Esto puede deberse a las condiciones diferenciales del suelo que presenta distintos niveles de fertilidad, humedad, compactación, etc. Por otro lado, cada planta del cañaveral es constitutivamente diferente, por lo que manifestará en forma única los distintos estímulos externos. Cuando la planta es joven y se ha desarrollado bajo condiciones óptimas, alcanza cierta altura y por su propio peso comienza a pandearse, llegando algunas a quebrarse una vez que se supera su tensión de rotura producto del viento o fenómenos ambientales como el granizo. La CC se presenta con una gran heterogeneidad espacial. Una vez que se produce el fenómeno, el suelo puede quedar al descubierto, o por el contrario puede producirse un reverdecimiento producto de la aparición de nuevas hojas verdes, con crecimiento fototrópico. Esto suma heterogeneidad ante una observación externa. Los factores antes mencionados evidencian la gran complejidad en el fenómeno en estudio, lo que lo hace dificultoso de analizar y cuantificar. La materia extraña a la caña denominada en inglés como trash, cuando ingresa al ingenio azucarero representa una importante pérdida de eficiencia en el proceso de elaboración de azúcar, aseguran Tonatto et al. (2005). El desafío de ingeniería industrial radica en explorar las alternativas para controlar los efectos perjudiciales que estos desechos o trash y la tierra presentes en la caña tienen en los equipos, procesos y rendimientos operativos de la fábrica. Es decir que la calidad de la caña afecta en forma directa al rendimiento fabril y a la calidad de la azúcar obtenida (Larrahondo, 1995). A su vez la calidad de la materia prima (caña) puede ser afectada por aspectos siempre cambiantes de la agricultura de la caña de azúcar, tales como la introducción de nuevos cultivares, variaciones climáticas, el uso de maduradores químicos, cambios en las prácticas culturales y en los sistemas de cosecha o la aparición en los cultivos de enfermedades o plagas. En cuanto a los tipos de cosecha, se observa que los contenidos de trash y tierra en caña cosechada en forma mecanizada son sensiblemente inferiores que en la cosecha semi-mecanizada, pasando de un 2 a un 5-7%. Al mismo tiempo, los valores de fibra (residuo vegetal) suben de 14 a 18% aproximadamente, debido a la presencia de mayor cantidad de partes vegetales por una cosecha menos eficiente (Sustaita, 2005). Esto significa que las industrias abonan a los productores una parte significativa 15
  • 17. Nº 28 - enero - junio / 2013 del peso del trash de la materia prima ingresada por balanza a valor caña, dado que la forma de muestreo y análisis de este parámetro es generalmente inadecuado. A esto se le debe incorporar los otros costos adicionales que produce este producto extraño en la fábrica propiamente dicha, como ser: -- Desgaste en los molinos por abrasión y una pérdida progresiva en la capacidad de extracción del jugo de caña. -- Aumento significativo de la cantidad de cachaza5 y con ello de las pérdidas de azúcar en la misma. -- Aumento del consumo de productos químicos para el tratamiento de los jugos. -- Aumento del color en el jugo y subsecuentemente en el azúcar con lo cual para evitarlo se reducen los ciclos de cristalización disminuyendo la eficiencia fabril. -- Desgaste de equipos, tuberías y bombas. -- Disminución del poder calorífico del bagazo6 y por ende la eficiencia en el quemado del mismo, con un aumento del consumo de y de las emisiones de caldera. -- Otros. 1. Fundamento teórico Para disminuir al mínimo posible el porcentaje de trash en la caña, en varios ingenios se instalaron mesas lavadoras de caña, removiendo el contenido de tierra mediante grandes cantidades de agua (relación aproximada de 3 m3 de agua por ton. de caña). Esto supone ahorro de dinero, pero agrega problemas como mayores costos por la potencia requerida, el agua necesaria y la mano de obra adicional, sumado a las nuevas discusiones con los productores ya que algunos estudios confirman que en el lavado de la caña se pierde un porcentaje del rendimiento por arrastre de azúcar. Además, la técnica requiere disponibilidad de terreno para instalar decantadores de arena y barros para poder re-usar el agua y no devolverla así a los causes incrementando la contaminación. Una estrategia prometedora para lograr reducir este impacto radica en lograr una mayor eficiencia operativa en las tareas de cosecha de la caña en el campo, etapa previa al ingreso a las fábricas, y fundamentalmente en sectores con caña quebrada que incrementan notablemente el porcentaje de trash. Esta es un área de mano de obra 5 Espumas e impurezas que sobrenadan en el jugo de la caña de azúcar al someterlo a la acción del fuego. 6 Residuo de una materia de la que se ha extraído el jugo. 16
  • 18. Universidad de Manizales Facultad de Ciencias e Ingeniería intensiva donde por sus particularidades, considera Sustaita (2005), no se han logrado introducir soluciones tecnológicas que reduzcan su impacto negativo en la producción. Actualmente, la cuantificación de la caña de azúcar caída en cuadros productivos es un proceso costoso e ineficiente. Se requiere del envío de evaluadores al terreno que deben explorar grandes superficies para obtener un muestreo representativo que les permita hacer estimaciones. En su desplazamiento por el campo producen daño, requieren muchas horas hombre de trabajo y generan estimaciones con un alto grado de incerteza. A su vez, la presencia de variaciones espaciales en la productividad de la caña es muy amplia. Viccini (2007) determinó variaciones de hasta 50 tn/ha a nivel de lote de producción. Es esperable que este patrón, así como variaciones en la calidad de la caña se observe a diversas escalas, de manera similar a lo que se ha demostrado para otras variables que inciden en la producción, como las propiedades de suelo (Anderson et al., 1999), lo que dificulta establecer un distanciamiento de muestreo único y repercute negativamente en los costos. Otra estrategia es la de realizar vuelos sobre los cultivos con observadores especialistas los que estiman el porcentaje de caña caída de acuerdo a su experiencia e impresión de lo observado desde el aire. Esta estrategia es subjetiva y dependiente de los especialistas disponibles en cada área de interés. Teniendo en cuenta estos antecedentes se evidencia que no se ha observado reporte de alguna metodología con cierto grado de certeza mensurable para determinar el área afectada, a fin de ayudar a planificar de mejor manera el proceso de cosecha y los costos asociados por parte de los actores productivos involucrados. En este sentido, el Instituto Nacional de Tecnología Agropecuaria de Argentina – INTA – ha abordado la problemática, realizando trabajos a partir de fotografías aéreas de alta resolución (Kemerer et al. 2010, Melchiori et al., 2009). A partir de esta fuente de datos se trabajó en conjunto para avanzar con nuevas estrategias tecnológicas para abordar el problema. En este trabajo se presenta la infraestructura informática desarrollada y el análisis de resultados informáticos y agronómicos. Desde el punto de vista informático se montó una aplicación para realizar el etiquetado de imágenes, a partir del cual se desarrolló una estructura tipo pipeline con capacidades de análisis de variables y clasificación de regiones. Como clasificador de referencia se utilizaron redes neuronales por la capacidad de las mismas para esta tarea y la experiencia previa de los autores con este clasificador. Desde el punto de vista agronómi17
  • 19. Nº 28 - enero - junio / 2013 co, como un primer resultado, se brinda una estimación cuantitativa y espacial de las regiones con caña de azúcar en pie y caída. 2. Metodología Se contó con el set de imágenes obtenido por el Instituto Nacional de Tecnología Agropecuaria (INTA) de Argentina desde un avión Sky Arrow 650 TCNS ERA, cuyo sistema de captura se compone de un sistema de posicionamiento global, una cámara multiespectral Geospatial MS4100 y un sistema de control y almacenamiento de datos. La cámara empleada permite la adquisición de fotogramas en tres bandas del espectro electromagnético: verde (530-580 nm.), roja (650-685 nm.) e infrarroja cercana (770-830 nm.) con una resolución de imagen de 1920 x 1075 pixeles. El sistema de posicionamiento proporciona la posición, actitud y altura de vuelo en sincronismo con la adquisición de cada fotograma. El vuelo se realizó el 5 de mayo de 2008, momento del ciclo del cultivo donde la presencia de caída de la caña es claramente evidente. Los vuelos se efectuaron en el medio día solar a fin de contar con una iluminación homogénea en la superficie. El plan de vuelo se diseñó para una altitud de 1200 m. resultando un tamaño de pixel de 0.7 m. Se obtuvieron 540 fotogramas que fueron ensamblados mediante el reconocimiento de puntos de anclaje en fotogramas consecutivos generando un mosaico. Se utilizaron en este procedimiento las librerías Panorama Tools7 con la interfaz gráfica Hugin8, ambas de distribución libre. El mosaico se georreferenció con el programa de análisis Leica Erdas Imagine 9.1. y se extrajeron imágenes individuales correspondientes a cada parcela productiva. Con la asistencia de un Ingeniero Agrónomo se realizó el etiquetado de las imágenes en las clases de interés, para lo cual se utilizó la aplicación Label Me (Russel et al., 2008) del Instituto Tecnológico de Massachusetts, la cual fue desplegada en un servidor local de modo de facilitar el acceso a los datos y su incorporación a un pipeline de procesamiento, extracción de características, análisis, clasificación y segmentación posterior. En la figura 1 se observa el proceso de etiquetado consistió en delimitar en las imágenes, polígonos continentes de porciones representativas de las clases Caña en Pie (CP), Caña Caída en Forma de Parches (CCP), Caña Caída en Áreas Grandes (CCA), Caña Caída con Fototropismo (CCF) y Corridas o áreas de suelo descubierto (C) (figura 1). De esta etapa surge un conjunto de datos de referencia o dataset, 7 8 18 http://panotool.sourfceforge.net http://hugin.sourceforge.net
  • 20. Universidad de Manizales Facultad de Ciencias e Ingeniería del cual se obtendrán 5678 muestras, o subimágenes cuadradas de 60 pixeles de lado. Se desarrolló en código Java un software capaz de adquirir la información con forma de metadatos generada en el etiquetado, y a partir de ella recortar y procesar automáticamente las porciones de imágenes obtenidas desde el dataset, con el fin de obtener indicadores representativos de cada clase. Se incorpora en esta etapa un preprocesamiento de normalización en brillo de las imágenes que se realizó calculando el brillo promedio por canal de todos los polígonos etiquetados, y fijando arbitrariamente como parámetro para la normalización un 120% de dichos valores, lo que amplió el rango dinámico sin producir saturación en el histograma. Se aplicó un filtro espacial Frei-Chen para la detección de bordes (Frei et al., 1977), con el fin de resaltar las zonas de alta frecuencia. Figura 1. Captura de pantalla de un imagen ejemplo y del proceso de etiquetado de la misma con LabelMe Dadas las características del fenómeno agronómico, se realizó un abordaje desde el punto de vista de las texturas de las imágenes, definiéndose las siguientes características o indicadores de interés: • Desvío estándar del histograma de la muestra por canal • Entropía promedio del histograma de la muestra por canal • Valor promedio de los pixeles de la muestra por canal (mencionado como Firma Espectral) • Valor promedio de los pixeles de la muestra por canal post filtrado de detección de bordes (mencionado como Firma Espectral con Detección de Borde) 19
  • 21. Nº 28 - enero - junio / 2013 • Índice de vegetación de diferencia normalizada (NDVI) (Rouse et al., 1973) La extracción de características se realizó en un proceso iterativo del tipo Batch dado el alto requerimiento de poder de cómputo y tiempo requerido. El volumen de información generada se almacenó en una base de datos Postgres, de modo de poder acceder concurrentemente al momento del análisis a toda la información y obtenerla utilizando las potencialidades de un lenguaje de consulta SQL. Con el fin de evaluar los efectos ponderados de los indicadores propuestos, se eligió como clasificador de referencia una Red Neuronal (RN) Perceptrón Multicapa. La elección se realizó teniendo en cuenta resultados en el procesamiento de imágenes reportadas en la bibliografía (Wang et al., 2013; Ma et al., 2005; Kobashi et al., 2001; Iscan et al., 2009; Middleton & Damper 2004) y la experiencia de los investigadores en dicho modelo. Las RN constituyen un modelo computacional inspirado en ciertas características de las redes neuronales biológicas, cuyo primer modelo matemático se presentó en 1943 por Warren McCulloch y Walter Pitts. Permiten resolver diversos problemas complejos de la vida real, que no son resolubles con tecnologías convencionales. El perceptrón multicapas (PMC) es un tipo de red neuronal artificial de aprendizaje supervisado (Figura 2), que consiste en un arreglo de nodos o neuronas ubicados en capas, de forma tal que los nodos de una están conectados a todos los nodos de la capa anterior y de la siguiente mediante valores de pesos de conexión, o sinapsis. Estas neuronas o nodos, computan alguna función no lineal simple en la suma de las entradas, denominada función de activación. Un PMC puede aproximar relaciones no lineales entre datos de entrada y de salida. Figura 2. Red neuronal tipo Perceptrón Multicapa con nc capas 20
  • 22. Universidad de Manizales Facultad de Ciencias e Ingeniería Se implementó una Red Neuronal (R.N) del tipo Perceptrón Multicapa, con una neurona de salida por cada clase o estado del cultivo, una neurona de entrada por canal para cada indicador propuesto, y una capa intermedia de 80 neuronas. Se utilizó la R.N. para evaluar además la robustez de cada indicador en relación a cada clase, y para segmentar la imagen original cuantificando en hectáreas la superficie asociada a cada estado del cultivo. Atendiendo al problema de la complejidad de los datos al momento de entrenar una red neuronal, se minimizaron efectos negativos del desbalance y solapamiento de clases (Toribio et al., 2009) mediante la generación de training sets balanceados con igual número de muestras por clase, y obtenidos aleatoriamente del dataset a partir de la consulta SQL: DROP VIEW balanceada; CREATE VIEW balanceada AS (SELECT e.id FROM tablaAnalisisEspectro e WHERE e.tamVentana=tamVent AND e.clase=’CP’ ORDER BY RANDOM() LIMIT cantMuestras) UNION SELECT e.id FROM tablaAnalisisEspectro e WHERE e.tamVentana=tamVent AND e.clase=’CCA’ ORDER BY RANDOM() LIMIT cantMuestras) UNION (SELECT e.id FROM tablaAnalisisEspectro e WHERE e.tamVentana=tamVent AND e.clase=’CCP’ ORDER BY RANDOM() LIMIT cantMuestras) UNION (SELECT e.id FROM tablaAnalisisEspectro e WHERE e.tamVentana=tamVent AND e.clase=’CCF’ ORDER BY RANDOM() LIMIT cantMuestras)UNION (SELECT e.id FROM tablaAnalisisEspectro e WHERE e.tamVentana=tamVent AND e.clase=’C’ ORDER BY RANDOM() LIMIT cantMuestras); Para cada una de las muestras se extrajeron las características de textura a fin de conformar los patrones de entrenamiento y testeo. A partir de dichos patrones se realizaron ensayos con diferentes configuraciones de características y del clasificador de referencia. El criterio de selección que se utilizó se vinculó a aquellas configuraciones en las cuales se incrementó en menor medida el error de testeo 21
  • 23. Nº 28 - enero - junio / 2013 3. Resultados y discusión Los indicadores de interés evaluados resultaron, en general, promisorios para el proceso de caracterización de la caña caída, a excepción del NDVI. Este índice presentó valores bajos en el caso de la caña caída donde el cultivo alcanza más biomasa y el valor debería ser mayor (Flowers et al., 2003, Raun et al., 2005, Melchiori et al., 2006). Esto sucede porque la banda IR capta las variaciones en estructura del cultivo asociadas a la biomasa y el índice de área foliar. Cuando el cultivo se cae la estructura se ve modificada, disminuye, eso hace bajar el IR y entonces el NDVI toma valores más bajos. También hay un efecto confundido del aporte de reflectancia del suelo en la caña caída que hace disminuir el NDVI (Qi et al., 1994; Rondeaux et al., 1996). Por lo tanto, este índice no fue incorporado en el análisis posterior. En el caso de los valores de desvío del histograma se observó para la clase caña en pié (CP) un corrimiento hacia valores inferiores en los tres canales analizados (figura 3). Se considera al desvío estándar del histograma como un indicador candidato de la clase caña en pie. Figura 3. Desvío estándar del histograma de las muestras contenidas en los polígonos que conforman el dataset, para cada clase y ventanas de tamaño V= 40 px en los tres canales analizados (Ch=0: Infrarrojo, Ch=1: Rojo, Ch=2: Verde). La distribución de la entropía presentó valores más elevados para las clases de caña caída (CCA, CCF y CCP) y suelos descubierto respecto a la clase caña en pie, con valores medios diferentes entre clases. Por lo tanto, se considera a la entropía del histograma un indicador promisorio para la identificación de caña en pie. 22
  • 24. Universidad de Manizales Facultad de Ciencias e Ingeniería En cuanto a la firma espectral, si bien se observa solapamiento en las distribuciones entre clases, para el canal IR se observa un desplazamiento hacia valores superiores para caña en pie. La firma espectral para el canal IR se presenta como indicador promisorio para identificar caña en pie, por lo que se considera como una de las variables a incorporar. De la aplicación del filtro de detección de bordes Frei-Chen sobre la imagen de los cuadros productivos completos, surge una atenuación casi total de las áreas homogéneas, como ser caña en pie, caña caída en áreas grandes y corridas. En cambio, se realzan las zonas de caña caída en forma de parches y caña caída con fototropismo, aunque esta última atenuada por la aparición de nuevas hojas verdes, las que suavizan sus bordes Al comparar las firmas espectrales de las imágenes originales con las resultantes del filtro de detección de bordes Fei-Chen, se observa una mejor resolución de la clase caña en pie (CP) en relación al resto. También mejora, aunque en menor medida, la resolución interclase para las variantes de caña caída. El nuevo indicador obtenido es considerado promisorio para la identificación de características de caña caída. 3.1 Análisis de la influencia de los indicadores en el clasificador de referencia Se utilizó el clasificador de referencia, suprimiendo de las entradas un indicador por vez en sus tres canales. Se realizó un testeo del clasificador con 200 ciclos de entrenamiento – testeo, con ventaneo de 60 pixeles de lado, 60 muestras por clase en el entrenamiento y clasificación con barrido de ventana de 20 pixeles, paso de a tres pixeles en la clasificación, para un dataset normalizado en brillo. El objetivo de este tipo de análisis es fundamentalmente evidenciar la influencia de cada una de las variables consideradas desde el punto de vista de una tarea de clasificación. En los diferentes ensayos se observó que al suprimir el desvío del histograma de los patrones de entrenamiento y testeo de la red neuronal, la performance global resultó en valores similares a los obtenidos al no suprimir ninguna entrada. Al suprimir otras variables como la entropía del histograma, firma espectral (Espectro) del histograma o firma espectral de las imágenes con procesamiento de detección de borde (Esp. Borde), la tasa de aciertos globales decreció, resultando afectada en mayor medida por esta última variable, lo que indica que la firma espectral de las imágenes procesadas con filtro de detección de bordes es un indicador muy fuerte asociado a la clasificación. Al analizar la performance comparativa para la clasificación de la clase caña en pie (CP) se observa que al suprimir el desvío del histograma, 23
  • 25. Nº 28 - enero - junio / 2013 y en menor medida la entropía, la tasa de aciertos crece, incluso por encima de los valores obtenidos al no suprimir ninguna entrada. En consecuencia se puede inferir que estas dos variables no están aportando información útil para la clasificación de caña en pie, pero además intervendrían negativamente aportando ruido, lo que baja la performance de la red para esta clase en particular. Los errores globales (Tabla 1) ante la supresión de un indicador de entrada de la red crecen al suprimir la firma espectral de las imágenes con detección de borde (Esp. Borde) y en menor medida al suprimir la entropía. Esto refleja una asociación positiva de dichos indicadores con la performance de la clasificación. Diferente es el caso de suprimir el desvío o firma espectral, cuando se evidencia disminución de la tasa de error global, aunque muy levemente en el último caso. Tabla 1. Valores promedio de errores globales al suprimir un indicador en la red Entrada Suprimida Desvío estándar Entropía Firma espectral detección borde Firma espectral Ninguna Errores totales (valores porcentuales promedio) 3,02 8,12 9,63 4,66 5,54 Análisis comparativos de supresión de entrada realizados preliminarmente para el testeo del algoritmo, arrojan las mismas conclusiones, las que se confirman al analizar un dataset normalizado en brillo y evaluando 200 ciclos de entrenamiento y testeo. En la tabla 2 la columna Total refleja el porcentaje global de falsos positivos a la clase CP, el cual resulta de promediar la ponderación de los porcentajes de falsos positivos de cada clase con la cantidad de muestras de dicha clase. Se observa que el error alcanza los valores más altos al suprimir la firma espectral con detección de borde, mientras que la variable que menor efecto presenta es el desvío estándar. Tabla 2. Valores porcentuales promedio de falsos positivos a CP por clase al suprimir un indicador en la red Análisis de errores promedio por clase Ent. Suprimida: CCA CCF CCP Desvío estándar 2,66 6,07 2,07 Entropía 11,24 12,02 6,15 Firma espectral detección borde 10,73 16,71 8,34 Firma espectral 4,95 6,59 3,39 Ninguna 6,59 9,93 4,39 24 C 2,54 7,07 5,15 5,59 3,85 Total 3,02 8,12 9,63 4,66 5,54
  • 26. Universidad de Manizales Facultad de Ciencias e Ingeniería 3.2 Análisis de la influencia de las entradas individuales en el clasificador Suprimiendo una de las doce variables de entrada a la vez (indicador evaluado para cada uno de los canales, tabla 3), se realizó un testeo del clasificador con 64 ciclos de entrenamiento-testeo, con ventaneo de 60 pixeles de lado, 60 muestras por clase en el entrenamiento y clasificación con barrido de ventana de 20 pixeles, pasó de a 3 pixeles en la clasificación. El análisis de falsos positivos hacia la clase CP que se ha realizado resulta primordial, ya que una mayor tasa de aciertos en la clasificación de una clase no necesariamente está asociada a una mejor performance de funcionamiento de la red. Como ejemplo, es válido considerar la anulación de la entrada N°4 que a primera vista prometió excelentes resultados en cuanto a aciertos, ya que produjo la mayor tasa de aciertos para CP. Sin embargo, esa anulación también incrementó considerablemente el porcentaje de falsos positivos, lo que indica que la red estaría sobreestimando la cantidad de caña en pie e incrementando su error de clasificación para la clase de interés. Resulta entonces fundamental analizar los resultados de aciertos y errores para evitar llegar a falsas conclusiones (figura 4). Tabla 3. Numeración de las variables de entrada utilizadas por canal N° 1 2 3 4 5 6 7 8 9 10 11 12 13 Variable de entrada Firma Espectral Firma Espectral Firma Espectral Firma Espectral con Detección de Borde Firma Espectral con Detección de Borde Firma Espectral con Detección de Borde Entropía Histograma Entropía Histograma Entropía Histograma Desvío Estándar del Histograma Desvío Estándar del Histograma Desvío Estándar del Histograma Ninguna entrada anulada Canal 0 1 2 0 1 2 0 1 2 0 1 2 Se observa que al suprimir las entradas 10, 11 y 12 no se incrementa sensiblemente el número de falsos positivos para la clase CP, confirmando lo mencionado sobre la disminución de falsos positivos para CP en relación a no suprimir ninguna entrada. 25
  • 27. Nº 28 - enero - junio / 2013 Figura 4. Falsos positivos de CP al suprimir una entrada 3.3 Cuantificación de clases en las imágenes De la segmentación realizada con supresión del indicador desvío, se obtienen estadísticas por clase en porcentajes de superficie del cuadro productivo y su distribución espacial (figura 5). A modo de ejemplo, en la figura 5 a, se muestra la segmentación de regiones dentro de un cuadro productivo y su cuantificación espacial (figura 5 b.) resaltándose en gris oscuro el área de interés para cosecha (Caña en pie). La extensión del mismo es de 50,1 hectáreas, de las cuales la segmentación de regiones identifica que 45,5 hectáreas son de caña en pie y el resto de CC. Esta información resumida del cuadro productivo obtenida a partir de la imagen permitirá realizar una estimación más precisa de costos de la cosecha y del posterior proceso de industrialización. Figura 5. Segmentación de regiones dentro de un cuadro productivo para la planificación de la cosecha de caña. (a- Imagen aérea original, b-Imagen segmentada por clase) 26
  • 28. Universidad de Manizales Facultad de Ciencias e Ingeniería 4. Conclusiones El trabajo interdisciplinario entre profesionales de diferentes áreas, ha posibilitado un abordaje innovador hacia el problema de la cuantificación de CC proponiendo nuevas herramientas tecnológicas para resolverlo. Se confeccionó un dataset de referencia y una base de datos para el estudio del cultivo de la caña de azúcar en sus diferentes estados, a partir del cual el software creado pudo brindar información sobre la robustez de los indicadores propuestos y realizar una estimación de la superficie de caña de azúcar caída, brindando valores numéricos y su distribución espacial en la forma de imagen segmentada, con un margen de error acotado. En cuanto a las variables descriptoras del problema se observó que, a excepción del desvío estándar del histograma y el NDVI, los indicadores propuestos resultan satisfactorios para la clasificación de caña caída vs caña en pie, en este contexto de aplicación. Si bien no se logró diferenciar a través de patrones de textura las diferencias entre los distintos tipos de CC, la clasificación de caña caída vs caña en pie permite realizar una cuantificación de las mismas la cual ya permite planificar las tareas de cosecha. El clasificador de referencia fue utilizado principalmente para explorar distintas indicadores de textura y ponderar su importancia relativa en relación a la detección planteada. A partir de los indicadores obtenidos en este trabajo se proyecta como trabajo futuro la comparación y/o combinación con otros clasificadores y la evaluación de nuevos abordajes para la diferenciación entre los distintos tipos de cañas caídas. 27
  • 29. Nº 28 - enero - junio / 2013 5. Referencias bibliográficas ANDERSON, D.L.; PORTIER, K.M.; OBREZA, T.A.; COLLINS, M.E & PITTS, D.J. (1999). Tree regression analysis to determine effects of soil variability on sugarcane yields. In: Soil Science Society of America Journal, Vol. 63, No. 3, Madison (WI, USA), Soil Science Society of America, p. 592–600, ISSN: 0361-5995. FLOWERS, M.W.R.; HEINIGER, R.; TARLETON, B. & MEIJER, A. (2003). Field Validation of a Remote Sensing Technique for Early Nitrogen Application Decisions in Wheat. In: Agronomy Journal, Vol. 95, No. 1. Madison (WI, USA): American Society of Agronomy, p 167–176. ISSN: 0002-1962. FREI, W. & CHEN, C. (1977). Fast boundary detection: a generalization and a new algorithm. En: IEEE Transactions on computers, Vol C-26, No.10 (Oct.). Washington DC (USA): IEEE Computer Society. p. 988-998. ISSN: 0018-9340. Iscan, Z.; YÜKSEL, A.; Dokur, Z.; Korürek, M. & Ölmez, T. (2009). Medical image segmentation with transform and moment based features and incremental supervised neural network [online]. Digital Signal Processing, Vol. 19, No. 5 (Sep.). Philidelphia (PA, USA): Elsevier Inc. p. 890–901 <http://www.sciencedirect.com/science/article/pii/S1051200409000086> [consult: 12/05/2013] KEMERER, A., MELCHIORI A.; ALBARENQUE, S. & MELCHIORI, R. (2010). Utilización de fotografías aéreas multiespectrales para caracterizar la variabilidad espacial en la producción de caña de azúcar. En: 9º Curso de Agricultura de Precisión y 4ª Expo de Máquinas Precisas (14-16/07/2010), Manfredi (Córdoba, Argentina): INTA - EEA Manfredi. Material del 9º Curso de Agricultura de Precisión, p. 177-182. Kobashi, s.; Kamiura, n.; Hata, y. & Miyawaki. F. (2001). Volume-quantization-based neural network approach to 3D MR angiography image segmentation. In: Image and Vision Computing, Vol. 19, No. 4 (Mar.). Philadelphia (PA, USA): Elsevier Inc. p. 185–193. ISSN: 0262-8856 LARRAHONDO, J.E. (1995). Calidad en la Caña de Azúcar. En: Cenicaña. El cultivo de la caña en la zona azucarera de Colombia, Cali, CENICAÑA. p. 337-354. <http://www.cenicana.org/pdf/ documentos_no_seriados/libro_el_cultivo_cana/libro_p337-354.pdf> [consulta: 15/04/2013] Ma, L. & Staunton, R.C. (2005). Integration of multiresolution image segmentation and neural networks for object depth recovery. In: Pattern Recognition, Vol. 38, No. 7 (Jul.). Philadelphia (PA, USA): Elsevier Inc. p. 985 – 996. ISSN: 0031-3203. MELCHIORI, R.J.M.; CAVIGLIA, O.P.; BIANCHINI, A.A.; FACCENDINI, N.; ALBARENQUE, S. & RAUN W. (2006). Wheat Yield Prediction by Using an Active Sensor in the Northern Argentinean Pampas. In: ASA-CSSA-SSSA Annual meeting (12-16/11/2006), Indianapolis (Indiana, USA): American Society of Agronomy, ASA - Crop Science Society of America, CSSA - Soil Science Society of America, SSSA. Proceedings of ASA-CSSA-SSSA Annual Meeting 2006. Madison (WI, USA): ASA-CSSA-SSSA. MELCHIORI, A.; KEMERER, A. & MELCHIORI, R. Y BELLOMO, M. (2009). Utilización de fotografías aéreas multiespectrales de alta resolución para la cuantificación de caña de azúcar caída. En: I Congreso Argentino de Agroinformática (24-25/08/2009), Mar del Plata (Argentina): Sociedad Argentina de Informática y el Instituto Nacional de Tecnología Agropecuaria, INTA. Middleton, I. & Damper, R. I. (2004). Segmentation of magnetic resonance images using a combination of neural networks and active contour models. In: Medical Engineering & Physics, Vol. 26, No. 1 (Jan.). Philadelphia (PA, USA): Elsevier Inc. p. 71–86. ISSN: 1350-4533. PÉREZ, D.; FANDOS, C.; MAZZONE, L.; SORIA, F.; SCANDALIARIS, P. & SCANDALIARIS, J. (2005). Caña de azúcar en Tucumán y Argentina: evolución de algunos aspectos económicos y productivos en la campaña 2004 [en línea]. Reporte agroindustrial. Estadísticas y márgenes de cultivos tucumanos. Vol. 2, Boletín Nº 6, (ene.). Tucumán (Argentina): Estación Experimental Agroindustrial Obispo Colombres, EEAOC. p 1-6. <http://www.eeaoc.org.ar/upload/publicaciones/archivos/189/20120316170830000000.pdf> [consulta: 02/04/2013] QI, J.; CHEHBOUNI, A.; HUETE, A.; FERRY, Y. & SOROOSHIAN, S. (1994). A modified soil adjusted vegetation index, Remote Sensing of Environment, Vol. 48, No. 2 (May.). Philadelphia (PA, USA): Elsevier Inc. p. 119-126, ISSN: 0034-4257. <http://www.sciencedirect.com/science/ article/pii/0034425794901341> [consult: 01/04/2013] 28
  • 30. Universidad de Manizales Facultad de Ciencias e Ingeniería RAUN, W.R.; SOLIE, J.B.; STONE, M.L.; MARTIN, K.L.;FREEMAN, K.W.; MULLEN, R.W.; ZHANG, H.; CHEPERS, J.S. & JOHNSON, G.V. (2005). Optical Sensor-Based Algorithm for Crop Nitrogen Fertilization [online].In: Communications in Soil Science and Plant Analysis, Vol. 36, No. 19-20. Johannesburg (South Africa): Taylor & Francis, Inc. p. 2759-2781. ISSN: 0010-3624, EISSN: 1532-2416. <http://www.nue.okstate.edu/Index_Publications/NFOA_2003. pdf> [consult: 02/04/2013] RODRÍGUEZ, R.A.; SOPENA, R.A.; SALEME, P.M. & VICINI, L.E. (2010). Pérdidas durante la Cosecha del Cultivo de Caña de Azúcar: Evaluaciones 2009 en la Provincia de Tucumán – Argentina. En: Informes Técnicos del proyecto Precop, No. 1. Famaillá (Tucumán, Argentina): INTA EEA Famaillá, No. 1, 18 p. ISSN: 1852-9399. ROUSE, J. W.; Jr.; HAAS, R. H.; SCHELL, J. A. & DEERING, D. W. (1973). Monitoring vegetation systems in the great plains with ERTS. In: Third ERTS Symposium (10-14/12/1973), Washington D.C. (USA): NASA. Proceedings of Third ERTS Symposium Vol. 1., p. 309-317. RONDEAUX, G.; STEVEN, M. & BARET, F. (1996). Optimization of soil-adjusted vegetation indices. In: Remote Sensing of Environment, Vol. 55, No. 2 (feb.). Philadelphia (PA, USA): Elsevier Inc. p. 95-107. ISSN: 0034-4257. RUSSEL, B.C.; TORRALBA, A.; MURPHY, K. P. & FREEMAN, W.T. (2008). LabelMe: a database and web-based tool for image annotation. In: International Journal of Computer Vision, Vol. 77, No. 1-3 (may.). New York (USA): Springer US. p. 157-173, ISSN: 0920-5691. SUSTAITA, G. (2005). Modelo estratégico para la industria azucarera regional. Tesis Final MBA, San Miguel deTucumán (Tucumán, Argentina): Universidad Católica del Norte Santo Tomás de Aquino, Fundación del Tucumán y Pontificia Universidad Católica de Valparaíso. TONATTO, J.; ROMERO, E.R.; LEGGIO NEME, M.F.; SCANDALIARIS, J.; ALONSO, J.; DIGONZELLI, P.; ALONSO, L. & CASEN, S. (2005). Importancia de la calidad de la materia prima en la productividad de la agroindustria azucarera. En: Gacetilla Agroindustrial de la EEAOC, No. 67, Tucumán (Argentina): EEAOC. 13 p. TORIBIO, P.; RODRÍGUEZ, B.G. & ALEJO, R. (2009). Complejidad de los datos en las Redes Neuronales Artificiales: Estado de la cuestión. En: 7° Congreso Internacional de Cómputo en Optimización y Software, CICOS 2009 (17-20/11/2009), México (México): UAEM. CRUZCHÁVEZ, M.A. & ZAVALA-DÍAZ, J.C. (eds.). Memorias del 7mo. Congreso de Cómputo CICOS 2009. ISBN(e) 978-607-00-1970-8, México (México): UAEM. p. 229-235. <http://campusv.uaem.mx/ cicos/imagenes/memorias/7mocicos2009/Articulos/24%20%20Complejidad%20de%20los%20 Datos%20en%20Redes.pdf> [consulta: 02/04/2013] VICCINI, L. (2007). Determinación de la variación de rendimiento cultural de caña de azúcar en Tucumán, Argentina, posicionada con GPS. En: Actualización Técnica Nº 8 (jun.). Manfredi (Córdoba, Argentina): Proyecto Nacional Agricultura de Precisión, INTA, 18 p. Wang, A.; ZINEDDIN, B.; LIANG, J.; ZENG, N.; LI, Y.; DU, M.; CAO, J. & LIU,, X. (2013). A novel neural network approach to cDNA microarray image segmentation [online]. In: Computer Methods and Programs in Biomedicine, Vol. 111, No. 1 (Jul.). Philidelphia (PA, USA): Elsevier Inc. p. 189–198 <http://www.sciencedirect.com/science/article/pii/S016926071300103X> [consult: 18/05/2013] 29
  • 31. Nº 28 - enero - junio / 2013 30
  • 32. Universidad de Manizales Facultad de Ciencias e Ingeniería Aplicación de la minería de datos en la extracción de perfiles de deserción estudiantil*1 [Application of data mining in extracting student dropout profiles] Ricardo TIMARÁN PEREIRA2 - Andrés CALDERÓN ROMERO3 Javier JIMÉNEZ TOLEDO4 Recibo: 20.02.2013 - Aprobación: 16.06.2013 Resumen En este artículo se presentan los primeros resultados del proyecto de investigación cuyo objetivo es detectar patrones de deserción estudiantil a partir de los datos socioeconómicos, académicos, disciplinares e institucionales de los estudiantes de los programas de pregrado de la Universidad de Nariño e Institución Universitaria IUCESMAG, dos instituciones de educación superior de la ciudad de Pasto (Colombia), utilizando técnicas de Minería de Datos. Los resultados obtenidos corresponden a la Universidad de Nariño. Se descubrieron perfiles socioeconómicos y académicos de los * 1 2 3 4 Modelo para citación de este artículo: TIMARÁN PEREIRA, Ricardo; CALDERÓN ROMERO, Andrés & JIMÉNEZ TOLEDO, Javier (2013). Aplicación de la minería de datos en la extracción de perfiles de deserción estudiantil. En: Ventana Informática. No. 28 (ene.-jun.). Manizales (Colombia): Facultad de Ciencias e Ingeniería, Universidad de Manizales. p. 31-47. ISSN: 0123-9678 Artículo de investigación científica y tecnológica proveniente del proyecto Detección de perfiles de deserción estudiantil con técnicas de minería de datos en los programas de pregrado de la Universidad de Nariño e Institución Universitaria CESMAG, ejecutado en el periodo 10/2012-04/2013, e inscrito en los grupos de investigación GRIAS de la Universidad de Nariño y Tecnofilia de la IUCESMAG. PhD. en Ingeniería, MSc. en Ingeniería, Especialista en Multimedia e Ingeniero de Sistemas y Computación. Director grupo de investigación GRIAS, Profesor Asociado, Departamento de Sistemas, Facultad de Ingeniería, Universidad de Nariño, Pasto (Colombia). Correo electrónico: ritimar@ udenar.edu.co MSc. en Geoinformática, Ingeniero de Sistemas. Profesor hora cátedra, Departamento de Sistemas, Facultad de Ingeniería, Universidad de Nariño, Pasto (Colombia). Correo electrónico: aocalderon@udenar.edu.co Especialista en Docencia Universitaria, Ingeniero de Sistema. Profesor tiempo completo, Facultad de Ingeniería, Institución Universitaria CESMAG, Pasto (Colombia). Correo electrónico: jajimenez@iucesmag.edu.co Nº 28 - Universidad de Manizales, enero-junio/2013 - pp 31-47 31
  • 33. Nº 28 - enero - junio / 2013 estudiantes que desertan utilizando la técnica de clasificación basada en árboles de decisión. El conocimiento generado permitirá soportar la toma de decisiones eficaces de las directivas universitarias enfocadas a formular políticas y estrategias relacionadas con los programas de retención estudiantil que actualmente se encuentran establecidos. Palabras clave: Extracción de Perfiles, Deserción Estudiantil, Minería de Datos, Clasificación, Árboles de Decisión Abstract The first results of the research project that aims to identify patterns of student dropout from socioeconomic, academic, disciplinary and institutional data of students from undergraduate programs at the University of Nariño and IUCESMAG University, two higher education institutions in the city of Pasto (Colombia), using data mining techniques are presented. The results correspond to the University of Nariño. Socioeconomic and academic profiles were discovered of students who drop using classification technique based on decision trees. The knowledge generated will support effective decision-making of university staff focused to develop policies and strategies related to student retention programs that are currently set. Keywords: Extraction of Profiles, Student Dropout, Data Mining, Classification, Decision Trees Introducción Los países de América Latina enfrentan desafíos similares en la educación superior, los cuales constituyen el contexto de la deserción estudiantil: financiación, incremento de la cobertura, aseguramiento de la calidad, mejoramiento de la equidad en el acceso y permanencia, mayor articulación con la educación secundaria, diversificación de la oferta para atender distintas dimensiones, intereses y necesidades (ciencia, tecnología, sector productivo, investigación, humanidades, artes, formación integral) y mayor vinculación con el sector laboral y productivo. Según el Instituto para la Educación Superior en América Latina y el Caribe (IESALC), citado por MEN (2006a, 14), Latinoamérica presentó en el año 2003 una cobertura promedio en educación superior del 28.7% y una tasa de deserción estudiantil del 50%. En Colombia, el sistema educativo cuenta con 277 instituciones de educación superior, de las cuales 81 son públicas y 196 privadas. De 32
  • 34. Universidad de Manizales Facultad de Ciencias e Ingeniería acuerdo al Sistema Nacional de Información de la Educación Superior (SNIES), citado por MEN (2006a, 14), a 2006 la cobertura fue de 26.1%, lo cual equivale a 1.301.728 estudiantes. Uno de los principales problemas que enfrenta el sistema de educación superior colombiano concierne a los altos niveles de deserción estudiantil. Pese a que los últimos años, según MEN (2009, 13), se han caracterizado por aumentos de cobertura e ingreso de estudiantes nuevos, el número de alumnos que logra culminar sus estudios superiores no es alto, dejando entrever que una gran parte de éstos abandona sus estudios, principalmente en los primeros semestres, ya que de cada cien estudiantes que ingresan a una institución de educación superior cerca de la mitad no logra culminar su ciclo académico y obtener la graduación. Adicionalmente, MEN (2006a, 14) plantea que a 2004, la deserción se estimó en 49%, cuyas causas fueron: limitaciones económicas y financieras, bajo rendimiento académico, desorientación vocacional y profesional y dificultades para adaptarse al ambiente universitario. Es de resaltar que, señala MEN (2006b, 1), la deserción estudiantil conlleva altos costos sociales y económicos que afectan a las familias, los estudiantes, las instituciones y el Estado. Se entiende por deserción estudiantil, de acuerdo con UPN (2005), al hecho de que un número de estudiantes matriculados no siga la trayectoria normal del programa académico, bien sea por retirarse de ella, por repetir cursos o por retiros temporales. MEN (2009), la define como una situación a la que se enfrenta un estudiante cuando aspira y no logra concluir su proyecto educativo, considerándose como desertor a aquel individuo que siendo estudiante de una institución de educación superior no presenta actividad académica durante dos semestres académicos consecutivos, lo cual equivale a un año de inactividad académica. Esta definición es el que se aplicó en esta investigación. La minería de datos en la educación no es un tópico nuevo y su estudio y aplicación ha sido muy relevante en los últimos años. El uso de estas técnicas permite, entre otras cosas, predecir cualquier fenómeno dentro del ámbito educativo. De esta forma, utilizando las técnicas que ofrece la minería de datos, se puede predecir, con un porcentaje muy alto de confiabilidad, la probabilidad de desertar de cualquier estudiante, coinciden Valero (2009) y Valero, Salvador & García (2010). En el entorno internacional se han desarrollado algunos proyectos de investigación aplicando la minería de datos al descubrimiento de patrones de deserción estudiantil: - Tal como lo señalan Pautsch (2009, 58) y Pautsch, La Red & Cutro (2010), en la Universidad Nacional de Misiones (Argentina) se realizó 33
  • 35. Nº 28 - enero - junio / 2013 una investigación sobre deserción estudiantil utilizando las técnicas de minería de datos. Su objetivo principal fue maximizar la calidad que los modelos tienen para clasificar y agrupar a los estudiantes, de acuerdo a sus características académicas, factores sociales y demográficos, que han desertado de la Carrera Analista en Sistemas de Computación de la Facultad de Ciencias Exactas, Químicas y Naturales analizando los datos de las cohortes entre los años 2000 al 2006. - De igual manera, según La Red et al. (2010), en la Universidad Nacional del Nordeste (Argentina) se realizó un estudio cuyo objetivo principal fue aplicar técnicas de almacenes de datos y minería de datos basadas en clustering para la búsqueda de perfiles de los alumnos de la asignatura Sistemas Operativos de la Licenciatura en Sistemas de Información según su rendimiento académico, situación demográfica y socioeconómica, que permita conocer a priori situaciones potenciales de éxito o de fracaso académico. - En la Universidad Nacional de la Matanza (Argentina), señalan Spositto et al., (2010), se aplicaron técnicas de minería de datos para evaluar el rendimiento académico y la deserción de los estudiantes del Departamento de Ingeniería e Investigaciones Tecnológicas sobre los datos de los alumnos del periodo 2003 al 2008. La implementación de este proceso se realizó con el software MS SQL Server para la generación de un almacén de datos, el software SPSS para realizar un preprocesamiento de los datos y el software Weka (Waikato Environment for Knowledge Analysis) para encontrar un clasificador del rendimiento académico y para detectar los patrones determinantes de la deserción estudiantil. - Valero, (2009) y Valero, Salvador & García, (2010), señalan que en la Universidad Tecnológica de Izúcar de Matamoros (México) se propuso una investigación para identificar las causas que motivan la deserción de sus estudiantes desde que ingresan. Mediante la técnica de minería de datos clasificación y la herramienta Weka, encontraron relaciones entre atributos académicos que identifican y predicen la probabilidad de deserción y propusieron una herramienta para el tutor que le permite predecir la probabilidad de deserción de cualquier alumno en cualquier momento de su estancia escolar. En el ámbito colombiano, de acuerdo con Restrepo & López (2008), en la Universidad de La Sabana se realizó un proyecto de investigación donde el objetivo era seleccionar, de una base de datos de estudiantes, los atributos que tuvieran mayor incidencia en la deserción de la Universidad en los últimos cuatro años, con la técnica de minería de datos clasificación por Rough Sets utilizando el paquete ROSE2. De igual manera, Pinzón (2011) presenta la caracterización del perfil 34
  • 36. Universidad de Manizales Facultad de Ciencias e Ingeniería del estudiante desertor de la Escuela de Marketing y Publicidad de la Universidad Sergio Arboleda, utilizando la técnica de minería de datos agrupamiento con el algoritmo K-means. Se analizaron las variables demográficas del alumno obtenidas en el registro de última matrícula del mismo semestre de abandono y las causas que lo generaron. Como resultado final, se obtuvieron tres tipos de clúster que para el caso de la investigación, constituyeron perfiles significativos. En este artículo se presentan los primeros resultados del proyecto de investigación cuyo objetivo es detectar patrones de deserción estudiantil a partir de los datos socioeconómicos, académicos, disciplinares e institucionales de los estudiantes de los programas de pregrado de dos instituciones colombianas de educación superior, utilizando técnicas de Minería de Datos. Se descubrieron perfiles socioeconómicos y académicos de los estudiantes que desertan utilizando la técnica de clasificación basada en árboles de decisión con la herramienta Weka, una de las suites más utilizadas en el área de descubrimiento de conocimiento en los últimos años (García, s.f.). El conocimiento generado permitirá soportar la toma de decisiones eficaces de las directivas universitarias enfocadas a formular políticas y estrategias relacionadas con los programas de retención estudiantil que actualmente se encuentran establecidos. El resto del artículo se organiza de la siguiente manera. En la sección 1, se presenta los conceptos básicos del proceso de descubrimiento de conocimiento en bases de datos. En la sección 2, se describe la metodología utilizada en la investigación. En la sección 3, se presentan los resultados de la fase de minería de datos y la discusión de resultados y finalmente, en la última sección se presenta las conclusiones y trabajos futuros. 1. Fundamento teórico 1.1 Proceso de descubrimiento de conocimiento en bases de datos El proceso de extraer conocimiento a partir de grandes volúmenes de datos ha sido reconocido por muchos investigadores como un tópico de investigación clave en los sistemas de bases de datos, y por muchas compañías industriales como una importante área y una oportunidad para obtener mayores ganancias. Fayyad, Piatetsky-Shapiro & Smyth (1996) lo definen como «El proceso no trivial de identificación de patrones válidos, novedosos, potencialmente útiles y fundamentalmente entendibles al usuario a partir de los datos». 35
  • 37. Nº 28 - enero - junio / 2013 El Descubrir de Conocimiento en Bases de Datos (DCBD) es básicamente un proceso automático en el que se combinan descubrimiento y análisis. El proceso, de acuerdo con Agrawal & Srikant (1994), Chen, Han & Yu (1996) y Han & Kamber (2001), consiste en extraer patrones en forma de reglas o funciones, a partir de los datos, para que el usuario los analice, tarea que implica generalmente preprocesar los datos, hacer minería de datos (data mining) y presentar resultados. El proceso DCBD es interactivo e iterativo, involucra numerosos pasos con la intervención del usuario en la toma de muchas decisiones y se resumen en cinco etapas: Selección de datos, preprocesamiento, transformación de datos, minería de datos (data mining) e interpretación. En la figura 1 se muestran estas etapas. Figura 1. Etapas del proceso de descubrimiento de conocimiento en bases de datos 1.2 Etapa de minería de datos La minería de datos es la etapa más importante del proceso DCBD, cuyo objetivo es la búsqueda, extracción y descubrimiento de patrones insospechados y de interés. La minería de datos consta de diferentes tareas, cada una de las cuales puede considerarse como un tipo de problema a ser resuelto por un algoritmo de minería de datos, afirman Adamo (2001) y Hernández, Ramírez & Ferri (2005), donde la tarea de clasificación por árboles de decisión es una de ellas. La clasificación por árboles de decisión es, probablemente, el modelo más utilizado y popular por su simplicidad y facilidad para su entendimiento, de acuerdo con Han & Kamber (2001) y Sattler & Dunemann 36
  • 38. Universidad de Manizales Facultad de Ciencias e Ingeniería (2001). El conocimiento obtenido en el proceso de aprendizaje, según Wang, Iyer & Scott (1998), se representa mediante un árbol en el cual cada nodo interior contiene una pregunta sobre un atributo concreto (con un hijo por cada posible respuesta) y cada hoja del árbol se refiere a una decisión (una clasificación). Durante la etapa de construcción del árbol, en forma recursiva, cada conjunto de datos se divide en subconjuntos de acuerdo a un criterio de particionamiento, con el fin de escoger el atributo que mejor separe los ejemplos restantes en clases individuales. Seleccionar el mejor punto de particionamiento, consideran Sattler & Dunemann (2001), es la parte de la construcción del árbol que mayor tiempo consume. 2. Metodología Teniendo en cuenta las etapas del proceso DCBD, inicialmente se seleccionaron, de las bases de datos de la Universidad de Nariño los datos socio-económicos, académicos, disciplinares e institucionales de los estudiantes que ingresaron en los años 2004, 2005 y 2006 a los diferentes programas de pregrado, con el fin de hacerles un seguimiento completo hasta el año 2011, determinando si desertaron o no. Con estos datos se construyó un repositorio de datos utilizando el SGBD PostgreSQL. A estos datos se les aplicó las etapas de preprocesamiento y transformación con el fin de obtener conjuntos de datos limpios y listos para aplicarles las técnicas y los algoritmos de minería de datos. Los primeros resultados se obtuvieron utilizando la técnica de clasificación basada en árboles de decisión con la herramienta libre de minería de datos Weka. Finalmente, estos resultados fueron analizados, evaluados e interpretados para determinar la validez del conocimiento obtenido. 2.1 Etapa de selección de datos El objetivo de esta etapa es obtener las fuentes internas y externas de datos que sirven de base para el proceso de minería de datos. Como fuentes internas, se seleccionaron las bases de datos de Admisiones y Registro Académico. Teniendo en cuenta la ventana de observación de este estudio (2004-2011), en estas bases de datos se encuentra almacenada la información personal y académica de 15.805 estudiantes. Como fuentes externas principales se seleccionaron datos de la base de datos del Instituto Colombiano para el Fomento de la Educación Superior (ICFES), del Departamento Administrativo Nacional de Estadística (DANE), del Sistema para la Prevención de la Deserción en la 37
  • 39. Nº 28 - enero - junio / 2013 Educación Superior (SPADIES), del Sistema de Identificación de Beneficiarios Potenciales de Programas Sociales (SISBEN) e información de la Registraduría Nacional del Estado Civil Colombiano. De los 15.805 registros se seleccionaron únicamente los datos de los estudiantes de las cohortes 2004, 2005 y 2006 con los atributos más relevantes para este estudio. Como resultado se obtuvieron 6870 registros y 62 atributos correspondientes a información socioeconómica, académica, disciplinar e institucional. Estos datos fueron almacenados en una base de datos construida con el sistema gestor de base de datos PostgreSQL, en la tabla TA62. Esta tabla servirá de base para las subsiguientes etapas del proceso de descubrimiento de patrones de deserción estudiantil. 2.2 Etapa de preprocesamiento de datos El objetivo de esta etapa es obtener datos limpios, i.e. datos sin valores nulos o anómalos, que permitan obtener patrones de calidad. Por medio de consultas SQL ad-hoc o a través de histogramas, se analizó minuciosamente la calidad de los datos contenidos en cada uno de los atributos de la tabla TA62. Teniendo en cuenta la relevancia de ciertos atributos para la investigación, los valores nulos de estos atributos fueron actualizados con los valores encontrados en fuentes externas. Por otra parte, los atributos con un alto porcentaje de valores nulos tales como libreta-militar (82.45%), distritomilitar (84.82%), idmunicipio-conflicto (89.57%), periodo-grado (89.50%), padre-vive (99.47%), madre-vive (99.58%), descripción-laboral (99.75%) entre otros, fueron eliminados por la imposibilidad de obtener estos valores con las fuentes externas o utilizando técnicas estadísticas como la media, mediana y la moda o derivando sus valores a través de otros. 2.3 Etapa de transformación de datos El objetivo de esta fase es transformar la fuente de datos en un conjunto listo para aplicar las diferentes técnicas de minería de datos. Con el fin de generar conocimiento acerca de los factores socioeconómicos, académicos, disciplinares e institucionales que pueden incidir en la deserción estudiantil, se seleccionaron de la tabla TA62, los 31 atributos más representativos y con estos se creó la tabla TA31. De estos 31 atributos, se escogieron 18 para analizar el factor socioeconómico y 15 para el factor académico y se crearon las tablas TA18 y TA15 respectivamente. Dado el reducido número de atributos seleccionados para los factores disciplinar e institucional, estos se agregaron a la parte académica del estudiante. Para facilitar la extracción de patrones, se discretizaron los valores numéricos de la tabla TA31 a valores nominales. Este proceso se llevó a cabo utilizando el filtro discretize de la herramienta Weka con el pará38
  • 40. Universidad de Manizales Facultad de Ciencias e Ingeniería metro de frecuencias iguales (useEqualFrequency) a 6 valores. Por otra parte se adecuo la tabla TA31 al formato ARFF (Atribute Relation File Format) requerido por Weka para continuar con la etapa de minería de datos. En la tabla 1 se muestran los atributos de la tabla TA31 con los diferentes valores discretizados en formato ARFF. De acuerdo a esta tabla, los primeros 17 atributos y el atributo 31 de TA31 forman la tabla TA18 y corresponden a los atributos socioeconómicos. Los atributos del 17 al 31 de la tabla TA31 corresponden a los atributos académicos y estructuran la tabla TA15. 2.4 Etapa de minería de datos El objetivo de la etapa de minería de datos es la búsqueda y descubrimiento de patrones insospechados y de interés aplicando tareas de descubrimiento tales como clasificación, clustering, patrones secuenciales, asociaciones entre otras. La tarea de minería de datos escogida para el proceso de descubrimiento de patrones de deserción estudiantil en la Universidad de Nariño fue clasificación, teniendo en cuenta que con los valores del atributo clase deserción se puede construir un modelo de clasificación que determine las características de las estudiantes que desertan o no. Las reglas de clasificación se obtuvieron con la herramienta Weka utilizando el algoritmo J48 que implementa el conocido algoritmo de árboles de decisión C4.5 (Quinlan, 1993, 81). Se utilizó el repositorio TA31 para obtener las reglas de clasificación generales que caracterizan a los estudiantes que desertan. Se escogió como clase, el atributo deserción. En la figura 2 se muestra el árbol de decisión generado por Weka. De igual manera, se utilizaron los conjuntos de datos TA18 y TA15 para determinar, respectivamente, los factores socioeconómicos y académicos que inciden en la deserción estudiantil. Las reglas de clasificación más relevantes se muestran en la sección de resultados. Figura 2. Árbol de decisión para reglas de clasificación generales a partir de TA31 39
  • 41. Formato arff atributo 40 @attribute @attribute @attribute @attribute @attribute @attribute @attribute @attribute No. 1 2 3 4 5 6 7 8 19 20 Zona_nacimiento {sur, CAPITAL,putumayo,norte,’otras regiones’,’centro occidente’,costa,centro} Zona_procedencia { CAPITAL,norte,sur,’centro occidente’,c entro,costa,putumayo,’otras regiones’} 23 24 Ocupacion_padre {varios,’oficiales, operarios, artesanos,industria manufacturera, construccion y mineria’,’sin ocupacion’,hogar,’profesionales universitarios, cientificos e intelectuales’,pensionados, etc. 22 Padre {n,s} Estrato {0,1,2,3,4,5,6,99} 21 18 Estado_civil {soltero,casado,separado,’unión libre’,’madre soltera’,viudo,religioso} Regimen_salud {contributivo,subsidiado} 17 No. Genero {m,f} Atributos y valores @attribute @attribute @attribute @attribute @attribute @attribute @attribute @attribute Formato arff atributo Atributos y valores Facultad {‘ciencias exactas y naturales’,’ciencias humanas’,’ciencias agricolas’,’ciencias económicas y administrativas’,’ciencias de la salud’,ingeniería,’ciencias pe cuarias’,educación,artes,’ingenieria agroindustrial’} Extension { CAPITAL,tumaco,tuquerres,ipiales,samaniego, buesaco,’la union’,ricaurte} Icfes_total {‘mayor a 475’,’de 420 a 450’,’de 450 a 475’,’de 400 a 420’,’de 375 a 400’,’menor a 375’} Icfes_promedio {‘de 53 a 56’,’de 48 a 50’,’de 46 a 48’,’de 50 a 53’,’menor a 46’,’mayor a 56’} Icfes_ponderado {‘de 52 a 54’,’de 50 a 52’,’de 54 a 58’,’de 46 a 50’,’mayor a 58’,’menor a 46’} Jornada_colegio {mañana,tarde,completa,noche,sabatina} Tipo_colegio {publico,privado} Edad_ingreso {‘igual a 18’,’menor a 18’,’mayor a 22’,’de 21 a 22’,’igual a 19’,’igual a 20’} Tabla 1. Atributos tabla TA31 en formato ARFF Nº 28 - enero - junio / 2013
  • 42. Formato arff atributo @attribute @attribute @attribute @attribute @attribute @attribute @attribute @attribute No. 9 10 11 12 13 14 15 16 27 Tipo_residencia {‘arrendada o anticresada’,propia,’propia pagandose por cuotas’} 30 31 Ingresos_familiares {‘de 4540000 a 5980000’,’mayor a 8540000’,’de 2850000 a 4540000’,’5980000 a 8854000’,’menor a 2850000’} Valor_matricula_colegio {‘de 76639 a 106100’,’de 60248 a 76639’,’mayor a 106100’,’menor a 21550’,’de 21550 a 44369’,’de 44369 a 60247’} Valor_matricula {‘menor a 100259’,’de 120574 a 158846’,’de 100259 a 120574’,’de 234266 a 381504’,’de 158846 a 234266’,’mayor a 381504’} 29 Hermanos_universidad {‘n ‘,’s ‘} 28 26 Ocupacion_madre {‘trabajadores no calificados’,hogar,’sin ocupacion’,’trabajadores de los servicios y vendedores’,vari os,pensionados,’profesionales universitarios, etc. Vive_con_familia {‘s ‘,’n ‘} 25 No. Madre {n,s} Atributos y valores @attribute @attribute @attribute @attribute @attribute @attribute @attribute Formato arff atributo Desercion {s,n} Veces_perdida {‘igual a 2’,’igual a 3’,ninguna,’igual a 1’,’igual a 4’,’mayor a 4’} Area_materia {‘formación específica’,na,’filosofía histórica ’,pedagogía,’componente de fundamentación’,’formación instrumental’,’ciencias básicas’,’paradigmas teóricos’,’formación investigativa’,’formación matemática’,etc. Semestre_perdidas {‘p ‘,’m ‘,na,’u ‘,ce} Materias_perdidas {‘de 3 a 4’,’mayor a 9’,’de 5 a 6’,ninguna,’de 1 a 2’,’de 7 a 9’} Promedio_nota {‘de 2.4 a 3.1’,’de 3.5 a 3.7’,’mayor a 4.0’,’de 3.7 a 4.0’,’de 3.1 a 3.5’,’menor a 2.4’} Area_programa {‘matemáticas y ciencias naturales’,’ciencias sociales y humanas’,’agronomía, veterinaria y afines’,’economía, administración, contaduría y afines’,’ciencias de la salud’,ingeniería,’ciencias de la educación’,’bellas artes’} Atributos y valores Universidad de Manizales Facultad de Ciencias e Ingeniería 41
  • 43. Nº 28 - enero - junio / 2013 2.5 Etapa de interpretación de datos En esta etapa se evalúan e interpretan los patrones descubiertos para determinar su calidad y consolidar el conocimiento descubierto e incorporarlo en otro sistema para posteriores acciones o para confrontarlo con conocimiento previamente descubierto. Además, puede incluir la visualización de los patrones extraídos, la remoción de los patrones redundantes o irrelevantes y la traducción de los patrones útiles en términos que sean entendibles para el usuario. Con el fin de evaluar la calidad y precisión de la predicción de las reglas de clasificación obtenidas se utilizó el método de validación cruzada con 10 pliegues (n-fold cross validation). Los resultados de esta etapa se analizan en la siguiente sección. 3. Resultados y discusión Como resultado de interpretar el árbol de decisión, generado por el algoritmo J48 (figura 2) con el conjunto de datos TA31 se obtuvieron las reglas de clasificación más representativas con una confianza mayor que 80% que se muestran en la tabla 2, donde puede observarse que los factores predominantes en la deserción estudiantil en la Universidad de Nariño son los académicos, especialmente un promedio bajo y el tener materias perdidas en los primeros semestres de la carrera. Con el fin de determinar los factores socioeconómicos que inciden en la deserción estudiantil, se generaron las reglas de clasificación con una confianza mayor que 80% y con el conjunto de datos TA18. El resultado se muestra en la tabla 3. Para determinar otros factores académicos asociados a la deserción estudiantil, se generaron reglas de clasificación con una confianza mayor que 80%, pero con el conjunto de datos TA15 sin tener en cuenta el atributo promedio_nota. De acuerdo a las reglas de la tabla 3, los factores socioeconómicos que inciden en la deserción estudiantil son el valor de la matrícula mayor que $381504 y proceder de la zona sur del departamento. El hecho de ser soltero, vivir con la madre y ser de la ciudad capital puede incidir también en la deserción. Según las resultados, los factores académicos que inciden en la deserción estudiantil, además de un promedio bajo y el tener materias perdidas en los primeros semestres de la carrera, son la facultad a la que pertenece el estudiante y el área a la que pertenece las materias perdidas. 42
  • 44. Universidad de Manizales Facultad de Ciencias e Ingeniería 4. Conclusiones y trabajos futuros Los primeros resultados obtenidos a través de la técnica de clasificación por árboles de decisión indica que esta es capaz de generar modelos consistentes con la realidad observada y el respaldo teórico, basándose únicamente en los datos que se encuentran almacenados en las bases de datos de una de las universidades. Una de las grandes dificultades que se presenta en esta clase de estudios es la mala calidad de los datos que muchas veces, después del proceso de limpieza, hace que se descarten ciertas variables por la imposibilidad de obtener sus valores y que de alguna manera influye en los resultados de la minería de datos. Se ha obtenido un patrón general de deserción estudiantil determinado por un promedio bajo y el tener materias perdidas en los primeros semestres de la carrera. Se han determinado factores socioeconómicos y académicos asociados a la deserción estudiantil. La evaluación, análisis y utilidad de estos patrones permitirá soportar la toma de decisiones eficaces de las directivas universitarias enfocadas a formular políticas y estrategias relacionadas con los programas de retención estudiantil que actualmente se encuentran establecidos. Como trabajos futuros están el continuar con el estudio de deserción estudiantil en la universidad estudiada, aplicando otras técnicas de minería de datos tales como asociación y clustering con el fin de determinar afinidades, similitudes y relaciones entre los factores socioeconómicos y académicos de las estudiantes que desertan. Para verificar la calidad y precisión del modelo de clasificación obtenido se utilizarán otros clasificadores y se compararán sus resultados. Se aplicará la misma metodología al repositorio de datos de la universidad cooperante en el estudio, para analizar y evaluar los patrones encontrados en ambas instituciones de educación superior. Agradecimientos Este proyecto de investigación se financia con recursos del Ministerio de Educación Nacional y con recursos de contrapartida de la Universidad de Nariño y la Institución Universitaria CESMAG. 43
  • 45. Atributo Clase Deserta S N S N S 44 N N N S N N S Reglas de clasificación socioeconómicas con el conjunto de datos TA18 valor_matricula = De 158846 a 234266 & vive_con_familia = N valor_matricula = De 100259 a 120574 & estado_civil = SOLTERO & madre = N & padre = N & hermanos_universidad = N & genero = F valor_matricula = De 158846 a 234266 & vive_con_familia = N & zona_nacimiento = SUR valor_matricula > 381504 & zona_procedencia = SUR valor_matricula = De 158846 a 234266 & vive_con_familia = N & zona_nacimiento = COSTA valor_matricula = De 158846 a 234266 & vive_con_familia = N & zona_nacimiento = CENTRO OCCIDENTE valor_matricula = De 100259 a 120574 & estado_civil = SOLTERO & madre = S & tipo_residencia = PROPIA & zona_nacimiento = CAPITAL Atributo, Clase, Deserta promedio_nota = De 3.1 a 3.5 & materias_perdidas = De 5 a 6 & semestre_perdidas = P promedio_nota = De 3.5 a 3.7 & extension = CAPITAL & materias_perdidas = De 1 a 2 & semestre_perdidas = P & zona_procedencia = CAPITAL Reglas S S promedio_nota = De 3.5 a 3.7 & materias_perdidas = De 1 a 2 & semestre_perdidas = P Tabla 3. Reglas de clasificaciones socioeconómicas y académicas S promedio_nota = De 2.4 a 3.1 & semestre_perdidas = P promedio_nota = De 3.7 a 4.0 & veces_perdida = 1 promedio_nota = Menor a 2.4 promedio_nota = De 3.5 a 3.7 & extension = CAPITAL & materias_perdidas = De 7 a 9 promedio_nota = De 3.1 a 3.5 & materias_perdidas = De 3 a 4 Reglas Tabla 2. Reglas de clasificación más representativas con el conjunto de datos TA31 0.0284 0.0242 0.0224 0.0136 0.0119 0.0337 0.0933 Soporte 0.017 0.0129 0.0227 0.1559 0.1551 0.1519 0.0314 0.0264 Soporte 0.912 0.9369 0.882 0.908 0.8071 0.8 0.8539 Confianza 0.8198 0.8341 0.8108 0.939 0.8528 0.998 0.8585 0.9535 Confianza Nº 28 - enero - junio / 2013
  • 46. S N N S S S N S S S N S S S S S N S S S extension = CAPITAL & semestre_perdidas = P & facultad = CIENCIAS EXACTAS Y NATURALES extension = CAPITAL & semestre_perdidas = CE extension = CAPITAL & semestre_perdidas = NA & facultad = CIENCIAS HUMANAS extension = CAPITAL & semestre_perdidas = P & area_materia = CIENCIAS BÁSICAS & facultad = CIENCIAS PECUARIAS extension = TUMACO extension = IPIALES extension = CAPITAL & semestre_perdidas = NA & facultad = CIENCIAS ECONÓMICAS Y ADMINISTRATIVAS extension = CAPITAL & semestre_perdidas = P & area_materia = FUNDAMENTACIÓN extension = CAPITAL & semestre_perdidas = P & facultad = EDUCACIÓN extension = TUMACO & area_programa = ECONOMÍA ADMINISTRACIÓN CONTADURÍA Y AFINES extension = CAPITAL & semestre_perdidas = NA & facultad = ARTES extension = CAPITAL & semestre_perdidas = P & area_materia = PEDAGOGÍA extension = CAPITAL & semestre_perdidas = P & area_materia = CIENCIAS BÁSICAS & facultad = CIENCIAS EXACTAS Y NATURALES extension = CAPITAL & semestre_perdidas = P & area_materia = FORMACIÓN MATEMÁTICA extension = CAPITAL & semestre_perdidas = P & area_materia = FUNDAMENTACIÓN EN CIENCIAS EXACTAS Y NATURALES extension = CAPITAL & semestre_perdidas = P & facultad = CIENCIAS DE LA SALUD extension = CAPITAL & semestre_perdidas = NA & facultad = CIENCIAS AGRICOLAS extension = CAPITAL & semestre_perdidas = P & area_materia = LENGUA EXTRANJERA extension = TUMACO & semestre_perdidas = P & area_programa = ECONOMÍA ADMINISTRACIÓN CONTADURÍA Y AFINES extension = CAPITAL & semestre_perdidas = P & area_materia = FORMACIÓN BÁSICA & facultad = ARTES N Atributo, Clase, Deserta Reglas de clasificación académicas con el conjunto de datos TA15 extension = CAPITAL & semestre_perdidas = M Reglas 0.0152 0.0156 0.0161 0.0167 0.0179 0.0175 0.0185 0.0187 0.019 0.0207 0.0215 0.0233 0.0458 0.0379 0.0336 0.0322 0.0497 0.0582 0.0612 0.1032 0.2088 Soporte 0.8283 0.9412 0.8571 0.8716 0.9658 0.807 0.9587 0.8852 0.879 0.8593 0.8786 0.8092 0.8361 0.9919 0.863 0.8524 0.8025 0.8079 0.8672 0.8692 0.8128 Confianza Universidad de Manizales Facultad de Ciencias e Ingeniería 45
  • 47. Nº 28 - enero - junio / 2013 Referencias bibliográficas ADAMO, Jean-Marc (2001). Data Mining for Association Rules and Sequential Patterns: Sequential and Parallel Algorithms. New York (USA): Springer-Verlag. 253 p. ISBN: 0-387-95048-6. AGRAWAL, Rakesh & SRIKANT, Ramakrishnan (1994). Fast Algorithms for Mining Association Rules. In: 20th International Conference on Very Large Data Bases, VLDB 1994, (1215/09/1994). Santiago de Chile (Chile): VLDB. Proceedings. p. 487-499. ISBN: 1-55860-153-8. CHEN, Ming; HAN, Jiawei & YU, Philip (1996). Data mining: An overview from database perspective. In: IEEE Transactions on Knowledge and Data Engineering. Vol. 8, No. 6 (dic). Los Alamitos (CA, USA): IEEE Computer Society. p. 866-883. ISSN: 1041-4347. FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory and SMYTH, Padrahic. (1996). The KDD process for extracting useful knowledge from volumes of data. In: Comunications of the ACM. Vol. 39, No. 11 (nov). New York (USA): ACM Digital Library. p 27-34. ISSN: 0001-0782. GARCÍA MORATE, Diego (s.f.). Manual de Weka [en línea]. Valladolid (España): MetaEmotion, S.L. <http://www.metaemotion.com/diego.garcia.morate/download/weka.pdf> 42 p. [consulta: 15/06/ 2012]. HAN, Jiawei & KAMBER, Micheline (2001). Data Mining: Concepts and Techniques. San Francisco (CA, USA): Morgan Kaufmann Publishers, Academic Press. 550 p. ISBN: 1-55860-489-8. HERNÁNDEZ, José; RAMÍREZ, María & FERRI, César (2005). Introducción a la Minería de Datos. Madrid (España): Pearson Prentice Hall. 656 p. ISBN: 84-205-4091-9. LA RED, David, ACOSTA, Julio; CUTRO, Luis; URIBE, Valeria. & RAMBO, Alice (2010). Data Warehouse y Data Mining Aplicados al Estudio del Rendimiento Académico. En: Novena Conferencia Iberoamericana en Sistemas, Cibernética e Informática, CISCI 2010, (29/062/07/2010), Orlando (Florida, EE.UU.): International Institute of Informatics and Systemics. Memorias CISCI 2010, Volumen I, p. 289-294. ISBN: 978-1-934272-94-7. MEN (2006a). América Latina piensa la deserción. En: Boletín informativo Educación Superior. No 7 (dic). Bogotá (Colombia): Ministerio de Educación Nacional. 20 p. ISSN: 1794-2446. MEN (2006b). Deserción estudiantil: prioridad en la agenda. En: Boletín informativo Educación Superior. No 7 (dic). Bogotá (Colombia): Ministerio de Educación Nacional. 20 p. ISSN: 1794-2446. MEN (2009). Deserción estudiantil en la educación superior colombiana: metodología de seguimiento, diagnóstico y elementos para su prevención. Bogotá (Colombia): Ministerio de Educación Nacional. 158 p. ISBN: 978-958-691-366-9. PAUTSCH, Jesús (2009). Minería de datos aplicada al análisis de la deserción en la Carrera de Analista en Sistemas de Computación. Tesis de grado (Licenciado en Sistemas de Información). Posadas, Misiones (Argentina): Universidad Nacional de Misiones. 193 p. PAUTSCH, Jesús; LA RED, David & CUTRO, Luis (2010). Minería de datos aplicada al análisis de la deserción en la Carrera de Analista en Sistemas de Computación [en línea]. Posadas, Misiones (Argentina): Universidad Nacional de Misiones. <http://www.dataprix.com/files/Analisis%20de%20Desercion%20Univ_0.pdf> [consulta: 18/06/2012]. PINZÓN, Liza (2011). Aplicando minería de datos al marketing educativo. En: Revista Notas de Marketing. No 1 (jun). Bogotá (Colombia): Universidad Sergio Arboleda, Escuela de Marketing y Publicidad. p 45-61. ISSN: 2248-4930 QUINLAN, Ross (1993). C4.5: Programs for Machine Learning. San Francisco (CA, USA): Morgan Kaufmann Publishers. 299 p. ISBN: 1-55860-238-0. RESTREPO, Mauricio & LÓPEZ, Andrés (2008). Uso de la metodología Rough Sets en un modelo de deserción académica. En: XIV Congreso Ibero Latinoamericano de Investigación de Operaciones, CLAIO 2008, (9-12/09/2008), Cartagena (Colombia): Universidad del Norte. Libro de Memorias CLAIO 2008, p. 108-109. Ediciones Uninorte. SATTLER, Kai-Uwe. & DUNEMANN, Oliver (2001). SQL Database Primitives for Decision Tree Classifiers. In: The 10th ACM International Conference on Information and Knowledge Management - CIKM, (5-10/11/2001), Atlanta (Georgia, USA): ACM. Proceedings, p. 379-386. ISBN: 1-58113-436-3. SPOSITTO, Osvaldo; ETCHEVERRY, Martín; RYCKEBOER, Hugo & BOSSERO, Julio (2010). Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y la deserción estudiantil. En: Novena Conferencia Iberoamericana en Sistemas, Cibernética e 46
  • 48. Universidad de Manizales Facultad de Ciencias e Ingeniería Informática, CISCI 2010, (29/06-2/07/2010), Orlando (Florida, EE.UU.): International Institute of Informatics and Systemics. Memorias CISCI 2010, Vol. I. ISBN: 978-1-934272-94-7. UPN (2005). La deserción estudiantil: reto investigativo y estratégico asumido de forma integral por la UPN [en línea]. En: Encuentro Internacional sobre Deserción en Educación Superior: experiencias significativas (17-18/05/2005) Bogotá (Colombia): Ministerio de Educación Nacional. <http://www.mineducacion.gov.co/1621/articles-85600_Archivo_pdf3.pdf> [consulta: 15/06/ 2012]. VALERO, Sergio (2009). Aplicación de técnicas de minería de datos para predecir la deserción [en línea]. Izúcar de Matamoros, Puebla (México): Universidad Tecnológica de Izúcar de Matamoros. <http://www.utim.edu.mx/~svalero/docs/MineriaDesercion.pdf> [consulta: 10/06/2012]. VALERO, Sergio; SALVADOR, Alejandro & GARCÍA, Marcela (2010). Minería de datos: predicción de la deserción escolar mediante el algoritmo de árboles de decisión y el algoritmo de los k vecinos más cercanos [en línea]. Izúcar de Matamoros, Puebla (México): Universidad Tecnológica de Izúcar de Matamoros. <http://www.utim.edu.mx/~svalero/docs/e1.pdf> [consulta: 10/06/2012]. WANG, Min; IYER, Bala & SCOTT, Jeffrey (1998). Scalable Mining for Classification Rules in Relational Databases. In: International Database Engineering and Application Symposium, IDEAS 98, (08-10/07/1998), Cardiff (Wales, U.K.): IEEE Computer Society. Proceedings, p. 58-67. ISBN: 0-8186-8307-4. 47
  • 49. Nº 28 - enero - junio / 2013 48
  • 50. Universidad de Manizales Facultad de Ciencias e Ingeniería Técnicas de implementación de procesos colaborativos a la mejora procesos: un acercamiento a PMBOK*1 [Implementation techniques for improving collaborative processes closer to PMBOK processes] José Luis JURADO2, César Alberto COLLAZOS3 Recibo: 20.02.2013 - Aprobación: 21.06.2013 Resumen La ingeniería de la colaboración surge como una línea de estudio de la ingeniería de software, que brinda grandes virtudes, en la mejora de procesos, para potencializar el desarrollo de trabajo en equipo y generación de nuevo conocimiento, a partir de la cooperación y articulación de un esfuerzo compartido de un equipo de trabajo en una organización. El propósito del presente documento es dar a conocer el resultado de una investigación que buscó integrar la ingeniería de la colaboración con la gestión de proyectos, en pro de mejorar los procesos de control, seguimiento y verificación de los resultados alcanzados por una organización, que aplique métodos y guías formales en sus procesos de gestión de proyectos informáticos. El documento está centrado en describir las técnicas de la ingeniería de la colaborativas usadas y el resultado de * Modelo para citación de este artículo: JURADO, José Luis & COLLAZOS, César Alberto (2013). Técnicas de implementación de procesos colaborativos a la mejora procesos: un acercamiento a PMBOK. En: Ventana Informática. No. 28 (ene.-jun.). Manizales (Colombia): Facultad de Ciencias e Ingeniería, Universidad de Manizales. p. 49-66. ISSN: 0123-9678 1 Artículo de investigación científica y tecnológica proveniente del proyecto Mejora de procesos en la gestión de proyectos informáticos una perspectiva desde la ingeniería de la colaboración, ejecutado en el periodo Junio 2010 –junio 2012, e inscrito en el grupo de investigación IDIS – Universidad del Cauca. [Proyecto para optar al título de Magíster en Computación – Universidad del Cauca, por parte del primer autor bajo dirección del segundo]. 2 Ingeniero de Sistemas, MSc. en Computación. Docente, Institución Universitaria Colegio Mayor del Cauca, (Popayán, Cauca, Colombia). Correo electrónico: jjurado@unicauca.edu.co 3 Ingeniero de Sistemas, PhD. en Computación. Profesor asociado, Universidad de San Buenaventura, (Cali, Valle del Cauca, Colombia). Correo electrónico: ccollazo@unicauca.edu.co Nº 28 - Universidad de Manizales, enero-junio/2013 - pp 49-66 49