Revista ventana informatica 28

FACULTAD DE CIENCIAS E INGENIERÍA
Carrera 9 No. 19-03
Conmutador (6) 887 9680 extensión: 1689
Manizales, Caldas, Colombia
www.umanizales.edu.co
ventanainformatica@umanizales.edu.co
ventanainformatica@gmail.com

Nº 28 - enero - junio / 2013

GUILLERMO ORLANDO SIERRA SIERRA
Rector
JORGE IVÁN JURADO SALGADO
Vicerrector
GERMÁN WILLIAM LONDOÑO JIMÉNEZ
Decano
Facultad de Ciencias e Ingeniería
Director / Editor
OMAR ANTONIO VEGA
PhD(c)

VENTANA INFORMÁTICA
Derechos Reservados
ISSN 0123-9678
Diseño y Diagramación
Gonzalo Gallego González
Centro Editorial Universidad de Manizales
2013
VENTANA INFORMÁTICA es una publicación semestral especializada de la Facultad
de Ciencias e Ingeniería de la Universidad de Manizales.
Está clasificada en la CATEGORÍA C, en IBN – Publindex (Colombia) e incluida en Latindex

2

Universidad de Manizales


Comité editorial
Mario Andrés GIRALDO FADUL, PhD.
California State University –USA
Carlos Eugenio OLIVEROS TASCÓN, PhD.
Centro Nacional de Investigaciones de Café - Colombia
Gustavo Adolfo ISAZA ECHEVERRY, PhD.
Universidad de Caldas - Colombia
Héctor MORA PÁEZ, MSc.
Servicio Geológico Colombiano – Colombia
Luis RODRÍGUEZ BAENA, PhD.
Universidad Pontificia de Salamanca - España

Comité científico
Mauro CALLEJAS CUERVO, MSc.
Universidad Pedagógica y Tecnológica de Colombia - Colombia
Andrés David EPIFANÍA HUERTA, MSc.
Universidad Católica Los Ángeles de Chimbote - Perú
Luis Alejandro FLÉTSCHER BOCANEGRA, MSc.
Universidad de Antioquia - Colombia
(c)
Alejandro Javier HADAD, PhD.
Universidad de Entre Ríos – Argentina

André Atanásio MARANHÃO ALMEIDA, MSc.
Instituto Federal de Alagoas - Brasil
Ana Teresa ORTEGA MINAKATA, MSc.
Instituto de Información Territorial del Estado de Jalisco - México

Comité científico de redacción
Luis Carlos CORREA ORTIZ, MSc.
Universidad de Manizales - Manizales, Caldas, Colombia
Julio César GÓMEZ CASTAÑO, PhD(c).

3


Diego Samir MELO SOLARTE, PhD(c).
Carlos Alberto OSPINA PARRA, PhD(c).
Omar Antonio VEGA, PhD(c).

Comité científico de arbitraje

(Integrantes que realizaron arbitraje de artículos para este número)
Genaro AGUIRRE AGUILAR, PhD.
Universidad Veracruzana –México
Andrea Catherine ALARCÓN ALDANA, MSc.
Luis Marcial BERTEL PATERNINA, Esp.
Universidad de Manizales - Colombia
Mauro CALLEJAS CUERVO, MSc.
Luis Fernando CASTILLO OSSA, PhD.
Andrés David EPIFANÍA HUERTA, MSc.
Gloria Piedad GASCA HURTADO, PhD.
Universidad de Medellín –Colombia
Mario Andrés GIRALDO FADUL, PhD.
California State University –USA
María Ester GONZÁLEZ, PhD.
Universidad Politécnica de Madrid - España
Rubén Arístides GONZÁLEZ CRESPO, PhD.
Universidad Pontificia de Salamanca - España
Juan Sebastián GONZÁLEZ SANABRIA, Esp.
Universidad Pedagógica y Tecnológica de Colombia – Colombia

4



Nery Francisco HERRERA PINEDA, MSc.
Universidad Católica de El Salvador - El Salvador
Orlando Clemente IPARRAGUIRRE VILLANUEVA, MSc.
Gustavo Adolfo ISAZA ECHEVERRY, PhD.
Alejandro LONDOÑO VALENCIA, MSc.
Universidad de Manizales –Colombia
André Atanásio MARANHÃO ALMEIDA, MSc.
Instituto Federal de Alagoas - Brasil
Carlos Eduardo MARULANDA ECHEVERRY, MSc.
Diego Samir MELO SOLARTE, PhD(c).
Universidad de Manizales – Colombia
Ana Teresa ORTEGA MINAKATA, MSc.
Instituto de Información Territorial del Estado de Jalisco - México
Luis Eduardo PELÁEZ VALENCIA, MSc.
Universidad Católica de Pereira - Colombia
Willington Libardo SIABATO VACA, PhD.
Universidad Politécnica de Madrid – España
Ábilo Andrés VELÁSQUEZ SALAZAR, MSc.
Universidad Nacional de Colombia - Colombia
Ronald Eduard VINASCO SALAZAR, MSc.
Universidad de Manizales – Colombia
Gunnar Eyal WOLF ISZAEVICH, Lic.
Universidad Nacional Autónoma de México - México

5


6



En esta edición
Página
Editorial.................................................................................................... 9-11
Omar Antonio VEGA

Implementación de un software para el análisis de
imágenes aéreas multiespectrales de caña de azúcar.......................13-29
[Implementation of software for the analysis of
multispectral aerial images sugarcane]
Gerardo SCHNEIDER, Alejandro Javier HADAD, Alejandra KEMERER

Aplicación de la minería de datos en la
extracción de perfiles de deserción estudiantil..................................31-47
[Application of data mining in extracting student dropout profiles]
Ricardo TIMARÁN PEREIRA, Andrés CALDERÓN ROMERO,
Javier JIMÉNEZ TOLEDO

Técnicas de implementación de procesos colaborativos
a la mejora procesos: un acercamiento a PMBOK.............................49-66
[Implementation Techniques for improving collaborative
processes closer to PMBOK processes]
José Luis JURADO, César Alberto COLLAZOS

Sistema multiparamétrico de monitoreo remoto
de movimientos por remoción en masa...............................................67-82
[A multiparameter system for remote monitoring of landslides]
John Makario LONDOÑO, César Augusto VEGA, Liliana María MAYA

Análisis del sistema de información de la
microempresa N´Diaye & Filhos...........................................................83-97
[Analysis of the information system of N´Diaye & Filhos micro-enterprise]
Lourdes María GARCÍA PUJADAS,
Eduardo Barbarito HERNÁNDEZ HURTADO, Horacio CHICOLA

Pautas, métodos y herramientas de
evaluación de accesibilidad web........................................................ 99-115
[Guidelines, methods and tools for web accessibility evaluation]
Cinthia DE OLEO MORETA, Luis RODRÍGUEZ BAENA

Una memoria organizacional para gestionar
información y conocimiento de proyectos
de investigación de instituciones venezolanas.............................. 117-131
[An organizational memory to manage information and
knowledge of research projects from Venezuelan institutions]
Esmeralda RAMOS, Iván FLORES, Haydemar NÚÑEZ

7


Estrategias educativas para la inserción
social del egresado de Ingeniería Mecánica....................................133-149
[Educational strategies for the social inclusion
of the Mechanical Engineering students]
Alejandro Arturo PÉREZ VILLEGAS, Adriana María SÁNCHEZ NAVARRETE

Metodología para determinar la evolución de los
sistemas informáticos de organizaciones regionales....................151-166
[Methodology to determine the evolution of the
computer systems of regional organizations]
Ludwig Iván TRUJILLO HERNÁNDEZ

Módulo informático de evaluación docente
para la carrera de informática en el ISMMM....................................167-179
[Teacher evaluation computer module
for computing career in the ISMMM]
Marcos Antonio MARTÍNEZ RODRÍGUEZ,
Yadiris MARTÍNEZ CORDERO, Iliana DÍAZ SÁNCHEZ

Políticas editoriales de la revista Ventana Informática........................ 181-198
Director y Consejo Editorial
Índice histórico de artículos publicados................................................199-210

Nota:
Los conceptos expresados en esta publicación son responsabilidad de los autores y no
comprometen el pensamiento de la Universidad ni de la Facultad de Ciencias e Ingeniería.
COPYRIGHT © UNIVERSIDAD DE MANIZALES

8



Editorial
Omar Antonio VEGA1
Director/Editor

La edición 28, correspondiente al primer semestre del año 2012, recoge
10 de los 23 artículos presentados en la convocatoria cerrada en febrero
20, procedentes de diversas instituciones, especialmente universidades,
con un interesante número de nuevos autores.
Los autores que publican en este número, están afiliados a:
- las Universidades de Nariño, del Cauca, Piloto de Colombia, San
Buenaventura, Nacional de Entre Ríos, de Ciego de Ávila, Pontificia
de Salamanca, Central de Venezuela y Autónoma de San Luis de
Potosí,
- la Institución Universitaria Cesmag,
- los Institutos Nacional de Tecnología Agropecuaria y Superior Minero
Metalúrgico de Moa,
- los Servicios Geológico de Colombia y de Salud Pública de Villa
Clara,
- además de un funcionario de la micro-empresa N´Diaye & Filhos y
una profesional independiente.
En este momento es interesante hacer hincapié en un hecho: aparece
una cantidad significativa de nuevos autores e instituciones aportando
sus escritos a la revista, señalando el paulatino, pero firme, proceso de
consolidación en Iberoamérica.
La edición recoge diversos temas, mediante artículos de investigación
científica y tecnológica, de reflexión y reportes de casos, cuya somera
presentación es:
- El primer artículo, en el área de la bioingeniería y procedente de un
proyecto entre la Universidad Nacional de Entre Ríos y el INTA, hace
alusión a una implementación de software que permite determinar,
a partir del análisis de imágenes aéreas multiespectrales, el estado
de las plantaciones de caña de azúcar, especialmente en cuanto a
caña caída o volcada.
- En el segundo artículo, realizado entre la Universidad de Nariño y la
institución Universitaria Cesmag, se enfrenta la deserción estudiantil
1 Ing. Agrónomo, Esp. en Informática y Computación, MSc. en Orientación y Asesoría Educativa, MSc. en Educación.
Docencia, PhD(c) en Ingeniería Informática: Sociedad de la Información y el Conocimiento. Director/editor de la revista
Ventana Informática, Líder del grupo de investigación ‘Sociedad de la Información y el Conocimiento’, Profesor titular,
Facultad de Ciencias e Ingeniería, Universidad de Manizales, Manizales (Colombia). Correo electrónico: oavega@
umanizales.edu.co

9


en programas de pregrado, mediante la detección de patrones utilizando técnicas de minería de datos.
- A continuación, desde la ingeniería de software y procedente de la
Universidad del Cauca, se presenta una integración de la ingeniería
de la colaboración con la gestión de proyectos, en el modelo de
mejora PmCompetisoft.
- Siendo Colombia un país donde la mayoría de su población está
ubicada en zonas de ladera, con frecuentes casos de deslizamientos, se presenta un sistema, realizado entre el Servicio Geológico
Colombiano y la Universidad de Manizales, que permite realizar
monitoreo remoto de remociones en masa, usando diferentes tipos
de sensores, que permite emitir alertas a partir de la información
obtenida y procesada.
- En el marco de la cooperación cubana a Angola, se presenta el artículo presenta el análisis del sistema de información para la empresa
N´Diaye & Filhos, como paso para favorecer el mejoramiento de la
gestión económica de la empresa. Este es un componente de los
varios desarrollados, en este caso entre profesionales del Instituto
Superior Minero Metalúrgico de Moa y la Universidad de Ciego de
Ávila, en conjunto con personal de empresas angolanas.
- La accesibilidad web se está convirtiendo en conditio sine qua non
al momento de emprender iniciativas para la universalización de
acceso y uso de las TIC. Por ello, desde la Universidad Pontifica de
Salamanca campus Madrid, se enfoca en su evaluación, realizando
el análisis de pautas, métodos y herramientas considerados en el
estándar de la W3C.
- La gestión de la información y de conocimiento, no puede restringirse
a la empresa convencional, sino que tiene un sitio especial en la academia, responsable de mover la frontera del conocimiento. En esa
dirección, desde la Universidad Central de Venezuela, se propone
un modelo para definir la estructura de la memoria organizacional
de la producción intelectual de los investigadores en sus proyectos
de investigación.
- La globalización, y el aspecto competitivo que conlleva, hace que
la universidad deba preocuparse porque sus egresados sean competentes en la realidad cambiante del entorno laboral y productivo.
Por ello, desde la Universidad Autónoma de San Luis de Potosí, se
analiza la trascendencia de la formación integral de los estudiantes,
frente a la realidad que lo espera como ingeniero y profesional.
- Los procesos gerenciales y la incorporación informática a las empresas, hacen parte del proceso de mejoramiento y desarrollo de ellas,
10



por lo el siguiente artículo, procedente de la Universidad Piloto de
Colombia seccional Alto Magdalena, muestra la aplicación de una
metodología de evaluación de las empresas de Girardot, mediante
las etapas de evolución de los sistemas informáticos inspirado en el
modelo de Gibson & Nolan.
- El último de los artículos presenta, a manera de propuesta, un módulo
con el objetivo de facilitar y complementar la labor diaria de los profesores, que hace parte de la gestión docente del departamento de
informática del Instituto Superior Minero Metalúrgico de Moa.
En el cierre de la revista aparecen las políticas editoriales, para facilitar
la participación como autor y/o árbitro, así como el listado histórico de
artículos publicados.
No hay duda alguna que la calidad científica de una revista se fundamenta en sus procesos de convocatoria y selección, y se refrenda
con los índices bibliométricos, referidos a la consulta y citación de los
documentos en ella publicados. Por ello, se hace una invitación a investigadores, docentes y estudiantes para seguir aportando sus artículos,
al igual que a considerar, revistas como esta, al momento de hacer sus
revisiones bibliográficas… no puede olvidarse la característica local o
regional que frecuentemente se presentan en sus artículos, aspecto
relevante de glocalización en el planteamiento de los antecedentes de
un proyecto de investigación.
Para finalizar, se recuerda que la revista mantiene su convocatoria
abierta, con cortes en febrero 20, para los números del primer semestre,
y agosto 20, para el segundo, ya que:

Alguien está necesitando la información que usted
está dispuesto a brindar. Usted está necesitando la
información que alguien está dispuesto a brindar…
Ventana Informática se mantiene abierta para que
la información fluya en ambas direcciones.

11


12



Implementación de un software
para el análisis de imágenes
aéreas multiespectrales
de caña de azúcar*1
[Implementation of software for the analysis
of multispectral aerial images sugarcane]
Gerardo SCHNEIDER2, Alejandro Javier HADAD3 ,Alejandra KEMERER4
Recibo: 20.02.2013 - Aprobación: 17.06.2013

Resumen
En este trabajo se presenta una implementación de software para
la determinación del estado de plantaciones de caña de azúcar
basado en el análisis de imágenes aéreas multiespectrales. En la
actualidad no existen técnicas precisas para estimar objetivamente
la superficie de caña caída o volcada, y esta ocasiona importantes
pérdidas de productividad en la cosecha y en la industrialización.
Para la realización de éste trabajo se confeccionó un dataset referencial de imágenes, y se implementó un software a partir del
cual se obtuvieron indicadores propuestos como representativos
del fenómeno agronómico, y se realizaron análisis de los datos
*

Modelo para citación de este artículo:
SCHNEIDER, Gerardo; HADAD, Alejandro Javier & KEMERER, Alejandra (2013). Implementación de un software para el análisis de imágenes aéreas multiespectrales de caña de azúcar.
En: Ventana Informática. No. 28 (ene.-jun.). Manizales (Colombia): Facultad de Ciencias e
Ingeniería, Universidad de Manizales. p. 13-29. ISSN: 0123-9678
1 Artículo de investigación científica y tecnológica proveniente de la tesina de grado Análisis de
Imágenes Aéreas Orientado a la caracterización de caña caída, necesaria para la obtención
del título de Licenciado en Bioinformática, cuyo autor es Gerardo Schneider bajo la dirección
de Alejandro Hadad durante el año 2012.
2 Licenciado en Bioinformática. FI-UNER. Oro Verde, Entre Ríos (Argentina). Correo electrónico:
gerschneider@gmail.com.
3 Bioingeniero, Aspirante al Doctorado en Ingeniería, mención en Sistemas de Información,
UTN-FRSF. Docente-Investigador e Integrante del GIA de la FI-UNER. Oro Verde, Entre Ríos
(Argentina). Correo electrónico: hadad@santafe-conicet.gov.ar.
4 Ingeniera Agrónoma. M. Sc. Investigador en el Grupo de Recursos Naturales y Factores Abióticos de la EEA Paraná del INTA y Docente en las cátedras de Climatología Agrícola y SIG
de la FCA UNER. Oro Verde, Entre Ríos (Argentina). Correo electrónico: akemerer@parana.
inta.gov.ar
Nº 28 - Universidad de Manizales, enero-junio/2013 - pp 13-29

13


generados. Además se implementó un software clasificador
referencial basado en redes neuronales con el que se estimó la
fortaleza de dichos indicadores y se estimó la superficie afectada
en forma cuantitativa y espacial.
Palabras Clave: Caña de azúcar, cuantificación, volcado, red neuronal,
procesamiento de imagen

Abstract
In this paper we present a software implementation for determining
the status of sugarcane plantations based on the analysis of multispectral aerial images. Currently there are no precise techniques
to estimate objectively the cane area fall or overturned, and this
causes significant losses in crop productivity and industrialization.
For the realization of this work a dataset benchmark images was
made, and a software, from which were obtained representative
proposed indicators for the agronomic phenomenon was implemented, and analyzes of the data generated were realized. In
addition, we implemented a software benchmark classifier based
on neural networks with which we estimated the strength of these
indicators and the area affected was estimated quantitatively and
spatially.
Keywords: Sugarcane, quantification, fall, neural network, image
processing

Introducción
El cultivo de caña de azúcar en Argentina se encuentra principalmente
localizado en la región noroeste del país (99%), donde representa, de
acuerdo con Pérez et al. (2005), una de las actividades productivas
más importantes, y en escasa extensión en la región litoral (1%). Los
sistemas productivos cañeros presentan diferentes niveles tecnológicos
según el sistema de cosecha utilizado, con sistemas desde manuales
a totalmente mecanizados, si bien, en la actualidad más del 70% del
volumen total se cosecha de manera mecanizada. Uno de los aspectos
más críticos del proceso de cosecha de la caña de azúcar son las pérdidas que se producen y se han determinado como niveles tolerables
alrededor del 2,5%. La presencia de caña caída es uno de los factores
con mayor influencia. Incidencia de vuelco superiores al 20% determina
incrementos en las pérdidas que van desde el 4 al 6,4%, según expresan
Rodríguez et al. (2010).
14



La presencia de caña de azúcar caída (CC) al momento de la cosecha
trae aparejadas importantes pérdidas en la recolección y en el ingenio
azucarero. En el fenómeno de CC por quebrado intervienen aspectos
aleatorios e impredecibles. Es normal que el cañaveral en un cuadro
productivo alcance una altura promedio, pero presenta variaciones
respecto de esta variable en diferentes sectores del campo. Esto puede
deberse a las condiciones diferenciales del suelo que presenta distintos
niveles de fertilidad, humedad, compactación, etc. Por otro lado, cada
planta del cañaveral es constitutivamente diferente, por lo que manifestará en forma única los distintos estímulos externos.
Cuando la planta es joven y se ha desarrollado bajo condiciones óptimas, alcanza cierta altura y por su propio peso comienza a pandearse,
llegando algunas a quebrarse una vez que se supera su tensión de
rotura producto del viento o fenómenos ambientales como el granizo.
La CC se presenta con una gran heterogeneidad espacial.
Una vez que se produce el fenómeno, el suelo puede quedar al descubierto, o por el contrario puede producirse un reverdecimiento producto
de la aparición de nuevas hojas verdes, con crecimiento fototrópico.
Esto suma heterogeneidad ante una observación externa. Los factores
antes mencionados evidencian la gran complejidad en el fenómeno en
estudio, lo que lo hace dificultoso de analizar y cuantificar.
La materia extraña a la caña denominada en inglés como trash, cuando ingresa al ingenio azucarero representa una importante pérdida de
eficiencia en el proceso de elaboración de azúcar, aseguran Tonatto
et al. (2005). El desafío de ingeniería industrial radica en explorar las
alternativas para controlar los efectos perjudiciales que estos desechos
o trash y la tierra presentes en la caña tienen en los equipos, procesos
y rendimientos operativos de la fábrica. Es decir que la calidad de la
caña afecta en forma directa al rendimiento fabril y a la calidad de la
azúcar obtenida (Larrahondo, 1995). A su vez la calidad de la materia
prima (caña) puede ser afectada por aspectos siempre cambiantes de la
agricultura de la caña de azúcar, tales como la introducción de nuevos
cultivares, variaciones climáticas, el uso de maduradores químicos,
cambios en las prácticas culturales y en los sistemas de cosecha o la
aparición en los cultivos de enfermedades o plagas. En cuanto a los
tipos de cosecha, se observa que los contenidos de trash y tierra en
caña cosechada en forma mecanizada son sensiblemente inferiores
que en la cosecha semi-mecanizada, pasando de un 2 a un 5-7%. Al
mismo tiempo, los valores de fibra (residuo vegetal) suben de 14 a 18%
aproximadamente, debido a la presencia de mayor cantidad de partes
vegetales por una cosecha menos eficiente (Sustaita, 2005). Esto significa que las industrias abonan a los productores una parte significativa
15


del peso del trash de la materia prima ingresada por balanza a valor
caña, dado que la forma de muestreo y análisis de este parámetro es
generalmente inadecuado.
A esto se le debe incorporar los otros costos adicionales que produce
este producto extraño en la fábrica propiamente dicha, como ser:
-- Desgaste en los molinos por abrasión y una pérdida progresiva en
la capacidad de extracción del jugo de caña.
-- Aumento significativo de la cantidad de cachaza5 y con ello de las
pérdidas de azúcar en la misma.
-- Aumento del consumo de productos químicos para el tratamiento
de los jugos.
-- Aumento del color en el jugo y subsecuentemente en el azúcar con
lo cual para evitarlo se reducen los ciclos de cristalización disminuyendo la eficiencia fabril.
-- Desgaste de equipos, tuberías y bombas.
-- Disminución del poder calorífico del bagazo6 y por ende la eficiencia
en el quemado del mismo, con un aumento del consumo de y de
las emisiones de caldera.
-- Otros.

1. Fundamento teórico
Para disminuir al mínimo posible el porcentaje de trash en la caña, en
varios ingenios se instalaron mesas lavadoras de caña, removiendo
el contenido de tierra mediante grandes cantidades de agua (relación
aproximada de 3 m3 de agua por ton. de caña). Esto supone ahorro de
dinero, pero agrega problemas como mayores costos por la potencia
requerida, el agua necesaria y la mano de obra adicional, sumado a
las nuevas discusiones con los productores ya que algunos estudios
confirman que en el lavado de la caña se pierde un porcentaje del
rendimiento por arrastre de azúcar. Además, la técnica requiere disponibilidad de terreno para instalar decantadores de arena y barros para
poder re-usar el agua y no devolverla así a los causes incrementando
la contaminación. Una estrategia prometedora para lograr reducir este
impacto radica en lograr una mayor eficiencia operativa en las tareas de
cosecha de la caña en el campo, etapa previa al ingreso a las fábricas,
y fundamentalmente en sectores con caña quebrada que incrementan
notablemente el porcentaje de trash. Esta es un área de mano de obra
5 Espumas e impurezas que sobrenadan en el jugo de la caña de azúcar al someterlo a la
acción del fuego.
6 Residuo de una materia de la que se ha extraído el jugo.

16



intensiva donde por sus particularidades, considera Sustaita (2005),
no se han logrado introducir soluciones tecnológicas que reduzcan su
impacto negativo en la producción.
Actualmente, la cuantificación de la caña de azúcar caída en cuadros
productivos es un proceso costoso e ineficiente. Se requiere del envío
de evaluadores al terreno que deben explorar grandes superficies para
obtener un muestreo representativo que les permita hacer estimaciones.
En su desplazamiento por el campo producen daño, requieren muchas
horas hombre de trabajo y generan estimaciones con un alto grado de
incerteza. A su vez, la presencia de variaciones espaciales en la productividad de la caña es muy amplia. Viccini (2007) determinó variaciones
de hasta 50 tn/ha a nivel de lote de producción. Es esperable que este
patrón, así como variaciones en la calidad de la caña se observe a diversas escalas, de manera similar a lo que se ha demostrado para otras
variables que inciden en la producción, como las propiedades de suelo
(Anderson et al., 1999), lo que dificulta establecer un distanciamiento
de muestreo único y repercute negativamente en los costos.
Otra estrategia es la de realizar vuelos sobre los cultivos con observadores especialistas los que estiman el porcentaje de caña caída de
acuerdo a su experiencia e impresión de lo observado desde el aire.
Esta estrategia es subjetiva y dependiente de los especialistas disponibles en cada área de interés.
Teniendo en cuenta estos antecedentes se evidencia que no se ha
observado reporte de alguna metodología con cierto grado de certeza
mensurable para determinar el área afectada, a fin de ayudar a planificar de mejor manera el proceso de cosecha y los costos asociados
por parte de los actores productivos involucrados.
En este sentido, el Instituto Nacional de Tecnología Agropecuaria de
Argentina – INTA – ha abordado la problemática, realizando trabajos
a partir de fotografías aéreas de alta resolución (Kemerer et al. 2010,
Melchiori et al., 2009). A partir de esta fuente de datos se trabajó
en conjunto para avanzar con nuevas estrategias tecnológicas para
abordar el problema. En este trabajo se presenta la infraestructura
informática desarrollada y el análisis de resultados informáticos y
agronómicos.
Desde el punto de vista informático se montó una aplicación para realizar
el etiquetado de imágenes, a partir del cual se desarrolló una estructura
tipo pipeline con capacidades de análisis de variables y clasificación de
regiones. Como clasificador de referencia se utilizaron redes neuronales
por la capacidad de las mismas para esta tarea y la experiencia previa
de los autores con este clasificador. Desde el punto de vista agronómi17


co, como un primer resultado, se brinda una estimación cuantitativa y
espacial de las regiones con caña de azúcar en pie y caída.

2. Metodología
Se contó con el set de imágenes obtenido por el Instituto Nacional de
Tecnología Agropecuaria (INTA) de Argentina desde un avión Sky Arrow
650 TCNS ERA, cuyo sistema de captura se compone de un sistema de
posicionamiento global, una cámara multiespectral Geospatial MS4100
y un sistema de control y almacenamiento de datos. La cámara empleada permite la adquisición de fotogramas en tres bandas del espectro
electromagnético: verde (530-580 nm.), roja (650-685 nm.) e infrarroja
cercana (770-830 nm.) con una resolución de imagen de 1920 x 1075
pixeles. El sistema de posicionamiento proporciona la posición, actitud
y altura de vuelo en sincronismo con la adquisición de cada fotograma.
El vuelo se realizó el 5 de mayo de 2008, momento del ciclo del cultivo
donde la presencia de caída de la caña es claramente evidente. Los
vuelos se efectuaron en el medio día solar a fin de contar con una
iluminación homogénea en la superficie. El plan de vuelo se diseñó
para una altitud de 1200 m. resultando un tamaño de pixel de 0.7 m.
Se obtuvieron 540 fotogramas que fueron ensamblados mediante el
reconocimiento de puntos de anclaje en fotogramas consecutivos generando un mosaico. Se utilizaron en este procedimiento las librerías
Panorama Tools7 con la interfaz gráfica Hugin8, ambas de distribución
libre. El mosaico se georreferenció con el programa de análisis Leica
Erdas Imagine 9.1. y se extrajeron imágenes individuales correspondientes a cada parcela productiva.
Con la asistencia de un Ingeniero Agrónomo se realizó el etiquetado de
las imágenes en las clases de interés, para lo cual se utilizó la aplicación
Label Me (Russel et al., 2008) del Instituto Tecnológico de Massachusetts, la cual fue desplegada en un servidor local de modo de facilitar el
acceso a los datos y su incorporación a un pipeline de procesamiento,
extracción de características, análisis, clasificación y segmentación
posterior. En la figura 1 se observa el proceso de etiquetado consistió
en delimitar en las imágenes, polígonos continentes de porciones representativas de las clases Caña en Pie (CP), Caña Caída en Forma de
Parches (CCP), Caña Caída en Áreas Grandes (CCA), Caña Caída con
Fototropismo (CCF) y Corridas o áreas de suelo descubierto (C) (figura
1). De esta etapa surge un conjunto de datos de referencia o dataset,
7
8

18

http://panotool.sourfceforge.net
http://hugin.sourceforge.net



del cual se obtendrán 5678 muestras, o subimágenes cuadradas de
60 pixeles de lado.
Se desarrolló en código Java un software capaz de adquirir la información
con forma de metadatos generada en el etiquetado, y a partir de ella recortar y procesar automáticamente las porciones de imágenes obtenidas
desde el dataset, con el fin de obtener indicadores representativos de cada
clase. Se incorpora en esta etapa un preprocesamiento de normalización
en brillo de las imágenes que se realizó calculando el brillo promedio por
canal de todos los polígonos etiquetados, y fijando arbitrariamente como
parámetro para la normalización un 120% de dichos valores, lo que amplió
el rango dinámico sin producir saturación en el histograma. Se aplicó un
filtro espacial Frei-Chen para la detección de bordes (Frei et al., 1977),
con el fin de resaltar las zonas de alta frecuencia.

Figura 1. Captura de pantalla de un imagen ejemplo y del
proceso de etiquetado de la misma con LabelMe

Dadas las características del fenómeno agronómico, se realizó un
abordaje desde el punto de vista de las texturas de las imágenes, definiéndose las siguientes características o indicadores de interés:
• Desvío estándar del histograma de la muestra por canal
• Entropía promedio del histograma de la muestra por canal
• Valor promedio de los pixeles de la muestra por canal (mencionado
como Firma Espectral)
• Valor promedio de los pixeles de la muestra por canal post filtrado
de detección de bordes (mencionado como Firma Espectral con
Detección de Borde)
19


• Índice de vegetación de diferencia normalizada (NDVI) (Rouse et
al., 1973)
La extracción de características se realizó en un proceso iterativo del
tipo Batch dado el alto requerimiento de poder de cómputo y tiempo
requerido. El volumen de información generada se almacenó en una
base de datos Postgres, de modo de poder acceder concurrentemente
al momento del análisis a toda la información y obtenerla utilizando las
potencialidades de un lenguaje de consulta SQL.
Con el fin de evaluar los efectos ponderados de los indicadores propuestos, se eligió como clasificador de referencia una Red Neuronal
(RN) Perceptrón Multicapa. La elección se realizó teniendo en cuenta
resultados en el procesamiento de imágenes reportadas en la bibliografía (Wang et al., 2013; Ma et al., 2005; Kobashi et al., 2001; Iscan et al.,
2009; Middleton & Damper 2004) y la experiencia de los investigadores
en dicho modelo.
Las RN constituyen un modelo computacional inspirado en ciertas
características de las redes neuronales biológicas, cuyo primer modelo matemático se presentó en 1943 por Warren McCulloch y Walter
Pitts. Permiten resolver diversos problemas complejos de la vida real,
que no son resolubles con tecnologías convencionales. El perceptrón
multicapas (PMC) es un tipo de red neuronal artificial de aprendizaje
supervisado (Figura 2), que consiste en un arreglo de nodos o neuronas
ubicados en capas, de forma tal que los nodos de una están conectados
a todos los nodos de la capa anterior y de la siguiente mediante valores
de pesos de conexión, o sinapsis. Estas neuronas o nodos, computan
alguna función no lineal simple en la suma de las entradas, denominada
función de activación. Un PMC puede aproximar relaciones no lineales
entre datos de entrada y de salida.

Figura 2. Red neuronal tipo Perceptrón Multicapa con nc capas

20



Se implementó una Red Neuronal (R.N) del tipo Perceptrón Multicapa,
con una neurona de salida por cada clase o estado del cultivo, una neurona de entrada por canal para cada indicador propuesto, y una capa
intermedia de 80 neuronas. Se utilizó la R.N. para evaluar además la
robustez de cada indicador en relación a cada clase, y para segmentar
la imagen original cuantificando en hectáreas la superficie asociada a
cada estado del cultivo.
Atendiendo al problema de la complejidad de los datos al momento
de entrenar una red neuronal, se minimizaron efectos negativos del
desbalance y solapamiento de clases (Toribio et al., 2009) mediante la
generación de training sets balanceados con igual número de muestras
por clase, y obtenidos aleatoriamente del dataset a partir de la consulta
SQL:
DROP VIEW balanceada;

CREATE VIEW balanceada AS

(SELECT e.id FROM tablaAnalisisEspectro e WHERE
e.tamVentana=tamVent AND e.clase=’CP’ ORDER BY RANDOM()
LIMIT cantMuestras) UNION

SELECT e.id FROM tablaAnalisisEspectro e WHERE
e.tamVentana=tamVent AND e.clase=’CCA’ ORDER BY RANDOM()
e.tamVentana=tamVent AND e.clase=’CCP’ ORDER BY RANDOM()
e.tamVentana=tamVent AND e.clase=’CCF’ ORDER BY RANDOM()
LIMIT cantMuestras)UNION
e.tamVentana=tamVent AND e.clase=’C’ ORDER BY RANDOM()
LIMIT cantMuestras);

Para cada una de las muestras se extrajeron las características de
textura a fin de conformar los patrones de entrenamiento y testeo. A
partir de dichos patrones se realizaron ensayos con diferentes configuraciones de características y del clasificador de referencia. El criterio
de selección que se utilizó se vinculó a aquellas configuraciones en las
cuales se incrementó en menor medida el error de testeo

21


3. Resultados y discusión
Los indicadores de interés evaluados resultaron, en general, promisorios
para el proceso de caracterización de la caña caída, a excepción del
NDVI. Este índice presentó valores bajos en el caso de la caña caída
donde el cultivo alcanza más biomasa y el valor debería ser mayor
(Flowers et al., 2003, Raun et al., 2005, Melchiori et al., 2006). Esto
sucede porque la banda IR capta las variaciones en estructura del cultivo asociadas a la biomasa y el índice de área foliar. Cuando el cultivo
se cae la estructura se ve modificada, disminuye, eso hace bajar el IR
y entonces el NDVI toma valores más bajos. También hay un efecto
confundido del aporte de reflectancia del suelo en la caña caída que
hace disminuir el NDVI (Qi et al., 1994; Rondeaux et al., 1996). Por lo
tanto, este índice no fue incorporado en el análisis posterior.
En el caso de los valores de desvío del histograma se observó para la
clase caña en pié (CP) un corrimiento hacia valores inferiores en los
tres canales analizados (figura 3). Se considera al desvío estándar del
histograma como un indicador candidato de la clase caña en pie.

Figura 3. Desvío estándar del histograma de las muestras contenidas en los
polígonos que conforman el dataset, para cada clase y ventanas de tamaño V= 40
px en los tres canales analizados (Ch=0: Infrarrojo, Ch=1: Rojo, Ch=2: Verde).

La distribución de la entropía presentó valores más elevados para las
clases de caña caída (CCA, CCF y CCP) y suelos descubierto respecto
a la clase caña en pie, con valores medios diferentes entre clases. Por lo
tanto, se considera a la entropía del histograma un indicador promisorio
para la identificación de caña en pie.
22



En cuanto a la firma espectral, si bien se observa solapamiento en las
distribuciones entre clases, para el canal IR se observa un desplazamiento hacia valores superiores para caña en pie. La firma espectral para el
canal IR se presenta como indicador promisorio para identificar caña
en pie, por lo que se considera como una de las variables a incorporar.
De la aplicación del filtro de detección de bordes Frei-Chen sobre la imagen de los cuadros productivos completos, surge una atenuación casi
total de las áreas homogéneas, como ser caña en pie, caña caída en
áreas grandes y corridas. En cambio, se realzan las zonas de caña caída
en forma de parches y caña caída con fototropismo, aunque esta última
atenuada por la aparición de nuevas hojas verdes, las que suavizan sus
bordes Al comparar las firmas espectrales de las imágenes originales con
las resultantes del filtro de detección de bordes Fei-Chen, se observa
una mejor resolución de la clase caña en pie (CP) en relación al resto.
También mejora, aunque en menor medida, la resolución interclase para
las variantes de caña caída. El nuevo indicador obtenido es considerado
promisorio para la identificación de características de caña caída.

3.1 Análisis de la influencia de los indicadores
en el clasificador de referencia
Se utilizó el clasificador de referencia, suprimiendo de las entradas un
indicador por vez en sus tres canales. Se realizó un testeo del clasificador con 200 ciclos de entrenamiento – testeo, con ventaneo de 60
pixeles de lado, 60 muestras por clase en el entrenamiento y clasificación con barrido de ventana de 20 pixeles, paso de a tres pixeles en la
clasificación, para un dataset normalizado en brillo. El objetivo de este
tipo de análisis es fundamentalmente evidenciar la influencia de cada
una de las variables consideradas desde el punto de vista de una tarea
de clasificación.
En los diferentes ensayos se observó que al suprimir el desvío del histograma de los patrones de entrenamiento y testeo de la red neuronal,
la performance global resultó en valores similares a los obtenidos al no
suprimir ninguna entrada.
Al suprimir otras variables como la entropía del histograma, firma espectral (Espectro) del histograma o firma espectral de las imágenes con
procesamiento de detección de borde (Esp. Borde), la tasa de aciertos
globales decreció, resultando afectada en mayor medida por esta última
variable, lo que indica que la firma espectral de las imágenes procesadas
con filtro de detección de bordes es un indicador muy fuerte asociado
a la clasificación.
Al analizar la performance comparativa para la clasificación de la clase
caña en pie (CP) se observa que al suprimir el desvío del histograma,
23


y en menor medida la entropía, la tasa de aciertos crece, incluso por
encima de los valores obtenidos al no suprimir ninguna entrada. En
consecuencia se puede inferir que estas dos variables no están aportando información útil para la clasificación de caña en pie, pero además
intervendrían negativamente aportando ruido, lo que baja la performance
de la red para esta clase en particular.
Los errores globales (Tabla 1) ante la supresión de un indicador de
entrada de la red crecen al suprimir la firma espectral de las imágenes
con detección de borde (Esp. Borde) y en menor medida al suprimir la
entropía. Esto refleja una asociación positiva de dichos indicadores con
la performance de la clasificación. Diferente es el caso de suprimir el
desvío o firma espectral, cuando se evidencia disminución de la tasa
de error global, aunque muy levemente en el último caso.
Tabla 1. Valores promedio de errores globales al suprimir un indicador en la red
Entrada Suprimida
Desvío estándar
Entropía
Firma espectral detección borde
Firma espectral
Ninguna

Errores totales (valores porcentuales promedio)
3,02
8,12
9,63
4,66
5,54

Análisis comparativos de supresión de entrada realizados preliminarmente para el testeo del algoritmo, arrojan las mismas conclusiones,
las que se confirman al analizar un dataset normalizado en brillo y
evaluando 200 ciclos de entrenamiento y testeo.
En la tabla 2 la columna Total refleja el porcentaje global de falsos
positivos a la clase CP, el cual resulta de promediar la ponderación
de los porcentajes de falsos positivos de cada clase con la cantidad
de muestras de dicha clase. Se observa que el error alcanza los
valores más altos al suprimir la firma espectral con detección de
borde, mientras que la variable que menor efecto presenta es el
desvío estándar.
Tabla 2. Valores porcentuales promedio de falsos positivos a
CP por clase al suprimir un indicador en la red
Análisis de errores promedio por clase
Ent. Suprimida:
CCA
CCF
CCP
Desvío estándar
2,66
6,07
2,07
Entropía
11,24
12,02
6,15
Firma espectral detección borde
10,73
16,71
8,34
Firma espectral
4,95
6,59
3,39
Ninguna
6,59
9,93
4,39

24

C
2,54
7,07
5,15
5,59
3,85

Total
3,02
8,12
9,63
4,66
5,54



3.2 Análisis de la influencia de las entradas
individuales en el clasificador
Suprimiendo una de las doce variables de entrada a la vez (indicador
evaluado para cada uno de los canales, tabla 3), se realizó un testeo
del clasificador con 64 ciclos de entrenamiento-testeo, con ventaneo
de 60 pixeles de lado, 60 muestras por clase en el entrenamiento y
clasificación con barrido de ventana de 20 pixeles, pasó de a 3 pixeles
en la clasificación.
El análisis de falsos positivos hacia la clase CP que se ha realizado resulta primordial, ya que una mayor tasa de aciertos en la
clasificación de una clase no necesariamente está asociada a una
mejor performance de funcionamiento de la red. Como ejemplo,
es válido considerar la anulación de la entrada N°4 que a primera vista prometió excelentes resultados en cuanto a aciertos, ya
que produjo la mayor tasa de aciertos para CP. Sin embargo, esa
anulación también incrementó considerablemente el porcentaje de
falsos positivos, lo que indica que la red estaría sobreestimando la
cantidad de caña en pie e incrementando su error de clasificación
para la clase de interés. Resulta entonces fundamental analizar
los resultados de aciertos y errores para evitar llegar a falsas
conclusiones (figura 4).
Tabla 3. Numeración de las variables de entrada utilizadas por canal
N°
1
2
3
4
5
6
7
8
9
10
11
12
13

Variable de entrada
Firma Espectral
Firma Espectral
Firma Espectral
Firma Espectral con Detección de Borde
Entropía Histograma
Desvío Estándar del Histograma
Ninguna entrada anulada

Canal
0
1
2
0
1
2
0
1
2
0
1
2

Se observa que al suprimir las entradas 10, 11 y 12 no se incrementa
sensiblemente el número de falsos positivos para la clase CP, confirmando lo mencionado sobre la disminución de falsos positivos para CP
en relación a no suprimir ninguna entrada.
25


Figura 4. Falsos positivos de CP al suprimir una entrada

3.3 Cuantificación de clases en las imágenes
De la segmentación realizada con supresión del indicador desvío,
se obtienen estadísticas por clase en porcentajes de superficie del
cuadro productivo y su distribución espacial (figura 5). A modo de
ejemplo, en la figura 5 a, se muestra la segmentación de regiones
dentro de un cuadro productivo y su cuantificación espacial (figura 5
b.) resaltándose en gris oscuro el área de interés para cosecha (Caña
en pie). La extensión del mismo es de 50,1 hectáreas, de las cuales
la segmentación de regiones identifica que 45,5 hectáreas son de
caña en pie y el resto de CC. Esta información resumida del cuadro
productivo obtenida a partir de la imagen permitirá realizar una estimación más precisa de costos de la cosecha y del posterior proceso
de industrialización.

Figura 5. Segmentación de regiones dentro de un cuadro productivo para la planificación
de la cosecha de caña. (a- Imagen aérea original, b-Imagen segmentada por clase)

26



4. Conclusiones
El trabajo interdisciplinario entre profesionales de diferentes áreas, ha
posibilitado un abordaje innovador hacia el problema de la cuantificación
de CC proponiendo nuevas herramientas tecnológicas para resolverlo.
Se confeccionó un dataset de referencia y una base de datos para el
estudio del cultivo de la caña de azúcar en sus diferentes estados, a
partir del cual el software creado pudo brindar información sobre la
robustez de los indicadores propuestos y realizar una estimación de
la superficie de caña de azúcar caída, brindando valores numéricos y
su distribución espacial en la forma de imagen segmentada, con un
margen de error acotado.
En cuanto a las variables descriptoras del problema se observó que, a
excepción del desvío estándar del histograma y el NDVI, los indicadores
propuestos resultan satisfactorios para la clasificación de caña caída
vs caña en pie, en este contexto de aplicación.
Si bien no se logró diferenciar a través de patrones de textura las diferencias entre los distintos tipos de CC, la clasificación de caña caída vs
caña en pie permite realizar una cuantificación de las mismas la cual
ya permite planificar las tareas de cosecha.
El clasificador de referencia fue utilizado principalmente para explorar
distintas indicadores de textura y ponderar su importancia relativa en
relación a la detección planteada.
A partir de los indicadores obtenidos en este trabajo se proyecta como
trabajo futuro la comparación y/o combinación con otros clasificadores
y la evaluación de nuevos abordajes para la diferenciación entre los
distintos tipos de cañas caídas.

27


5. Referencias bibliográficas
ANDERSON, D.L.; PORTIER, K.M.; OBREZA, T.A.; COLLINS, M.E & PITTS, D.J. (1999). Tree
regression analysis to determine effects of soil variability on sugarcane yields. In: Soil Science
Society of America Journal, Vol. 63, No. 3, Madison (WI, USA), Soil Science Society of America,
p. 592–600, ISSN: 0361-5995.
FLOWERS, M.W.R.; HEINIGER, R.; TARLETON, B. & MEIJER, A. (2003). Field Validation of a
Remote Sensing Technique for Early Nitrogen Application Decisions in Wheat. In: Agronomy
Journal, Vol. 95, No. 1. Madison (WI, USA): American Society of Agronomy, p 167–176. ISSN:
0002-1962.
FREI, W. & CHEN, C. (1977). Fast boundary detection: a generalization and a new algorithm.
En: IEEE Transactions on computers, Vol C-26, No.10 (Oct.). Washington DC (USA): IEEE
Computer Society. p. 988-998. ISSN: 0018-9340.
Iscan, Z.; YÜKSEL, A.; Dokur, Z.; Korürek, M. & Ölmez, T. (2009). Medical image segmentation with transform and moment based features and incremental supervised neural network
[online]. Digital Signal Processing, Vol. 19, No. 5 (Sep.). Philidelphia (PA, USA): Elsevier Inc.
p. 890–901 <http://www.sciencedirect.com/science/article/pii/S1051200409000086> [consult:
12/05/2013]
KEMERER, A., MELCHIORI A.; ALBARENQUE, S. & MELCHIORI, R. (2010). Utilización de fotografías aéreas multiespectrales para caracterizar la variabilidad espacial en la producción
de caña de azúcar. En: 9º Curso de Agricultura de Precisión y 4ª Expo de Máquinas Precisas
(14-16/07/2010), Manfredi (Córdoba, Argentina): INTA - EEA Manfredi. Material del 9º Curso
de Agricultura de Precisión, p. 177-182.
Kobashi, s.; Kamiura, n.; Hata, y. & Miyawaki. F. (2001). Volume-quantization-based neural
network approach to 3D MR angiography image segmentation. In: Image and Vision Computing, Vol. 19, No. 4 (Mar.). Philadelphia (PA, USA): Elsevier Inc. p. 185–193. ISSN: 0262-8856
LARRAHONDO, J.E. (1995). Calidad en la Caña de Azúcar. En: Cenicaña. El cultivo de la caña en
la zona azucarera de Colombia, Cali, CENICAÑA. p. 337-354. <http://www.cenicana.org/pdf/
documentos_no_seriados/libro_el_cultivo_cana/libro_p337-354.pdf> [consulta: 15/04/2013]
Ma, L. & Staunton, R.C. (2005). Integration of multiresolution image segmentation and neural
networks for object depth recovery. In: Pattern Recognition, Vol. 38, No. 7 (Jul.). Philadelphia
(PA, USA): Elsevier Inc. p. 985 – 996. ISSN: 0031-3203.
MELCHIORI, R.J.M.; CAVIGLIA, O.P.; BIANCHINI, A.A.; FACCENDINI, N.; ALBARENQUE, S. &
RAUN W. (2006). Wheat Yield Prediction by Using an Active Sensor in the Northern Argentinean Pampas. In: ASA-CSSA-SSSA Annual meeting (12-16/11/2006), Indianapolis (Indiana,
USA): American Society of Agronomy, ASA - Crop Science Society of America, CSSA - Soil
Science Society of America, SSSA. Proceedings of ASA-CSSA-SSSA Annual Meeting 2006.
Madison (WI, USA): ASA-CSSA-SSSA.
MELCHIORI, A.; KEMERER, A. & MELCHIORI, R. Y BELLOMO, M. (2009). Utilización de fotografías aéreas multiespectrales de alta resolución para la cuantificación de caña de azúcar
caída. En: I Congreso Argentino de Agroinformática (24-25/08/2009), Mar del Plata (Argentina):
Sociedad Argentina de Informática y el Instituto Nacional de Tecnología Agropecuaria, INTA.
Middleton, I. & Damper, R. I. (2004). Segmentation of magnetic resonance images using a
combination of neural networks and active contour models. In: Medical Engineering & Physics,
Vol. 26, No. 1 (Jan.). Philadelphia (PA, USA): Elsevier Inc. p. 71–86. ISSN: 1350-4533.
PÉREZ, D.; FANDOS, C.; MAZZONE, L.; SORIA, F.; SCANDALIARIS, P. & SCANDALIARIS, J.
(2005). Caña de azúcar en Tucumán y Argentina: evolución de algunos aspectos económicos
y productivos en la campaña 2004 [en línea]. Reporte agroindustrial. Estadísticas y márgenes
de cultivos tucumanos. Vol. 2, Boletín Nº 6, (ene.). Tucumán (Argentina): Estación Experimental
Agroindustrial Obispo Colombres, EEAOC. p 1-6. <http://www.eeaoc.org.ar/upload/publicaciones/archivos/189/20120316170830000000.pdf> [consulta: 02/04/2013]
QI, J.; CHEHBOUNI, A.; HUETE, A.; FERRY, Y. & SOROOSHIAN, S. (1994). A modified soil adjusted vegetation index, Remote Sensing of Environment, Vol. 48, No. 2 (May.). Philadelphia
(PA, USA): Elsevier Inc. p. 119-126, ISSN: 0034-4257. <http://www.sciencedirect.com/science/
article/pii/0034425794901341> [consult: 01/04/2013]

28



RAUN, W.R.; SOLIE, J.B.; STONE, M.L.; MARTIN, K.L.;FREEMAN, K.W.; MULLEN, R.W.;
ZHANG, H.; CHEPERS, J.S. & JOHNSON, G.V. (2005). Optical Sensor-Based Algorithm for
Crop Nitrogen Fertilization [online].In: Communications in Soil Science and Plant Analysis,
Vol. 36, No. 19-20. Johannesburg (South Africa): Taylor & Francis, Inc. p. 2759-2781. ISSN:
0010-3624, EISSN: 1532-2416. <http://www.nue.okstate.edu/Index_Publications/NFOA_2003.
pdf> [consult: 02/04/2013]
RODRÍGUEZ, R.A.; SOPENA, R.A.; SALEME, P.M. & VICINI, L.E. (2010). Pérdidas durante la
Cosecha del Cultivo de Caña de Azúcar: Evaluaciones 2009 en la Provincia de Tucumán –
Argentina. En: Informes Técnicos del proyecto Precop, No. 1. Famaillá (Tucumán, Argentina):
INTA EEA Famaillá, No. 1, 18 p. ISSN: 1852-9399.
ROUSE, J. W.; Jr.; HAAS, R. H.; SCHELL, J. A. & DEERING, D. W. (1973). Monitoring vegetation
systems in the great plains with ERTS. In: Third ERTS Symposium (10-14/12/1973), Washington
D.C. (USA): NASA. Proceedings of Third ERTS Symposium Vol. 1., p. 309-317.
RONDEAUX, G.; STEVEN, M. & BARET, F. (1996). Optimization of soil-adjusted vegetation indices.
In: Remote Sensing of Environment, Vol. 55, No. 2 (feb.). Philadelphia (PA, USA): Elsevier
Inc. p. 95-107. ISSN: 0034-4257.
RUSSEL, B.C.; TORRALBA, A.; MURPHY, K. P. & FREEMAN, W.T. (2008). LabelMe: a database
and web-based tool for image annotation. In: International Journal of Computer Vision, Vol.
77, No. 1-3 (may.). New York (USA): Springer US. p. 157-173, ISSN: 0920-5691.
SUSTAITA, G. (2005). Modelo estratégico para la industria azucarera regional. Tesis Final MBA,
San Miguel deTucumán (Tucumán, Argentina): Universidad Católica del Norte Santo Tomás
de Aquino, Fundación del Tucumán y Pontificia Universidad Católica de Valparaíso.
TONATTO, J.; ROMERO, E.R.; LEGGIO NEME, M.F.; SCANDALIARIS, J.; ALONSO, J.; DIGONZELLI, P.; ALONSO, L. & CASEN, S. (2005). Importancia de la calidad de la materia prima en
la productividad de la agroindustria azucarera. En: Gacetilla Agroindustrial de la EEAOC, No.
67, Tucumán (Argentina): EEAOC. 13 p.
TORIBIO, P.; RODRÍGUEZ, B.G. & ALEJO, R. (2009). Complejidad de los datos en las Redes
Neuronales Artificiales: Estado de la cuestión. En: 7° Congreso Internacional de Cómputo
en Optimización y Software, CICOS 2009 (17-20/11/2009), México (México): UAEM. CRUZCHÁVEZ, M.A. & ZAVALA-DÍAZ, J.C. (eds.). Memorias del 7mo. Congreso de Cómputo CICOS 2009.
ISBN(e) 978-607-00-1970-8, México (México): UAEM. p. 229-235. <http://campusv.uaem.mx/
cicos/imagenes/memorias/7mocicos2009/Articulos/24%20%20Complejidad%20de%20los%20
Datos%20en%20Redes.pdf> [consulta: 02/04/2013]
VICCINI, L. (2007). Determinación de la variación de rendimiento cultural de caña de azúcar en
Tucumán, Argentina, posicionada con GPS. En: Actualización Técnica Nº 8 (jun.). Manfredi
(Córdoba, Argentina): Proyecto Nacional Agricultura de Precisión, INTA, 18 p.
Wang, A.; ZINEDDIN, B.; LIANG, J.; ZENG, N.; LI, Y.; DU, M.; CAO, J. & LIU,, X. (2013). A novel
neural network approach to cDNA microarray image segmentation [online]. In: Computer
Methods and Programs in Biomedicine, Vol. 111, No. 1 (Jul.). Philidelphia (PA, USA): Elsevier Inc. p. 189–198 <http://www.sciencedirect.com/science/article/pii/S016926071300103X>
[consult: 18/05/2013]

29


30



Aplicación de la minería de datos
en la extracción de perfiles
de deserción estudiantil*1
[Application of data mining in
extracting student dropout profiles]
Ricardo TIMARÁN PEREIRA2 - Andrés CALDERÓN ROMERO3
Javier JIMÉNEZ TOLEDO4

Resumen
En este artículo se presentan los primeros resultados del proyecto
de investigación cuyo objetivo es detectar patrones de deserción
estudiantil a partir de los datos socioeconómicos, académicos,
disciplinares e institucionales de los estudiantes de los programas
de pregrado de la Universidad de Nariño e Institución Universitaria
IUCESMAG, dos instituciones de educación superior de la ciudad
de Pasto (Colombia), utilizando técnicas de Minería de Datos. Los
resultados obtenidos corresponden a la Universidad de Nariño.
Se descubrieron perfiles socioeconómicos y académicos de los
*

1

2

3
4

TIMARÁN PEREIRA, Ricardo; CALDERÓN ROMERO, Andrés & JIMÉNEZ TOLEDO, Javier
(2013). Aplicación de la minería de datos en la extracción de perfiles de deserción estudiantil.
En: Ventana Informática. No. 28 (ene.-jun.). Manizales (Colombia): Facultad de Ciencias e
Ingeniería, Universidad de Manizales. p. 31-47. ISSN: 0123-9678
Artículo de investigación científica y tecnológica proveniente del proyecto Detección de perfiles
de deserción estudiantil con técnicas de minería de datos en los programas de pregrado
de la Universidad de Nariño e Institución Universitaria CESMAG, ejecutado en el periodo
10/2012-04/2013, e inscrito en los grupos de investigación GRIAS de la Universidad de Nariño
y Tecnofilia de la IUCESMAG.
PhD. en Ingeniería, MSc. en Ingeniería, Especialista en Multimedia e Ingeniero de Sistemas
y Computación.
Director grupo de investigación GRIAS, Profesor Asociado, Departamento de Sistemas, Facultad de Ingeniería, Universidad de Nariño, Pasto (Colombia). Correo electrónico: ritimar@
udenar.edu.co
MSc. en Geoinformática, Ingeniero de Sistemas. Profesor hora cátedra, Departamento de
Sistemas, Facultad de Ingeniería, Universidad de Nariño, Pasto (Colombia). Correo electrónico:
aocalderon@udenar.edu.co
Especialista en Docencia Universitaria, Ingeniero de Sistema. Profesor tiempo completo, Facultad de Ingeniería, Institución Universitaria CESMAG, Pasto (Colombia). Correo electrónico:
jajimenez@iucesmag.edu.co

31


estudiantes que desertan utilizando la técnica de clasificación basada en árboles de decisión. El conocimiento generado permitirá
soportar la toma de decisiones eficaces de las directivas universitarias enfocadas a formular políticas y estrategias relacionadas
con los programas de retención estudiantil que actualmente se
encuentran establecidos.
Palabras clave: Extracción de Perfiles, Deserción Estudiantil,
Minería de Datos, Clasificación, Árboles de Decisión

Abstract
The first results of the research project that aims to identify patterns
of student dropout from socioeconomic, academic, disciplinary
and institutional data of students from undergraduate programs
at the University of Nariño and IUCESMAG University, two higher
education institutions in the city of Pasto (Colombia), using data
mining techniques are presented. The results correspond to the
University of Nariño. Socioeconomic and academic profiles were
discovered of students who drop using classification technique
based on decision trees. The knowledge generated will support
effective decision-making of university staff focused to develop
policies and strategies related to student retention programs that
are currently set.
Keywords: Extraction of Profiles, Student Dropout, Data Mining, Classification, Decision Trees

Introducción
Los países de América Latina enfrentan desafíos similares en la educación superior, los cuales constituyen el contexto de la deserción
estudiantil: financiación, incremento de la cobertura, aseguramiento de
la calidad, mejoramiento de la equidad en el acceso y permanencia,
mayor articulación con la educación secundaria, diversificación de la
oferta para atender distintas dimensiones, intereses y necesidades
(ciencia, tecnología, sector productivo, investigación, humanidades,
artes, formación integral) y mayor vinculación con el sector laboral y
productivo. Según el Instituto para la Educación Superior en América
Latina y el Caribe (IESALC), citado por MEN (2006a, 14), Latinoamérica
presentó en el año 2003 una cobertura promedio en educación superior
del 28.7% y una tasa de deserción estudiantil del 50%.
En Colombia, el sistema educativo cuenta con 277 instituciones de
educación superior, de las cuales 81 son públicas y 196 privadas. De
32



acuerdo al Sistema Nacional de Información de la Educación Superior (SNIES), citado por MEN (2006a, 14), a 2006 la cobertura fue de
26.1%, lo cual equivale a 1.301.728 estudiantes. Uno de los principales
problemas que enfrenta el sistema de educación superior colombiano
concierne a los altos niveles de deserción estudiantil. Pese a que los
últimos años, según MEN (2009, 13), se han caracterizado por aumentos
de cobertura e ingreso de estudiantes nuevos, el número de alumnos
que logra culminar sus estudios superiores no es alto, dejando entrever
que una gran parte de éstos abandona sus estudios, principalmente en
los primeros semestres, ya que de cada cien estudiantes que ingresan
a una institución de educación superior cerca de la mitad no logra culminar su ciclo académico y obtener la graduación.
Adicionalmente, MEN (2006a, 14) plantea que a 2004, la deserción
se estimó en 49%, cuyas causas fueron: limitaciones económicas y
financieras, bajo rendimiento académico, desorientación vocacional y
profesional y dificultades para adaptarse al ambiente universitario. Es
de resaltar que, señala MEN (2006b, 1), la deserción estudiantil conlleva altos costos sociales y económicos que afectan a las familias, los
estudiantes, las instituciones y el Estado.
Se entiende por deserción estudiantil, de acuerdo con UPN (2005), al
hecho de que un número de estudiantes matriculados no siga la trayectoria normal del programa académico, bien sea por retirarse de ella, por
repetir cursos o por retiros temporales. MEN (2009), la define como una
situación a la que se enfrenta un estudiante cuando aspira y no logra
concluir su proyecto educativo, considerándose como desertor a aquel
individuo que siendo estudiante de una institución de educación superior
no presenta actividad académica durante dos semestres académicos
consecutivos, lo cual equivale a un año de inactividad académica. Esta
definición es el que se aplicó en esta investigación.
La minería de datos en la educación no es un tópico nuevo y su estudio
y aplicación ha sido muy relevante en los últimos años. El uso de estas
técnicas permite, entre otras cosas, predecir cualquier fenómeno dentro
del ámbito educativo. De esta forma, utilizando las técnicas que ofrece
la minería de datos, se puede predecir, con un porcentaje muy alto de
confiabilidad, la probabilidad de desertar de cualquier estudiante, coinciden Valero (2009) y Valero, Salvador & García (2010).
En el entorno internacional se han desarrollado algunos proyectos de
investigación aplicando la minería de datos al descubrimiento de patrones de deserción estudiantil:
- Tal como lo señalan Pautsch (2009, 58) y Pautsch, La Red & Cutro
(2010), en la Universidad Nacional de Misiones (Argentina) se realizó
33


una investigación sobre deserción estudiantil utilizando las técnicas de
minería de datos. Su objetivo principal fue maximizar la calidad que los
modelos tienen para clasificar y agrupar a los estudiantes, de acuerdo a
sus características académicas, factores sociales y demográficos, que
han desertado de la Carrera Analista en Sistemas de Computación de
la Facultad de Ciencias Exactas, Químicas y Naturales analizando los
datos de las cohortes entre los años 2000 al 2006.
- De igual manera, según La Red et al. (2010), en la Universidad Nacional del Nordeste (Argentina) se realizó un estudio cuyo objetivo
principal fue aplicar técnicas de almacenes de datos y minería de datos
basadas en clustering para la búsqueda de perfiles de los alumnos de
la asignatura Sistemas Operativos de la Licenciatura en Sistemas de
Información según su rendimiento académico, situación demográfica y
socioeconómica, que permita conocer a priori situaciones potenciales
de éxito o de fracaso académico.
- En la Universidad Nacional de la Matanza (Argentina), señalan
Spositto et al., (2010), se aplicaron técnicas de minería de datos para
evaluar el rendimiento académico y la deserción de los estudiantes
del Departamento de Ingeniería e Investigaciones Tecnológicas sobre
los datos de los alumnos del periodo 2003 al 2008. La implementación
de este proceso se realizó con el software MS SQL Server para la
generación de un almacén de datos, el software SPSS para realizar
un preprocesamiento de los datos y el software Weka (Waikato Environment for Knowledge Analysis) para encontrar un clasificador del
rendimiento académico y para detectar los patrones determinantes
de la deserción estudiantil.
- Valero, (2009) y Valero, Salvador & García, (2010), señalan que en la
Universidad Tecnológica de Izúcar de Matamoros (México) se propuso
una investigación para identificar las causas que motivan la deserción
de sus estudiantes desde que ingresan. Mediante la técnica de minería
de datos clasificación y la herramienta Weka, encontraron relaciones
entre atributos académicos que identifican y predicen la probabilidad
de deserción y propusieron una herramienta para el tutor que le permite
predecir la probabilidad de deserción de cualquier alumno en cualquier
momento de su estancia escolar.
En el ámbito colombiano, de acuerdo con Restrepo & López (2008), en
la Universidad de La Sabana se realizó un proyecto de investigación
donde el objetivo era seleccionar, de una base de datos de estudiantes, los atributos que tuvieran mayor incidencia en la deserción de
la Universidad en los últimos cuatro años, con la técnica de minería
de datos clasificación por Rough Sets utilizando el paquete ROSE2.
De igual manera, Pinzón (2011) presenta la caracterización del perfil
34



del estudiante desertor de la Escuela de Marketing y Publicidad de la
Universidad Sergio Arboleda, utilizando la técnica de minería de datos
agrupamiento con el algoritmo K-means. Se analizaron las variables
demográficas del alumno obtenidas en el registro de última matrícula
del mismo semestre de abandono y las causas que lo generaron. Como
resultado final, se obtuvieron tres tipos de clúster que para el caso de
la investigación, constituyeron perfiles significativos.
En este artículo se presentan los primeros resultados del proyecto de
investigación cuyo objetivo es detectar patrones de deserción estudiantil a partir de los datos socioeconómicos, académicos, disciplinares
e institucionales de los estudiantes de los programas de pregrado de
dos instituciones colombianas de educación superior, utilizando técnicas de Minería de Datos. Se descubrieron perfiles socioeconómicos
y académicos de los estudiantes que desertan utilizando la técnica
de clasificación basada en árboles de decisión con la herramienta
Weka, una de las suites más utilizadas en el área de descubrimiento
de conocimiento en los últimos años (García, s.f.). El conocimiento
generado permitirá soportar la toma de decisiones eficaces de las
directivas universitarias enfocadas a formular políticas y estrategias
relacionadas con los programas de retención estudiantil que actualmente se encuentran establecidos.
El resto del artículo se organiza de la siguiente manera. En la sección
1, se presenta los conceptos básicos del proceso de descubrimiento
de conocimiento en bases de datos. En la sección 2, se describe la
metodología utilizada en la investigación. En la sección 3, se presentan
los resultados de la fase de minería de datos y la discusión de resultados y finalmente, en la última sección se presenta las conclusiones
y trabajos futuros.

1. Fundamento teórico
1.1 Proceso de descubrimiento de
conocimiento en bases de datos
El proceso de extraer conocimiento a partir de grandes volúmenes de
datos ha sido reconocido por muchos investigadores como un tópico de
investigación clave en los sistemas de bases de datos, y por muchas
compañías industriales como una importante área y una oportunidad
para obtener mayores ganancias. Fayyad, Piatetsky-Shapiro & Smyth
(1996) lo definen como «El proceso no trivial de identificación de patrones válidos, novedosos, potencialmente útiles y fundamentalmente
entendibles al usuario a partir de los datos».
35


El Descubrir de Conocimiento en Bases de Datos (DCBD) es básicamente un proceso automático en el que se combinan descubrimiento
y análisis. El proceso, de acuerdo con Agrawal & Srikant (1994), Chen,
Han & Yu (1996) y Han & Kamber (2001), consiste en extraer patrones
en forma de reglas o funciones, a partir de los datos, para que el usuario los analice, tarea que implica generalmente preprocesar los datos,
hacer minería de datos (data mining) y presentar resultados. El proceso
DCBD es interactivo e iterativo, involucra numerosos pasos con la intervención del usuario en la toma de muchas decisiones y se resumen
en cinco etapas: Selección de datos, preprocesamiento, transformación
de datos, minería de datos (data mining) e interpretación. En la figura
1 se muestran estas etapas.

Figura 1. Etapas del proceso de descubrimiento
de conocimiento en bases de datos

1.2 Etapa de minería de datos
La minería de datos es la etapa más importante del proceso DCBD,
cuyo objetivo es la búsqueda, extracción y descubrimiento de patrones
insospechados y de interés. La minería de datos consta de diferentes
tareas, cada una de las cuales puede considerarse como un tipo de
problema a ser resuelto por un algoritmo de minería de datos, afirman
Adamo (2001) y Hernández, Ramírez & Ferri (2005), donde la tarea de
clasificación por árboles de decisión es una de ellas.
La clasificación por árboles de decisión es, probablemente, el modelo
más utilizado y popular por su simplicidad y facilidad para su entendimiento, de acuerdo con Han & Kamber (2001) y Sattler & Dunemann
36



(2001). El conocimiento obtenido en el proceso de aprendizaje, según
Wang, Iyer & Scott (1998), se representa mediante un árbol en el cual
cada nodo interior contiene una pregunta sobre un atributo concreto (con
un hijo por cada posible respuesta) y cada hoja del árbol se refiere a una
decisión (una clasificación). Durante la etapa de construcción del árbol,
en forma recursiva, cada conjunto de datos se divide en subconjuntos
de acuerdo a un criterio de particionamiento, con el fin de escoger el
atributo que mejor separe los ejemplos restantes en clases individuales.
Seleccionar el mejor punto de particionamiento, consideran Sattler &
Dunemann (2001), es la parte de la construcción del árbol que mayor
tiempo consume.

2. Metodología
Teniendo en cuenta las etapas del proceso DCBD, inicialmente se
seleccionaron, de las bases de datos de la Universidad de Nariño los
datos socio-económicos, académicos, disciplinares e institucionales
de los estudiantes que ingresaron en los años 2004, 2005 y 2006 a los
diferentes programas de pregrado, con el fin de hacerles un seguimiento
completo hasta el año 2011, determinando si desertaron o no.
Con estos datos se construyó un repositorio de datos utilizando el
SGBD PostgreSQL. A estos datos se les aplicó las etapas de preprocesamiento y transformación con el fin de obtener conjuntos de
datos limpios y listos para aplicarles las técnicas y los algoritmos de
minería de datos. Los primeros resultados se obtuvieron utilizando la
técnica de clasificación basada en árboles de decisión con la herramienta libre de minería de datos Weka. Finalmente, estos resultados
fueron analizados, evaluados e interpretados para determinar la validez
del conocimiento obtenido.

2.1 Etapa de selección de datos
El objetivo de esta etapa es obtener las fuentes internas y externas
de datos que sirven de base para el proceso de minería de datos.
Como fuentes internas, se seleccionaron las bases de datos de Admisiones y Registro Académico. Teniendo en cuenta la ventana de
observación de este estudio (2004-2011), en estas bases de datos
se encuentra almacenada la información personal y académica de
15.805 estudiantes.
Como fuentes externas principales se seleccionaron datos de la base
de datos del Instituto Colombiano para el Fomento de la Educación
Superior (ICFES), del Departamento Administrativo Nacional de Estadística (DANE), del Sistema para la Prevención de la Deserción en la
37


Educación Superior (SPADIES), del Sistema de Identificación de Beneficiarios Potenciales de Programas Sociales (SISBEN) e información
de la Registraduría Nacional del Estado Civil Colombiano.
De los 15.805 registros se seleccionaron únicamente los datos de los
estudiantes de las cohortes 2004, 2005 y 2006 con los atributos más
relevantes para este estudio. Como resultado se obtuvieron 6870 registros y 62 atributos correspondientes a información socioeconómica,
académica, disciplinar e institucional. Estos datos fueron almacenados
en una base de datos construida con el sistema gestor de base de
datos PostgreSQL, en la tabla TA62. Esta tabla servirá de base para
las subsiguientes etapas del proceso de descubrimiento de patrones
de deserción estudiantil.

2.2 Etapa de preprocesamiento de datos
El objetivo de esta etapa es obtener datos limpios, i.e. datos sin valores nulos o anómalos, que permitan obtener patrones de calidad. Por
medio de consultas SQL ad-hoc o a través de histogramas, se analizó
minuciosamente la calidad de los datos contenidos en cada uno de los
atributos de la tabla TA62.
Teniendo en cuenta la relevancia de ciertos atributos para la investigación,
los valores nulos de estos atributos fueron actualizados con los valores
encontrados en fuentes externas. Por otra parte, los atributos con un alto
porcentaje de valores nulos tales como libreta-militar (82.45%), distritomilitar (84.82%), idmunicipio-conflicto (89.57%), periodo-grado (89.50%),
padre-vive (99.47%), madre-vive (99.58%), descripción-laboral (99.75%)
entre otros, fueron eliminados por la imposibilidad de obtener estos valores con las fuentes externas o utilizando técnicas estadísticas como
la media, mediana y la moda o derivando sus valores a través de otros.

2.3 Etapa de transformación de datos
El objetivo de esta fase es transformar la fuente de datos en un conjunto
listo para aplicar las diferentes técnicas de minería de datos. Con el fin
de generar conocimiento acerca de los factores socioeconómicos, académicos, disciplinares e institucionales que pueden incidir en la deserción
estudiantil, se seleccionaron de la tabla TA62, los 31 atributos más representativos y con estos se creó la tabla TA31. De estos 31 atributos, se
escogieron 18 para analizar el factor socioeconómico y 15 para el factor
académico y se crearon las tablas TA18 y TA15 respectivamente. Dado el
reducido número de atributos seleccionados para los factores disciplinar
e institucional, estos se agregaron a la parte académica del estudiante.
Para facilitar la extracción de patrones, se discretizaron los valores
numéricos de la tabla TA31 a valores nominales. Este proceso se llevó
a cabo utilizando el filtro discretize de la herramienta Weka con el pará38



metro de frecuencias iguales (useEqualFrequency) a 6 valores. Por otra
parte se adecuo la tabla TA31 al formato ARFF (Atribute Relation File
Format) requerido por Weka para continuar con la etapa de minería de
datos. En la tabla 1 se muestran los atributos de la tabla TA31 con los
diferentes valores discretizados en formato ARFF. De acuerdo a esta
tabla, los primeros 17 atributos y el atributo 31 de TA31 forman la tabla
TA18 y corresponden a los atributos socioeconómicos. Los atributos
del 17 al 31 de la tabla TA31 corresponden a los atributos académicos
y estructuran la tabla TA15.

2.4 Etapa de minería de datos
El objetivo de la etapa de minería de datos es la búsqueda y descubrimiento de patrones insospechados y de interés aplicando tareas de
descubrimiento tales como clasificación, clustering, patrones secuenciales, asociaciones entre otras.
La tarea de minería de datos escogida para el proceso de descubrimiento de patrones de deserción estudiantil en la Universidad de Nariño fue
clasificación, teniendo en cuenta que con los valores del atributo clase
deserción se puede construir un modelo de clasificación que determine
las características de las estudiantes que desertan o no. Las reglas de
clasificación se obtuvieron con la herramienta Weka utilizando el algoritmo J48 que implementa el conocido algoritmo de árboles de decisión
C4.5 (Quinlan, 1993, 81).
Se utilizó el repositorio TA31 para obtener las reglas de clasificación
generales que caracterizan a los estudiantes que desertan. Se escogió
como clase, el atributo deserción. En la figura 2 se muestra el árbol
de decisión generado por Weka. De igual manera, se utilizaron los
conjuntos de datos TA18 y TA15 para determinar, respectivamente, los
factores socioeconómicos y académicos que inciden en la deserción
estudiantil. Las reglas de clasificación más relevantes se muestran en
la sección de resultados.

Figura 2. Árbol de decisión para reglas de clasificación generales a partir de TA31

39

Formato arff
atributo

40

@attribute

@attribute

@attribute

@attribute

@attribute

@attribute

@attribute

@attribute

No.

1

2

3

4

5

6

7

8

19
20

Zona_nacimiento {sur, CAPITAL,putumayo,norte,’otras
regiones’,’centro occidente’,costa,centro}

Zona_procedencia { CAPITAL,norte,sur,’centro occidente’,c
entro,costa,putumayo,’otras regiones’}

23

24

Ocupacion_padre {varios,’oficiales, operarios,
artesanos,industria manufacturera, construccion y
mineria’,’sin ocupacion’,hogar,’profesionales universitarios,
cientificos e intelectuales’,pensionados, etc.

22

Padre {n,s}

Estrato {0,1,2,3,4,5,6,99}

21

18

Estado_civil {soltero,casado,separado,’unión libre’,’madre
soltera’,viudo,religioso}

Regimen_salud {contributivo,subsidiado}

17

No.

Genero {m,f}

Atributos y valores

@attribute

@attribute

@attribute

@attribute

@attribute

@attribute

@attribute

@attribute

Formato arff
atributo

Atributos y valores

Facultad {‘ciencias exactas y naturales’,’ciencias
humanas’,’ciencias agricolas’,’ciencias económicas y
administrativas’,’ciencias de la salud’,ingeniería,’ciencias pe
cuarias’,educación,artes,’ingenieria agroindustrial’}

Extension { CAPITAL,tumaco,tuquerres,ipiales,samaniego,
buesaco,’la union’,ricaurte}

Icfes_total {‘mayor a 475’,’de 420 a 450’,’de 450 a 475’,’de
400 a 420’,’de 375 a 400’,’menor a 375’}

Icfes_promedio {‘de 53 a 56’,’de 48 a 50’,’de 46 a 48’,’de 50
a 53’,’menor a 46’,’mayor a 56’}

Icfes_ponderado {‘de 52 a 54’,’de 50 a 52’,’de 54 a 58’,’de
46 a 50’,’mayor a 58’,’menor a 46’}

Jornada_colegio {mañana,tarde,completa,noche,sabatina}

Tipo_colegio {publico,privado}

Edad_ingreso {‘igual a 18’,’menor a 18’,’mayor a 22’,’de 21
a 22’,’igual a 19’,’igual a 20’}

Tabla 1. Atributos tabla TA31 en formato ARFF


Formato arff
atributo

@attribute

@attribute

@attribute

@attribute

@attribute

@attribute

@attribute

@attribute

No.

9

10

11

12

13

14

15

16

27

Tipo_residencia {‘arrendada o anticresada’,propia,’propia
pagandose por cuotas’}

30

31

Ingresos_familiares {‘de 4540000 a 5980000’,’mayor
a 8540000’,’de 2850000 a 4540000’,’5980000 a
8854000’,’menor a 2850000’}

Valor_matricula_colegio {‘de 76639 a 106100’,’de 60248
a 76639’,’mayor a 106100’,’menor a 21550’,’de 21550 a
44369’,’de 44369 a 60247’}

Valor_matricula {‘menor a 100259’,’de 120574 a 158846’,’de
100259 a 120574’,’de 234266 a 381504’,’de 158846 a
234266’,’mayor a 381504’}

29

Hermanos_universidad {‘n ‘,’s ‘}

28

26

Ocupacion_madre {‘trabajadores no calificados’,hogar,’sin
ocupacion’,’trabajadores de los servicios y vendedores’,vari
os,pensionados,’profesionales universitarios, etc.

Vive_con_familia {‘s ‘,’n ‘}

25

No.

Madre {n,s}

Atributos y valores

@attribute

@attribute

@attribute

@attribute

@attribute

@attribute

@attribute

Formato arff
atributo

Desercion {s,n}

Veces_perdida {‘igual a 2’,’igual a 3’,ninguna,’igual a 1’,’igual
a 4’,’mayor a 4’}

Area_materia {‘formación específica’,na,’filosofía histórica
’,pedagogía,’componente de fundamentación’,’formación
instrumental’,’ciencias básicas’,’paradigmas
teóricos’,’formación investigativa’,’formación matemática’,etc.

Semestre_perdidas {‘p ‘,’m ‘,na,’u ‘,ce}

Materias_perdidas {‘de 3 a 4’,’mayor a 9’,’de 5 a 6’,ninguna,’de
1 a 2’,’de 7 a 9’}

Promedio_nota {‘de 2.4 a 3.1’,’de 3.5 a 3.7’,’mayor a 4.0’,’de
3.7 a 4.0’,’de 3.1 a 3.5’,’menor a 2.4’}

Area_programa {‘matemáticas y ciencias naturales’,’ciencias
sociales y humanas’,’agronomía, veterinaria y
afines’,’economía, administración, contaduría y
afines’,’ciencias de la salud’,ingeniería,’ciencias de la
educación’,’bellas artes’}

Atributos y valores


41


2.5 Etapa de interpretación de datos
En esta etapa se evalúan e interpretan los patrones descubiertos para
determinar su calidad y consolidar el conocimiento descubierto e incorporarlo en otro sistema para posteriores acciones o para confrontarlo
con conocimiento previamente descubierto. Además, puede incluir la
visualización de los patrones extraídos, la remoción de los patrones
redundantes o irrelevantes y la traducción de los patrones útiles en
términos que sean entendibles para el usuario.
Con el fin de evaluar la calidad y precisión de la predicción de las reglas
de clasificación obtenidas se utilizó el método de validación cruzada
con 10 pliegues (n-fold cross validation). Los resultados de esta etapa
se analizan en la siguiente sección.

3. Resultados y discusión
Como resultado de interpretar el árbol de decisión, generado por el
algoritmo J48 (figura 2) con el conjunto de datos TA31 se obtuvieron
las reglas de clasificación más representativas con una confianza
mayor que 80% que se muestran en la tabla 2, donde puede observarse que los factores predominantes en la deserción estudiantil
en la Universidad de Nariño son los académicos, especialmente un
promedio bajo y el tener materias perdidas en los primeros semestres de la carrera.
Con el fin de determinar los factores socioeconómicos que inciden en la
deserción estudiantil, se generaron las reglas de clasificación con una
confianza mayor que 80% y con el conjunto de datos TA18. El resultado
se muestra en la tabla 3. Para determinar otros factores académicos
asociados a la deserción estudiantil, se generaron reglas de clasificación
con una confianza mayor que 80%, pero con el conjunto de datos TA15
sin tener en cuenta el atributo promedio_nota.
De acuerdo a las reglas de la tabla 3, los factores socioeconómicos que
inciden en la deserción estudiantil son el valor de la matrícula mayor
que $381504 y proceder de la zona sur del departamento. El hecho de
ser soltero, vivir con la madre y ser de la ciudad capital puede incidir
también en la deserción.
Según las resultados, los factores académicos que inciden en la deserción estudiantil, además de un promedio bajo y el tener materias
perdidas en los primeros semestres de la carrera, son la facultad a la
que pertenece el estudiante y el área a la que pertenece las materias
perdidas.
42



4. Conclusiones y trabajos futuros
Los primeros resultados obtenidos a través de la técnica de clasificación
por árboles de decisión indica que esta es capaz de generar modelos
consistentes con la realidad observada y el respaldo teórico, basándose
únicamente en los datos que se encuentran almacenados en las bases
de datos de una de las universidades. Una de las grandes dificultades
que se presenta en esta clase de estudios es la mala calidad de los
datos que muchas veces, después del proceso de limpieza, hace que se
descarten ciertas variables por la imposibilidad de obtener sus valores y
que de alguna manera influye en los resultados de la minería de datos.
Se ha obtenido un patrón general de deserción estudiantil determinado
por un promedio bajo y el tener materias perdidas en los primeros semestres de la carrera. Se han determinado factores socioeconómicos y
académicos asociados a la deserción estudiantil. La evaluación, análisis
y utilidad de estos patrones permitirá soportar la toma de decisiones
eficaces de las directivas universitarias enfocadas a formular políticas
y estrategias relacionadas con los programas de retención estudiantil
que actualmente se encuentran establecidos.
Como trabajos futuros están el continuar con el estudio de deserción
estudiantil en la universidad estudiada, aplicando otras técnicas de minería de datos tales como asociación y clustering con el fin de determinar
afinidades, similitudes y relaciones entre los factores socioeconómicos
y académicos de las estudiantes que desertan. Para verificar la calidad y precisión del modelo de clasificación obtenido se utilizarán otros
clasificadores y se compararán sus resultados. Se aplicará la misma
metodología al repositorio de datos de la universidad cooperante en
el estudio, para analizar y evaluar los patrones encontrados en ambas
instituciones de educación superior.
Agradecimientos
Este proyecto de investigación se financia con recursos del Ministerio de
Educación Nacional y con recursos de contrapartida de la Universidad
de Nariño y la Institución Universitaria CESMAG.

43

Atributo
Clase
Deserta
S
N
S
N
S

44
N
N
N
S
N
N
S

Reglas de clasificación socioeconómicas con el conjunto de datos TA18
valor_matricula = De 158846 a 234266 & vive_con_familia = N

valor_matricula = De 100259 a 120574 & estado_civil = SOLTERO & madre = N & padre = N & hermanos_universidad = N & genero = F

valor_matricula = De 158846 a 234266 & vive_con_familia = N & zona_nacimiento = SUR
valor_matricula > 381504 & zona_procedencia = SUR
valor_matricula = De 158846 a 234266 & vive_con_familia = N & zona_nacimiento = COSTA
valor_matricula = De 158846 a 234266 & vive_con_familia = N & zona_nacimiento = CENTRO OCCIDENTE
valor_matricula = De 100259 a 120574 & estado_civil = SOLTERO & madre = S & tipo_residencia = PROPIA & zona_nacimiento = CAPITAL

Atributo,
Clase,
Deserta

promedio_nota = De 3.1 a 3.5 & materias_perdidas = De 5 a 6 & semestre_perdidas = P
promedio_nota = De 3.5 a 3.7 & extension = CAPITAL & materias_perdidas = De 1 a 2 & semestre_perdidas = P & zona_procedencia = CAPITAL

Reglas

S
S

promedio_nota = De 3.5 a 3.7 & materias_perdidas = De 1 a 2 & semestre_perdidas = P

Tabla 3. Reglas de clasificaciones socioeconómicas y académicas

S

promedio_nota = De 2.4 a 3.1 & semestre_perdidas = P
promedio_nota = De 3.7 a 4.0 & veces_perdida = 1
promedio_nota = Menor a 2.4
promedio_nota = De 3.5 a 3.7 & extension = CAPITAL & materias_perdidas = De 7 a 9
promedio_nota = De 3.1 a 3.5 & materias_perdidas = De 3 a 4

Reglas

Tabla 2. Reglas de clasificación más representativas con el conjunto de datos TA31

0.0284
0.0242
0.0224
0.0136
0.0119

0.0337

0.0933

Soporte

0.017
0.0129

0.0227

0.1559
0.1551
0.1519
0.0314
0.0264

Soporte

0.912
0.9369
0.882
0.908
0.8071

0.8

0.8539

Confianza

0.8198
0.8341

0.8108

0.939
0.8528
0.998
0.8585
0.9535

Confianza


S
N
N
S
S
S
N
S
S
S
N
S
S
S
S
S
N
S
S
S

extension = CAPITAL & semestre_perdidas = P & facultad = CIENCIAS EXACTAS Y NATURALES

extension = CAPITAL & semestre_perdidas = CE

extension = CAPITAL & semestre_perdidas = NA & facultad = CIENCIAS HUMANAS

extension = CAPITAL & semestre_perdidas = P & area_materia = CIENCIAS BÁSICAS & facultad = CIENCIAS PECUARIAS

extension = TUMACO
extension = IPIALES
extension = CAPITAL & semestre_perdidas = NA & facultad = CIENCIAS ECONÓMICAS Y ADMINISTRATIVAS
extension = CAPITAL & semestre_perdidas = P & area_materia = FUNDAMENTACIÓN

extension = CAPITAL & semestre_perdidas = P & facultad = EDUCACIÓN

extension = TUMACO & area_programa = ECONOMÍA ADMINISTRACIÓN CONTADURÍA Y AFINES

extension = CAPITAL & semestre_perdidas = NA & facultad = ARTES

extension = CAPITAL & semestre_perdidas = P & area_materia = PEDAGOGÍA

extension = CAPITAL & semestre_perdidas = P & area_materia = CIENCIAS BÁSICAS & facultad = CIENCIAS EXACTAS Y NATURALES

extension = CAPITAL & semestre_perdidas = P & area_materia = FORMACIÓN MATEMÁTICA

extension = CAPITAL & semestre_perdidas = P & area_materia = FUNDAMENTACIÓN EN CIENCIAS EXACTAS Y NATURALES
extension = CAPITAL & semestre_perdidas = P & facultad = CIENCIAS DE LA SALUD

extension = CAPITAL & semestre_perdidas = NA & facultad = CIENCIAS AGRICOLAS

extension = CAPITAL & semestre_perdidas = P & area_materia = LENGUA EXTRANJERA

extension = TUMACO & semestre_perdidas = P & area_programa = ECONOMÍA ADMINISTRACIÓN CONTADURÍA Y AFINES

extension = CAPITAL & semestre_perdidas = P & area_materia = FORMACIÓN BÁSICA & facultad = ARTES

N

Atributo,
Clase,
Deserta

Reglas de clasificación académicas con el conjunto de datos TA15
extension = CAPITAL & semestre_perdidas = M

Reglas

0.0152

0.0156

0.0161

0.0167

0.0179
0.0175

0.0185

0.0187

0.019

0.0207

0.0215

0.0233

0.0458
0.0379
0.0336
0.0322

0.0497

0.0582

0.0612

0.1032

0.2088

Soporte

0.8283

0.9412

0.8571

0.8716

0.9658
0.807

0.9587

0.8852

0.879

0.8593

0.8786

0.8092

0.8361
0.9919
0.863
0.8524

0.8025

0.8079

0.8672

0.8692

0.8128

Confianza


45


Referencias bibliográficas
ADAMO, Jean-Marc (2001). Data Mining for Association Rules and Sequential Patterns: Sequential and Parallel Algorithms. New York (USA): Springer-Verlag. 253 p. ISBN: 0-387-95048-6.
AGRAWAL, Rakesh & SRIKANT, Ramakrishnan (1994). Fast Algorithms for Mining Association Rules. In: 20th International Conference on Very Large Data Bases, VLDB 1994, (1215/09/1994). Santiago de Chile (Chile): VLDB. Proceedings. p. 487-499. ISBN: 1-55860-153-8.
CHEN, Ming; HAN, Jiawei & YU, Philip (1996). Data mining: An overview from database perspective.
In: IEEE Transactions on Knowledge and Data Engineering. Vol. 8, No. 6 (dic). Los Alamitos
(CA, USA): IEEE Computer Society. p. 866-883. ISSN: 1041-4347.
FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory and SMYTH, Padrahic. (1996). The KDD process
for extracting useful knowledge from volumes of data. In: Comunications of the ACM. Vol. 39,
No. 11 (nov). New York (USA): ACM Digital Library. p 27-34. ISSN: 0001-0782.
GARCÍA MORATE, Diego (s.f.). Manual de Weka [en línea]. Valladolid (España): MetaEmotion,
S.L. <http://www.metaemotion.com/diego.garcia.morate/download/weka.pdf> 42 p. [consulta:
15/06/ 2012].
HAN, Jiawei & KAMBER, Micheline (2001). Data Mining: Concepts and Techniques. San Francisco
(CA, USA): Morgan Kaufmann Publishers, Academic Press. 550 p. ISBN: 1-55860-489-8.
HERNÁNDEZ, José; RAMÍREZ, María & FERRI, César (2005). Introducción a la Minería de Datos.
Madrid (España): Pearson Prentice Hall. 656 p. ISBN: 84-205-4091-9.
LA RED, David, ACOSTA, Julio; CUTRO, Luis; URIBE, Valeria. & RAMBO, Alice (2010). Data
Warehouse y Data Mining Aplicados al Estudio del Rendimiento Académico. En: Novena
Conferencia Iberoamericana en Sistemas, Cibernética e Informática, CISCI 2010, (29/062/07/2010), Orlando (Florida, EE.UU.): International Institute of Informatics and Systemics.
Memorias CISCI 2010, Volumen I, p. 289-294. ISBN: 978-1-934272-94-7.
MEN (2006a). América Latina piensa la deserción. En: Boletín informativo Educación Superior.
No 7 (dic). Bogotá (Colombia): Ministerio de Educación Nacional. 20 p. ISSN: 1794-2446.
MEN (2006b). Deserción estudiantil: prioridad en la agenda. En: Boletín informativo Educación Superior. No 7 (dic). Bogotá (Colombia): Ministerio de Educación Nacional. 20 p. ISSN: 1794-2446.
MEN (2009). Deserción estudiantil en la educación superior colombiana: metodología de seguimiento, diagnóstico y elementos para su prevención. Bogotá (Colombia): Ministerio de Educación
Nacional. 158 p. ISBN: 978-958-691-366-9.
PAUTSCH, Jesús (2009). Minería de datos aplicada al análisis de la deserción en la Carrera de
Analista en Sistemas de Computación. Tesis de grado (Licenciado en Sistemas de Información).
Posadas, Misiones (Argentina): Universidad Nacional de Misiones. 193 p.
PAUTSCH, Jesús; LA RED, David & CUTRO, Luis (2010). Minería de datos aplicada al análisis
de la deserción en la Carrera de Analista en Sistemas de Computación [en línea]. Posadas,
Misiones (Argentina): Universidad Nacional de Misiones. <http://www.dataprix.com/files/Analisis%20de%20Desercion%20Univ_0.pdf> [consulta: 18/06/2012].
PINZÓN, Liza (2011). Aplicando minería de datos al marketing educativo. En: Revista Notas de
Marketing. No 1 (jun). Bogotá (Colombia): Universidad Sergio Arboleda, Escuela de Marketing
y Publicidad. p 45-61. ISSN: 2248-4930
QUINLAN, Ross (1993). C4.5: Programs for Machine Learning. San Francisco (CA, USA): Morgan
Kaufmann Publishers. 299 p. ISBN: 1-55860-238-0.
RESTREPO, Mauricio & LÓPEZ, Andrés (2008). Uso de la metodología Rough Sets en un modelo
de deserción académica. En: XIV Congreso Ibero Latinoamericano de Investigación de Operaciones, CLAIO 2008, (9-12/09/2008), Cartagena (Colombia): Universidad del Norte. Libro
de Memorias CLAIO 2008, p. 108-109. Ediciones Uninorte.
SATTLER, Kai-Uwe. & DUNEMANN, Oliver (2001). SQL Database Primitives for Decision Tree
Classifiers. In: The 10th ACM International Conference on Information and Knowledge Management - CIKM, (5-10/11/2001), Atlanta (Georgia, USA): ACM. Proceedings, p. 379-386.
ISBN: 1-58113-436-3.
SPOSITTO, Osvaldo; ETCHEVERRY, Martín; RYCKEBOER, Hugo & BOSSERO, Julio (2010).
Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y
la deserción estudiantil. En: Novena Conferencia Iberoamericana en Sistemas, Cibernética e

46



Informática, CISCI 2010, (29/06-2/07/2010), Orlando (Florida, EE.UU.): International Institute
of Informatics and Systemics. Memorias CISCI 2010, Vol. I. ISBN: 978-1-934272-94-7.
UPN (2005). La deserción estudiantil: reto investigativo y estratégico asumido de forma integral
por la UPN [en línea]. En: Encuentro Internacional sobre Deserción en Educación Superior:
experiencias significativas (17-18/05/2005) Bogotá (Colombia): Ministerio de Educación Nacional. <http://www.mineducacion.gov.co/1621/articles-85600_Archivo_pdf3.pdf> [consulta:
15/06/ 2012].
VALERO, Sergio (2009). Aplicación de técnicas de minería de datos para predecir la deserción
[en línea]. Izúcar de Matamoros, Puebla (México): Universidad Tecnológica de Izúcar de Matamoros. <http://www.utim.edu.mx/~svalero/docs/MineriaDesercion.pdf> [consulta: 10/06/2012].
VALERO, Sergio; SALVADOR, Alejandro & GARCÍA, Marcela (2010). Minería de datos: predicción
de la deserción escolar mediante el algoritmo de árboles de decisión y el algoritmo de los k
vecinos más cercanos [en línea]. Izúcar de Matamoros, Puebla (México): Universidad Tecnológica de Izúcar de Matamoros. <http://www.utim.edu.mx/~svalero/docs/e1.pdf> [consulta:
10/06/2012].
WANG, Min; IYER, Bala & SCOTT, Jeffrey (1998). Scalable Mining for Classification Rules in
Relational Databases. In: International Database Engineering and Application Symposium,
IDEAS 98, (08-10/07/1998), Cardiff (Wales, U.K.): IEEE Computer Society. Proceedings, p.
58-67. ISBN: 0-8186-8307-4.

47


48



Técnicas de implementación
de procesos colaborativos
a la mejora procesos: un
acercamiento a PMBOK*1
[Implementation techniques for
improving collaborative processes
closer to PMBOK processes]
José Luis JURADO2, César Alberto COLLAZOS3

Resumen
La ingeniería de la colaboración surge como una línea de estudio de
la ingeniería de software, que brinda grandes virtudes, en la mejora de
procesos, para potencializar el desarrollo de trabajo en equipo y generación de nuevo conocimiento, a partir de la cooperación y articulación
de un esfuerzo compartido de un equipo de trabajo en una organización.
El propósito del presente documento es dar a conocer el resultado de
una investigación que buscó integrar la ingeniería de la colaboración
con la gestión de proyectos, en pro de mejorar los procesos de control,
seguimiento y verificación de los resultados alcanzados por una organización, que aplique métodos y guías formales en sus procesos de gestión
de proyectos informáticos. El documento está centrado en describir las
técnicas de la ingeniería de la colaborativas usadas y el resultado de
*

JURADO, José Luis & COLLAZOS, César Alberto (2013). Técnicas de implementación de
procesos colaborativos a la mejora procesos: un acercamiento a PMBOK. En: Ventana Informática. No. 28 (ene.-jun.). Manizales (Colombia): Facultad de Ciencias e Ingeniería, Universidad
de Manizales. p. 49-66. ISSN: 0123-9678
1 Artículo de investigación científica y tecnológica proveniente del proyecto Mejora de procesos
en la gestión de proyectos informáticos una perspectiva desde la ingeniería de la colaboración, ejecutado en el periodo Junio 2010 –junio 2012, e inscrito en el grupo de investigación
IDIS – Universidad del Cauca. [Proyecto para optar al título de Magíster en Computación –
Universidad del Cauca, por parte del primer autor bajo dirección del segundo].
2 Ingeniero de Sistemas, MSc. en Computación. Docente, Institución Universitaria Colegio Mayor
del Cauca, (Popayán, Cauca, Colombia). Correo electrónico: jjurado@unicauca.edu.co
3 Ingeniero de Sistemas, PhD. en Computación. Profesor asociado, Universidad de San Buenaventura, (Cali, Valle del Cauca, Colombia). Correo electrónico: ccollazo@unicauca.edu.co

49

Revista ventana informatica 28

Revista ventana informatica 28

Recommandé

Recommandé

Contenu connexe

Similaire à Revista ventana informatica 28

Similaire à Revista ventana informatica 28 (20)

Plus de Andres Epifanía Huerta

Plus de Andres Epifanía Huerta (20)

Revista ventana informatica 28