SlideShare une entreprise Scribd logo
1  sur  8
Télécharger pour lire hors ligne
Análise Espacial do Perfil dos Alunos do IFPI – Campus
      Floriano usando Técnicas de Mineração de Dados
Thiago Reis da Silva1, Diego Grosmann1, Artur Luiz T de Oliveira1, Angélica Félix
                 de Castro1, Marcelino Pereira dos Santos Silva1
           1
               Programa de Pós-Graduação em Ciência da Computação – MCC
                 Universidade do Estado do Rio Grande do Norte – UERN/
                   Universidade Federal Rural do Semi-Árido – UFERSA
                 BR 110 – Km 46 – Bairro Costa e Silva – Campus Central
                             59.625-620 Mossoró – RN, Brasil
     {trsilva.si, diegogrosmann}@gmail.com, tuca_jampa@hotmail.com,
            angelica@ufersa.edu.br, marcelinopereira@uern.br

    Abstract: The economy of Piauí is characterized by its fragility, as evidenced
    by the behavior of some of its indicators. The IFPI - the Federal Institute of
    Piauí assume social responsibilities in the face of dire need to develop
    knowledge and technologies for exploitation and value adding. In this context
    the present article is a study on the profile of students in the IFPI - Campus
    Floriano. For this we used data mining techniques and geographic
    information systems.

    Resumo: A economia do Piauí caracteriza-se por sua fragilidade, evidenciada
    pelo comportamento de alguns de seus indicadores. O IFPI - Instituto Federal
    do Piauí assume responsabilidades sociais diante da extrema necessidade de
    desenvolver conhecimentos e tecnologias de aproveitamento e agregação de
    valores. Nesse contexto o presente artigo faz um estudo sobre o perfil dos
    estudantes do IFPI - Campus Floriano. Para isso foram utilizadas técnicas de
    mineração de dados e sistemas de informação geográficos.

1. Introdução
Os Institutos Federais de Educação, Ciência e Tecnologia são instituições que
produzem, disseminam e aplicam o conhecimento tecnológico e acadêmico para
formação da cidadania, por meio do Ensino, da Pesquisa e da Extensão, contribuindo
para o progresso socioeconômico local, regional e nacional. A implantação dos campi,
no interior do Estado, atende a meta do Programa de Expansão da Rede Federal de
Educação Tecnológica e à própria natureza dos Institutos Federais de Educação, Ciência
e Tecnologia, no que diz respeito à descentralização de qualificação profissional,
levando em conta as necessidades socioeconômicas de cada região. Com isso, pretende-
se evitar o êxodo de jovens estudantes para a capital.
        O Instituto Federal de Educação Ciência e Tecnologia do Piauí (IFPI) é uma
instituição com atuação no Estado do Piauí, detentora de autonomia administrativa,
patrimonial, financeira, didático-pedagógica e disciplinar. É instituição pública de
Educação Superior, Básica e Profissional, pluricurricular e multicampi, está presente em
dez municípios do estado, especializada na oferta de Educação Profissional e
Tecnológica, em diferentes modalidades de ensino, conjugando os conhecimentos
humanos, técnicos e tecnológicos com as suas práticas pedagógicas, nos termos da Lei
(PDI, 2009).
        Nesse contexto, o IFPI assume responsabilidades sociais, diante da extrema
necessidade de desenvolver conhecimentos e tecnologias de aproveitamento e agregação
de valores, de nível tecnológico, de produtos e subprodutos, oriundos das vocações do
estado, a exemplo da carnaúba, do caju, da castanha do caju e do mel, dentre outros
(PDI, 2009). Assim, o presente trabalho faz uma avaliação da base de dados do controle
acadêmico do IFPI – Campus Floriano a fim de identificar o padrão dos estudantes da
instituição.
       Neste contexto, este artigo encontra-se organizado da seguinte forma: a seção 2
apresenta uma revisão de literatura, abordando em subseções os Sistemas de Informação
Geográficos, Descoberta do Conhecimento em Banco de Dados, Técnicas de Mineração
e Mineração de Dados Geográficos. É apresentada na seção 3 a Metodologia utilizada.
A seção 4 apresenta os Resultados e as Conclusões Finais e Trabalhos Futuros são
apresentados na seção 5.
2. Revisão de Literatura
A seguir apresentamos uma revisão de literatura sobre os conceitos e técnicas utilizados
para o desenvolvimento deste trabalho.
2.1. Sistema de Informação Geográfico
O Sistema de Informação Geográfico (SIG) é um tipo especial de sistema de
informações. Por definição pode-se dizer que um SIG é um sistema de informação
baseado em computador que permite capturar, modelar, manipular, recuperar, consultar,
analisar e apresentar dados geograficamente referenciados (CÂMARA; CASANOVA,
1995). A tecnologia de SIG pode trazer enormes benefícios devido à sua capacidade de
manipular a informação espacial de forma precisa, rápida e sofisticada (WRIGHT,
1997).
        Um SIG integra dados espaciais com outros tipos de dados em único sistema.
Isso permite combinar dados de diferentes fontes e tipos, provenientes de muitos bancos
de dados. O processo de converter mapas e outros tipos de informações espaciais numa
forma digital via SIG, torna possíveis métodos novos e inovadores para a manipulação e
exibição de dados geográficos (BRETRNITZ, 2010).

2.2. Descoberta do Conhecimento em Banco de Dados
A Descoberta do Conhecimento em Banco de Dados, do inglês, Knowledge Discovery
in Databases (KDD) é o processo, não trivial, de extração de informações implícitas,
previamente desconhecidas e potencialmente úteis, a partir dos dados armazenados em
um banco de dados (FAYYAD et al, 1996). O termo “não trivial” torna clara a
existência de alguma técnica de busca ou inferência. “Previamente desconhecidas”
indica que a informação deve ser nova para o sistema e de preferência também para o
usuário. E, por último, “potencialmente úteis”, deixa claro que esta informação deve
trazer consigo algum benefício, em outras palavras, deverá possibilitar ao usuário algum
ganho.
O processo de KDD contém uma série de passos, tais como: Seleção, Pré-
processamento e Limpeza, Transformação, Mineração de Dados (datamining) e
Interpretação/Avaliação (MILLER; HAN, 2001). Como se pode ver, o processo
compreende, na verdade, todo o ciclo que o dado percorre até virar conhecimento ou
informação. O processo em si possui duas características relevantes: é interativo e
iterativo. Interativo, pois o usuário pode intervir e controlar o curso das atividades.
Iterativo, por ser uma sequência finita de operações onde o resultado de cada uma é
dependente dos resultados das que a precedem.
        Dentre estas, a mineração de dados se destaca bastante, pois é a fase responsável
pela transformação de dados em informações. A mineração de dados está relacionada
com a descoberta de novos fatos, regularidades, restrições, padrões e relacionamentos e
não apenas consultas complexas e elaboradas com a finalidade de confirmar uma
hipótese em função dos relacionamentos existentes. A mineração de dados, portanto, é
uma descoberta eficiente de informações válidas e não óbvias de uma grande coleção de
dados (OLIVEIRA et al, 2011).

2.3. Técnicas de Mineração
Segundo Prass (2004), as técnicas de mineração consistem na especificação de métodos
que nos garantam descobrir os padrões que nos interessam. Para cada técnica utilizada,
uma série de algoritmos estão disponíveis na literatura. Nas subseções a seguir são
descritas as técnicas utilizadas neste trabalho.
2.3.1 Classificação e Predição
Segundo Amo (2004), classificação é o processo de buscar modelos (funções) que
descrevem e distinguem classes ou conceitos, com o propósito de utilizar os modelos
para predizer ou explicar o contexto. Geralmente, o modelo baseia-se em dados de
amostragem ou de treinamento. No caso da predição, o objetivo é inferir valores no
conjunto de dados.
2.3.2 Associação
As regras de associação consistem em padrões do tipo A → B, onde A e B são
conjuntos de valores antecedentes e consequentes. Consideremos um exemplo de
supermercado. O padrão “Cliente que compra pão também compra leite” representa um
padrão de comportamento dos clientes do supermercado. Essa organização pode ser
válida na organização dos produtos na prateleira visando o aumento das vendas.

3. Metodologia
Para o desenvolvimento desta pesquisa foi utilizada a base de dados de matricula do
IFPI – Campus Floriano, que contem dados dos estudantes matriculados entre o ano de
1998 e o ano de 2010, totalizando 4348 registros. Para a extração do conhecimento
foram seguidos os passos do KDD: Seleção dos dados, Pré-Processamento,
Transformação, Mineração de Dados, e interpretação/avaliação.
      Os softwares utilizados para o desenvolvimento deste trabalho foram: o banco de
dados MySql Server v5.0 e sua Interface Gráfica do Usuário v1.2, o software de
Mineração de Dados Weka v3.7.4 e o SIG TerraView v5.1. Os software MySql,
TerraView e o Weka GNU possui licença GNU/GPL (General Public License).
3.1 Seleção de dados
A base de dados do IFPI é formada por 53 campos e está salva no formato de arquivo
Excel. Destes foram escolhidos 10 campos: sexo, etnia, data de nascimento, cidade do
nascimento, estado do nascimento, estado civil, renda familiar, financiamento da
instituição de origem, curso e período de ingresso.
3.2 Pré-processamento
Como citado anteriormente à base de dados estava no formato de arquivo Excel, para
facilitar esta fase todos os dados das tabelas foram exportados com o formato de arquivo
csv e posteriormente importados no banco de dados MySql. Para a importação primeiro
criou-se uma base de dados e um tabela com todos os campos existentes no arquivo csv.
        Nesta fase foram utilizadas duas rotinas de limpeza de dados para suprir valores
ausentes: (a) suprir valores ausentes manualmente e (b) ignorar tuplas. A primeira
técnica (a), foi utilizada para o campo sexo, nos dados inexistentes foram inseridos
manualmente utilizando o campo nome como base, o campo estado de origem também
utilizou essa mesma técnica usando como base a cidade de origem. Para os demais
campos, foi utilizada a segunda técnica (b), realizando um processo de adequação dos
dados retirando espaços em branco antes e depois dos dados e caracteres inválidos e
como tratamento das linhas sem dados simplesmente às ignoramos.
3.3 Transformação dos dados
Nesta fase foram gerados dados a partir dos dados existentes. Tendo a data de
nascimento como base, geramos o campo idade. Já a renda foi dividida para refletir as
classes sociais, a criação das classes se deu de acordo com as regras propostas pela
consultoria Target (2011), que dividiu as classes em: A1: inclui as famílias com renda
mensal maior que R$ 14.400; A2: maior que R$ 8.100; B1: maior que R$ 4.600; B2:
maior que R$ 2.300; C1: maior que R$ 1.400; C2: maior que R$ 950; D: maior que R$
600; E: maior que R$ 400; F: menor que R$ 200.
        Para simplificar a consulta, as classes proposta pela Target sofreram algumas
alterações. Os dados da classe A1 e A2 foram juntos na classe A, e os dados da classe E
e F foram juntos na classe E.
3.4 Mineração de Dados
Algumas ferramentas foram analisadas e o Weka (Waikato Environment for Knowledge
Analysis) foi à escolhida para a tarefa de Mineração de Dados. A escolha se deu pelo
fato de ser uma ferramenta robusta, bem aceita no mercado, pela facilidade de uso e pelo
poder de exposição dos resultados da mineração com clareza. Para a manipulação dos
dados pelo Weka primeiro devemos colocá-los em um formato aceito pelo mesmo, esse
formato é o ARFF (Attribute-Relation File Forma).
        Para gerar o arquivo arff primeiro exportamos os dados do banco de dados
utilizando separação por vírgula, e posteriormente inserimos o cabeçalho com os meta-
dados referentes às colunas.
       Com o objetivo de uma análise precisa dos dados, os mesmos foram submetidos
a duas de técnicas de mineração de dados. Eles foram submetidos à classificação através
dos algoritmos RandomTree, J48 e REPTree e associação pelo algoritmo JRIPA.
3.5 Interpretação/Avaliação
Nesta fase os dados foram analisados e os padrões e as características foram
identificados, sendo apresentados os resultados na próxima seção.
       Para uma melhor apresentação dos dados em forma de mapas utilizamos o
software TerraView e as malhas digitais municipais e estaduais disponíveis no site do
IBGE (IBGE, 2011).

4. Área de Estudo
O presente trabalho faz uma avaliação dos dados dos alunos que estudam e estudaram
no IFPI – Campus Floriano. O Instituto Federal do Piauí foi criado mediante
transformação do Centro Federal de Educação Tecnológica do Piauí (CEFET/PI). Sua
Reitoria está instalada em Teresina – PI.
        O Piauí está localizado a noroeste da região Nordeste do Brasil ocupa uma área
de 251.576 km² (pouco maior que o Reino Unido) e tem 3.118.360 habitantes. Sua
capital é a cidade de Teresina (IBGE, 2011). A economia do estado é baseada no setor
de serviços (comércio), na indústria (química, têxtil, de bebidas), na agricultura (soja,
algodão, arroz, cana-de-açúcar, mandioca) e na pecuária extensiva.
        A Figura 1 ilustra a localização da área de estudos (município de Floriano) em
relação ao mapa do Brasil e ao estado do Piauí, do qual o município de Floriano faz
parte. O município de Floriano situa-se na Zona do Médio Parnaíba, à margem direita
desse mesmo Rio, em frente à cidade de Barão de Grajaú, Maranhão. A cidade fica a
253 km da capital do Estado do Piauí, Teresina. Tem uma população de 57.690 e ocupa
uma área de 3.409 km2 (IBGE, 2011). O município possui um IDH de 0,711 que é
considerado médio (HDR, 2011).




      Figura 1 - Localização da área de estudos em relação ao território do Brasil.


4. 1. Resultados
Nesta seção serão apresentadas as informações obtidas na fase de análise de dados do
KDD. A Figura 2 apresenta a distribuição dos estudantes no território nacional e em
relação ao estado do Piauí. Notamos que das 27 unidades distritais (contando com o
Distrito Federal) o IFPI conta com alunos de 22 desses distritos, o que mostra a
importância do mesmo no contesto nacional. Já no contexto do estado do Piauí sua
atuação ficou limitada a região sul e sudoeste. A Figura 2 ainda ilustra que a maioria dos
alunos do IFPI, vem das cidades de: Floriano, Guadalupe, Jerumenha, Canto do Buriti,
Oeiras, Amarante e Teresina.




     Figura 2. A esquerda temos a distribuição dos alunos em cada estado do Brasil
                e a direita temos a distribuição dentro do estado do Piauí.

        Com a intenção de avaliar se a renda dos estudantes tem uma influência direta na
distribuição geográfica, foi gerado o mapa apresentado na Figura 3, nesse mapa
apresentamos a classe social predominante dos discentes por estado e por cidade. Nela
podemos constatar que estudantes de regiões mais distantes do polo educacional
apresentam uma classe social mais elevada que os nascidos na microrregião de Floriano.
Isso pode se dar devido à dificuldade que pessoas de classe social mais baixa têm de se
transportar até lugares mais distantes e de sustentar-se.




     Figura 3. Mapa com a distribuição das classes sociais dos alunos por estado e
                                      por cidade.

       Tendo como base o contexto social em nosso país, no qual afrodescendentes
ainda são muito discriminados, utilizamos o algoritmo de classificação RandomTree
para avaliar a influência da cor da pele na classe social e obtivemos a árvore apresentada
na Figura 4. Constatamos que alunos de pele clara e alunos de pele negra apresentam a
mesma classe social, todos enquadrados na classe E, assim não constatamos uma
desigualdade gerada pela cor da pele.




      Figura 4. Árvore gerada pelo RandomTree comparando a classe social com a
                                      cor da pele.

         Avaliamos também que a classe social e a cor da pele têm influencia direta sobre
a instituição de origem dos alunos (privada, pública ou filantrópica). Identificamos que a
cor da pele em nada influência a instituição de origem sendo que para todas as etnias a
maioria dos alunos foi proveniente de escola pública. Já a classe social C1 apresentou
uma predominância em instituições filantrópicas, para as instituições públicas e privadas
a predominância continua sendo de alunos da classe E.
        A classe social apresentou relação direta com o curso escolhido. Identificamos
após classificação realizada pelo algoritmo RandomTree que alunos de classe social
mais altas dão preferência a cursos na área de técnico em edificações e informática, e
concomitante em edificações. Com o algoritmo J48 identificamos também que a classe
social tem relação direta com a idade dos alunos. Alunos com idade inferior a 21
pertencem a classes sociais mais altas.
        Através da análise da árvore gerada pelo algoritmo REPTree identificamos que
os alunos que ingressaram até o ano de 1999 eram provenientes de escola privada já nos
anos posteriores, o número alunos de escola pública superaram o número de alunos de
escola privada.
       Com o uso do algoritmo JRIP que identifica as regras pressentes na base de
dados identificamos cinco regras predominantes. Das quais as três seguintes se
destacam.
   1. Alunos que ingressaram antes de 2008 e tem idade maior que 20 anos,
      escolheram o curso de Matemática, são locais, têm classe social C1 e são da
      etnia negra;
   2. Os alunos que ingressaram depois de 2008 vindos de escola particular
      escolheram o curso de Análise e Desenvolvimento de Sistemas e tem etnia
      branca;
   3. O curso de Biologia até o ano de 2005 foi mais escolhido por mulheres de classe
      social C1 e etnia branca;
5. Conclusões e Trabalhos Futuros
Através da pesquisa acima apresentada concluímos que a mineração de dados é um
processo de fundamental importância para a obtenção de informações de grandes bases
de dados. Constatamos que o IFPI, de fato, cumprindo o seu papel de inclusão social,
pois não apresentou uma disparidade em seus alunos referentes à classe e a etnia.
        Como trabalho futuro propõe-se a exploração desta base de dados utilizando
outras técnicas de mineração de dados como a Clusterização e a utilização de outras
ferramentas de mineração.

Agradecimentos
Os autores agradecem a CAPES pela concessão das bolsas de pesquisa e ao IFPI –
Campus Floriano pela disponibilização da base de dados.

Referências Bibliográficas
Amo, S. A. (2004) “Técnicas de Mineração de Dados”. In: Sociedade Brasileira de
  Computação, UFBA. Jornadas de Atualização em Informática. Salvador – BA,
  Universidade Federal da Bahia, 2004, v.2, p195-236.
Breternitz, V. J. (2010) “Sistemas de informações geográficas: uma visão para
  administradores e profissionais de tecnologia da informação,” 2010.
Câmara, G.; Casanova, M. A. (1995) “Fields and objects algebras for gis operations
  operations.” vol. 1, pp. 407 – 420, 1995.
Fayyad, U. M.; Shapiro, G. P.; Smyth, P. (1996) “From data mining to knowledge
  discovery: An overview”, AI Magazine pp. 37–54, 1996.
HDR (2011). Human Development Report. Disponível em: <http://hdr.undp.org/en/>.
  Acesso em set. 2011.
IBGE (2011). Instituto Brasileiro de Geografia e Estatísticas. Disponível em:
  <http://ibge.gov.br>. Acesso em set. 2011.
Miller, H. J.; Han, J. (2001) “Geographic data mining and knowledge discovery: An
  overview”. London: Taylor and Francis, in press, B., 2001.
Oliveira, A. T.; Vidal Filho, J. N.; Lima, D. R.; Castro, A. F.; Silva, M. P. S. (2011)
   “Spatial analysis of the student profile of federal techical school of piaui”. In: ISTI:
   Conferência Ibérica de Sistemas e Tecnologias de Informação. Portugal, 2011. V II,
   p. 368-373.
Prass, F. S. (2004) “Kdd: Processo de descoberta de conhecimento em bancos de dados”
   vol. 1, pp. 10 – 14, 2004.
PDI (2009) “Plano de Desenvolvimento Institucional”. Disponível em: <
  http://www.ifpi.edu.br/arquivos/PDI_IFPI_PROPOSTA_FINAL.pdf>. Acesso em
  set. 2011.
Target (2011) Disponível em: <http://www.target.com.br/portal_new/Home.aspx>.
  Acesso em set. 2011.
Wright, D. J.; Goodchild M. F.; Proctor J. D. (1997) “Demystifying the persistent
  ambiguity of gis as Tool Versus Science” The Annals of the Association of American
  Geographes, 87(2): 346-362, 1997.

Contenu connexe

Similaire à Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnicas de mineração de dados

Literacias via dispositivos & info basica cedep-paranoá-df30ago2014-v4
Literacias via dispositivos & info basica cedep-paranoá-df30ago2014-v4Literacias via dispositivos & info basica cedep-paranoá-df30ago2014-v4
Literacias via dispositivos & info basica cedep-paranoá-df30ago2014-v4Benedito Medeiros Neto
 
Artefato petic colegio bom pastor
Artefato petic colegio bom pastorArtefato petic colegio bom pastor
Artefato petic colegio bom pastorWesley Melo
 
APRESETACAO Tratibo.ppt
APRESETACAO  Tratibo.pptAPRESETACAO  Tratibo.ppt
APRESETACAO Tratibo.pptSaryfa
 
Cedep literacias via dispositivos & info basica-30ago2014-v4
Cedep literacias via dispositivos & info basica-30ago2014-v4Cedep literacias via dispositivos & info basica-30ago2014-v4
Cedep literacias via dispositivos & info basica-30ago2014-v4Benedito Medeiros Neto
 
ANÁLISE ESPACIAL-TEMPORAL DE DADOS USANDO TÉCNICAS DE MINERAÇÃO DE DADOS GEO...
ANÁLISE ESPACIAL-TEMPORAL DE DADOS USANDO TÉCNICAS DE MINERAÇÃO DE  DADOS GEO...ANÁLISE ESPACIAL-TEMPORAL DE DADOS USANDO TÉCNICAS DE MINERAÇÃO DE  DADOS GEO...
ANÁLISE ESPACIAL-TEMPORAL DE DADOS USANDO TÉCNICAS DE MINERAÇÃO DE DADOS GEO...Thiago Reis da Silva
 
Artigo sistema automático de disseminação seletiva de informação
Artigo sistema automático de disseminação seletiva de informaçãoArtigo sistema automático de disseminação seletiva de informação
Artigo sistema automático de disseminação seletiva de informaçãoCristina Ferreira
 
Gestão e Engenharia do Conhecimento: Perspectivas e Resultados Empresariais
Gestão e Engenharia do Conhecimento: Perspectivas e Resultados EmpresariaisGestão e Engenharia do Conhecimento: Perspectivas e Resultados Empresariais
Gestão e Engenharia do Conhecimento: Perspectivas e Resultados EmpresariaisRoberto C. S. Pacheco
 
Uso Efetivo da Tecnologia da Informação e Comunicação (TIC) na Prefeitura Mun...
Uso Efetivo da Tecnologia da Informação e Comunicação (TIC) na Prefeitura Mun...Uso Efetivo da Tecnologia da Informação e Comunicação (TIC) na Prefeitura Mun...
Uso Efetivo da Tecnologia da Informação e Comunicação (TIC) na Prefeitura Mun...Fabrício Basto
 
Mineração de Dados Educacionais - potencialidades e desafios
Mineração de Dados Educacionais - potencialidades e desafiosMineração de Dados Educacionais - potencialidades e desafios
Mineração de Dados Educacionais - potencialidades e desafiosAnatalia Saraiva Martins Ramos
 
Dissertação completa
Dissertação completaDissertação completa
Dissertação completaLivia Santiago
 
Avaliação e acompanhamento de estudantes das escolas técnicas: A gestão da in...
Avaliação e acompanhamento de estudantes das escolas técnicas: A gestão da in...Avaliação e acompanhamento de estudantes das escolas técnicas: A gestão da in...
Avaliação e acompanhamento de estudantes das escolas técnicas: A gestão da in...Michel Franklin
 
Fundamentosdaeducacaoadistancia midiaseambientesvirtuais-111111142611-phpapp02
Fundamentosdaeducacaoadistancia midiaseambientesvirtuais-111111142611-phpapp02Fundamentosdaeducacaoadistancia midiaseambientesvirtuais-111111142611-phpapp02
Fundamentosdaeducacaoadistancia midiaseambientesvirtuais-111111142611-phpapp02sheyla Marvão
 
Fundamentosdaeducacaoadistancia midiaseambientesvirtuais
Fundamentosdaeducacaoadistancia midiaseambientesvirtuaisFundamentosdaeducacaoadistancia midiaseambientesvirtuais
Fundamentosdaeducacaoadistancia midiaseambientesvirtuaisCarmen Schmidt
 
Sobradinho - Diana Lurdes Muraro Vendruscollo
Sobradinho - Diana Lurdes Muraro VendruscolloSobradinho - Diana Lurdes Muraro Vendruscollo
Sobradinho - Diana Lurdes Muraro VendruscolloCursoTICs
 
Tópicos em Gestão da Informação II - Aula 01 - Desafios atuais da Gestão da I...
Tópicos em Gestão da Informação II - Aula 01 - Desafios atuais da Gestão da I...Tópicos em Gestão da Informação II - Aula 01 - Desafios atuais da Gestão da I...
Tópicos em Gestão da Informação II - Aula 01 - Desafios atuais da Gestão da I...Dalton Martins
 

Similaire à Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnicas de mineração de dados (20)

Literacias via dispositivos & info basica cedep-paranoá-df30ago2014-v4
Literacias via dispositivos & info basica cedep-paranoá-df30ago2014-v4Literacias via dispositivos & info basica cedep-paranoá-df30ago2014-v4
Literacias via dispositivos & info basica cedep-paranoá-df30ago2014-v4
 
Artefato petic colegio bom pastor
Artefato petic colegio bom pastorArtefato petic colegio bom pastor
Artefato petic colegio bom pastor
 
APRESETACAO Tratibo.ppt
APRESETACAO  Tratibo.pptAPRESETACAO  Tratibo.ppt
APRESETACAO Tratibo.ppt
 
Web semantica na prática
Web semantica na práticaWeb semantica na prática
Web semantica na prática
 
Cedep literacias via dispositivos & info basica-30ago2014-v4
Cedep literacias via dispositivos & info basica-30ago2014-v4Cedep literacias via dispositivos & info basica-30ago2014-v4
Cedep literacias via dispositivos & info basica-30ago2014-v4
 
Mota Werner TCC
Mota Werner TCCMota Werner TCC
Mota Werner TCC
 
Gestão de dados de pesquisa
Gestão de dados de pesquisaGestão de dados de pesquisa
Gestão de dados de pesquisa
 
ANÁLISE ESPACIAL-TEMPORAL DE DADOS USANDO TÉCNICAS DE MINERAÇÃO DE DADOS GEO...
ANÁLISE ESPACIAL-TEMPORAL DE DADOS USANDO TÉCNICAS DE MINERAÇÃO DE  DADOS GEO...ANÁLISE ESPACIAL-TEMPORAL DE DADOS USANDO TÉCNICAS DE MINERAÇÃO DE  DADOS GEO...
ANÁLISE ESPACIAL-TEMPORAL DE DADOS USANDO TÉCNICAS DE MINERAÇÃO DE DADOS GEO...
 
Artigo sistema automático de disseminação seletiva de informação
Artigo sistema automático de disseminação seletiva de informaçãoArtigo sistema automático de disseminação seletiva de informação
Artigo sistema automático de disseminação seletiva de informação
 
Undergraduate Thesis Presentation
Undergraduate Thesis PresentationUndergraduate Thesis Presentation
Undergraduate Thesis Presentation
 
PETIC UFS V1 3
PETIC UFS V1 3PETIC UFS V1 3
PETIC UFS V1 3
 
Gestão e Engenharia do Conhecimento: Perspectivas e Resultados Empresariais
Gestão e Engenharia do Conhecimento: Perspectivas e Resultados EmpresariaisGestão e Engenharia do Conhecimento: Perspectivas e Resultados Empresariais
Gestão e Engenharia do Conhecimento: Perspectivas e Resultados Empresariais
 
Uso Efetivo da Tecnologia da Informação e Comunicação (TIC) na Prefeitura Mun...
Uso Efetivo da Tecnologia da Informação e Comunicação (TIC) na Prefeitura Mun...Uso Efetivo da Tecnologia da Informação e Comunicação (TIC) na Prefeitura Mun...
Uso Efetivo da Tecnologia da Informação e Comunicação (TIC) na Prefeitura Mun...
 
Mineração de Dados Educacionais - potencialidades e desafios
Mineração de Dados Educacionais - potencialidades e desafiosMineração de Dados Educacionais - potencialidades e desafios
Mineração de Dados Educacionais - potencialidades e desafios
 
Dissertação completa
Dissertação completaDissertação completa
Dissertação completa
 
Avaliação e acompanhamento de estudantes das escolas técnicas: A gestão da in...
Avaliação e acompanhamento de estudantes das escolas técnicas: A gestão da in...Avaliação e acompanhamento de estudantes das escolas técnicas: A gestão da in...
Avaliação e acompanhamento de estudantes das escolas técnicas: A gestão da in...
 
Fundamentosdaeducacaoadistancia midiaseambientesvirtuais-111111142611-phpapp02
Fundamentosdaeducacaoadistancia midiaseambientesvirtuais-111111142611-phpapp02Fundamentosdaeducacaoadistancia midiaseambientesvirtuais-111111142611-phpapp02
Fundamentosdaeducacaoadistancia midiaseambientesvirtuais-111111142611-phpapp02
 
Fundamentosdaeducacaoadistancia midiaseambientesvirtuais
Fundamentosdaeducacaoadistancia midiaseambientesvirtuaisFundamentosdaeducacaoadistancia midiaseambientesvirtuais
Fundamentosdaeducacaoadistancia midiaseambientesvirtuais
 
Sobradinho - Diana Lurdes Muraro Vendruscollo
Sobradinho - Diana Lurdes Muraro VendruscolloSobradinho - Diana Lurdes Muraro Vendruscollo
Sobradinho - Diana Lurdes Muraro Vendruscollo
 
Tópicos em Gestão da Informação II - Aula 01 - Desafios atuais da Gestão da I...
Tópicos em Gestão da Informação II - Aula 01 - Desafios atuais da Gestão da I...Tópicos em Gestão da Informação II - Aula 01 - Desafios atuais da Gestão da I...
Tópicos em Gestão da Informação II - Aula 01 - Desafios atuais da Gestão da I...
 

Plus de Thiago Reis da Silva

Apostila de Introdução a Programação
Apostila de Introdução a ProgramaçãoApostila de Introdução a Programação
Apostila de Introdução a ProgramaçãoThiago Reis da Silva
 
The use of games on the teaching of programming: a systematic review
The use of games on the teaching of programming: a systematic reviewThe use of games on the teaching of programming: a systematic review
The use of games on the teaching of programming: a systematic reviewThiago Reis da Silva
 
Desenvolvendo plug-in do Moodle em forma de módulo
Desenvolvendo plug-in do Moodle em forma de móduloDesenvolvendo plug-in do Moodle em forma de módulo
Desenvolvendo plug-in do Moodle em forma de móduloThiago Reis da Silva
 
Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...
Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...
Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...Thiago Reis da Silva
 
O uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagem
O uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagemO uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagem
O uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagemThiago Reis da Silva
 
Integrando o network simulator 2.0 a um ambiente virtual de aprendizagem
Integrando o network simulator 2.0 a um ambiente virtual de aprendizagemIntegrando o network simulator 2.0 a um ambiente virtual de aprendizagem
Integrando o network simulator 2.0 a um ambiente virtual de aprendizagemThiago Reis da Silva
 
Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...
Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...
Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...Thiago Reis da Silva
 
Um modelo de objeto de aprendizagem com ênfase no planejamento para o Moodle
Um modelo de objeto de aprendizagem com ênfase no planejamento para o MoodleUm modelo de objeto de aprendizagem com ênfase no planejamento para o Moodle
Um modelo de objeto de aprendizagem com ênfase no planejamento para o MoodleThiago Reis da Silva
 
Aplicação de uma técnica de visualização de dados baseado em árvores para au...
Aplicação de uma técnica de visualização de dados baseado  em árvores para au...Aplicação de uma técnica de visualização de dados baseado  em árvores para au...
Aplicação de uma técnica de visualização de dados baseado em árvores para au...Thiago Reis da Silva
 
OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...
OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...
OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...Thiago Reis da Silva
 
Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...
Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...
Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...Thiago Reis da Silva
 
Ampliando o aprendizado na TV digital com MCD-TV e ginga
Ampliando o aprendizado na TV digital com MCD-TV e gingaAmpliando o aprendizado na TV digital com MCD-TV e ginga
Ampliando o aprendizado na TV digital com MCD-TV e gingaThiago Reis da Silva
 
MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...
MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...
MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...Thiago Reis da Silva
 
Uma proposta de padronização de objetos de aprendizagem com base em objetivos...
Uma proposta de padronização de objetos de aprendizagem com base em objetivos...Uma proposta de padronização de objetos de aprendizagem com base em objetivos...
Uma proposta de padronização de objetos de aprendizagem com base em objetivos...Thiago Reis da Silva
 
Scrum uma metodologia ágil paragestão e planejamento de projetos de software
Scrum uma metodologia ágil paragestão e planejamento de projetos de softwareScrum uma metodologia ágil paragestão e planejamento de projetos de software
Scrum uma metodologia ágil paragestão e planejamento de projetos de softwareThiago Reis da Silva
 
Aplicação de uma técnica de visualização de dados baseado em árvores para aux...
Aplicação de uma técnica de visualização de dados baseado em árvores para aux...Aplicação de uma técnica de visualização de dados baseado em árvores para aux...
Aplicação de uma técnica de visualização de dados baseado em árvores para aux...Thiago Reis da Silva
 

Plus de Thiago Reis da Silva (20)

Apostila de Introdução a Programação
Apostila de Introdução a ProgramaçãoApostila de Introdução a Programação
Apostila de Introdução a Programação
 
Introdução a Programação
Introdução a ProgramaçãoIntrodução a Programação
Introdução a Programação
 
The use of games on the teaching of programming: a systematic review
The use of games on the teaching of programming: a systematic reviewThe use of games on the teaching of programming: a systematic review
The use of games on the teaching of programming: a systematic review
 
Desenvolvendo plug-in do Moodle em forma de módulo
Desenvolvendo plug-in do Moodle em forma de móduloDesenvolvendo plug-in do Moodle em forma de módulo
Desenvolvendo plug-in do Moodle em forma de módulo
 
Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...
Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...
Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...
 
O uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagem
O uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagemO uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagem
O uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagem
 
Integrando o network simulator 2.0 a um ambiente virtual de aprendizagem
Integrando o network simulator 2.0 a um ambiente virtual de aprendizagemIntegrando o network simulator 2.0 a um ambiente virtual de aprendizagem
Integrando o network simulator 2.0 a um ambiente virtual de aprendizagem
 
Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...
Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...
Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...
 
Survey e Análise Estatística
Survey e Análise Estatística Survey e Análise Estatística
Survey e Análise Estatística
 
Um modelo de objeto de aprendizagem com ênfase no planejamento para o Moodle
Um modelo de objeto de aprendizagem com ênfase no planejamento para o MoodleUm modelo de objeto de aprendizagem com ênfase no planejamento para o Moodle
Um modelo de objeto de aprendizagem com ênfase no planejamento para o Moodle
 
Aplicação de uma técnica de visualização de dados baseado em árvores para au...
Aplicação de uma técnica de visualização de dados baseado  em árvores para au...Aplicação de uma técnica de visualização de dados baseado  em árvores para au...
Aplicação de uma técnica de visualização de dados baseado em árvores para au...
 
OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...
OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...
OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...
 
Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...
Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...
Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...
 
Ampliando o aprendizado na TV digital com MCD-TV e ginga
Ampliando o aprendizado na TV digital com MCD-TV e gingaAmpliando o aprendizado na TV digital com MCD-TV e ginga
Ampliando o aprendizado na TV digital com MCD-TV e ginga
 
MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...
MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...
MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...
 
Minicurso SCRUM
Minicurso SCRUMMinicurso SCRUM
Minicurso SCRUM
 
Uma proposta de padronização de objetos de aprendizagem com base em objetivos...
Uma proposta de padronização de objetos de aprendizagem com base em objetivos...Uma proposta de padronização de objetos de aprendizagem com base em objetivos...
Uma proposta de padronização de objetos de aprendizagem com base em objetivos...
 
Scrum uma metodologia ágil paragestão e planejamento de projetos de software
Scrum uma metodologia ágil paragestão e planejamento de projetos de softwareScrum uma metodologia ágil paragestão e planejamento de projetos de software
Scrum uma metodologia ágil paragestão e planejamento de projetos de software
 
Artigo
ArtigoArtigo
Artigo
 
Aplicação de uma técnica de visualização de dados baseado em árvores para aux...
Aplicação de uma técnica de visualização de dados baseado em árvores para aux...Aplicação de uma técnica de visualização de dados baseado em árvores para aux...
Aplicação de uma técnica de visualização de dados baseado em árvores para aux...
 

Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnicas de mineração de dados

  • 1. Análise Espacial do Perfil dos Alunos do IFPI – Campus Floriano usando Técnicas de Mineração de Dados Thiago Reis da Silva1, Diego Grosmann1, Artur Luiz T de Oliveira1, Angélica Félix de Castro1, Marcelino Pereira dos Santos Silva1 1 Programa de Pós-Graduação em Ciência da Computação – MCC Universidade do Estado do Rio Grande do Norte – UERN/ Universidade Federal Rural do Semi-Árido – UFERSA BR 110 – Km 46 – Bairro Costa e Silva – Campus Central 59.625-620 Mossoró – RN, Brasil {trsilva.si, diegogrosmann}@gmail.com, tuca_jampa@hotmail.com, angelica@ufersa.edu.br, marcelinopereira@uern.br Abstract: The economy of Piauí is characterized by its fragility, as evidenced by the behavior of some of its indicators. The IFPI - the Federal Institute of Piauí assume social responsibilities in the face of dire need to develop knowledge and technologies for exploitation and value adding. In this context the present article is a study on the profile of students in the IFPI - Campus Floriano. For this we used data mining techniques and geographic information systems. Resumo: A economia do Piauí caracteriza-se por sua fragilidade, evidenciada pelo comportamento de alguns de seus indicadores. O IFPI - Instituto Federal do Piauí assume responsabilidades sociais diante da extrema necessidade de desenvolver conhecimentos e tecnologias de aproveitamento e agregação de valores. Nesse contexto o presente artigo faz um estudo sobre o perfil dos estudantes do IFPI - Campus Floriano. Para isso foram utilizadas técnicas de mineração de dados e sistemas de informação geográficos. 1. Introdução Os Institutos Federais de Educação, Ciência e Tecnologia são instituições que produzem, disseminam e aplicam o conhecimento tecnológico e acadêmico para formação da cidadania, por meio do Ensino, da Pesquisa e da Extensão, contribuindo para o progresso socioeconômico local, regional e nacional. A implantação dos campi, no interior do Estado, atende a meta do Programa de Expansão da Rede Federal de Educação Tecnológica e à própria natureza dos Institutos Federais de Educação, Ciência e Tecnologia, no que diz respeito à descentralização de qualificação profissional, levando em conta as necessidades socioeconômicas de cada região. Com isso, pretende- se evitar o êxodo de jovens estudantes para a capital. O Instituto Federal de Educação Ciência e Tecnologia do Piauí (IFPI) é uma instituição com atuação no Estado do Piauí, detentora de autonomia administrativa, patrimonial, financeira, didático-pedagógica e disciplinar. É instituição pública de Educação Superior, Básica e Profissional, pluricurricular e multicampi, está presente em dez municípios do estado, especializada na oferta de Educação Profissional e
  • 2. Tecnológica, em diferentes modalidades de ensino, conjugando os conhecimentos humanos, técnicos e tecnológicos com as suas práticas pedagógicas, nos termos da Lei (PDI, 2009). Nesse contexto, o IFPI assume responsabilidades sociais, diante da extrema necessidade de desenvolver conhecimentos e tecnologias de aproveitamento e agregação de valores, de nível tecnológico, de produtos e subprodutos, oriundos das vocações do estado, a exemplo da carnaúba, do caju, da castanha do caju e do mel, dentre outros (PDI, 2009). Assim, o presente trabalho faz uma avaliação da base de dados do controle acadêmico do IFPI – Campus Floriano a fim de identificar o padrão dos estudantes da instituição. Neste contexto, este artigo encontra-se organizado da seguinte forma: a seção 2 apresenta uma revisão de literatura, abordando em subseções os Sistemas de Informação Geográficos, Descoberta do Conhecimento em Banco de Dados, Técnicas de Mineração e Mineração de Dados Geográficos. É apresentada na seção 3 a Metodologia utilizada. A seção 4 apresenta os Resultados e as Conclusões Finais e Trabalhos Futuros são apresentados na seção 5. 2. Revisão de Literatura A seguir apresentamos uma revisão de literatura sobre os conceitos e técnicas utilizados para o desenvolvimento deste trabalho. 2.1. Sistema de Informação Geográfico O Sistema de Informação Geográfico (SIG) é um tipo especial de sistema de informações. Por definição pode-se dizer que um SIG é um sistema de informação baseado em computador que permite capturar, modelar, manipular, recuperar, consultar, analisar e apresentar dados geograficamente referenciados (CÂMARA; CASANOVA, 1995). A tecnologia de SIG pode trazer enormes benefícios devido à sua capacidade de manipular a informação espacial de forma precisa, rápida e sofisticada (WRIGHT, 1997). Um SIG integra dados espaciais com outros tipos de dados em único sistema. Isso permite combinar dados de diferentes fontes e tipos, provenientes de muitos bancos de dados. O processo de converter mapas e outros tipos de informações espaciais numa forma digital via SIG, torna possíveis métodos novos e inovadores para a manipulação e exibição de dados geográficos (BRETRNITZ, 2010). 2.2. Descoberta do Conhecimento em Banco de Dados A Descoberta do Conhecimento em Banco de Dados, do inglês, Knowledge Discovery in Databases (KDD) é o processo, não trivial, de extração de informações implícitas, previamente desconhecidas e potencialmente úteis, a partir dos dados armazenados em um banco de dados (FAYYAD et al, 1996). O termo “não trivial” torna clara a existência de alguma técnica de busca ou inferência. “Previamente desconhecidas” indica que a informação deve ser nova para o sistema e de preferência também para o usuário. E, por último, “potencialmente úteis”, deixa claro que esta informação deve trazer consigo algum benefício, em outras palavras, deverá possibilitar ao usuário algum ganho.
  • 3. O processo de KDD contém uma série de passos, tais como: Seleção, Pré- processamento e Limpeza, Transformação, Mineração de Dados (datamining) e Interpretação/Avaliação (MILLER; HAN, 2001). Como se pode ver, o processo compreende, na verdade, todo o ciclo que o dado percorre até virar conhecimento ou informação. O processo em si possui duas características relevantes: é interativo e iterativo. Interativo, pois o usuário pode intervir e controlar o curso das atividades. Iterativo, por ser uma sequência finita de operações onde o resultado de cada uma é dependente dos resultados das que a precedem. Dentre estas, a mineração de dados se destaca bastante, pois é a fase responsável pela transformação de dados em informações. A mineração de dados está relacionada com a descoberta de novos fatos, regularidades, restrições, padrões e relacionamentos e não apenas consultas complexas e elaboradas com a finalidade de confirmar uma hipótese em função dos relacionamentos existentes. A mineração de dados, portanto, é uma descoberta eficiente de informações válidas e não óbvias de uma grande coleção de dados (OLIVEIRA et al, 2011). 2.3. Técnicas de Mineração Segundo Prass (2004), as técnicas de mineração consistem na especificação de métodos que nos garantam descobrir os padrões que nos interessam. Para cada técnica utilizada, uma série de algoritmos estão disponíveis na literatura. Nas subseções a seguir são descritas as técnicas utilizadas neste trabalho. 2.3.1 Classificação e Predição Segundo Amo (2004), classificação é o processo de buscar modelos (funções) que descrevem e distinguem classes ou conceitos, com o propósito de utilizar os modelos para predizer ou explicar o contexto. Geralmente, o modelo baseia-se em dados de amostragem ou de treinamento. No caso da predição, o objetivo é inferir valores no conjunto de dados. 2.3.2 Associação As regras de associação consistem em padrões do tipo A → B, onde A e B são conjuntos de valores antecedentes e consequentes. Consideremos um exemplo de supermercado. O padrão “Cliente que compra pão também compra leite” representa um padrão de comportamento dos clientes do supermercado. Essa organização pode ser válida na organização dos produtos na prateleira visando o aumento das vendas. 3. Metodologia Para o desenvolvimento desta pesquisa foi utilizada a base de dados de matricula do IFPI – Campus Floriano, que contem dados dos estudantes matriculados entre o ano de 1998 e o ano de 2010, totalizando 4348 registros. Para a extração do conhecimento foram seguidos os passos do KDD: Seleção dos dados, Pré-Processamento, Transformação, Mineração de Dados, e interpretação/avaliação. Os softwares utilizados para o desenvolvimento deste trabalho foram: o banco de dados MySql Server v5.0 e sua Interface Gráfica do Usuário v1.2, o software de Mineração de Dados Weka v3.7.4 e o SIG TerraView v5.1. Os software MySql, TerraView e o Weka GNU possui licença GNU/GPL (General Public License).
  • 4. 3.1 Seleção de dados A base de dados do IFPI é formada por 53 campos e está salva no formato de arquivo Excel. Destes foram escolhidos 10 campos: sexo, etnia, data de nascimento, cidade do nascimento, estado do nascimento, estado civil, renda familiar, financiamento da instituição de origem, curso e período de ingresso. 3.2 Pré-processamento Como citado anteriormente à base de dados estava no formato de arquivo Excel, para facilitar esta fase todos os dados das tabelas foram exportados com o formato de arquivo csv e posteriormente importados no banco de dados MySql. Para a importação primeiro criou-se uma base de dados e um tabela com todos os campos existentes no arquivo csv. Nesta fase foram utilizadas duas rotinas de limpeza de dados para suprir valores ausentes: (a) suprir valores ausentes manualmente e (b) ignorar tuplas. A primeira técnica (a), foi utilizada para o campo sexo, nos dados inexistentes foram inseridos manualmente utilizando o campo nome como base, o campo estado de origem também utilizou essa mesma técnica usando como base a cidade de origem. Para os demais campos, foi utilizada a segunda técnica (b), realizando um processo de adequação dos dados retirando espaços em branco antes e depois dos dados e caracteres inválidos e como tratamento das linhas sem dados simplesmente às ignoramos. 3.3 Transformação dos dados Nesta fase foram gerados dados a partir dos dados existentes. Tendo a data de nascimento como base, geramos o campo idade. Já a renda foi dividida para refletir as classes sociais, a criação das classes se deu de acordo com as regras propostas pela consultoria Target (2011), que dividiu as classes em: A1: inclui as famílias com renda mensal maior que R$ 14.400; A2: maior que R$ 8.100; B1: maior que R$ 4.600; B2: maior que R$ 2.300; C1: maior que R$ 1.400; C2: maior que R$ 950; D: maior que R$ 600; E: maior que R$ 400; F: menor que R$ 200. Para simplificar a consulta, as classes proposta pela Target sofreram algumas alterações. Os dados da classe A1 e A2 foram juntos na classe A, e os dados da classe E e F foram juntos na classe E. 3.4 Mineração de Dados Algumas ferramentas foram analisadas e o Weka (Waikato Environment for Knowledge Analysis) foi à escolhida para a tarefa de Mineração de Dados. A escolha se deu pelo fato de ser uma ferramenta robusta, bem aceita no mercado, pela facilidade de uso e pelo poder de exposição dos resultados da mineração com clareza. Para a manipulação dos dados pelo Weka primeiro devemos colocá-los em um formato aceito pelo mesmo, esse formato é o ARFF (Attribute-Relation File Forma). Para gerar o arquivo arff primeiro exportamos os dados do banco de dados utilizando separação por vírgula, e posteriormente inserimos o cabeçalho com os meta- dados referentes às colunas. Com o objetivo de uma análise precisa dos dados, os mesmos foram submetidos a duas de técnicas de mineração de dados. Eles foram submetidos à classificação através dos algoritmos RandomTree, J48 e REPTree e associação pelo algoritmo JRIPA.
  • 5. 3.5 Interpretação/Avaliação Nesta fase os dados foram analisados e os padrões e as características foram identificados, sendo apresentados os resultados na próxima seção. Para uma melhor apresentação dos dados em forma de mapas utilizamos o software TerraView e as malhas digitais municipais e estaduais disponíveis no site do IBGE (IBGE, 2011). 4. Área de Estudo O presente trabalho faz uma avaliação dos dados dos alunos que estudam e estudaram no IFPI – Campus Floriano. O Instituto Federal do Piauí foi criado mediante transformação do Centro Federal de Educação Tecnológica do Piauí (CEFET/PI). Sua Reitoria está instalada em Teresina – PI. O Piauí está localizado a noroeste da região Nordeste do Brasil ocupa uma área de 251.576 km² (pouco maior que o Reino Unido) e tem 3.118.360 habitantes. Sua capital é a cidade de Teresina (IBGE, 2011). A economia do estado é baseada no setor de serviços (comércio), na indústria (química, têxtil, de bebidas), na agricultura (soja, algodão, arroz, cana-de-açúcar, mandioca) e na pecuária extensiva. A Figura 1 ilustra a localização da área de estudos (município de Floriano) em relação ao mapa do Brasil e ao estado do Piauí, do qual o município de Floriano faz parte. O município de Floriano situa-se na Zona do Médio Parnaíba, à margem direita desse mesmo Rio, em frente à cidade de Barão de Grajaú, Maranhão. A cidade fica a 253 km da capital do Estado do Piauí, Teresina. Tem uma população de 57.690 e ocupa uma área de 3.409 km2 (IBGE, 2011). O município possui um IDH de 0,711 que é considerado médio (HDR, 2011). Figura 1 - Localização da área de estudos em relação ao território do Brasil. 4. 1. Resultados Nesta seção serão apresentadas as informações obtidas na fase de análise de dados do KDD. A Figura 2 apresenta a distribuição dos estudantes no território nacional e em relação ao estado do Piauí. Notamos que das 27 unidades distritais (contando com o Distrito Federal) o IFPI conta com alunos de 22 desses distritos, o que mostra a importância do mesmo no contesto nacional. Já no contexto do estado do Piauí sua
  • 6. atuação ficou limitada a região sul e sudoeste. A Figura 2 ainda ilustra que a maioria dos alunos do IFPI, vem das cidades de: Floriano, Guadalupe, Jerumenha, Canto do Buriti, Oeiras, Amarante e Teresina. Figura 2. A esquerda temos a distribuição dos alunos em cada estado do Brasil e a direita temos a distribuição dentro do estado do Piauí. Com a intenção de avaliar se a renda dos estudantes tem uma influência direta na distribuição geográfica, foi gerado o mapa apresentado na Figura 3, nesse mapa apresentamos a classe social predominante dos discentes por estado e por cidade. Nela podemos constatar que estudantes de regiões mais distantes do polo educacional apresentam uma classe social mais elevada que os nascidos na microrregião de Floriano. Isso pode se dar devido à dificuldade que pessoas de classe social mais baixa têm de se transportar até lugares mais distantes e de sustentar-se. Figura 3. Mapa com a distribuição das classes sociais dos alunos por estado e por cidade. Tendo como base o contexto social em nosso país, no qual afrodescendentes ainda são muito discriminados, utilizamos o algoritmo de classificação RandomTree para avaliar a influência da cor da pele na classe social e obtivemos a árvore apresentada
  • 7. na Figura 4. Constatamos que alunos de pele clara e alunos de pele negra apresentam a mesma classe social, todos enquadrados na classe E, assim não constatamos uma desigualdade gerada pela cor da pele. Figura 4. Árvore gerada pelo RandomTree comparando a classe social com a cor da pele. Avaliamos também que a classe social e a cor da pele têm influencia direta sobre a instituição de origem dos alunos (privada, pública ou filantrópica). Identificamos que a cor da pele em nada influência a instituição de origem sendo que para todas as etnias a maioria dos alunos foi proveniente de escola pública. Já a classe social C1 apresentou uma predominância em instituições filantrópicas, para as instituições públicas e privadas a predominância continua sendo de alunos da classe E. A classe social apresentou relação direta com o curso escolhido. Identificamos após classificação realizada pelo algoritmo RandomTree que alunos de classe social mais altas dão preferência a cursos na área de técnico em edificações e informática, e concomitante em edificações. Com o algoritmo J48 identificamos também que a classe social tem relação direta com a idade dos alunos. Alunos com idade inferior a 21 pertencem a classes sociais mais altas. Através da análise da árvore gerada pelo algoritmo REPTree identificamos que os alunos que ingressaram até o ano de 1999 eram provenientes de escola privada já nos anos posteriores, o número alunos de escola pública superaram o número de alunos de escola privada. Com o uso do algoritmo JRIP que identifica as regras pressentes na base de dados identificamos cinco regras predominantes. Das quais as três seguintes se destacam. 1. Alunos que ingressaram antes de 2008 e tem idade maior que 20 anos, escolheram o curso de Matemática, são locais, têm classe social C1 e são da etnia negra; 2. Os alunos que ingressaram depois de 2008 vindos de escola particular escolheram o curso de Análise e Desenvolvimento de Sistemas e tem etnia branca; 3. O curso de Biologia até o ano de 2005 foi mais escolhido por mulheres de classe social C1 e etnia branca; 5. Conclusões e Trabalhos Futuros Através da pesquisa acima apresentada concluímos que a mineração de dados é um processo de fundamental importância para a obtenção de informações de grandes bases
  • 8. de dados. Constatamos que o IFPI, de fato, cumprindo o seu papel de inclusão social, pois não apresentou uma disparidade em seus alunos referentes à classe e a etnia. Como trabalho futuro propõe-se a exploração desta base de dados utilizando outras técnicas de mineração de dados como a Clusterização e a utilização de outras ferramentas de mineração. Agradecimentos Os autores agradecem a CAPES pela concessão das bolsas de pesquisa e ao IFPI – Campus Floriano pela disponibilização da base de dados. Referências Bibliográficas Amo, S. A. (2004) “Técnicas de Mineração de Dados”. In: Sociedade Brasileira de Computação, UFBA. Jornadas de Atualização em Informática. Salvador – BA, Universidade Federal da Bahia, 2004, v.2, p195-236. Breternitz, V. J. (2010) “Sistemas de informações geográficas: uma visão para administradores e profissionais de tecnologia da informação,” 2010. Câmara, G.; Casanova, M. A. (1995) “Fields and objects algebras for gis operations operations.” vol. 1, pp. 407 – 420, 1995. Fayyad, U. M.; Shapiro, G. P.; Smyth, P. (1996) “From data mining to knowledge discovery: An overview”, AI Magazine pp. 37–54, 1996. HDR (2011). Human Development Report. Disponível em: <http://hdr.undp.org/en/>. Acesso em set. 2011. IBGE (2011). Instituto Brasileiro de Geografia e Estatísticas. Disponível em: <http://ibge.gov.br>. Acesso em set. 2011. Miller, H. J.; Han, J. (2001) “Geographic data mining and knowledge discovery: An overview”. London: Taylor and Francis, in press, B., 2001. Oliveira, A. T.; Vidal Filho, J. N.; Lima, D. R.; Castro, A. F.; Silva, M. P. S. (2011) “Spatial analysis of the student profile of federal techical school of piaui”. In: ISTI: Conferência Ibérica de Sistemas e Tecnologias de Informação. Portugal, 2011. V II, p. 368-373. Prass, F. S. (2004) “Kdd: Processo de descoberta de conhecimento em bancos de dados” vol. 1, pp. 10 – 14, 2004. PDI (2009) “Plano de Desenvolvimento Institucional”. Disponível em: < http://www.ifpi.edu.br/arquivos/PDI_IFPI_PROPOSTA_FINAL.pdf>. Acesso em set. 2011. Target (2011) Disponível em: <http://www.target.com.br/portal_new/Home.aspx>. Acesso em set. 2011. Wright, D. J.; Goodchild M. F.; Proctor J. D. (1997) “Demystifying the persistent ambiguity of gis as Tool Versus Science” The Annals of the Association of American Geographes, 87(2): 346-362, 1997.