O documento apresenta os fundamentos da mineração de dados educacionais, discutindo tópicos como introdução à área, bases de dados, pré-processamento, tipos de estudos, tarefas de mineração como classificação, agrupamento e regras de associação aplicadas a dados educacionais. Conclui ressaltando a importância da área para a pesquisa, mas também desafios relacionados à infraestrutura de coleta de dados nas instituições.
1. Fundamentos de Mineração de Dados Educacionais
Prof. Dr. Leandro Augusto da Silva
prof.leandro.augusto@mackenzie.br
I WORKSHOP DE MINERAÇÃO DE DADOS EM AMBIENTES VIRTUAIS DE ENSINO/APRENDIZAGEM
(WMDAVA'2014)
2. Agenda
•Introdução
•Bases de Dados
•Pré-Processamento
•Mineração de Dados
•Conclusão
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie
Fundamentos de Mineração de Dados
WMDAVA'2014
3. Introdução
•Mineração de Dados (MD) é uma área de pesquisa multidisciplinar, envolvendo, basicamente Banco de Dados, Estatística, Matemática Discreta e Aprendizado de Máquina.
•A MD é parte principal de um processo que tem como entrada uma Base de Dados e como saída um Conhecimento.
•Ela é divida em tarefas como predição, clusterização e associação que devem ser escolhidas de acordo com analises exploratórias inicialmente feitas sobre os dados.
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie
Introdução
Bases de Dados
Pré-processamento
Mineração de Dados
Conclusão
Fundamentos de Mineração de Dados
WMDAVA'2014
4. Introdução
“Educational datamining (EDM) is an emerging interdisciplinary research area that deals with the development of methods to explore data originating in an educational context.”
Romero, C., & Ventura, S. (2010). Educational data mining: a review of the state of the art. Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions on, 40(6), 601-618.
Romero, C., & Ventura, S. (2007). Educational data mining: A survey from 1995 to 2005. Expert Systems with Applications, 33(1), 135-146.
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie
WMDAVA'2014
Introdução
Bases de Dados
Pré-processamento
Mineração de Dados
Conclusão
Fundamentos de Mineração de Dados
5. Tipos de Estudos - EDM
•Basicamente classificados pela origem dos dados, como:
–Dados de alunos providos de ambientes de sala de aula como notas, curriculos e etc;
–Dados de alunos deixados em registros de log de sistemas computadorizados como Learning Management System (LMS), Intelligent Tutoring System (ITS) e Adaptive Educational Sypermedia System (AEHS).
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie
Fundamentos de Mineração de Dados
WMDAVA'2014
Introdução
Bases de Dados
Pré-processamento
Mineração de Dados
Conclusão
6. Descoberta de Conhecimento em Bases de Dados
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie
WMDAVA'2014
Introdução
Bases de Dados
Pré-processamento
Mineração de Dados
Conclusão
Fundamentos de Mineração de Dados
7. Bases de Dados
•Importante ter um especialista que conhece o problema e que possa auxiliar na escolha de bases de dados.
•Isto significa que podem ocorrer situações onde será necessário utilizar mais de uma base de dados.
•E ainda, esta base poderá representar dados organizados em uma tabela, os quais são chamados de estruturados ou podem estar em documentos descritos na forma de texto ou multimídia (imagem, vídeo e som) os quais são chamados de não estruturados.
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie
WMDAVA'2014
Introdução
Bases de Dados
Pré-processamento
Mineração de Dados
Conclusão
Fundamentos de Mineração de Dados
8. Pré-Processamento
•Casos típicos são valores ausentes, ruidosos, inconsistentes e redundantes.
•Ainda há de considerar também que, em outras situações, com ou sem, integração de bases de dados o aumento no número de exemplares e atributos da base de dados podem interferir na execução dos algoritmos usados nas tarefas de mineração de dados e por essa razão devem ser tratados.
•Para um diagnostico de possíveis problemas é comum fazer inicialmente uma analise descritiva dos dados.
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie
WMDAVA'2014
Introdução
Bases de Dados
Pré-processamento
Mineração de Dados
Conclusão
Fundamentos de Mineração de Dados
9. Valores Ausentes / Missing Values
•Atributos que não tem valores preenchidos. As razões são diversas, por exemplo, em uma integração de dados de alunos de uma faculdade envolvendo diferentes cursos, pode haver disciplinas incomuns e, portanto haverá o surgimento deste tipo de valores que precisam ser tratados.
•O tratamento pode ser feito pela simples remoção do atributo (em caso de grande incidência como poderia ser para o caso do exemplo apresentado) ou do exemplar (em caso de poucas ocorrências). Ou ainda o valor pode ser substituído por uma constante calculara pela média, mediana, valor máximo ou mínimo.
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie
WMDAVA'2014
Introdução
Bases de Dados
Pré-processamento
Mineração de Dados
Conclusão
Fundamentos de Mineração de Dados
10. Valores fora Padrão / Outliers
•Ocorre quando surge algum exemplar com valor de atributo que foge de um padrão.
•A razão do surgimento pode ser uma fraude (exemplo o grupo de alunos pode ter acesso antecipado às questões da prova) ou pode ser uma mudança de comportamento no padrão da base de dados ou outlier (no exemplo, os alunos são mais dedicado que em anos anteriores).
•O tratamento para este tipo de ocorrência pode ser feito por diferentes abordagens
•Tipicamente ela pode ser resolvida com a separação dos valores em faixas pré-definidas, técnica conhecida como binning. Neste caso cada letra representa uma faixa de valores e assim evitam-se além do outliers efeitos de subjetividade em uma correção da prova.
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie
WMDAVA'2014
Introdução
Bases de Dados
Pré-processamento
Mineração de Dados
Conclusão
Fundamentos de Mineração de Dados
11. Inconsistência de Valores
•Situação típica de integração de dados. Ocorre quando há falta de um critério bem definido entre os valores dos atributos ou dos exemplares.
•Exemplo que ilustra o critério para os atributos é quando em uma analise de dados de notas de alunos e situação final, um aluno teve nota 5 e está aprovado e, na mesma base, um outro aluno tem a mesma nota 5, mas está reprovado.
•Isto pode ocorrer por diversas razões, como a mudança de critério de aprovação de um curso.
•A solução poderia ser a remoção dos exemplares ou o ajuste dos valores, desde que se alguma informação adicional sobre os dados fornecida por um especialista.
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie
WMDAVA'2014
Fundamentos de Mineração de Dados
12. Transformação de Dados
•A transformação de valores compreende mudanças no tipo dos atributos. Exemplo, considere um atributo categórico ordinal com valores típicos segundo grau, graduação, pós- graduação que seriam transformados para 1, 2 e 3, por exemplo. No caso do gênero, atributo nominal, como são apenas dois valores, eles poderiam ser transformados para binário 0 e 1. No entanto, deve-se ter cuidado para não transformar um atributo nominal em ordinal no processo de transformação, isto é, o valor não pode ideia de ordem.
•A normalização de valores consiste em uma técnica para deixar os valores dos atributos em uma mesma escala. Abordagem de solução comum é calcular o valor máximo de um atributo para dividi-lo aos demais exemplares com mesmo atributo.
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie
WMDAVA'2014
Fundamentos de Mineração de Dados
13. Mineração de Dados
•Tarefa dividida em:
–Modelagem Preditiva
•Regressão e
•classificação;
–Analise de Clustering (Grupos)
–Regras de Associação
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie
Mineração de Dados Educacionai
WMDAVA'2014
Introdução
Bases de Dados
Pré-processamento
Mineração de Dados
Conclusão
14. Modelagem Preditiva
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie
Conjunto de Treinamento CT=<X,c>
Exemplar desconhecido
x=<x,?>
c
C = categórico classificação
C = numérico regressão
WMDAVA'2014
Introdução
Bases de Dados
Pré-processamento
Mineração de Dados
Conclusão
Fundamentos de Mineração de Dados
15. Classificação de dados
Constrói-se um modelo com base em um conjunto de dados descritos por atributos e classes para que possa ser aplicado a dados não classificados. Exemplos de aplicação em dados de estudantes:
•Sucesso em programas de intercambio;
•Potencial evasão;
•Futuro promissor;
•Potencial reprovação em disciplina;
•Necessidade de atividades extra-classe;
•Conclusão do curso no prazo;
•Outros como verificar se aluno faz parte da instituição para aprova-lo como membro da rede social.
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie
WMDAVA'2014
Introdução
Bases de Dados
Pré-processamento
Mineração de Dados
Conclusão
Fundamentos de Mineração de Dados
16. Previsão de Séries
O mesmo principio da classificação de dados, com a diferença que o atributo especial tem natureza numérica contínua. Exemplos:
•Prever o desempenho do aluno em uma disciplina;
•Prever a demanda de alunos em uma disciplina/curso/etc;
•Prever nota do curso em exames de avaliação;
•Tempo para colação de grau;
•Outros.
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie
WMDAVA'2014
Introdução
Bases de Dados
Pré-processamento
Mineração de Dados
Conclusão
Fundamentos de Mineração de Dados
17. Análise de Agrupamento
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie
Não temos o atributo c
Exemplar do CT
WMDAVA'2014
Introdução
Bases de Dados
Pré-processamento
Mineração de Dados
Conclusão
Fundamentos de Mineração de Dados
18. Análise de Agrupamento
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie
Quantos grupos temos nesta base?
WMDAVA'2014
Introdução
Bases de Dados
Pré-processamento
Mineração de Dados
Conclusão
Fundamentos de Mineração de Dados
19. Análise de Agrupamento
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie
Mineração de Dados Educacionai
Não temos o atributo c no CT, mas o resultado do agrupamento pode gerar esse conhecimento
WMDAVA'2014
Introdução
Bases de Dados
Pré-processamento
Mineração de Dados
Conclusão
20. Análise de Agrupamento
Processo de partição de um conjunto de dados heterogêneos em grupos homogêneos. Exemplos:
•Agrupar estudantes com desempenho semelhante em disciplinas;
•Agrupar alunos com estilo de aprendizado parecido;
• Agrupar ementas de disciplinas com assuntos semelhantes;
•Agrupar alunos com postagens semelhantes em redes sociais/fóruns de discussão em EaD.
•Outros.
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie
WMDAVA'2014
Introdução
Bases de Dados
Pré-processamento
Mineração de Dados
Conclusão
Fundamentos de Mineração de Dados
21. Regras de Associação
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie
X
Y
X ∧ Y
SE X ENTAO Y
X Y
WMDAVA'2014
Introdução
Bases de Dados
Pré-processamento
Mineração de Dados
Conclusão
Fundamentos de Mineração de Dados
22. Regras de Associação
Usada para determinar quais itens tendem a ser adquiridos juntamente em uma mesma transação. Exemplos:
•Determinar quais disciplinas o aluno tem desempenho semelhante;
•Determinar disciplinas que tratam assuntos equivalentes;
•Descobrir termos relacionados em postagens de fóruns/redes sociais/etc;
•Outros.
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie
Mineração de Dados Educacionai
WMDAVA'2014
Introdução
Bases de Dados
Pré-processamento
Mineração de Dados
Conclusão
23. Conclusão
•Tema de pesquisa bastante importante, mas que esbarra na infraestrutura de banco de dados da instituição para coleta de dados;
•Entretanto, o EDM é um assunto fácil de ser usado em aula, pois os alunos são especialistas no negócio.
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie
WMDAVA'2014
Introdução
Bases de Dados
Pré-processamento
Mineração de Dados
Conclusão
Fundamentos de Mineração de Dados
24. Prof. Leandro Augusto da Silva
prof.leandro.augusto@mackenzie.br
Faculdade de Computação e Informática da Universidade Presbiteriana Mackenzie
São Paulo – SP - Brasil