O documento introduz o tema da mineração de dados educacionais, definindo-a como uma área interdisciplinar que desenvolve métodos para explorar dados originados em contextos educacionais. Ele resume os principais tópicos da mineração de dados como pré-processamento, tarefas como classificação e agrupamento, e aplicações na educação como predição do desempenho dos alunos.
1. Uma introdução à
Mineração de Dados Educacionais
Leandro Augusto da Silva
prof.leandro.augusto@mackenzie.br
Laboratório de Big Data e Métodos Analíticos - BigMAAp
Programa de Pós-Graduação em Engenharia Elétrica e Computação - PPGEEC
Faculdade de Computação e Informática – FCI
Universidade Presbiteriana Mackenzie - UPM
Universidade Presbiteriana Mackenzie
2. Introdução
• Mineração de Dados (MD) é uma área de
pesquisa multidisciplinar, envolvendo
basicamente Banco de Dados, Estatística e
Aprendizagem de Máquina.
• A MD é parte principal de um processo que tem
como entrada uma Base de Dados e como saída
um Conhecimento
• Ela é divida em tarefas como predição,
clusterização e associação que devem ser
escolhidas de acordo com analises exploratórias
inicialmente feitas sobre os dados
2
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie
MineraçãodeDadosEducacionais
3. Introdução
“Educational datamining (EDM) is an emerging interdisciplinary
research area that deals with the development of methods to
explore data originating in an educational context.”
Romero, C., & Ventura, S. (2010). Educational data mining: a
review of the state of the art. Systems, Man, and
Cybernetics, Part C: Applications and Reviews, IEEE
Transactions on, 40(6), 601-618.
Romero, C., & Ventura, S. (2007). Educational data mining: A
survey from 1995 to 2005. Expert Systems with Applications,
33(1), 135-146.
3
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie
MineraçãodeDadosEducacionais
4. Tipos de Estudos
• Basicamente classificados pela origem dos
dados:
– Histórico educacional do aluno
– Provenientes de ambientes de sala de aula como
notas, curriculos e etc;
– Deixados em registros de log de sistemas
computadorizados como Learning Management
System (LMS), Intelligent Tutoring System (ITS)e
Adaptive Educational Sypermedia System (AEHS).
4
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie
MineraçãodeDadosEducacionais
5. Processo de KDD
5
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie
MineraçãodeDadosEducacionais
6. Bases de Dados
• Importante envolver neste processo um especialista
que conhece o problema e que possa auxiliar na
escolha de bases de dados.
• Isto significa que podem ocorrer situações onde será
necessário utilizar mais de uma base de dados.
• E ainda, esta base poderá representar dados
organizados em uma tabela, os quais são chamados de
estruturados ou podem estar em documentos
descritos na forma de texto ou multimídia (imagem,
vídeo e som) os quais são chamados de não
estruturados.
6
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie
MineraçãodeDadosEducacionais
7. Pré-processamento
• Etapas:
– Preparação
• ruídos (noise data) ou
outliers,
• inconsistências ou
• valores faltantes
(missing values).
– Seleção
• redundância (de
dados e de atributos)
– Transformação
• transformação de
tipos de atributos
• normalização de
dados
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie
MineraçãodeDadosEducacionais
8. Tarefas da Mineração de Dados
• Tarefas da Mineração de dados:
– Análise Preditiva
• Numérica: classificação de dados
• Categórica: regressão
– Análise de Agrupamento (Clustering)
– Análise de Regras de Associação
8
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie
MineraçãodeDadosEducacionais
9. Análise preditiva
Conjunto de treinamento
valor previsto
(Conjunto) Teste
9
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie
MineraçãodeDadosEducacionais
10. Análise preditiva categórica
• Classificação de dados:
– Considere as imagens abaixo como sendo uma
amostra de um conjunto de treinamento
Carro Moto Caminhão
10
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie
MineraçãodeDadosEducacionais
11. Análise preditiva categórica
• Agora considere que é preciso decidir pela
categoria de CNH para dirigir este novo meio
de transporte
Tipo B
Tipo A
Tipo C
11
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie
MineraçãodeDadosEducacionais
12. Análise preditiva categórica
Tipo B
Tipo A
Tipo C
Qual tipo de CNH???
12
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie
MineraçãodeDadosEducacionais
13. Análise Preditiva
Processo de inferir um valor para uma situação nunca antes vista.
Exemplos:
• Classificar potenciais estudantes em um determinados curso;
• Estimar o número de egressos, a partir de uma determinada
campanha;
• Classificar o sentimento de alunos em fóruns de discussão (Moodle)
ou redes sociais;
• Classificar estudantes com dificuldade de aprenndiado;
• Classificar estudantes com potencial de evasão;
• Estimar o uso de recursos de ferramentas de LMS ( Moodle);
• Outros.
13
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie
MineraçãodeDadosEducacionais
14. Análise de Agrupamento
Não temos o atributo c
Exemplar do CT
14
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie
MineraçãodeDadosEducacionais
15. Análise de Agrupamento
Quantos grupos temos nesta
base?
15
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie
MineraçãodeDadosEducacionais
16. Análise de Agrupamento
Não temos o atributo c no CT,
mas o resultado do
agrupamento pode
gerar esse
conhecimento
16
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie
MineraçãodeDadosEducacionais
17. Análise de Agrupamento
Processo de partição de um conjunto de dados heterogêneos em
grupos homogêneos. Exemplos:
• Agrupar pessoas com habilidades semelhantes;
• Agrupar perfil de pessoas com características de consumo
semelhantes;
• Agrupar alunos com desempenhos semelhantes em um conjunto
de disciplinas;
• Identificar as variáveis relevantes de cada agrupamento;
• Agrupar publicações de fóruns de discussão (Moodle) em conteúdo
semelhante;
• Outros.
17
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie
MineraçãodeDadosEducacionais
18. Regras de Associação
X Y
X ∧ Y
SE X ENTAO Y
X Y
18
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie
MineraçãodeDadosEducacionais
19. Regras de Associação
Usada para determinar quais itens tendem a
ocorrer juntamente com outros itens. Exemplos:
• Quem opta por um curso X tem a chance de fazer
uma atividade de extensão Y
• O desejo pelo curso X implica no desejo do curso
Y
• O interesse pelo conteúdo X implica o desejo pelo
conteúdo Y
• Outros exemplos como conhecemos da Amazon,
Submarino e etc.
19
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie
MineraçãodeDadosEducacionais
20. Discussão Final
• Nesta área há um conflito de interesse pelo
tema dividindo a audiência entre:
– Learning Analytics
– Educational Data Mining
• Mas nesse esentido, ainda outros nomes
poderiam surgir como:
– Academic Analytics
– Educational Analytics
20
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie
MineraçãodeDadosEducacionais
21. Conferências e Revistas
• Internacionais:
– EDM - International Conference on Educational Data
Mining (9a. edicão em 2016)
– JEDM – Journal of Educational Data Mining
– LAK - Learning Analytics and Knowledge (6a. edição
em 2016)
– Journal of Learning Analytics
• Nacional:
– WMDE - Workshop de Mineração de Dados
Educacionais (3a. Edição em 2016)
21
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie
MineraçãodeDadosEducacionais
22. Ambientes (Gratuitos) de Desenvolvimento
• Weka
• Orange
• Rattle
• Ou usando pacotes
– R
– Python
22
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie
MineraçãodeDadosEducacionais
23. Por onde começar....
23
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie
MineraçãodeDadosEducacionais
24. 24
Leandro Augusto da Silva
prof.leandro.augusto@mackenzie.br
Laboratório de Big Data e
Métodos Analíticos Aplicados - BigMAAp
Programa de Pós-Graduação em Engenharia
Elétrica e Computação - PPGEEC
Faculdade de Computação e Informática – FCI
Universidade Presbiteriana Mackenzie – UPM
http://www.bigmaap.mackenzie.br