SlideShare une entreprise Scribd logo
1  sur  24
Télécharger pour lire hors ligne
Fundamentos de Mineração de Dados Educacionais 
Prof. Dr. Leandro Augusto da Silva 
prof.leandro.augusto@mackenzie.br 
I WORKSHOP DE MINERAÇÃO DE DADOS EM AMBIENTES VIRTUAIS DE ENSINO/APRENDIZAGEM 
(WMDAVA'2014)
Agenda 
•Introdução 
•Bases de Dados 
•Pré-Processamento 
•Mineração de Dados 
•Conclusão 
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie 
Fundamentos de Mineração de Dados 
WMDAVA'2014
Introdução 
•Mineração de Dados (MD) é uma área de pesquisa multidisciplinar, envolvendo, basicamente Banco de Dados, Estatística, Matemática Discreta e Aprendizado de Máquina. 
•A MD é parte principal de um processo que tem como entrada uma Base de Dados e como saída um Conhecimento. 
•Ela é divida em tarefas como predição, clusterização e associação que devem ser escolhidas de acordo com analises exploratórias inicialmente feitas sobre os dados. 
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie 
Introdução 
Bases de Dados 
Pré-processamento 
Mineração de Dados 
Conclusão 
Fundamentos de Mineração de Dados 
WMDAVA'2014
Introdução 
“Educational datamining (EDM) is an emerging interdisciplinary research area that deals with the development of methods to explore data originating in an educational context.” 
Romero, C., & Ventura, S. (2010). Educational data mining: a review of the state of the art. Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions on, 40(6), 601-618. 
Romero, C., & Ventura, S. (2007). Educational data mining: A survey from 1995 to 2005. Expert Systems with Applications, 33(1), 135-146. 
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie 
WMDAVA'2014 
Introdução 
Bases de Dados 
Pré-processamento 
Mineração de Dados 
Conclusão 
Fundamentos de Mineração de Dados
Tipos de Estudos - EDM 
•Basicamente classificados pela origem dos dados, como: 
–Dados de alunos providos de ambientes de sala de aula como notas, curriculos e etc; 
–Dados de alunos deixados em registros de log de sistemas computadorizados como Learning Management System (LMS), Intelligent Tutoring System (ITS) e Adaptive Educational Sypermedia System (AEHS). 
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie 
Fundamentos de Mineração de Dados 
WMDAVA'2014 
Introdução 
Bases de Dados 
Pré-processamento 
Mineração de Dados 
Conclusão
Descoberta de Conhecimento em Bases de Dados 
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie 
WMDAVA'2014 
Introdução 
Bases de Dados 
Pré-processamento 
Mineração de Dados 
Conclusão 
Fundamentos de Mineração de Dados
Bases de Dados 
•Importante ter um especialista que conhece o problema e que possa auxiliar na escolha de bases de dados. 
•Isto significa que podem ocorrer situações onde será necessário utilizar mais de uma base de dados. 
•E ainda, esta base poderá representar dados organizados em uma tabela, os quais são chamados de estruturados ou podem estar em documentos descritos na forma de texto ou multimídia (imagem, vídeo e som) os quais são chamados de não estruturados. 
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie 
WMDAVA'2014 
Introdução 
Bases de Dados 
Pré-processamento 
Mineração de Dados 
Conclusão 
Fundamentos de Mineração de Dados
Pré-Processamento 
•Casos típicos são valores ausentes, ruidosos, inconsistentes e redundantes. 
•Ainda há de considerar também que, em outras situações, com ou sem, integração de bases de dados o aumento no número de exemplares e atributos da base de dados podem interferir na execução dos algoritmos usados nas tarefas de mineração de dados e por essa razão devem ser tratados. 
•Para um diagnostico de possíveis problemas é comum fazer inicialmente uma analise descritiva dos dados. 
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie 
WMDAVA'2014 
Introdução 
Bases de Dados 
Pré-processamento 
Mineração de Dados 
Conclusão 
Fundamentos de Mineração de Dados
Valores Ausentes / Missing Values 
•Atributos que não tem valores preenchidos. As razões são diversas, por exemplo, em uma integração de dados de alunos de uma faculdade envolvendo diferentes cursos, pode haver disciplinas incomuns e, portanto haverá o surgimento deste tipo de valores que precisam ser tratados. 
•O tratamento pode ser feito pela simples remoção do atributo (em caso de grande incidência como poderia ser para o caso do exemplo apresentado) ou do exemplar (em caso de poucas ocorrências). Ou ainda o valor pode ser substituído por uma constante calculara pela média, mediana, valor máximo ou mínimo. 
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie 
WMDAVA'2014 
Introdução 
Bases de Dados 
Pré-processamento 
Mineração de Dados 
Conclusão 
Fundamentos de Mineração de Dados
Valores fora Padrão / Outliers 
•Ocorre quando surge algum exemplar com valor de atributo que foge de um padrão. 
•A razão do surgimento pode ser uma fraude (exemplo o grupo de alunos pode ter acesso antecipado às questões da prova) ou pode ser uma mudança de comportamento no padrão da base de dados ou outlier (no exemplo, os alunos são mais dedicado que em anos anteriores). 
•O tratamento para este tipo de ocorrência pode ser feito por diferentes abordagens 
•Tipicamente ela pode ser resolvida com a separação dos valores em faixas pré-definidas, técnica conhecida como binning. Neste caso cada letra representa uma faixa de valores e assim evitam-se além do outliers efeitos de subjetividade em uma correção da prova. 
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie 
WMDAVA'2014 
Introdução 
Bases de Dados 
Pré-processamento 
Mineração de Dados 
Conclusão 
Fundamentos de Mineração de Dados
Inconsistência de Valores 
•Situação típica de integração de dados. Ocorre quando há falta de um critério bem definido entre os valores dos atributos ou dos exemplares. 
•Exemplo que ilustra o critério para os atributos é quando em uma analise de dados de notas de alunos e situação final, um aluno teve nota 5 e está aprovado e, na mesma base, um outro aluno tem a mesma nota 5, mas está reprovado. 
•Isto pode ocorrer por diversas razões, como a mudança de critério de aprovação de um curso. 
•A solução poderia ser a remoção dos exemplares ou o ajuste dos valores, desde que se alguma informação adicional sobre os dados fornecida por um especialista. 
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie 
WMDAVA'2014 
Fundamentos de Mineração de Dados
Transformação de Dados 
•A transformação de valores compreende mudanças no tipo dos atributos. Exemplo, considere um atributo categórico ordinal com valores típicos segundo grau, graduação, pós- graduação que seriam transformados para 1, 2 e 3, por exemplo. No caso do gênero, atributo nominal, como são apenas dois valores, eles poderiam ser transformados para binário 0 e 1. No entanto, deve-se ter cuidado para não transformar um atributo nominal em ordinal no processo de transformação, isto é, o valor não pode ideia de ordem. 
•A normalização de valores consiste em uma técnica para deixar os valores dos atributos em uma mesma escala. Abordagem de solução comum é calcular o valor máximo de um atributo para dividi-lo aos demais exemplares com mesmo atributo. 
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie 
WMDAVA'2014 
Fundamentos de Mineração de Dados
Mineração de Dados 
•Tarefa dividida em: 
–Modelagem Preditiva 
•Regressão e 
•classificação; 
–Analise de Clustering (Grupos) 
–Regras de Associação 
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie 
Mineração de Dados Educacionai 
WMDAVA'2014 
Introdução 
Bases de Dados 
Pré-processamento 
Mineração de Dados 
Conclusão
Modelagem Preditiva 
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie 
Conjunto de Treinamento CT=<X,c> 
Exemplar desconhecido 
x=<x,?> 
c 
C = categórico  classificação 
C = numérico  regressão 
WMDAVA'2014 
Introdução 
Bases de Dados 
Pré-processamento 
Mineração de Dados 
Conclusão 
Fundamentos de Mineração de Dados
Classificação de dados 
Constrói-se um modelo com base em um conjunto de dados descritos por atributos e classes para que possa ser aplicado a dados não classificados. Exemplos de aplicação em dados de estudantes: 
•Sucesso em programas de intercambio; 
•Potencial evasão; 
•Futuro promissor; 
•Potencial reprovação em disciplina; 
•Necessidade de atividades extra-classe; 
•Conclusão do curso no prazo; 
•Outros como verificar se aluno faz parte da instituição para aprova-lo como membro da rede social. 
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie 
WMDAVA'2014 
Introdução 
Bases de Dados 
Pré-processamento 
Mineração de Dados 
Conclusão 
Fundamentos de Mineração de Dados
Previsão de Séries 
O mesmo principio da classificação de dados, com a diferença que o atributo especial tem natureza numérica contínua. Exemplos: 
•Prever o desempenho do aluno em uma disciplina; 
•Prever a demanda de alunos em uma disciplina/curso/etc; 
•Prever nota do curso em exames de avaliação; 
•Tempo para colação de grau; 
•Outros. 
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie 
WMDAVA'2014 
Introdução 
Bases de Dados 
Pré-processamento 
Mineração de Dados 
Conclusão 
Fundamentos de Mineração de Dados
Análise de Agrupamento 
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie 
Não temos o atributo c 
Exemplar do CT 
WMDAVA'2014 
Introdução 
Bases de Dados 
Pré-processamento 
Mineração de Dados 
Conclusão 
Fundamentos de Mineração de Dados
Análise de Agrupamento 
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie 
Quantos grupos temos nesta base? 
WMDAVA'2014 
Introdução 
Bases de Dados 
Pré-processamento 
Mineração de Dados 
Conclusão 
Fundamentos de Mineração de Dados
Análise de Agrupamento 
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie 
Mineração de Dados Educacionai 
Não temos o atributo c no CT, mas o resultado do agrupamento pode gerar esse conhecimento 
WMDAVA'2014 
Introdução 
Bases de Dados 
Pré-processamento 
Mineração de Dados 
Conclusão
Análise de Agrupamento 
Processo de partição de um conjunto de dados heterogêneos em grupos homogêneos. Exemplos: 
•Agrupar estudantes com desempenho semelhante em disciplinas; 
•Agrupar alunos com estilo de aprendizado parecido; 
• Agrupar ementas de disciplinas com assuntos semelhantes; 
•Agrupar alunos com postagens semelhantes em redes sociais/fóruns de discussão em EaD. 
•Outros. 
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie 
WMDAVA'2014 
Introdução 
Bases de Dados 
Pré-processamento 
Mineração de Dados 
Conclusão 
Fundamentos de Mineração de Dados
Regras de Associação 
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie 
X 
Y 
X ∧ Y 
SE X ENTAO Y 
X  Y 
WMDAVA'2014 
Introdução 
Bases de Dados 
Pré-processamento 
Mineração de Dados 
Conclusão 
Fundamentos de Mineração de Dados
Regras de Associação 
Usada para determinar quais itens tendem a ser adquiridos juntamente em uma mesma transação. Exemplos: 
•Determinar quais disciplinas o aluno tem desempenho semelhante; 
•Determinar disciplinas que tratam assuntos equivalentes; 
•Descobrir termos relacionados em postagens de fóruns/redes sociais/etc; 
•Outros. 
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie 
Mineração de Dados Educacionai 
WMDAVA'2014 
Introdução 
Bases de Dados 
Pré-processamento 
Mineração de Dados 
Conclusão
Conclusão 
•Tema de pesquisa bastante importante, mas que esbarra na infraestrutura de banco de dados da instituição para coleta de dados; 
•Entretanto, o EDM é um assunto fácil de ser usado em aula, pois os alunos são especialistas no negócio. 
Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie 
WMDAVA'2014 
Introdução 
Bases de Dados 
Pré-processamento 
Mineração de Dados 
Conclusão 
Fundamentos de Mineração de Dados
Prof. Leandro Augusto da Silva 
prof.leandro.augusto@mackenzie.br 
Faculdade de Computação e Informática da Universidade Presbiteriana Mackenzie 
São Paulo – SP - Brasil

Contenu connexe

Similaire à Mineração de Dados Educaionais

Sistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da WebSistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da WebFernando Hideo Fukuda
 
Mineração de Dados Educacionais - potencialidades e desafios
Mineração de Dados Educacionais - potencialidades e desafiosMineração de Dados Educacionais - potencialidades e desafios
Mineração de Dados Educacionais - potencialidades e desafiosAnatalia Saraiva Martins Ramos
 
Modelagem Analítica para uso em Dados de Atividades Complementares
Modelagem Analítica para uso em Dados de Atividades ComplementaresModelagem Analítica para uso em Dados de Atividades Complementares
Modelagem Analítica para uso em Dados de Atividades ComplementaresProf. Dr. Leandro Augusto
 
Introdução a SGBDs
Introdução a SGBDsIntrodução a SGBDs
Introdução a SGBDsUFRN
 
(ED1) Tópico 00 - Apresentação da Disciplina
(ED1) Tópico 00 - Apresentação da Disciplina(ED1) Tópico 00 - Apresentação da Disciplina
(ED1) Tópico 00 - Apresentação da DisciplinaFabricio Narcizo
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Marcos Vinicius Fidelis
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - BrazilMarcos Vinicius Fidelis
 
Mineração de dados_escobar2.0
Mineração de dados_escobar2.0Mineração de dados_escobar2.0
Mineração de dados_escobar2.0Leandro Escobar
 
Handbook Usability Testing - Capitulo 11 - Analise de dados
Handbook Usability Testing - Capitulo 11 - Analise de dadosHandbook Usability Testing - Capitulo 11 - Analise de dados
Handbook Usability Testing - Capitulo 11 - Analise de dadosLuiz Agner
 
Uso de mineração nos dados do moodle para predição e combate à evasão
Uso de mineração nos dados do moodle para predição e combate à evasãoUso de mineração nos dados do moodle para predição e combate à evasão
Uso de mineração nos dados do moodle para predição e combate à evasãoRodrigo Moraes
 
Introducão à Ciência de Dados
Introducão à Ciência de DadosIntroducão à Ciência de Dados
Introducão à Ciência de DadosJoão Pedro Albino
 
Aula 01 banco_de_dados_inss_analista_exe
Aula 01 banco_de_dados_inss_analista_exeAula 01 banco_de_dados_inss_analista_exe
Aula 01 banco_de_dados_inss_analista_exeanacri
 
Aula 3 chagas 2000 - questionário na pesquisa científica
Aula 3   chagas 2000 - questionário na pesquisa científicaAula 3   chagas 2000 - questionário na pesquisa científica
Aula 3 chagas 2000 - questionário na pesquisa científicaAndréa Thees
 
CV - FernandoMarcosSouzaCarvalho -Port
CV - FernandoMarcosSouzaCarvalho -PortCV - FernandoMarcosSouzaCarvalho -Port
CV - FernandoMarcosSouzaCarvalho -Portfernandomarcosbhz
 
Green Belts Six Sigma Programa 2010
Green Belts   Six Sigma Programa 2010Green Belts   Six Sigma Programa 2010
Green Belts Six Sigma Programa 2010Luis Fernandes
 

Similaire à Mineração de Dados Educaionais (20)

KDD e Data Mining
KDD e Data MiningKDD e Data Mining
KDD e Data Mining
 
Sistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da WebSistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da Web
 
Mineração de Dados Educacionais - potencialidades e desafios
Mineração de Dados Educacionais - potencialidades e desafiosMineração de Dados Educacionais - potencialidades e desafios
Mineração de Dados Educacionais - potencialidades e desafios
 
Modelagem Analítica para uso em Dados de Atividades Complementares
Modelagem Analítica para uso em Dados de Atividades ComplementaresModelagem Analítica para uso em Dados de Atividades Complementares
Modelagem Analítica para uso em Dados de Atividades Complementares
 
Introdução a SGBDs
Introdução a SGBDsIntrodução a SGBDs
Introdução a SGBDs
 
(ED1) Tópico 00 - Apresentação da Disciplina
(ED1) Tópico 00 - Apresentação da Disciplina(ED1) Tópico 00 - Apresentação da Disciplina
(ED1) Tópico 00 - Apresentação da Disciplina
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
 
Weka pentaho day2014-fidelis
Weka pentaho day2014-fidelisWeka pentaho day2014-fidelis
Weka pentaho day2014-fidelis
 
Data mining
Data miningData mining
Data mining
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - Brazil
 
Data mining
Data miningData mining
Data mining
 
Mineração de dados_escobar2.0
Mineração de dados_escobar2.0Mineração de dados_escobar2.0
Mineração de dados_escobar2.0
 
Mineração
MineraçãoMineração
Mineração
 
Handbook Usability Testing - Capitulo 11 - Analise de dados
Handbook Usability Testing - Capitulo 11 - Analise de dadosHandbook Usability Testing - Capitulo 11 - Analise de dados
Handbook Usability Testing - Capitulo 11 - Analise de dados
 
Uso de mineração nos dados do moodle para predição e combate à evasão
Uso de mineração nos dados do moodle para predição e combate à evasãoUso de mineração nos dados do moodle para predição e combate à evasão
Uso de mineração nos dados do moodle para predição e combate à evasão
 
Introducão à Ciência de Dados
Introducão à Ciência de DadosIntroducão à Ciência de Dados
Introducão à Ciência de Dados
 
Aula 01 banco_de_dados_inss_analista_exe
Aula 01 banco_de_dados_inss_analista_exeAula 01 banco_de_dados_inss_analista_exe
Aula 01 banco_de_dados_inss_analista_exe
 
Aula 3 chagas 2000 - questionário na pesquisa científica
Aula 3   chagas 2000 - questionário na pesquisa científicaAula 3   chagas 2000 - questionário na pesquisa científica
Aula 3 chagas 2000 - questionário na pesquisa científica
 
CV - FernandoMarcosSouzaCarvalho -Port
CV - FernandoMarcosSouzaCarvalho -PortCV - FernandoMarcosSouzaCarvalho -Port
CV - FernandoMarcosSouzaCarvalho -Port
 
Green Belts Six Sigma Programa 2010
Green Belts   Six Sigma Programa 2010Green Belts   Six Sigma Programa 2010
Green Belts Six Sigma Programa 2010
 

Mineração de Dados Educaionais

  • 1. Fundamentos de Mineração de Dados Educacionais Prof. Dr. Leandro Augusto da Silva prof.leandro.augusto@mackenzie.br I WORKSHOP DE MINERAÇÃO DE DADOS EM AMBIENTES VIRTUAIS DE ENSINO/APRENDIZAGEM (WMDAVA'2014)
  • 2. Agenda •Introdução •Bases de Dados •Pré-Processamento •Mineração de Dados •Conclusão Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie Fundamentos de Mineração de Dados WMDAVA'2014
  • 3. Introdução •Mineração de Dados (MD) é uma área de pesquisa multidisciplinar, envolvendo, basicamente Banco de Dados, Estatística, Matemática Discreta e Aprendizado de Máquina. •A MD é parte principal de um processo que tem como entrada uma Base de Dados e como saída um Conhecimento. •Ela é divida em tarefas como predição, clusterização e associação que devem ser escolhidas de acordo com analises exploratórias inicialmente feitas sobre os dados. Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão Fundamentos de Mineração de Dados WMDAVA'2014
  • 4. Introdução “Educational datamining (EDM) is an emerging interdisciplinary research area that deals with the development of methods to explore data originating in an educational context.” Romero, C., & Ventura, S. (2010). Educational data mining: a review of the state of the art. Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions on, 40(6), 601-618. Romero, C., & Ventura, S. (2007). Educational data mining: A survey from 1995 to 2005. Expert Systems with Applications, 33(1), 135-146. Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie WMDAVA'2014 Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão Fundamentos de Mineração de Dados
  • 5. Tipos de Estudos - EDM •Basicamente classificados pela origem dos dados, como: –Dados de alunos providos de ambientes de sala de aula como notas, curriculos e etc; –Dados de alunos deixados em registros de log de sistemas computadorizados como Learning Management System (LMS), Intelligent Tutoring System (ITS) e Adaptive Educational Sypermedia System (AEHS). Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie Fundamentos de Mineração de Dados WMDAVA'2014 Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão
  • 6. Descoberta de Conhecimento em Bases de Dados Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie WMDAVA'2014 Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão Fundamentos de Mineração de Dados
  • 7. Bases de Dados •Importante ter um especialista que conhece o problema e que possa auxiliar na escolha de bases de dados. •Isto significa que podem ocorrer situações onde será necessário utilizar mais de uma base de dados. •E ainda, esta base poderá representar dados organizados em uma tabela, os quais são chamados de estruturados ou podem estar em documentos descritos na forma de texto ou multimídia (imagem, vídeo e som) os quais são chamados de não estruturados. Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie WMDAVA'2014 Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão Fundamentos de Mineração de Dados
  • 8. Pré-Processamento •Casos típicos são valores ausentes, ruidosos, inconsistentes e redundantes. •Ainda há de considerar também que, em outras situações, com ou sem, integração de bases de dados o aumento no número de exemplares e atributos da base de dados podem interferir na execução dos algoritmos usados nas tarefas de mineração de dados e por essa razão devem ser tratados. •Para um diagnostico de possíveis problemas é comum fazer inicialmente uma analise descritiva dos dados. Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie WMDAVA'2014 Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão Fundamentos de Mineração de Dados
  • 9. Valores Ausentes / Missing Values •Atributos que não tem valores preenchidos. As razões são diversas, por exemplo, em uma integração de dados de alunos de uma faculdade envolvendo diferentes cursos, pode haver disciplinas incomuns e, portanto haverá o surgimento deste tipo de valores que precisam ser tratados. •O tratamento pode ser feito pela simples remoção do atributo (em caso de grande incidência como poderia ser para o caso do exemplo apresentado) ou do exemplar (em caso de poucas ocorrências). Ou ainda o valor pode ser substituído por uma constante calculara pela média, mediana, valor máximo ou mínimo. Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie WMDAVA'2014 Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão Fundamentos de Mineração de Dados
  • 10. Valores fora Padrão / Outliers •Ocorre quando surge algum exemplar com valor de atributo que foge de um padrão. •A razão do surgimento pode ser uma fraude (exemplo o grupo de alunos pode ter acesso antecipado às questões da prova) ou pode ser uma mudança de comportamento no padrão da base de dados ou outlier (no exemplo, os alunos são mais dedicado que em anos anteriores). •O tratamento para este tipo de ocorrência pode ser feito por diferentes abordagens •Tipicamente ela pode ser resolvida com a separação dos valores em faixas pré-definidas, técnica conhecida como binning. Neste caso cada letra representa uma faixa de valores e assim evitam-se além do outliers efeitos de subjetividade em uma correção da prova. Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie WMDAVA'2014 Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão Fundamentos de Mineração de Dados
  • 11. Inconsistência de Valores •Situação típica de integração de dados. Ocorre quando há falta de um critério bem definido entre os valores dos atributos ou dos exemplares. •Exemplo que ilustra o critério para os atributos é quando em uma analise de dados de notas de alunos e situação final, um aluno teve nota 5 e está aprovado e, na mesma base, um outro aluno tem a mesma nota 5, mas está reprovado. •Isto pode ocorrer por diversas razões, como a mudança de critério de aprovação de um curso. •A solução poderia ser a remoção dos exemplares ou o ajuste dos valores, desde que se alguma informação adicional sobre os dados fornecida por um especialista. Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie WMDAVA'2014 Fundamentos de Mineração de Dados
  • 12. Transformação de Dados •A transformação de valores compreende mudanças no tipo dos atributos. Exemplo, considere um atributo categórico ordinal com valores típicos segundo grau, graduação, pós- graduação que seriam transformados para 1, 2 e 3, por exemplo. No caso do gênero, atributo nominal, como são apenas dois valores, eles poderiam ser transformados para binário 0 e 1. No entanto, deve-se ter cuidado para não transformar um atributo nominal em ordinal no processo de transformação, isto é, o valor não pode ideia de ordem. •A normalização de valores consiste em uma técnica para deixar os valores dos atributos em uma mesma escala. Abordagem de solução comum é calcular o valor máximo de um atributo para dividi-lo aos demais exemplares com mesmo atributo. Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie WMDAVA'2014 Fundamentos de Mineração de Dados
  • 13. Mineração de Dados •Tarefa dividida em: –Modelagem Preditiva •Regressão e •classificação; –Analise de Clustering (Grupos) –Regras de Associação Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie Mineração de Dados Educacionai WMDAVA'2014 Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão
  • 14. Modelagem Preditiva Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie Conjunto de Treinamento CT=<X,c> Exemplar desconhecido x=<x,?> c C = categórico  classificação C = numérico  regressão WMDAVA'2014 Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão Fundamentos de Mineração de Dados
  • 15. Classificação de dados Constrói-se um modelo com base em um conjunto de dados descritos por atributos e classes para que possa ser aplicado a dados não classificados. Exemplos de aplicação em dados de estudantes: •Sucesso em programas de intercambio; •Potencial evasão; •Futuro promissor; •Potencial reprovação em disciplina; •Necessidade de atividades extra-classe; •Conclusão do curso no prazo; •Outros como verificar se aluno faz parte da instituição para aprova-lo como membro da rede social. Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie WMDAVA'2014 Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão Fundamentos de Mineração de Dados
  • 16. Previsão de Séries O mesmo principio da classificação de dados, com a diferença que o atributo especial tem natureza numérica contínua. Exemplos: •Prever o desempenho do aluno em uma disciplina; •Prever a demanda de alunos em uma disciplina/curso/etc; •Prever nota do curso em exames de avaliação; •Tempo para colação de grau; •Outros. Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie WMDAVA'2014 Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão Fundamentos de Mineração de Dados
  • 17. Análise de Agrupamento Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie Não temos o atributo c Exemplar do CT WMDAVA'2014 Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão Fundamentos de Mineração de Dados
  • 18. Análise de Agrupamento Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie Quantos grupos temos nesta base? WMDAVA'2014 Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão Fundamentos de Mineração de Dados
  • 19. Análise de Agrupamento Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie Mineração de Dados Educacionai Não temos o atributo c no CT, mas o resultado do agrupamento pode gerar esse conhecimento WMDAVA'2014 Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão
  • 20. Análise de Agrupamento Processo de partição de um conjunto de dados heterogêneos em grupos homogêneos. Exemplos: •Agrupar estudantes com desempenho semelhante em disciplinas; •Agrupar alunos com estilo de aprendizado parecido; • Agrupar ementas de disciplinas com assuntos semelhantes; •Agrupar alunos com postagens semelhantes em redes sociais/fóruns de discussão em EaD. •Outros. Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie WMDAVA'2014 Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão Fundamentos de Mineração de Dados
  • 21. Regras de Associação Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie X Y X ∧ Y SE X ENTAO Y X  Y WMDAVA'2014 Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão Fundamentos de Mineração de Dados
  • 22. Regras de Associação Usada para determinar quais itens tendem a ser adquiridos juntamente em uma mesma transação. Exemplos: •Determinar quais disciplinas o aluno tem desempenho semelhante; •Determinar disciplinas que tratam assuntos equivalentes; •Descobrir termos relacionados em postagens de fóruns/redes sociais/etc; •Outros. Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie Mineração de Dados Educacionai WMDAVA'2014 Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão
  • 23. Conclusão •Tema de pesquisa bastante importante, mas que esbarra na infraestrutura de banco de dados da instituição para coleta de dados; •Entretanto, o EDM é um assunto fácil de ser usado em aula, pois os alunos são especialistas no negócio. Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/Mackenzie WMDAVA'2014 Introdução Bases de Dados Pré-processamento Mineração de Dados Conclusão Fundamentos de Mineração de Dados
  • 24. Prof. Leandro Augusto da Silva prof.leandro.augusto@mackenzie.br Faculdade de Computação e Informática da Universidade Presbiteriana Mackenzie São Paulo – SP - Brasil