Meta-aprendizado para classificação com ruído

UNIVERSIDADE DE SÃO PAULO
Instituto de Ciências Matemáticas e de Computação
Recomendação de classificadores
para conjuntos de dados com ruído
utilizando meta-aprendizado
André Luiz Catini Paro
[Nome do Aluno]

1
Recomendação de algoritmos de classificação para
conjuntos de dados com ruído utilizando
meta-aprendizado
André Luiz Catini Paro
Orientador: André Carlos Ponce de Leon Ferreira de Carvalho
Monografia de conclusão de curso apresentada ao
Instituto de Ciências Matemáticas e de Computação –
ICMC-USP - para obtenção do título de Bacharel em
Ciências de Computação.
Área de Concentração: Inteligência Computacional
USP – São Carlos
Novembro de 2014

Dedicatória
Dedico esse trabalho aos meus pais, por todo o apoio oferecido, suor derramado e valiosos
ensinamentos que irei levar para a vida toda.
Ao meu irmão, que sempre foi e sempre será o exemplo que eu sigo.
E a minha irmã, guerreira e com um futuro brilhante.
i

Resumo
A presença de ru´ıdo em conjuntos de dados pode influenciar de modo
significativo a qualidade de indução, o tempo de processamento e a com-
plexidade gerada na aplicação de algoritmos de Aprendizado de Máquina.
Medidas de complexidade focam na complexidade geométrica da distribuição
das classes, assim, a presença de ru´ıdo nos conjuntos de dados afeta di-
retamente nas medidas de complexidade desses conjuntos, tornando-as
bons atributos para problemas de meta-aprendizado. Este trabalho inves-
tida o uso de meta-aprendizado para a recomendação de classificadores
mais robustos para quando os conjuntos de dados apresentam ru´ıdos em
seus rótulos. Diferentes formas para caracterizar conjuntos de dados têm
sido propostas na literatura. Esse trabalho vai comparar como as medidas
de complexidade influenciam na seleção dos algoritmos mais adequados
e em como a presença de ru´ıdo influencia nas mesmas.
iii

Sumário
Lista de Tabelas vii
Lista de Abreviaturas e Siglas ix
1 Introdução 1
1.1 Contextualização e Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Organização da Monografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Métodos, Técnicas e Tecnologias Utilizadas 3
2.1 Considerações Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 Meta-aprendizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2.1 Caracterização de conjuntos de dados . . . . . . . . . . . . . . . . . . 3
2.2.2 Medidas de avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2.3 Formas de sugestão . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2.4 Construção de sugestão . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3 Medidas de Complexidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3.1 Medidas de sobreposição das caracter´ısticas de diferentes classes . . . 6
2.3.2 Medidas de Separabilidade da Classe . . . . . . . . . . . . . . . . . . 6
2.3.3 Medidas de Geometria, Topologia e Densidade de Manifolds . . . . . . 7
2.4 Ru´ıdo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.5 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3 Desenvolvimento do Trabalho 9
3.1 Considerações Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.2 Descrição do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
v

3.3 Conjuntos de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.4 Plataforma e Linguagem de Programação R . . . . . . . . . . . . . . . . . . . 10
3.4.1 Packages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.4.2 Versão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.5 Descrição das Atividades Realizadas . . . . . . . . . . . . . . . . . . . . . . . 11
3.5.1 Pré-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.5.2 Caracterização dos conjuntos de dados . . . . . . . . . . . . . . . . . . 12
3.5.3 Construção da sugestão . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.6 Análise e Avaliação dos Resultados . . . . . . . . . . . . . . . . . . . . . . . 13
3.7 Dificuldades, Limitações e Trabalhos Futuros . . . . . . . . . . . . . . . . . . 15
3.8 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4 Conclusão 17
4.1 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.2 Considerações sobre o Curso de Graduação . . . . . . . . . . . . . . . . . . . 18
Referências 19
vi

Lista de Tabelas
3.1 Tabela parcial dos meta-exemplos do conjunto de dados Iris . . . . . . . . . . . 13
3.2 MSE dos meta-regressores para o classificador SVM . . . . . . . . . . . . . . 14
3.3 MSE dos meta-regressores para o classificador RF . . . . . . . . . . . . . . . . 14
3.4 MSE dos meta-regressores para o classificador kNN . . . . . . . . . . . . . . . 15
3.5 MSE dos meta-regressores para o classificador Naive Bayes . . . . . . . . . . 15
vii

Lista de Abreviaturas e Siglas
AM: Aprendizado de M´aquina
kNN: k-Nearest Neighbors
MSE: Mean Squared Error
RF: Random Forest
SVM: Support Vector Machine
ix

Cap´ıtulo
1
Introdu¸cão
1.1 Contextualiza¸cão e Motiva¸cão
A qualidade de um conjunto de dados do mundo real está ligada a diversos aspectos
[Wang, Storey e Firth 1995], sendo a origem dos dados o fator cr´ıtico [Zhu e Wu 2004]. Ru´ıdos
são dados que contém objetos que, aparentemente, não pertencem à distribuição que gerou os
dados analisados. São causados por erros nos processos de aquisição e medição, ou mesmo,
devido contaminação de determinadas amostras [Barnett e Lewis 1994], e podem influenciar de
modo significativo a qualidade da indução, o tempo de processamento e a complexidade gerada
na aplicação de algoritmos de Aprendizado de Máquina (AM) [Mitchell 1997].
Classificadores são algoritmos de AM preditivos que, dado um conjunto de exemplos rotu-
lados, constrói um estimador (conjunto de regras). Assim, dado um exemplo não rotulado, o
classificador atribui esse exemplo a uma das poss´ıveis classes do dom´ınio1 [Dietterich 1998].
Logo, a presença de ru´ıdo no conjunto de dados utilizado no treinamento de um classificador
interfere diretamente na qualidade do estimador e, consequentemente, na sua acurácia.
Segundo [Brodley 1993], cada algoritmo de AM possu´ı uma ”superioridade seletiva”, ou
seja, ele é melhor do que os outros em uma determinada área de competência. Para cada pro-
blema onde um algoritmo supera outro, existe uma outra área onde a situação oposta acontece.
Assim, resolver um problema de classificação sem a ajuda de um especialista se torna uma
árdua tarefa. Diferentes métodos de classificação devem ser aplicados ao problema e medidas
de desempenho devem ser calculadas. Até se obter resultados satisfatórios, as configurações do
1Para problemas de classificação, o dom´ınio é um conjunto de valores nominais.
1

2 Cap´ıtulo 1. Introdução
algoritmo, ou ele próprio, devem ser alterados e novos experimentos devem ser realizados. A
presença de ru´ıdo no conjunto de dados poderia não só influenciar negativamente no desempe-
nho dos classificadores como também no tempo consumido por esse processo.
A meta-aprendizagem foi introduzida com o intuito de auxiliar o usuário nesse processo,
podendo fornecer um sistema de recomendação de algoritmos que tem como propósito reduzir
a quantidade de algoritmos testados visando otimizar o tempo dispendido com experimentos,
com uma m´ınima perda na qualidade dos resultados obtidos [Brazdil et al. 2009].
Meta-aprendizado é uma área de AM que estuda como os algoritmos de AM podem au-
mentar sua eficiência por meio da experiência [Vilalta e Drissi 2002]. Isso geralmente é feito
por métodos de caracterização que buscam identificar e extrair propriedades presentes em um
conjunto de dados e associá-las ao desempenho de algoritmos de AM.
1.2 Objetivos
Este trabalho tem como objetivo investigar o uso de meta-aprendizado para a recomendação
de classificadores mais robustos para quando os conjuntos de dados apresentam ru´ıdo em seus
rótulos. Diferentes formas para caracterizar conjuntos de dados têm sido propostas na literatura.
Medidas de complexidade serão utilizadas na caracterização dos conjuntos de dados e será
observado como a presença de ru´ıdo influencia nas mesmas.
1.3 Organiza¸cão da Monografia
Esta monografia está organizada como se segue:
• No Cap´ıtulo 2 são apresentados os métodos, técnicas e tecnologias utilizadas para o de-
senvolvimento desse trabalho.
• No Cap´ıtulo 3 é detalhado como se deu o desenvolvimento do trabalho. Nele o problema
investigado é descrito e comentários são feitos sobre os conjuntos de dados utilizados e
sobre a linguagem de programação escolhida. As atividades realizadas são descritas e os
seus resultados apresentados.
• Por fim, no Cap´ıtulo 4 são apresentadas as conclusões sobre o trabalho desenvolvido e as
suas contribuições, bem como algumas considerações sobre o Curso de Graduação.

Cap´ıtulo
2
Métodos, Técnicas e Tecnologias Utilizadas
2.1 Considera¸cões Iniciais
Neste Cap´ıtulo será apresentado a revisão bibliográfica, que inclui: uma breve descrição de
meta-aprendizado na Seção 2.2, definição das medidas de complexidade na Seção 2.3 e uma
sucinta definição de ru´ıdo na Seção 2.4. Na Seção 2.5 são apresentadas as considerações finais.
2.2 Meta-aprendizado
A meta-aprendizagem estuda como os algoritmos de AM podem aumentar sua eficiência
por meio da experiência [Vilalta e Drissi 2002].
Dentre as aplicações mais comuns de meta-aprendizagem, tem-se o problema de gerar regras
capazes de relacionar o desempenho de algoritmos de AM com as caracter´ısticas dos conjuntos
de dados [Brazdil et al. 2009]. Assim, isso poderia ajudar na criação de sistemas que forneçam
ao usuário sugestões sobre qual algoritmo utilizar em determinadas situações. De acordo com
[Kalousis 2002], tais sistemas podem ser estudados segundo quatro critérios: (1) caracterização
de conjuntos de dados, (2) medidas de avaliação, (3) formas de sugestão e (4) métodos de
construção de sugestão. Esses critérios serão detalhados a seguir.
2.2.1 Caracteriza¸cão de conjuntos de dados
Caracterizar conjuntos de dados consiste em identificar e extrair propriedades desses conjun-
tos que sejam bons preditores para a performance dos algoritmos de AM. Portanto, é necessário
3

4 Cap´ıtulo 2. Métodos, Técnicas e Tecnologias Utilizadas
calcular medidas que caracterizem os conjuntos de dados e que apresentem baixo custo com-
putacional [Soares, Brazdil e Kuba 2004, p. 198]. Atualmente, a pesquisa em caracterização
concentra-se em três áreas [Vilalta, Giraud-Carrier e Brazdil 2010]: (1) caracterização direta,
(2) caracterização baseada em landmarking e (3) caracterização via modelos.
Neste trabalho será adotar uma nova abordagem de caracterização. Os conjuntos de dados
serão caracterizadas pelas suas medidas de complexidade e pela acurácia de diferentes classifi-
cadores, para diferentes taxas de ru´ıdo em sua classe.
Os classificadores utilizados serão: Support Vector Machines (SVM) [Vapnik 1995], k-
Nearest Neighbors (kNN) [Mitchell 1997], Random Forests (RF) [Breiman 2001] e Naive Bayes
[Mitchell 1997]. As medidas de complexidade utilizadas serão abordadas em mais detalhes na
Seção 2.3.
2.2.2 Medidas de avalia¸cão
Para determinar qual algoritmo de AM utilizar em um determinado problema, é necessário
especificar as medidas de desempenho consideradas, para que uma lista de preferência dos
algoritmos possa ser estabelecida. Diversas medidas podem ser utilizadas em conjunto a fim de
explorar vários aspectos do algoritmo.
Neste trabalho, a medida de avaliação utilizada será a acurácia dos classificadores SVM,
kNN, RF e Naive Bayes.
2.2.3 Formas de sugestão
De acordo com [Kalousis 2002], a recomendação de algoritmos para um dado problema do
usuário é feita através de sugestões em uma das seguintes formas: (1) uma lista dos algoritmos
relevantes, (2) o melhor algoritmo e (3) um ranking de algoritmos.
A primeira categoria indica, dentre os algoritmos de AM utilizados, o conjunto de algo-
ritmos que apresentam melhor estimativa de desempenho, considerando também aqueles que
não possuam desempenho estatisticamente inferior ao melhor [Peng et al. 2002]. A segunda
categoria consiste em fornecer o melhor algoritmo que irá, supostamente, fornecer a melhor
performance de acordo com o critério de performance utilizado. Por fim, a terceira categoria
exibe os algoritmos em ordem de preferência. O critério de ordenação pode ser uma medida
simples como a acurácia de classificadores ou medidas mais complexas que envolvem múltiplos
objetivo.
Este trabalho utilizará um ranking como forma de sugestão e o método utilizado para a sua
construção será comentado a seguir.

2.3. Medidas de Complexidade 5
2.2.4 Constru¸cão de sugestão
Em geral, um ranking representa uma função de preferência sobre um conjunto de itens
[Brazdil et al. 2009]. Neste trabalho, os itens são os algoritmos de AM utilizados para a classificação
dos conjuntos de dados utilizados nos experimentos, enquanto a função de preferência demons-
tra o desempenho esperado desses algoritmos de forma que, se um algoritmo apresentar me-
lhores resultados que outro, ele deve ser representado em posição mais alta no ranking. Dentre
os paradigmas mais comuns para a realização de tal tarefa, o ranking utilizado nesse traba-
lho será constru´ıdo através de regressão. Essa abordagem tenta predizer o desempenho de
cada algoritmo de AM e, posteriormente, arranjar tais predições para a construção do ranking
dado o exemplo de teste. Para cada predição, o método utiliza uma técnica de regressão em
uma abordagem conhecida como meta-regressão [Brazdil et al. 2009]. Como meta-regressores
serão utilizados os algoritmos SVM e RF.
2.3 Medidas de Complexidade
A complexidade de problemas de classificação [Ho, Basu e Law 2006] é comumente atribu´ıda
a três principais fatores: (1) ambiguidade da classe, (2) complexidade da fronteira de decisão e
(3) dispersão da amostra e dimensionalidade do espaço dos atributos.
Ambiguidade da classe se refere a situações onde exemplos de diferentes classes não são
distingu´ıveis pelos atributos do problema. Isso pode estar relacionado a baixa capacidade de
que os atributos selecionados descrevam as caracter´ısticas que (1) pertençam a diferentes classes
(ou seja, os atributos do problema não são suficientes para descrever as caracter´ısticas) ou (2)
pertençam a classes que não são bem definidas ou possuam alguma relação entre elas (ou seja,
exemplos que pertençam a duas classes).
Complexidade da fronteira de decisão está relacionada a extensão da descrição necessária
para descrever uma classe. Dado um exemplo completo, a complexidade de Kolmogorov
[Kolmogorov 1968][Li e Vitnyi 2008] é definida como a extensão do menor programa necessário
para descrever a fronteira de decisão da classe. No entanto, a complexidade de Kolmogorov é
conhecida por ser incomputável [Maciejowski 1979]. Assim, outros estimadores foram conce-
bidos para analisar a complexidade da classe, os quais, basicamente, extraem diferentes indica-
dores geométricos do conjunto de dados.
Por último, a dispersão da amostra e dimensionalidade do espaço dos atributos procura
caracterizar a complexidade gerada pelas regiões com exemplos dispersos no espaço dos atri-
butos. Generalização sobre espaços vazios do conjunto de dados de treinamento é em grande
parte arbitrária e depende principalmente em como o classificador constrói seu modelo.
Dentre as diferentes fontes de dificuldade dos problemas de classificação, a complexidade
da fronteira de decisão é uma das mais estudadas. Em particular, [Ho e Basu 2002] apresenta-
ram um conjunto de medidas que extraem diferentes indicadores que caracterizam a aparente

complexidade geométrica da fronteira. Essas medidas podem ser divididas em três categorias e
serão definidas a seguir.
2.3.1 Medidas de sobreposi¸cão das caracter´ısticas de diferentes clas-
ses
Essas medidas focam na capacidade das caracter´ısticas em separar exemplos de diferentes
classes. Para cada atributo, elas examinam o alcance e propagação dos valores de exemplos de
diferentes classes e verificam o poder discriminatório de um único atributo ou uma combinação
deles.
• Máxima razão discriminante de Fisher (F1): calcula o poder discriminante máximo
de cada atributo. Um alto valor da medida F1 indica que, pelo menos, um dos atributos
permite que os exemplos de diferentes classes sejam separados em partições que sejam
paralelas a um eixo no espaço de caracter´ısticas. Um baixo valor dessa medida não im-
plica que as classes não sejam linearmente separáveis, mas sim que elas não podem ser
discriminadas por hiper planos paralelos a um dos eixos do espaço de caracter´ısticas.
• Vetor direcional da máxima razão discriminante de Fisher (F1v): complementa a
medida F1 ao procurar por um vetor orientado que pode separar os exemplos de duas
classes diferentes. Assim, um alto valor dessa medida indica que existe um vetor que
pode separar os exemplos pertencentes a diferentes classes após essas instâncias serem
projetadas nele.
• Volume da região de sobreposição (F2): calcula a sobreposição da extremidade das
distribuições definidas pelos exemplos de cada classe. Um baixo valor dessa medida
significa que os atributos podem discriminar os exemplos de diferentes classes.
• Máxima eficiência caracter´ıstica (individual (F3): calcula o poder discriminativo de
caracter´ısticas individuais e retorna o valor do atributo que pode discriminar o maior
número de conjuntos de treinamento.
• Eficiência caracter´ıstica coletiva (F4): segue a mesma ideia da medida F3, mas agora
é considerado o poder discriminativo de todos os atributos (portanto, a eficiência carac-
ter´ıstica coletiva). A medida retorna a proporção de instâncias que foram discriminadas.
Assim, ela nos dá uma ideia da fração de exemplos cuja classe poderia ser corretamente
prevista pela construção de hiperplanos que são paralelos ao eixo no espaço caracter´ıstico.
2.3.2 Medidas de Separabilidade da Classe
Medidas que examinam a forma das fronteiras das classes para estimar a complexidade da
separação de instâncias de diferentes classes.

2.3. Medidas de Complexidade 7
• Soma da distância do erro minimizada por programação linear (L1): avalia até que
ponto o conjunto de treinamento é linearmente separável. Um valor dessa medida igual a
zero indica que o problema é linearmente separável.
• Taxa de erro do classificador linear por programação linear (L2): taxa de erro do
classificador linear utilizado por L1, calculada com o conjunto de treinamento.
• Fração de pontos nos fronteira das classes (N1): retorna uma estimativa da extensão da
fronteira da classe. Altos valores indicam que a maioria dos exemplos se dispõe próximos
a fronteira de decisão e, então, pode ser mais dif´ıcil para que o algoritmo de aprendizado
defina essa fronteira com precisão.
• Razão da distância média intra/inter do vizinho mais próximo da classe (N2): com-
para a propagação dentro da classe com as distâncias para os vizinhos mais próximos de
outras classes. Baixos valores dessa medida sugerem que os exemplos de mesma classe
estão próximos no espaço de caracter´ısticas. Altos valores indicam que os exemplos de
mesma classe são dispersos.
• Taxa de erro do leave-one-out do classificador vizinho mais próximo (N3): indica
o quão próximo são os exemplos de diferentes classes. Ela retorna a taxa de erro da
abordagem leave-one-out do classificador kNN (com k = 1). Valores baixos indicam que
existe uma grande separação na fronteira da classe.
2.3.3 Medidas de Geometria, Topologia e Densidade de Manifolds
Medidas que caracterizam indiretamente a separabilidade da classe ao assumir que a classe
é feita de um único ou múltiplos manifolds que apoiam a distribuição da classe.
• Não linearidade de um classificador linear (L3): implementa a medida de não lineari-
dade proposta por [Hoekstra e Duin 1996].
• Não linearidade do classificador vizinho mais próximo (N4): cria um conjunto de teste
como proposto em L3 e retorna o erro de teste do classificador k-Vizinhos mais próximos
(com k = 1).
• Fração máxima da cobertura de esferas (T1): foi originalmente proposta por
[Frank e Hubert 1996], onde descreve a forma de manifolds de classe com o conceito de
adesão de subconjunto.
• Número médio de exemplos por dimensão (T2): simples razão do número médio de
exemplos presentes na base de dados sobre as dimensões das caracter´ısticas (quantidade
de exemplos por quantidade de atributos).

2.4 Ru´ıdo
Ru´ıdo pode ser definido como uma variância ou erro aleatório no valor gerado ou medido
para um atributo [Quinlan 1986].
Dados com ru´ıdos são dados que contêm objetos que, aparentemente, não pertencem à
distribuição que gerou os dados analisados, podendo influenciar de modo significativo a quali-
dade da indução, o tempo de processamento e a complexidade gerada na aplicação de algoritmos
de AM.
Neste trabalho, será inserido ru´ıdo de classe (exemplos com rótulos incorretos) de forma
aleatória e controlada nos conjuntos de dados a fim de observar sua influência sobre as medidas
de complexidade e sobe o desempenho dos algoritmo de AM que compõe o problema de meta-
aprendizado aqui investigado.
2.5 Considera¸cões Finais
Neste cap´ıtulo foi abordado inicialmente os conceitos de meta-aprendizado e suas particu-
laridades para este trabalho; na sequência foram definidas as medidas de complexidade que
compõe o problema de meta-aprendizado e, por último, ru´ıdo foi brevemente abordado e co-
mentado sobre como ele está inserido no contexto desse trabalho.
No próximo cap´ıtulo será apresentado o trabalho desenvolvido, detalhando o problema in-
vestigado e a metodologia utilizada para a condução dos experimentos, além dos desafios en-
contrados.

Cap´ıtulo
3
Desenvolvimento do Trabalho
3.1 Considera¸cões Iniciais
Neste Cap´ıtulo, apresenta-se inicialmente na Seção 3.2 a descrição do problema estudado
nesse trabalho. A seguir, nas Seções 3.3 e 3.4, os conjuntos de dados e a linguagem de
programação escolhida para a realização dos experimentos são abordados. Por fim, na Seção
3.5 é descrito as atividades realizadas e os resultados obtidos são apresentados na Seção 3.6.
3.2 Descri¸cão do Problema
Visto que a presença de ru´ıdo em conjuntos de dados podem influenciar de modo significa-
tivo a qualidade da indução, o tempo de processamento e a complexidade gerada na aplicação
de algoritmos de AM, em um problema de classificação a meta-aprendizagem tem como intuito
auxiliar o usuário na escolha do algoritmo de classificação mais robusto para o seu problema.
Os experimentos desse trabalho foram divididos em duas etapas: etapa de n´ıvel base e etapa
de n´ıvel meta. Elas são descritas a seguir.
Na etapa de n´ıvel base, inicialmente ocorre o pré-processamento dos conjuntos de dados
utilizados, onde é feito o preenchimento dos valores faltantes dos atributos e a binarização dos
atributos nominais. Logo após, o rótulo dos conjuntos de treinamento são polu´ıdos de forma
aleatória com diferentes margens de ru´ıdo, as suas medidas e complexidade são calculadas e,
então, os algoritmos SVM, RF, kNN e Naive Bayes serão treinados como classificadores. Por
fim, a acurácia dos classificadores é calculada utilizando os conjuntos de teste.
9

10 Cap´ıtulo 3. Desenvolvimento do Trabalho
Na etapa de n´ıvel meta, os dados obtidos na primeira etapa irão ser usados como meta-
exemplos para o problema de meta-aprendizagem. Os meta-exemplos serão divididos aleatoria-
mente entre conjunto de treinamento e conjunto de teste. Agora, os algoritmos SVM e RF serão
treinados como regressores utilizando o conjunto de treinamento, tendo como meta-atributos de
entrada as medidas de complexidade e como meta-atributo alvo a acurácia dos classificadores.
Será gerado um meta-modelo diferente para cada um dos classificadores utilizados. Finalmente,
o desempenho dos meta-regressores será avaliado utilizando o conjunto de teste e obtendo o erro
médio quadrático (MSE - Mean Squared Error) entre o valor predito pelo meta-modelo e o real
valor do meta-atributo alvo.
Caso seja constatado que os meta-regressores aprenderam, ou seja, se seus respectivos MSEs
forem menores do que os definidos como default, a sugestão seria feita ao usuário conforme
descrito na Seção 2.2.3, ou seja, cada um dos meta-regressores apresentariam os prováveis
classificadores mais robustos para o problema, sendo ordenados pela sua acurácia predita.
3.3 Conjuntos de dados
Os dados utilizados nesse trabalho fazem parte de uma coleção de bases de dados do Repo-
sitório de Aprendizado de Máquina na Universidade da Califórnia em Irving (UCI). Elas são
comumente utilizadas pela comunidade de aprendizado de máquina para análise emp´ırica de
algoritmos de AM. O repositório pode ser acessado em http://archive.ics.uci.edu/ml/.
Foram utilizadas ao todo 66 conjuntos de dados, cada um com diferentes números de exem-
plos, atributos e classes. É importante ressaltar a necessidade de uma grande quantidade de
dados para que os algoritmos de meta-aprendizado possam gerar regras mais exatas para a su-
gestão dos métodos de classificação.
3.4 Plataforma e Linguagem de Programa¸cão R
R é tanto uma linguagem orientada a objetos como um ambiente de desenvolvimento es-
tat´ıstico e gráfico. É um projeto GNU e foi desenvolvido no Bell Laboratories por John
Chambers e seus colegas [R Core Team 2014]. Está dispon´ıvel de forma gratuita e open source
(código aberto) sob os termos da Licença Pública Geral da Fundação de Software Livre GNU.
R fornece uma ampla variedade de técnicas estat´ısticas (modelagem linear e não linear,
testes estat´ısticos clássicos, classificação, clusterização etc.) e gráficas, e é altamente extens´ıvel
através de packages. Oferece facilidades em sua sintaxe e no tratamento de grandes volumes de
dados, tendo grande utilização em sistemas de apoio a decisão e à análise de dados.

3.5. Descrição das Atividades Realizadas 11
3.4.1 Packages
Embora o conjunto de ferramentas que vem como padrão no R são um tanto quanto pode-
rosas, o trabalho envolve o uso de funções que não estão dispon´ıveis por padrão. É necessário,
então, a utilização de sete packages adicionais. São eles:
• ape: Package com funções de análise e manipulação de dados;
• e1071: Package com funções dedicadas ao SVM;
• modeest: Package com funções de cálculo de moda estat´ıstica;
• randomForest: Package com funções de classificação e regressão para florestas (estrutura
de dados);
• rpart: Package com funções dedicadas a Árvores de Decisão (AD);
• RWeka: Package com funções de intermediação entre a plataforma R e a plataforma
Weka;
• ggplot2: Package com funções para plotar boxplots.
3.4.2 Versão
A plataforma de desenvolvimento R lança periodicamente novas versões com novas funci-
onalidades e correções de erros e se encontra atualmente na versão 3.1.2. Neste trabalho foi
utilizada a versão 3.1.1, sendo compilada para a plataforma Linux.
3.5 Descri¸cão das Atividades Realizadas
3.5.1 Pré-processamento
A primeira parte do experimento se deu pelo pré-processamento dos conjuntos de dados.
Para cada exemplo, foi verificado se ele estava completo, ou seja, se todos os seus atributos es-
tavam preenchidos ou não. Os valores faltantes de atributos numéricos foram preenchidos com
a média do atributo utilizando os exemplos de mesmo rótulo e os valores faltantes de atributos
nominais foram preenchidos com a primeira moda (primeiro valor que esta mais presente com
um conjunto de valores), também calculada com os exemplos de mesmo rótulo.
Após todos os exemplos estarem completos, foi feita a binarização dos atributos nominais
seguindo a codificação 1-de-c, onde cada valor nominai é codificado por uma sequência de c
bits, em que c é igual ao número de poss´ıveis valores ou categorias. Cada posição da sequência
se torna um novo atributo que, se for preenchido com 1 significa a presença do valor nominal

correspondente àquele bit e 0 a falta de tal valor. Os conjuntos de dados tratadas serão os
utilizadas no decorrer do experimento.
3.5.2 Caracteriza¸cão dos conjuntos de dados
Utilizando os conjuntos de dados já tratados, deu-se inicio a caracterização dos mesmo.
Foram definidas 4 taxas para a inserção de ru´ıdo de forma controlada nos conjuntos de dados,
de 5%, 10%, 20% e 40%. Ainda, a fim de obter uma estimativa confiável das medidas de
complexidade e dos classificadores sobre o conjunto de treinamento, foi utilizada a variante
stratified do método Cross-Validation, em que os exemplos são divididos aleatoriamente em
k partições mutuamente exclusivas de tamanho aproximadamente igual, mantendo a mesma
proporção das classes em cada uma das partições. Das k partições, k − 1 são utilizadas como
conjunto de treinamento e a restante como conjunto de teste. O processo é repetido k vezes, em
cada uma intercalando a partição utilizada como conjunto de teste. Por fim, como sugerido por
[Mitchell 1997], k é fixo valendo 10.
Assim, para cada taxa de ru´ıdo e para cada partição, o respectivo conjunto de treinamento
é polu´ıdo. O processo de poluição consiste em escolher aleatoriamente exemplos de acordo
com a taxa de ru´ıdo a ser aplicada e alterar o seu rótulo para uma outra classe do dom´ınio,
também de forma aleatória. A seguir, as medidas de complexidade apresentadas na Seção 2.3
são computadas e é obtido a acurácia dos classificadores SVM, RF, kNN e Naive Bayes. A
média dos valores obtidos pelas 10 partições irá constituir um meta-exemplo. Essa metodologia
será aplicada 10 vezes (épocas), havendo assim uma maior variedade de meta-exemplos para o
problema de meta-aprendizado.
Esse processo é repetido para cada um dos 66 conjuntos de dados utilizados no experimento
e os valores são armazenados e combinados, criando uma matriz com 2640 meta-exemplos (40
meta-exemplos de cada um dos 66 conjuntos de dados) e 18 meta-atributos (14 medidas de
complexidade e a acurácia dos 4 classificadores).
3.5.3 Constru¸cão da sugestão
Agora, os meta-regressores serão treinados utilizando as medidas de complexidade como
meta-atributos de entrada e a acurácia de cada classificador como meta-atributo alvo.
Escolhe-se aleatoriamente os meta-exemplos de 33 conjuntos de dados para compor o con-
junto de treinamento e os meta-exemplos dos outros 33 conjuntos de dados restantes para com-
por o conjunto de teste. Para cada um dos 4 classificadores, os meta-regressores SVM e RF
serão treinados com o conjunto de treinamento. Na sequência, utiliza-se o conjunto de teste
e obtêm-se o MSE entre o valor predito pelos meta-modelos e o real valor do meta-atributo
alvo. A fim de analisar se os meta-regressores irão aprender, foi definido como valor default o
MSE entre o conjunto de treinamento e o conjunto de teste. Esse procedimento será realizado

3.6. Análise e Avaliação dos Resultados 13
5 vezes, sempre escolhendo os meta-exemplos de conjuntos de dados aleatórios. Finalmente, é
calculado a média e o desvio padrão desses valores obtidos.
3.6 Análise e Avalia¸cão dos Resultados
Na etapa de n´ıvel base foram obtidos os 2640 meta-exemplos, 40 de cada um dos 66 con-
juntos de dados utilizados. Cada meta-exemplo é constitu´ıdo por 14 medidas de complexidade
(F1, F1v, F2, F3, F4, L1, L2, N1, N2, N3, L3, N4, T1 e T2) e pela acurácia de 4 classificadores
(SVM, RF, kNN e Naive Bayes), somando no total 18 meta-atributos. Cada meta-exemplo foi
obtido como descrito na Seção 3.5.
A fim de verificar a influência da presença de ru´ıdo nos conjuntos de dados, a tabela 3.1 a se-
guir ilustra parcialmente os meta-exemplos obtidos para o conjunto de dados Iris [Fisher 1936]
[Anderson 1936][Bache e Lichman 2013], amplamente utilizado e estudado pela comunidade
de AM. A tabela apresenta 12 meta-exemplos selecionados aleatoriamente, 3 para cada uma
das taxas de ru´ıdo, e alguns de seus meta-atributos: as medidas de complexidade F1, F2, L1 e
N1 e a acurácia dos classificadores SVM, RF, kNN e Naive Bayes.
Tabela 3.1: Tabela parcial dos meta-exemplos do conjunto de dados Iris
Ru´ıdo (%) F1 F2 L1 N1 SVM RF kNN Naive Bayes
5 4.4880 0.6759 0.6619 0.1836 0.9000 0.9600 0.9467 0.9400
5.3018 0.5093 0.6619 0.2090 0.9000 0.9600 0.9400 0.9400
6.7498 0.2918 0.6594 0.2326 0.9000 0.9400 0.9067 0.9467
10 2.2123 1.0153 0.6619 0.3674 0.8867 0.9600 0.8733 0.9333
3.0333 0.6110 0.6596 0.3298 0.8867 0.9467 0.8667 0.9000
2.2618 0.6193 0.6621 0.3202 0.8933 0.9267 0.8267 0.9333
20 0.7391 0.9419 0.6662 0.5415 0.8733 0.8867 0.7067 0.9067
1.4639 1.0325 0.6608 0.5031 0.9067 0.8867 0.7933 0.9067
0.8689 1.3853 0.6635 0.4824 0.8400 0.8733 0.7467 0.8933
40 0.1478 1.7567 0.6668 0.7785 0.8200 0.7067 0.5867 0.8600
0.1577 1.7154 0.6668 0.7747 0.6200 0.7400 0.5467 0.8467
0.1865 1.6923 0.6669 0.7186 0.6200 0.7400 0.6533 0.8667
Analisando a tabela 3.1, conforme a taxa de ru´ıdo aumenta, observa-se que as medidas de
complexidade se comportam conforme o esperado. F1 diminui e F2 aumenta, indicando uma
maior dificuldade na hora de discriminar exemplos de diferentes classes. L1 avalia até que ponto
o conjunto de treinamento é linearmente separável. Iris possu´ı 3 classes e sabe-se que uma delas
é linearmente separável entre as outras duas, e essas últimas não são linearmente separáveis
entre si. Assim, o valor aproximado de 0.6666 (2/3) demonstra essa proporção, já que que um

valor de L1 igual a zero indica que o problema todo é linearmente separável. A proporção
permanece quase que constante para todos os meta-exemplos pois a proporção das classes é
mantida em cada partição gerada pelo Stratified Cross-Validation. N1, por sua vez, aumenta,
indicando que os exemplos passam a se dispor próximos a fronteira de decisão, dificultando o
processo de aprendizado dos classificadores. Finalmente, observa-se a diminuição da acurácia
de todos os classificadores.
Na etapa de n´ıvel meta, os meta-exemplos foram utilizados para treinar os meta-regressores
(SVM e RF) e os erros médios quadráticos (MSE) foram obtidos como descrito na Seção 3.5.
Esses últimos resultados serão apresentados a seguir pelas tabelas 3.1, 3.2, 3.3 e 3.4, correspon-
dentes aos classificadores SVM, RF, kNN e Naive Bayes, respectivamente.
Tabela 3.2: MSE dos meta-regressores para o classificador SVM
SVM
SVM RF Default
0.009665424 0.008600093 0.04359567
0.013850826 0.013658909 0.03645777
0.017134119 0.015665853 0.05037359
0.012212296 0.020608762 0.03551171
0.013947434 0.011900755 0.03685851
Média 0.013362020 0.014086874 0.04055945
±0.002729334 ±0.004474797 ±0.00635485
Tabela 3.3: MSE dos meta-regressores para o classificador RF
RF
SVM RF Default
0.009721490 0.007777503 0.04197527
0.007604030 0.009068580 0.04723513
0.012383102 0.010551548 0.04092741
0.011968106 0.017883694 0.04885817
0.010679087 0.010086180 0.03955703
Média 0.010471163 0.011073501 0.04371060
±0.001918465 ±0.003953140 ±0.00409052
Observa-se que todos os valores obtidos pelos meta-regressores para todos os classificadores
foram inferiores aos valores definidos como default. Ainda, os meta-regressores obtiveram
valores próximos. Foi destacado nas tabelas as menores médias, indicando qual meta-regressor

3.7. Dificuldades, Limitações e Trabalhos Futuros 15
Tabela 3.4: MSE dos meta-regressores para o classificador kNN
kNN
SVM RF Default
0.006958310 0.005227959 0.036860490
0.007085594 0.005234534 0.041521542
0.010144090 0.009028691 0.039337285
0.009347170 0.009262828 0.044723213
0.008662719 0.005266856 0.036267609
Média 0.008439577 0.006804174 0.039742028
±0.001396988 ±0.002139219 ±0.003482727
Tabela 3.5: MSE dos meta-regressores para o classificador Naive Bayes
Naive Bayes
SVM RF Default
0.028247735 0.016963759 0.07444598
0.032274653 0.016817546 0.05800814
0.037164569 0.021094768 0.08102008
0.037379141 0.025697520 0.07850134
0.033965232 0.015823232 0.05620430
Média 0.033806266 0.019279365 0.06963597
±0.003785235 ±0.004118733 ±0.01169343
teve o melhor desempenho para cada um dos classificadores investigados. O meta-regressor
SVM teve um melhor resultado para os classificadores SVM e RF e o meta-regressor RF para
os classificadores kNN e Naive Bayes.
3.7 Dificuldades, Limita¸cões e Trabalhos Futuros
A correlação entre diversas áreas de AM em um mesmo problema se torna um grande desa-
fio, necessitando comprometimento e estudo sobre diversos temas e metodologias. O alto custo
computacional dos algoritmos de AM, especialmente quando utilizadas em conjuntos de dados
extensos, se demonstra um fator limitante, necessitando alto poder computacional.
Como trabalhos futuros, tem-se a possibilidade de aprimorar a construção da sugestão a
partir da combinação de outras medidas padrões para problemas de meta-aprendizado, como
as do conjunto STATLOG [King, Feng e Sutherland 1995]. Ainda, seria interessante avaliar os
rankings sugeridos utilizando o coeficiente de Spearman, uma medida padrão de desempenho

que é aplicada sobre o ranking ideal atribu´ıdo a um meta-exemplo e o ranking constru´ıdo, a fim
de determinar a acurácia da predição realizada.
3.8 Considera¸cões Finais
Este Cap´ıtulo teve inicio com a descrição do problema. Em seguida, considerações sobre
os conjuntos de dados utilizados foram feitas e linguagem de programação R, escolhida para a
realização dos experimentos, foi abordada. Foi feita então a descrição das atividades realiza-
das, as quais foram divididas em: pré-processamento, caracterização dos conjuntos de dados e
construção da sugestão. O Cap´ıtulo foi encerrado com a apresentação dos resultados obtidos
nos experimentos.
No próximo e último Cap´ıtulo, são apresentadas as conclusões do trabalho desenvolvido, as
contribuições obtidas e as considerações sobre o Curso de Graduação.

Cap´ıtulo
4
Conclusão
Esse trabalho investigou o uso de meta-aprendizado com a finalidade de recomendar classi-
ficadores mais robustos para quando os conjuntos de dados apresentam ru´ıdos em seus rótulos.
Isso foi poss´ıvel ao utilizar medidas de complexidade e acurácia de classificadores como meta-
atributos para o problema de meta-aprendizagem.
Conjuntos de dados tiveram os seus rótulos polu´ıdos artificialmente com diferentes taxas
de ru´ıdo. Então, as medidas de complexidade desses conjuntos foram calculadas e a acurácia
de diferentes classificadores foi obtida a fim de caracterizar o conjunto de dados através de
meta-exemplos. A meta-aprendizagem foi realizada pelos meta-regressores e a sua eficácia foi
avaliada utilizando o erro médio quadrático.
Após a construção dos meta-exemplos, pode-se observar de forma clara os efeitos causados
pela presença de ru´ıdo nos conjuntos de dados. Isso reforça ainda mais a necessidade de um
sistema que auxilie o usuário a resolver problemas de classificação de uma forma mais eficiente
para quando os conjuntos de dados apresentam ru´ıdo.
A proposta de meta-aprendizagem estudada neste trabalho se mostrou eficaz. Os meta-
regressores utilizados, Support Vector Machines e Random Forest, mostraram-se igualmente
eficientes ao apresentarem valores próximos. Mais importante ainda, observa-se que os MSEs
obtidos são todos menores do que aqueles definidos como default, podendo, assim, concluir que
o sistema de sugestão aprendeu.
17

18 Cap´ıtulo 4. Conclusão
4.1 Contribui¸cões
Partindo da ideologia das técnicas de meta-aprendizado, a principal contribuição desse tra-
balho é para com os usuários que desejam resolver problemas de classificação em conjuntos de
dados que apresentam ru´ıdo em seus rótulos, principalmente os do mundo real, que possuem
uma maior probabilidade de apresentarem tais ru´ıdos.
Como profissional, eu destaco a experiência adquirida por todo esse processo de aprendi-
zado e aplicação de ideias em âmbito acadêmico. Aplicar os conhecimentos adquiridos durante
essa jornada e poder observar os resultados obtidos, tanto os significantes quanto os não signi-
ficantes, é gratificante.
4.2 Considera¸cões sobre o Curso de Gradua¸cão
Sempre me foi dito que os 5 anos de graduação passariam rápido. E passaram.
O curso de Bacharelado em Ciências de Computação da USP de São Carlos me forneceu
uma ótima base teórica e prática, o que penso ser essencial para todo Cientista da Computação.
O ambiente que a universidade proporciona, tanto no âmbito acadêmico quanto social, estimu-
lam o surgimento de ideias e também o desejo de estar constantemente aprendendo.
Entretanto, apesar do curso ter diversas ênfases que podem ser seguidas, pouco é comen-
tado sobre as mesmas e há pouca interação entre as matérias de uma mesma ênfase. Acredito
que a diminuição do número de ênfases e uma melhor estruturação desse conceito irá formar
profissionais com uma sólida base em Computação e especialista numa área de sua escolha.
No mais, estou terminando essa jornada satisfeito com a minha formação e me sentindo
preparado para a próxima etapa, seja ela qual for.

Referˆencias
[Anderson 1936]ANDERSON, E. The species problem in iris. Annals of the Missouri Botanical
Garden, 1936. v. 23, p. 457–509, 1936. Dispon´ıvel em: <http://biostor.org/reference/11559>.
[Bache e Lichman 2013]BACHE, K.; LICHMAN, M. UCI Machine Learning Repository.
2013. Dispon´ıvel em: <http://archive.ics.uci.edu/ml>.
[Barnett e Lewis 1994]BARNETT, V.; LEWIS, T. Outiliers in Statistical Data. 3. ed. [S.l.]:
Wiley-Blackwell, 1994. ISBN 0471930946, 978-0471930945.
[Brazdil et al. 2009]BRAZDIL, P. et al. Metalearning. Springer Berlin Heidel-
berg, 2009. (Cognitive Technologies). ISBN 978-3-540-73262-4. Dispon´ıvel em:
<http://dx.doi.org/10.1007/978-3-540-73263-1 1>.
[Breiman 2001]BREIMAN, L. Random forests. Machine Learning, 2001. Kluwer Aca-
demic Publishers, v. 45, n. 1, p. 5–32, 2001. ISSN 0885-6125. Dispon´ıvel em:
<http://dx.doi.org/10.1023/A%3A1010933404324>.
[Brodley 1993]BRODLEY, C. E. Addressing the Selective Superiority Problem: Automatic Al-
gorithm/Model Class Selection. In: International Conference on Machine Learning. [S.l.:
s.n.], 1993.
[Dietterich 1998]DIETTERICH, T. G. Approximate statistical tests for comparing super-
vised classiﬁcation learning algorithms. Neural Comput., 1998. MIT Press, Cambridge,
MA, USA, v. 10, n. 7, p. 1895–1923, out. 1998. ISSN 0899-7667. Dispon´ıvel em:
<http://dx.doi.org/10.1162/089976698300017197>.
[Fisher 1936]FISHER, R. A. The use of multiple measurements in taxonomic problems. Annals
of Eugenics, 1936. Blackwell Publishing Ltd, v. 7, n. 2, p. 179–188, 1936. ISSN 2050-1439.
Dispon´ıvel em: <http://dx.doi.org/10.1111/j.1469-1809.1936.tb02137.x>.
19

20 REFER ÊNCIAS
[Frank e Hubert 1996]FRANK, L.; HUBERT, E. Pretopological approach for supervised lear-
ning. In: Pattern Recognition, 1996., Proceedings of the 13th International Conference on.
[S.l.: s.n.], 1996. v. 4, p. 256–260 vol.4. ISSN 1051-4651.
[Ho, Basu e Law 2006]HO, T.; BASU, M.; LAW, M. Measures of geometrical complexity in
classification problems. In: BASU, M.; HO, T. (Ed.). Data Complexity in Pattern Recognition.
Springer London, 2006, (Advanced Information and Knowledge Processing). p. 1–23. ISBN
978-1-84628-171-6. Dispon´ıvel em: <http://dx.doi.org/10.1007/978-1-84628-172-3 1>.
[Ho e Basu 2002]HO, T. K.; BASU, M. Complexity measures of supervised classification pro-
blems. IEEE Trans. Pattern Anal. Mach. Intell., 2002. IEEE Computer Society, Washing-
ton, DC, USA, v. 24, n. 3, p. 289–300, mar. 2002. ISSN 0162-8828. Dispon´ıvel em:
<http://dx.doi.org/10.1109/34.990132>.
[Hoekstra e Duin 1996]HOEKSTRA, A.; DUIN, R. On the nonlinearity of pattern classifiers.
In: Pattern Recognition, 1996., Proceedings of the 13th International Conference on. [S.l.:
s.n.], 1996. v. 4, p. 271–275 vol.4. ISSN 1051-4651.
[Kalousis 2002]KALOUSIS, A. Algorithm Selection via Meta-Learning. Tese (Doutorado) —
Université de Genève, 2002.
[King, Feng e Sutherland 1995]KING, R. D.; FENG, C.; SUTHERLAND, A. Statlog: Com-
parison of classification algorithms on large real-world problems. Applied Artificial In-
telligence, 1995. Taylor & Francis, v. 9, n. 3, p. 289–333, 1995. Dispon´ıvel em:
<http://dx.doi.org/10.1080/08839519508945477>.
[Kolmogorov 1968]KOLMOGOROV, A. N. Three approaches to the quantitative definition of
information. International Journal of Computer Mathematics, 1968. v. 2, n. 1-4, p. 157–168,
1968. Dispon´ıvel em: <http://dx.doi.org/10.1080/00207166808803030>.
[Li e Vitnyi 2008]LI, M.; VITNYI, P. M. An Introduction to Kolmogorov Complexity and
Its Applications. 3. ed. [S.l.]: Springer Publishing Company, Incorporated, 2008. ISBN
0387339981, 9780387339986.
[Maciejowski 1979]MACIEJOWSKI, J. M. Model discrimination using an algorithmic infor-
mation criterion. Automatica, 1979. Pergamon Press, Inc., Tarrytown, NY, USA, v. 15, n. 5,
p. 579–593, set. 1979. ISSN 0005-1098. Dispon´ıvel em: <http://dx.doi.org/10.1016/0005-
1098(79)90006-2>.
[Mitchell 1997]MITCHELL, T. M. Machine Learning. 1. ed. New York, NY, USA: McGraw-
Hill, Inc., 1997. ISBN 0070428077, 9780070428072.
[Peng et al. 2002]PENG, Y. et al. Improved dataset characterisation for meta-learning. In:
LANGE, S.; SATOH, K.; SMITH, C. (Ed.). Discovery Science. Springer Berlin Heidelberg,

REFER ÊNCIAS 21
2002, (Lecture Notes in Computer Science, v. 2534). p. 141–152. ISBN 978-3-540-00188-1.
Dispon´ıvel em: <http://dx.doi.org/10.1007/3-540-36182-0 14>.
[Quinlan 1986]QUINLAN, J. R. Induction of decision trees. Mach. Learn., 1986. Kluwer Aca-
demic Publishers, Hingham, MA, USA, v. 1, n. 1, p. 81–106, mar. 1986. ISSN 0885-6125.
Dispon´ıvel em: <http://dx.doi.org/10.1023/A:1022643204877>.
[R Core Team 2014]R Core Team. R: A Language and Environment for Statistical Computing.
Vienna, Austria, 2014. Dispon´ıvel em: <http://www.R-project.org/>.
[Soares, Brazdil e Kuba 2004]SOARES, C.; BRAZDIL, P.; KUBA, P. A meta-learning method
to select the kernel width in support vector regression. Machine Learning, 2004. Kluwer Aca-
demic Publishers-Plenum Publishers, v. 54, n. 3, p. 195–209, 2004. ISSN 0885-6125. Dis-
pon´ıvel em: <http://dx.doi.org/10.1023/B%3AMACH.0000015879.28004.9b>.
[Vapnik 1995]VAPNIK, V. N. The Nature of Statistical Learning Theory. New York, NY, USA:
Springer-Verlag New York, Inc., 1995. ISBN 0-387-94559-8.
[Vilalta e Drissi 2002]VILALTA, R.; DRISSI, Y. A perspective view and sur-
vey of meta-learning. Artificial Intelligence Review, 2002. Kluwer Academic
Publishers, v. 18, n. 2, p. 77–95, 2002. ISSN 0269-2821. Dispon´ıvel em:
<http://dx.doi.org/10.1023/A%3A1019956318069>.
[Vilalta, Giraud-Carrier e Brazdil 2010]VILALTA, R.; GIRAUD-CARRIER, C.; BRAZDIL, P.
Meta-learning - concepts and techniques. In: MAIMON, O.; ROKACH, L. (Ed.). Data Mi-
ning and Knowledge Discovery Handbook. Springer US, 2010. p. 717–731. ISBN 978-0-387-
09822-7. Dispon´ıvel em: <http://dx.doi.org/10.1007/978-0-387-09823-4 36>.
[Wang, Storey e Firth 1995]WANG, R. Y.; STOREY, V. C.; FIRTH, C. P. A framework for
analysis of data quality research. IEEE Trans. on Knowl. and Data Eng., 1995. IEEE Educa-
tional Activities Department, Piscataway, NJ, USA, v. 7, n. 4, p. 623–640, ago. 1995. ISSN
1041-4347. Dispon´ıvel em: <http://dx.doi.org/10.1109/69.404034>.
[Zhu e Wu 2004]ZHU, X.; WU, X. Class noise vs. attribute noise: A quantitative study. Artifi-
cial Intelligence Review, 2004. Kluwer Academic Publishers, v. 22, n. 3, p. 177–210, 2004.
ISSN 0269-2821. Dispon´ıvel em: <http://dx.doi.org/10.1007/s10462-004-0751-8>.

Meta-aprendizado para classificação com ruído

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Meta-aprendizado para classificação com ruído

Semelhante a Meta-aprendizado para classificação com ruído (20)

Meta-aprendizado para classificação com ruído