SlideShare uma empresa Scribd logo
1 de 33
Baixar para ler offline
UNIVERSIDADE DE SÃO PAULO
Instituto de Ciências Matemáticas e de Computação
Recomendação de classificadores
para conjuntos de dados com ruído
utilizando meta-aprendizado
André Luiz Catini Paro
[Nome do Aluno]
1
Recomendação de algoritmos de classificação para
conjuntos de dados com ruído utilizando
meta-aprendizado
André Luiz Catini Paro
Orientador: André Carlos Ponce de Leon Ferreira de Carvalho
Monografia de conclusão de curso apresentada ao
Instituto de Ciências Matemáticas e de Computação –
ICMC-USP - para obtenção do título de Bacharel em
Ciências de Computação.
Área de Concentração: Inteligência Computacional
USP – São Carlos
Novembro de 2014
Dedicat´oria
Dedico esse trabalho aos meus pais, por todo o apoio oferecido, suor derramado e valiosos
ensinamentos que irei levar para a vida toda.
Ao meu irm˜ao, que sempre foi e sempre ser´a o exemplo que eu sigo.
E a minha irm˜a, guerreira e com um futuro brilhante.
i
ii
Resumo
A presenc¸a de ru´ıdo em conjuntos de dados pode influenciar de modo
significativo a qualidade de induc¸˜ao, o tempo de processamento e a com-
plexidade gerada na aplicac¸˜ao de algoritmos de Aprendizado de M´aquina.
Medidas de complexidade focam na complexidade geom´etrica da distribuic¸˜ao
das classes, assim, a presenc¸a de ru´ıdo nos conjuntos de dados afeta di-
retamente nas medidas de complexidade desses conjuntos, tornando-as
bons atributos para problemas de meta-aprendizado. Este trabalho inves-
tida o uso de meta-aprendizado para a recomendac¸˜ao de classificadores
mais robustos para quando os conjuntos de dados apresentam ru´ıdos em
seus r´otulos. Diferentes formas para caracterizar conjuntos de dados tˆem
sido propostas na literatura. Esse trabalho vai comparar como as medidas
de complexidade influenciam na selec¸˜ao dos algoritmos mais adequados
e em como a presenc¸a de ru´ıdo influencia nas mesmas.
iii
iv
Sum´ario
Lista de Tabelas vii
Lista de Abreviaturas e Siglas ix
1 Introduc¸˜ao 1
1.1 Contextualizac¸˜ao e Motivac¸˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Organizac¸˜ao da Monografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 M´etodos, T´ecnicas e Tecnologias Utilizadas 3
2.1 Considerac¸˜oes Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 Meta-aprendizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2.1 Caracterizac¸˜ao de conjuntos de dados . . . . . . . . . . . . . . . . . . 3
2.2.2 Medidas de avaliac¸˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2.3 Formas de sugest˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2.4 Construc¸˜ao de sugest˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3 Medidas de Complexidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3.1 Medidas de sobreposic¸˜ao das caracter´ısticas de diferentes classes . . . 6
2.3.2 Medidas de Separabilidade da Classe . . . . . . . . . . . . . . . . . . 6
2.3.3 Medidas de Geometria, Topologia e Densidade de Manifolds . . . . . . 7
2.4 Ru´ıdo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.5 Considerac¸˜oes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3 Desenvolvimento do Trabalho 9
3.1 Considerac¸˜oes Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.2 Descric¸˜ao do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
v
3.3 Conjuntos de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.4 Plataforma e Linguagem de Programac¸˜ao R . . . . . . . . . . . . . . . . . . . 10
3.4.1 Packages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.4.2 Vers˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.5 Descric¸˜ao das Atividades Realizadas . . . . . . . . . . . . . . . . . . . . . . . 11
3.5.1 Pr´e-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.5.2 Caracterizac¸˜ao dos conjuntos de dados . . . . . . . . . . . . . . . . . . 12
3.5.3 Construc¸˜ao da sugest˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.6 An´alise e Avaliac¸˜ao dos Resultados . . . . . . . . . . . . . . . . . . . . . . . 13
3.7 Dificuldades, Limitac¸˜oes e Trabalhos Futuros . . . . . . . . . . . . . . . . . . 15
3.8 Considerac¸˜oes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4 Conclus˜ao 17
4.1 Contribuic¸˜oes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.2 Considerac¸˜oes sobre o Curso de Graduac¸˜ao . . . . . . . . . . . . . . . . . . . 18
Referˆencias 19
vi
Lista de Tabelas
3.1 Tabela parcial dos meta-exemplos do conjunto de dados Iris . . . . . . . . . . . 13
3.2 MSE dos meta-regressores para o classificador SVM . . . . . . . . . . . . . . 14
3.3 MSE dos meta-regressores para o classificador RF . . . . . . . . . . . . . . . . 14
3.4 MSE dos meta-regressores para o classificador kNN . . . . . . . . . . . . . . . 15
3.5 MSE dos meta-regressores para o classificador Naive Bayes . . . . . . . . . . 15
vii
viii
Lista de Abreviaturas e Siglas
AM: Aprendizado de M´aquina
kNN: k-Nearest Neighbors
MSE: Mean Squared Error
RF: Random Forest
SVM: Support Vector Machine
ix
x
Cap´ıtulo
1
Introdu¸c˜ao
1.1 Contextualiza¸c˜ao e Motiva¸c˜ao
A qualidade de um conjunto de dados do mundo real est´a ligada a diversos aspectos
[Wang, Storey e Firth 1995], sendo a origem dos dados o fator cr´ıtico [Zhu e Wu 2004]. Ru´ıdos
s˜ao dados que cont´em objetos que, aparentemente, n˜ao pertencem `a distribuic¸˜ao que gerou os
dados analisados. S˜ao causados por erros nos processos de aquisic¸˜ao e medic¸˜ao, ou mesmo,
devido contaminac¸˜ao de determinadas amostras [Barnett e Lewis 1994], e podem influenciar de
modo significativo a qualidade da induc¸˜ao, o tempo de processamento e a complexidade gerada
na aplicac¸˜ao de algoritmos de Aprendizado de M´aquina (AM) [Mitchell 1997].
Classificadores s˜ao algoritmos de AM preditivos que, dado um conjunto de exemplos rotu-
lados, constr´oi um estimador (conjunto de regras). Assim, dado um exemplo n˜ao rotulado, o
classificador atribui esse exemplo a uma das poss´ıveis classes do dom´ınio1 [Dietterich 1998].
Logo, a presenc¸a de ru´ıdo no conjunto de dados utilizado no treinamento de um classificador
interfere diretamente na qualidade do estimador e, consequentemente, na sua acur´acia.
Segundo [Brodley 1993], cada algoritmo de AM possu´ı uma ”superioridade seletiva”, ou
seja, ele ´e melhor do que os outros em uma determinada ´area de competˆencia. Para cada pro-
blema onde um algoritmo supera outro, existe uma outra ´area onde a situac¸˜ao oposta acontece.
Assim, resolver um problema de classificac¸˜ao sem a ajuda de um especialista se torna uma
´ardua tarefa. Diferentes m´etodos de classificac¸˜ao devem ser aplicados ao problema e medidas
de desempenho devem ser calculadas. At´e se obter resultados satisfat´orios, as configurac¸˜oes do
1Para problemas de classificac¸˜ao, o dom´ınio ´e um conjunto de valores nominais.
1
2 Cap´ıtulo 1. Introduc¸˜ao
algoritmo, ou ele pr´oprio, devem ser alterados e novos experimentos devem ser realizados. A
presenc¸a de ru´ıdo no conjunto de dados poderia n˜ao s´o influenciar negativamente no desempe-
nho dos classificadores como tamb´em no tempo consumido por esse processo.
A meta-aprendizagem foi introduzida com o intuito de auxiliar o usu´ario nesse processo,
podendo fornecer um sistema de recomendac¸˜ao de algoritmos que tem como prop´osito reduzir
a quantidade de algoritmos testados visando otimizar o tempo dispendido com experimentos,
com uma m´ınima perda na qualidade dos resultados obtidos [Brazdil et al. 2009].
Meta-aprendizado ´e uma ´area de AM que estuda como os algoritmos de AM podem au-
mentar sua eficiˆencia por meio da experiˆencia [Vilalta e Drissi 2002]. Isso geralmente ´e feito
por m´etodos de caracterizac¸˜ao que buscam identificar e extrair propriedades presentes em um
conjunto de dados e associ´a-las ao desempenho de algoritmos de AM.
1.2 Objetivos
Este trabalho tem como objetivo investigar o uso de meta-aprendizado para a recomendac¸˜ao
de classificadores mais robustos para quando os conjuntos de dados apresentam ru´ıdo em seus
r´otulos. Diferentes formas para caracterizar conjuntos de dados tˆem sido propostas na literatura.
Medidas de complexidade ser˜ao utilizadas na caracterizac¸˜ao dos conjuntos de dados e ser´a
observado como a presenc¸a de ru´ıdo influencia nas mesmas.
1.3 Organiza¸c˜ao da Monografia
Esta monografia est´a organizada como se segue:
• No Cap´ıtulo 2 s˜ao apresentados os m´etodos, t´ecnicas e tecnologias utilizadas para o de-
senvolvimento desse trabalho.
• No Cap´ıtulo 3 ´e detalhado como se deu o desenvolvimento do trabalho. Nele o problema
investigado ´e descrito e coment´arios s˜ao feitos sobre os conjuntos de dados utilizados e
sobre a linguagem de programac¸˜ao escolhida. As atividades realizadas s˜ao descritas e os
seus resultados apresentados.
• Por fim, no Cap´ıtulo 4 s˜ao apresentadas as conclus˜oes sobre o trabalho desenvolvido e as
suas contribuic¸˜oes, bem como algumas considerac¸˜oes sobre o Curso de Graduac¸˜ao.
Cap´ıtulo
2
M´etodos, T´ecnicas e Tecnologias Utilizadas
2.1 Considera¸c˜oes Iniciais
Neste Cap´ıtulo ser´a apresentado a revis˜ao bibliogr´afica, que inclui: uma breve descric¸˜ao de
meta-aprendizado na Sec¸˜ao 2.2, definic¸˜ao das medidas de complexidade na Sec¸˜ao 2.3 e uma
sucinta definic¸˜ao de ru´ıdo na Sec¸˜ao 2.4. Na Sec¸˜ao 2.5 s˜ao apresentadas as considerac¸˜oes finais.
2.2 Meta-aprendizado
A meta-aprendizagem estuda como os algoritmos de AM podem aumentar sua eficiˆencia
por meio da experiˆencia [Vilalta e Drissi 2002].
Dentre as aplicac¸˜oes mais comuns de meta-aprendizagem, tem-se o problema de gerar regras
capazes de relacionar o desempenho de algoritmos de AM com as caracter´ısticas dos conjuntos
de dados [Brazdil et al. 2009]. Assim, isso poderia ajudar na criac¸˜ao de sistemas que fornec¸am
ao usu´ario sugest˜oes sobre qual algoritmo utilizar em determinadas situac¸˜oes. De acordo com
[Kalousis 2002], tais sistemas podem ser estudados segundo quatro crit´erios: (1) caracterizac¸˜ao
de conjuntos de dados, (2) medidas de avaliac¸˜ao, (3) formas de sugest˜ao e (4) m´etodos de
construc¸˜ao de sugest˜ao. Esses crit´erios ser˜ao detalhados a seguir.
2.2.1 Caracteriza¸c˜ao de conjuntos de dados
Caracterizar conjuntos de dados consiste em identificar e extrair propriedades desses conjun-
tos que sejam bons preditores para a performance dos algoritmos de AM. Portanto, ´e necess´ario
3
4 Cap´ıtulo 2. M´etodos, T´ecnicas e Tecnologias Utilizadas
calcular medidas que caracterizem os conjuntos de dados e que apresentem baixo custo com-
putacional [Soares, Brazdil e Kuba 2004, p. 198]. Atualmente, a pesquisa em caracterizac¸˜ao
concentra-se em trˆes ´areas [Vilalta, Giraud-Carrier e Brazdil 2010]: (1) caracterizac¸˜ao direta,
(2) caracterizac¸˜ao baseada em landmarking e (3) caracterizac¸˜ao via modelos.
Neste trabalho ser´a adotar uma nova abordagem de caracterizac¸˜ao. Os conjuntos de dados
ser˜ao caracterizadas pelas suas medidas de complexidade e pela acur´acia de diferentes classifi-
cadores, para diferentes taxas de ru´ıdo em sua classe.
Os classificadores utilizados ser˜ao: Support Vector Machines (SVM) [Vapnik 1995], k-
Nearest Neighbors (kNN) [Mitchell 1997], Random Forests (RF) [Breiman 2001] e Naive Bayes
[Mitchell 1997]. As medidas de complexidade utilizadas ser˜ao abordadas em mais detalhes na
Sec¸˜ao 2.3.
2.2.2 Medidas de avalia¸c˜ao
Para determinar qual algoritmo de AM utilizar em um determinado problema, ´e necess´ario
especificar as medidas de desempenho consideradas, para que uma lista de preferˆencia dos
algoritmos possa ser estabelecida. Diversas medidas podem ser utilizadas em conjunto a fim de
explorar v´arios aspectos do algoritmo.
Neste trabalho, a medida de avaliac¸˜ao utilizada ser´a a acur´acia dos classificadores SVM,
kNN, RF e Naive Bayes.
2.2.3 Formas de sugest˜ao
De acordo com [Kalousis 2002], a recomendac¸˜ao de algoritmos para um dado problema do
usu´ario ´e feita atrav´es de sugest˜oes em uma das seguintes formas: (1) uma lista dos algoritmos
relevantes, (2) o melhor algoritmo e (3) um ranking de algoritmos.
A primeira categoria indica, dentre os algoritmos de AM utilizados, o conjunto de algo-
ritmos que apresentam melhor estimativa de desempenho, considerando tamb´em aqueles que
n˜ao possuam desempenho estatisticamente inferior ao melhor [Peng et al. 2002]. A segunda
categoria consiste em fornecer o melhor algoritmo que ir´a, supostamente, fornecer a melhor
performance de acordo com o crit´erio de performance utilizado. Por fim, a terceira categoria
exibe os algoritmos em ordem de preferˆencia. O crit´erio de ordenac¸˜ao pode ser uma medida
simples como a acur´acia de classificadores ou medidas mais complexas que envolvem m´ultiplos
objetivo.
Este trabalho utilizar´a um ranking como forma de sugest˜ao e o m´etodo utilizado para a sua
construc¸˜ao ser´a comentado a seguir.
2.3. Medidas de Complexidade 5
2.2.4 Constru¸c˜ao de sugest˜ao
Em geral, um ranking representa uma func¸˜ao de preferˆencia sobre um conjunto de itens
[Brazdil et al. 2009]. Neste trabalho, os itens s˜ao os algoritmos de AM utilizados para a classificac¸˜ao
dos conjuntos de dados utilizados nos experimentos, enquanto a func¸˜ao de preferˆencia demons-
tra o desempenho esperado desses algoritmos de forma que, se um algoritmo apresentar me-
lhores resultados que outro, ele deve ser representado em posic¸˜ao mais alta no ranking. Dentre
os paradigmas mais comuns para a realizac¸˜ao de tal tarefa, o ranking utilizado nesse traba-
lho ser´a constru´ıdo atrav´es de regress˜ao. Essa abordagem tenta predizer o desempenho de
cada algoritmo de AM e, posteriormente, arranjar tais predic¸˜oes para a construc¸˜ao do ranking
dado o exemplo de teste. Para cada predic¸˜ao, o m´etodo utiliza uma t´ecnica de regress˜ao em
uma abordagem conhecida como meta-regress˜ao [Brazdil et al. 2009]. Como meta-regressores
ser˜ao utilizados os algoritmos SVM e RF.
2.3 Medidas de Complexidade
A complexidade de problemas de classificac¸˜ao [Ho, Basu e Law 2006] ´e comumente atribu´ıda
a trˆes principais fatores: (1) ambiguidade da classe, (2) complexidade da fronteira de decis˜ao e
(3) dispers˜ao da amostra e dimensionalidade do espac¸o dos atributos.
Ambiguidade da classe se refere a situac¸˜oes onde exemplos de diferentes classes n˜ao s˜ao
distingu´ıveis pelos atributos do problema. Isso pode estar relacionado a baixa capacidade de
que os atributos selecionados descrevam as caracter´ısticas que (1) pertenc¸am a diferentes classes
(ou seja, os atributos do problema n˜ao s˜ao suficientes para descrever as caracter´ısticas) ou (2)
pertenc¸am a classes que n˜ao s˜ao bem definidas ou possuam alguma relac¸˜ao entre elas (ou seja,
exemplos que pertenc¸am a duas classes).
Complexidade da fronteira de decis˜ao est´a relacionada a extens˜ao da descric¸˜ao necess´aria
para descrever uma classe. Dado um exemplo completo, a complexidade de Kolmogorov
[Kolmogorov 1968][Li e Vitnyi 2008] ´e definida como a extens˜ao do menor programa necess´ario
para descrever a fronteira de decis˜ao da classe. No entanto, a complexidade de Kolmogorov ´e
conhecida por ser incomput´avel [Maciejowski 1979]. Assim, outros estimadores foram conce-
bidos para analisar a complexidade da classe, os quais, basicamente, extraem diferentes indica-
dores geom´etricos do conjunto de dados.
Por ´ultimo, a dispers˜ao da amostra e dimensionalidade do espac¸o dos atributos procura
caracterizar a complexidade gerada pelas regi˜oes com exemplos dispersos no espac¸o dos atri-
butos. Generalizac¸˜ao sobre espac¸os vazios do conjunto de dados de treinamento ´e em grande
parte arbitr´aria e depende principalmente em como o classificador constr´oi seu modelo.
Dentre as diferentes fontes de dificuldade dos problemas de classificac¸˜ao, a complexidade
da fronteira de decis˜ao ´e uma das mais estudadas. Em particular, [Ho e Basu 2002] apresenta-
ram um conjunto de medidas que extraem diferentes indicadores que caracterizam a aparente
6 Cap´ıtulo 2. M´etodos, T´ecnicas e Tecnologias Utilizadas
complexidade geom´etrica da fronteira. Essas medidas podem ser divididas em trˆes categorias e
ser˜ao definidas a seguir.
2.3.1 Medidas de sobreposi¸c˜ao das caracter´ısticas de diferentes clas-
ses
Essas medidas focam na capacidade das caracter´ısticas em separar exemplos de diferentes
classes. Para cada atributo, elas examinam o alcance e propagac¸˜ao dos valores de exemplos de
diferentes classes e verificam o poder discriminat´orio de um ´unico atributo ou uma combinac¸˜ao
deles.
• M´axima raz˜ao discriminante de Fisher (F1): calcula o poder discriminante m´aximo
de cada atributo. Um alto valor da medida F1 indica que, pelo menos, um dos atributos
permite que os exemplos de diferentes classes sejam separados em partic¸˜oes que sejam
paralelas a um eixo no espac¸o de caracter´ısticas. Um baixo valor dessa medida n˜ao im-
plica que as classes n˜ao sejam linearmente separ´aveis, mas sim que elas n˜ao podem ser
discriminadas por hiper planos paralelos a um dos eixos do espac¸o de caracter´ısticas.
• Vetor direcional da m´axima raz˜ao discriminante de Fisher (F1v): complementa a
medida F1 ao procurar por um vetor orientado que pode separar os exemplos de duas
classes diferentes. Assim, um alto valor dessa medida indica que existe um vetor que
pode separar os exemplos pertencentes a diferentes classes ap´os essas instˆancias serem
projetadas nele.
• Volume da regi˜ao de sobreposic¸˜ao (F2): calcula a sobreposic¸˜ao da extremidade das
distribuic¸˜oes definidas pelos exemplos de cada classe. Um baixo valor dessa medida
significa que os atributos podem discriminar os exemplos de diferentes classes.
• M´axima eficiˆencia caracter´ıstica (individual (F3): calcula o poder discriminativo de
caracter´ısticas individuais e retorna o valor do atributo que pode discriminar o maior
n´umero de conjuntos de treinamento.
• Eficiˆencia caracter´ıstica coletiva (F4): segue a mesma ideia da medida F3, mas agora
´e considerado o poder discriminativo de todos os atributos (portanto, a eficiˆencia carac-
ter´ıstica coletiva). A medida retorna a proporc¸˜ao de instˆancias que foram discriminadas.
Assim, ela nos d´a uma ideia da frac¸˜ao de exemplos cuja classe poderia ser corretamente
prevista pela construc¸˜ao de hiperplanos que s˜ao paralelos ao eixo no espac¸o caracter´ıstico.
2.3.2 Medidas de Separabilidade da Classe
Medidas que examinam a forma das fronteiras das classes para estimar a complexidade da
separac¸˜ao de instˆancias de diferentes classes.
2.3. Medidas de Complexidade 7
• Soma da distˆancia do erro minimizada por programac¸˜ao linear (L1): avalia at´e que
ponto o conjunto de treinamento ´e linearmente separ´avel. Um valor dessa medida igual a
zero indica que o problema ´e linearmente separ´avel.
• Taxa de erro do classificador linear por programac¸˜ao linear (L2): taxa de erro do
classificador linear utilizado por L1, calculada com o conjunto de treinamento.
• Frac¸˜ao de pontos nos fronteira das classes (N1): retorna uma estimativa da extens˜ao da
fronteira da classe. Altos valores indicam que a maioria dos exemplos se disp˜oe pr´oximos
a fronteira de decis˜ao e, ent˜ao, pode ser mais dif´ıcil para que o algoritmo de aprendizado
defina essa fronteira com precis˜ao.
• Raz˜ao da distˆancia m´edia intra/inter do vizinho mais pr´oximo da classe (N2): com-
para a propagac¸˜ao dentro da classe com as distˆancias para os vizinhos mais pr´oximos de
outras classes. Baixos valores dessa medida sugerem que os exemplos de mesma classe
est˜ao pr´oximos no espac¸o de caracter´ısticas. Altos valores indicam que os exemplos de
mesma classe s˜ao dispersos.
• Taxa de erro do leave-one-out do classificador vizinho mais pr´oximo (N3): indica
o qu˜ao pr´oximo s˜ao os exemplos de diferentes classes. Ela retorna a taxa de erro da
abordagem leave-one-out do classificador kNN (com k = 1). Valores baixos indicam que
existe uma grande separac¸˜ao na fronteira da classe.
2.3.3 Medidas de Geometria, Topologia e Densidade de Manifolds
Medidas que caracterizam indiretamente a separabilidade da classe ao assumir que a classe
´e feita de um ´unico ou m´ultiplos manifolds que apoiam a distribuic¸˜ao da classe.
• N˜ao linearidade de um classificador linear (L3): implementa a medida de n˜ao lineari-
dade proposta por [Hoekstra e Duin 1996].
• N˜ao linearidade do classificador vizinho mais pr´oximo (N4): cria um conjunto de teste
como proposto em L3 e retorna o erro de teste do classificador k-Vizinhos mais pr´oximos
(com k = 1).
• Frac¸˜ao m´axima da cobertura de esferas (T1): foi originalmente proposta por
[Frank e Hubert 1996], onde descreve a forma de manifolds de classe com o conceito de
ades˜ao de subconjunto.
• N´umero m´edio de exemplos por dimens˜ao (T2): simples raz˜ao do n´umero m´edio de
exemplos presentes na base de dados sobre as dimens˜oes das caracter´ısticas (quantidade
de exemplos por quantidade de atributos).
8 Cap´ıtulo 2. M´etodos, T´ecnicas e Tecnologias Utilizadas
2.4 Ru´ıdo
Ru´ıdo pode ser definido como uma variˆancia ou erro aleat´orio no valor gerado ou medido
para um atributo [Quinlan 1986].
Dados com ru´ıdos s˜ao dados que contˆem objetos que, aparentemente, n˜ao pertencem `a
distribuic¸˜ao que gerou os dados analisados, podendo influenciar de modo significativo a quali-
dade da induc¸˜ao, o tempo de processamento e a complexidade gerada na aplicac¸˜ao de algoritmos
de AM.
Neste trabalho, ser´a inserido ru´ıdo de classe (exemplos com r´otulos incorretos) de forma
aleat´oria e controlada nos conjuntos de dados a fim de observar sua influˆencia sobre as medidas
de complexidade e sobe o desempenho dos algoritmo de AM que comp˜oe o problema de meta-
aprendizado aqui investigado.
2.5 Considera¸c˜oes Finais
Neste cap´ıtulo foi abordado inicialmente os conceitos de meta-aprendizado e suas particu-
laridades para este trabalho; na sequˆencia foram definidas as medidas de complexidade que
comp˜oe o problema de meta-aprendizado e, por ´ultimo, ru´ıdo foi brevemente abordado e co-
mentado sobre como ele est´a inserido no contexto desse trabalho.
No pr´oximo cap´ıtulo ser´a apresentado o trabalho desenvolvido, detalhando o problema in-
vestigado e a metodologia utilizada para a conduc¸˜ao dos experimentos, al´em dos desafios en-
contrados.
Cap´ıtulo
3
Desenvolvimento do Trabalho
3.1 Considera¸c˜oes Iniciais
Neste Cap´ıtulo, apresenta-se inicialmente na Sec¸˜ao 3.2 a descric¸˜ao do problema estudado
nesse trabalho. A seguir, nas Sec¸˜oes 3.3 e 3.4, os conjuntos de dados e a linguagem de
programac¸˜ao escolhida para a realizac¸˜ao dos experimentos s˜ao abordados. Por fim, na Sec¸˜ao
3.5 ´e descrito as atividades realizadas e os resultados obtidos s˜ao apresentados na Sec¸˜ao 3.6.
3.2 Descri¸c˜ao do Problema
Visto que a presenc¸a de ru´ıdo em conjuntos de dados podem influenciar de modo significa-
tivo a qualidade da induc¸˜ao, o tempo de processamento e a complexidade gerada na aplicac¸˜ao
de algoritmos de AM, em um problema de classificac¸˜ao a meta-aprendizagem tem como intuito
auxiliar o usu´ario na escolha do algoritmo de classificac¸˜ao mais robusto para o seu problema.
Os experimentos desse trabalho foram divididos em duas etapas: etapa de n´ıvel base e etapa
de n´ıvel meta. Elas s˜ao descritas a seguir.
Na etapa de n´ıvel base, inicialmente ocorre o pr´e-processamento dos conjuntos de dados
utilizados, onde ´e feito o preenchimento dos valores faltantes dos atributos e a binarizac¸˜ao dos
atributos nominais. Logo ap´os, o r´otulo dos conjuntos de treinamento s˜ao polu´ıdos de forma
aleat´oria com diferentes margens de ru´ıdo, as suas medidas e complexidade s˜ao calculadas e,
ent˜ao, os algoritmos SVM, RF, kNN e Naive Bayes ser˜ao treinados como classificadores. Por
fim, a acur´acia dos classificadores ´e calculada utilizando os conjuntos de teste.
9
10 Cap´ıtulo 3. Desenvolvimento do Trabalho
Na etapa de n´ıvel meta, os dados obtidos na primeira etapa ir˜ao ser usados como meta-
exemplos para o problema de meta-aprendizagem. Os meta-exemplos ser˜ao divididos aleatoria-
mente entre conjunto de treinamento e conjunto de teste. Agora, os algoritmos SVM e RF ser˜ao
treinados como regressores utilizando o conjunto de treinamento, tendo como meta-atributos de
entrada as medidas de complexidade e como meta-atributo alvo a acur´acia dos classificadores.
Ser´a gerado um meta-modelo diferente para cada um dos classificadores utilizados. Finalmente,
o desempenho dos meta-regressores ser´a avaliado utilizando o conjunto de teste e obtendo o erro
m´edio quadr´atico (MSE - Mean Squared Error) entre o valor predito pelo meta-modelo e o real
valor do meta-atributo alvo.
Caso seja constatado que os meta-regressores aprenderam, ou seja, se seus respectivos MSEs
forem menores do que os definidos como default, a sugest˜ao seria feita ao usu´ario conforme
descrito na Sec¸˜ao 2.2.3, ou seja, cada um dos meta-regressores apresentariam os prov´aveis
classificadores mais robustos para o problema, sendo ordenados pela sua acur´acia predita.
3.3 Conjuntos de dados
Os dados utilizados nesse trabalho fazem parte de uma colec¸˜ao de bases de dados do Repo-
sit´orio de Aprendizado de M´aquina na Universidade da Calif´ornia em Irving (UCI). Elas s˜ao
comumente utilizadas pela comunidade de aprendizado de m´aquina para an´alise emp´ırica de
algoritmos de AM. O reposit´orio pode ser acessado em http://archive.ics.uci.edu/ml/.
Foram utilizadas ao todo 66 conjuntos de dados, cada um com diferentes n´umeros de exem-
plos, atributos e classes. ´E importante ressaltar a necessidade de uma grande quantidade de
dados para que os algoritmos de meta-aprendizado possam gerar regras mais exatas para a su-
gest˜ao dos m´etodos de classificac¸˜ao.
3.4 Plataforma e Linguagem de Programa¸c˜ao R
R ´e tanto uma linguagem orientada a objetos como um ambiente de desenvolvimento es-
tat´ıstico e gr´afico. ´E um projeto GNU e foi desenvolvido no Bell Laboratories por John
Chambers e seus colegas [R Core Team 2014]. Est´a dispon´ıvel de forma gratuita e open source
(c´odigo aberto) sob os termos da Licenc¸a P´ublica Geral da Fundac¸˜ao de Software Livre GNU.
R fornece uma ampla variedade de t´ecnicas estat´ısticas (modelagem linear e n˜ao linear,
testes estat´ısticos cl´assicos, classificac¸˜ao, clusterizac¸˜ao etc.) e gr´aficas, e ´e altamente extens´ıvel
atrav´es de packages. Oferece facilidades em sua sintaxe e no tratamento de grandes volumes de
dados, tendo grande utilizac¸˜ao em sistemas de apoio a decis˜ao e `a an´alise de dados.
3.5. Descric¸˜ao das Atividades Realizadas 11
3.4.1 Packages
Embora o conjunto de ferramentas que vem como padr˜ao no R s˜ao um tanto quanto pode-
rosas, o trabalho envolve o uso de func¸˜oes que n˜ao est˜ao dispon´ıveis por padr˜ao. ´E necess´ario,
ent˜ao, a utilizac¸˜ao de sete packages adicionais. S˜ao eles:
• ape: Package com func¸˜oes de an´alise e manipulac¸˜ao de dados;
• e1071: Package com func¸˜oes dedicadas ao SVM;
• modeest: Package com func¸˜oes de c´alculo de moda estat´ıstica;
• randomForest: Package com func¸˜oes de classificac¸˜ao e regress˜ao para florestas (estrutura
de dados);
• rpart: Package com func¸˜oes dedicadas a ´Arvores de Decis˜ao (AD);
• RWeka: Package com func¸˜oes de intermediac¸˜ao entre a plataforma R e a plataforma
Weka;
• ggplot2: Package com func¸˜oes para plotar boxplots.
3.4.2 Vers˜ao
A plataforma de desenvolvimento R lanc¸a periodicamente novas vers˜oes com novas funci-
onalidades e correc¸˜oes de erros e se encontra atualmente na vers˜ao 3.1.2. Neste trabalho foi
utilizada a vers˜ao 3.1.1, sendo compilada para a plataforma Linux.
3.5 Descri¸c˜ao das Atividades Realizadas
3.5.1 Pr´e-processamento
A primeira parte do experimento se deu pelo pr´e-processamento dos conjuntos de dados.
Para cada exemplo, foi verificado se ele estava completo, ou seja, se todos os seus atributos es-
tavam preenchidos ou n˜ao. Os valores faltantes de atributos num´ericos foram preenchidos com
a m´edia do atributo utilizando os exemplos de mesmo r´otulo e os valores faltantes de atributos
nominais foram preenchidos com a primeira moda (primeiro valor que esta mais presente com
um conjunto de valores), tamb´em calculada com os exemplos de mesmo r´otulo.
Ap´os todos os exemplos estarem completos, foi feita a binarizac¸˜ao dos atributos nominais
seguindo a codificac¸˜ao 1-de-c, onde cada valor nominai ´e codificado por uma sequˆencia de c
bits, em que c ´e igual ao n´umero de poss´ıveis valores ou categorias. Cada posic¸˜ao da sequˆencia
se torna um novo atributo que, se for preenchido com 1 significa a presenc¸a do valor nominal
12 Cap´ıtulo 3. Desenvolvimento do Trabalho
correspondente `aquele bit e 0 a falta de tal valor. Os conjuntos de dados tratadas ser˜ao os
utilizadas no decorrer do experimento.
3.5.2 Caracteriza¸c˜ao dos conjuntos de dados
Utilizando os conjuntos de dados j´a tratados, deu-se inicio a caracterizac¸˜ao dos mesmo.
Foram definidas 4 taxas para a inserc¸˜ao de ru´ıdo de forma controlada nos conjuntos de dados,
de 5%, 10%, 20% e 40%. Ainda, a fim de obter uma estimativa confi´avel das medidas de
complexidade e dos classificadores sobre o conjunto de treinamento, foi utilizada a variante
stratified do m´etodo Cross-Validation, em que os exemplos s˜ao divididos aleatoriamente em
k partic¸˜oes mutuamente exclusivas de tamanho aproximadamente igual, mantendo a mesma
proporc¸˜ao das classes em cada uma das partic¸˜oes. Das k partic¸˜oes, k − 1 s˜ao utilizadas como
conjunto de treinamento e a restante como conjunto de teste. O processo ´e repetido k vezes, em
cada uma intercalando a partic¸˜ao utilizada como conjunto de teste. Por fim, como sugerido por
[Mitchell 1997], k ´e fixo valendo 10.
Assim, para cada taxa de ru´ıdo e para cada partic¸˜ao, o respectivo conjunto de treinamento
´e polu´ıdo. O processo de poluic¸˜ao consiste em escolher aleatoriamente exemplos de acordo
com a taxa de ru´ıdo a ser aplicada e alterar o seu r´otulo para uma outra classe do dom´ınio,
tamb´em de forma aleat´oria. A seguir, as medidas de complexidade apresentadas na Sec¸˜ao 2.3
s˜ao computadas e ´e obtido a acur´acia dos classificadores SVM, RF, kNN e Naive Bayes. A
m´edia dos valores obtidos pelas 10 partic¸˜oes ir´a constituir um meta-exemplo. Essa metodologia
ser´a aplicada 10 vezes (´epocas), havendo assim uma maior variedade de meta-exemplos para o
problema de meta-aprendizado.
Esse processo ´e repetido para cada um dos 66 conjuntos de dados utilizados no experimento
e os valores s˜ao armazenados e combinados, criando uma matriz com 2640 meta-exemplos (40
meta-exemplos de cada um dos 66 conjuntos de dados) e 18 meta-atributos (14 medidas de
complexidade e a acur´acia dos 4 classificadores).
3.5.3 Constru¸c˜ao da sugest˜ao
Agora, os meta-regressores ser˜ao treinados utilizando as medidas de complexidade como
meta-atributos de entrada e a acur´acia de cada classificador como meta-atributo alvo.
Escolhe-se aleatoriamente os meta-exemplos de 33 conjuntos de dados para compor o con-
junto de treinamento e os meta-exemplos dos outros 33 conjuntos de dados restantes para com-
por o conjunto de teste. Para cada um dos 4 classificadores, os meta-regressores SVM e RF
ser˜ao treinados com o conjunto de treinamento. Na sequˆencia, utiliza-se o conjunto de teste
e obtˆem-se o MSE entre o valor predito pelos meta-modelos e o real valor do meta-atributo
alvo. A fim de analisar se os meta-regressores ir˜ao aprender, foi definido como valor default o
MSE entre o conjunto de treinamento e o conjunto de teste. Esse procedimento ser´a realizado
3.6. An´alise e Avaliac¸˜ao dos Resultados 13
5 vezes, sempre escolhendo os meta-exemplos de conjuntos de dados aleat´orios. Finalmente, ´e
calculado a m´edia e o desvio padr˜ao desses valores obtidos.
3.6 An´alise e Avalia¸c˜ao dos Resultados
Na etapa de n´ıvel base foram obtidos os 2640 meta-exemplos, 40 de cada um dos 66 con-
juntos de dados utilizados. Cada meta-exemplo ´e constitu´ıdo por 14 medidas de complexidade
(F1, F1v, F2, F3, F4, L1, L2, N1, N2, N3, L3, N4, T1 e T2) e pela acur´acia de 4 classificadores
(SVM, RF, kNN e Naive Bayes), somando no total 18 meta-atributos. Cada meta-exemplo foi
obtido como descrito na Sec¸˜ao 3.5.
A fim de verificar a influˆencia da presenc¸a de ru´ıdo nos conjuntos de dados, a tabela 3.1 a se-
guir ilustra parcialmente os meta-exemplos obtidos para o conjunto de dados Iris [Fisher 1936]
[Anderson 1936][Bache e Lichman 2013], amplamente utilizado e estudado pela comunidade
de AM. A tabela apresenta 12 meta-exemplos selecionados aleatoriamente, 3 para cada uma
das taxas de ru´ıdo, e alguns de seus meta-atributos: as medidas de complexidade F1, F2, L1 e
N1 e a acur´acia dos classificadores SVM, RF, kNN e Naive Bayes.
Tabela 3.1: Tabela parcial dos meta-exemplos do conjunto de dados Iris
Ru´ıdo (%) F1 F2 L1 N1 SVM RF kNN Naive Bayes
5 4.4880 0.6759 0.6619 0.1836 0.9000 0.9600 0.9467 0.9400
5.3018 0.5093 0.6619 0.2090 0.9000 0.9600 0.9400 0.9400
6.7498 0.2918 0.6594 0.2326 0.9000 0.9400 0.9067 0.9467
10 2.2123 1.0153 0.6619 0.3674 0.8867 0.9600 0.8733 0.9333
3.0333 0.6110 0.6596 0.3298 0.8867 0.9467 0.8667 0.9000
2.2618 0.6193 0.6621 0.3202 0.8933 0.9267 0.8267 0.9333
20 0.7391 0.9419 0.6662 0.5415 0.8733 0.8867 0.7067 0.9067
1.4639 1.0325 0.6608 0.5031 0.9067 0.8867 0.7933 0.9067
0.8689 1.3853 0.6635 0.4824 0.8400 0.8733 0.7467 0.8933
40 0.1478 1.7567 0.6668 0.7785 0.8200 0.7067 0.5867 0.8600
0.1577 1.7154 0.6668 0.7747 0.6200 0.7400 0.5467 0.8467
0.1865 1.6923 0.6669 0.7186 0.6200 0.7400 0.6533 0.8667
Analisando a tabela 3.1, conforme a taxa de ru´ıdo aumenta, observa-se que as medidas de
complexidade se comportam conforme o esperado. F1 diminui e F2 aumenta, indicando uma
maior dificuldade na hora de discriminar exemplos de diferentes classes. L1 avalia at´e que ponto
o conjunto de treinamento ´e linearmente separ´avel. Iris possu´ı 3 classes e sabe-se que uma delas
´e linearmente separ´avel entre as outras duas, e essas ´ultimas n˜ao s˜ao linearmente separ´aveis
entre si. Assim, o valor aproximado de 0.6666 (2/3) demonstra essa proporc¸˜ao, j´a que que um
14 Cap´ıtulo 3. Desenvolvimento do Trabalho
valor de L1 igual a zero indica que o problema todo ´e linearmente separ´avel. A proporc¸˜ao
permanece quase que constante para todos os meta-exemplos pois a proporc¸˜ao das classes ´e
mantida em cada partic¸˜ao gerada pelo Stratified Cross-Validation. N1, por sua vez, aumenta,
indicando que os exemplos passam a se dispor pr´oximos a fronteira de decis˜ao, dificultando o
processo de aprendizado dos classificadores. Finalmente, observa-se a diminuic¸˜ao da acur´acia
de todos os classificadores.
Na etapa de n´ıvel meta, os meta-exemplos foram utilizados para treinar os meta-regressores
(SVM e RF) e os erros m´edios quadr´aticos (MSE) foram obtidos como descrito na Sec¸˜ao 3.5.
Esses ´ultimos resultados ser˜ao apresentados a seguir pelas tabelas 3.1, 3.2, 3.3 e 3.4, correspon-
dentes aos classificadores SVM, RF, kNN e Naive Bayes, respectivamente.
Tabela 3.2: MSE dos meta-regressores para o classificador SVM
SVM
SVM RF Default
0.009665424 0.008600093 0.04359567
0.013850826 0.013658909 0.03645777
0.017134119 0.015665853 0.05037359
0.012212296 0.020608762 0.03551171
0.013947434 0.011900755 0.03685851
M´edia 0.013362020 0.014086874 0.04055945
±0.002729334 ±0.004474797 ±0.00635485
Tabela 3.3: MSE dos meta-regressores para o classificador RF
RF
SVM RF Default
0.009721490 0.007777503 0.04197527
0.007604030 0.009068580 0.04723513
0.012383102 0.010551548 0.04092741
0.011968106 0.017883694 0.04885817
0.010679087 0.010086180 0.03955703
M´edia 0.010471163 0.011073501 0.04371060
±0.001918465 ±0.003953140 ±0.00409052
Observa-se que todos os valores obtidos pelos meta-regressores para todos os classificadores
foram inferiores aos valores definidos como default. Ainda, os meta-regressores obtiveram
valores pr´oximos. Foi destacado nas tabelas as menores m´edias, indicando qual meta-regressor
3.7. Dificuldades, Limitac¸˜oes e Trabalhos Futuros 15
Tabela 3.4: MSE dos meta-regressores para o classificador kNN
kNN
SVM RF Default
0.006958310 0.005227959 0.036860490
0.007085594 0.005234534 0.041521542
0.010144090 0.009028691 0.039337285
0.009347170 0.009262828 0.044723213
0.008662719 0.005266856 0.036267609
M´edia 0.008439577 0.006804174 0.039742028
±0.001396988 ±0.002139219 ±0.003482727
Tabela 3.5: MSE dos meta-regressores para o classificador Naive Bayes
Naive Bayes
SVM RF Default
0.028247735 0.016963759 0.07444598
0.032274653 0.016817546 0.05800814
0.037164569 0.021094768 0.08102008
0.037379141 0.025697520 0.07850134
0.033965232 0.015823232 0.05620430
M´edia 0.033806266 0.019279365 0.06963597
±0.003785235 ±0.004118733 ±0.01169343
teve o melhor desempenho para cada um dos classificadores investigados. O meta-regressor
SVM teve um melhor resultado para os classificadores SVM e RF e o meta-regressor RF para
os classificadores kNN e Naive Bayes.
3.7 Dificuldades, Limita¸c˜oes e Trabalhos Futuros
A correlac¸˜ao entre diversas ´areas de AM em um mesmo problema se torna um grande desa-
fio, necessitando comprometimento e estudo sobre diversos temas e metodologias. O alto custo
computacional dos algoritmos de AM, especialmente quando utilizadas em conjuntos de dados
extensos, se demonstra um fator limitante, necessitando alto poder computacional.
Como trabalhos futuros, tem-se a possibilidade de aprimorar a construc¸˜ao da sugest˜ao a
partir da combinac¸˜ao de outras medidas padr˜oes para problemas de meta-aprendizado, como
as do conjunto STATLOG [King, Feng e Sutherland 1995]. Ainda, seria interessante avaliar os
rankings sugeridos utilizando o coeficiente de Spearman, uma medida padr˜ao de desempenho
16 Cap´ıtulo 3. Desenvolvimento do Trabalho
que ´e aplicada sobre o ranking ideal atribu´ıdo a um meta-exemplo e o ranking constru´ıdo, a fim
de determinar a acur´acia da predic¸˜ao realizada.
3.8 Considera¸c˜oes Finais
Este Cap´ıtulo teve inicio com a descric¸˜ao do problema. Em seguida, considerac¸˜oes sobre
os conjuntos de dados utilizados foram feitas e linguagem de programac¸˜ao R, escolhida para a
realizac¸˜ao dos experimentos, foi abordada. Foi feita ent˜ao a descric¸˜ao das atividades realiza-
das, as quais foram divididas em: pr´e-processamento, caracterizac¸˜ao dos conjuntos de dados e
construc¸˜ao da sugest˜ao. O Cap´ıtulo foi encerrado com a apresentac¸˜ao dos resultados obtidos
nos experimentos.
No pr´oximo e ´ultimo Cap´ıtulo, s˜ao apresentadas as conclus˜oes do trabalho desenvolvido, as
contribuic¸˜oes obtidas e as considerac¸˜oes sobre o Curso de Graduac¸˜ao.
Cap´ıtulo
4
Conclus˜ao
Esse trabalho investigou o uso de meta-aprendizado com a finalidade de recomendar classi-
ficadores mais robustos para quando os conjuntos de dados apresentam ru´ıdos em seus r´otulos.
Isso foi poss´ıvel ao utilizar medidas de complexidade e acur´acia de classificadores como meta-
atributos para o problema de meta-aprendizagem.
Conjuntos de dados tiveram os seus r´otulos polu´ıdos artificialmente com diferentes taxas
de ru´ıdo. Ent˜ao, as medidas de complexidade desses conjuntos foram calculadas e a acur´acia
de diferentes classificadores foi obtida a fim de caracterizar o conjunto de dados atrav´es de
meta-exemplos. A meta-aprendizagem foi realizada pelos meta-regressores e a sua efic´acia foi
avaliada utilizando o erro m´edio quadr´atico.
Ap´os a construc¸˜ao dos meta-exemplos, pode-se observar de forma clara os efeitos causados
pela presenc¸a de ru´ıdo nos conjuntos de dados. Isso reforc¸a ainda mais a necessidade de um
sistema que auxilie o usu´ario a resolver problemas de classificac¸˜ao de uma forma mais eficiente
para quando os conjuntos de dados apresentam ru´ıdo.
A proposta de meta-aprendizagem estudada neste trabalho se mostrou eficaz. Os meta-
regressores utilizados, Support Vector Machines e Random Forest, mostraram-se igualmente
eficientes ao apresentarem valores pr´oximos. Mais importante ainda, observa-se que os MSEs
obtidos s˜ao todos menores do que aqueles definidos como default, podendo, assim, concluir que
o sistema de sugest˜ao aprendeu.
17
18 Cap´ıtulo 4. Conclus˜ao
4.1 Contribui¸c˜oes
Partindo da ideologia das t´ecnicas de meta-aprendizado, a principal contribuic¸˜ao desse tra-
balho ´e para com os usu´arios que desejam resolver problemas de classificac¸˜ao em conjuntos de
dados que apresentam ru´ıdo em seus r´otulos, principalmente os do mundo real, que possuem
uma maior probabilidade de apresentarem tais ru´ıdos.
Como profissional, eu destaco a experiˆencia adquirida por todo esse processo de aprendi-
zado e aplicac¸˜ao de ideias em ˆambito acadˆemico. Aplicar os conhecimentos adquiridos durante
essa jornada e poder observar os resultados obtidos, tanto os significantes quanto os n˜ao signi-
ficantes, ´e gratificante.
4.2 Considera¸c˜oes sobre o Curso de Gradua¸c˜ao
Sempre me foi dito que os 5 anos de graduac¸˜ao passariam r´apido. E passaram.
O curso de Bacharelado em Ciˆencias de Computac¸˜ao da USP de S˜ao Carlos me forneceu
uma ´otima base te´orica e pr´atica, o que penso ser essencial para todo Cientista da Computac¸˜ao.
O ambiente que a universidade proporciona, tanto no ˆambito acadˆemico quanto social, estimu-
lam o surgimento de ideias e tamb´em o desejo de estar constantemente aprendendo.
Entretanto, apesar do curso ter diversas ˆenfases que podem ser seguidas, pouco ´e comen-
tado sobre as mesmas e h´a pouca interac¸˜ao entre as mat´erias de uma mesma ˆenfase. Acredito
que a diminuic¸˜ao do n´umero de ˆenfases e uma melhor estruturac¸˜ao desse conceito ir´a formar
profissionais com uma s´olida base em Computac¸˜ao e especialista numa ´area de sua escolha.
No mais, estou terminando essa jornada satisfeito com a minha formac¸˜ao e me sentindo
preparado para a pr´oxima etapa, seja ela qual for.
Referˆencias
[Anderson 1936]ANDERSON, E. The species problem in iris. Annals of the Missouri Botanical
Garden, 1936. v. 23, p. 457–509, 1936. Dispon´ıvel em: <http://biostor.org/reference/11559>.
[Bache e Lichman 2013]BACHE, K.; LICHMAN, M. UCI Machine Learning Repository.
2013. Dispon´ıvel em: <http://archive.ics.uci.edu/ml>.
[Barnett e Lewis 1994]BARNETT, V.; LEWIS, T. Outiliers in Statistical Data. 3. ed. [S.l.]:
Wiley-Blackwell, 1994. ISBN 0471930946, 978-0471930945.
[Brazdil et al. 2009]BRAZDIL, P. et al. Metalearning. Springer Berlin Heidel-
berg, 2009. (Cognitive Technologies). ISBN 978-3-540-73262-4. Dispon´ıvel em:
<http://dx.doi.org/10.1007/978-3-540-73263-1 1>.
[Breiman 2001]BREIMAN, L. Random forests. Machine Learning, 2001. Kluwer Aca-
demic Publishers, v. 45, n. 1, p. 5–32, 2001. ISSN 0885-6125. Dispon´ıvel em:
<http://dx.doi.org/10.1023/A%3A1010933404324>.
[Brodley 1993]BRODLEY, C. E. Addressing the Selective Superiority Problem: Automatic Al-
gorithm/Model Class Selection. In: International Conference on Machine Learning. [S.l.:
s.n.], 1993.
[Dietterich 1998]DIETTERICH, T. G. Approximate statistical tests for comparing super-
vised classification learning algorithms. Neural Comput., 1998. MIT Press, Cambridge,
MA, USA, v. 10, n. 7, p. 1895–1923, out. 1998. ISSN 0899-7667. Dispon´ıvel em:
<http://dx.doi.org/10.1162/089976698300017197>.
[Fisher 1936]FISHER, R. A. The use of multiple measurements in taxonomic problems. Annals
of Eugenics, 1936. Blackwell Publishing Ltd, v. 7, n. 2, p. 179–188, 1936. ISSN 2050-1439.
Dispon´ıvel em: <http://dx.doi.org/10.1111/j.1469-1809.1936.tb02137.x>.
19
20 REFER ˆENCIAS
[Frank e Hubert 1996]FRANK, L.; HUBERT, E. Pretopological approach for supervised lear-
ning. In: Pattern Recognition, 1996., Proceedings of the 13th International Conference on.
[S.l.: s.n.], 1996. v. 4, p. 256–260 vol.4. ISSN 1051-4651.
[Ho, Basu e Law 2006]HO, T.; BASU, M.; LAW, M. Measures of geometrical complexity in
classification problems. In: BASU, M.; HO, T. (Ed.). Data Complexity in Pattern Recognition.
Springer London, 2006, (Advanced Information and Knowledge Processing). p. 1–23. ISBN
978-1-84628-171-6. Dispon´ıvel em: <http://dx.doi.org/10.1007/978-1-84628-172-3 1>.
[Ho e Basu 2002]HO, T. K.; BASU, M. Complexity measures of supervised classification pro-
blems. IEEE Trans. Pattern Anal. Mach. Intell., 2002. IEEE Computer Society, Washing-
ton, DC, USA, v. 24, n. 3, p. 289–300, mar. 2002. ISSN 0162-8828. Dispon´ıvel em:
<http://dx.doi.org/10.1109/34.990132>.
[Hoekstra e Duin 1996]HOEKSTRA, A.; DUIN, R. On the nonlinearity of pattern classifiers.
In: Pattern Recognition, 1996., Proceedings of the 13th International Conference on. [S.l.:
s.n.], 1996. v. 4, p. 271–275 vol.4. ISSN 1051-4651.
[Kalousis 2002]KALOUSIS, A. Algorithm Selection via Meta-Learning. Tese (Doutorado) —
Universit´e de Gen`eve, 2002.
[King, Feng e Sutherland 1995]KING, R. D.; FENG, C.; SUTHERLAND, A. Statlog: Com-
parison of classification algorithms on large real-world problems. Applied Artificial In-
telligence, 1995. Taylor & Francis, v. 9, n. 3, p. 289–333, 1995. Dispon´ıvel em:
<http://dx.doi.org/10.1080/08839519508945477>.
[Kolmogorov 1968]KOLMOGOROV, A. N. Three approaches to the quantitative definition of
information. International Journal of Computer Mathematics, 1968. v. 2, n. 1-4, p. 157–168,
1968. Dispon´ıvel em: <http://dx.doi.org/10.1080/00207166808803030>.
[Li e Vitnyi 2008]LI, M.; VITNYI, P. M. An Introduction to Kolmogorov Complexity and
Its Applications. 3. ed. [S.l.]: Springer Publishing Company, Incorporated, 2008. ISBN
0387339981, 9780387339986.
[Maciejowski 1979]MACIEJOWSKI, J. M. Model discrimination using an algorithmic infor-
mation criterion. Automatica, 1979. Pergamon Press, Inc., Tarrytown, NY, USA, v. 15, n. 5,
p. 579–593, set. 1979. ISSN 0005-1098. Dispon´ıvel em: <http://dx.doi.org/10.1016/0005-
1098(79)90006-2>.
[Mitchell 1997]MITCHELL, T. M. Machine Learning. 1. ed. New York, NY, USA: McGraw-
Hill, Inc., 1997. ISBN 0070428077, 9780070428072.
[Peng et al. 2002]PENG, Y. et al. Improved dataset characterisation for meta-learning. In:
LANGE, S.; SATOH, K.; SMITH, C. (Ed.). Discovery Science. Springer Berlin Heidelberg,
REFER ˆENCIAS 21
2002, (Lecture Notes in Computer Science, v. 2534). p. 141–152. ISBN 978-3-540-00188-1.
Dispon´ıvel em: <http://dx.doi.org/10.1007/3-540-36182-0 14>.
[Quinlan 1986]QUINLAN, J. R. Induction of decision trees. Mach. Learn., 1986. Kluwer Aca-
demic Publishers, Hingham, MA, USA, v. 1, n. 1, p. 81–106, mar. 1986. ISSN 0885-6125.
Dispon´ıvel em: <http://dx.doi.org/10.1023/A:1022643204877>.
[R Core Team 2014]R Core Team. R: A Language and Environment for Statistical Computing.
Vienna, Austria, 2014. Dispon´ıvel em: <http://www.R-project.org/>.
[Soares, Brazdil e Kuba 2004]SOARES, C.; BRAZDIL, P.; KUBA, P. A meta-learning method
to select the kernel width in support vector regression. Machine Learning, 2004. Kluwer Aca-
demic Publishers-Plenum Publishers, v. 54, n. 3, p. 195–209, 2004. ISSN 0885-6125. Dis-
pon´ıvel em: <http://dx.doi.org/10.1023/B%3AMACH.0000015879.28004.9b>.
[Vapnik 1995]VAPNIK, V. N. The Nature of Statistical Learning Theory. New York, NY, USA:
Springer-Verlag New York, Inc., 1995. ISBN 0-387-94559-8.
[Vilalta e Drissi 2002]VILALTA, R.; DRISSI, Y. A perspective view and sur-
vey of meta-learning. Artificial Intelligence Review, 2002. Kluwer Academic
Publishers, v. 18, n. 2, p. 77–95, 2002. ISSN 0269-2821. Dispon´ıvel em:
<http://dx.doi.org/10.1023/A%3A1019956318069>.
[Vilalta, Giraud-Carrier e Brazdil 2010]VILALTA, R.; GIRAUD-CARRIER, C.; BRAZDIL, P.
Meta-learning - concepts and techniques. In: MAIMON, O.; ROKACH, L. (Ed.). Data Mi-
ning and Knowledge Discovery Handbook. Springer US, 2010. p. 717–731. ISBN 978-0-387-
09822-7. Dispon´ıvel em: <http://dx.doi.org/10.1007/978-0-387-09823-4 36>.
[Wang, Storey e Firth 1995]WANG, R. Y.; STOREY, V. C.; FIRTH, C. P. A framework for
analysis of data quality research. IEEE Trans. on Knowl. and Data Eng., 1995. IEEE Educa-
tional Activities Department, Piscataway, NJ, USA, v. 7, n. 4, p. 623–640, ago. 1995. ISSN
1041-4347. Dispon´ıvel em: <http://dx.doi.org/10.1109/69.404034>.
[Zhu e Wu 2004]ZHU, X.; WU, X. Class noise vs. attribute noise: A quantitative study. Artifi-
cial Intelligence Review, 2004. Kluwer Academic Publishers, v. 22, n. 3, p. 177–210, 2004.
ISSN 0269-2821. Dispon´ıvel em: <http://dx.doi.org/10.1007/s10462-004-0751-8>.

Mais conteúdo relacionado

Mais procurados

Javascript
JavascriptJavascript
JavascriptTiago
 
Programacao gtk
Programacao gtkProgramacao gtk
Programacao gtkTiago
 
Monografia - Engenharia de software baseada em modelos um estudo sobre WebML ...
Monografia - Engenharia de software baseada em modelos um estudo sobre WebML ...Monografia - Engenharia de software baseada em modelos um estudo sobre WebML ...
Monografia - Engenharia de software baseada em modelos um estudo sobre WebML ...Gabriel Cabral
 
Modelagem de Base de Conhecimentos Baseada em Ontologia Estudo de Caso em Rec...
Modelagem de Base de Conhecimentos Baseada em Ontologia Estudo de Caso em Rec...Modelagem de Base de Conhecimentos Baseada em Ontologia Estudo de Caso em Rec...
Modelagem de Base de Conhecimentos Baseada em Ontologia Estudo de Caso em Rec...Vagner Nogueira
 
Modelagem e implementação de um sistema de arquivos distribuído baseado em DHT
Modelagem e implementação de um sistema de arquivos distribuído baseado em DHTModelagem e implementação de um sistema de arquivos distribuído baseado em DHT
Modelagem e implementação de um sistema de arquivos distribuído baseado em DHTFábio Serra
 
Um estudo de caso para a avaliação do Scrum sob a Óptica do MPS.BR Nível G
Um estudo de caso para a avaliação do Scrum sob a Óptica do MPS.BR Nível GUm estudo de caso para a avaliação do Scrum sob a Óptica do MPS.BR Nível G
Um estudo de caso para a avaliação do Scrum sob a Óptica do MPS.BR Nível GMarcos Vinícius Godinho
 
Programacao cpp
Programacao cppProgramacao cpp
Programacao cppTiago
 
Teoria de controle supervis rio
Teoria de controle supervis rioTeoria de controle supervis rio
Teoria de controle supervis rioEverton_michel
 
Manual Minitab pela Saldit Software
Manual Minitab pela Saldit SoftwareManual Minitab pela Saldit Software
Manual Minitab pela Saldit SoftwareSaldit Software
 
Apostila r gen melhor
Apostila r   gen melhorApostila r   gen melhor
Apostila r gen melhorGino Andrade
 
My sql
My sqlMy sql
My sqlTiago
 
Manipulando pacotes
Manipulando pacotesManipulando pacotes
Manipulando pacotesTiago
 
K19 k03-sql-e-modelo-relacional
K19 k03-sql-e-modelo-relacionalK19 k03-sql-e-modelo-relacional
K19 k03-sql-e-modelo-relacionalJean Lopes
 
De javaparapython
De javaparapythonDe javaparapython
De javaparapythonTiago
 

Mais procurados (20)

Javascript
JavascriptJavascript
Javascript
 
Linguagem C
Linguagem CLinguagem C
Linguagem C
 
Programacao gtk
Programacao gtkProgramacao gtk
Programacao gtk
 
Monografia - Engenharia de software baseada em modelos um estudo sobre WebML ...
Monografia - Engenharia de software baseada em modelos um estudo sobre WebML ...Monografia - Engenharia de software baseada em modelos um estudo sobre WebML ...
Monografia - Engenharia de software baseada em modelos um estudo sobre WebML ...
 
Modelagem de Base de Conhecimentos Baseada em Ontologia Estudo de Caso em Rec...
Modelagem de Base de Conhecimentos Baseada em Ontologia Estudo de Caso em Rec...Modelagem de Base de Conhecimentos Baseada em Ontologia Estudo de Caso em Rec...
Modelagem de Base de Conhecimentos Baseada em Ontologia Estudo de Caso em Rec...
 
Modelagem e implementação de um sistema de arquivos distribuído baseado em DHT
Modelagem e implementação de um sistema de arquivos distribuído baseado em DHTModelagem e implementação de um sistema de arquivos distribuído baseado em DHT
Modelagem e implementação de um sistema de arquivos distribuído baseado em DHT
 
Um estudo de caso para a avaliação do Scrum sob a Óptica do MPS.BR Nível G
Um estudo de caso para a avaliação do Scrum sob a Óptica do MPS.BR Nível GUm estudo de caso para a avaliação do Scrum sob a Óptica do MPS.BR Nível G
Um estudo de caso para a avaliação do Scrum sob a Óptica do MPS.BR Nível G
 
Tutorial de Uppaal
Tutorial de UppaalTutorial de Uppaal
Tutorial de Uppaal
 
Jdbc
JdbcJdbc
Jdbc
 
Estrutura de dados
Estrutura de dadosEstrutura de dados
Estrutura de dados
 
Programacao cpp
Programacao cppProgramacao cpp
Programacao cpp
 
Teoria de controle supervis rio
Teoria de controle supervis rioTeoria de controle supervis rio
Teoria de controle supervis rio
 
Apostila de Bioestatística
Apostila de BioestatísticaApostila de Bioestatística
Apostila de Bioestatística
 
Manual Minitab pela Saldit Software
Manual Minitab pela Saldit SoftwareManual Minitab pela Saldit Software
Manual Minitab pela Saldit Software
 
Apostila r gen melhor
Apostila r   gen melhorApostila r   gen melhor
Apostila r gen melhor
 
My sql
My sqlMy sql
My sql
 
Manipulando pacotes
Manipulando pacotesManipulando pacotes
Manipulando pacotes
 
Vim
VimVim
Vim
 
K19 k03-sql-e-modelo-relacional
K19 k03-sql-e-modelo-relacionalK19 k03-sql-e-modelo-relacional
K19 k03-sql-e-modelo-relacional
 
De javaparapython
De javaparapythonDe javaparapython
De javaparapython
 

Semelhante a Meta-aprendizado para classificação com ruído

Livro analise de dados amostrais complexos
Livro analise de dados amostrais complexosLivro analise de dados amostrais complexos
Livro analise de dados amostrais complexosDiogo Freire
 
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...Elaine Cecília Gatto
 
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...Elaine Cecília Gatto
 
Conceitos básicos de Software R
Conceitos básicos de Software RConceitos básicos de Software R
Conceitos básicos de Software RThais Amaral
 
Programação Orientada a Objetos com Java
Programação Orientada a Objetos com JavaProgramação Orientada a Objetos com Java
Programação Orientada a Objetos com JavaJooMarcos614503
 
Plano de projeto de software para o sistema MEA - monitoraemto de eventos ad...
Plano de projeto de software para o sistema  MEA - monitoraemto de eventos ad...Plano de projeto de software para o sistema  MEA - monitoraemto de eventos ad...
Plano de projeto de software para o sistema MEA - monitoraemto de eventos ad...Lucas Aquino
 
A cadeia de Markov na análise de convergência do algoritmo genético quando...
A cadeia de Markov na análise de convergência do algoritmo genético quando...A cadeia de Markov na análise de convergência do algoritmo genético quando...
A cadeia de Markov na análise de convergência do algoritmo genético quando...vcsouza
 
ESTRATÉGIA DE REAÇÃO EM CALL CENTER: UMA PROPOSTA DE ARQUITETURA
ESTRATÉGIA DE REAÇÃO EM CALL CENTER: UMA PROPOSTA DE ARQUITETURAESTRATÉGIA DE REAÇÃO EM CALL CENTER: UMA PROPOSTA DE ARQUITETURA
ESTRATÉGIA DE REAÇÃO EM CALL CENTER: UMA PROPOSTA DE ARQUITETURASabrina Mariana
 
Linguagem c
Linguagem cLinguagem c
Linguagem cTiago
 
Monografia fabiano rates
Monografia fabiano ratesMonografia fabiano rates
Monografia fabiano ratesFabiano Rates
 
Monografia sobre Inteligência artificial para comparar algoritmos de treiname...
Monografia sobre Inteligência artificial para comparar algoritmos de treiname...Monografia sobre Inteligência artificial para comparar algoritmos de treiname...
Monografia sobre Inteligência artificial para comparar algoritmos de treiname...Fabiano Rates
 

Semelhante a Meta-aprendizado para classificação com ruído (20)

Livro analise de dados amostrais complexos
Livro analise de dados amostrais complexosLivro analise de dados amostrais complexos
Livro analise de dados amostrais complexos
 
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
 
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
 
Conceitos básicos de Software R
Conceitos básicos de Software RConceitos básicos de Software R
Conceitos básicos de Software R
 
Poojava
PoojavaPoojava
Poojava
 
Programação Orientada a Objetos com Java
Programação Orientada a Objetos com JavaProgramação Orientada a Objetos com Java
Programação Orientada a Objetos com Java
 
Plano de projeto de software para o sistema MEA - monitoraemto de eventos ad...
Plano de projeto de software para o sistema  MEA - monitoraemto de eventos ad...Plano de projeto de software para o sistema  MEA - monitoraemto de eventos ad...
Plano de projeto de software para o sistema MEA - monitoraemto de eventos ad...
 
Tcc aop-e-persistencia
Tcc aop-e-persistenciaTcc aop-e-persistencia
Tcc aop-e-persistencia
 
A cadeia de Markov na análise de convergência do algoritmo genético quando...
A cadeia de Markov na análise de convergência do algoritmo genético quando...A cadeia de Markov na análise de convergência do algoritmo genético quando...
A cadeia de Markov na análise de convergência do algoritmo genético quando...
 
ESTRATÉGIA DE REAÇÃO EM CALL CENTER: UMA PROPOSTA DE ARQUITETURA
ESTRATÉGIA DE REAÇÃO EM CALL CENTER: UMA PROPOSTA DE ARQUITETURAESTRATÉGIA DE REAÇÃO EM CALL CENTER: UMA PROPOSTA DE ARQUITETURA
ESTRATÉGIA DE REAÇÃO EM CALL CENTER: UMA PROPOSTA DE ARQUITETURA
 
análise de falhas
análise de falhasanálise de falhas
análise de falhas
 
Taxonomias
TaxonomiasTaxonomias
Taxonomias
 
Linguagem c
Linguagem cLinguagem c
Linguagem c
 
Análise bayesiana de decisões aspectos práticos
Análise bayesiana de decisões   aspectos práticosAnálise bayesiana de decisões   aspectos práticos
Análise bayesiana de decisões aspectos práticos
 
Apostilando mysql
Apostilando mysqlApostilando mysql
Apostilando mysql
 
Monografia fabiano rates
Monografia fabiano ratesMonografia fabiano rates
Monografia fabiano rates
 
Monografia sobre Inteligência artificial para comparar algoritmos de treiname...
Monografia sobre Inteligência artificial para comparar algoritmos de treiname...Monografia sobre Inteligência artificial para comparar algoritmos de treiname...
Monografia sobre Inteligência artificial para comparar algoritmos de treiname...
 
Estruturas dados
Estruturas dadosEstruturas dados
Estruturas dados
 
Estruturas dados
Estruturas dadosEstruturas dados
Estruturas dados
 
Probatio
ProbatioProbatio
Probatio
 

Meta-aprendizado para classificação com ruído

  • 1. UNIVERSIDADE DE SÃO PAULO Instituto de Ciências Matemáticas e de Computação Recomendação de classificadores para conjuntos de dados com ruído utilizando meta-aprendizado André Luiz Catini Paro [Nome do Aluno]
  • 2. 1 Recomendação de algoritmos de classificação para conjuntos de dados com ruído utilizando meta-aprendizado André Luiz Catini Paro Orientador: André Carlos Ponce de Leon Ferreira de Carvalho Monografia de conclusão de curso apresentada ao Instituto de Ciências Matemáticas e de Computação – ICMC-USP - para obtenção do título de Bacharel em Ciências de Computação. Área de Concentração: Inteligência Computacional USP – São Carlos Novembro de 2014
  • 3. Dedicat´oria Dedico esse trabalho aos meus pais, por todo o apoio oferecido, suor derramado e valiosos ensinamentos que irei levar para a vida toda. Ao meu irm˜ao, que sempre foi e sempre ser´a o exemplo que eu sigo. E a minha irm˜a, guerreira e com um futuro brilhante. i
  • 4. ii
  • 5. Resumo A presenc¸a de ru´ıdo em conjuntos de dados pode influenciar de modo significativo a qualidade de induc¸˜ao, o tempo de processamento e a com- plexidade gerada na aplicac¸˜ao de algoritmos de Aprendizado de M´aquina. Medidas de complexidade focam na complexidade geom´etrica da distribuic¸˜ao das classes, assim, a presenc¸a de ru´ıdo nos conjuntos de dados afeta di- retamente nas medidas de complexidade desses conjuntos, tornando-as bons atributos para problemas de meta-aprendizado. Este trabalho inves- tida o uso de meta-aprendizado para a recomendac¸˜ao de classificadores mais robustos para quando os conjuntos de dados apresentam ru´ıdos em seus r´otulos. Diferentes formas para caracterizar conjuntos de dados tˆem sido propostas na literatura. Esse trabalho vai comparar como as medidas de complexidade influenciam na selec¸˜ao dos algoritmos mais adequados e em como a presenc¸a de ru´ıdo influencia nas mesmas. iii
  • 6. iv
  • 7. Sum´ario Lista de Tabelas vii Lista de Abreviaturas e Siglas ix 1 Introduc¸˜ao 1 1.1 Contextualizac¸˜ao e Motivac¸˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 Organizac¸˜ao da Monografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 M´etodos, T´ecnicas e Tecnologias Utilizadas 3 2.1 Considerac¸˜oes Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2 Meta-aprendizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2.1 Caracterizac¸˜ao de conjuntos de dados . . . . . . . . . . . . . . . . . . 3 2.2.2 Medidas de avaliac¸˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.2.3 Formas de sugest˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.2.4 Construc¸˜ao de sugest˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.3 Medidas de Complexidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.3.1 Medidas de sobreposic¸˜ao das caracter´ısticas de diferentes classes . . . 6 2.3.2 Medidas de Separabilidade da Classe . . . . . . . . . . . . . . . . . . 6 2.3.3 Medidas de Geometria, Topologia e Densidade de Manifolds . . . . . . 7 2.4 Ru´ıdo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.5 Considerac¸˜oes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3 Desenvolvimento do Trabalho 9 3.1 Considerac¸˜oes Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.2 Descric¸˜ao do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 v
  • 8. 3.3 Conjuntos de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3.4 Plataforma e Linguagem de Programac¸˜ao R . . . . . . . . . . . . . . . . . . . 10 3.4.1 Packages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.4.2 Vers˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.5 Descric¸˜ao das Atividades Realizadas . . . . . . . . . . . . . . . . . . . . . . . 11 3.5.1 Pr´e-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.5.2 Caracterizac¸˜ao dos conjuntos de dados . . . . . . . . . . . . . . . . . . 12 3.5.3 Construc¸˜ao da sugest˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.6 An´alise e Avaliac¸˜ao dos Resultados . . . . . . . . . . . . . . . . . . . . . . . 13 3.7 Dificuldades, Limitac¸˜oes e Trabalhos Futuros . . . . . . . . . . . . . . . . . . 15 3.8 Considerac¸˜oes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 4 Conclus˜ao 17 4.1 Contribuic¸˜oes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 4.2 Considerac¸˜oes sobre o Curso de Graduac¸˜ao . . . . . . . . . . . . . . . . . . . 18 Referˆencias 19 vi
  • 9. Lista de Tabelas 3.1 Tabela parcial dos meta-exemplos do conjunto de dados Iris . . . . . . . . . . . 13 3.2 MSE dos meta-regressores para o classificador SVM . . . . . . . . . . . . . . 14 3.3 MSE dos meta-regressores para o classificador RF . . . . . . . . . . . . . . . . 14 3.4 MSE dos meta-regressores para o classificador kNN . . . . . . . . . . . . . . . 15 3.5 MSE dos meta-regressores para o classificador Naive Bayes . . . . . . . . . . 15 vii
  • 10. viii
  • 11. Lista de Abreviaturas e Siglas AM: Aprendizado de M´aquina kNN: k-Nearest Neighbors MSE: Mean Squared Error RF: Random Forest SVM: Support Vector Machine ix
  • 12. x
  • 13. Cap´ıtulo 1 Introdu¸c˜ao 1.1 Contextualiza¸c˜ao e Motiva¸c˜ao A qualidade de um conjunto de dados do mundo real est´a ligada a diversos aspectos [Wang, Storey e Firth 1995], sendo a origem dos dados o fator cr´ıtico [Zhu e Wu 2004]. Ru´ıdos s˜ao dados que cont´em objetos que, aparentemente, n˜ao pertencem `a distribuic¸˜ao que gerou os dados analisados. S˜ao causados por erros nos processos de aquisic¸˜ao e medic¸˜ao, ou mesmo, devido contaminac¸˜ao de determinadas amostras [Barnett e Lewis 1994], e podem influenciar de modo significativo a qualidade da induc¸˜ao, o tempo de processamento e a complexidade gerada na aplicac¸˜ao de algoritmos de Aprendizado de M´aquina (AM) [Mitchell 1997]. Classificadores s˜ao algoritmos de AM preditivos que, dado um conjunto de exemplos rotu- lados, constr´oi um estimador (conjunto de regras). Assim, dado um exemplo n˜ao rotulado, o classificador atribui esse exemplo a uma das poss´ıveis classes do dom´ınio1 [Dietterich 1998]. Logo, a presenc¸a de ru´ıdo no conjunto de dados utilizado no treinamento de um classificador interfere diretamente na qualidade do estimador e, consequentemente, na sua acur´acia. Segundo [Brodley 1993], cada algoritmo de AM possu´ı uma ”superioridade seletiva”, ou seja, ele ´e melhor do que os outros em uma determinada ´area de competˆencia. Para cada pro- blema onde um algoritmo supera outro, existe uma outra ´area onde a situac¸˜ao oposta acontece. Assim, resolver um problema de classificac¸˜ao sem a ajuda de um especialista se torna uma ´ardua tarefa. Diferentes m´etodos de classificac¸˜ao devem ser aplicados ao problema e medidas de desempenho devem ser calculadas. At´e se obter resultados satisfat´orios, as configurac¸˜oes do 1Para problemas de classificac¸˜ao, o dom´ınio ´e um conjunto de valores nominais. 1
  • 14. 2 Cap´ıtulo 1. Introduc¸˜ao algoritmo, ou ele pr´oprio, devem ser alterados e novos experimentos devem ser realizados. A presenc¸a de ru´ıdo no conjunto de dados poderia n˜ao s´o influenciar negativamente no desempe- nho dos classificadores como tamb´em no tempo consumido por esse processo. A meta-aprendizagem foi introduzida com o intuito de auxiliar o usu´ario nesse processo, podendo fornecer um sistema de recomendac¸˜ao de algoritmos que tem como prop´osito reduzir a quantidade de algoritmos testados visando otimizar o tempo dispendido com experimentos, com uma m´ınima perda na qualidade dos resultados obtidos [Brazdil et al. 2009]. Meta-aprendizado ´e uma ´area de AM que estuda como os algoritmos de AM podem au- mentar sua eficiˆencia por meio da experiˆencia [Vilalta e Drissi 2002]. Isso geralmente ´e feito por m´etodos de caracterizac¸˜ao que buscam identificar e extrair propriedades presentes em um conjunto de dados e associ´a-las ao desempenho de algoritmos de AM. 1.2 Objetivos Este trabalho tem como objetivo investigar o uso de meta-aprendizado para a recomendac¸˜ao de classificadores mais robustos para quando os conjuntos de dados apresentam ru´ıdo em seus r´otulos. Diferentes formas para caracterizar conjuntos de dados tˆem sido propostas na literatura. Medidas de complexidade ser˜ao utilizadas na caracterizac¸˜ao dos conjuntos de dados e ser´a observado como a presenc¸a de ru´ıdo influencia nas mesmas. 1.3 Organiza¸c˜ao da Monografia Esta monografia est´a organizada como se segue: • No Cap´ıtulo 2 s˜ao apresentados os m´etodos, t´ecnicas e tecnologias utilizadas para o de- senvolvimento desse trabalho. • No Cap´ıtulo 3 ´e detalhado como se deu o desenvolvimento do trabalho. Nele o problema investigado ´e descrito e coment´arios s˜ao feitos sobre os conjuntos de dados utilizados e sobre a linguagem de programac¸˜ao escolhida. As atividades realizadas s˜ao descritas e os seus resultados apresentados. • Por fim, no Cap´ıtulo 4 s˜ao apresentadas as conclus˜oes sobre o trabalho desenvolvido e as suas contribuic¸˜oes, bem como algumas considerac¸˜oes sobre o Curso de Graduac¸˜ao.
  • 15. Cap´ıtulo 2 M´etodos, T´ecnicas e Tecnologias Utilizadas 2.1 Considera¸c˜oes Iniciais Neste Cap´ıtulo ser´a apresentado a revis˜ao bibliogr´afica, que inclui: uma breve descric¸˜ao de meta-aprendizado na Sec¸˜ao 2.2, definic¸˜ao das medidas de complexidade na Sec¸˜ao 2.3 e uma sucinta definic¸˜ao de ru´ıdo na Sec¸˜ao 2.4. Na Sec¸˜ao 2.5 s˜ao apresentadas as considerac¸˜oes finais. 2.2 Meta-aprendizado A meta-aprendizagem estuda como os algoritmos de AM podem aumentar sua eficiˆencia por meio da experiˆencia [Vilalta e Drissi 2002]. Dentre as aplicac¸˜oes mais comuns de meta-aprendizagem, tem-se o problema de gerar regras capazes de relacionar o desempenho de algoritmos de AM com as caracter´ısticas dos conjuntos de dados [Brazdil et al. 2009]. Assim, isso poderia ajudar na criac¸˜ao de sistemas que fornec¸am ao usu´ario sugest˜oes sobre qual algoritmo utilizar em determinadas situac¸˜oes. De acordo com [Kalousis 2002], tais sistemas podem ser estudados segundo quatro crit´erios: (1) caracterizac¸˜ao de conjuntos de dados, (2) medidas de avaliac¸˜ao, (3) formas de sugest˜ao e (4) m´etodos de construc¸˜ao de sugest˜ao. Esses crit´erios ser˜ao detalhados a seguir. 2.2.1 Caracteriza¸c˜ao de conjuntos de dados Caracterizar conjuntos de dados consiste em identificar e extrair propriedades desses conjun- tos que sejam bons preditores para a performance dos algoritmos de AM. Portanto, ´e necess´ario 3
  • 16. 4 Cap´ıtulo 2. M´etodos, T´ecnicas e Tecnologias Utilizadas calcular medidas que caracterizem os conjuntos de dados e que apresentem baixo custo com- putacional [Soares, Brazdil e Kuba 2004, p. 198]. Atualmente, a pesquisa em caracterizac¸˜ao concentra-se em trˆes ´areas [Vilalta, Giraud-Carrier e Brazdil 2010]: (1) caracterizac¸˜ao direta, (2) caracterizac¸˜ao baseada em landmarking e (3) caracterizac¸˜ao via modelos. Neste trabalho ser´a adotar uma nova abordagem de caracterizac¸˜ao. Os conjuntos de dados ser˜ao caracterizadas pelas suas medidas de complexidade e pela acur´acia de diferentes classifi- cadores, para diferentes taxas de ru´ıdo em sua classe. Os classificadores utilizados ser˜ao: Support Vector Machines (SVM) [Vapnik 1995], k- Nearest Neighbors (kNN) [Mitchell 1997], Random Forests (RF) [Breiman 2001] e Naive Bayes [Mitchell 1997]. As medidas de complexidade utilizadas ser˜ao abordadas em mais detalhes na Sec¸˜ao 2.3. 2.2.2 Medidas de avalia¸c˜ao Para determinar qual algoritmo de AM utilizar em um determinado problema, ´e necess´ario especificar as medidas de desempenho consideradas, para que uma lista de preferˆencia dos algoritmos possa ser estabelecida. Diversas medidas podem ser utilizadas em conjunto a fim de explorar v´arios aspectos do algoritmo. Neste trabalho, a medida de avaliac¸˜ao utilizada ser´a a acur´acia dos classificadores SVM, kNN, RF e Naive Bayes. 2.2.3 Formas de sugest˜ao De acordo com [Kalousis 2002], a recomendac¸˜ao de algoritmos para um dado problema do usu´ario ´e feita atrav´es de sugest˜oes em uma das seguintes formas: (1) uma lista dos algoritmos relevantes, (2) o melhor algoritmo e (3) um ranking de algoritmos. A primeira categoria indica, dentre os algoritmos de AM utilizados, o conjunto de algo- ritmos que apresentam melhor estimativa de desempenho, considerando tamb´em aqueles que n˜ao possuam desempenho estatisticamente inferior ao melhor [Peng et al. 2002]. A segunda categoria consiste em fornecer o melhor algoritmo que ir´a, supostamente, fornecer a melhor performance de acordo com o crit´erio de performance utilizado. Por fim, a terceira categoria exibe os algoritmos em ordem de preferˆencia. O crit´erio de ordenac¸˜ao pode ser uma medida simples como a acur´acia de classificadores ou medidas mais complexas que envolvem m´ultiplos objetivo. Este trabalho utilizar´a um ranking como forma de sugest˜ao e o m´etodo utilizado para a sua construc¸˜ao ser´a comentado a seguir.
  • 17. 2.3. Medidas de Complexidade 5 2.2.4 Constru¸c˜ao de sugest˜ao Em geral, um ranking representa uma func¸˜ao de preferˆencia sobre um conjunto de itens [Brazdil et al. 2009]. Neste trabalho, os itens s˜ao os algoritmos de AM utilizados para a classificac¸˜ao dos conjuntos de dados utilizados nos experimentos, enquanto a func¸˜ao de preferˆencia demons- tra o desempenho esperado desses algoritmos de forma que, se um algoritmo apresentar me- lhores resultados que outro, ele deve ser representado em posic¸˜ao mais alta no ranking. Dentre os paradigmas mais comuns para a realizac¸˜ao de tal tarefa, o ranking utilizado nesse traba- lho ser´a constru´ıdo atrav´es de regress˜ao. Essa abordagem tenta predizer o desempenho de cada algoritmo de AM e, posteriormente, arranjar tais predic¸˜oes para a construc¸˜ao do ranking dado o exemplo de teste. Para cada predic¸˜ao, o m´etodo utiliza uma t´ecnica de regress˜ao em uma abordagem conhecida como meta-regress˜ao [Brazdil et al. 2009]. Como meta-regressores ser˜ao utilizados os algoritmos SVM e RF. 2.3 Medidas de Complexidade A complexidade de problemas de classificac¸˜ao [Ho, Basu e Law 2006] ´e comumente atribu´ıda a trˆes principais fatores: (1) ambiguidade da classe, (2) complexidade da fronteira de decis˜ao e (3) dispers˜ao da amostra e dimensionalidade do espac¸o dos atributos. Ambiguidade da classe se refere a situac¸˜oes onde exemplos de diferentes classes n˜ao s˜ao distingu´ıveis pelos atributos do problema. Isso pode estar relacionado a baixa capacidade de que os atributos selecionados descrevam as caracter´ısticas que (1) pertenc¸am a diferentes classes (ou seja, os atributos do problema n˜ao s˜ao suficientes para descrever as caracter´ısticas) ou (2) pertenc¸am a classes que n˜ao s˜ao bem definidas ou possuam alguma relac¸˜ao entre elas (ou seja, exemplos que pertenc¸am a duas classes). Complexidade da fronteira de decis˜ao est´a relacionada a extens˜ao da descric¸˜ao necess´aria para descrever uma classe. Dado um exemplo completo, a complexidade de Kolmogorov [Kolmogorov 1968][Li e Vitnyi 2008] ´e definida como a extens˜ao do menor programa necess´ario para descrever a fronteira de decis˜ao da classe. No entanto, a complexidade de Kolmogorov ´e conhecida por ser incomput´avel [Maciejowski 1979]. Assim, outros estimadores foram conce- bidos para analisar a complexidade da classe, os quais, basicamente, extraem diferentes indica- dores geom´etricos do conjunto de dados. Por ´ultimo, a dispers˜ao da amostra e dimensionalidade do espac¸o dos atributos procura caracterizar a complexidade gerada pelas regi˜oes com exemplos dispersos no espac¸o dos atri- butos. Generalizac¸˜ao sobre espac¸os vazios do conjunto de dados de treinamento ´e em grande parte arbitr´aria e depende principalmente em como o classificador constr´oi seu modelo. Dentre as diferentes fontes de dificuldade dos problemas de classificac¸˜ao, a complexidade da fronteira de decis˜ao ´e uma das mais estudadas. Em particular, [Ho e Basu 2002] apresenta- ram um conjunto de medidas que extraem diferentes indicadores que caracterizam a aparente
  • 18. 6 Cap´ıtulo 2. M´etodos, T´ecnicas e Tecnologias Utilizadas complexidade geom´etrica da fronteira. Essas medidas podem ser divididas em trˆes categorias e ser˜ao definidas a seguir. 2.3.1 Medidas de sobreposi¸c˜ao das caracter´ısticas de diferentes clas- ses Essas medidas focam na capacidade das caracter´ısticas em separar exemplos de diferentes classes. Para cada atributo, elas examinam o alcance e propagac¸˜ao dos valores de exemplos de diferentes classes e verificam o poder discriminat´orio de um ´unico atributo ou uma combinac¸˜ao deles. • M´axima raz˜ao discriminante de Fisher (F1): calcula o poder discriminante m´aximo de cada atributo. Um alto valor da medida F1 indica que, pelo menos, um dos atributos permite que os exemplos de diferentes classes sejam separados em partic¸˜oes que sejam paralelas a um eixo no espac¸o de caracter´ısticas. Um baixo valor dessa medida n˜ao im- plica que as classes n˜ao sejam linearmente separ´aveis, mas sim que elas n˜ao podem ser discriminadas por hiper planos paralelos a um dos eixos do espac¸o de caracter´ısticas. • Vetor direcional da m´axima raz˜ao discriminante de Fisher (F1v): complementa a medida F1 ao procurar por um vetor orientado que pode separar os exemplos de duas classes diferentes. Assim, um alto valor dessa medida indica que existe um vetor que pode separar os exemplos pertencentes a diferentes classes ap´os essas instˆancias serem projetadas nele. • Volume da regi˜ao de sobreposic¸˜ao (F2): calcula a sobreposic¸˜ao da extremidade das distribuic¸˜oes definidas pelos exemplos de cada classe. Um baixo valor dessa medida significa que os atributos podem discriminar os exemplos de diferentes classes. • M´axima eficiˆencia caracter´ıstica (individual (F3): calcula o poder discriminativo de caracter´ısticas individuais e retorna o valor do atributo que pode discriminar o maior n´umero de conjuntos de treinamento. • Eficiˆencia caracter´ıstica coletiva (F4): segue a mesma ideia da medida F3, mas agora ´e considerado o poder discriminativo de todos os atributos (portanto, a eficiˆencia carac- ter´ıstica coletiva). A medida retorna a proporc¸˜ao de instˆancias que foram discriminadas. Assim, ela nos d´a uma ideia da frac¸˜ao de exemplos cuja classe poderia ser corretamente prevista pela construc¸˜ao de hiperplanos que s˜ao paralelos ao eixo no espac¸o caracter´ıstico. 2.3.2 Medidas de Separabilidade da Classe Medidas que examinam a forma das fronteiras das classes para estimar a complexidade da separac¸˜ao de instˆancias de diferentes classes.
  • 19. 2.3. Medidas de Complexidade 7 • Soma da distˆancia do erro minimizada por programac¸˜ao linear (L1): avalia at´e que ponto o conjunto de treinamento ´e linearmente separ´avel. Um valor dessa medida igual a zero indica que o problema ´e linearmente separ´avel. • Taxa de erro do classificador linear por programac¸˜ao linear (L2): taxa de erro do classificador linear utilizado por L1, calculada com o conjunto de treinamento. • Frac¸˜ao de pontos nos fronteira das classes (N1): retorna uma estimativa da extens˜ao da fronteira da classe. Altos valores indicam que a maioria dos exemplos se disp˜oe pr´oximos a fronteira de decis˜ao e, ent˜ao, pode ser mais dif´ıcil para que o algoritmo de aprendizado defina essa fronteira com precis˜ao. • Raz˜ao da distˆancia m´edia intra/inter do vizinho mais pr´oximo da classe (N2): com- para a propagac¸˜ao dentro da classe com as distˆancias para os vizinhos mais pr´oximos de outras classes. Baixos valores dessa medida sugerem que os exemplos de mesma classe est˜ao pr´oximos no espac¸o de caracter´ısticas. Altos valores indicam que os exemplos de mesma classe s˜ao dispersos. • Taxa de erro do leave-one-out do classificador vizinho mais pr´oximo (N3): indica o qu˜ao pr´oximo s˜ao os exemplos de diferentes classes. Ela retorna a taxa de erro da abordagem leave-one-out do classificador kNN (com k = 1). Valores baixos indicam que existe uma grande separac¸˜ao na fronteira da classe. 2.3.3 Medidas de Geometria, Topologia e Densidade de Manifolds Medidas que caracterizam indiretamente a separabilidade da classe ao assumir que a classe ´e feita de um ´unico ou m´ultiplos manifolds que apoiam a distribuic¸˜ao da classe. • N˜ao linearidade de um classificador linear (L3): implementa a medida de n˜ao lineari- dade proposta por [Hoekstra e Duin 1996]. • N˜ao linearidade do classificador vizinho mais pr´oximo (N4): cria um conjunto de teste como proposto em L3 e retorna o erro de teste do classificador k-Vizinhos mais pr´oximos (com k = 1). • Frac¸˜ao m´axima da cobertura de esferas (T1): foi originalmente proposta por [Frank e Hubert 1996], onde descreve a forma de manifolds de classe com o conceito de ades˜ao de subconjunto. • N´umero m´edio de exemplos por dimens˜ao (T2): simples raz˜ao do n´umero m´edio de exemplos presentes na base de dados sobre as dimens˜oes das caracter´ısticas (quantidade de exemplos por quantidade de atributos).
  • 20. 8 Cap´ıtulo 2. M´etodos, T´ecnicas e Tecnologias Utilizadas 2.4 Ru´ıdo Ru´ıdo pode ser definido como uma variˆancia ou erro aleat´orio no valor gerado ou medido para um atributo [Quinlan 1986]. Dados com ru´ıdos s˜ao dados que contˆem objetos que, aparentemente, n˜ao pertencem `a distribuic¸˜ao que gerou os dados analisados, podendo influenciar de modo significativo a quali- dade da induc¸˜ao, o tempo de processamento e a complexidade gerada na aplicac¸˜ao de algoritmos de AM. Neste trabalho, ser´a inserido ru´ıdo de classe (exemplos com r´otulos incorretos) de forma aleat´oria e controlada nos conjuntos de dados a fim de observar sua influˆencia sobre as medidas de complexidade e sobe o desempenho dos algoritmo de AM que comp˜oe o problema de meta- aprendizado aqui investigado. 2.5 Considera¸c˜oes Finais Neste cap´ıtulo foi abordado inicialmente os conceitos de meta-aprendizado e suas particu- laridades para este trabalho; na sequˆencia foram definidas as medidas de complexidade que comp˜oe o problema de meta-aprendizado e, por ´ultimo, ru´ıdo foi brevemente abordado e co- mentado sobre como ele est´a inserido no contexto desse trabalho. No pr´oximo cap´ıtulo ser´a apresentado o trabalho desenvolvido, detalhando o problema in- vestigado e a metodologia utilizada para a conduc¸˜ao dos experimentos, al´em dos desafios en- contrados.
  • 21. Cap´ıtulo 3 Desenvolvimento do Trabalho 3.1 Considera¸c˜oes Iniciais Neste Cap´ıtulo, apresenta-se inicialmente na Sec¸˜ao 3.2 a descric¸˜ao do problema estudado nesse trabalho. A seguir, nas Sec¸˜oes 3.3 e 3.4, os conjuntos de dados e a linguagem de programac¸˜ao escolhida para a realizac¸˜ao dos experimentos s˜ao abordados. Por fim, na Sec¸˜ao 3.5 ´e descrito as atividades realizadas e os resultados obtidos s˜ao apresentados na Sec¸˜ao 3.6. 3.2 Descri¸c˜ao do Problema Visto que a presenc¸a de ru´ıdo em conjuntos de dados podem influenciar de modo significa- tivo a qualidade da induc¸˜ao, o tempo de processamento e a complexidade gerada na aplicac¸˜ao de algoritmos de AM, em um problema de classificac¸˜ao a meta-aprendizagem tem como intuito auxiliar o usu´ario na escolha do algoritmo de classificac¸˜ao mais robusto para o seu problema. Os experimentos desse trabalho foram divididos em duas etapas: etapa de n´ıvel base e etapa de n´ıvel meta. Elas s˜ao descritas a seguir. Na etapa de n´ıvel base, inicialmente ocorre o pr´e-processamento dos conjuntos de dados utilizados, onde ´e feito o preenchimento dos valores faltantes dos atributos e a binarizac¸˜ao dos atributos nominais. Logo ap´os, o r´otulo dos conjuntos de treinamento s˜ao polu´ıdos de forma aleat´oria com diferentes margens de ru´ıdo, as suas medidas e complexidade s˜ao calculadas e, ent˜ao, os algoritmos SVM, RF, kNN e Naive Bayes ser˜ao treinados como classificadores. Por fim, a acur´acia dos classificadores ´e calculada utilizando os conjuntos de teste. 9
  • 22. 10 Cap´ıtulo 3. Desenvolvimento do Trabalho Na etapa de n´ıvel meta, os dados obtidos na primeira etapa ir˜ao ser usados como meta- exemplos para o problema de meta-aprendizagem. Os meta-exemplos ser˜ao divididos aleatoria- mente entre conjunto de treinamento e conjunto de teste. Agora, os algoritmos SVM e RF ser˜ao treinados como regressores utilizando o conjunto de treinamento, tendo como meta-atributos de entrada as medidas de complexidade e como meta-atributo alvo a acur´acia dos classificadores. Ser´a gerado um meta-modelo diferente para cada um dos classificadores utilizados. Finalmente, o desempenho dos meta-regressores ser´a avaliado utilizando o conjunto de teste e obtendo o erro m´edio quadr´atico (MSE - Mean Squared Error) entre o valor predito pelo meta-modelo e o real valor do meta-atributo alvo. Caso seja constatado que os meta-regressores aprenderam, ou seja, se seus respectivos MSEs forem menores do que os definidos como default, a sugest˜ao seria feita ao usu´ario conforme descrito na Sec¸˜ao 2.2.3, ou seja, cada um dos meta-regressores apresentariam os prov´aveis classificadores mais robustos para o problema, sendo ordenados pela sua acur´acia predita. 3.3 Conjuntos de dados Os dados utilizados nesse trabalho fazem parte de uma colec¸˜ao de bases de dados do Repo- sit´orio de Aprendizado de M´aquina na Universidade da Calif´ornia em Irving (UCI). Elas s˜ao comumente utilizadas pela comunidade de aprendizado de m´aquina para an´alise emp´ırica de algoritmos de AM. O reposit´orio pode ser acessado em http://archive.ics.uci.edu/ml/. Foram utilizadas ao todo 66 conjuntos de dados, cada um com diferentes n´umeros de exem- plos, atributos e classes. ´E importante ressaltar a necessidade de uma grande quantidade de dados para que os algoritmos de meta-aprendizado possam gerar regras mais exatas para a su- gest˜ao dos m´etodos de classificac¸˜ao. 3.4 Plataforma e Linguagem de Programa¸c˜ao R R ´e tanto uma linguagem orientada a objetos como um ambiente de desenvolvimento es- tat´ıstico e gr´afico. ´E um projeto GNU e foi desenvolvido no Bell Laboratories por John Chambers e seus colegas [R Core Team 2014]. Est´a dispon´ıvel de forma gratuita e open source (c´odigo aberto) sob os termos da Licenc¸a P´ublica Geral da Fundac¸˜ao de Software Livre GNU. R fornece uma ampla variedade de t´ecnicas estat´ısticas (modelagem linear e n˜ao linear, testes estat´ısticos cl´assicos, classificac¸˜ao, clusterizac¸˜ao etc.) e gr´aficas, e ´e altamente extens´ıvel atrav´es de packages. Oferece facilidades em sua sintaxe e no tratamento de grandes volumes de dados, tendo grande utilizac¸˜ao em sistemas de apoio a decis˜ao e `a an´alise de dados.
  • 23. 3.5. Descric¸˜ao das Atividades Realizadas 11 3.4.1 Packages Embora o conjunto de ferramentas que vem como padr˜ao no R s˜ao um tanto quanto pode- rosas, o trabalho envolve o uso de func¸˜oes que n˜ao est˜ao dispon´ıveis por padr˜ao. ´E necess´ario, ent˜ao, a utilizac¸˜ao de sete packages adicionais. S˜ao eles: • ape: Package com func¸˜oes de an´alise e manipulac¸˜ao de dados; • e1071: Package com func¸˜oes dedicadas ao SVM; • modeest: Package com func¸˜oes de c´alculo de moda estat´ıstica; • randomForest: Package com func¸˜oes de classificac¸˜ao e regress˜ao para florestas (estrutura de dados); • rpart: Package com func¸˜oes dedicadas a ´Arvores de Decis˜ao (AD); • RWeka: Package com func¸˜oes de intermediac¸˜ao entre a plataforma R e a plataforma Weka; • ggplot2: Package com func¸˜oes para plotar boxplots. 3.4.2 Vers˜ao A plataforma de desenvolvimento R lanc¸a periodicamente novas vers˜oes com novas funci- onalidades e correc¸˜oes de erros e se encontra atualmente na vers˜ao 3.1.2. Neste trabalho foi utilizada a vers˜ao 3.1.1, sendo compilada para a plataforma Linux. 3.5 Descri¸c˜ao das Atividades Realizadas 3.5.1 Pr´e-processamento A primeira parte do experimento se deu pelo pr´e-processamento dos conjuntos de dados. Para cada exemplo, foi verificado se ele estava completo, ou seja, se todos os seus atributos es- tavam preenchidos ou n˜ao. Os valores faltantes de atributos num´ericos foram preenchidos com a m´edia do atributo utilizando os exemplos de mesmo r´otulo e os valores faltantes de atributos nominais foram preenchidos com a primeira moda (primeiro valor que esta mais presente com um conjunto de valores), tamb´em calculada com os exemplos de mesmo r´otulo. Ap´os todos os exemplos estarem completos, foi feita a binarizac¸˜ao dos atributos nominais seguindo a codificac¸˜ao 1-de-c, onde cada valor nominai ´e codificado por uma sequˆencia de c bits, em que c ´e igual ao n´umero de poss´ıveis valores ou categorias. Cada posic¸˜ao da sequˆencia se torna um novo atributo que, se for preenchido com 1 significa a presenc¸a do valor nominal
  • 24. 12 Cap´ıtulo 3. Desenvolvimento do Trabalho correspondente `aquele bit e 0 a falta de tal valor. Os conjuntos de dados tratadas ser˜ao os utilizadas no decorrer do experimento. 3.5.2 Caracteriza¸c˜ao dos conjuntos de dados Utilizando os conjuntos de dados j´a tratados, deu-se inicio a caracterizac¸˜ao dos mesmo. Foram definidas 4 taxas para a inserc¸˜ao de ru´ıdo de forma controlada nos conjuntos de dados, de 5%, 10%, 20% e 40%. Ainda, a fim de obter uma estimativa confi´avel das medidas de complexidade e dos classificadores sobre o conjunto de treinamento, foi utilizada a variante stratified do m´etodo Cross-Validation, em que os exemplos s˜ao divididos aleatoriamente em k partic¸˜oes mutuamente exclusivas de tamanho aproximadamente igual, mantendo a mesma proporc¸˜ao das classes em cada uma das partic¸˜oes. Das k partic¸˜oes, k − 1 s˜ao utilizadas como conjunto de treinamento e a restante como conjunto de teste. O processo ´e repetido k vezes, em cada uma intercalando a partic¸˜ao utilizada como conjunto de teste. Por fim, como sugerido por [Mitchell 1997], k ´e fixo valendo 10. Assim, para cada taxa de ru´ıdo e para cada partic¸˜ao, o respectivo conjunto de treinamento ´e polu´ıdo. O processo de poluic¸˜ao consiste em escolher aleatoriamente exemplos de acordo com a taxa de ru´ıdo a ser aplicada e alterar o seu r´otulo para uma outra classe do dom´ınio, tamb´em de forma aleat´oria. A seguir, as medidas de complexidade apresentadas na Sec¸˜ao 2.3 s˜ao computadas e ´e obtido a acur´acia dos classificadores SVM, RF, kNN e Naive Bayes. A m´edia dos valores obtidos pelas 10 partic¸˜oes ir´a constituir um meta-exemplo. Essa metodologia ser´a aplicada 10 vezes (´epocas), havendo assim uma maior variedade de meta-exemplos para o problema de meta-aprendizado. Esse processo ´e repetido para cada um dos 66 conjuntos de dados utilizados no experimento e os valores s˜ao armazenados e combinados, criando uma matriz com 2640 meta-exemplos (40 meta-exemplos de cada um dos 66 conjuntos de dados) e 18 meta-atributos (14 medidas de complexidade e a acur´acia dos 4 classificadores). 3.5.3 Constru¸c˜ao da sugest˜ao Agora, os meta-regressores ser˜ao treinados utilizando as medidas de complexidade como meta-atributos de entrada e a acur´acia de cada classificador como meta-atributo alvo. Escolhe-se aleatoriamente os meta-exemplos de 33 conjuntos de dados para compor o con- junto de treinamento e os meta-exemplos dos outros 33 conjuntos de dados restantes para com- por o conjunto de teste. Para cada um dos 4 classificadores, os meta-regressores SVM e RF ser˜ao treinados com o conjunto de treinamento. Na sequˆencia, utiliza-se o conjunto de teste e obtˆem-se o MSE entre o valor predito pelos meta-modelos e o real valor do meta-atributo alvo. A fim de analisar se os meta-regressores ir˜ao aprender, foi definido como valor default o MSE entre o conjunto de treinamento e o conjunto de teste. Esse procedimento ser´a realizado
  • 25. 3.6. An´alise e Avaliac¸˜ao dos Resultados 13 5 vezes, sempre escolhendo os meta-exemplos de conjuntos de dados aleat´orios. Finalmente, ´e calculado a m´edia e o desvio padr˜ao desses valores obtidos. 3.6 An´alise e Avalia¸c˜ao dos Resultados Na etapa de n´ıvel base foram obtidos os 2640 meta-exemplos, 40 de cada um dos 66 con- juntos de dados utilizados. Cada meta-exemplo ´e constitu´ıdo por 14 medidas de complexidade (F1, F1v, F2, F3, F4, L1, L2, N1, N2, N3, L3, N4, T1 e T2) e pela acur´acia de 4 classificadores (SVM, RF, kNN e Naive Bayes), somando no total 18 meta-atributos. Cada meta-exemplo foi obtido como descrito na Sec¸˜ao 3.5. A fim de verificar a influˆencia da presenc¸a de ru´ıdo nos conjuntos de dados, a tabela 3.1 a se- guir ilustra parcialmente os meta-exemplos obtidos para o conjunto de dados Iris [Fisher 1936] [Anderson 1936][Bache e Lichman 2013], amplamente utilizado e estudado pela comunidade de AM. A tabela apresenta 12 meta-exemplos selecionados aleatoriamente, 3 para cada uma das taxas de ru´ıdo, e alguns de seus meta-atributos: as medidas de complexidade F1, F2, L1 e N1 e a acur´acia dos classificadores SVM, RF, kNN e Naive Bayes. Tabela 3.1: Tabela parcial dos meta-exemplos do conjunto de dados Iris Ru´ıdo (%) F1 F2 L1 N1 SVM RF kNN Naive Bayes 5 4.4880 0.6759 0.6619 0.1836 0.9000 0.9600 0.9467 0.9400 5.3018 0.5093 0.6619 0.2090 0.9000 0.9600 0.9400 0.9400 6.7498 0.2918 0.6594 0.2326 0.9000 0.9400 0.9067 0.9467 10 2.2123 1.0153 0.6619 0.3674 0.8867 0.9600 0.8733 0.9333 3.0333 0.6110 0.6596 0.3298 0.8867 0.9467 0.8667 0.9000 2.2618 0.6193 0.6621 0.3202 0.8933 0.9267 0.8267 0.9333 20 0.7391 0.9419 0.6662 0.5415 0.8733 0.8867 0.7067 0.9067 1.4639 1.0325 0.6608 0.5031 0.9067 0.8867 0.7933 0.9067 0.8689 1.3853 0.6635 0.4824 0.8400 0.8733 0.7467 0.8933 40 0.1478 1.7567 0.6668 0.7785 0.8200 0.7067 0.5867 0.8600 0.1577 1.7154 0.6668 0.7747 0.6200 0.7400 0.5467 0.8467 0.1865 1.6923 0.6669 0.7186 0.6200 0.7400 0.6533 0.8667 Analisando a tabela 3.1, conforme a taxa de ru´ıdo aumenta, observa-se que as medidas de complexidade se comportam conforme o esperado. F1 diminui e F2 aumenta, indicando uma maior dificuldade na hora de discriminar exemplos de diferentes classes. L1 avalia at´e que ponto o conjunto de treinamento ´e linearmente separ´avel. Iris possu´ı 3 classes e sabe-se que uma delas ´e linearmente separ´avel entre as outras duas, e essas ´ultimas n˜ao s˜ao linearmente separ´aveis entre si. Assim, o valor aproximado de 0.6666 (2/3) demonstra essa proporc¸˜ao, j´a que que um
  • 26. 14 Cap´ıtulo 3. Desenvolvimento do Trabalho valor de L1 igual a zero indica que o problema todo ´e linearmente separ´avel. A proporc¸˜ao permanece quase que constante para todos os meta-exemplos pois a proporc¸˜ao das classes ´e mantida em cada partic¸˜ao gerada pelo Stratified Cross-Validation. N1, por sua vez, aumenta, indicando que os exemplos passam a se dispor pr´oximos a fronteira de decis˜ao, dificultando o processo de aprendizado dos classificadores. Finalmente, observa-se a diminuic¸˜ao da acur´acia de todos os classificadores. Na etapa de n´ıvel meta, os meta-exemplos foram utilizados para treinar os meta-regressores (SVM e RF) e os erros m´edios quadr´aticos (MSE) foram obtidos como descrito na Sec¸˜ao 3.5. Esses ´ultimos resultados ser˜ao apresentados a seguir pelas tabelas 3.1, 3.2, 3.3 e 3.4, correspon- dentes aos classificadores SVM, RF, kNN e Naive Bayes, respectivamente. Tabela 3.2: MSE dos meta-regressores para o classificador SVM SVM SVM RF Default 0.009665424 0.008600093 0.04359567 0.013850826 0.013658909 0.03645777 0.017134119 0.015665853 0.05037359 0.012212296 0.020608762 0.03551171 0.013947434 0.011900755 0.03685851 M´edia 0.013362020 0.014086874 0.04055945 ±0.002729334 ±0.004474797 ±0.00635485 Tabela 3.3: MSE dos meta-regressores para o classificador RF RF SVM RF Default 0.009721490 0.007777503 0.04197527 0.007604030 0.009068580 0.04723513 0.012383102 0.010551548 0.04092741 0.011968106 0.017883694 0.04885817 0.010679087 0.010086180 0.03955703 M´edia 0.010471163 0.011073501 0.04371060 ±0.001918465 ±0.003953140 ±0.00409052 Observa-se que todos os valores obtidos pelos meta-regressores para todos os classificadores foram inferiores aos valores definidos como default. Ainda, os meta-regressores obtiveram valores pr´oximos. Foi destacado nas tabelas as menores m´edias, indicando qual meta-regressor
  • 27. 3.7. Dificuldades, Limitac¸˜oes e Trabalhos Futuros 15 Tabela 3.4: MSE dos meta-regressores para o classificador kNN kNN SVM RF Default 0.006958310 0.005227959 0.036860490 0.007085594 0.005234534 0.041521542 0.010144090 0.009028691 0.039337285 0.009347170 0.009262828 0.044723213 0.008662719 0.005266856 0.036267609 M´edia 0.008439577 0.006804174 0.039742028 ±0.001396988 ±0.002139219 ±0.003482727 Tabela 3.5: MSE dos meta-regressores para o classificador Naive Bayes Naive Bayes SVM RF Default 0.028247735 0.016963759 0.07444598 0.032274653 0.016817546 0.05800814 0.037164569 0.021094768 0.08102008 0.037379141 0.025697520 0.07850134 0.033965232 0.015823232 0.05620430 M´edia 0.033806266 0.019279365 0.06963597 ±0.003785235 ±0.004118733 ±0.01169343 teve o melhor desempenho para cada um dos classificadores investigados. O meta-regressor SVM teve um melhor resultado para os classificadores SVM e RF e o meta-regressor RF para os classificadores kNN e Naive Bayes. 3.7 Dificuldades, Limita¸c˜oes e Trabalhos Futuros A correlac¸˜ao entre diversas ´areas de AM em um mesmo problema se torna um grande desa- fio, necessitando comprometimento e estudo sobre diversos temas e metodologias. O alto custo computacional dos algoritmos de AM, especialmente quando utilizadas em conjuntos de dados extensos, se demonstra um fator limitante, necessitando alto poder computacional. Como trabalhos futuros, tem-se a possibilidade de aprimorar a construc¸˜ao da sugest˜ao a partir da combinac¸˜ao de outras medidas padr˜oes para problemas de meta-aprendizado, como as do conjunto STATLOG [King, Feng e Sutherland 1995]. Ainda, seria interessante avaliar os rankings sugeridos utilizando o coeficiente de Spearman, uma medida padr˜ao de desempenho
  • 28. 16 Cap´ıtulo 3. Desenvolvimento do Trabalho que ´e aplicada sobre o ranking ideal atribu´ıdo a um meta-exemplo e o ranking constru´ıdo, a fim de determinar a acur´acia da predic¸˜ao realizada. 3.8 Considera¸c˜oes Finais Este Cap´ıtulo teve inicio com a descric¸˜ao do problema. Em seguida, considerac¸˜oes sobre os conjuntos de dados utilizados foram feitas e linguagem de programac¸˜ao R, escolhida para a realizac¸˜ao dos experimentos, foi abordada. Foi feita ent˜ao a descric¸˜ao das atividades realiza- das, as quais foram divididas em: pr´e-processamento, caracterizac¸˜ao dos conjuntos de dados e construc¸˜ao da sugest˜ao. O Cap´ıtulo foi encerrado com a apresentac¸˜ao dos resultados obtidos nos experimentos. No pr´oximo e ´ultimo Cap´ıtulo, s˜ao apresentadas as conclus˜oes do trabalho desenvolvido, as contribuic¸˜oes obtidas e as considerac¸˜oes sobre o Curso de Graduac¸˜ao.
  • 29. Cap´ıtulo 4 Conclus˜ao Esse trabalho investigou o uso de meta-aprendizado com a finalidade de recomendar classi- ficadores mais robustos para quando os conjuntos de dados apresentam ru´ıdos em seus r´otulos. Isso foi poss´ıvel ao utilizar medidas de complexidade e acur´acia de classificadores como meta- atributos para o problema de meta-aprendizagem. Conjuntos de dados tiveram os seus r´otulos polu´ıdos artificialmente com diferentes taxas de ru´ıdo. Ent˜ao, as medidas de complexidade desses conjuntos foram calculadas e a acur´acia de diferentes classificadores foi obtida a fim de caracterizar o conjunto de dados atrav´es de meta-exemplos. A meta-aprendizagem foi realizada pelos meta-regressores e a sua efic´acia foi avaliada utilizando o erro m´edio quadr´atico. Ap´os a construc¸˜ao dos meta-exemplos, pode-se observar de forma clara os efeitos causados pela presenc¸a de ru´ıdo nos conjuntos de dados. Isso reforc¸a ainda mais a necessidade de um sistema que auxilie o usu´ario a resolver problemas de classificac¸˜ao de uma forma mais eficiente para quando os conjuntos de dados apresentam ru´ıdo. A proposta de meta-aprendizagem estudada neste trabalho se mostrou eficaz. Os meta- regressores utilizados, Support Vector Machines e Random Forest, mostraram-se igualmente eficientes ao apresentarem valores pr´oximos. Mais importante ainda, observa-se que os MSEs obtidos s˜ao todos menores do que aqueles definidos como default, podendo, assim, concluir que o sistema de sugest˜ao aprendeu. 17
  • 30. 18 Cap´ıtulo 4. Conclus˜ao 4.1 Contribui¸c˜oes Partindo da ideologia das t´ecnicas de meta-aprendizado, a principal contribuic¸˜ao desse tra- balho ´e para com os usu´arios que desejam resolver problemas de classificac¸˜ao em conjuntos de dados que apresentam ru´ıdo em seus r´otulos, principalmente os do mundo real, que possuem uma maior probabilidade de apresentarem tais ru´ıdos. Como profissional, eu destaco a experiˆencia adquirida por todo esse processo de aprendi- zado e aplicac¸˜ao de ideias em ˆambito acadˆemico. Aplicar os conhecimentos adquiridos durante essa jornada e poder observar os resultados obtidos, tanto os significantes quanto os n˜ao signi- ficantes, ´e gratificante. 4.2 Considera¸c˜oes sobre o Curso de Gradua¸c˜ao Sempre me foi dito que os 5 anos de graduac¸˜ao passariam r´apido. E passaram. O curso de Bacharelado em Ciˆencias de Computac¸˜ao da USP de S˜ao Carlos me forneceu uma ´otima base te´orica e pr´atica, o que penso ser essencial para todo Cientista da Computac¸˜ao. O ambiente que a universidade proporciona, tanto no ˆambito acadˆemico quanto social, estimu- lam o surgimento de ideias e tamb´em o desejo de estar constantemente aprendendo. Entretanto, apesar do curso ter diversas ˆenfases que podem ser seguidas, pouco ´e comen- tado sobre as mesmas e h´a pouca interac¸˜ao entre as mat´erias de uma mesma ˆenfase. Acredito que a diminuic¸˜ao do n´umero de ˆenfases e uma melhor estruturac¸˜ao desse conceito ir´a formar profissionais com uma s´olida base em Computac¸˜ao e especialista numa ´area de sua escolha. No mais, estou terminando essa jornada satisfeito com a minha formac¸˜ao e me sentindo preparado para a pr´oxima etapa, seja ela qual for.
  • 31. Referˆencias [Anderson 1936]ANDERSON, E. The species problem in iris. Annals of the Missouri Botanical Garden, 1936. v. 23, p. 457–509, 1936. Dispon´ıvel em: <http://biostor.org/reference/11559>. [Bache e Lichman 2013]BACHE, K.; LICHMAN, M. UCI Machine Learning Repository. 2013. Dispon´ıvel em: <http://archive.ics.uci.edu/ml>. [Barnett e Lewis 1994]BARNETT, V.; LEWIS, T. Outiliers in Statistical Data. 3. ed. [S.l.]: Wiley-Blackwell, 1994. ISBN 0471930946, 978-0471930945. [Brazdil et al. 2009]BRAZDIL, P. et al. Metalearning. Springer Berlin Heidel- berg, 2009. (Cognitive Technologies). ISBN 978-3-540-73262-4. Dispon´ıvel em: <http://dx.doi.org/10.1007/978-3-540-73263-1 1>. [Breiman 2001]BREIMAN, L. Random forests. Machine Learning, 2001. Kluwer Aca- demic Publishers, v. 45, n. 1, p. 5–32, 2001. ISSN 0885-6125. Dispon´ıvel em: <http://dx.doi.org/10.1023/A%3A1010933404324>. [Brodley 1993]BRODLEY, C. E. Addressing the Selective Superiority Problem: Automatic Al- gorithm/Model Class Selection. In: International Conference on Machine Learning. [S.l.: s.n.], 1993. [Dietterich 1998]DIETTERICH, T. G. Approximate statistical tests for comparing super- vised classification learning algorithms. Neural Comput., 1998. MIT Press, Cambridge, MA, USA, v. 10, n. 7, p. 1895–1923, out. 1998. ISSN 0899-7667. Dispon´ıvel em: <http://dx.doi.org/10.1162/089976698300017197>. [Fisher 1936]FISHER, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics, 1936. Blackwell Publishing Ltd, v. 7, n. 2, p. 179–188, 1936. ISSN 2050-1439. Dispon´ıvel em: <http://dx.doi.org/10.1111/j.1469-1809.1936.tb02137.x>. 19
  • 32. 20 REFER ˆENCIAS [Frank e Hubert 1996]FRANK, L.; HUBERT, E. Pretopological approach for supervised lear- ning. In: Pattern Recognition, 1996., Proceedings of the 13th International Conference on. [S.l.: s.n.], 1996. v. 4, p. 256–260 vol.4. ISSN 1051-4651. [Ho, Basu e Law 2006]HO, T.; BASU, M.; LAW, M. Measures of geometrical complexity in classification problems. In: BASU, M.; HO, T. (Ed.). Data Complexity in Pattern Recognition. Springer London, 2006, (Advanced Information and Knowledge Processing). p. 1–23. ISBN 978-1-84628-171-6. Dispon´ıvel em: <http://dx.doi.org/10.1007/978-1-84628-172-3 1>. [Ho e Basu 2002]HO, T. K.; BASU, M. Complexity measures of supervised classification pro- blems. IEEE Trans. Pattern Anal. Mach. Intell., 2002. IEEE Computer Society, Washing- ton, DC, USA, v. 24, n. 3, p. 289–300, mar. 2002. ISSN 0162-8828. Dispon´ıvel em: <http://dx.doi.org/10.1109/34.990132>. [Hoekstra e Duin 1996]HOEKSTRA, A.; DUIN, R. On the nonlinearity of pattern classifiers. In: Pattern Recognition, 1996., Proceedings of the 13th International Conference on. [S.l.: s.n.], 1996. v. 4, p. 271–275 vol.4. ISSN 1051-4651. [Kalousis 2002]KALOUSIS, A. Algorithm Selection via Meta-Learning. Tese (Doutorado) — Universit´e de Gen`eve, 2002. [King, Feng e Sutherland 1995]KING, R. D.; FENG, C.; SUTHERLAND, A. Statlog: Com- parison of classification algorithms on large real-world problems. Applied Artificial In- telligence, 1995. Taylor & Francis, v. 9, n. 3, p. 289–333, 1995. Dispon´ıvel em: <http://dx.doi.org/10.1080/08839519508945477>. [Kolmogorov 1968]KOLMOGOROV, A. N. Three approaches to the quantitative definition of information. International Journal of Computer Mathematics, 1968. v. 2, n. 1-4, p. 157–168, 1968. Dispon´ıvel em: <http://dx.doi.org/10.1080/00207166808803030>. [Li e Vitnyi 2008]LI, M.; VITNYI, P. M. An Introduction to Kolmogorov Complexity and Its Applications. 3. ed. [S.l.]: Springer Publishing Company, Incorporated, 2008. ISBN 0387339981, 9780387339986. [Maciejowski 1979]MACIEJOWSKI, J. M. Model discrimination using an algorithmic infor- mation criterion. Automatica, 1979. Pergamon Press, Inc., Tarrytown, NY, USA, v. 15, n. 5, p. 579–593, set. 1979. ISSN 0005-1098. Dispon´ıvel em: <http://dx.doi.org/10.1016/0005- 1098(79)90006-2>. [Mitchell 1997]MITCHELL, T. M. Machine Learning. 1. ed. New York, NY, USA: McGraw- Hill, Inc., 1997. ISBN 0070428077, 9780070428072. [Peng et al. 2002]PENG, Y. et al. Improved dataset characterisation for meta-learning. In: LANGE, S.; SATOH, K.; SMITH, C. (Ed.). Discovery Science. Springer Berlin Heidelberg,
  • 33. REFER ˆENCIAS 21 2002, (Lecture Notes in Computer Science, v. 2534). p. 141–152. ISBN 978-3-540-00188-1. Dispon´ıvel em: <http://dx.doi.org/10.1007/3-540-36182-0 14>. [Quinlan 1986]QUINLAN, J. R. Induction of decision trees. Mach. Learn., 1986. Kluwer Aca- demic Publishers, Hingham, MA, USA, v. 1, n. 1, p. 81–106, mar. 1986. ISSN 0885-6125. Dispon´ıvel em: <http://dx.doi.org/10.1023/A:1022643204877>. [R Core Team 2014]R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria, 2014. Dispon´ıvel em: <http://www.R-project.org/>. [Soares, Brazdil e Kuba 2004]SOARES, C.; BRAZDIL, P.; KUBA, P. A meta-learning method to select the kernel width in support vector regression. Machine Learning, 2004. Kluwer Aca- demic Publishers-Plenum Publishers, v. 54, n. 3, p. 195–209, 2004. ISSN 0885-6125. Dis- pon´ıvel em: <http://dx.doi.org/10.1023/B%3AMACH.0000015879.28004.9b>. [Vapnik 1995]VAPNIK, V. N. The Nature of Statistical Learning Theory. New York, NY, USA: Springer-Verlag New York, Inc., 1995. ISBN 0-387-94559-8. [Vilalta e Drissi 2002]VILALTA, R.; DRISSI, Y. A perspective view and sur- vey of meta-learning. Artificial Intelligence Review, 2002. Kluwer Academic Publishers, v. 18, n. 2, p. 77–95, 2002. ISSN 0269-2821. Dispon´ıvel em: <http://dx.doi.org/10.1023/A%3A1019956318069>. [Vilalta, Giraud-Carrier e Brazdil 2010]VILALTA, R.; GIRAUD-CARRIER, C.; BRAZDIL, P. Meta-learning - concepts and techniques. In: MAIMON, O.; ROKACH, L. (Ed.). Data Mi- ning and Knowledge Discovery Handbook. Springer US, 2010. p. 717–731. ISBN 978-0-387- 09822-7. Dispon´ıvel em: <http://dx.doi.org/10.1007/978-0-387-09823-4 36>. [Wang, Storey e Firth 1995]WANG, R. Y.; STOREY, V. C.; FIRTH, C. P. A framework for analysis of data quality research. IEEE Trans. on Knowl. and Data Eng., 1995. IEEE Educa- tional Activities Department, Piscataway, NJ, USA, v. 7, n. 4, p. 623–640, ago. 1995. ISSN 1041-4347. Dispon´ıvel em: <http://dx.doi.org/10.1109/69.404034>. [Zhu e Wu 2004]ZHU, X.; WU, X. Class noise vs. attribute noise: A quantitative study. Artifi- cial Intelligence Review, 2004. Kluwer Academic Publishers, v. 22, n. 3, p. 177–210, 2004. ISSN 0269-2821. Dispon´ıvel em: <http://dx.doi.org/10.1007/s10462-004-0751-8>.