O documento discute a identificação de spam utilizando florestas aleatórias. Ele apresenta algoritmos de aprendizado de máquina como ID3 e florestas aleatórias para construção de modelos preditivos de árvores de decisão. O documento também fornece exemplos de classificação de spam usando algoritmos J48 e RandomForest.
Web Data Mining com R: identificação de spam utilizando Random Forest
1. Identifica¸˜o de spam utilizando
ca
Random Forest
Fabr´ J. Barth
ıcio
Falculdade BandTec e VAGAS Tecnologia
Junho de 2013
2. Aprendizado de ´rvores de decis˜o
a
a
Identifica¸˜o de spam utilizando Random Forest —
ca
Aprendizado de ´rvores de decis˜o
a
a
2
3. Caracter´
ısticas
• Representa¸˜o de ´rvore de decis˜o:
ca
a
a
cada nodo interno testa um atributo;
cada aresta correponde a um valor de atributo;
cada nodo folha retorna uma classifica¸˜o.
ca
Identifica¸˜o de spam utilizando Random Forest —
ca
Caracter´
ısticas
3
4. Algoritmo ID3
• O algoritmo ID3 cria uma ´rvore de uma maneira
a
top-down come¸ando com a seguinte pergunta:
c
Qual atributo deve ser testado na raiz da ´rvore?
a
• Para responder esta quest˜o, cada atributo do
a
conjunto de treinamento ´ avaliado usando um teste
e
estat´
ıstico para determinar qu˜o bem o atributo
a
(sozinho) classifica os exemplos de treinamento.
Identifica¸˜o de spam utilizando Random Forest —
ca
Algoritmo ID3
4
5. Entrada: Conjunto de Exemplos E.
´
Sa´
ıda: Arvore de Decis˜o (Hip´tese h).
a
o
1 Se todos os exemplos tem o mesmo resultado para a fun¸˜o
ca
sendo aprendida, retorna um nodo folha com este valor;
2 Cria um nodo de decis˜o N e escolhe o melhor atributo A
a
para este nodo;
3 Para cada valor V poss´ para A:
ıvel
3.1 cria uma aresta em N para o valor V ;
3.2 cria um subconjunto EV de exemplos onde A = V ;
3.3 liga a aresta com o nodo que retorna da aplica¸˜o do
ca
algoritmo considerando os exemplos EV .
4 Os passos 1, 2 e 3 s˜o aplicados recursivamente para cada
a
novo subconjunto de exemplos de treinamento.
Identifica¸˜o de spam utilizando Random Forest —
ca
5
6. Exemplo de classifica¸˜o de Spam usando
ca
J48
O objetivo deste exerc´ ´ demonstrar a cria¸˜o de um
ıcio e
ca
modelo preditivo no formato de ´rvore de decis˜o para
a
a
identificar spam. Para tanto, ser´ utilizado o dataset
a
disponibilizado em
http://archive.ics.uci.edu/ml/datasets/Spambase.
http://rpubs.com/fbarth/classificacaoSpamJ48
Identifica¸˜o de spam utilizando Random Forest —
ca
Exemplo de classifica¸˜o de Spam usando J48
ca
6
7. Aprendizado de florestas de ´rvores de
a
decis˜o
a
Identifica¸˜o de spam utilizando Random Forest —
ca
Aprendizado de florestas de ´rvores de decis˜o
a
a
7
8. Exemplo de classifica¸˜o de Spam usando
ca
RandomForest
http://rpubs.com/fbarth/classificacaoSpamRandomForest
Identifica¸˜o de spam utilizando Random Forest —
ca
Exemplo de classifica¸˜o de Spam usando RandomForest
ca
8
9. Material de consulta
• Tom Mitchell. Machine Learning, 1997. (Cap´
ıtulo 3)
• Russel e Norvig. Inteligˆncia Artificial, 2a. edi¸˜o,
e
ca
cap´
ıtulo 18.
• Weka no R: http://cran.rproject.org/web/packages/RWeka/RWeka.pdf.
Identifica¸˜o de spam utilizando Random Forest —
ca
Material de consulta
9
10. • Yanchang Zhao. R and Data Mining: Examples and
Case Studies. (Cap´
ıtulo 4): http://cran.rproject.org/doc/contrib/Zhao R and data mining.pdf
• Exemplo de uso de algoritmos indutores de ´rvore de
a
decis˜o. http://rpubs.com/fbarth/arvoreDecisao.
a
Acesso em 14 de junho de 2013.
Identifica¸˜o de spam utilizando Random Forest —
ca
Material de consulta
10
11. • Package ’randomForest’. http://cran.rproject.org/web/packages/randomForest/randomForest.pdf.
Acessado em 14 de junho de 2013.
• Breiman, Leo (2001). ”Random Forests”. Machine
Learning 45 (1): 5-32.
• H. Costa, F. Benevenuto, L. Merschmann. Detecting
Tip Spam in Location-based Social Networks. In
Proceedings of the ACM Symposium on Applied
Computing (SAC’13).
http://homepages.dcc.ufmg.br/ fabricio/download/sac2013.pdf
Identifica¸˜o de spam utilizando Random Forest —
ca
Material de consulta
11