15. Conjunto de ferramentas e métodos
que visa perceber padrões e extrair
visões
a partir de registros de observações
e dados de exemplos ou experiências
passadas.
27. Exemplo de clustering:
Linkedin, Skills & Expertise:
http://www.linkedin.com/skills/skill/Machine_Learning?trk=skills-‐hp-‐search
28. Previsões
Se dividem de acordo com a tarefa que faz:
Classificação – prevê resultados qualitativos
discretos do tipo S/N, morre/sobrevive
Regressão – prevê resultados quantitativos
29. Classificação consiste em rotular um input baseado
em dados previamente vistos
Filtro anti spam
Identificação de linguagem
Detecção de rosto (você conhece o rosto)
37. Collective Intelligence
Parece que há um esforço coletivo
de inteligência quando na verdade
os dados podem vir de fontes não
exatamente das mais inteligentes
50. DJ Patil
Data Scientist -‐ Greylock Partners, ex eBay e ex
LinkedIn
“Try to be clever before you do the heavyweight
work”
51. DJ Patil
Antes de começar o trabalho duro usando
algoritmos sofisticados de classificação ou
information retrieval, é preciso observar os dados
e ver se é possível encontrar um ponto de partida
mais a frente para começar a iterar.
52. Hilary Mason
Data Scientist -‐ bitly
Nem sempre devemos a usar um tipo de
armazenamento sofisticado para arquivos grandes
de dados. Às vezes basta um arquivo .txt ou .csv.
53. As primeiras ferramentas que devemos
experimentar são as de linha de comando do Linux:
cat, grep, head, tail, awk, find, xargs, sort,
wc, etc..
54. As primeiras ferramentas que devemos
experimentar são as de linha de comando do Linux:
cat, grep, head, tail, awk, find, xargs, sort,
wc, etc..
E não esquecer recursos gráficos do gnuplot.