Este documento descreve um projeto de análise de serviços realizado para a empresa fictícia Adventure Works Cycles. O objetivo era desenvolver modelos de mineração de dados para prever as compras dos clientes usando árvores de decisão, agrupamento e Naive Bayes. As árvores de decisão tiveram a previsão mais precisa de 72,84% com base nos resultados dos modelos.
2. Agenda ■ 1. Introdução■ 2. Apresentação da Empresa■ 3. Trabalho desenvolvido■ 4. Conclusões - 2 - @2010, Adventure Works Cycles- IPVC, Analysis Services - Joel Latino
3.
4. Por isso, esta empresa pretende saber mais sobre os seus clientes através do seu histórico de compras. E usar esses dados para desenvolver previsões que possam ser usadas em marketing. A empresa nunca tinha usado Data Mining antes, por isso, pretendeu-se desenvolver uma nova base de dados especificamente para realizar Data Mining, permitindo desenvolver vários modelos.
5. Os modelos desenvolvidos são as árvores de decisão, Clustering da Microsoft e NaiveBayes da Microsoft.- 3 - @2010, Adventure Works Cycles- IPVC, Analysis Services - Joel Latino
6. 2. Apresentação da Empresa ■ A Adventure Works Cycles é uma empresa fictícia criada pela Microsoft para simular cenários de negócio com o objectivo de fornecer tutoriais de desenvolvimento aos utilizadores do seu software. ■ Trata-se de uma empresa em que o seu negócio consiste na venda de bicicletas aos seus clientes. - 4 - @2010, Adventure Works Cycles- IPVC, Analysis Services - Joel Latino
7. 3. Trabalho desenvolvido ■ Criar um Projecto Business Inteligence do tipo Analise Service. ■ Definir a conexão á base de dados (Data Source). ■ Definir os dados, do Datawarehouse, a utilizar para a técnicas de Data Mining (Data SouceView). ■ Criar uma estrutura de Data Mining, onde temos de definir os seguintes aspectos: ■ Técnica de Data Mining, neste caso foram as Arvores de Decisão, Clustering da Microsoft e NaiveBayes da Microsoft. ■ Tabelas a utilizar no processo de Data Mining. ■ Especificação do conjunto de teste. ■ Especificar o conjunto de dados de teste, com base na percentagem de dados a utilizar. - 5 - @2010, Adventure Works Cycles- IPVC, Analysis Services - Joel Latino
8. 3. Trabalho desenvolvido ■ Conluiada criação da Estrutura de Data Minig, com todas as técnicas, mencionadas, implementadas, obtivemos os seguintes resultados, demonstrados nos slides seguintes. Fig. 1: Arvore de Decisão - 6 - @2010, Adventure Works Cycles- IPVC, Analysis Services - Joel Latino
9. 3. Trabalho desenvolvido ■ A imagem que se segue ilustra a rede de depenicas criada com a associação da arvore de decisão mencionada anteriormente. Fig. 2: Rede de dependências com base na árvore de decisão. - 7 - @2010, Adventure Works Cycles- IPVC, Analysis Services - Joel Latino
10. 3. Trabalho desenvolvido ■ Modelo de Clusters, usado a técnica Clustering da Microsoft. A figura 3 demonstra praticamente todas as ligações de proximidade enquanto que na figura 4 ilustra apenas as ligações mais fortes. A cor escura das linhas representa a força de aproximação entre cada Cluster. Fig. 3: Diagrama de Cluster com as ligações Fig. 4: Diagrama de Cluster com as ligações mais fortes - 8 - @2010, Adventure Works Cycles- IPVC, Analysis Services - Joel Latino
11. 3. Trabalho desenvolvido ■ A imagem que se segue ilustra o modelo de dependências obtido com base na técnica NaiveBayes da Microsoft. Por isso a ordem das ligações mais fracas para as ligações mais fortes são: EnglishOccupation, Marital Status, Region, NumberChildrenAtHome, EnglishEducation, Total Children, CommuteDistance e NumberCarOwned. Fig. 5: Rede de dependências - 9 - @2010, Adventure Works Cycles- IPVC, Analysis Services - Joel Latino
12. 3. Trabalho desenvolvido ■ No Lift Chart podemos visualizar os dados relativos a cada modelo implementado, a percentagem de população classificada e a previsão feita. Fig. 6: Lift Chart – representação gráfica da previsão dos modelos criados. - 10 - @2010, Adventure Works Cycles- IPVC, Analysis Services - Joel Latino
13. 3. Trabalho desenvolvido ■ A matriz de classificação, mais propriamente a matriz de confusão, permite indicar o numero de classificações correctas versus as previsões efectuadas para os respectivos modelos implementados. Fig. 7: Matriz de classificação dos modelos implementados. - 11 - @2010, Adventure Works Cycles- IPVC, Analysis Services - Joel Latino
14. 4. Conclusão No LiftChart o modelo ideal será aquele que se aproxima de uma linha recta, como podemos ver no segundo slide anterior, por isso será o modelo das Arvores de decisão. As árvores de decisão têm uma probabilidade de previsão de 72,84%, segue-se NaiveBayes com 71,45% e por fim o modelo Clustering com 59,65%. Analisando a matriz de classificação obtida pelo modelo de árvores de decisão podemos dizer o seguinte: - Que o número de verdadeiros positivos para obter o valor 0 é de 346, ou seja, previu correctamente 346 casos que as pessoas não compraram bicicleta.- Que o número de falsos positivos é de 161 para o valor 0, isto é, o número de casos em que o modelo previu mal que alguém compraria uma bicicleta.- Que o numero de falsos positivos é de 132 para o valor 1, ou seja, o modelo previu que 132 casos alguém compraria uma bicicleta, mas isso não aconteceu. - Por fim, que o numero de verdadeiros positivos para obter o valor 1 é de 361, isto é, que o modelo previu correctamente que 361 casos alguém compraria uma bicicleta. - 12 - @2010, Adventure Works Cycles- IPVC, Analysis Services - Joel Latino