O documento discute processamento de imagens com deep learning. O autor apresenta sua experiência em TI e machine learning e descreve como a OLX lida com milhões de imagens de anúncios usando deep learning para processamento de imagens. Ele explica os principais conceitos de deep learning e como o framework Caffe é usado para treinar modelos neurais profundos capazes de classificar imagens de forma automatizada.
18. Caffe
Definição da Rede
• Através de schemas
• Protobuf Model Format
• Prototxt file
Fonte: hUps://compu2ng.ece.vt.edu/~f15ece6504/slides/L2_caffe.pdf
20. Caffe
Definição da Rede
• Na prá2ca...
– Divcil criar uma rede do zero
– Fine-tuning de modelo pré-treinado
– A maioria das empresas adaptam as redes/
arquiteturas já existentes
– Camadas iniciais/intermediários são man2das,
que são responsáveis pelas features de baixo/
médio nível
26. Nossa solução
• U2lizamos AWS
• Máquinas com GPU só tem nos Estados Unidos
• Para treinamento, apenas uma instância EC2 com
GPU
• Para ambiente de produção, usamos algumas
instâncias on demand e algumas spot
• Desempenho depende do batch size e,
principalmente, de quantos modelos estão sendo
executados
27. E custos?
• 2 milhões imagens/dia
• Lançamentos de grandes soluções na nuvem
de reconhecimento de imagem
– Amazon Rekogni2on: US$ 54.000
– Google Vision: US$ 90.000
– Microso} Cogni2ve Services: US$ 36.000*
* Limite de 10 imagens/seg
• Nosso custo: ~US$ 5.000
VALORES
MENSAIS
28. Não é somente custo...
Ao usar as grandes soluções na nuvem de
reconhecimento de imagem,
não está claro se elas vão u2lizar as imagens
para outros fins.