Grazie alla combinazione di algoritmi innovativi, metodi di big data e hardware potente, come ad esempio le GPU, il machine learning (ML) ha visto una notevole espansione negli ultimi anni. In questa presentazione scopriremo gli strumenti, le tecnologie e gli esempi di ML nel cloud, da semplici sistemi basati sulle API per il riconoscimento e la comprensione di immagini, parole e testo fino a piattaforme di ricerca e sviluppo ad uso di sviluppatori e scienziati nel contesto del ML.
Speaker: Giuseppe Porcelli, Solutions Architect, AWS
2. UNA LUNGA STORIA DI ML IN AMAZON
MIGLIAIA DI INGEGNERI IN TUTTA L'AZIENDA CONCENTRATI SULL'IA
Raccomandazioni
personalizzate
Creazione
di esperienze
per i clienti
completamente
nuove
Automazione
della consegna
e gestione
dell'inventario
Droni Interazioni
voice-driven
3. ML in AWS
LA NOSTRA MISSIONE
Mettere il Machine Learning a
disposizione di ogni
sviluppatore e data scientist
4. SERVIZI APPLICATIVI
R E K O G N I T I O N R E K O G N I T I O N
V I D E O
P O L L Y T R A N S C R I B E T R A N S L A T E C O M P R E H E N D L E X
PIATTAFORME Amazon SageMaker Amazon Mechanical Turk Spark su Amazon EMR
FRAMEWORK E INFRASTRUTTURA K E R A S
F r a m e w o r k
I n t e r f a c c
e
NVIDIA
GPU Tesla V100
(14 volte più veloci di P2)
P3
Machine Learning
AMI
5.120 Tensor core
128 GB di memoria
1 Petaflop di calcolo
NVLink 2.0
LO STACK MACHINE LEARNING DI AWS
7. AMAZON REKOGNITION IMAGE
Servizio di riconoscimento immagini basato su Deep Learning
Cerca, analizza e organizza milioni di immagini
Rilevamento di
oggetti e scene
Analisi
facciale
Confronto
facciale
Riconoscimento
facciale
Riconoscimento
di volti celebri
Moderazione
di immagini
Rilevamento
del testo
8. • Creato in 3 settimane
• Indicizzato rispetto a 99.000 persone
• Indice creato in un giorno
• Risparmio di circa 9.000 ore l'anno
in costi di curation manuale
• Video live con sampling di frame
Automatizzazione del tagging dei
filmati con Amazon Rekognition
Precedentemente, solo circa la metà dei filmati era indicizzata a
causa degli enormi requisiti di tempo richiesti dai processi manuali
13. AUDIO
• Contact Center
• Riunioni
VIDEO
• Trasmissione TV
• Video on demand
• Social media
I dati audio e video sono generati a una velocità senza precedenti
14. AMAZON TRANSCRIBE
Supporto
per audio normale
e telefonico
Punteggiatura
§
Time stamp
e confidence scores
Hello/
Hola
Inglese
e spagnolo, con
altre lingue in arrivo
Integrazione
con S3
Amazon
S3
18. LA MAGGIOR PARTE DEI CONSUMATORI PARLA
UNA SOLA LINGUA
L a s o c i e t à d i
e - c o m m e r c e d i J i n
s i s t a e s p a n d e n d o
a l i v e l l o i n t e r n a z i o n a l e
19. LA MAGGIOR PARTE DEI CONSUMATORI PARLA
UNA SOLA LINGUA
I l s i t o w e b d e l l ’ a g e n z i a
d i v i a g g i d i L u c y h a
t a s s i d i c o n v e r s i o n e
i n f e r i o r i d a i c l i e n t i
c h e n o n p a r l a n o i n g l e s e
L a s o c i e t à d i
e - c o m m e r c e d i J i n
s i s t a e s p a n d e n d o
a l i v e l l o i n t e r n a z i o n a l e
20. LA MAGGIOR PARTE DEI CONSUMATORI PARLA
UNA SOLA LINGUA
I l s i t o w e b d e l l ’ a g e n z i a
d i v i a g g i d i L u c y h a
t a s s i d i c o n v e r s i o n e
i n f e r i o r i d a i c l i e n t i
c h e n o n p a r l a n o i n g l e s e
L a s o c i e t à d i
e - c o m m e r c e d i J i n
s i s t a e s p a n d e n d o
a l i v e l l o i n t e r n a z i o n a l e
L a s o c i e t à d i s e r v i z i
f i n a n z i a r i d i P i e r r e
o f f r e a i s u o i c l i e n t i
c e n t i n a i a d i m i g l i a i a
d i n o t i z i e
21. MACHINE TRANSLATION IN AMAZON
Elenchi di prodotti,
descrizioni, query
di ricerca
Stringhe di siti
Web e contenuti
funzionali
Comunicazione tra
lingue diverse:
supporto clienti,
fornitori e
venditori
Documentazione
di prodotto e
contenuti di
supporto
V O L U M E I M M E N S O I N U N S E T D I V E R S O
D I C A S I D ' U S O
F O N D A M E N T A L E P E R L A C R E S C I T A
E L ' E S P A N S I O N E I N T E R N A Z I O N A L E
24. ESTRAZIONE DI INFORMAZIONI DAL TESTO
A m a z o n . c o m , I n c . h a s e d e a
S e a t t l e , W A e d è s t a t a f o n d a t a
i l 5 l u g l i o 1 9 9 4 d a J e f f B e z o s .
I n o s t r i c l i e n t i a d o r a n o
c o m p r a r e t u t t o , d a i l i b r i a i
f r u l l a t o r i a p r e z z i e c c e z i o n a l i
E N T I T À D E N O M I N A T E
• A m a z o n . c o m : O r g a n i z z a z i o n e
• S e a t t l e , W A : S e d e
• 5 l u g l i o 1 9 9 4 : D a t a
• J e f f B e z o s : P e r s o n a
F R A S I C H I A V E
• I n o s t r i c l i e n t i
• l i b r i
• f r u l l a t o r i
• p r e z z i e c c e z i o n a l i
S E N T I M E N T
• P o s i t i v e
L I N G U A
• I t a l i a n o
25. TOPIC MODELLING
S E R V I Z I O D I
D I T O P I C M O D E L L I N G
C O M P L E T A M E N T E G E S T I T O :
E S T R A E F I N O A 1 0 0 T O P I C D A
U N C O R P U S D I D O C U M E N T I
O R G A N I Z Z A A U T O M A T I C A M E N T E
I D O C U M E N T I N E I T O P I C
26. CASI DI UTILIZZO COMUNE
RICERCA SEMANTICA
Rendere la ricerca più intelligente cercando in base a frasi chiave, emozioni
e argomenti
VOICE OF CUSTOMER ANALYTICS
Analizzare cosa dicono i clienti sul tuo brand, i tuoi prodotti e i tuoi servizi
GESTIONE/SCOPERTA DELLA CONOSCENZA
Organizzare i documenti, categorizzare per argomento e personalizzare
le esperienze
28. CREAZIONE DI INTERFACCE DI CONVERSAZIONE
Comprensione del testo e del linguaggio naturale: con la stessa tecnologia
di Alexa
Connettori SaaS enterprise: collegamento a sistemi enterprise
Deployment verso servizi di chatbot
Progettato per sviluppatori: strumenti efficienti e intuitivi
per creare conversazioni, dimensionamento automatico
Supporto per versioni multiple e alias
@
32. CROWDSOURCING CON MTURK
• La prima principale sfida nella
creazione di sistemi di intelligenza
artificiale è di raccogliere dati
acquisiti sul campo
• È richiesta l'intelligenza umana
per annotare dataset di testo o
immagini
34. Training
one-clic per ML,
DL e algoritmi
personalizzati
Training più
semplice con
ottimizzazione
degli iperparametri
Algoritmi di
machine learning
altamente
ottimizzati
Deployment
one-click
Hosting
completamente
gestito su scala
Creazione
Istanze notebook
preconfigurate
Deployment
Training
AMAZON SAGEMAKER
36. • Oltre 7.000 comuni convenzionati
• 33 centri di lavorazione – tutti terzisti
• Vengono trattate oltre 1.000.000 di tonnellate
• Circa 400 milioni di fatturato annuo
• 60 persone su due sedi (Milano e Roma)
Corepla è il consorzio nazionale per il riciclo della plastica
38. Ciclo della plastica
• I comuni organizzano la raccolta differenziata
• La plastica raccolta viene portata presso un centro di
lavorazione (direttamente o passando per un centro di
compattamento)
• Il materiale raccolto viene suddiviso meccanicamente in
vari prodotti
• I prodotti vengono venduti ai riciclatori attraverso delle
aste telematiche
39. % kton
PET 25,0 235,6
HDPE 7,3 68,5
Film 7,6 71,5
Small film + PP 6,3 59,1
Imballaggi misti 12,7 120,1
Altri imballaggi 0,8 7,8
PLASMIX* 40,3 324,5
*PLASMIX: imballaggiresidui, esclusi scarti,
sporcizia e frazione estranea
PET
25%
HDPE
7%
Film
8%
Small fim +
PP…
Imballagg
i misti
13%
Altri
imballagg
i
1%
PLASMIX
40%
Selezione e riciclo COREPLA
di imballaggi da raccolta differenziata domestica
40. I sistemi informativi Corepla: da novembre 2017 in
produzione sulla nuvola Amazon Web Services
• Cosa rimane on-premises: un server, Centralino, Linea Internet, WiFi, Sonde
• I servizi utilizzati: Amazon EC2, Amazon S3, Amazon EFS, Amazon RDS, Amazon
CloudWatch, AWS CodeCommit, Amazon WorkSpaces, AWS Lambda, …
41. DATA UNA FOTOGRAFIA EFFETTUATA NEGLI IMPIANTI DI
SELEZIONE, CHE RAPPRESENTA UNA DELLE FASI DELLE
ANALISI DI QUALITA’ DEI MATERIALI PLASTICI,
INDIVIDUARE LA FASE ALLA QUALE SI RIFERISCE LA FOTO
6FASI DELLE ANALISI
DI QUALITA’ (POC)
2000IMMAGINI PER FASE DI LAVORAZIONE
DA UTILIZZARE COME TRAINING SET
Il progetto di riconoscimento delle immagini
46. Benefici
• Utilizzo di algoritmi built-in di Amazon SageMaker non richiede
profonda expertise su neural networks e modelli complessi
• Ottenuta accuratezza soddisfacente rispetto alle necessità di
business, anche utilizzando il servizio di tuning degli
hyperparameter
• Semplice deployment del modello con una API REST utilizzando
il servizio di hosting di Amazon SageMaker
Dal punto di vista del business, l’attività di riconoscimento
delle immagini viene eseguita da una società esterna il
ritorno del’investimento è di circa 6 mesi!!!
47. Sviluppi futuri
Per ICT Corepla il riconoscimento delle immagini è strategico:
• Aumenta il numero delle immagini
• Cominciano a diffondersi le immagini in movimento
Per il consorzio Corepla i prossimi obiettivi possono essere:
• Un ausilio all’esecuzione delle analisi di qualità
• La “carta d’identità” delle balle.
50. AMI DEEP LEARNING AWS
Framework
Anaconda Data Science + Jupyter Notebooks
Accelerazione del calcolo
51. ISTANZE AMAZON EC2 P3
L'istanza GPU più veloce e potente nel cloud con GPU NVIDIA
Volta V100
• Fino a 125 TFLOPS a precisione mista
• 128 GB di RAM per GPU – aumento del 70% rispetto a P2
• Comunicazione da GPU a GPU a 300 GB/s (NVLink)
• Tensor Core (FP-16) a precisione mista
P3
52. NON SI TRATTA SOLO DI ML
Storage di data lake
Amazon S3
Sicurezza
Controllo degli accessi
Crittografia
VPC
KMS
Audit
Compliance
Ruoli
Controllo granulare degli accessi
Calcolo
Istanze CPU e GPU potenti
AWS Lambda
Analytics
Amazon Athena
Amazon EMR
Amazon Redshift e Redshift Spectrum