Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

Big: alla scoperta dei Big Data

112 vues

Publié le

24 gennaio 2018
Relatore: Dr Sabina Milella
Abstract: Quante informazioni produciamo ogni giorno? Può la Matematica dare forma ai Big Data? Forse si.

Publié dans : Données & analyses
  • Soyez le premier à commenter

Big: alla scoperta dei Big Data

  1. 1. Sabina Milella BIG
  2. 2. BIG BIG DATA Cosa sono? Quanti sono? Che informazioni danno? Hanno una forma? Chi li crea? Che valore hanno?
  3. 3. Cosa sono i BIG DATA? (Wikipedia) Termine adoperato per descrivere l'insieme delle tecnologie e delle metodologie di analisi di dati massivi. Il termine indica la capacità di estrapolare, analizzare e mettere in relazione un'enorme mole di dati eterogenei, strutturati e non strutturati, per scoprire i legami tra fenomeni diversi e prevedere quelli futuri. Insieme di informazioni molto grande (nell’ordine degli Zettabyte,) che necessita di metodi analitici ad hoc per le estrazioni di valore. 1 megabyte = 106 byte 1 gigabyte = 109 byte 1 terabyte = 1012 byte 1 zettabyte = 1021 byte,
  4. 4. Cosa sono i BIG DATA? Modello delle 3V (Douglas Laney, 2001) • Volume: quantità di dati (strutturati, non strutturati) generati, ogni secondo, da sorgenti di vario tipo. • Varietà: differente tipologia dei dati che vengono generati, collezionati ed utilizzati. • Velocità: velocità con cui i nuovi dati vengono generati e necessità che questi dati arrivino in tempo reale al fine di effettuare analisi su di essi. In seguito • Veridicità: misura dell’affidabilità. • Valore: capacità di trasformare i dati in valore. ed ancora altre caratteristiche…
  5. 5. Cosa sono i BIG DATA? ESEMPI Dati elaborati quando si utilizza Google • Ad esempio, quando cerchi un ristorante su Google Maps o guardi un video su YouTube, elaboriamo le informazioni relative a quella attività, che possono includere il video visualizzato, gli ID del dispositivo, gli indirizzi IP, i dati dei cookie e la posizione. • I tipi di informazioni sopra descritti vengono elaborati anche quando utilizzi app o siti che ricorrono a servizi Google, come gli annunci, Analytics e il video player di YouTube. (Promemoria sulla Privacy di Google) Immagini digitali = insieme di pixel —> insieme di numeri (scala di grigio o colore)
  6. 6. Chi crea i BIG DATA? Numerose fonti • Human generated: social networks, portale di e-commerce, siti di recensioni, news… • Machine generated: sensori GPS, IoT, centrali di monitoraggio… • Business generated: pagamenti, ordini, dati di produzione, inventario…
  7. 7. Chi crea i BIG DATA? • Dati strutturati: dati conservati in database, organizzati secondo schemi rigidi • Dati NON strutturati: dati conservati senza alcuno schema (es. file di testo, immagini)
  8. 8. BIG DATA Analytics Problemi • immagazzinare • trasmettere • visualizzare • “dimensione” molto alta • analizzare e costruire modelli predittivi informazioni —> valore
  9. 9. BIG DATA Analytics informazioni —> valore
  10. 10. Verso forme nascoste… Può la matematica mettere un po’ di ordine? • Statistica descrittiva: Regressione lineare, clustering • Topological Data Analysis (TDA) convertire dati grezzi in valore e conoscenza
  11. 11. Verso forme nascoste… Cassetta degli attrezzi matematici • vettori —> riferimento cartesiano e coordinate • distanza tra punti —> misure • forme BIG DATA
  12. 12. Verso forme nascoste… dato —> vettore equazione —> compressione dati • ax+by+c=0 • x2+y2+ax+by+c=0
  13. 13. Regressione lineare (Legendre, Gauss 1805) determinare, sulla base di osservazioni astronomiche, le orbite di corpi celesti intorno al sole Problema trovare la “migliore” retta, cioè la retta che passa il più “vicino” possibile ai punti dati
  14. 14. Regressione lineare Coordinate —> proiezione —> passaggio ad una dimensione minore Metodo dei minimi quadrati —> calcolo dell’errore —> migliore retta min X i=1,...,n (yi axi b)2
  15. 15. Cluster analysis Cosa accade se i dati non si avvicinano ad una retta? Ripartire/raggruppare i dati secondo criteri di similarità —> Distanza —> intorni
  16. 16. Cluster analysis distanza euclidea s X i=1,...,n (xi yi)2 Centro del cluster = media dei dati distanza di Manhattan X i=1,...,n |xi yi| P1 + P2 + ... + Pn n Ampiezza e forma del cluster —> scelta della distanza
  17. 17. Cluster analysis Problemi • Gli algoritmi di clustering dipendono dalla distanza • Scelta a priori della forma dei cluster • Numero dei cluster (regioni ad alta densità) • Le regioni a bassa densità costituiscono rumore Gli algoritmi di clustering si possono riguardare come un tentativo di costruzione delle “componenti connesse” di un oggetto (es. carta geografica)
  18. 18. Topological data analysis Topologia: studio delle proprietà delle figure e delle forme che non cambiano quando viene effettuata una deformazione. Classificazione indipendentemente da coordinate e distanze (Eulero 1736) Problema dei ponti di Könisberg: attraversare tutti i 7 ponti della città una sola volta ed in una sola passeggiata
  19. 19. Topological data analysis • Agli spazi vengono associati oggetti algebrici (es. numeri) detti invarianti • Es. Classificazione dell’alfabeto {A,D,O,P,Q,R} {B} {C,E,F,G,H,I,L,M,N,S,T,U,V,X,Y,W,Z}
  20. 20. Topological data analysis • Agli spazi vengono associati oggetti algebrici (es. numeri) detti invarianti • Es. Classificazione dell’alfabeto {A,D,O,P,Q,R} {B} {C,E,F,G,H,I,L,M,N,S,T,U,V,X,Y,W,Z} 1 buco 0 buchi • Es. Tazza = Ciambella Numeri di Betti1 buco
  21. 21. Clustering e TDA Variazione dei numeri di Betti Al variare del raggio, si passa da un insieme discreto di 6 punti a 3 cluster ed infine ad 1 cluster La TDA non ripartisce necessariamente i dati, ma cerca un “modello topologico” dei dati
  22. 22. TDA E NATURAL IMAGE STATISTICS G.Carlsson, A.B. Lee, K.S.Pedersen, D. Mumford, A. Zomorodian ….. • Immagine effettuata da una fotocamera digitale vista come un insieme di vettori in un spazio di dimensione molto alta • se p è il numero di pixel, l’immagine è un insieme di vettori di Rp —> insieme di dati non strutturato Problema Questo insieme di vettori ha una forma?
  23. 23. TDA E NATURAL IMAGE STATISTICS Idea (Mumford, Pedersen, Lee) Insieme di dati = database di immagini in bianco e nero della città di Groningen • in ogni immagine vengono considerati patch 3x3 (vettori di R9) • ogni pixel ha un valore che può variare da 0 a 255 http://www.ams.org/journals/bull/2009-46-02/S0273-0979-09-01249-X/S0273-0979-09-01249-X.pdf Predominanza di matrici “costanti” in cui il tono di grigio non varia in modo evidente (basso contrasto) —> poco contributo alla struttura (rumore)
  24. 24. TDA E NATURAL IMAGE STATISTICS • definizione di una “norma” (lunghezza di un vettore) —> misura del contrasto • selezione casuale di 5000 patch e scelta del 20% con norma più grande —> database di patch ad alto contrasto • trasformazione dei dati per passare da 9 dimensioni a 7 dimensioni i dati sono concentrati su una sfera o su un toro • studio della topologia/forma della porzione ad alta densità
  25. 25. TDA E NATURAL IMAGE STATISTICS Modello dei tre cerchi Sono presenti zone con densità più alta, che corrispondono a patch più frequenti www.ams.org/journals/bull/2009-46-02/S0273-0979-09-01249-X/S0273-0979-09-01249-X.pdf
  26. 26. TDA E NATURAL IMAGE STATISTICS Modello topologico associato www.ams.org/journals/bull/2009-46-02/S0273-0979-09-01249-X/S0273-0979-09-01249-X.pdf Bottiglia di Klein

×