Classificazione non supervisionata di immagini digitali per applicazioni di image forensics - Matteo Innocenti - AA 2009-2010 Relatori: Prof. Vito Cappellini, Dr. Roberto Caldelli, Ing. Francesco Picchioni, Ing. Irene Amerini
Classificazione non supervisionata di immagini digitali per applicazioni di image forensics
1. Classificazione non
supervisionata di
immagini digitali per
applicazioni di image
forensics
Matteo Innocenti
Relatori:
Prof. Vito Cappellini
Dott. Roberto
Caldelli
Firenze, 07/10/2010
Ing. Francesco
Picchioni
Ing. Irene Amerini
2. Sommario
Obiettivo
Digital Forensics
Digital Camera Identification
Classificazione
Test e risultati
Conclusioni
4. Digital Forensics
Dagli anni ‘80: forte espansione dei dispositivi di acquisizione e
manipolazione digitali, primi interessi circa la risoluzione dei casi
giudiziari mediante l’utilizzo di prove digitali.
Digital Forensics Workshop, New York (2001):
“Digital Forensics è la scienza che permette attraverso l'uso di specifiche
metodologie, la raccolta, l'identificazione e l'analisi di prove digitali, allo
scopo di ricostruire eventi collegati ad azioni illegali”.
Prova digitale: qualsiasi informazione, con valore probatorio, memorizzata
in formato digitale.
5. Digital Forensics
Analisi del traffico di rete e dei log di
Network Forensics sessione dei dispositivi di rete.
Estrazione ed analisi dei dati
Computer Forensics memorizzati nei calcolatori.
Multimedia Forensics Si occupa dei media digitali.
Tampering detection e source identification.
6. Multimedia Forensics
Tampering detection
Ha il compito di rilevare tentativi di contraffazione che compromettono
l’integrità del media digitale.
Originale Contraffatta
7. Multimedia Forensics
Source identification
Identificazione del particolare dispositivo che ha acquisito un media digitale.
Esempi applicativi
Acquisizione di materiale pedo-pornografico, copia di opere protette da copyright.
Nel caso di fotografie digitali prende il nome di Digital Camera Identification
8. Digital Camera Identification
Funzionamento
Obiettivo
Risalire alla una caratteristica impronta (fingerprint) della fotocamera: il PRNU.
Si utilizza fotocamera digitale che ha acquisito una certa foto.
Si controlla all’interno dell’immagine sotto esame la presenza della fingerprint
attraverso il calcolo della correlazione (J. Fridrich⃰ ).
PRNU (Photo Response Non-Uniformity)
Componente principale del Pattern Noise
Differente sensibilità alla luce dei pixel del sensore
Caratteristica esclusiva del sensore
⃰ J. Lukas, J. Fridrich, M. Goljan, “Digital camera identification from sensor pattern noise”, TIFS 2006.
9. Denoising
Filtro di
denoising
Filtro di Mihçak ⃰
-
Lavora nel dominio Wavelet.
⃰ M.K. Mihçak, I. Kozintsev, K. Ramchandran, “Spatially adaptive statistical model of wavelet image coefficients
and its application to denoising”, ICASSP 1999.
10. Lavori precedenti
Chang-Tsun Li (University of Warwick, Coventry)*
Algoritmo di classificazione basato sui campi randomici di Markov (MRF)
Utilizzo di una funzione di enhancement del rumore
Esalta il rumore estratto, eliminando i dettagli della scena ritratta.
Molto utile per immagini di dimensione piccola.
E’ applicato nel dominio della trasformata Wavelet dopo l’estrazione del PRNU.
⃰ C.-T. Li, “Unsupervised classification of digital images using sensor pattern noise”, ISCAS 2010.
12. Classificazione
Clustering gerarchico agglomerativo
Procedura iterativa (N-1) di clustering.
Si inizia con tanti cluster quante sono (N) le immagini nel training-set.
Ad ogni iterazione vengono uniti i due cluster più correlati tra di loro.
Gerarchia rappresentabile con un dendogramma.
Condizione di stop
Occorre valutare a quale altezza deve essere tagliato l’albero
per ottenere la miglior partizione delle immagini in gruppi.
Valutazione dei cluster con coefficienti di silhouette
Ad ogni iterazione si calcola la qualità della partizione corrente.
Al termine della procedura si recupera la partizione migliore.
13. Coefficienti di silhouette
Coefficienti di silhouette
Combinano gli aspetti di coesione e separazione tra clusters.
Si calcola si per ciascun rumore i-esimo, poi si effettua la media.
ai è la correlazione media tra i e gli altri
rumori appartenenti allo stesso cluster.
bi è la correlazione media tra i e gli altri
rumori non appartenenti allo stesso
cluster, prendendo la media tra tutti i
cluster considerati.
14. Coefficienti di silhouette
Condizione di stop
L’iterazione che verifica:
294
Esempio su dataset di 300 immagini provenienti da 6 fotocamere
15. Test e Risultati
Dataset
1200 immagini, 200 per ciascuna delle 6 fotocamere utilizzate.
Training-set: 50*6, Test-set: 150*6
Variabili
Dimensione dei rumori: da 128x128 a 1536x2048 pixels
Utilizzo o meno dell’enhancer
Composizione del dataset di addestramento
Confronto
Procedura sviluppata da Chang-Tsun Li in un lavoro precedente.
HW-SW
Intel Quad Core Q6600, 4GB RAM, Linux os, Matlab R2009a-b.
17. Test su dataset uniforme
Training-set
Distribuzione uniforme: 50 immagini per fotocamera.
18. Test su dataset non uniforme
Training-set
Distribuzione non uniforme: 300 immagini in totale.
Risoluzione fissa 512*512 pixels.
19. Test su dataset non uniforme
Test-set
Distribuzione uniforme: 150 immagini per fotocamera.
Risoluzione fissa 512*512 pixels.
Fingerprints
Centroide dei clusters trovati
Costituiscono la conoscenza del classificatore
20. Conclusioni
Enhancer
Efficacia lievemente migliorata
Algoritmo di clustering
Efficienza migliorata notevolmente
Efficacia nettamente migliorata per dataset non uniformi, scenario
realistico (fino al +26%)
A parità di tempo di esecuzione, efficacia migliorata anche per dataset
uniformi
21. Articolo WIFS 2010
2010 IEEE International Workshop on Information
Forensics and Security (WIFS’2010)
“Fast image clustering of unknown source images”
di R. Caldelli, I. Amerini, F. Picchioni, M. Innocenti
Tasso di accettazione: 28%