Cumar Simone - Implementazione su gpu di un sistema per l'interazione multimodale con ambienti intelligenti
1. UNIVERSITA’ DEGLI STUDI DI TRIESTE
FACOLTA’ DI INGEGNERIA
Dipartimento di Ingegneria Industriale e dell'Informazione
Tesi di laurea in SISTEMI OPERATIVI
Implementazione su GPU di un
sistema per l'interazione
multimodale con ambienti
intelligenti.
Laureando: Relatore:
Simone CUMAR Prof. Ing. Enzo MUMOLO
2. Introduzione - 1
Algoritmi di basso livello
Segnale
Audio a distanza
Localizzazione Posizione
Logica di Ambiente
sorgenti Alto Livello
Riconoscimento Comando
Array comandi
microf.
3. Introduzione – 2
• Audio a distanza
Eliminare il rumore ambientale dovuto ad echi,
riverberi e altre sorgenti acustiche.
• Riconoscimento comandi
Possibile solo o con microfono vicino o con
microfoni distanti, ma eliminando il rumore
ambientale.
• Localizzazione
L'interazione può dipendere dalla posizione
dell'utente.
4. Introduzione – 3
Strumenti Utilizzati
Schiera 8 microfoni
Scheda acquisizione audio
Nvidia Geforce GTX-580
S.O. Linux con kernel low-latency
Valgrind
Windows XP + Dragon Naturally Speaking
5. Piano di lavoro
BeamformIt CUDA
✔ Segnale più pulito
✔ Tempo di esecuzione minore
✔ Tempi di ritardo localizzazione
6. Risultati
Beamforming: Diminuzione del rumore.
Prima
Dopo
7. Risultati
CUDA: Speed up ottenuti dopo la ‘‘cura’’
14
12
10
8
Speed up
XCorr
XCorr-Full
6 Real
4
2
0
10s 30s 1m 1m32s(1x) 2x 4x 8x 16x
Quantità di dati
8. Possibili Applicazioni
Comandi robotici
Vai avanti, torna indietro, vieni qui...
Assistenza domestica
Telefono 118, allarme...
Comandi domotici
Accendi la luce, apri la porta...
9. Comando Vocale
Step da seguire:
BeamformIt applicato sul flusso audio.
Invio del risultato tramite socket.
API di Dragon per la comprensione.
Ricezione del risultato. Apriti
Sesamo!
10. Conclusioni
I test eseguiti hanno dato un esito
soddisfacente.
È assolutamente necessario un periodo di
addestramento del riconoscitore vocale.
È preferibile mirare l'addestramento verso
alcuni comandi particolari.