Este documento descreve o desenvolvimento e avaliação de um sistema multimodal e multiusuário de navegação na web chamado BrowserVox. O sistema possui interfaces de voz e gráfica que permitem a interação por meio da fala ou do mouse de forma independente para cada usuário. O documento apresenta as tecnologias de reconhecimento e síntese de voz utilizadas e descreve a gramática projetada para o sistema. Por fim, é realizada uma avaliação da usabilidade da interface com base em testes de desempenho e satisfação dos usuários.
Desenvolvimento e Avaliação de um Sistema Multimodal e Multiusuário de Navegação Web
1. Desenvolvimento e Avaliação
de um Sistema Multimodal e
Multiusuário de Navegação Web
Elizabete Munzlinger
& Carlos Henrique Q. Forster
ITA – Instituto Tecnológico de Aeronáutica
EEC-I – Engenharia Eletrônica e Computação – Informática
Divisão de Ciência da Computação
2. Roteiro
Introdução
BrowserVox
Interface de Voz e Interface Multimodal
Tecnologias ASR e TTS
Gramática
Avaliação da Interface
Conclusão
3. Introdução
Motivação
Interação através da fala
Tecnologias de fala – ASR e TTS
Interface de Voz
Interface Multimodal
Interface Multiusuário
Objetivo do trabalho:
Avaliar o desempenho e a viabilidade de um sistema de
navegação web multimodal e multiusuário
4. Roteiro
Introdução
BrowserVox
Interface de Voz e Interface Multimodal
Tecnologias ASR e TTS
Gramática
Avaliação da Interface
Conclusão
5. BrowserVox
Características do navegador
Interface Multimodal
Interface Gráfica (mouse)
Interface de Voz (voz)
Interface Multiusuário
Independente de usuário e de treinamento
Variação de comandos
Gramática com palavras complementares
6. BrowserVox
Sistema
Arquitetura
Interface Application
Interface Gráfica
Interface de Voz
Sistema de registro (log)
Geração das Gramáticas JSGF e JSML (Transcoding)
Speech Plataform
Reconhecimento de Fala e Síntese de Texto
Componentes ASR, TTS (IBM Via Voice) e JSAPI
9. Roteiro
Introdução
BrowserVox
Interface de Voz e Interface Multimodal
Tecnologias ASR e TTS
Gramática
Avaliação da Interface
Conclusão
10. Interfaces
Interface Gráfica (GUI)
Características:
Interação com sistema através de dispositivos onde ocorre a
manipulação de elementos visuais (manipulação direta)
Mais utilizada atualmente
Representar elementos do mundo real
11. Interfaces
Interface de Voz (VUI)
Características:
Interação com sistema exclusivamente por fala
Disseminado em diversos domínios:
Dispositivos móveis
Sistemas desktop de escritório, médicas, empresariais, educativas e
militares
Automação residencial e controle industrial
Serviços de telecomunicações
Ferramenta de transformação de interfaces monomodais em
multimodais
12. Interfaces
Interface Multimodal
Características:
Interface em que ocorre a combinação de dois ou mais
modos/estilos de interação com sistema. Ex:
Mouse e teclado + luvas táteis
Mouse e teclado + reconhecimento de gestos
Tela sensível ao toque + reconhecimento de fala
Mouse e teclado + reconhecimento de fala
Oferece nova experiência ao usuário
13. Interfaces
Interface Multiusuário
Características:
Pode ser utilizada por qualquer usuário a qualquer
momento sem que para isso necessite uma configuração
particular dependente do usuário ou de um processo de
treinamento para gerar essa configuração
Necessidade em sistemas multimodais
Desejável em sistemas com Interface de Voz
15. Tecnologias de Fala
Tecnologias
Reconhecimento automático de fala (ASR)
Receba um comando de voz e imediatamente o converta em
texto desde que reconhecido de acordo com as regras da
linguagem (IBM ViaVoice, Português-Brasileiro)
Síntese de texto (TTS)
Converte a representação digital de um texto, em fala
sintetizada (IBM ViaVoice, Português-Brasileiro)
Biblioteca de acesso ao Engine IBM
JSAPI (Java Speech Application Programming Interface)
16. Roteiro
Introdução
BrowserVox
Interface de Voz e Interface Multimodal
Tecnologias ASR e TTS
Gramática
Avaliação da Interface
Conclusão
17. Gramáticas
JSGF e JSML
Gramática de Reconhecimento
Java Speech Grammar Format (JSGF)
Gramática de Síntese
Java Speech Makup Language (JSML)
21. Roteiro
Introdução
BrowserVox
Interface de Voz e Interface Multimodal
Tecnologias ASR e TTS
Gramática
Avaliação da Interface
Conclusão
22. Avaliação da Interface
Avaliação de usabilidade
Avaliação empírica com testes através da técnica de
Engenharia de Usabilidade com os cinco critérios
introduzidos por Nielsen (1993):
1. Intuitividade
2. Eficiência
3. Memorização
4. Erro
5. Satisfação
23. Avaliação da Interface
Preparação da avaliação de usabilidade
Lista de quatro tarefas
Um questionário
Os critérios 1 a 4 (Intuitividade, Eficiência, Memorização, Erro)
foram avaliados basicamente através de observação e
medição de dados coletados durante as tarefas (executadas
2 vezes pelos usuários).
O critério 5 (Satisfação) através de questionário objetivo com
pontuação para itens específicos
25. Avaliação da Interface
Preparação da avaliação de usabilidade
Usuários:
Os usuários selecionados para essa avaliação pertencem às
categorias de iniciantes e avançados, com número de
participantes igual a 10
26. Avaliação da Interface
Preparação da avaliação de usabilidade
O questionário objetivo:
Aborda características prioritárias e valores quantitativos para
o critério 5, onde o usuário deverá pontuar de 1 a 5 os
tópicos de acordo com a sua satisfação
29. Avaliação da Interface
Avaliação dos resultados
Satisfatório
Sistema em fase de protótipo
O tempo de realização das 4 tarefas pelos 10 usuários
estiveram dentro do tempo esperado, para a 1ª e 2ª execução.
A pontuação do questionário também atendeu às expectativas
Sistema é aplicável
Grande chance de aceitação e uso por usuários de diferentes níveis de
formação
Fatores de ordem subjetiva
Nível de qualificação do usuário, tipo e complexidade de aplicação,
capacidade de aprendizagem, aceitação, domínio da tarefa, entre
outros.
30. Roteiro
Introdução
BrowserVox
Interface de Voz e Interface Multimodal
Tecnologias ASR e TTS
Gramática
Avaliação da Interface
Conclusão
31. Conclusão
Conclusão
Viabilidade da aplicação de voz depende de diversos
fatores:
Ordem subjetiva (usuário: peculiaridades de ordem social,
cultural)
Problemas tecnológicos (despadronização dos sites)
Linguagem ampla (símbolos, abreviauras, termos
estrangeiros)
Vantagens:
Interface multiusuário e multimodal
Gramáticas
32. Obrigada!
[proibido perguntas ]
Instituto Tecnológico de Aeronáutica
Divisão de Ciência da Computação – IEC
Programa de Pós-Graduação em Engenharia Eletrônica e Computação
Área de Informática – PG/EEC-I