SlideShare une entreprise Scribd logo
1  sur  26
Katedra Multimediów




                      Użyteczność interfejsów głosowych


                                          Krzysztof Marasek
                        Polsko-Japońska Wyższa Szkoła Technik Komputerowych
                                   02-008 Warszawa, Koszykowa 86
                                       kmarasek@pjwstk.edu.pl




K.Marasek
15.12.2008
Plan prezentacji
                       Dlaczego mowa?
                       Elementy systemu dialogowego:
                          Rozpoznawanie mowy
                          Synteza mowy
                          Nadzorca dialogu
Katedra Multimediów




                       Komunikacja głosowa człowiek-komputer
                          Ograniczenia w stosunku do komunikacji człowiek-człowiek
                          Ograniczenia technologiczne
                       Aspekty użyteczności interfejsu głosowego
                          Znaczenie poprawnych promptów
                          Testy, testy, testy
                          Co możemy zrobić dla języka polskiego?
                       Podsumowanie




K.Marasek
15.12.2008
Komunikacja człowiek - maszyna
                       Graficzny interfejs użytkownika
Katedra Multimediów




                       Komunikacja za pomocą mowy



                                           To przyszłość

                       Komunikacja multimodalna: jw.+ wskazywanie



                       Czy to wszystko? Nie: haptic,
                        BCI (brain/computer interface)


K.Marasek
15.12.2008
Dlaczego mowa jako medium komunikacji?

                         How to Interact with Future Systems? Hartmut Raffler,
                         Siemens AG, AIK-Symposium, Usability Engineering, 10/04
                      The Challenges


                       Small devices                        speech
Katedra Multimediów




                       Service robots                       speech and gestures, artificial skin, emotions
                       Federation of Systems                speech and gestures,emotions
                                                             (problem: knowledge representation)
                       e-Business                           active dialogue systems
                                                             interactive multimedia
                       Augmented reality systems            speech, gestures



                      In the future conversational interfaces which are sensitive
                      to the user’s attention will play the most important role.


K.Marasek
15.12.2008
Architektura systemu dialogowego
Katedra Multimediów




                      De Mori, 99

K.Marasek
15.12.2008
Mowa w komunikacji człowiek-maszyna
                       komunikacji człowiek-maszyna: wymiana informacji zakodowanej w taki sposób,
                        by mogła być przesłana przez dostępne fizyczne medium
                       Kodowanie: proces przygotowania reprezentacji informacji

                       Źródła wiedzy: reguły niezbędne do zbudowania symbolicznej wersji informacji i jej
                         przesłania poprzez kanał transmisyjny
                       Dekodowanie: modele źródeł wiedzy używane przez komputer: deterministyczne, lecz
Katedra Multimediów




                        często nieprecyzyjne                       kodowanie
                                                           Czesc!



                                                                            zdania
                                                                            frazy
                                                                            słowa
                                                                            litery

                                                                        dekodowanie

                       Niech sekwencja parametrów akustycznych X=x1..xN jest wyjściem kanału
                        komunikacyjnego. Jeśli intencją mówcy było wypowiedzenie sekwencji słów
                        W=W1…WK to X jest zakodowaną wersją W

                                   Źródło               W           Kanał             X
                                   informacji                       komunikacji
K.Marasek
15.12.2008
Modelowanie statystyczne w ARM
                      Obliczane jako odległość od modeli
                                                                   Prawdopodobieństwo a priori
                      Prawdopodobieństwo a priori
                                                                   sekwencji słów W
                      akustycznego sygnału A dla znanej
                      sekwencji słów W

                                                                                 Podejście Bayesa
                                                           P( A | W ) P(W )
Katedra Multimediów




                                           P(W | A)
                                                                P( A)

                       Najbardziej prawdopodobna sekwencja
                       słów W dla danego sygnału                 Prawdopodobieństwo a priori sygnału
                       akustycznego A                            akustycznego A



                                  Zwykle w metodzie
                                  HMM:
                                                                     arg max
                                                              W*             p ( A,W )
                                                                        W
                                  (W –model słowa)


K.Marasek
15.12.2008
Jakie są ograniczenia techniczne ARM (speaker-independent)?


                       Rozpoznawanie cyfr przez telefon –                  digits
                                                                            2k spontaneous
                                                                                             1k read
                                                                                             20k read
                        stopa błędu 0.3%                                    64 k broadcast   10k conversational

                       Stopa błędu maleje dwukrotnie co 2           100

                        lata dla ARM o średniej wielkości
                        słownika
                       Stopa błędów rozpoznawania mowy
Katedra Multimediów




                        spontanicznej jest co najmniej                 10
                        dwukrotnie większa niż dla czytania
                       Stopa błędów jest wysoka dla
                        konwersacji wielu mówców w trudnym
                        akustycznie środowisku
                       Konieczne są wielogodzinne nagrania           1

                        treningowe aby przenieść system z
                        jednego środowiska do innego
                       Następuje wyraźne polepszenie
                        wyników statystycznego modelowania           0.1
                        w połączeniu z automatycznym
                        uczeniem systemów
                       ASR da się używać!                MIT,2005



K.Marasek
15.12.2008
Nasze wyniki
                       LVCSR: rozpoznawanie mowy ciągłej, dowolny mówca, słownik
                        30k słów, 16 mówców, 433 zdania z bazy SpeeCon
                       HTK Results:
                      SENT: %Correct=33.24 [H=119, S=239, N=358]
                      WORD: %Corr=87.17, Acc=86.51 [H=3852, D=324, S=243, I=29, N=4419]
                       JRTk Results:
Katedra Multimediów




                      SENT: %Correct=55.66 [H=241, S=192, N=433]
                      WORD: %Corr=93.95, Acc=92.14 [H=5018, D=56, S=267, I=97, N=5341]



                       Rozpoznawanie izolowanych fraz:
                      słownik ok 1000 słów:
                      WORD: %Corr=97,3%




K.Marasek
15.12.2008
Synteza mowy
                                regułowa
                                   formantowa
                                   artykulacyjna
                                konkatenacyjna
                                   difonowa
                                   korpusowa
Katedra Multimediów




K.Marasek
15.12.2008
Telefoniczny system dialogowy
Katedra Multimediów




                      ATT, 2001


K.Marasek
15.12.2008
Systemy dialogowe
                       Zależne od aplikacji
                         (struktura dialogu i treść)
                       System o skończonej ilości stanów
                        (zwykle dla określonej domeny
                        dialogu)
                       Systemy typu chatter-bot
                        (niezależne od domeny?)
Katedra Multimediów




                       Kto ma inicjatywę
                          (komputer, człowiek, mieszana)
                       Detekcja konceptów i ich łączenie
                        (wyszukiwanie istotnych treści i
                        konkluzje)
                       Koncepcja i generowanie tekstów
                        (generacja kontekstowo zależnej
                        odpowiedzi)




K.Marasek
15.12.2008
Komunikacja międzyludzka a komunikacja głosowa człowiek-komputer
                       Komunikacja międzyludzka
                           Warstwa lingwistyczna – tekst wypowiedzi
                           Warstwa paralingwistyczna – nasz stosunek do tego tekstu
                           Warstwa ekstralingwistyczna – cechy mówcy, jego status społeczny
Katedra Multimediów




                       Komunikacja głosowa człowiek – komputer
                           brak przekazu treści emocjonalnych
                           węższy i czasowo-zależny kontekst przekazu (ile słów jesteśmy w stanie
                            zapamiętać?) w porównaniu z GUI
                           ograniczenia technologii rozpoznawania i syntezy mowy (błędy ASR,
                            nienaturalność SS, ograniczone gramatyki, słowniki i analiza semantyczna)
                           Pośrednictwo konstruktora systemu (skąd on wie jak ja chcę zapytać?)
K.Marasek
15.12.2008
Recepty na dobry interfejs głosowy
                       Kierowanie się zasadami użyteczności – przygotowanie serwisów
                           używanych przez określonych użytkowników,
                           w określonych warunkach,
                           w określonej potrzebie
                       Sensowna struktura systemu (nawet prostego)
                             Barge-in (przerywane komputerowi)
                             Użycie zawsze dostępnych komend kluczowych (Przerwij, Wróć, Zacznij od początku)
Katedra Multimediów




                             Potwierdzanie wprowadzenia danych
                             Jasna procedura korekcji i unikania błędów
                             Tutorial dla nowych użytkowników, szybkie wprowadzanie danych dla
                              zaawansowanych użytkowników
                       Staranne przygotowanie promptów (wypowiedzi komputera)
                           Reguła 7+/- 2 – zwięzłość i precyzja
                           Wykorzystywanie słów rozpoznawanych przez ASR (adaptacja użytkownika)
                           Użycie dodatkowych promptów (rozszerzonych) przy braku reakcji użytkownika lub
                            skracanie promptów przy szybkich reakcjach użytkownika,
                           Sensowne i poprawne językowo odpowiedzi (generacja tekstu), nadanie osobowości
                       Doskonałe rozpoznawanie mowy
                           Efektywne i elastyczne gramatyki, zbalansowany słownik
                           Wykorzystywanie miary wiarygodności hipotezy ASR


K.Marasek
15.12.2008
Testy, testy, testy
                       Iteracyjny design

                           Eksperymenty Wizard-of-Oz
                            (np. SUEDE)
Katedra Multimediów




                           Iteracyjne testowanie prototypu




                                                                     Zue, 01




K.Marasek
15.12.2008
Miary jakości interfejsu głosowego
                          Query Density, opisująca ilość nowych                 Nd
                           koncepcji wprowadzonych w pytaniu               1            N u (i)
                           użytkownika
                                                                     QD
                                                                           Nd    i 1    N q (i )
                      Nd- ilość dialogów, Nq(i)- całkowita ilość
                           zapytań użytkownika w i-tym dialogu,
                           Nu(i)- ilość unikalnych zapytań
                                                                                Nd
                                                                          1            N u (i )
Katedra Multimediów




                          Concept Efficiency, mierząca średnią
                           ilość wypowiedzi konieczną do             CE
                           zrozumienia danego konceptu przez              Nd    i 1    N c (i )
                           system
                      Nd- ilość dialogów, Nc(i)- całkowita ilość
                           konceptów w i-tym dialogu, Nu(i)- ilość
                           unikalnych zapytań

                         Miary jakości ASR
                                                                     Word Error Rate,
                                                                     Sentence Error Rate

                         Kwestionariusze satysfakcji uzytkownika




K.Marasek
15.12.2008
Eksperymenty w projekcie LUNA
                       Nagrania dialogów człowiek-człowiek – 500 dialogów
                              Transliteracja i transkrypcja akustyczna
                              Analiza składniowa
                              Analiza semantyczna – wydzielenie konceptów
                              Trening modeli konceptów
                              Rozpoznawanie konceptów
                       Nagrania dialogów WoZ – 500 dialogów
Katedra Multimediów




                           Podobna analiza




                       Cel:
                           stworzenie systemu rozumiejącego koncepty użytkownika
                           Uproszczenie dialogu: user initiative




K.Marasek
15.12.2008
Serwisy głosowe speechprime.pl
                       Mowa to najbardziej naturalny sposób porozumiewania się ludzi, ale
                        niekoniecznie idealny sposób na dogadanie się z komputerem
                       Ze względu na ograniczenia techniczne póki co dla języka polskiego
                        nie ma szans na pełny dialog z komputerem
                       Aby interfejs głosowy był użyteczny musi być bardzo dokładnie
                        przemyślany i starannie przetestowany
Katedra Multimediów




                       Korzystanie z takiego interfejsu głosowego może sprawdzić
                        satysfakcję użytkownikowi




                       Strona techniczna:
                           Własny ASR: rozpoznawanie izolowanych fraz
                           TTS: Loquendo i dużo nagrań mówcy
                           Własny nadzorca dialogu
                           System wielowątkowy: obsługa wielu linii telefonicznych równocześnie, automatyczne
                            przełączanie do aktualnie wolnego operatora (system logowania dla operatorów)
                           Platforma telefonii: Dialogic Diva


K.Marasek
15.12.2008
Portal głosowy PJWSTK
                       Portal głosowy PJWSTK
Katedra Multimediów




K.Marasek
15.12.2008
Statystyki użycia PJWSTK
                       dziekanat 73%
                        rekrutacja 6%
                        rektorat 3%
                        księgowość 2%
                        Patrycja Szymańska 0.8%
                        Paulina Wojtczak 0.7%
                        portiernia 0.6%
Katedra Multimediów




                        Jan Jedliński 0.6%




K.Marasek
15.12.2008
Infolinia ZTM

                                        Rozkład
                                         jazdy



                                                      Jak
                      aktualności
Katedra Multimediów




                                                    dojechać




                                      94-84
                                                    Zgłoszenie
                      Ulgi biletowe
                                                      skargi



                                          Taryfa
                                       przewozowa


K.Marasek
15.12.2008
Statystyki użycia ZTM
                       rozkład jazdy 42%
                        jak dojechać 31%
                        skargi 13%
                        ulgi 5%
                        taryfa 4%
                        aktualności 3%
Katedra Multimediów




                       Często dzwonią osoby
                        starsze - dostępność




K.Marasek
15.12.2008
Struktura dialogu
Katedra Multimediów




K.Marasek
15.12.2008
Znane problemy
                       PJWSTK:                              ZTM:
                          Aktualizacje bazy numerów            Naciśnij dowolny klawisz -> naciśnij 0
                           wewnętrznych                         Za trzecim błędem prosi o wciśnięcie „0”
                          Słaba współpraca z WWW               Za czwartym błędem sam łączy do
                              Ogłoszenia – parsing <br/>        operatora
                               <br/> <br/>
                                                                „na jaki dzień” – pierwsza opcja: „dzisiaj”
Katedra Multimediów




                          Błędy w RSS
                                                                Koniec rozmowy: użytkownik mówił
                                                                 „dziękuje” a system odpowiadał: „nie
                       W planach do dodania:                    rozumiem” – teraz odpowiada „dziękuje
                          poczta głosowa (zostaw                za rozmowę”
                           wiadomość): wymaga pewnych           Do tej pory często używane są aparaty
                           zmian w centrali telefonicznej        telefoniczne z tarczą – brak możliwości
                                                                 wybierania tonalnego
                                                             W planach do dodania
                                                                Rozszerzenie systemu na 6 linii

                                                                Outbound: dzwonienie do klienta
                                                                Serwisy dla osób niepełnosprawnych
                                                                Standaryzacja: VoiceXML,


K.Marasek
15.12.2008
Czas na podsumowanie
                       Mowa to najbardziej naturalny sposób porozumiewania się ludzi, ale niekoniecznie
                        idealny sposób na dogadanie się z komputerem
                       Ze względu na ograniczenia techniczne póki co dla języka polskiego nie ma szans
                        na pełny dialog z komputerem
                       Aby interfejs głosowy był użyteczny musi być bardzo dokładnie przemyślany i
                        starannie przetestowany
                       Korzystanie z takiego interfejsu głosowego może sprawdzić satysfakcję
Katedra Multimediów




                        użytkownikowi




K.Marasek
15.12.2008
Dziękuje za uwagę!
Katedra Multimediów




                                

                      kmarasek@pjwstk.edu.pl



K.Marasek
15.12.2008

Contenu connexe

En vedette

Ita b2 ms 23 9-15
Ita b2 ms 23 9-15Ita b2 ms 23 9-15
Ita b2 ms 23 9-15SpaanIt
 
Bill nichols-la-representacion-de-la-realidad-pdf
Bill nichols-la-representacion-de-la-realidad-pdfBill nichols-la-representacion-de-la-realidad-pdf
Bill nichols-la-representacion-de-la-realidad-pdfmanual comic
 
Negociacion japonesa
Negociacion japonesaNegociacion japonesa
Negociacion japonesaliandola
 
Erasmus plus school presentation - students
Erasmus plus   school presentation - studentsErasmus plus   school presentation - students
Erasmus plus school presentation - studentsAndrea Ljubej
 
Hackfest presentation.pptx
Hackfest presentation.pptxHackfest presentation.pptx
Hackfest presentation.pptxPeter Yaworski
 
Heidegger, martín ser y tiempo
Heidegger, martín   ser y tiempoHeidegger, martín   ser y tiempo
Heidegger, martín ser y tiempomanual comic
 

En vedette (8)

Ita b2 ms 23 9-15
Ita b2 ms 23 9-15Ita b2 ms 23 9-15
Ita b2 ms 23 9-15
 
Bill nichols-la-representacion-de-la-realidad-pdf
Bill nichols-la-representacion-de-la-realidad-pdfBill nichols-la-representacion-de-la-realidad-pdf
Bill nichols-la-representacion-de-la-realidad-pdf
 
Negociacion japonesa
Negociacion japonesaNegociacion japonesa
Negociacion japonesa
 
Efecte hivernacle
Efecte hivernacleEfecte hivernacle
Efecte hivernacle
 
Erasmus plus school presentation - students
Erasmus plus   school presentation - studentsErasmus plus   school presentation - students
Erasmus plus school presentation - students
 
Hackfest presentation.pptx
Hackfest presentation.pptxHackfest presentation.pptx
Hackfest presentation.pptx
 
Marzo
MarzoMarzo
Marzo
 
Heidegger, martín ser y tiempo
Heidegger, martín   ser y tiempoHeidegger, martín   ser y tiempo
Heidegger, martín ser y tiempo
 

Plus de World Usability Day Tour 2009

WUD 2009 - Usability a Playability, czyli boxy, diagramy i coś więcej
WUD 2009 - Usability a Playability, czyli boxy, diagramy i coś więcejWUD 2009 - Usability a Playability, czyli boxy, diagramy i coś więcej
WUD 2009 - Usability a Playability, czyli boxy, diagramy i coś więcejWorld Usability Day Tour 2009
 
WUD 2009 - Wyzwania w projektowaniu aplikacji mobilnych
WUD 2009 - Wyzwania w projektowaniu aplikacji mobilnychWUD 2009 - Wyzwania w projektowaniu aplikacji mobilnych
WUD 2009 - Wyzwania w projektowaniu aplikacji mobilnychWorld Usability Day Tour 2009
 
WUD 2009 - Użyteczność w Internecie okiem Interaktywnie.com
WUD 2009 - Użyteczność w Internecie okiem Interaktywnie.comWUD 2009 - Użyteczność w Internecie okiem Interaktywnie.com
WUD 2009 - Użyteczność w Internecie okiem Interaktywnie.comWorld Usability Day Tour 2009
 
WUD 2009 - Serwisy globalnych linii lotniczych a ich dostosowanie do lokalnyc...
WUD 2009 - Serwisy globalnych linii lotniczych a ich dostosowanie do lokalnyc...WUD 2009 - Serwisy globalnych linii lotniczych a ich dostosowanie do lokalnyc...
WUD 2009 - Serwisy globalnych linii lotniczych a ich dostosowanie do lokalnyc...World Usability Day Tour 2009
 
WUD 2009 - Co chcą zobaczyć klienci sklepów elektronicznych?
WUD 2009 - Co chcą zobaczyć klienci sklepów elektronicznych?WUD 2009 - Co chcą zobaczyć klienci sklepów elektronicznych?
WUD 2009 - Co chcą zobaczyć klienci sklepów elektronicznych?World Usability Day Tour 2009
 
WUD 2009 - Krótko i na temat - słów klika o pisaniu do Internetu
WUD 2009 - Krótko i na temat - słów klika o pisaniu do InternetuWUD 2009 - Krótko i na temat - słów klika o pisaniu do Internetu
WUD 2009 - Krótko i na temat - słów klika o pisaniu do InternetuWorld Usability Day Tour 2009
 
WUD 2009 - Różne sposoby badania użyteczności w społecznościach internetowych
WUD 2009 - Różne sposoby badania użyteczności w społecznościach internetowychWUD 2009 - Różne sposoby badania użyteczności w społecznościach internetowych
WUD 2009 - Różne sposoby badania użyteczności w społecznościach internetowychWorld Usability Day Tour 2009
 
WUD 2009 - User Experience Design a telefony komórkowe
WUD 2009 - User Experience Design a telefony komórkoweWUD 2009 - User Experience Design a telefony komórkowe
WUD 2009 - User Experience Design a telefony komórkoweWorld Usability Day Tour 2009
 
WUD 2009 - Badania usability receptą na serwis przyjazny "na bank". Case stud...
WUD 2009 - Badania usability receptą na serwis przyjazny "na bank". Case stud...WUD 2009 - Badania usability receptą na serwis przyjazny "na bank". Case stud...
WUD 2009 - Badania usability receptą na serwis przyjazny "na bank". Case stud...World Usability Day Tour 2009
 
WUD 2009 - Użyteczność rozwiązań personalizacyjnych
WUD 2009 - Użyteczność rozwiązań personalizacyjnychWUD 2009 - Użyteczność rozwiązań personalizacyjnych
WUD 2009 - Użyteczność rozwiązań personalizacyjnychWorld Usability Day Tour 2009
 
WUD 2009 - Co należy uwzględnić projektując firmową stronę internetową dla fi...
WUD 2009 - Co należy uwzględnić projektując firmową stronę internetową dla fi...WUD 2009 - Co należy uwzględnić projektując firmową stronę internetową dla fi...
WUD 2009 - Co należy uwzględnić projektując firmową stronę internetową dla fi...World Usability Day Tour 2009
 

Plus de World Usability Day Tour 2009 (20)

WUD 2009 - Usability a Playability, czyli boxy, diagramy i coś więcej
WUD 2009 - Usability a Playability, czyli boxy, diagramy i coś więcejWUD 2009 - Usability a Playability, czyli boxy, diagramy i coś więcej
WUD 2009 - Usability a Playability, czyli boxy, diagramy i coś więcej
 
WUD 2009 - Ewolucja interface'ów aplikacji
WUD 2009 - Ewolucja interface'ów aplikacjiWUD 2009 - Ewolucja interface'ów aplikacji
WUD 2009 - Ewolucja interface'ów aplikacji
 
WUD 2009 - Wyzwania w projektowaniu aplikacji mobilnych
WUD 2009 - Wyzwania w projektowaniu aplikacji mobilnychWUD 2009 - Wyzwania w projektowaniu aplikacji mobilnych
WUD 2009 - Wyzwania w projektowaniu aplikacji mobilnych
 
WUD 2009 - Użyteczność w Internecie okiem Interaktywnie.com
WUD 2009 - Użyteczność w Internecie okiem Interaktywnie.comWUD 2009 - Użyteczność w Internecie okiem Interaktywnie.com
WUD 2009 - Użyteczność w Internecie okiem Interaktywnie.com
 
WUD 2009 - Serwisy globalnych linii lotniczych a ich dostosowanie do lokalnyc...
WUD 2009 - Serwisy globalnych linii lotniczych a ich dostosowanie do lokalnyc...WUD 2009 - Serwisy globalnych linii lotniczych a ich dostosowanie do lokalnyc...
WUD 2009 - Serwisy globalnych linii lotniczych a ich dostosowanie do lokalnyc...
 
WUD 2009 - Czy zrobienie czegoś użytecznego boli?
WUD 2009 - Czy zrobienie czegoś użytecznego boli?WUD 2009 - Czy zrobienie czegoś użytecznego boli?
WUD 2009 - Czy zrobienie czegoś użytecznego boli?
 
WUD 2009 - Co chcą zobaczyć klienci sklepów elektronicznych?
WUD 2009 - Co chcą zobaczyć klienci sklepów elektronicznych?WUD 2009 - Co chcą zobaczyć klienci sklepów elektronicznych?
WUD 2009 - Co chcą zobaczyć klienci sklepów elektronicznych?
 
WUD 2009 - Akcelerator Designu
WUD 2009 - Akcelerator DesignuWUD 2009 - Akcelerator Designu
WUD 2009 - Akcelerator Designu
 
WUD 2009 - Krótko i na temat - słów klika o pisaniu do Internetu
WUD 2009 - Krótko i na temat - słów klika o pisaniu do InternetuWUD 2009 - Krótko i na temat - słów klika o pisaniu do Internetu
WUD 2009 - Krótko i na temat - słów klika o pisaniu do Internetu
 
WUD 2009 - Trzy poziomy User Experience
WUD 2009 - Trzy poziomy User ExperienceWUD 2009 - Trzy poziomy User Experience
WUD 2009 - Trzy poziomy User Experience
 
WUD 2009 - Użyteczna magia Google Analytics
WUD 2009 - Użyteczna magia Google AnalyticsWUD 2009 - Użyteczna magia Google Analytics
WUD 2009 - Użyteczna magia Google Analytics
 
WUD 2009 - Różne sposoby badania użyteczności w społecznościach internetowych
WUD 2009 - Różne sposoby badania użyteczności w społecznościach internetowychWUD 2009 - Różne sposoby badania użyteczności w społecznościach internetowych
WUD 2009 - Różne sposoby badania użyteczności w społecznościach internetowych
 
WUD 2009 - User Experience Design a telefony komórkowe
WUD 2009 - User Experience Design a telefony komórkoweWUD 2009 - User Experience Design a telefony komórkowe
WUD 2009 - User Experience Design a telefony komórkowe
 
WUD 2009 - Inicjatywa UX Book Club w Polsce
WUD 2009 - Inicjatywa UX Book Club w PolsceWUD 2009 - Inicjatywa UX Book Club w Polsce
WUD 2009 - Inicjatywa UX Book Club w Polsce
 
WUD 2009 - Badania usability receptą na serwis przyjazny "na bank". Case stud...
WUD 2009 - Badania usability receptą na serwis przyjazny "na bank". Case stud...WUD 2009 - Badania usability receptą na serwis przyjazny "na bank". Case stud...
WUD 2009 - Badania usability receptą na serwis przyjazny "na bank". Case stud...
 
WUD 2009 - Użyteczność rozwiązań personalizacyjnych
WUD 2009 - Użyteczność rozwiązań personalizacyjnychWUD 2009 - Użyteczność rozwiązań personalizacyjnych
WUD 2009 - Użyteczność rozwiązań personalizacyjnych
 
WUD 2009 - Użyteczność systemów CMS
WUD 2009 - Użyteczność systemów CMSWUD 2009 - Użyteczność systemów CMS
WUD 2009 - Użyteczność systemów CMS
 
WUD 2009 - Co należy uwzględnić projektując firmową stronę internetową dla fi...
WUD 2009 - Co należy uwzględnić projektując firmową stronę internetową dla fi...WUD 2009 - Co należy uwzględnić projektując firmową stronę internetową dla fi...
WUD 2009 - Co należy uwzględnić projektując firmową stronę internetową dla fi...
 
WUD 2009 - A po co mi usability?
WUD 2009 - A po co mi usability?WUD 2009 - A po co mi usability?
WUD 2009 - A po co mi usability?
 
A po co mi usability?
A po co mi usability?A po co mi usability?
A po co mi usability?
 

WUD 2009 - Użyteczność interfejsów głosowych

  • 1. Katedra Multimediów Użyteczność interfejsów głosowych Krzysztof Marasek Polsko-Japońska Wyższa Szkoła Technik Komputerowych 02-008 Warszawa, Koszykowa 86 kmarasek@pjwstk.edu.pl K.Marasek 15.12.2008
  • 2. Plan prezentacji  Dlaczego mowa?  Elementy systemu dialogowego:  Rozpoznawanie mowy  Synteza mowy  Nadzorca dialogu Katedra Multimediów  Komunikacja głosowa człowiek-komputer  Ograniczenia w stosunku do komunikacji człowiek-człowiek  Ograniczenia technologiczne  Aspekty użyteczności interfejsu głosowego  Znaczenie poprawnych promptów  Testy, testy, testy  Co możemy zrobić dla języka polskiego?  Podsumowanie K.Marasek 15.12.2008
  • 3. Komunikacja człowiek - maszyna  Graficzny interfejs użytkownika Katedra Multimediów  Komunikacja za pomocą mowy To przyszłość  Komunikacja multimodalna: jw.+ wskazywanie  Czy to wszystko? Nie: haptic, BCI (brain/computer interface) K.Marasek 15.12.2008
  • 4. Dlaczego mowa jako medium komunikacji? How to Interact with Future Systems? Hartmut Raffler, Siemens AG, AIK-Symposium, Usability Engineering, 10/04 The Challenges  Small devices speech Katedra Multimediów  Service robots speech and gestures, artificial skin, emotions  Federation of Systems speech and gestures,emotions (problem: knowledge representation)  e-Business active dialogue systems interactive multimedia  Augmented reality systems speech, gestures In the future conversational interfaces which are sensitive to the user’s attention will play the most important role. K.Marasek 15.12.2008
  • 5. Architektura systemu dialogowego Katedra Multimediów De Mori, 99 K.Marasek 15.12.2008
  • 6. Mowa w komunikacji człowiek-maszyna  komunikacji człowiek-maszyna: wymiana informacji zakodowanej w taki sposób, by mogła być przesłana przez dostępne fizyczne medium  Kodowanie: proces przygotowania reprezentacji informacji  Źródła wiedzy: reguły niezbędne do zbudowania symbolicznej wersji informacji i jej przesłania poprzez kanał transmisyjny  Dekodowanie: modele źródeł wiedzy używane przez komputer: deterministyczne, lecz Katedra Multimediów często nieprecyzyjne kodowanie Czesc! zdania frazy słowa litery dekodowanie  Niech sekwencja parametrów akustycznych X=x1..xN jest wyjściem kanału komunikacyjnego. Jeśli intencją mówcy było wypowiedzenie sekwencji słów W=W1…WK to X jest zakodowaną wersją W Źródło W Kanał X informacji komunikacji K.Marasek 15.12.2008
  • 7. Modelowanie statystyczne w ARM Obliczane jako odległość od modeli Prawdopodobieństwo a priori Prawdopodobieństwo a priori sekwencji słów W akustycznego sygnału A dla znanej sekwencji słów W Podejście Bayesa P( A | W ) P(W ) Katedra Multimediów P(W | A) P( A) Najbardziej prawdopodobna sekwencja słów W dla danego sygnału Prawdopodobieństwo a priori sygnału akustycznego A akustycznego A Zwykle w metodzie HMM: arg max W* p ( A,W ) W (W –model słowa) K.Marasek 15.12.2008
  • 8. Jakie są ograniczenia techniczne ARM (speaker-independent)?  Rozpoznawanie cyfr przez telefon – digits 2k spontaneous 1k read 20k read stopa błędu 0.3% 64 k broadcast 10k conversational  Stopa błędu maleje dwukrotnie co 2 100 lata dla ARM o średniej wielkości słownika  Stopa błędów rozpoznawania mowy Katedra Multimediów spontanicznej jest co najmniej 10 dwukrotnie większa niż dla czytania  Stopa błędów jest wysoka dla konwersacji wielu mówców w trudnym akustycznie środowisku  Konieczne są wielogodzinne nagrania 1 treningowe aby przenieść system z jednego środowiska do innego  Następuje wyraźne polepszenie wyników statystycznego modelowania 0.1 w połączeniu z automatycznym uczeniem systemów  ASR da się używać! MIT,2005 K.Marasek 15.12.2008
  • 9. Nasze wyniki  LVCSR: rozpoznawanie mowy ciągłej, dowolny mówca, słownik 30k słów, 16 mówców, 433 zdania z bazy SpeeCon  HTK Results: SENT: %Correct=33.24 [H=119, S=239, N=358] WORD: %Corr=87.17, Acc=86.51 [H=3852, D=324, S=243, I=29, N=4419]  JRTk Results: Katedra Multimediów SENT: %Correct=55.66 [H=241, S=192, N=433] WORD: %Corr=93.95, Acc=92.14 [H=5018, D=56, S=267, I=97, N=5341]  Rozpoznawanie izolowanych fraz: słownik ok 1000 słów: WORD: %Corr=97,3% K.Marasek 15.12.2008
  • 10. Synteza mowy  regułowa  formantowa  artykulacyjna  konkatenacyjna  difonowa  korpusowa Katedra Multimediów K.Marasek 15.12.2008
  • 11. Telefoniczny system dialogowy Katedra Multimediów ATT, 2001 K.Marasek 15.12.2008
  • 12. Systemy dialogowe  Zależne od aplikacji (struktura dialogu i treść)  System o skończonej ilości stanów (zwykle dla określonej domeny dialogu)  Systemy typu chatter-bot (niezależne od domeny?) Katedra Multimediów  Kto ma inicjatywę (komputer, człowiek, mieszana)  Detekcja konceptów i ich łączenie (wyszukiwanie istotnych treści i konkluzje)  Koncepcja i generowanie tekstów (generacja kontekstowo zależnej odpowiedzi) K.Marasek 15.12.2008
  • 13. Komunikacja międzyludzka a komunikacja głosowa człowiek-komputer  Komunikacja międzyludzka  Warstwa lingwistyczna – tekst wypowiedzi  Warstwa paralingwistyczna – nasz stosunek do tego tekstu  Warstwa ekstralingwistyczna – cechy mówcy, jego status społeczny Katedra Multimediów  Komunikacja głosowa człowiek – komputer  brak przekazu treści emocjonalnych  węższy i czasowo-zależny kontekst przekazu (ile słów jesteśmy w stanie zapamiętać?) w porównaniu z GUI  ograniczenia technologii rozpoznawania i syntezy mowy (błędy ASR, nienaturalność SS, ograniczone gramatyki, słowniki i analiza semantyczna)  Pośrednictwo konstruktora systemu (skąd on wie jak ja chcę zapytać?) K.Marasek 15.12.2008
  • 14. Recepty na dobry interfejs głosowy  Kierowanie się zasadami użyteczności – przygotowanie serwisów  używanych przez określonych użytkowników,  w określonych warunkach,  w określonej potrzebie  Sensowna struktura systemu (nawet prostego)  Barge-in (przerywane komputerowi)  Użycie zawsze dostępnych komend kluczowych (Przerwij, Wróć, Zacznij od początku) Katedra Multimediów  Potwierdzanie wprowadzenia danych  Jasna procedura korekcji i unikania błędów  Tutorial dla nowych użytkowników, szybkie wprowadzanie danych dla zaawansowanych użytkowników  Staranne przygotowanie promptów (wypowiedzi komputera)  Reguła 7+/- 2 – zwięzłość i precyzja  Wykorzystywanie słów rozpoznawanych przez ASR (adaptacja użytkownika)  Użycie dodatkowych promptów (rozszerzonych) przy braku reakcji użytkownika lub skracanie promptów przy szybkich reakcjach użytkownika,  Sensowne i poprawne językowo odpowiedzi (generacja tekstu), nadanie osobowości  Doskonałe rozpoznawanie mowy  Efektywne i elastyczne gramatyki, zbalansowany słownik  Wykorzystywanie miary wiarygodności hipotezy ASR K.Marasek 15.12.2008
  • 15. Testy, testy, testy  Iteracyjny design  Eksperymenty Wizard-of-Oz (np. SUEDE) Katedra Multimediów  Iteracyjne testowanie prototypu Zue, 01 K.Marasek 15.12.2008
  • 16. Miary jakości interfejsu głosowego  Query Density, opisująca ilość nowych Nd koncepcji wprowadzonych w pytaniu 1 N u (i) użytkownika QD Nd i 1 N q (i ) Nd- ilość dialogów, Nq(i)- całkowita ilość zapytań użytkownika w i-tym dialogu, Nu(i)- ilość unikalnych zapytań Nd 1 N u (i ) Katedra Multimediów  Concept Efficiency, mierząca średnią ilość wypowiedzi konieczną do CE zrozumienia danego konceptu przez Nd i 1 N c (i ) system Nd- ilość dialogów, Nc(i)- całkowita ilość konceptów w i-tym dialogu, Nu(i)- ilość unikalnych zapytań  Miary jakości ASR Word Error Rate, Sentence Error Rate  Kwestionariusze satysfakcji uzytkownika K.Marasek 15.12.2008
  • 17. Eksperymenty w projekcie LUNA  Nagrania dialogów człowiek-człowiek – 500 dialogów  Transliteracja i transkrypcja akustyczna  Analiza składniowa  Analiza semantyczna – wydzielenie konceptów  Trening modeli konceptów  Rozpoznawanie konceptów  Nagrania dialogów WoZ – 500 dialogów Katedra Multimediów  Podobna analiza  Cel:  stworzenie systemu rozumiejącego koncepty użytkownika  Uproszczenie dialogu: user initiative K.Marasek 15.12.2008
  • 18. Serwisy głosowe speechprime.pl  Mowa to najbardziej naturalny sposób porozumiewania się ludzi, ale niekoniecznie idealny sposób na dogadanie się z komputerem  Ze względu na ograniczenia techniczne póki co dla języka polskiego nie ma szans na pełny dialog z komputerem  Aby interfejs głosowy był użyteczny musi być bardzo dokładnie przemyślany i starannie przetestowany Katedra Multimediów  Korzystanie z takiego interfejsu głosowego może sprawdzić satysfakcję użytkownikowi  Strona techniczna:  Własny ASR: rozpoznawanie izolowanych fraz  TTS: Loquendo i dużo nagrań mówcy  Własny nadzorca dialogu  System wielowątkowy: obsługa wielu linii telefonicznych równocześnie, automatyczne przełączanie do aktualnie wolnego operatora (system logowania dla operatorów)  Platforma telefonii: Dialogic Diva K.Marasek 15.12.2008
  • 19. Portal głosowy PJWSTK  Portal głosowy PJWSTK Katedra Multimediów K.Marasek 15.12.2008
  • 20. Statystyki użycia PJWSTK  dziekanat 73% rekrutacja 6% rektorat 3% księgowość 2% Patrycja Szymańska 0.8% Paulina Wojtczak 0.7% portiernia 0.6% Katedra Multimediów Jan Jedliński 0.6% K.Marasek 15.12.2008
  • 21. Infolinia ZTM Rozkład jazdy Jak aktualności Katedra Multimediów dojechać 94-84 Zgłoszenie Ulgi biletowe skargi Taryfa przewozowa K.Marasek 15.12.2008
  • 22. Statystyki użycia ZTM  rozkład jazdy 42% jak dojechać 31% skargi 13% ulgi 5% taryfa 4% aktualności 3% Katedra Multimediów  Często dzwonią osoby starsze - dostępność K.Marasek 15.12.2008
  • 24. Znane problemy  PJWSTK:  ZTM:  Aktualizacje bazy numerów  Naciśnij dowolny klawisz -> naciśnij 0 wewnętrznych  Za trzecim błędem prosi o wciśnięcie „0”  Słaba współpraca z WWW  Za czwartym błędem sam łączy do  Ogłoszenia – parsing <br/> operatora <br/> <br/>  „na jaki dzień” – pierwsza opcja: „dzisiaj” Katedra Multimediów  Błędy w RSS  Koniec rozmowy: użytkownik mówił „dziękuje” a system odpowiadał: „nie  W planach do dodania: rozumiem” – teraz odpowiada „dziękuje  poczta głosowa (zostaw za rozmowę” wiadomość): wymaga pewnych  Do tej pory często używane są aparaty zmian w centrali telefonicznej telefoniczne z tarczą – brak możliwości wybierania tonalnego  W planach do dodania  Rozszerzenie systemu na 6 linii  Outbound: dzwonienie do klienta  Serwisy dla osób niepełnosprawnych  Standaryzacja: VoiceXML, K.Marasek 15.12.2008
  • 25. Czas na podsumowanie  Mowa to najbardziej naturalny sposób porozumiewania się ludzi, ale niekoniecznie idealny sposób na dogadanie się z komputerem  Ze względu na ograniczenia techniczne póki co dla języka polskiego nie ma szans na pełny dialog z komputerem  Aby interfejs głosowy był użyteczny musi być bardzo dokładnie przemyślany i starannie przetestowany  Korzystanie z takiego interfejsu głosowego może sprawdzić satysfakcję Katedra Multimediów użytkownikowi K.Marasek 15.12.2008
  • 26. Dziękuje za uwagę! Katedra Multimediów  kmarasek@pjwstk.edu.pl K.Marasek 15.12.2008