SlideShare une entreprise Scribd logo
1  sur  65
Télécharger pour lire hors ligne
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 1
REPUBLIQUE DU SENEGAL
UN PEUPLE-UN BUT-UNE FOI
---------------------
Ministère de l’Enseignement Supérieur et de la Recherche
Direction de l’Enseignement Supérieur
------------------------------
Av. Bourguiba prolongée × Front de terre BP : 5549 Dakar-Fann Tel : 33 827 28 89.Fax : 33 867 11 17
Email : estm@orange.sn/www.estm.sn
MEMOIRE DE FIN DE CYCLE
Pour l’obtention de :
DIPLOME DE LICENCE PROFESSIONNELLE EN TELEINFORMATIQUE
Option :
TELECOMMUNICATIONS ET RESEAUX
Soutenu et présenté par :
Joseph KAPOU
Email : josepkap@hotmail.fr
Encadré par :
M. Christian OUDANG
Email : christianoud@gmail.com
Année universitaire 2011-2012
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 2
Dédicace
JE DEDIE LE FRUIT DE CE TRAVAIL
A MES PARENTS
A qui
Je Dois, Ce Que, Je Suis Aujourd’hui
Que La Paix De Dieu Le Tout Miséricordieux
& Sa Miséricorde Les accompagne
Que Dieu Les Protège
& Leur Accorde Une Bonne Santé
&Une Longue Vie
A MES FRERES & SŒURS
Pour Leurs Encouragements Continus
Que Dieu Les Protège
& Leur accorde Une Bonne Santé
& Une Longue Vie
A LA MESM
(Mission d’Evangélisation pour le Salut du Monde)
Que Dieu, Le Tout Puissant Seigneur
Continu D’Œuvrer, Au
Travers De Ses Serviteurs Qu’Il y a Etabli,
Avec Puissance Et Amour
Dans La Délivrance De Son Peuple
Et Pour Sauver Ceux Qui Sont Perdus
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 3
Remerciements
C’est avec un grand plaisir que je réserve ces lignes en signe de gratitude et
de reconnaissance à tous ceux qui ont contribué de près ou de loin à l’élaboration de ce
travail.
Je tiens à remercier vivement, le Tout Puissant Dieu à travers son fils Jésus, qui m’a
accordé la santé, l’intelligence, le courage, la détermination dans la réalisation de ce projet.
J’exprime ma reconnaissance à mon encadreur Mr. Christian OUDANG à qui sa grande
culture scientifique, sa disponibilité et sa simplicité sont autant d’éléments qui ont
favorisé la réalisation de ce travail.
La qualité de ce projet fut enrichie par l’apport de l’imminent Dr. Samuel OUYA. Qu’il
reçoive également toute ma gratitude pour les suggestions et conseils qu’il a pu me
prodiguer.
Mes remerciements vont également à l’administration de l’ESTM et au corps professoral
qui grâce à la qualité de la formation qu’ils m’ont donnée m’a conduit à réaliser ce projet.
Mes plus tendres pensées iront vers ma famille (Othniel, Evodie, Nathan, Eliel, Merveille de
Dieu, Emmanuel, Abraham), et surtout mes parents (Théodore et Anicette KAPOU), qui
m’auront permis de poursuivre mes études jusqu’à aujourd’hui et m’auront également aidé
dans les périodes de doute.
Ces remerciements ne seraient pas complets sans une pensée pour mes amis de longue
date, Mérimée GUEZEWANE, Bellarmin MIANSI, Léonel FEINDIRONGAI, Nathan Vladimir
FEIKERAM. Merci de m’avoir aidé et encouragé, et pour m’avoir changé les idées quand j’en
avais besoin.
Enfin pour paraphraser une expression de reconnaissance de chez moi, à vous que j’ai
nommé et à vous tous qui avez participé dans l’anonymat à ma formation, notez ceci «
lorsque le soleil rayonne, sachez que c’est moi qui vous exprime ma gratitude ».
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 4
Avant-propos
L’École Supérieure de Technologie et de Management (ESTM) est une école privée
d’enseignement supérieur universitaire et professionnel, créée par des universitaires et
des professionnels des secteurs de nouvelles technologies de l’information et de la
gestion. Les cours sont dispensés par des enseignants qui sont des universitaires et des
professionnels dans les secteurs concernés.
La pédagogie de l’Ecole Supérieure de Technologie et de Management comme celle de
toutes les grandes écoles est de participer en collaboration avec l’étudiant à la recherche
de stage de fin d’études. Le stage en entreprise est un moment privilégié de mise en
pratique des enseignements reçus. Il permet tout d’abord à l’étudiant de faire une
application réelle des connaissances théoriques. Ensuite, il emmène l’étudiant à
transformer les acquis pédagogiques en savoir-faire et savoir être, lui permettant de se
positionner dans le milieu professionnel ainsi, de s’impliquer comme un acteur véritable
dans le processus de l’entreprise. En outre, il doit permettre à l’étudiant de mettre en
évidence, son niveau de maturité, son autonomie et sa capacité à s’évaluer en dehors du
milieu scolaire, dans le strict respect des règles du monde du travail.
A la fin de ce stage, l’étudiant doit produire un mémoire et le soutenir devant un jury. Ce
document décrit les activités effectuées au sein de la structure d’accueil en rapport avec
un sujet ou projet qui lui a été confié. C’est dans ce cadre que nous venons à présenter
notre document.
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 5
Abstract
The introduction of the voice as additional form of communication to deploy applications
certainly revolutionized the world of computing as a way to access the information without a
computer. Indeed, has been a liability in recent years, since people are always connected in
network, especially in the rural world. The use of interactive voice servers (IVR) has
significantly improved the availability of information and voice applications have continuous
access to data remotely with accessible tools for any category of population (the phone is an
example).
This thesis gets in a scientific exploration because this area is recent and most solutions are
owners. Thus, in general we focused voice servers, and in particular on voice server "Open
Sources". The result enables us to choose Asterisk for the implementation of a voice
application. To validate the proper functioning of our implementation, we have adapted this
work to the consultation (notes, information about the school) for students remotely by
telephone, and to a permanent contact with the administration.
Another aspect of the work is the improvement of our Asterisk platform. Indeed, voice
applications have added an additional level of communication between human and artificial
systems. However, the ability to transform text (words) in vocal form is not as flexible as we
could imagine. Thus, this improvement aims mainly to change the voice synthesis engine
that offers Asterisk by an another synthesizer, capable of reading words, because the voice
synthesis engine before it reads only numbers, which is a major brake having regard to the
general objectives of the project.
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 6
Table des matières
Dédicace .................................................................................................................................................. 2
Remerciements ....................................................................................................................................... 3
Avant-propos........................................................................................................................................... 4
Abstract ................................................................................................................................................... 5
Table de figures....................................................................................................................................... 9
Table de tableaux .................................................................................................................................. 10
Introduction........................................................................................................................................... 11
Problématique....................................................................................................................................... 12
1. Mise en contexte....................................................................................................................... 12
2. Importance de la question ........................................................................................................ 12
PREMIERE PARTIE.................................................................................................................................. 13
CHAPITRE I. PRESENTATION DE L’ESTM............................................................................................ 14
I.1. Présentation .......................................................................................................................... 14
I.2. Présentation des départements............................................................................................ 14
I.3. Organigramme de l’ESTM...................................................................................................... 15
I.4. Le réseau de l’ESTM............................................................................................................... 15
CHAPITRE II. ETUDE SUR LES SERVEURS VOCAUX INTERCTIFS....................................................... 16
I. Etat de l’art des Serveurs Vocaux Interactifs................................................................................. 16
I.1. Définition............................................................................................................................... 16
I.2. Rôle d’un SVI.......................................................................................................................... 16
I.3. Les domaines d’applications des SVI..................................................................................... 17
I.4. Les types de base d’un SVI .................................................................................................... 18
I.4.1. La borne d’information.................................................................................................. 18
I.4.2. Le standard téléphonique ............................................................................................. 18
I.4.3. Le Couplage Téléphonie Informatique.......................................................................... 19
I.4.4. Les fonctionnalités annexes .......................................................................................... 19
II. Fonctionnement d’un SVI.............................................................................................................. 20
III. Les technologies composantes de SVI....................................................................................... 21
III.1. L’architecture matérielle....................................................................................................... 22
III.2. L’architecture logicielle ......................................................................................................... 22
IV. L’interaction Clients-SVI / SVI-Clients........................................................................................ 23
IV.1. Interaction Clients-SVI........................................................................................................... 23
IV.1.1. Les touches DTMF......................................................................................................... 23
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 7
IV.1.2. La reconnaissance vocale ............................................................................................. 24
IV.2. Interactions SVI-Clients ......................................................................................................... 25
IV.2.1. Annonce avec un fond sonore....................................................................................... 25
IV.2.2. Annonces classiques..................................................................................................... 25
V. La synthèse vocale......................................................................................................................... 26
V.1. Mbrola................................................................................................................................... 26
V.2. Lia_Phon................................................................................................................................ 27
V.3. Liambrola............................................................................................................................... 27
CHAPITRE III. ETUDE DES DIFFERENTES SOLUTIONS DE SVI............................................................ 28
I. La plateforme WebSphere ............................................................................................................ 28
I.1. Architecture........................................................................................................................... 28
I.2. Caractéristiques..................................................................................................................... 30
II.3. Avantages et inconvénients .................................................................................................. 31
II.3.1. Avantages ...................................................................................................................... 31
II.3.2. Inconvénients ................................................................................................................ 32
II. La plate-forme Bayonne................................................................................................................ 32
II.1. Architecture........................................................................................................................... 33
II.2. Caractéristiques..................................................................................................................... 33
II.3. Avantages et inconvénients .................................................................................................. 34
II.3.1. Avantages ...................................................................................................................... 34
II.3.2. Inconvénients ................................................................................................................ 35
III. La plate-forme Asterisk ............................................................................................................. 35
III.1. Architecture........................................................................................................................... 36
III.2. Caractéristiques..................................................................................................................... 37
III.3. Fonctionnalités...................................................................................................................... 38
III.4. Avantages et inconvénients .................................................................................................. 38
III.4.1. Avantages ...................................................................................................................... 38
III.4.2. Inconvénients ................................................................................................................ 38
DEUXIEME PARTIE ................................................................................................................................. 40
............................................................................................................................................................... 40
CHAPITRE I. CONCEPTION ET MISE EN OEUVRE D’UN SERVEUR VOCAL INTERACTIF....................... 41
I. Conception .................................................................................................................................... 41
I.1. L’application vocale............................................................................................................... 41
I.2. Le noyau vocal....................................................................................................................... 41
I.3. Le traitement des appels....................................................................................................... 41
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 8
II. Mise en œuvre............................................................................................................................... 42
II.1. L’opérateur téléphonique ..................................................................................................... 42
II.2. Le MIC.................................................................................................................................... 42
II.3. Le simulateur......................................................................................................................... 42
I.4. La carte vocale....................................................................................................................... 42
CHAPITRE II. REALISATION D’UN SERVEUR VOCAL INTERACTIF POUR UNE DEMANDE AU SEIN DE
L’ESTM................................................................................................................................................... 43
I. Choix d’une solution et de l’environnement................................................................................. 43
II. Implémentation de la solution...................................................................................................... 43
II.1. Mise en place du serveur Asterisk......................................................................................... 43
I.1.1. Installation de Linux (Ubuntu 12.04)............................................................................. 43
I.1.2. Installation d’Asterisk.................................................................................................... 43
II.1.3. Configuration du serveur (Asterisk) .............................................................................. 45
II.2. Mise en place de la synthèse vocale ..................................................................................... 52
II.2.1. Application Mbrola........................................................................................................ 52
II.2.2. Application Lia Phon...................................................................................................... 53
II.2.3. Application Liambrola.................................................................................................... 55
III. Test et Scénario................................................................................................................................ 57
............................................................................................................................................................... 57
Conclusion générale et perspective ...................................................................................................... 60
Bibliographie.......................................................................................................................................... 61
Webographie......................................................................................................................................... 61
Glossaire................................................................................................................................................ 62
Annexe................................................................................................................................................... 64
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 9
Table de figures
Figure 1: Organigramme de l'ESTM........................................................................................................15
Figure 2 : Architecture du réseau téléphonique de l’ESTM .............................................................15
Figure 3 : Couplage Téléphonie Informatique.....................................................................................19
Figure 4 : Fonctionnement d’un SVI........................................................................................................21
Figure 5: Tableau récapitulatif des différentes fréquences du standard DTMF ......................24
Figure 6: Processus de la reconnaissance vocale................................................................................24
Figure 7: Processus de la synthèse vocale .............................................................................................26
Figure 8 : Architecture de Websphere....................................................................................................28
Figure 9 : Types de téléphones utilisés avec Websphere..................................................................29
Figure 10 : Dispositif simulant le réseau de téléphonie....................................................................29
Figure 11 : Architecture de Bayonne ......................................................................................................33
Figure 12 : Architecture d’Asterisk..........................................................................................................37
Figure 13 : Carte vocale Digium...............................................................................................................37
Figure 14 : Configuration dans sip.conf.................................................................................................46
Figure 15 : Configuration de plan de numérotation des clients dans extensions.conf...........47
Figure 16: Arborescence de l’application..............................................................................................48
Figure 17: Configuration du fichier extensions.conf pour le serveur vocal ..............................52
Figure 18 : Scénario de test........................................................................................................................57
Figure 19 : Configuration du client X-lite.............................................................................................57
Figure 20 : Aperçu sur la communication entre les utilisateurs et le serveur vocal...............59
Figure 21 : Script agi....................................................................................................................................65
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 10
Table de tableaux
Tableau 1 : Principaux modules du logiciel Asterisk…………………………………………………...44
Tableau 2 : Syntaxe générale pour le fichier sip.conf…………………………………………………...45
Tableau 3 : Syntaxe générale pour le fichier extensions.conf…………………………………….....47
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 11
Introduction
Avec l’émergence de la téléphonie IP, le secteur des services, informatiques et télécoms,
à valeur ajoutée connaît de nos jour un progrès sans précédent. L’avènement du serveur
vocal interactif en est un des plus beaux exemples. Le SVI (Serveur Vocal Interactif) qui
fut l’apanage des grandes entreprises devient accessible aux plus petites. Il fonctionne
souvent avec des messages préenregistrés qu'il diffuse, mais peut aussi utiliser un
synthétiseur vocal pour générer son discours. Le SVI constitue une aide appréciée par
toutes les PME qui veulent optimiser la qualité de leurs services clients, en permettant
notamment une accessibilité 24h/24 et une liaison personnalisée avec les bases de
données de l'entreprise. A cet effet, il convient de se poser la question de savoir : Quelles
méthodologies et technologies mettre en place pour concevoir et développer des
applications permettant à tout un chacun de bien s’informer à temps et avec un
quelconque moyen de communication ?
A ce titre, il s’avère raisonnable de disposer d'une solution efficace et moins coûteuse.
Pour répondre à ce besoin, il existe des logiciels sur le marché, à l'instar d’Asterisk qui
est un logiciel libre.
Asterisk est un IPBX, c'est à dire un commutateur téléphonique qui fonctionne aussi bien
sur le réseau téléphonique traditionnel que sur les nouveaux réseaux Internet (IP). Il
peut être utilisé sur un système d'exploitation à base d'Unix (Linux, BSD, Unix) et sous
les systèmes d'exploitation à base de DOS (Windows 2000, Windows 2003). Aujourd'hui
il est important d'interconnecter les différents PABX ou d’utiliser Asterisk pour effectuer
de différentes tâches sur d'autres ordinateurs. D’où le problème de connexion entre
deux machines UNIX.
Ainsi la recherche à mener dans ce projet doit améliorer la communication entre un
système d’informations et ses utilisateurs au travers de l’analyse et de la conception de
l’interface homme-machine.
Ce faisant, la transformation du texte (mots) sous forme vocale n’est pas une tâche aisée.
C’est ainsi que, l’amélioration que l’on se propose d’apporter vise surtout à changer le
moteur de synthèse vocale que propose Asterisk par un autre synthétiseur capable de
lire des mots, vu que le moteur de synthèse vocale dont il dispose ne lit que des
nombres, ce qui constitue une entrave majeure contenu des objectifs généraux du projet.
C'est dans cette optique que le projet d’ «Étude et Conception d’un serveur vocal
interactif au sein de l’ESTM » nous a été confié.
De ce qui précède, il s’agit d’une part de faire une présentation de l’ESTM, suivie d’une
étude sur les serveurs vocaux interactifs, et d’autre part, de concevoir et réaliser une
application vocale permettant de se renseigner et aussi de programmer un appel au
niveau de l’ESTM, avant de procéder à l’intégration d’un synthétiseur vocal.
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 12
Problématique
1. Mise en contexte
Ce projet a été mis sur pied dans le souci d’aider les services d’accueil de certaines
entreprises à dialoguer de façon permanente avec leurs clients et, ce, sans mobiliser
assez de ressources. Le projet consiste à mettre en place des serveurs vocaux capables
de dialoguer en langues internationales et nationales (anglais, français, sangho, etc.)
L’ESTM, en tant qu’une grande école, s’intéresse aussi à l’automatisation de gestion de la
relation clientèle qui est quelque chose de très important. Donc son objectif est de
proposer un service irréprochable, ainsi que des conseillers joignables à tout moment.
C’est dans cet ordre d’idée que nous nous proposons de réaliser ce travail aussi
passionnant qu’il soit de mettre en place un serveur vocal interactif au sein de l’ESTM et
de lui attribuer un numéro pour que ceux qui désirent s’inscrire ou de continuer leur
formation, voire même de chercher des informations sur les différentes filières au
niveau de ladite structure puissent programmer un appel à l’aide d’un serveur vocal.
Grâce à ce dispositif, l’administration pourra avoir les numéros et entrer en contact si
possible avec des personnes qui ont appelé en dehors des heures normales du travail.
Pour arriver à mettre en place cette application nous utiliserons le Serveur PABX « Open
source » Asterisk.
2. Importance de la question
Le choix d’une application vocale n’est pas anodin. En effet, le moyen de communication
le plus naturel, plus efficient et plus flexible entre les humains est la parole. L’interaction
vocale est devenue un enjeu technologique du 21ème siècle, en ce sens où elle permet
d’accroître le naturel de la communication, favorisant l’accès à l’information pour tous,
et particulièrement les personnes défavorisées par l’usage des dispositifs
technologiques. Mais force est de constater que l’élaboration de tels systèmes
d’informations décuple la compétence des ressources humaines qui y sont investies, et
par-delà la maîtrise technologique dans le domaine.
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 13
Cette partie s’attache à :
La présentation de l’ESTM ;
Faire une étude les Serveurs Vocaux Interactifs ;
La présentation des différentes plateformes pouvant
permettre la mise en œuvre d’un serveur vocal interactif
dont la plate-forme Asterisk.
PREMIERE PARTIE
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 14
CHAPITRE I. PRESENTATION DE L’ESTM
I.1. Présentation
L’ESTM (École Supérieure de Technologie et de Management) est une école privée
d’enseignement supérieur, universitaire et professionnel. Elle a été créée en 2002 par
des professionnels des secteurs des nouvelles technologies de l’information, de la
communication et de la gestion.
Les enseignements dispensés s’inspirent des normes exigées par le CAMES (Centre
Africain et Malgache pour l’Enseignement Supérieur) et sont donc superposables à ceux
dispensés dans les meilleurs écoles tant sur le continent africain que sur le continent
européen et américain.
Le programme est élaboré en fonction du monde professionnel, et adapté à l’évolution
de la technologie de manière à donner à l’étudiant des compétences aussi bien
théoriques que pratiques.
L’école compte toujours rester à la pointe de la technologie dans un environnement qui
se veut compétitif. Elle participe en collaboration avec l’étudiant à la recherche de stage
de fin d’études. Le stage donne lieu à une soutenance devant un jury.
L’école forme des techniciens supérieurs en Informatique de Gestion, en Réseaux
Téléinformatique et Maintenance Informatique dans le premier cycle de son
département des sciences de l’informatique. Au second du même département elle
forme des ingénieurs spécialisés en Réseaux Téléinformatique, en Génie Logiciel et en
Système de gestion de base de données (SGBD).
Dans son département des sciences de gestion, elle forme des diplômés de premier et
second cycle en marketing, en comptabilité, en tourisme et en gestion.
L’ESTM est sise à l’avenue Bourguiba prolongée X front de terre derrière la Brioche
Dorée.
I.2. Présentation des départements
Le département des sciences de l’informatique compte quatre formations en cours du
jour et en cours du soir :
Départements des sciences de l’informatique
Cours du jour Cycle 1
 Téléinformatique et Réseaux
 Réseaux télécoms
Cours du soir Cycle 2
 Ingénieur 1 et 2 en réseaux Téléinformatique
 Master 1 et 2 Téléinformatique et Télécommunication
Départements des sciences de la gestion
Le département de sciences de la gestion compte trois formations :
 Marketing
 Comptabilité
 Gestion
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 15
I.3. Organigramme de l’ESTM
Figure 1: Organigramme de l'ESTM
I.4. Le réseau de l’ESTM
Nous avons deux types de réseaux au niveau de l’ESTM :
 Un réseau téléphonique géré par un PABX physique BELLS à 8 sorties.
 Un réseau informatique indépendant du réseau téléphonique.
Figure 2 : Architecture du réseau téléphonique de l’ESTM
 Des infrastructures de réseaux et télécoms
 Liens inter sites, Interconnexion RAP
 Firewall, Routeurs, commutateurs et bornes de Sites
 Téléphonie classique totalement indépendante du réseau informatique, une
sortie T2 et un autocommutateur local BELLS PABX (non IP) de 8 ports accès
internet via un modem-routeur point d’accès wifi (WAG200G).
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 16
CHAPITRE II. ETUDE SUR LES SERVEURS VOCAUX INTERCTIFS
I. Etat de l’art des Serveurs Vocaux Interactifs
La numérisation et l’informatique sont de nos jours en grand essor, ce qui a conduit à
une importante évolution au niveau des réseaux téléphoniques. Nous assistons à une
mise en place d’applications logicielles pour une meilleure gestion du flux des appels
entrants et sortants. Le premier essai d'application des SVI a été réalisé par IBM en 1972
pour le compte de la Banque Bred. L'introduction des SVI dans les entreprises s'est
généralisée dans le milieu des années 1980. Depuis 1991, les serveurs vocaux ne sont
plus seulement présents dans les grandes entreprises, mais aussi dans les petites et
moyennes entreprises qui s’activent dans les domaines de l’artisanat et des services
fournis aux particuliers. Le SVI a constitué une étape historique de l'évolution des
technologies informatiques et des télécommunications, au sens où c'était la première
fois que l'intégration des technologies informatiques et vocales, et celle des technologies
téléphoniques au sein d'un unique équipement débouchaient sur un véritable marché
d'équipements de télécommunication. Le serveur vocal interactif constitue la première
étape dans l'évolution du Couplage Téléphonie-Informatique (CTI).
I.1. Définition
Un serveur vocal interactif (SVI) est un système informatique qui prend en charge les
appels entrants à l’aide de messages vocaux enregistrés ou de synthèse vocale. En
d’autres termes, c’est une plateforme, un ensemble logiciel et/ou matériel, qui sert de
répondeur vocal contrôlé par l'ensemble des touches du téléphone ou des technologies
de reconnaissance vocale, permettant d'échanger de manière automatique des
informations divers (messages, fax, etc.). Le système est interactif dès lors qu'une
réponse à une question posée par l'appelant entraîne un traitement particulier de la part
du serveur, car, l’appelant est appelé à interagir avec le serveur par la voix ou par
l’utilisation des touches de son téléphone fixe, mobile ou d’un softphone 24h sur 24 et 7
jours sur 7 pour certaines applications. Le serveur vocal interactif peut orienter
l’utilisateur vers un opérateur humain ou traiter entièrement la demande. L’accès à cette
application se fait par un simple numéro de téléphone ou par un numéro spécialisé dont la
demande s'effectue auprès d'un opérateur téléphonique. Plus précisément, un SVI est chargé
de la délivrance d'informations courtes et simples. Il permet également d'identifier les
appelants, de les aiguiller vers des services automatiques ou des téléopérateurs compétents.
Le SVI permet aussi d’interroger une base de données dans le Système d’Information (SI).
Les SVI sont adaptés à une large gamme de services et fonctions. Les applications classiques
du serveur vocal sont les services de transaction (réservation, télépaiement, etc.) et les
services de consultation (horaires, comptes bancaires, etc.).
I.2. Rôle d’un SVI
Autre fois, le SVI avait, que, pour rôle la gestion intelligente du temps d'attente. A présent,
nous assistons à une variation du rôle des serveurs vocaux, grâce notamment à la synthèse
vocale qui a profondément modifié le fonctionnement de la messagerie et de l'accueil. En
même temps, le couplage téléphonie-informatique a révolutionné les centres d'appels en
donnant un nouveau rôle aux serveurs vocaux interactifs. Les réseaux téléphoniques
acceptant la numérotation en fréquence vocale, celle qui permet d'envoyer les signaux
DTMF (Dual Tone Multi Frequency) avec les touches du combiné, ont offert la possibilité de
communiquer à distance avec les serveurs interactifs.
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 17
Etant donné qu’aujourd'hui, le téléphone s'affirme comme le centre névralgique d'une
entreprise, qu'elle soit une TPE, une PME ou une grande compagnie, un simple combiné et
un répondeur classique ne suffisent plus pour répondre au mieux à des nombreuses
demandes des clients. De ce fait, la téléphonie, à travers les SVI, apparait comme
indispensable pour le développement d’une entreprise. Plus le nombre d’appels reçus par
l’entreprise croît et plus celle-ci doit assurer un meilleur accueil à ses clients potentiels. Pour
ce faire, l’entreprise doit administrer au mieux les files d’attente. Dans les années 1990, la
prise de conscience que l'image d'une entreprise dépend de la qualité de son accueil
téléphonique va engendrer une multitude d'investissements. Ainsi, l'acquisition d'un
serveur vocal qui répond immédiatement aux appels et limite le nombre d'appels non
aboutis, vise à améliorer l'image de l'entreprise dans un premier temps, puis le contact
client/entreprise. Concrètement, la fonction première d'un SVI consiste à répondre aux
appels reçus avec un niveau de qualité optimale, en s'appuyant sur les atouts intrinsèques
de l'automate. Avec un serveur vocal interactif, fini les longues attentes dans les périodes
d'encombrement du standard, une voix vous guide et vous permet d'accéder directement au
service correspondant à votre demande.
Le SVI permet de traiter une partie des demandes et de suppléer aux centres d’appels
pendant les heures de fermeture. Le SVI est aussi en mesure de faire une sélection d'appels
en limitant les appels polluants.
En résumé, un SVI offre une solution pour le traitement des appels entrants qui se résume à
la devise : « être disponible lorsque les clients appellent, traiter au mieux chaque appel de
vos clients et rester efficace, précis quand le téléphone sonne sans cesse ».
Avec le développement de l’Internet et l’émergence de nouveaux médias notamment les
téléphones mobiles, le SVI connaît un regain d’intérêt et ouvre de nouveaux champs
d’application qui permettent l’accès en base de données.
I.3. Les domaines d’applications des SVI
Les domaines d’applications des SVI sont variés, leur utilisation à bon escient dans le cadre
des émissions et réceptions d’appels est un atout majeur pour certains services clients par la
permanence du service.
Les applications vocales sont mises en œuvre pour la création d'un standard automatisé au
sein d'une entreprise. En effet, le SVI se charge de l'accueil et de l'orientation du client,
déchargeant ainsi le standard traditionnel. Ce dernier peut toutefois être accessible depuis
le SVI, en fonction des options d'orientations proposées. A défaut de standard traditionnel,
le client peut être orienté vers une messagerie vocale si sa requête n'est pas prise en compte
par l'arborescence vocale du SVI. Également, il existe d'autres applications nécessitant un
SVI telles les aboutements fax (fax à la demande), la banque à domicile, le routage d'appels,
les systèmes d'alerte automatisée, le serveur de renseignements statistiques pour des
réponses répétitives, le serveur de renseignements dynamiques pour des consultations
ponctuelles de situation, le serveur d’information dynamique, le serveur d’identification et
d’authentification, la file d’attente interactive.
Les serveurs vocaux interactifs peuvent être utilisés dans de nombreux services, tels que
la banque, le rechargement d'un compte de téléphonie mobile, l´identification d´un
appelant, vente par correspondance, accès aux services clients etc.
Les répondeurs classiques ne sont pas considérés comme serveurs vocaux interactifs
tant que la communication ne va que dans un sens (l´appelant laisse un message) alors
que les systèmes serveurs vocaux interactifs offrent une interaction (à double sens). Les
répondeurs plus récents sont des serveurs vocaux interactifs, car ils permettent une plus
grande interaction, notamment dans la gestion des messages (consultation, suppression,
archivage, etc.).
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 18
Plus généralement les serveurs vocaux interactifs sont utilisés comme porte d´entrée
d´un centre d'appel pour identifier le service demandé par l´appelant ou traiter des
demandes simples.
Les serveurs vocaux interactifs sont souvent critiqués comme étant peu utiles et
difficiles à utiliser à cause de leur programmation simpliste et leur manque de réactivité
aux demandes des appelants. Une mesure courante de l'efficacité d'un système de
serveurs vocaux interactifs est le nombre d'interactions nécessaires pour satisfaire le
besoin de l'utilisateur (par exemple, le nombre minimum de questions pour établir la
connexion de l´appelant avec le service désiré).
Notons qu'avec l'utilisation croissante des téléphones portables, un problème de taille
est l'utilisation des serveurs vocaux interactifs dans des milieux parfois bruyants comme
les rues, ce qui nécessite l'utilisation de modèles et de techniques plus robustes.
I.4. Les types de base d’un SVI
Avec un serveur vocal interactif, on peut mettre en place plusieurs fonctionnalités telles
que la mise à disposition d’informations spécifiques sous forme vocale, un standard
automatique à partir d’une certaine heure avec possibilité d’aiguillage automatique, la
diffusion d’alertes, l’interrogation de bases de données. De ce fait les SVI se regroupent
en trois types d'utilisation standards: la borne d'informations, le standard téléphonique
et l'utilisation d'un SVI en liaison avec une base de données ou CTI (Couplage Téléphonie
Informatique).
I.4.1. La borne d’information
Le fonctionnement en borne d’information est le service le plus basique que puisse
rendre un SVI. Ce dernier diffuse des messages répétitifs, plus précisément des
informations pratiques, sans aucune intervention humaine. Cette fonction permet à
l’appelant d’être guidé dans une arborescence afin de trouver les informations qu’il
cherche. Il passe d’un menu à l’autre par simple choix. Les SVI bornes d'informations
sont quelques fois utilisées en cas de "débordement d'appels" c'est à dire quand le
service de réception assuré par du personnel est saturé. Les appels entrants sont
redirigés vers des SVI fonctionnant en débordement d’appel.
I.4.2. Le standard téléphonique
Le standard téléphonique, encore appelé standard pré-décroché, est un commutateur,
c'est-à-dire un appareil assurant automatiquement les connexions téléphoniques entre
appelé et appelant (à l'intérieur de l'entreprise comme vers l'extérieur). Il se charge de
l’accueil de l’appelant et lui propose par des choix dans des menus vocaux d’accéder à
son correspondant. Les choix s’effectuent par fréquence vocale sur le clavier
téléphonique de l’appelant ou parfois par reconnaissance vocale. Le standard
téléphonique permet de transférer les appels, les guider vers les différents services et
correspondants, les filtrer en cas de besoin. Le SVI doit alors faire suivre l'appel, et pour
cela il doit commander le PABX (Private Automatic Branch eXchange) qui à son tour
peut conduire des appels sans interposition manuelle en se basant entièrement sur le
numéro composé, c’est un outil très puissant et très flexible en terme de mécanisme de
routage.
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 19
I.4.3. Le Couplage Téléphonie Informatique
Figure 3 : Couplage Téléphonie Informatique
La notion de CTI est la réunion et l'intégration des mondes de la téléphonie et de
l'informatique sur une plateforme commune. Le CTI donne la possibilité d’interroger
une base de données, d’y stocker des informations saisies par l’appelant, mais aussi de
lui diffuser des informations qui lui sont propres. Pour parvenir à cela, il faut intégrer la
base de données dans le logiciel de gestion du SVI. Ce qui différencie ces SVI des autres
ne se situe pas au niveau matériel, mais plutôt au niveau logiciel. Le logiciel employé
n'est plus un logiciel aux fonctions limitées mais un progiciel. Ce sont par exemple les
SVI de type prise de commandes, consultations de comptes bancaires, etc.
En effet, le couplage téléphonie informatique (CTI) permet notamment l’utilisation de
bases de données qui contiennent les traces des appels (nombre, durée, qualité, agent,
etc.) et facilitent une approche statistique pour aider à la décision. Les fonctions du CTI
permettent d’effectuer le chargement de la fiche du demandeur sur l’applicatif métier
lors de la présentation de l’appel à l’opérateur. Grâce au CTI les messages vocaux sont
des fichiers informatiques que l’on peut à souhait placer dans des scénarii où naviguent
les interlocuteurs.
De plus le couplage téléphonie informatique permet une gestion plus aisée en associant
par exemple le numéro de téléphone de l’appelant ou un code émis par l’appelant, avec
une fiche personnalisée.
I.4.4. Les fonctionnalités annexes
La fonction la plus élémentaire pour un serveur vocal est la borne d’informations.
Cependant, le SVI est en mesure de jouer d’autres rôles mis à part les trois
fonctionnalités standard qui viennent d’être explicitées dans la section précédente.
Parmi ces nombreux rôles nous avons la messagerie vocale, la messagerie unifiée et le
service de fax à la demande qui sont les plus connus.
I.4.4.1. La messagerie vocale
La messagerie vocale est un répondeur télématique permettant d'enregistrer les paroles
du correspondant en l'absence de l'abonné. Dans une entreprise utilisant un SVI
remplissant la fonction de messagerie vocale, une boîte vocale est attribuée à chaque
employé où l’appelant peut être dirigé pour laisser un message lorsque le correspondant
souhaité n’est pas disponible. Dans ce cas, le SVI joue le rôle de répondeur téléphonique.
L’employé peut consulter à distance sa boîte vocale très facilement avec son clavier
téléphonique ; il se laisse guider par une arborescence vocale qui lui évite ainsi d’avoir
recours à un mode d’emploi papier. Ce type de SVI permet aussi d’envoyer un message à
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 20
plusieurs destinataires, de réexpédier un message, de l’annoter, etc. En outre, la
messagerie vocale permet également de gérer les messages vocaux: transfert avec ajout
de commentaires, auto-login, notification des appels reçus, personnalisation des
messages d’accueil, etc. Une autre fonction caractéristique des messageries vocales est la
possibilité au sein du groupe d'utilisateurs de la messagerie de réexpédier un message,
de l'annoter, et surtout d'envoyer un message à plusieurs destinataires.
Il existe aussi d'autres fonctions selon les systèmes :
 Horodatage, identification du numéro de l'appelant,
 Création automatique de boîtes vocales (nombre illimité)
 Lecture, suppression des messages
 Envoi des fichiers sons sur la messagerie internet du correspondant
 Fonction d’avertissement des correspondants (e-mail)
I.4.4.2. La messagerie unifiée
La messagerie unifiée permet de faire converger les messages, écrits ou vocaux, issus de
différentes sources (courrier électronique, fax, téléphone...) vers un seul serveur
accessible à tout type de terminal (ordinateur, téléphone, mobile, PDA). Elle centralise la
gestion des messages vocaux, e-mails et fax.
L’utilisateur peut écouter ses messages vocaux, avoir une lecture de ses e-mails grâce à
la technologie Text-To-Speech (Synthèse vocale), éditer un fax et profiter de toutes les
fonctionnalités de sa boîte vocale. La consultation à distance est donc simplifiée. La
messagerie unifiée joue le même rôle que la messagerie vocale mais en complément de
cette dernière qui se limite aux messages vocaux, elle centralise et permet de consulter
tout type de messages (électroniques, vocaux et parfois fax) à partir d’une interface
unique (téléphone ou logiciel de messagerie).
I.4.4.3. Service de fax à la demande
Face au succès qu’a Internet de nos jours, le service de fax à la demande est de plus en
plus mis en oubliette. En effet, envoyer ou recevoir un document (fichier…) par Internet
est plus commode que par fax. Cependant, il existe des serveurs vocaux capables de
commander un serveur fax par exemple pour envoyer à la demande le plan d'un
appartement, un itinéraire routier, etc. L’utilisateur de ces services fait son choix en
s’aidant d’une arborescence vocale et de touches téléphonique. Certains serveurs vocaux
peuvent aussi commander un serveur fax. Les services de fax à la demande audio-fax
utilisent de tels SVI. Les fax « commandés » peuvent être soit envoyé en rappel (call
back). Dans ce cas, les frais d’émission sont à la charge du service audio-fax ; soit en
cours d’appel, ce qui permet de facturer le fax à l’appelant.
II. Fonctionnement d’un SVI
Un serveur vocal interactif fonctionne en se basant le plus souvent sur cinq modules : la
reconnaissance de la parole, l’analyseur sémantique, le gestionnaire du dialogue, la
gestionnaire de réponse et la synthèse de parole.
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 21
Figure 4 : Fonctionnement d’un SVI
 La reconnaissance de la parole : c’est une technique informatique qui permet
d'analyser la parole captée au moyen d'un microphone pour la transcrire sous la
forme d'un texte exploitable par une machine. Elle vise à transformer le signal
acoustique produit par l'interlocutoire en une chaine textuelle équivalente.
 Analyseur sémantique: L’objectif de la compréhension est de dégager les
intentions de l’usager et d’identifier les actes de langage employés. Il s’agit de
donner du sens à la ou aux phrases reconnues. C’est aussi une phase de l’analyse
qui en établit la signification en utilisant le sens des éléments (mots) du texte, par
opposition aux analyses lexicales ou grammaticales qui décomposent le message
à l'aide d'un lexique ou d'une grammaire.
 Gestionnaire de parole: Véritable chef d’orchestre du système, le contrôleur de
dialogue est chargé d’interagir avec le système d’information, de gérer
l’interaction (choix de la réponse à apporter).
 Gestionnaire de réponse: Pour la génération, deux étapes peuvent être
distinguées. La première est la génération profonde. Elle correspond à la question
quoi dire ? c’est-à-dire qu'elle vise à déterminer le contenu sémantique de la
réponse à l’utilisateur. La deuxième phase, dite génération de surface, permet de
choisir les mots pour exprimer la réponse à l’utilisateur. Elle correspond à la
question comment le dire ?
 La synthèse de la parole: Dernière composante du système, c’est une technique
informatique de synthèse sonore qui permet de créer de la parole artificielle à partir de
n'importe quel texte. La synthèse vocale restitue de manière orale le message
généré par la chaine de traitement.
III. Les technologies composantes de SVI
Un serveur vocal est avant tout un ordinateur. Il peut avoir la configuration d’un PC ou
d’un VME (Virtual Memory Extension). Un SVI de type PC est préférable pour les
moyennes et grandes entreprises. Il est capable de recevoir 60 appels en simultané et
est idéal pour les moyennes et grandes entreprises qui l’utilisent par exemple pour leurs
centres d’appels ou de réservation. Dans le cas d'une utilisation intensive dans le milieu
des réseaux de télécommunications, un serveur de type VME ou PC Industriel est
nécessaire. Il offre des fonctions permettant de sécuriser la machine afin de réduire les
pannes informatiques et de supporter des applications exigeantes. Le SVI de type VME
autorise une plus grande quantité de traitement d'appels et présente une interactivité
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 22
améliorée du fait de son intégration dans les réseaux téléphoniques. Les principaux
constructeurs de plates-formes VME sont Philips et Motorola. L'architecture du SVI
découle simplement de l'utilisation qui en sera faite.
Les contraintes d'architecture varient essentiellement en fonction de la volumétrie des
appels entrants mais aussi en fonction du niveau d'interactivité du SVI avec des bases de
données distantes ou locales.
Un serveur vocal interactif est constitué d’une architecture matérielle et d’une autre qui
est logicielle.
III.1. L’architecture matérielle
L’architecture matérielle décrit l’agencement de composants électroniques ainsi que
leur interaction. Un serveur vocal annexe toujours des ressources, applicatives et, de
télécommunications, connues sous le nom de frontaux vocaux et de serveur
d’application. Ces deux ressources peuvent résider ensemble, mais si le serveur
incorpore la reconnaissance de la parole ou la synthèse vocale, il est préférable
d’affecter une tâche à chacun. Généralement, l’architecture physique d’un Serveur vocal
peut être décrite comme suit :
Le frontal vocal : C’est le serveur de raccordement télécom. Il peut contenir des
cartes électroniques dédiées à ces tâches, ce qui est systématiquement le cas lors
d’un raccordement avec des liens de téléphonie traditionnelle de types
analogiques, T0 ou T2 mais ce qui devient optionnel lors d’un raccordement en
VoIP.
En effet, en IP, le frontal vocal ne peut contenir aucun hardware spécifique, mais
seulement les logiciels d’interconnexion SIP ou H323 appropries. La tendance étant
plutôt à des frontaux vocaux sans rajout matériel et en raccordements SIP. Une
attention particulière devra alors être portée sur la puissance du serveur et donc sur
sa capacité à tenir un nombre d’accès suffisant.
Le serveur d’application : C’est un logiciel d'infrastructure offrant un contexte
d'exécution pour des composants applicatifs. C’est ce serveur qui embarque
l’ensemble des applications de développement, d’administration et de
supervision du serveur vocal. Il peut être sur le même serveur physique que le
frontal vocal et sur le même LAN voire à distance.
III.2. L’architecture logicielle
L’architecture logicielle encore appelée Middleware se situe entre les interfaces de
programmation des cartes médias et l’application qui sera développée à l’aide de ces
dernières. L’architecture logicielle décrit d’une manière symbolique et schématique les
différents éléments d’un ou de plusieurs systèmes informatiques, leurs interrelations et
leurs interactions. Toute la richesse d’un serveur vocal interactif réside dans sa
bibliothèque d’éléments actifs. Toute sa puissance repose dans sa capacité à proposer
des outils permettant de regrouper facilement ces éléments fonctionnels. En définitive,
un serveur vocal interactif se différencie par ses qualités logicielles et non matérielles.
L’architecture logicielle peut être définie comme étant une couche logicielle
intermédiaire permettant d’ajouter des fonctions CTI à des applications existantes sans
avoir à les modifier. Il n’y a pas de dépendance entre les applications CTI et les cartes
médias ; le serveur vocal est doté d’outils logiciels donnant accès aux données ou aux
traitements, capables de faire communiquer selon un formalisme des systèmes
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 23
hétérogènes ou des applications portées par différents systèmes. Les constructeurs de
cartes médias fournissent avec leur module électronique une interface logicielle appelé
driver nécessaire à fin d’assurer son bon fonctionnement. Il s’agit d’une solution qui est
adaptée au système d’exploitation.
Un serveur vocal interactif est offert sous différents environnements d’exploitations :
Windows, linux, Unix etc.
IV. L’interaction Clients-SVI / SVI-Clients
Les SVI se sont imposés aujourd’hui comme un outil stratégique pour les relations clients-
entreprises. Typiquement, pour un standard automatisé. L’appelant est guidé à travers une
arborescence vocale et fait des choix au fur et à mesure soit à l’aide du clavier téléphonique
avec les touches DTMF, soit grâce à la reconnaissance vocale par mots-clés. Ce sont les
interactions Clients-SVI. Cette interaction client à SVI est obligatoire pour pouvoir s'orienter
dans la série de menus vocaux proposés par la plate-forme vocale. Ainsi, au fil des menus, la
précision de la demande s'accentue. Cette interaction est effectuée de 2 façons différentes :
 L’utilisation des touches DTMF du téléphone
 L'utilisation de la reconnaissance vocale
Le SVI doit aussi transmettre les différentes possibilités à l’appelant. Ces possibilités lui sont
transmises vocalement : ce sont les interactions SVI-Clients.
IV.1. Interaction Clients-SVI
IV.1.1. Les touches DTMF
Un code DTMF (Dual Tone Multi Frequency) est une combinaison de fréquences utilisée
pour la téléphonie moderne. Ces codes sont utilisés pour la composition des numéros de
téléphones (en opposition aux téléphones dits à impulsions), et ils ont permis la création
des premiers serveurs vocaux interactifs.
Techniquement, chaque touche d'un téléphone correspond à un couple de deux
fréquences audibles qui sont jouées simultanément. De cette façon, huit fréquences bien
distinctes permettent de coder seize touches. Ces fréquences peuvent être reconnues
par des dispositifs électroniques et sont utilisées pour réaliser des serveurs vocaux.
Dans le tableau suivant figurent des touches « A » à « D » : celles-ci étaient utilisées par
l'armée américaine pour représenter la priorité d'une communication.
Ce système moderne a été développé par la firme américaine Bell. Le but recherché était
de définir un système de numérotation rapide pouvant être utilisé par les appareils
numériques (ordinateurs, centraux numériques). La signalisation DTMF est employée
pour permettre à l’utilisateur de transmettre des ordres au SVI. Avec cette technique, les
touches du clavier téléphonique sont identifiées par leur fréquence en mode DTMF qui
permet l’émission de tonalités multifréquences destinées à la signalisation sur le réseau
analogique. Chaque chiffre ou digit correspond à un signal sonore. Le signal est constitué
de l'addition de deux sons (Dual Tone), dont les fréquences caractérisent un digit (Multi
Frequency). Le signal ainsi envoyé correspond à l'émission de deux fréquences précise
qu'un bruit intempestif sur la ligne ne peut perturber. Les digits définis par le DTMF
sont les mêmes que pour le système à impulsions (de 0 à 9) avec en plus 6 nouveaux
digits (#, *, A, B, C et D). Cependant, on ne trouve généralement que les deux nouveaux
digits # et * sur les claviers de téléphone. Un digit est défini par la somme de signaux
sinusoïdaux de fréquences différentes. Les fréquences utilisées sont caractéristiques et
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 24
leurs valeurs sont regroupées ci-contre. Un 5 sera, par exemple, généré en additionnant
deux signaux de fréquences 770Hz et 1336Hz.
Les avantages de ce système sont multiples, les numéros de téléphone peuvent être
composés très rapidement et peuvent être générés par des systèmes informatiques.
Figure 5: Tableau récapitulatif des différentes fréquences du standard DTMF
Cependant la signalisation DTMF est remplacée dans certaines plateformes par la
reconnaissance vocale qui se trouve être plus facile à utiliser. Avec le DTMF, le système
donne des ordres à l'utilisateur, avec la reconnaissance vocale, c'est l'inverse.
L’inconvénient majeur du DTMF est que certains postes téléphoniques n’y ont pas accès, il
concerne les postes émettant des sons à la numérotation. De plus, en termes purement
fonctionnels le DTMF est limité car il ne peut pas être utilisé par un SVI qui propose un
nombre de choix qui dépasse le nombre de touches du clavier téléphonique.
IV.1.2. La reconnaissance vocale
Figure 6: Processus de la reconnaissance vocale
La reconnaissance vocale est l’une des tâches pionnières de l’Intelligence Artificielle (IA)
consistant à reproduire la capacité d’un être humain à extraire des informations de la
parole produite par un autre être humain. Cette tâche, trop complexe pour être
reproduite par un système informatique unique, a été subdivisée en plusieurs sous-
problèmes en fonction du type d’informations à extraire et à reconnaître. Les
problématiques les plus étudiées sont la reconnaissance du locuteur, de son état
émotionnel, de la langue employée et du langage parlé. Les recherches sur la résolution
de ces tâches ont donné lieu, depuis une vingtaine d’années, à des dizaines de milliers de
publications, des centaines de bases de données de parole, des dizaines de campagnes
internationales d’évaluation. Les progrès ont été importants et ont permis le
développement d’applications importantes en communication homme-machine comme
la dictée vocale ou les systèmes de dialogues finalisés des serveurs vocaux interactifs
(SVI). Cependant de nombreuses recherches restent indispensables en raison de
l’ampleur du problème et de sa variabilité : 7 milliards de locuteurs, plus de 500 noms
d’émotions, près de 7000 langues et quelques centaines de milliers de mots par langue.
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 25
D’autres types d’information restent pour l’instant pratiquement inexploités comme
l’accent, l’état physiologique, le niveau de stress ou de fatigue.
Pour les utilisateurs, la reconnaissance vocale est plus souple d’utilisation que les
touches DTMF. Cette fonction permet de rendre les applications plus interactives. La
reconnaissance automatique de la parole en langage naturel s'effectue par repérage des
mots clés. Cette technologie permet de remplacer les interfaces DTMF. Avec la
reconnaissance vocale, c’est l’utilisateur qui impose ses choix de navigation au système. La
reconnaissance vocale permet une plus grande souplesse pour l'utilisateur mais implique un
coût plus élevé pour la configuration du serveur vocal : mémoire, applications, espaces
disques, processeurs, etc. Un module de reconnaissance de mots ou de phrases d'un système
nécessite des quantités importantes de connaissances acoustiques et linguistiques. Les
connaissances acoustiques permettent au système de reconnaître les sons, alors que les
connaissances linguistiques permettent de retrouver les mots et de valider leur
enchaînement. Pour obtenir des performances suffisantes, il est indispensable de disposer
de corpus enregistrés dans des conditions aussi proches que possible de celles des
applications visées.
Deux approches, l'une plus globale, l'autre plus analytique permettent d'appréhender la
reconnaissance des mots.
Dans l'approche globale, l'unité de base sera le plus souvent le mot considéré comme une
entité globale, c'est-à-dire non décomposée. L'idée de cette méthode est de donner au
système une image acoustique de chacun des mots qu'il devra identifier par la suite. Cette
opération est faite lors de la phase d'apprentissage, où chacun des mots est prononcé une ou
plusieurs fois. Cette méthode a pour avantage d'éviter les effets de coarticulation, c'est- à-
dire l'influence réciproque des sons à l'intérieur des mots. Elle est cependant limitée aux
petits vocabulaires prononcés par un nombre restreint de locuteurs.
L’approche analytique, qui tire parti de la structure linguistique des mots tente de
détecter et d’identifier les composantes élémentaires (phonèmes, syllabes). Celles-ci
sont les unités de base à reconnaître. Cette approche a un caractère plus général que la
précédente : pour reconnaître de grands vocabulaires, il suffit d’enregistrer dans la
mémoire de la machine les principales caractéristiques des unités de base.
Actuellement, bien que la reconnaissance vocale soit encore loin d’être parfaite, les
échecs de cette technique sont le plus souvent causés par une mauvaise compréhension
notamment pour les mots hors vocabulaire, un modèle de dialogue inadapté ou encore
par le comportement et les attitudes de l‘utilisateur mal modélisés. Ce dernier n’agissant
pas comme prévu, le système comprend mal ses attitudes et la stratégie de dialogue peut
alors devenir déroutante pour l’usager.
IV.2. Interactions SVI-Clients
Le SVI guide l’utilisateur à travers l’arborescence vocale par le biais d’annonces vocales.
On distingue les annonces avec un fond sonore et les annonces classiques.
IV.2.1. Annonce avec un fond sonore
Un fond sonore est ajouté au message vocal pour améliorer l’interface vocale. Cette
opération est réalisée par un enregistrement ou suivant la technique d’encodage MIC, le
message est numérisé à 64 kbps. Il peut être compressé pour prendre moins d’espace
disque sur le SVI.
IV.2.2. Annonces classiques
Dans le cas d’un message composé de texte sans fond sonore (annonce classique), on
peut soit enregistrer directement l’annonce sous forme de fichier sonore, soit utiliser la
technique de la synthèse vocale. Dans le premier cas, l’espace disque nécessaire pour
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 26
stocker l’annonce est plus important que dans le second. Pour cela, on préfère donc la
technique de la synthèse vocale.
V. La synthèse vocale
Figure 7: Processus de la synthèse vocale
La synthèse de la parole à partir du texte est la passerelle-clé entre le monde de l'écrit et
celui de l'oral. La synthèse vocale est une technologie qui produit « des sons de parole à
partir d’une représentation phonétique du message ». Cette technologie ne doit pas être
confondue avec la restitution d’un message préenregistré dans laquelle le texte est fixe
puisque la synthèse à partir du texte est utilisée à la place de la restitution de messages
préenregistrés, dès que la fréquence (et donc le coût) de mise à jour de ces messages
devient trop importante.
Le principe est extrêmement simple, tout texte écrit peut être traduit en message vocal
grâce à une simple carte de synthèse vocale.
Deux grandes familles de synthèse vocale sont à distinguer :
Les systèmes qui utilisent la concaténation de mots entiers qui ont un
vocabulaire limité et qui offrent une qualité de parole excellente. Ces systèmes ne
nécessitent pas d’analyse linguistique.
Les systèmes dits de synthèse à partir du texte qui dans une première étape
convertissent un texte en une chaîne de phonèmes marqués par des informations
prosodiques (ensemble des phénomènes d’intonation d’une langue), et dans une
seconde étape qui transforment cette chaîne en un ensemble de données
acoustiques à transmettre à un synthétiseur.
Le synthétiseur vocal permet de créer une voix artificielle semblable à celle de l'homme.
Il convertit le texte codé au moyen d’un lecteur sonore d’écran et le transmet à la carte
son, afin d’obtenir une reproduction orale en appliquant au signal les caractéristiques
linguistico-prosodiques. Contrôlé au moyen d’un logiciel de lecteur sonore, le
synthétiseur vocal peut faire varier la cadence, le débit, le volume et la langue.
V.1. Mbrola
Mbrola est un synthétiseur vocal initié par le laboratoire de la Faculté Polytechnique de
Mons en Belgique. Il est à l’origine d’un projet visant à obtenir un ensemble de
synthétiseurs vocaux pour une multitude de langues qui est fournie gratuitement
lorsqu’il s’agit d’applications non commerciales. Mbrola n’est pas sous licence de source
libre.
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 27
D’un point de vue, plus, concret, le synthétiseur vocal Mbrola est basé sur la
concaténation de diphones. Ainsi, il prend une liste de phonèmes en entrée, avec des
informations prosodiques, c’est-à-dire la durée des phonèmes et une description linéaire
par morceaux de la tonalité, et produit des échantillons de parole sur 16 bits linéaire.
Les fréquences d’échantillonnage proviennent d’une base de données de diphone.
MBROLA n’est donc pas un synthétiseur « Text-To-Speech », puisqu’il n’accepte pas de
texte brut en entrée, mais plutôt une représentation de phonèmes.
Chaque base de données de diphone est adaptée au format MBROLA. Une voix françaises
a été mise à la disposition par les auteurs de MBROLA, et le projet MBROLA a été lui-
même organisée de manière à inciter les laboratoires de recherche et les entreprises à
partager leurs bases de données de diphone.
Il est à noter que les bases de données sont aussi rendues disponibles pour utilisation
non commerciale et utilisation non militaires dans le cadre du projet MBROLA.
V.2. Lia_Phon
Comme nous l’avions évoqués précédemment, MBROLA n’étant pas un synthétiseur
«Text-To-Speech», Lia_Phon va être utilisé pour cette fonction, en le reliant au
synthétiseur vocal MBROLA, afin d’obtenir effectivement une sortie audio basée sur un
texte d’origine.
Lia_Phon est un système de phonétisation de textes qui a été développé au LIA
(Laboratoire Informatique de l’Avignon) par Frédéric Bechet. Ce système permet de
nettoyer, étiqueter, accentuer et phonétiser un texte libre. Un module de génération
d’une prosodie minimale est également fourni afin de générer des fichiers compatibles
avec le synthétiseur vocal MBROLA. Lia_Phon est disponible gratuitement sous licence
GNU GPL.
V.3. Liambrola
Le fait d’installer Mbrola puis Lia_Phon peut sembler quelque fois fastidieuse. C’est dans
ce sens qu’un module d’interface nommé Asterisk-liambrola a été écrit afin d’interfacer
Lia_phon et MBROLA au plan de numérotation d’Asterisk. Ce module permet l’ajout de
l’application Liambrola au plan de numérotation, ce qui permet d’utiliser Lia_phon et
Mbrola comme synthétiseur vocal « français » directement dans Asterisk. Le module
Liambrola fait appel à Lia_phon et Mbrola via un appel système, car il n’existe pas
d’interface de programmation applicative « API » pour ces deux composants.
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 28
CHAPITRE III. ETUDE DES DIFFERENTES SOLUTIONS DE SVI
Plusieurs plateformes sur le marché et en open source nous permettent la mise en
œuvre d’un serveur vocal interactif. Nous choisissons d’étudier les trois les plus
répandues en l’occurrence WebSphere, Bayonne et Asterisk. Au terme de cette étude,
nous procéderons à un choix. Pour ce faire, plusieurs aspects doivent être pris en
compte. Ainsi pour chaque solution, nous étudierons son architecture, ses
caractéristiques et enfin ses avantages et ses inconvénients.
I. La plateforme WebSphere
L’une des inventions majeures qui a profondément impactée la société humaine est le
téléphone. Par ailleurs, le système de téléphonie a aussi évolué, allant des systèmes de mise
en connexion manuelle avec opérateur humain, aux systèmes électromécaniques, et plus
récemment à l’intégration des fibres optiques. Le téléphone est aujourd’hui largement
adopté à travers le monde. De même l’invention des technologies du traitement de la voix
telles que la reconnaissance automatique de la voix et la génération automatique de la voix à
partir de texte seront universellement adoptées. Les compagnies disposant de telles
technologies seront demain, sans aucun doute, les leaders au niveau mondial. C’est ainsi que
IBM a mis en place un serveur d’application appelé WebSphere qui regroupe en son sein les
différents modules cités plus haut. Ce qui fait de WebSphere l’une des solutions qui répond
le plus aux besoins des entreprises.
I.1. Architecture
La technologie du traitement de la voix proposée par IBM comporte : la technologie de
reconnaissance automatique de la voix (ASR) et la technologie de la production du
langage parlé à partir d’un texte (TTS). Ainsi un certain nombre de dispositifs doivent
être mis en œuvre d’où le schéma ci-dessous.
Figure 8 : Architecture de Websphere
En effet pour mettre en place un serveur vocal interactif utilisant la technologie d’IBM
plusieurs éléments interviennent. Tout d’abord le téléphone, qui peut être de types
diverses
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 29
Figure 9 : Types de téléphones utilisés avec Websphere
Ainsi l’utilisateur peut solliciter le serveur en utilisant un de ces téléphones. S’il s’agit
d’un téléphone IP ou d’un softphone, l’appel émis passe d’abord par un Gateway et
ensuite par un opérateur de téléphonie ou par un autre dispositif capable de simuler le
réseau de téléphonie. Ce dispositif est appelé Gordon Kapes System (GKS) et peut être
utilisé comme centrale de téléphonie ou un Private Branch eXchange (PBX). Ce dispositif
permet également d’interconnecter plusieurs serveurs vocaux.
Figure 10 : Dispositif simulant le réseau de téléphonie
L’appel ainsi reçu par le serveur, doit être traité. Pour effectuer ces traitements
l’application vocale fait appel à plusieurs autres serveurs notamment le serveur de
reconnaissance vocale et le serveur de synthèse vocale. La reconnaissance des mots
prononcés par l’utilisateur se fait grâce à la grammaire spécifiée et aux fichiers
VoiceXML.
Le serveur vocal pour répondre à l’utilisateur interagit avec les autres serveurs en
utilisant plusieurs protocoles, notamment HTTP, RTP, RGCP.
HTTP: HyperText Transfert Protocole a été mis en service par l'initiative globale
de l'information d'enchaînement mondial depuis 1990. Ces spécifications
définissent le protocole désigné sous le nom de "HTTP/1.1". HTTP est un
protocole de réseau de couche application construit sur TCP. HTTP permet à des
Figure 10 : Dispositif simulant le réseau de téléphonie
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 30
browsers d'enchaînement et à des serveurs d'enchaînement de communiquer.
Les clients et les serveurs de http communiquent par l'intermédiaire des
messages de demande et de réponse. HTTP utilise le port 80 de TCP par défaut,
bien que d'autres ports tels que 8080 soient également employés.
C'est le protocole employé pour transférer des données sur le World Wide Web.
Le protocole HTTP est le support du Web, la partie la plus utilisée d'Internet et
celle qui connaît la plus forte croissance. C'est pourquoi toutes les adresses de
site Web commencent par "HTTP://". Toutes les fois que l’on dactylographie un
URL dans son navigateur, l’ordinateur envoie une demande HTTP au "web
server" approprié. Ce dernier, conçu pour manipuler des demandes HTTP, envoie
la page HTML demandée.
RTP : Le but de RTP (Real-time Transfert Protocole) est de fournir un moyen
uniforme de transmettre sur IP des données soumises à des contraintes de temps
réel (audio, vidéo,...).
Le rôle principal de RTP consiste à mettre en œuvre des numéros de séquence de
paquets IP pour reconstituer les informations de voix ou vidéo même si le réseau
sous-jacent change l'ordre des paquets. Plus généralement, RTP permet :
D’identifier le type de l'information transportée ;
D'ajouter des marqueurs temporels et des numéros de séquence
l'information transportée ;
De contrôler l'arrivée à destination des paquets ;
De plus, RTP peut véhiculer des paquets multicast afin d'acheminer des
conversations vers des destinataires multiples.
MRCP : Le but du protocole MRCP (Media Ressource Control Protocol) est de
standardiser les dialogues informatiques entre les moteurs d'ASR et de TTS avec
les serveurs vocaux. Il s'agit d'un dialogue client-serveur. Le protocole définit les
requêtes, les réponses et le contrôle du média. Il est également basé sur une base
des protocoles RTSP (Real Time Streaming Protocol) et RTP (Real Time
Protocole).
Websphere utilise uniquement ce protocole pour les fonctions avancées de
reconnaissance vocale liées au langage VoiceXML.
I.2. Caractéristiques
Le serveur vocal d’IBM présente plusieurs caractéristiques.
Websphere est propriétaire :
En effet Websphere est une solution commercialisée par IBM, mais il existe une
version d’évaluation de quatre-vingt-dix jours disponible sur Internet.
Il supporte les plates-formes suivantes :
Red Hat Enterprise Linux WS/ES/AS V3.0 Update 1 pour les processeurs Intel
Pentium III (1 GHz ou plus)
SUSE Linux Enterprise Server (SLES) V8.0 powered by United Linux V1.0 avec
le Service Pack 2a ou 3 pour les processeurs Intel Pentium III (1 GHz ou plus)
Microsoft Windows Server 2003
Il supporte le VoiceXML :
Voice eXtensible Markup Language ou VoiceXML, est conçu pour créer les
dialogues audio qui comportent le discours synthétisé, l'acoustique digitalisée, le
DTMF, et l'enregistrement de l'acoustique pour des applications de téléphonie. Il
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 31
apporte l'avantage des technologies d'enchaînement aux utilisateurs d'un
téléphone en fournissant un mécanisme interactif de la réponse de voix. Une
application développée en VoiceXML doit permettre de "parler" à l'utilisateur en
synthétisant de la parole, mais également "écouter" la voix de l'utilisateur grâce à
la reconnaissance vocale.
VoiceXML représente le ‘HTML’ pour la téléphonie et les applications de voix.
C’est le langage de programmation des applications vocales. Il est basé sur XML et
permet l’accès aux applications Web à partir de téléphones ou autres appareils
fonctionnant avec la voix.
L’éditeur VoiceXML est l'interface de développement d'applications vocales sur le
modèle Web. La connexion aux informations issues du site Web devient naturelle
car elle répond aux exigences de la norme VoiceXML. Elle permet ainsi d'échanger
des informations avec tout moteur répondant à cette norme : reconnaissance
vocale, synthèse de texte, analyse sémantique. Grâce à l’éditeur VoiceXML, on
peut donner de la voix à un site Web en permettant un accès téléphonique aux
données en ligne. VoiceXML est une passerelle entre le contenu Web et le portail
vocal.
Etant un langage d'un seul bloc de présentation conçu pour accepter l'entrée
d'utilisateur sous forme de DTMF (tonalités de contact produites par un
téléphone) et de parole, VoiceXML est une nouvelle technologie très utilisée dans
la conception de serveur vocal car facilitant celle-ci. En effet avec VoiceXML, le
développement d'application de reconnaissance de la parole est
considérablement simplifié. Au lieu d'utiliser un PC avec un navigateur Web,
n'importe quel téléphone peut accéder à des applications de VoiceXML par
l'intermédiaire d'un VoiceXML browser fonctionnant sur un serveur de
téléphonie.
Considérant que le HTML est généralement employé pour créer des applications
graphiques d'enchaînement, VoiceXML peut être employé pour des applications
voix-permises d'enchaînement.
Il supporte plusieurs langues dont : Anglais, Français, Chinois, Japonais,
Espagnol, Allemand etc.
La configuration minimale du serveur :
 Intel Pentium III (minimum 1 GHz ou processeurs équivalent)
 Mémoire (RAM): 2 GB (minimum)
 Espace disque disponible: 2 GB
 Réseaux: TCP/IP
 Adresse IP statique
II.3. Avantages et inconvénients
II.3.1. Avantages
Fiabilité : En effet, installé dans un réseau stable, Websphere nous offre une
grande résistance aux pannes. Ce qui permet d’ailleurs d’avoir une grande
satisfaction de la part des clients. Ceci est essentiellement dû à l’utilisation de
composants robustes pour sa mise en œuvre.
Websphere est très scalable : dans la mesure où on a la possibilité de changer
les caractéristiques (Mémoire, etc.…) de certains de ces composants dans le but
d’augmenter ses performances.
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 32
Haute disponibilité : Cette avantage vient du fait que plusieurs appels peuvent
être traités en même temps par le serveur sans aucune interférence ni interaction
entre eux. C’est ce qui fait que la plus part des appels aboutissent.
II.3.2. Inconvénients
Cette solution présente néanmoins quelques inconvénients, parmi lesquels :
Manque de fiabilité du moteur de reconnaissance vocale
L’inconvénient majeur de cette solution réside au niveau de son moteur de
reconnaissance vocale. En effet, en dépit du progrès accompli par la reconnaissance de la
parole ces dernières années, il reste beaucoup à faire. Les algorithmes actuellement
employés ont en partie échoué dans une variété de situations, d'un changement simple
de voix à un changement d'environnement. Par conséquent, un effort de
perfectionnement doit se faire au niveau des caractéristiques suivantes :
 Mots hors vocabulaire
Un vocabulaire contient tous les mots qu'un moteur d'identification de voix devrait
identifier. Cependant, il n'est pas possible de garantir qu'un haut-parleur n'emploiera
jamais un mot non inclus dans le vocabulaire, puisqu’il peut ne pas se rendre compte de
ce que le vocabulaire contient.
Actuellement, le processus d'identification essaye d'identifier le brin le plus étroit pour
l'entrée reçue, parce qu'il ne peut pas distinguer, qu'un mot donné appartienne au
vocabulaire ou pas. Ce comportement n'est pas souhaitable pour des applications de
commande puisqu'une fausse action sera appelée.
Une bonne manière de résoudre ce problème pourrait être, employer les niveaux de
seuil minimum pour un brin de mots. L’inconvénient est que, selon le seuil, les mots qui
appartiennent au vocabulaire pourraient être mal classifiés.
 Discours spontané
Pendant une conversation normale, il peut jaillir, se produire, que les gens éternuent,
toussent ou hésitent avant de poursuivre une conversation. Dans toutes ces
circonstances, la reconnaissance de la parole s’exécute tout à fait mal parce que le bruit
supplémentaire affecte la qualité du discours réel. Il est certainement souhaitable
d'avoir un système où toutes ces conditions pourraient facilement être traitées.
Demande beaucoup de ressources : En effet, les différents serveurs qui
composent l’architecture proposée par Websphere ont une certaine
caractéristique. Ainsi leur installation et configuration nécessitent aussi bien des
ressources matérielles qu’humaines. Et ces dernières doivent avoir une certaine
expérience pour être capables de mener à bien le travail.
Très coûteuse également, comme tenu précédemment dans notre propos, il
demeure propriétaire. Et son acquisition implique d’autres dépenses
supplémentaires notamment le dispositif qui doit simuler le réseau de téléphonie
si l’on désire faire des tests en local.
II. La plate-forme Bayonne
Les serveurs vocaux ont été pendant longtemps le monopole de quelques vendeurs qui
proposent des solutions fermées. Chacun d'eux développant des serveurs IVR
(Interactive Voice Response) adaptés à leur propre matériel. Bayonne est la réponse du
monde open source à cette situation.
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 33
GNU Bayonne est un serveur de téléphonie sous licence libre permettant aux petites et
grandes entreprises ainsi qu'aux opérateurs de créer, déployer et gérer les solutions
téléphoniques intégrées pour des capacités allant de la simple ligne analogique jusqu'à
plusieurs lignes ISDN.
Un serveur GNU Bayonne doté d'une carte de téléphonie numérique ou analogique
permet de prototyper et de déployer des services applicatifs commerciaux de qualité
professionnelle.
Cette facilité de développement et d'intégration avec d'autres logiciels libres ouvre les
portes du développement d'applications téléphoniques à un large public d'utilisateurs et
de développeurs, sans nécessiter d'autres compétences spéciales ou des API
propriétaires.
II.1. Architecture
Utilisant un PC ordinaire tournant sous GNU/linux équipée de cartes téléphoniques
multicanaux (disponibles auprès de fabricants divers), GNU Bayonne a déjà été utilisé
pour créer et déployer des applications vocales commerciales s'interfaçant avec le
réseau téléphonique public. De telles applications peuvent être des services d'Email
vocal, des services web intégrés de commerce vocal ou des systèmes de gestion de la
relation client. GNU Bayonne est également facilement dimensionnable afin de
permettre le déploiement de services avancés d'opérateur fonctionnant sur des
systèmes d’exploitation open source.
Figure 11 : Architecture de Bayonne
II.2. Caractéristiques
La principale caractéristique de Bayonne est d'offrir une plateforme IVR virtuelle qui est
indépendante du matériel utilisé.
Indépendance vis à vis des plates-formes
Bayonne peut fonctionner avec une partie des familles IVR (pas toutes encore) sans pour
autant avoir besoin d'une d'entre elles. En effet, Bayonne a un tronc commun modulaire
qui définit un ensemble d'instructions et un environnement virtuel, pour un usage
général. Dans cet environnement virtuel on peut développer une application vocale sans
être restreint par le matériel utilisé. Il est donc possible de changer de plateforme ou
mettre en communication un service IVR à un autre système avec une plateforme
différente sans avoir à réécrire le code.
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 34
Possibilité de test en local
Pour essayer ou tester Bayonne, il ne faut pas de plateforme IVR coûteuse. Actuellement,
il suffit d'une carte son, car Bayonne utilise un pilote qui émule une plateforme IVR
utilisant les entrées/sorties du PC (clavier, microphone et écouteurs). Bayonne tourne
sur un PC de bureau.
Donc pour lancer des services IVR, Bayonne utilise son propre langage, appelé CcScript.
Ce langage est très simple, avec des actions informatiques complètes et les principales
structures de programmation: blocs conditionnels, boucles, sauts conditionnels ou non,
routines.... Une fonction principale de CcScript est d'avoir des instructions «limitées
temporellement : avant qu'une instruction ne soit exécutée, le langage connaît son
temps maximum d'exécution ». Pour des opérations incluant des appels à des systèmes
externes, comme les systèmes de fichiers, les bases de données et les connexions réseau,
il y a un paramètre «timeout ». Si l'exécution dure plus longtemps que le timeout,
l'opération échoue. Du point de vue du serveur, cette fonction est très importante car
elle permet à Bayonne d'offrir des services déterministes et reliés.
Les possibilités informatiques de Bayonne ne sont pas seulement limitées à ceux de
CcScript. En fait, Bayonne peut interagir avec des langages de haut niveau comme le Perl
et le Python. Grâce à cette intégration directe, Bayonne hérite de toutes les bibliothèques
et modules disponibles pour ces langages: chaque opération informatique, algorithme
habituel ou non, manipulation de données, raccordement à la base de données ou
serveur externe (enchaînement, courriel, LDAP, dossier partagés)... Ainsi Bayonne peut
traiter tout ce qu'on peut lui demander.
Accès direct aux ressources distantes
Même sans Perl et Python, Bayonne peut directement accéder à des bases de données
MySql ou PostGres et aux requêtes SQL. De la même manière, Bayonne peut accéder au
Systèmes de fichiers et se connecter par l'intermédiaire du réseau à des ressources
distantes. En outre, Bayonne peut directement interagir avec un synthétiseur de voix
TTS, thêta (seulement les voix anglaises sont disponibles) et festival (multilingue).
Actuellement, Bayonne ne peut se relier aux systèmes de reconnaissance de la parole,
mais ce dispositif est au statut de développement.
Gestion synchronisée et/ou désynchronisée
Bayonne peut gérer des entrées venant de connections téléphoniques et des entrées
provenant du système lui−même dans plusieurs buts : gestion synchronisée, où Bayonne
attend pour un signal d'entrée (exemple : attendre qu'une touche soit pressée par
l'utilisateur) et de la gestion désynchronisée, où Bayonne reçoit une notification quand
un événement arrive (exemple : une touche pressée ou un timeout expiré) sans
explicitement les attendre. Ces deux modes de gestion d'entrées permettent à Bayonne
de réagir rapidement à l'utilisateur et aux événements système sans aucune perte de
temps.
Système d’exploitation
Bayonne est la réponse du monde open source et du projet GNU au monde propriétaire
et fermé. Donc, le système d’exploitation sur lequel tourne Bayonne est le GNU Linux.
II.3. Avantages et inconvénients
II.3.1. Avantages
Multitraitement
Comme vu précédemment, Bayonne a été développé pour gérer un grand nombre de
lignes téléphoniques simultanément, donc il permet des commandes et des instructions
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 35
«multithreading » (gestion simultanée de plusieurs processus). Chaque processus peut
interagir avec les autres par le biais de signaux. Cela autorise des processus de
synchronisation et des échanges de données entre les processus et, de plus, en
connectant des tâches qui utilisent des lignes différentes (exemple : deux utilisateurs
peuvent se parler à travers Bayonne).
Modules TTS intégrés
Pour la plupart des services IVR, Bayonne n'a pas besoin de systèmes externes « Texte à
Parole » car il possède déjà ces propres modules vocaux multilingues (Anglais, Français,
Italien et Russe) qui peuvent dire des nombres (ordinaires ou cardinaux), et des dates
(ces modules sont complètement personnalisables). Ils incluent des voies humaines
préenregistrées et qui peuvent être utilisées pour la plus part directement dans
l’architecture de Bayonne.
Flexibilité
Toutes ces caractéristiques rendent Bayonne utile dans un large éventail de situations. Il
peut être utilisé pour de petits services téléphoniques IVR avec quelques lignes, tout
aussi bien que pour un grand service central supportant des centaines de lignes. Avec
Bayonne on peut facilement avoir des services « simples et rapides » ou des services
complexes invoquant par là même des systèmes externes. Ainsi, on peut dire que
Bayonne est une bonne solution de serveur IVR pour tous les besoins en services IVR.
II.3.2. Inconvénients
Incompatibilité avec des modems
Comme indiqué précédemment, Bayonne supporte plusieurs panneaux, même très
différents les uns des autres, de 2 à 120 lignes téléphoniques (analogique ou
numérique).
D'ailleurs, dans la nouvelle version de Bayonne, on peut même utiliser des panneaux de
différentes familles en même temps, ainsi des centaines de lignes téléphoniques peuvent
être manipulées simultanément. Malheureusement Bayonne ne supporte pas les
modems habituels série/USB (analogique, RNIS ou GSM).
Inexistence d’un moteur de reconnaissance vocale
L’une des faiblesses majeures de cette plate-forme, est qu’elle n’a pas de moteur de
reconnaissance vocale. Ainsi la seule interaction qu’il peut y avoir entre un utilisateur et
l’application vocale est l’ensemble des touches du téléphone en l’occurrence les touches
DTMF.
III. La plate-forme Asterisk
Asterisk est un commutateur téléphonique privé à part entière mais d'implémentation
logicielle, compatible avec Linux et qui s'interconnecte avec quasiment tous les
équipements de téléphonie de base. Il rassemble plus de 100 ans de connaissance sur la
téléphonie dans une robuste suite d’applications de télécommunication fortement
intégrées. C’est probablement l’un des outils les plus puissants, les plus flexibles et les
plus extensibles fournissant tous les services de télécommunications qui soient. Il a été
développé par Mark Spencer à l'origine de l'entreprise Digium, et qui continue, grâce à
de nombreux contributeurs, à évoluer régulièrement. Ce logiciel a été conçu pour une
flexibilité maximale et reste un système ouvert à de nouvelles applications. Asterisk
fournit toutes les fonctionnalités attendues d'un PABX mais aussi la voix sur IP et n'a
besoin d'aucun matériel supplémentaire pour l'assurer. Dans l'interconnexion avec les
équipements de téléphonie numériques et analogiques, Asterisk reconnaît une large
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 36
gamme de dispositifs matériels, et notamment ceux fabriqués par ses sponsors, tels que
digium, ou encore Quicknet. Asterisk offre des services tel que la conférence
téléphonique, le répondeur interactif, la mise en attente d'appels, la messagerie vocale,
la musique d'attente, les enregistrements d'appels pour l'intégration avec des systèmes
de facturation, etc... Asterisk crée un environnement unique qui peut être façonné pour
s’adapter à n’importe quel cas d’utilisation notamment en tant que serveur vocal
interactif. Asterisk est conçu pour s’interfacer avec n’importe quel dispositif logiciel ou
matériel de télécommunication de manière cohérente et progressive. Asterisk est un
logiciel assez complexe, dont la configuration peut être ardue. Il propose des options
avancées de configuration et d’ouverture parmi lesquelles nous avons une base de
données interne et un système de communication avec des applications externes : AGI.
AGI (Asterisk Gateway Interface) est une interface permettant de faire communiquer le
plan de numérotation (extensions.conf) avec des programmes extérieurs à Asterisk,
écrits avec des langages de programmation aussi divers que PHP, Perl, Python, C, Shell
Linux.
AGI est matérialisé par l'écriture de scripts qui sont exécutés dans le plan de
numérotation. A chaque lancement d'un script AGI, Asterisk envoie au script un
ensemble de variables avec leurs valeurs. Les fonctionnalités des scripts AGI sont aussi
diverses que le langage de programmation choisi ne permet de possibilités. Il est entre
autres possible de :
 Faire des requêtes dans une base de données (et ainsi lier un serveur Asterisk à
une application)
 Modifier les informations à l'affichage
 Améliorer les manipulations dans le plan de numérotation
 Améliorer le traitement des appels
 Créer un historique personnalisé
 Etc.
A cela est ajoutée la possibilité d'utiliser les autres applications de type AGI. A savoir :
 EAGI (): Permet de lire le canal son.
 DeadAGI (): Permet de contrôler les canaux désactivés (hangup/raccroché).
 FastAGI (): Permet au script d'être utilisé sur un serveur Asterisk distant.
Création d’une base de données de test, elle comporte 4 tables fonctionnelles. Mais il est
à noter qu’elle ne constitue pas la base de données définitive car ne servant ici que d’un
support pour exploiter le serveur vocal.
L’application ainsi développée est sous forme de script. Ce script doit être exécutable
(chmod 755 monscript.agi) et déposé au niveau du répertoire /var/lib/asterisk/agi-
bin/.
Pour être accessible via un téléphone, l’application vocale doit être associée à un
numéro, et doit être mis au niveau du fichier extensions.conf.
Machine distante : exten=> numéro, 1, AGI(agi://adresseIP/monscripts.agi)
Même machine : exten => numéro, 1, Agi (monscripts.agi).
III.1. Architecture
Asterisk a une architecture très simple. Il se comporte comme un middleware
connectant les applications et les technologies de téléphonie. Il a tout d’abord été
développé sur GNU/LINUX pour x/86. Mais il a été soigneusement conçu pour une
flexibilité maximale. Ainsi les APIS spécifiques sont définies autour d'un système PBX
Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 37
central. Ce noyau avancé manipule l’interconnexion interne du PBX proprement
soustrait des protocoles spécifiques, des codecs et des interfaces matérielles des
applications de téléphonie. Cela permet à Asterisk d'utiliser n'importe quel matériel
approprié et technologie disponible (maintenant ou à l'avenir) pour exécuter ces
fonctions essentielles, en connectant le matériel et les applications.
Figure 12 : Architecture d’Asterisk
Equipement d’interconnexion
Il est à noter que pour un usage en interne, Asterisk ne nécessite aucun matériel
supplémentaire mais nécessite une ou plusieurs cartes pour atteindre le réseau
téléphonique commuté.
Figure 13 : Carte vocale Digium
III.2. Caractéristiques
Les solutions de commutations téléphoniques d’Asterisk offrent un assortiment à caractères
riches et flexibles. Asterisk offre les fonctionnalités du PBX classique ainsi que des
caractéristiques avancées et fonctionne avec les systèmes traditionnels de commutations
téléphoniques à base standard et aussi avec les systèmes Voix sur IP. Asterisk fournit toutes
les caractéristiques souhaitables d’un large système PBX. Asterisk prend en charge de
nombreux protocoles MRT (Multi-Threaded Routing Toolkit) pour le traitement et la
transmission de la voix par les interfaces de téléphonie traditionnelle.
Asterisk est compatible avec les types de signalisations standards américaines et
européennes utilisés dans les systèmes téléphoniques d’affaire standard ; il établit un pont
entre la prochaine génération de réseaux d'intégration voix-données et les infrastructures
déjà en place.
Serveur Vocal Interactif plus d'autres technologies
Serveur Vocal Interactif plus d'autres technologies
Serveur Vocal Interactif plus d'autres technologies
Serveur Vocal Interactif plus d'autres technologies
Serveur Vocal Interactif plus d'autres technologies
Serveur Vocal Interactif plus d'autres technologies
Serveur Vocal Interactif plus d'autres technologies
Serveur Vocal Interactif plus d'autres technologies
Serveur Vocal Interactif plus d'autres technologies
Serveur Vocal Interactif plus d'autres technologies
Serveur Vocal Interactif plus d'autres technologies
Serveur Vocal Interactif plus d'autres technologies
Serveur Vocal Interactif plus d'autres technologies
Serveur Vocal Interactif plus d'autres technologies
Serveur Vocal Interactif plus d'autres technologies
Serveur Vocal Interactif plus d'autres technologies
Serveur Vocal Interactif plus d'autres technologies
Serveur Vocal Interactif plus d'autres technologies
Serveur Vocal Interactif plus d'autres technologies
Serveur Vocal Interactif plus d'autres technologies
Serveur Vocal Interactif plus d'autres technologies
Serveur Vocal Interactif plus d'autres technologies
Serveur Vocal Interactif plus d'autres technologies
Serveur Vocal Interactif plus d'autres technologies
Serveur Vocal Interactif plus d'autres technologies
Serveur Vocal Interactif plus d'autres technologies
Serveur Vocal Interactif plus d'autres technologies
Serveur Vocal Interactif plus d'autres technologies

Contenu connexe

Tendances

La VoIP, une solution d'avenir pour les entreprises... mais pas seulement !
La VoIP, une solution d'avenir pour les entreprises... mais pas seulement !La VoIP, une solution d'avenir pour les entreprises... mais pas seulement !
La VoIP, une solution d'avenir pour les entreprises... mais pas seulement !Massimo Russo
 
Mise En Place d'une Solution de Supervision Réseau
Mise En Place d'une Solution de Supervision Réseau Mise En Place d'une Solution de Supervision Réseau
Mise En Place d'une Solution de Supervision Réseau Yaya N'Tyeni Sanogo
 
50315546 rapport-de-stage-telecom
50315546 rapport-de-stage-telecom50315546 rapport-de-stage-telecom
50315546 rapport-de-stage-telecommohamed nadasd
 
Rapport de pfe format doc 2013
Rapport de pfe format doc 2013Rapport de pfe format doc 2013
Rapport de pfe format doc 2013Addi Ait-Mlouk
 
Rapport du projet de fin d'études
Rapport du projet de fin d'étudesRapport du projet de fin d'études
Rapport du projet de fin d'étudeslimam95
 
IRCAD, Internship Report
IRCAD, Internship ReportIRCAD, Internship Report
IRCAD, Internship ReportRaphaël Bils
 
Chapitre2_fragmentation_Abdali.pptx
Chapitre2_fragmentation_Abdali.pptxChapitre2_fragmentation_Abdali.pptx
Chapitre2_fragmentation_Abdali.pptxAimadBenzakry
 
INFORMATIQUE DES GESTION : MERISE
INFORMATIQUE DES GESTION : MERISE INFORMATIQUE DES GESTION : MERISE
INFORMATIQUE DES GESTION : MERISE HINDOUSSATI
 
Rapport final cbi
Rapport final cbiRapport final cbi
Rapport final cbiMan Foru
 
Gestion de services de telecommunications fournies aux abonnées
Gestion de services de telecommunications fournies aux abonnéesGestion de services de telecommunications fournies aux abonnées
Gestion de services de telecommunications fournies aux abonnéesMohamed Boubaya
 
Rapport de stage TOIP/VOIP
Rapport de stage TOIP/VOIPRapport de stage TOIP/VOIP
Rapport de stage TOIP/VOIPMounir Kaali
 
Rapport de stage CSC ghazala
Rapport de stage CSC ghazala Rapport de stage CSC ghazala
Rapport de stage CSC ghazala Ibtissem oueslati
 
Concept et réalisation d’un système de communication unifiée multi-sites
Concept et réalisation d’un système de communication unifiée multi-sitesConcept et réalisation d’un système de communication unifiée multi-sites
Concept et réalisation d’un système de communication unifiée multi-sitesAmadou Dia
 
Concéption et réalisation d'un processus décisionnel, tableau de bord social.
Concéption et réalisation d'un processus décisionnel, tableau de bord social.Concéption et réalisation d'un processus décisionnel, tableau de bord social.
Concéption et réalisation d'un processus décisionnel, tableau de bord social.Rim ENNOUR
 
Etude d’un répartiteur générale téléphonique
Etude d’un répartiteur générale téléphoniqueEtude d’un répartiteur générale téléphonique
Etude d’un répartiteur générale téléphoniqueAchref Ben helel
 
Memoire Master Telecom & Rx
Memoire Master Telecom & Rx Memoire Master Telecom & Rx
Memoire Master Telecom & Rx MAGAYE GAYE
 

Tendances (20)

La VoIP, une solution d'avenir pour les entreprises... mais pas seulement !
La VoIP, une solution d'avenir pour les entreprises... mais pas seulement !La VoIP, une solution d'avenir pour les entreprises... mais pas seulement !
La VoIP, une solution d'avenir pour les entreprises... mais pas seulement !
 
Mise En Place d'une Solution de Supervision Réseau
Mise En Place d'une Solution de Supervision Réseau Mise En Place d'une Solution de Supervision Réseau
Mise En Place d'une Solution de Supervision Réseau
 
50315546 rapport-de-stage-telecom
50315546 rapport-de-stage-telecom50315546 rapport-de-stage-telecom
50315546 rapport-de-stage-telecom
 
Rapport de pfe format doc 2013
Rapport de pfe format doc 2013Rapport de pfe format doc 2013
Rapport de pfe format doc 2013
 
Rapport du projet de fin d'études
Rapport du projet de fin d'étudesRapport du projet de fin d'études
Rapport du projet de fin d'études
 
IRCAD, Internship Report
IRCAD, Internship ReportIRCAD, Internship Report
IRCAD, Internship Report
 
Memoire complet.pdf
Memoire complet.pdfMemoire complet.pdf
Memoire complet.pdf
 
Chapitre2_fragmentation_Abdali.pptx
Chapitre2_fragmentation_Abdali.pptxChapitre2_fragmentation_Abdali.pptx
Chapitre2_fragmentation_Abdali.pptx
 
INFORMATIQUE DES GESTION : MERISE
INFORMATIQUE DES GESTION : MERISE INFORMATIQUE DES GESTION : MERISE
INFORMATIQUE DES GESTION : MERISE
 
Rapport final cbi
Rapport final cbiRapport final cbi
Rapport final cbi
 
Rapport de fin d'etude
Rapport  de fin d'etudeRapport  de fin d'etude
Rapport de fin d'etude
 
Gestion de services de telecommunications fournies aux abonnées
Gestion de services de telecommunications fournies aux abonnéesGestion de services de telecommunications fournies aux abonnées
Gestion de services de telecommunications fournies aux abonnées
 
Rapport de stage TOIP/VOIP
Rapport de stage TOIP/VOIPRapport de stage TOIP/VOIP
Rapport de stage TOIP/VOIP
 
Rapport de stage CSC ghazala
Rapport de stage CSC ghazala Rapport de stage CSC ghazala
Rapport de stage CSC ghazala
 
Modele rapport pfe esprit
Modele rapport pfe  espritModele rapport pfe  esprit
Modele rapport pfe esprit
 
Concept et réalisation d’un système de communication unifiée multi-sites
Concept et réalisation d’un système de communication unifiée multi-sitesConcept et réalisation d’un système de communication unifiée multi-sites
Concept et réalisation d’un système de communication unifiée multi-sites
 
Concéption et réalisation d'un processus décisionnel, tableau de bord social.
Concéption et réalisation d'un processus décisionnel, tableau de bord social.Concéption et réalisation d'un processus décisionnel, tableau de bord social.
Concéption et réalisation d'un processus décisionnel, tableau de bord social.
 
Mémoire de Master 2
Mémoire de Master 2Mémoire de Master 2
Mémoire de Master 2
 
Etude d’un répartiteur générale téléphonique
Etude d’un répartiteur générale téléphoniqueEtude d’un répartiteur générale téléphonique
Etude d’un répartiteur générale téléphonique
 
Memoire Master Telecom & Rx
Memoire Master Telecom & Rx Memoire Master Telecom & Rx
Memoire Master Telecom & Rx
 

En vedette

Tuto Serveur Vocal Interactif (SVI ou IVR)
Tuto Serveur Vocal Interactif  (SVI ou IVR)Tuto Serveur Vocal Interactif  (SVI ou IVR)
Tuto Serveur Vocal Interactif (SVI ou IVR)Dimitri LEMBOKOLO
 
Memoire karamoko mss
Memoire karamoko mssMemoire karamoko mss
Memoire karamoko mssJoseph Diallo
 
Mise en place d'une soltion de communication unifiée
Mise en place d'une soltion de communication unifiéeMise en place d'une soltion de communication unifiée
Mise en place d'une soltion de communication unifiéedartenien
 
Mémoire fin de cycle1
Mémoire fin de cycle1Mémoire fin de cycle1
Mémoire fin de cycle1Mustafa Bachir
 
MEMOIRE DE FIN DE CYCLE Pour l’obtention du : Master 2 en SIR (REALISATION D...
MEMOIRE DE FIN DE CYCLE Pour l’obtention du : Master 2  en SIR (REALISATION D...MEMOIRE DE FIN DE CYCLE Pour l’obtention du : Master 2  en SIR (REALISATION D...
MEMOIRE DE FIN DE CYCLE Pour l’obtention du : Master 2 en SIR (REALISATION D...Olympe Tchibozo
 
Cahier de-tp-asterisk1
Cahier de-tp-asterisk1Cahier de-tp-asterisk1
Cahier de-tp-asterisk1Amadou KA
 
Télécommunication par satellite et la technologie vsat
Télécommunication par satellite et la technologie vsatTélécommunication par satellite et la technologie vsat
Télécommunication par satellite et la technologie vsatjosepkap
 
Asterisk Gestion Efficace de la Telephonie de l'Entreprise
Asterisk Gestion Efficace de la Telephonie de l'EntrepriseAsterisk Gestion Efficace de la Telephonie de l'Entreprise
Asterisk Gestion Efficace de la Telephonie de l'EntrepriseFdiwa
 
La VoIP,Elastix, CentOs, Codima, WireShark
La VoIP,Elastix, CentOs, Codima, WireSharkLa VoIP,Elastix, CentOs, Codima, WireShark
La VoIP,Elastix, CentOs, Codima, WireSharkAbdelhamid KHIRENNAS
 
Asterisk to ip_rapport
Asterisk to ip_rapportAsterisk to ip_rapport
Asterisk to ip_rapportGilles Samba
 
pfSense, OpenSource Firewall
pfSense, OpenSource FirewallpfSense, OpenSource Firewall
pfSense, OpenSource FirewallErik Kirschner
 
Tuto ToIP (Trunk SIP, IAX, Trunk CME - Asterisk)
Tuto ToIP (Trunk SIP, IAX, Trunk CME - Asterisk) Tuto ToIP (Trunk SIP, IAX, Trunk CME - Asterisk)
Tuto ToIP (Trunk SIP, IAX, Trunk CME - Asterisk) Dimitri LEMBOKOLO
 
pfSense Installation Slide
pfSense Installation SlidepfSense Installation Slide
pfSense Installation SlideSopon Tumchota
 
Etude et Mise en oeuvre d'une architecture de téléphonie sur IP sécurisée au ...
Etude et Mise en oeuvre d'une architecture de téléphonie sur IP sécurisée au ...Etude et Mise en oeuvre d'une architecture de téléphonie sur IP sécurisée au ...
Etude et Mise en oeuvre d'une architecture de téléphonie sur IP sécurisée au ...stepmike
 
Installation et Configuration de Pfsense
Installation et Configuration de PfsenseInstallation et Configuration de Pfsense
Installation et Configuration de PfsenseIsmail Rachdaoui
 
Developing an ivr payment system with asterisk (astricon 2014 las vegas nevada)
Developing an ivr payment system with asterisk (astricon 2014 las vegas nevada)Developing an ivr payment system with asterisk (astricon 2014 las vegas nevada)
Developing an ivr payment system with asterisk (astricon 2014 las vegas nevada)Digium
 

En vedette (20)

Tuto Serveur Vocal Interactif (SVI ou IVR)
Tuto Serveur Vocal Interactif  (SVI ou IVR)Tuto Serveur Vocal Interactif  (SVI ou IVR)
Tuto Serveur Vocal Interactif (SVI ou IVR)
 
Memoire final sfallou
Memoire final sfallouMemoire final sfallou
Memoire final sfallou
 
Memoire karamoko mss
Memoire karamoko mssMemoire karamoko mss
Memoire karamoko mss
 
Les Communications Unifiées
Les Communications UnifiéesLes Communications Unifiées
Les Communications Unifiées
 
Mise en place d'une soltion de communication unifiée
Mise en place d'une soltion de communication unifiéeMise en place d'une soltion de communication unifiée
Mise en place d'une soltion de communication unifiée
 
Mémoire fin de cycle1
Mémoire fin de cycle1Mémoire fin de cycle1
Mémoire fin de cycle1
 
MEMOIRE DE FIN DE CYCLE Pour l’obtention du : Master 2 en SIR (REALISATION D...
MEMOIRE DE FIN DE CYCLE Pour l’obtention du : Master 2  en SIR (REALISATION D...MEMOIRE DE FIN DE CYCLE Pour l’obtention du : Master 2  en SIR (REALISATION D...
MEMOIRE DE FIN DE CYCLE Pour l’obtention du : Master 2 en SIR (REALISATION D...
 
Cahier de-tp-asterisk1
Cahier de-tp-asterisk1Cahier de-tp-asterisk1
Cahier de-tp-asterisk1
 
Télécommunication par satellite et la technologie vsat
Télécommunication par satellite et la technologie vsatTélécommunication par satellite et la technologie vsat
Télécommunication par satellite et la technologie vsat
 
Asterisk Gestion Efficace de la Telephonie de l'Entreprise
Asterisk Gestion Efficace de la Telephonie de l'EntrepriseAsterisk Gestion Efficace de la Telephonie de l'Entreprise
Asterisk Gestion Efficace de la Telephonie de l'Entreprise
 
La VoIP,Elastix, CentOs, Codima, WireShark
La VoIP,Elastix, CentOs, Codima, WireSharkLa VoIP,Elastix, CentOs, Codima, WireShark
La VoIP,Elastix, CentOs, Codima, WireShark
 
Asterisk to ip_rapport
Asterisk to ip_rapportAsterisk to ip_rapport
Asterisk to ip_rapport
 
pfSense, OpenSource Firewall
pfSense, OpenSource FirewallpfSense, OpenSource Firewall
pfSense, OpenSource Firewall
 
Tuto ToIP (Trunk SIP, IAX, Trunk CME - Asterisk)
Tuto ToIP (Trunk SIP, IAX, Trunk CME - Asterisk) Tuto ToIP (Trunk SIP, IAX, Trunk CME - Asterisk)
Tuto ToIP (Trunk SIP, IAX, Trunk CME - Asterisk)
 
VoIP
VoIPVoIP
VoIP
 
pfSense Installation Slide
pfSense Installation SlidepfSense Installation Slide
pfSense Installation Slide
 
Etude et Mise en oeuvre d'une architecture de téléphonie sur IP sécurisée au ...
Etude et Mise en oeuvre d'une architecture de téléphonie sur IP sécurisée au ...Etude et Mise en oeuvre d'une architecture de téléphonie sur IP sécurisée au ...
Etude et Mise en oeuvre d'une architecture de téléphonie sur IP sécurisée au ...
 
Présentation VOIP
Présentation  VOIPPrésentation  VOIP
Présentation VOIP
 
Installation et Configuration de Pfsense
Installation et Configuration de PfsenseInstallation et Configuration de Pfsense
Installation et Configuration de Pfsense
 
Developing an ivr payment system with asterisk (astricon 2014 las vegas nevada)
Developing an ivr payment system with asterisk (astricon 2014 las vegas nevada)Developing an ivr payment system with asterisk (astricon 2014 las vegas nevada)
Developing an ivr payment system with asterisk (astricon 2014 las vegas nevada)
 

Similaire à Serveur Vocal Interactif plus d'autres technologies

Memoire_Fallou_Mbengue.pdf
Memoire_Fallou_Mbengue.pdfMemoire_Fallou_Mbengue.pdf
Memoire_Fallou_Mbengue.pdffalloumbengue1
 
25 conception-revu_par_ac
25  conception-revu_par_ac25  conception-revu_par_ac
25 conception-revu_par_acRiadh Harizi
 
Guide de production des cours en ligne
Guide de production des cours en ligneGuide de production des cours en ligne
Guide de production des cours en ligneSALMABOUTERRAKA
 
Backup & Restore SharePoint 2013 Farm
Backup & Restore SharePoint 2013 FarmBackup & Restore SharePoint 2013 Farm
Backup & Restore SharePoint 2013 FarmYoussef El Idrissi
 
Memoire master ipm_miseur_ludovic.versionenligne
Memoire master ipm_miseur_ludovic.versionenligneMemoire master ipm_miseur_ludovic.versionenligne
Memoire master ipm_miseur_ludovic.versionenligneLudovic Miseur
 
Rapport de PFE - Houssem SAKLI (ISIMM)
Rapport de PFE - Houssem SAKLI (ISIMM)Rapport de PFE - Houssem SAKLI (ISIMM)
Rapport de PFE - Houssem SAKLI (ISIMM)Houssem Sakli
 
Rencontre des epn de wallonie 2018
Rencontre des epn de wallonie 2018Rencontre des epn de wallonie 2018
Rencontre des epn de wallonie 2018Heus Erik
 
Scénariser un module de formation.pdf
Scénariser un module de formation.pdfScénariser un module de formation.pdf
Scénariser un module de formation.pdfKhofiSergeKouakou
 
Mémoire CAFFA : Manipuler des outils numériques en formation permet-il de dév...
Mémoire CAFFA : Manipuler des outils numériques en formation permet-il de dév...Mémoire CAFFA : Manipuler des outils numériques en formation permet-il de dév...
Mémoire CAFFA : Manipuler des outils numériques en formation permet-il de dév...Cédric SUTERA
 
Bilan de FuturEduc
Bilan de FuturEducBilan de FuturEduc
Bilan de FuturEducFing
 
Actes numériques du colloque international e-éducation "Place des apprenants ...
Actes numériques du colloque international e-éducation "Place des apprenants ...Actes numériques du colloque international e-éducation "Place des apprenants ...
Actes numériques du colloque international e-éducation "Place des apprenants ...Mission laïque française
 
Le podcasting (ou baladodiffusion) à l'Ecole - Conseil Général des Alpes Mari...
Le podcasting (ou baladodiffusion) à l'Ecole - Conseil Général des Alpes Mari...Le podcasting (ou baladodiffusion) à l'Ecole - Conseil Général des Alpes Mari...
Le podcasting (ou baladodiffusion) à l'Ecole - Conseil Général des Alpes Mari...Libcast SAS
 
CONCEPTION ET RÉALISATION D’UNE PLATEFORME D’ENSEIGNEMENT HYBRIDE D’UNE UNIV...
CONCEPTION ET RÉALISATION D’UNE PLATEFORME  D’ENSEIGNEMENT HYBRIDE D’UNE UNIV...CONCEPTION ET RÉALISATION D’UNE PLATEFORME  D’ENSEIGNEMENT HYBRIDE D’UNE UNIV...
CONCEPTION ET RÉALISATION D’UNE PLATEFORME D’ENSEIGNEMENT HYBRIDE D’UNE UNIV...BerengerBENAM
 
Diaporama TICE 2015
Diaporama TICE 2015Diaporama TICE 2015
Diaporama TICE 2015christelsa
 
Lutte Contre Illetrisme Cleo Bouguenais
Lutte Contre Illetrisme Cleo BouguenaisLutte Contre Illetrisme Cleo Bouguenais
Lutte Contre Illetrisme Cleo BouguenaisCybercentre Bouguenais
 

Similaire à Serveur Vocal Interactif plus d'autres technologies (20)

Memoire_Fallou_Mbengue.pdf
Memoire_Fallou_Mbengue.pdfMemoire_Fallou_Mbengue.pdf
Memoire_Fallou_Mbengue.pdf
 
25 conception-revu_par_ac
25  conception-revu_par_ac25  conception-revu_par_ac
25 conception-revu_par_ac
 
Guide de production des cours en ligne
Guide de production des cours en ligneGuide de production des cours en ligne
Guide de production des cours en ligne
 
GEmploi : Smart school timetable management software using RFID technology
GEmploi : Smart school timetable management software using RFID technologyGEmploi : Smart school timetable management software using RFID technology
GEmploi : Smart school timetable management software using RFID technology
 
Backup & Restore SharePoint 2013 Farm
Backup & Restore SharePoint 2013 FarmBackup & Restore SharePoint 2013 Farm
Backup & Restore SharePoint 2013 Farm
 
Rapport de stage bts
Rapport de stage btsRapport de stage bts
Rapport de stage bts
 
Ichec cedhec 24/5/2011
Ichec cedhec 24/5/2011Ichec cedhec 24/5/2011
Ichec cedhec 24/5/2011
 
Workshop L’ Université Nuage
Workshop L’ Université NuageWorkshop L’ Université Nuage
Workshop L’ Université Nuage
 
Memoire master ipm_miseur_ludovic.versionenligne
Memoire master ipm_miseur_ludovic.versionenligneMemoire master ipm_miseur_ludovic.versionenligne
Memoire master ipm_miseur_ludovic.versionenligne
 
Rapport de PFE - Houssem SAKLI (ISIMM)
Rapport de PFE - Houssem SAKLI (ISIMM)Rapport de PFE - Houssem SAKLI (ISIMM)
Rapport de PFE - Houssem SAKLI (ISIMM)
 
Rencontre des epn de wallonie 2018
Rencontre des epn de wallonie 2018Rencontre des epn de wallonie 2018
Rencontre des epn de wallonie 2018
 
Scénariser un module de formation.pdf
Scénariser un module de formation.pdfScénariser un module de formation.pdf
Scénariser un module de formation.pdf
 
Mémoire CAFFA : Manipuler des outils numériques en formation permet-il de dév...
Mémoire CAFFA : Manipuler des outils numériques en formation permet-il de dév...Mémoire CAFFA : Manipuler des outils numériques en formation permet-il de dév...
Mémoire CAFFA : Manipuler des outils numériques en formation permet-il de dév...
 
Bilan de FuturEduc
Bilan de FuturEducBilan de FuturEduc
Bilan de FuturEduc
 
Actes numériques du colloque international e-éducation "Place des apprenants ...
Actes numériques du colloque international e-éducation "Place des apprenants ...Actes numériques du colloque international e-éducation "Place des apprenants ...
Actes numériques du colloque international e-éducation "Place des apprenants ...
 
Le podcasting (ou baladodiffusion) à l'Ecole - Conseil Général des Alpes Mari...
Le podcasting (ou baladodiffusion) à l'Ecole - Conseil Général des Alpes Mari...Le podcasting (ou baladodiffusion) à l'Ecole - Conseil Général des Alpes Mari...
Le podcasting (ou baladodiffusion) à l'Ecole - Conseil Général des Alpes Mari...
 
CONCEPTION ET RÉALISATION D’UNE PLATEFORME D’ENSEIGNEMENT HYBRIDE D’UNE UNIV...
CONCEPTION ET RÉALISATION D’UNE PLATEFORME  D’ENSEIGNEMENT HYBRIDE D’UNE UNIV...CONCEPTION ET RÉALISATION D’UNE PLATEFORME  D’ENSEIGNEMENT HYBRIDE D’UNE UNIV...
CONCEPTION ET RÉALISATION D’UNE PLATEFORME D’ENSEIGNEMENT HYBRIDE D’UNE UNIV...
 
Diaporama TICE 2015
Diaporama TICE 2015Diaporama TICE 2015
Diaporama TICE 2015
 
Hdr merlo v4
Hdr merlo v4Hdr merlo v4
Hdr merlo v4
 
Lutte Contre Illetrisme Cleo Bouguenais
Lutte Contre Illetrisme Cleo BouguenaisLutte Contre Illetrisme Cleo Bouguenais
Lutte Contre Illetrisme Cleo Bouguenais
 

Dernier

Les Metiers de l'Intelligence Artificielle
Les Metiers de l'Intelligence ArtificielleLes Metiers de l'Intelligence Artificielle
Les Metiers de l'Intelligence ArtificielleErol GIRAUDY
 
KIT-COPILOT and more Article du 20240311
KIT-COPILOT and more Article du 20240311KIT-COPILOT and more Article du 20240311
KIT-COPILOT and more Article du 20240311Erol GIRAUDY
 
The Importance of Indoor Air Quality (French)
The Importance of Indoor Air Quality (French)The Importance of Indoor Air Quality (French)
The Importance of Indoor Air Quality (French)IES VE
 
Mes succès sur Microsoft LEARN et examens
Mes succès sur Microsoft LEARN et examensMes succès sur Microsoft LEARN et examens
Mes succès sur Microsoft LEARN et examensErol GIRAUDY
 
Installation de Sylius 2.0 et découverte du nouveau backoffice en Bootstrap
Installation de Sylius 2.0 et découverte du nouveau backoffice en BootstrapInstallation de Sylius 2.0 et découverte du nouveau backoffice en Bootstrap
Installation de Sylius 2.0 et découverte du nouveau backoffice en BootstrapMaxime Huran 🌈
 
Workshop l'IA au service de l'industrie - Présentation générale - Extra 14...
Workshop l'IA au service de l'industrie - Présentation générale - Extra 14...Workshop l'IA au service de l'industrie - Présentation générale - Extra 14...
Workshop l'IA au service de l'industrie - Présentation générale - Extra 14...Infopole1
 

Dernier (6)

Les Metiers de l'Intelligence Artificielle
Les Metiers de l'Intelligence ArtificielleLes Metiers de l'Intelligence Artificielle
Les Metiers de l'Intelligence Artificielle
 
KIT-COPILOT and more Article du 20240311
KIT-COPILOT and more Article du 20240311KIT-COPILOT and more Article du 20240311
KIT-COPILOT and more Article du 20240311
 
The Importance of Indoor Air Quality (French)
The Importance of Indoor Air Quality (French)The Importance of Indoor Air Quality (French)
The Importance of Indoor Air Quality (French)
 
Mes succès sur Microsoft LEARN et examens
Mes succès sur Microsoft LEARN et examensMes succès sur Microsoft LEARN et examens
Mes succès sur Microsoft LEARN et examens
 
Installation de Sylius 2.0 et découverte du nouveau backoffice en Bootstrap
Installation de Sylius 2.0 et découverte du nouveau backoffice en BootstrapInstallation de Sylius 2.0 et découverte du nouveau backoffice en Bootstrap
Installation de Sylius 2.0 et découverte du nouveau backoffice en Bootstrap
 
Workshop l'IA au service de l'industrie - Présentation générale - Extra 14...
Workshop l'IA au service de l'industrie - Présentation générale - Extra 14...Workshop l'IA au service de l'industrie - Présentation générale - Extra 14...
Workshop l'IA au service de l'industrie - Présentation générale - Extra 14...
 

Serveur Vocal Interactif plus d'autres technologies

  • 1. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 1 REPUBLIQUE DU SENEGAL UN PEUPLE-UN BUT-UNE FOI --------------------- Ministère de l’Enseignement Supérieur et de la Recherche Direction de l’Enseignement Supérieur ------------------------------ Av. Bourguiba prolongée × Front de terre BP : 5549 Dakar-Fann Tel : 33 827 28 89.Fax : 33 867 11 17 Email : estm@orange.sn/www.estm.sn MEMOIRE DE FIN DE CYCLE Pour l’obtention de : DIPLOME DE LICENCE PROFESSIONNELLE EN TELEINFORMATIQUE Option : TELECOMMUNICATIONS ET RESEAUX Soutenu et présenté par : Joseph KAPOU Email : josepkap@hotmail.fr Encadré par : M. Christian OUDANG Email : christianoud@gmail.com Année universitaire 2011-2012
  • 2. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 2 Dédicace JE DEDIE LE FRUIT DE CE TRAVAIL A MES PARENTS A qui Je Dois, Ce Que, Je Suis Aujourd’hui Que La Paix De Dieu Le Tout Miséricordieux & Sa Miséricorde Les accompagne Que Dieu Les Protège & Leur Accorde Une Bonne Santé &Une Longue Vie A MES FRERES & SŒURS Pour Leurs Encouragements Continus Que Dieu Les Protège & Leur accorde Une Bonne Santé & Une Longue Vie A LA MESM (Mission d’Evangélisation pour le Salut du Monde) Que Dieu, Le Tout Puissant Seigneur Continu D’Œuvrer, Au Travers De Ses Serviteurs Qu’Il y a Etabli, Avec Puissance Et Amour Dans La Délivrance De Son Peuple Et Pour Sauver Ceux Qui Sont Perdus
  • 3. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 3 Remerciements C’est avec un grand plaisir que je réserve ces lignes en signe de gratitude et de reconnaissance à tous ceux qui ont contribué de près ou de loin à l’élaboration de ce travail. Je tiens à remercier vivement, le Tout Puissant Dieu à travers son fils Jésus, qui m’a accordé la santé, l’intelligence, le courage, la détermination dans la réalisation de ce projet. J’exprime ma reconnaissance à mon encadreur Mr. Christian OUDANG à qui sa grande culture scientifique, sa disponibilité et sa simplicité sont autant d’éléments qui ont favorisé la réalisation de ce travail. La qualité de ce projet fut enrichie par l’apport de l’imminent Dr. Samuel OUYA. Qu’il reçoive également toute ma gratitude pour les suggestions et conseils qu’il a pu me prodiguer. Mes remerciements vont également à l’administration de l’ESTM et au corps professoral qui grâce à la qualité de la formation qu’ils m’ont donnée m’a conduit à réaliser ce projet. Mes plus tendres pensées iront vers ma famille (Othniel, Evodie, Nathan, Eliel, Merveille de Dieu, Emmanuel, Abraham), et surtout mes parents (Théodore et Anicette KAPOU), qui m’auront permis de poursuivre mes études jusqu’à aujourd’hui et m’auront également aidé dans les périodes de doute. Ces remerciements ne seraient pas complets sans une pensée pour mes amis de longue date, Mérimée GUEZEWANE, Bellarmin MIANSI, Léonel FEINDIRONGAI, Nathan Vladimir FEIKERAM. Merci de m’avoir aidé et encouragé, et pour m’avoir changé les idées quand j’en avais besoin. Enfin pour paraphraser une expression de reconnaissance de chez moi, à vous que j’ai nommé et à vous tous qui avez participé dans l’anonymat à ma formation, notez ceci « lorsque le soleil rayonne, sachez que c’est moi qui vous exprime ma gratitude ».
  • 4. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 4 Avant-propos L’École Supérieure de Technologie et de Management (ESTM) est une école privée d’enseignement supérieur universitaire et professionnel, créée par des universitaires et des professionnels des secteurs de nouvelles technologies de l’information et de la gestion. Les cours sont dispensés par des enseignants qui sont des universitaires et des professionnels dans les secteurs concernés. La pédagogie de l’Ecole Supérieure de Technologie et de Management comme celle de toutes les grandes écoles est de participer en collaboration avec l’étudiant à la recherche de stage de fin d’études. Le stage en entreprise est un moment privilégié de mise en pratique des enseignements reçus. Il permet tout d’abord à l’étudiant de faire une application réelle des connaissances théoriques. Ensuite, il emmène l’étudiant à transformer les acquis pédagogiques en savoir-faire et savoir être, lui permettant de se positionner dans le milieu professionnel ainsi, de s’impliquer comme un acteur véritable dans le processus de l’entreprise. En outre, il doit permettre à l’étudiant de mettre en évidence, son niveau de maturité, son autonomie et sa capacité à s’évaluer en dehors du milieu scolaire, dans le strict respect des règles du monde du travail. A la fin de ce stage, l’étudiant doit produire un mémoire et le soutenir devant un jury. Ce document décrit les activités effectuées au sein de la structure d’accueil en rapport avec un sujet ou projet qui lui a été confié. C’est dans ce cadre que nous venons à présenter notre document.
  • 5. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 5 Abstract The introduction of the voice as additional form of communication to deploy applications certainly revolutionized the world of computing as a way to access the information without a computer. Indeed, has been a liability in recent years, since people are always connected in network, especially in the rural world. The use of interactive voice servers (IVR) has significantly improved the availability of information and voice applications have continuous access to data remotely with accessible tools for any category of population (the phone is an example). This thesis gets in a scientific exploration because this area is recent and most solutions are owners. Thus, in general we focused voice servers, and in particular on voice server "Open Sources". The result enables us to choose Asterisk for the implementation of a voice application. To validate the proper functioning of our implementation, we have adapted this work to the consultation (notes, information about the school) for students remotely by telephone, and to a permanent contact with the administration. Another aspect of the work is the improvement of our Asterisk platform. Indeed, voice applications have added an additional level of communication between human and artificial systems. However, the ability to transform text (words) in vocal form is not as flexible as we could imagine. Thus, this improvement aims mainly to change the voice synthesis engine that offers Asterisk by an another synthesizer, capable of reading words, because the voice synthesis engine before it reads only numbers, which is a major brake having regard to the general objectives of the project.
  • 6. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 6 Table des matières Dédicace .................................................................................................................................................. 2 Remerciements ....................................................................................................................................... 3 Avant-propos........................................................................................................................................... 4 Abstract ................................................................................................................................................... 5 Table de figures....................................................................................................................................... 9 Table de tableaux .................................................................................................................................. 10 Introduction........................................................................................................................................... 11 Problématique....................................................................................................................................... 12 1. Mise en contexte....................................................................................................................... 12 2. Importance de la question ........................................................................................................ 12 PREMIERE PARTIE.................................................................................................................................. 13 CHAPITRE I. PRESENTATION DE L’ESTM............................................................................................ 14 I.1. Présentation .......................................................................................................................... 14 I.2. Présentation des départements............................................................................................ 14 I.3. Organigramme de l’ESTM...................................................................................................... 15 I.4. Le réseau de l’ESTM............................................................................................................... 15 CHAPITRE II. ETUDE SUR LES SERVEURS VOCAUX INTERCTIFS....................................................... 16 I. Etat de l’art des Serveurs Vocaux Interactifs................................................................................. 16 I.1. Définition............................................................................................................................... 16 I.2. Rôle d’un SVI.......................................................................................................................... 16 I.3. Les domaines d’applications des SVI..................................................................................... 17 I.4. Les types de base d’un SVI .................................................................................................... 18 I.4.1. La borne d’information.................................................................................................. 18 I.4.2. Le standard téléphonique ............................................................................................. 18 I.4.3. Le Couplage Téléphonie Informatique.......................................................................... 19 I.4.4. Les fonctionnalités annexes .......................................................................................... 19 II. Fonctionnement d’un SVI.............................................................................................................. 20 III. Les technologies composantes de SVI....................................................................................... 21 III.1. L’architecture matérielle....................................................................................................... 22 III.2. L’architecture logicielle ......................................................................................................... 22 IV. L’interaction Clients-SVI / SVI-Clients........................................................................................ 23 IV.1. Interaction Clients-SVI........................................................................................................... 23 IV.1.1. Les touches DTMF......................................................................................................... 23
  • 7. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 7 IV.1.2. La reconnaissance vocale ............................................................................................. 24 IV.2. Interactions SVI-Clients ......................................................................................................... 25 IV.2.1. Annonce avec un fond sonore....................................................................................... 25 IV.2.2. Annonces classiques..................................................................................................... 25 V. La synthèse vocale......................................................................................................................... 26 V.1. Mbrola................................................................................................................................... 26 V.2. Lia_Phon................................................................................................................................ 27 V.3. Liambrola............................................................................................................................... 27 CHAPITRE III. ETUDE DES DIFFERENTES SOLUTIONS DE SVI............................................................ 28 I. La plateforme WebSphere ............................................................................................................ 28 I.1. Architecture........................................................................................................................... 28 I.2. Caractéristiques..................................................................................................................... 30 II.3. Avantages et inconvénients .................................................................................................. 31 II.3.1. Avantages ...................................................................................................................... 31 II.3.2. Inconvénients ................................................................................................................ 32 II. La plate-forme Bayonne................................................................................................................ 32 II.1. Architecture........................................................................................................................... 33 II.2. Caractéristiques..................................................................................................................... 33 II.3. Avantages et inconvénients .................................................................................................. 34 II.3.1. Avantages ...................................................................................................................... 34 II.3.2. Inconvénients ................................................................................................................ 35 III. La plate-forme Asterisk ............................................................................................................. 35 III.1. Architecture........................................................................................................................... 36 III.2. Caractéristiques..................................................................................................................... 37 III.3. Fonctionnalités...................................................................................................................... 38 III.4. Avantages et inconvénients .................................................................................................. 38 III.4.1. Avantages ...................................................................................................................... 38 III.4.2. Inconvénients ................................................................................................................ 38 DEUXIEME PARTIE ................................................................................................................................. 40 ............................................................................................................................................................... 40 CHAPITRE I. CONCEPTION ET MISE EN OEUVRE D’UN SERVEUR VOCAL INTERACTIF....................... 41 I. Conception .................................................................................................................................... 41 I.1. L’application vocale............................................................................................................... 41 I.2. Le noyau vocal....................................................................................................................... 41 I.3. Le traitement des appels....................................................................................................... 41
  • 8. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 8 II. Mise en œuvre............................................................................................................................... 42 II.1. L’opérateur téléphonique ..................................................................................................... 42 II.2. Le MIC.................................................................................................................................... 42 II.3. Le simulateur......................................................................................................................... 42 I.4. La carte vocale....................................................................................................................... 42 CHAPITRE II. REALISATION D’UN SERVEUR VOCAL INTERACTIF POUR UNE DEMANDE AU SEIN DE L’ESTM................................................................................................................................................... 43 I. Choix d’une solution et de l’environnement................................................................................. 43 II. Implémentation de la solution...................................................................................................... 43 II.1. Mise en place du serveur Asterisk......................................................................................... 43 I.1.1. Installation de Linux (Ubuntu 12.04)............................................................................. 43 I.1.2. Installation d’Asterisk.................................................................................................... 43 II.1.3. Configuration du serveur (Asterisk) .............................................................................. 45 II.2. Mise en place de la synthèse vocale ..................................................................................... 52 II.2.1. Application Mbrola........................................................................................................ 52 II.2.2. Application Lia Phon...................................................................................................... 53 II.2.3. Application Liambrola.................................................................................................... 55 III. Test et Scénario................................................................................................................................ 57 ............................................................................................................................................................... 57 Conclusion générale et perspective ...................................................................................................... 60 Bibliographie.......................................................................................................................................... 61 Webographie......................................................................................................................................... 61 Glossaire................................................................................................................................................ 62 Annexe................................................................................................................................................... 64
  • 9. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 9 Table de figures Figure 1: Organigramme de l'ESTM........................................................................................................15 Figure 2 : Architecture du réseau téléphonique de l’ESTM .............................................................15 Figure 3 : Couplage Téléphonie Informatique.....................................................................................19 Figure 4 : Fonctionnement d’un SVI........................................................................................................21 Figure 5: Tableau récapitulatif des différentes fréquences du standard DTMF ......................24 Figure 6: Processus de la reconnaissance vocale................................................................................24 Figure 7: Processus de la synthèse vocale .............................................................................................26 Figure 8 : Architecture de Websphere....................................................................................................28 Figure 9 : Types de téléphones utilisés avec Websphere..................................................................29 Figure 10 : Dispositif simulant le réseau de téléphonie....................................................................29 Figure 11 : Architecture de Bayonne ......................................................................................................33 Figure 12 : Architecture d’Asterisk..........................................................................................................37 Figure 13 : Carte vocale Digium...............................................................................................................37 Figure 14 : Configuration dans sip.conf.................................................................................................46 Figure 15 : Configuration de plan de numérotation des clients dans extensions.conf...........47 Figure 16: Arborescence de l’application..............................................................................................48 Figure 17: Configuration du fichier extensions.conf pour le serveur vocal ..............................52 Figure 18 : Scénario de test........................................................................................................................57 Figure 19 : Configuration du client X-lite.............................................................................................57 Figure 20 : Aperçu sur la communication entre les utilisateurs et le serveur vocal...............59 Figure 21 : Script agi....................................................................................................................................65
  • 10. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 10 Table de tableaux Tableau 1 : Principaux modules du logiciel Asterisk…………………………………………………...44 Tableau 2 : Syntaxe générale pour le fichier sip.conf…………………………………………………...45 Tableau 3 : Syntaxe générale pour le fichier extensions.conf…………………………………….....47
  • 11. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 11 Introduction Avec l’émergence de la téléphonie IP, le secteur des services, informatiques et télécoms, à valeur ajoutée connaît de nos jour un progrès sans précédent. L’avènement du serveur vocal interactif en est un des plus beaux exemples. Le SVI (Serveur Vocal Interactif) qui fut l’apanage des grandes entreprises devient accessible aux plus petites. Il fonctionne souvent avec des messages préenregistrés qu'il diffuse, mais peut aussi utiliser un synthétiseur vocal pour générer son discours. Le SVI constitue une aide appréciée par toutes les PME qui veulent optimiser la qualité de leurs services clients, en permettant notamment une accessibilité 24h/24 et une liaison personnalisée avec les bases de données de l'entreprise. A cet effet, il convient de se poser la question de savoir : Quelles méthodologies et technologies mettre en place pour concevoir et développer des applications permettant à tout un chacun de bien s’informer à temps et avec un quelconque moyen de communication ? A ce titre, il s’avère raisonnable de disposer d'une solution efficace et moins coûteuse. Pour répondre à ce besoin, il existe des logiciels sur le marché, à l'instar d’Asterisk qui est un logiciel libre. Asterisk est un IPBX, c'est à dire un commutateur téléphonique qui fonctionne aussi bien sur le réseau téléphonique traditionnel que sur les nouveaux réseaux Internet (IP). Il peut être utilisé sur un système d'exploitation à base d'Unix (Linux, BSD, Unix) et sous les systèmes d'exploitation à base de DOS (Windows 2000, Windows 2003). Aujourd'hui il est important d'interconnecter les différents PABX ou d’utiliser Asterisk pour effectuer de différentes tâches sur d'autres ordinateurs. D’où le problème de connexion entre deux machines UNIX. Ainsi la recherche à mener dans ce projet doit améliorer la communication entre un système d’informations et ses utilisateurs au travers de l’analyse et de la conception de l’interface homme-machine. Ce faisant, la transformation du texte (mots) sous forme vocale n’est pas une tâche aisée. C’est ainsi que, l’amélioration que l’on se propose d’apporter vise surtout à changer le moteur de synthèse vocale que propose Asterisk par un autre synthétiseur capable de lire des mots, vu que le moteur de synthèse vocale dont il dispose ne lit que des nombres, ce qui constitue une entrave majeure contenu des objectifs généraux du projet. C'est dans cette optique que le projet d’ «Étude et Conception d’un serveur vocal interactif au sein de l’ESTM » nous a été confié. De ce qui précède, il s’agit d’une part de faire une présentation de l’ESTM, suivie d’une étude sur les serveurs vocaux interactifs, et d’autre part, de concevoir et réaliser une application vocale permettant de se renseigner et aussi de programmer un appel au niveau de l’ESTM, avant de procéder à l’intégration d’un synthétiseur vocal.
  • 12. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 12 Problématique 1. Mise en contexte Ce projet a été mis sur pied dans le souci d’aider les services d’accueil de certaines entreprises à dialoguer de façon permanente avec leurs clients et, ce, sans mobiliser assez de ressources. Le projet consiste à mettre en place des serveurs vocaux capables de dialoguer en langues internationales et nationales (anglais, français, sangho, etc.) L’ESTM, en tant qu’une grande école, s’intéresse aussi à l’automatisation de gestion de la relation clientèle qui est quelque chose de très important. Donc son objectif est de proposer un service irréprochable, ainsi que des conseillers joignables à tout moment. C’est dans cet ordre d’idée que nous nous proposons de réaliser ce travail aussi passionnant qu’il soit de mettre en place un serveur vocal interactif au sein de l’ESTM et de lui attribuer un numéro pour que ceux qui désirent s’inscrire ou de continuer leur formation, voire même de chercher des informations sur les différentes filières au niveau de ladite structure puissent programmer un appel à l’aide d’un serveur vocal. Grâce à ce dispositif, l’administration pourra avoir les numéros et entrer en contact si possible avec des personnes qui ont appelé en dehors des heures normales du travail. Pour arriver à mettre en place cette application nous utiliserons le Serveur PABX « Open source » Asterisk. 2. Importance de la question Le choix d’une application vocale n’est pas anodin. En effet, le moyen de communication le plus naturel, plus efficient et plus flexible entre les humains est la parole. L’interaction vocale est devenue un enjeu technologique du 21ème siècle, en ce sens où elle permet d’accroître le naturel de la communication, favorisant l’accès à l’information pour tous, et particulièrement les personnes défavorisées par l’usage des dispositifs technologiques. Mais force est de constater que l’élaboration de tels systèmes d’informations décuple la compétence des ressources humaines qui y sont investies, et par-delà la maîtrise technologique dans le domaine.
  • 13. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 13 Cette partie s’attache à : La présentation de l’ESTM ; Faire une étude les Serveurs Vocaux Interactifs ; La présentation des différentes plateformes pouvant permettre la mise en œuvre d’un serveur vocal interactif dont la plate-forme Asterisk. PREMIERE PARTIE
  • 14. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 14 CHAPITRE I. PRESENTATION DE L’ESTM I.1. Présentation L’ESTM (École Supérieure de Technologie et de Management) est une école privée d’enseignement supérieur, universitaire et professionnel. Elle a été créée en 2002 par des professionnels des secteurs des nouvelles technologies de l’information, de la communication et de la gestion. Les enseignements dispensés s’inspirent des normes exigées par le CAMES (Centre Africain et Malgache pour l’Enseignement Supérieur) et sont donc superposables à ceux dispensés dans les meilleurs écoles tant sur le continent africain que sur le continent européen et américain. Le programme est élaboré en fonction du monde professionnel, et adapté à l’évolution de la technologie de manière à donner à l’étudiant des compétences aussi bien théoriques que pratiques. L’école compte toujours rester à la pointe de la technologie dans un environnement qui se veut compétitif. Elle participe en collaboration avec l’étudiant à la recherche de stage de fin d’études. Le stage donne lieu à une soutenance devant un jury. L’école forme des techniciens supérieurs en Informatique de Gestion, en Réseaux Téléinformatique et Maintenance Informatique dans le premier cycle de son département des sciences de l’informatique. Au second du même département elle forme des ingénieurs spécialisés en Réseaux Téléinformatique, en Génie Logiciel et en Système de gestion de base de données (SGBD). Dans son département des sciences de gestion, elle forme des diplômés de premier et second cycle en marketing, en comptabilité, en tourisme et en gestion. L’ESTM est sise à l’avenue Bourguiba prolongée X front de terre derrière la Brioche Dorée. I.2. Présentation des départements Le département des sciences de l’informatique compte quatre formations en cours du jour et en cours du soir : Départements des sciences de l’informatique Cours du jour Cycle 1  Téléinformatique et Réseaux  Réseaux télécoms Cours du soir Cycle 2  Ingénieur 1 et 2 en réseaux Téléinformatique  Master 1 et 2 Téléinformatique et Télécommunication Départements des sciences de la gestion Le département de sciences de la gestion compte trois formations :  Marketing  Comptabilité  Gestion
  • 15. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 15 I.3. Organigramme de l’ESTM Figure 1: Organigramme de l'ESTM I.4. Le réseau de l’ESTM Nous avons deux types de réseaux au niveau de l’ESTM :  Un réseau téléphonique géré par un PABX physique BELLS à 8 sorties.  Un réseau informatique indépendant du réseau téléphonique. Figure 2 : Architecture du réseau téléphonique de l’ESTM  Des infrastructures de réseaux et télécoms  Liens inter sites, Interconnexion RAP  Firewall, Routeurs, commutateurs et bornes de Sites  Téléphonie classique totalement indépendante du réseau informatique, une sortie T2 et un autocommutateur local BELLS PABX (non IP) de 8 ports accès internet via un modem-routeur point d’accès wifi (WAG200G).
  • 16. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 16 CHAPITRE II. ETUDE SUR LES SERVEURS VOCAUX INTERCTIFS I. Etat de l’art des Serveurs Vocaux Interactifs La numérisation et l’informatique sont de nos jours en grand essor, ce qui a conduit à une importante évolution au niveau des réseaux téléphoniques. Nous assistons à une mise en place d’applications logicielles pour une meilleure gestion du flux des appels entrants et sortants. Le premier essai d'application des SVI a été réalisé par IBM en 1972 pour le compte de la Banque Bred. L'introduction des SVI dans les entreprises s'est généralisée dans le milieu des années 1980. Depuis 1991, les serveurs vocaux ne sont plus seulement présents dans les grandes entreprises, mais aussi dans les petites et moyennes entreprises qui s’activent dans les domaines de l’artisanat et des services fournis aux particuliers. Le SVI a constitué une étape historique de l'évolution des technologies informatiques et des télécommunications, au sens où c'était la première fois que l'intégration des technologies informatiques et vocales, et celle des technologies téléphoniques au sein d'un unique équipement débouchaient sur un véritable marché d'équipements de télécommunication. Le serveur vocal interactif constitue la première étape dans l'évolution du Couplage Téléphonie-Informatique (CTI). I.1. Définition Un serveur vocal interactif (SVI) est un système informatique qui prend en charge les appels entrants à l’aide de messages vocaux enregistrés ou de synthèse vocale. En d’autres termes, c’est une plateforme, un ensemble logiciel et/ou matériel, qui sert de répondeur vocal contrôlé par l'ensemble des touches du téléphone ou des technologies de reconnaissance vocale, permettant d'échanger de manière automatique des informations divers (messages, fax, etc.). Le système est interactif dès lors qu'une réponse à une question posée par l'appelant entraîne un traitement particulier de la part du serveur, car, l’appelant est appelé à interagir avec le serveur par la voix ou par l’utilisation des touches de son téléphone fixe, mobile ou d’un softphone 24h sur 24 et 7 jours sur 7 pour certaines applications. Le serveur vocal interactif peut orienter l’utilisateur vers un opérateur humain ou traiter entièrement la demande. L’accès à cette application se fait par un simple numéro de téléphone ou par un numéro spécialisé dont la demande s'effectue auprès d'un opérateur téléphonique. Plus précisément, un SVI est chargé de la délivrance d'informations courtes et simples. Il permet également d'identifier les appelants, de les aiguiller vers des services automatiques ou des téléopérateurs compétents. Le SVI permet aussi d’interroger une base de données dans le Système d’Information (SI). Les SVI sont adaptés à une large gamme de services et fonctions. Les applications classiques du serveur vocal sont les services de transaction (réservation, télépaiement, etc.) et les services de consultation (horaires, comptes bancaires, etc.). I.2. Rôle d’un SVI Autre fois, le SVI avait, que, pour rôle la gestion intelligente du temps d'attente. A présent, nous assistons à une variation du rôle des serveurs vocaux, grâce notamment à la synthèse vocale qui a profondément modifié le fonctionnement de la messagerie et de l'accueil. En même temps, le couplage téléphonie-informatique a révolutionné les centres d'appels en donnant un nouveau rôle aux serveurs vocaux interactifs. Les réseaux téléphoniques acceptant la numérotation en fréquence vocale, celle qui permet d'envoyer les signaux DTMF (Dual Tone Multi Frequency) avec les touches du combiné, ont offert la possibilité de communiquer à distance avec les serveurs interactifs.
  • 17. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 17 Etant donné qu’aujourd'hui, le téléphone s'affirme comme le centre névralgique d'une entreprise, qu'elle soit une TPE, une PME ou une grande compagnie, un simple combiné et un répondeur classique ne suffisent plus pour répondre au mieux à des nombreuses demandes des clients. De ce fait, la téléphonie, à travers les SVI, apparait comme indispensable pour le développement d’une entreprise. Plus le nombre d’appels reçus par l’entreprise croît et plus celle-ci doit assurer un meilleur accueil à ses clients potentiels. Pour ce faire, l’entreprise doit administrer au mieux les files d’attente. Dans les années 1990, la prise de conscience que l'image d'une entreprise dépend de la qualité de son accueil téléphonique va engendrer une multitude d'investissements. Ainsi, l'acquisition d'un serveur vocal qui répond immédiatement aux appels et limite le nombre d'appels non aboutis, vise à améliorer l'image de l'entreprise dans un premier temps, puis le contact client/entreprise. Concrètement, la fonction première d'un SVI consiste à répondre aux appels reçus avec un niveau de qualité optimale, en s'appuyant sur les atouts intrinsèques de l'automate. Avec un serveur vocal interactif, fini les longues attentes dans les périodes d'encombrement du standard, une voix vous guide et vous permet d'accéder directement au service correspondant à votre demande. Le SVI permet de traiter une partie des demandes et de suppléer aux centres d’appels pendant les heures de fermeture. Le SVI est aussi en mesure de faire une sélection d'appels en limitant les appels polluants. En résumé, un SVI offre une solution pour le traitement des appels entrants qui se résume à la devise : « être disponible lorsque les clients appellent, traiter au mieux chaque appel de vos clients et rester efficace, précis quand le téléphone sonne sans cesse ». Avec le développement de l’Internet et l’émergence de nouveaux médias notamment les téléphones mobiles, le SVI connaît un regain d’intérêt et ouvre de nouveaux champs d’application qui permettent l’accès en base de données. I.3. Les domaines d’applications des SVI Les domaines d’applications des SVI sont variés, leur utilisation à bon escient dans le cadre des émissions et réceptions d’appels est un atout majeur pour certains services clients par la permanence du service. Les applications vocales sont mises en œuvre pour la création d'un standard automatisé au sein d'une entreprise. En effet, le SVI se charge de l'accueil et de l'orientation du client, déchargeant ainsi le standard traditionnel. Ce dernier peut toutefois être accessible depuis le SVI, en fonction des options d'orientations proposées. A défaut de standard traditionnel, le client peut être orienté vers une messagerie vocale si sa requête n'est pas prise en compte par l'arborescence vocale du SVI. Également, il existe d'autres applications nécessitant un SVI telles les aboutements fax (fax à la demande), la banque à domicile, le routage d'appels, les systèmes d'alerte automatisée, le serveur de renseignements statistiques pour des réponses répétitives, le serveur de renseignements dynamiques pour des consultations ponctuelles de situation, le serveur d’information dynamique, le serveur d’identification et d’authentification, la file d’attente interactive. Les serveurs vocaux interactifs peuvent être utilisés dans de nombreux services, tels que la banque, le rechargement d'un compte de téléphonie mobile, l´identification d´un appelant, vente par correspondance, accès aux services clients etc. Les répondeurs classiques ne sont pas considérés comme serveurs vocaux interactifs tant que la communication ne va que dans un sens (l´appelant laisse un message) alors que les systèmes serveurs vocaux interactifs offrent une interaction (à double sens). Les répondeurs plus récents sont des serveurs vocaux interactifs, car ils permettent une plus grande interaction, notamment dans la gestion des messages (consultation, suppression, archivage, etc.).
  • 18. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 18 Plus généralement les serveurs vocaux interactifs sont utilisés comme porte d´entrée d´un centre d'appel pour identifier le service demandé par l´appelant ou traiter des demandes simples. Les serveurs vocaux interactifs sont souvent critiqués comme étant peu utiles et difficiles à utiliser à cause de leur programmation simpliste et leur manque de réactivité aux demandes des appelants. Une mesure courante de l'efficacité d'un système de serveurs vocaux interactifs est le nombre d'interactions nécessaires pour satisfaire le besoin de l'utilisateur (par exemple, le nombre minimum de questions pour établir la connexion de l´appelant avec le service désiré). Notons qu'avec l'utilisation croissante des téléphones portables, un problème de taille est l'utilisation des serveurs vocaux interactifs dans des milieux parfois bruyants comme les rues, ce qui nécessite l'utilisation de modèles et de techniques plus robustes. I.4. Les types de base d’un SVI Avec un serveur vocal interactif, on peut mettre en place plusieurs fonctionnalités telles que la mise à disposition d’informations spécifiques sous forme vocale, un standard automatique à partir d’une certaine heure avec possibilité d’aiguillage automatique, la diffusion d’alertes, l’interrogation de bases de données. De ce fait les SVI se regroupent en trois types d'utilisation standards: la borne d'informations, le standard téléphonique et l'utilisation d'un SVI en liaison avec une base de données ou CTI (Couplage Téléphonie Informatique). I.4.1. La borne d’information Le fonctionnement en borne d’information est le service le plus basique que puisse rendre un SVI. Ce dernier diffuse des messages répétitifs, plus précisément des informations pratiques, sans aucune intervention humaine. Cette fonction permet à l’appelant d’être guidé dans une arborescence afin de trouver les informations qu’il cherche. Il passe d’un menu à l’autre par simple choix. Les SVI bornes d'informations sont quelques fois utilisées en cas de "débordement d'appels" c'est à dire quand le service de réception assuré par du personnel est saturé. Les appels entrants sont redirigés vers des SVI fonctionnant en débordement d’appel. I.4.2. Le standard téléphonique Le standard téléphonique, encore appelé standard pré-décroché, est un commutateur, c'est-à-dire un appareil assurant automatiquement les connexions téléphoniques entre appelé et appelant (à l'intérieur de l'entreprise comme vers l'extérieur). Il se charge de l’accueil de l’appelant et lui propose par des choix dans des menus vocaux d’accéder à son correspondant. Les choix s’effectuent par fréquence vocale sur le clavier téléphonique de l’appelant ou parfois par reconnaissance vocale. Le standard téléphonique permet de transférer les appels, les guider vers les différents services et correspondants, les filtrer en cas de besoin. Le SVI doit alors faire suivre l'appel, et pour cela il doit commander le PABX (Private Automatic Branch eXchange) qui à son tour peut conduire des appels sans interposition manuelle en se basant entièrement sur le numéro composé, c’est un outil très puissant et très flexible en terme de mécanisme de routage.
  • 19. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 19 I.4.3. Le Couplage Téléphonie Informatique Figure 3 : Couplage Téléphonie Informatique La notion de CTI est la réunion et l'intégration des mondes de la téléphonie et de l'informatique sur une plateforme commune. Le CTI donne la possibilité d’interroger une base de données, d’y stocker des informations saisies par l’appelant, mais aussi de lui diffuser des informations qui lui sont propres. Pour parvenir à cela, il faut intégrer la base de données dans le logiciel de gestion du SVI. Ce qui différencie ces SVI des autres ne se situe pas au niveau matériel, mais plutôt au niveau logiciel. Le logiciel employé n'est plus un logiciel aux fonctions limitées mais un progiciel. Ce sont par exemple les SVI de type prise de commandes, consultations de comptes bancaires, etc. En effet, le couplage téléphonie informatique (CTI) permet notamment l’utilisation de bases de données qui contiennent les traces des appels (nombre, durée, qualité, agent, etc.) et facilitent une approche statistique pour aider à la décision. Les fonctions du CTI permettent d’effectuer le chargement de la fiche du demandeur sur l’applicatif métier lors de la présentation de l’appel à l’opérateur. Grâce au CTI les messages vocaux sont des fichiers informatiques que l’on peut à souhait placer dans des scénarii où naviguent les interlocuteurs. De plus le couplage téléphonie informatique permet une gestion plus aisée en associant par exemple le numéro de téléphone de l’appelant ou un code émis par l’appelant, avec une fiche personnalisée. I.4.4. Les fonctionnalités annexes La fonction la plus élémentaire pour un serveur vocal est la borne d’informations. Cependant, le SVI est en mesure de jouer d’autres rôles mis à part les trois fonctionnalités standard qui viennent d’être explicitées dans la section précédente. Parmi ces nombreux rôles nous avons la messagerie vocale, la messagerie unifiée et le service de fax à la demande qui sont les plus connus. I.4.4.1. La messagerie vocale La messagerie vocale est un répondeur télématique permettant d'enregistrer les paroles du correspondant en l'absence de l'abonné. Dans une entreprise utilisant un SVI remplissant la fonction de messagerie vocale, une boîte vocale est attribuée à chaque employé où l’appelant peut être dirigé pour laisser un message lorsque le correspondant souhaité n’est pas disponible. Dans ce cas, le SVI joue le rôle de répondeur téléphonique. L’employé peut consulter à distance sa boîte vocale très facilement avec son clavier téléphonique ; il se laisse guider par une arborescence vocale qui lui évite ainsi d’avoir recours à un mode d’emploi papier. Ce type de SVI permet aussi d’envoyer un message à
  • 20. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 20 plusieurs destinataires, de réexpédier un message, de l’annoter, etc. En outre, la messagerie vocale permet également de gérer les messages vocaux: transfert avec ajout de commentaires, auto-login, notification des appels reçus, personnalisation des messages d’accueil, etc. Une autre fonction caractéristique des messageries vocales est la possibilité au sein du groupe d'utilisateurs de la messagerie de réexpédier un message, de l'annoter, et surtout d'envoyer un message à plusieurs destinataires. Il existe aussi d'autres fonctions selon les systèmes :  Horodatage, identification du numéro de l'appelant,  Création automatique de boîtes vocales (nombre illimité)  Lecture, suppression des messages  Envoi des fichiers sons sur la messagerie internet du correspondant  Fonction d’avertissement des correspondants (e-mail) I.4.4.2. La messagerie unifiée La messagerie unifiée permet de faire converger les messages, écrits ou vocaux, issus de différentes sources (courrier électronique, fax, téléphone...) vers un seul serveur accessible à tout type de terminal (ordinateur, téléphone, mobile, PDA). Elle centralise la gestion des messages vocaux, e-mails et fax. L’utilisateur peut écouter ses messages vocaux, avoir une lecture de ses e-mails grâce à la technologie Text-To-Speech (Synthèse vocale), éditer un fax et profiter de toutes les fonctionnalités de sa boîte vocale. La consultation à distance est donc simplifiée. La messagerie unifiée joue le même rôle que la messagerie vocale mais en complément de cette dernière qui se limite aux messages vocaux, elle centralise et permet de consulter tout type de messages (électroniques, vocaux et parfois fax) à partir d’une interface unique (téléphone ou logiciel de messagerie). I.4.4.3. Service de fax à la demande Face au succès qu’a Internet de nos jours, le service de fax à la demande est de plus en plus mis en oubliette. En effet, envoyer ou recevoir un document (fichier…) par Internet est plus commode que par fax. Cependant, il existe des serveurs vocaux capables de commander un serveur fax par exemple pour envoyer à la demande le plan d'un appartement, un itinéraire routier, etc. L’utilisateur de ces services fait son choix en s’aidant d’une arborescence vocale et de touches téléphonique. Certains serveurs vocaux peuvent aussi commander un serveur fax. Les services de fax à la demande audio-fax utilisent de tels SVI. Les fax « commandés » peuvent être soit envoyé en rappel (call back). Dans ce cas, les frais d’émission sont à la charge du service audio-fax ; soit en cours d’appel, ce qui permet de facturer le fax à l’appelant. II. Fonctionnement d’un SVI Un serveur vocal interactif fonctionne en se basant le plus souvent sur cinq modules : la reconnaissance de la parole, l’analyseur sémantique, le gestionnaire du dialogue, la gestionnaire de réponse et la synthèse de parole.
  • 21. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 21 Figure 4 : Fonctionnement d’un SVI  La reconnaissance de la parole : c’est une technique informatique qui permet d'analyser la parole captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine. Elle vise à transformer le signal acoustique produit par l'interlocutoire en une chaine textuelle équivalente.  Analyseur sémantique: L’objectif de la compréhension est de dégager les intentions de l’usager et d’identifier les actes de langage employés. Il s’agit de donner du sens à la ou aux phrases reconnues. C’est aussi une phase de l’analyse qui en établit la signification en utilisant le sens des éléments (mots) du texte, par opposition aux analyses lexicales ou grammaticales qui décomposent le message à l'aide d'un lexique ou d'une grammaire.  Gestionnaire de parole: Véritable chef d’orchestre du système, le contrôleur de dialogue est chargé d’interagir avec le système d’information, de gérer l’interaction (choix de la réponse à apporter).  Gestionnaire de réponse: Pour la génération, deux étapes peuvent être distinguées. La première est la génération profonde. Elle correspond à la question quoi dire ? c’est-à-dire qu'elle vise à déterminer le contenu sémantique de la réponse à l’utilisateur. La deuxième phase, dite génération de surface, permet de choisir les mots pour exprimer la réponse à l’utilisateur. Elle correspond à la question comment le dire ?  La synthèse de la parole: Dernière composante du système, c’est une technique informatique de synthèse sonore qui permet de créer de la parole artificielle à partir de n'importe quel texte. La synthèse vocale restitue de manière orale le message généré par la chaine de traitement. III. Les technologies composantes de SVI Un serveur vocal est avant tout un ordinateur. Il peut avoir la configuration d’un PC ou d’un VME (Virtual Memory Extension). Un SVI de type PC est préférable pour les moyennes et grandes entreprises. Il est capable de recevoir 60 appels en simultané et est idéal pour les moyennes et grandes entreprises qui l’utilisent par exemple pour leurs centres d’appels ou de réservation. Dans le cas d'une utilisation intensive dans le milieu des réseaux de télécommunications, un serveur de type VME ou PC Industriel est nécessaire. Il offre des fonctions permettant de sécuriser la machine afin de réduire les pannes informatiques et de supporter des applications exigeantes. Le SVI de type VME autorise une plus grande quantité de traitement d'appels et présente une interactivité
  • 22. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 22 améliorée du fait de son intégration dans les réseaux téléphoniques. Les principaux constructeurs de plates-formes VME sont Philips et Motorola. L'architecture du SVI découle simplement de l'utilisation qui en sera faite. Les contraintes d'architecture varient essentiellement en fonction de la volumétrie des appels entrants mais aussi en fonction du niveau d'interactivité du SVI avec des bases de données distantes ou locales. Un serveur vocal interactif est constitué d’une architecture matérielle et d’une autre qui est logicielle. III.1. L’architecture matérielle L’architecture matérielle décrit l’agencement de composants électroniques ainsi que leur interaction. Un serveur vocal annexe toujours des ressources, applicatives et, de télécommunications, connues sous le nom de frontaux vocaux et de serveur d’application. Ces deux ressources peuvent résider ensemble, mais si le serveur incorpore la reconnaissance de la parole ou la synthèse vocale, il est préférable d’affecter une tâche à chacun. Généralement, l’architecture physique d’un Serveur vocal peut être décrite comme suit : Le frontal vocal : C’est le serveur de raccordement télécom. Il peut contenir des cartes électroniques dédiées à ces tâches, ce qui est systématiquement le cas lors d’un raccordement avec des liens de téléphonie traditionnelle de types analogiques, T0 ou T2 mais ce qui devient optionnel lors d’un raccordement en VoIP. En effet, en IP, le frontal vocal ne peut contenir aucun hardware spécifique, mais seulement les logiciels d’interconnexion SIP ou H323 appropries. La tendance étant plutôt à des frontaux vocaux sans rajout matériel et en raccordements SIP. Une attention particulière devra alors être portée sur la puissance du serveur et donc sur sa capacité à tenir un nombre d’accès suffisant. Le serveur d’application : C’est un logiciel d'infrastructure offrant un contexte d'exécution pour des composants applicatifs. C’est ce serveur qui embarque l’ensemble des applications de développement, d’administration et de supervision du serveur vocal. Il peut être sur le même serveur physique que le frontal vocal et sur le même LAN voire à distance. III.2. L’architecture logicielle L’architecture logicielle encore appelée Middleware se situe entre les interfaces de programmation des cartes médias et l’application qui sera développée à l’aide de ces dernières. L’architecture logicielle décrit d’une manière symbolique et schématique les différents éléments d’un ou de plusieurs systèmes informatiques, leurs interrelations et leurs interactions. Toute la richesse d’un serveur vocal interactif réside dans sa bibliothèque d’éléments actifs. Toute sa puissance repose dans sa capacité à proposer des outils permettant de regrouper facilement ces éléments fonctionnels. En définitive, un serveur vocal interactif se différencie par ses qualités logicielles et non matérielles. L’architecture logicielle peut être définie comme étant une couche logicielle intermédiaire permettant d’ajouter des fonctions CTI à des applications existantes sans avoir à les modifier. Il n’y a pas de dépendance entre les applications CTI et les cartes médias ; le serveur vocal est doté d’outils logiciels donnant accès aux données ou aux traitements, capables de faire communiquer selon un formalisme des systèmes
  • 23. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 23 hétérogènes ou des applications portées par différents systèmes. Les constructeurs de cartes médias fournissent avec leur module électronique une interface logicielle appelé driver nécessaire à fin d’assurer son bon fonctionnement. Il s’agit d’une solution qui est adaptée au système d’exploitation. Un serveur vocal interactif est offert sous différents environnements d’exploitations : Windows, linux, Unix etc. IV. L’interaction Clients-SVI / SVI-Clients Les SVI se sont imposés aujourd’hui comme un outil stratégique pour les relations clients- entreprises. Typiquement, pour un standard automatisé. L’appelant est guidé à travers une arborescence vocale et fait des choix au fur et à mesure soit à l’aide du clavier téléphonique avec les touches DTMF, soit grâce à la reconnaissance vocale par mots-clés. Ce sont les interactions Clients-SVI. Cette interaction client à SVI est obligatoire pour pouvoir s'orienter dans la série de menus vocaux proposés par la plate-forme vocale. Ainsi, au fil des menus, la précision de la demande s'accentue. Cette interaction est effectuée de 2 façons différentes :  L’utilisation des touches DTMF du téléphone  L'utilisation de la reconnaissance vocale Le SVI doit aussi transmettre les différentes possibilités à l’appelant. Ces possibilités lui sont transmises vocalement : ce sont les interactions SVI-Clients. IV.1. Interaction Clients-SVI IV.1.1. Les touches DTMF Un code DTMF (Dual Tone Multi Frequency) est une combinaison de fréquences utilisée pour la téléphonie moderne. Ces codes sont utilisés pour la composition des numéros de téléphones (en opposition aux téléphones dits à impulsions), et ils ont permis la création des premiers serveurs vocaux interactifs. Techniquement, chaque touche d'un téléphone correspond à un couple de deux fréquences audibles qui sont jouées simultanément. De cette façon, huit fréquences bien distinctes permettent de coder seize touches. Ces fréquences peuvent être reconnues par des dispositifs électroniques et sont utilisées pour réaliser des serveurs vocaux. Dans le tableau suivant figurent des touches « A » à « D » : celles-ci étaient utilisées par l'armée américaine pour représenter la priorité d'une communication. Ce système moderne a été développé par la firme américaine Bell. Le but recherché était de définir un système de numérotation rapide pouvant être utilisé par les appareils numériques (ordinateurs, centraux numériques). La signalisation DTMF est employée pour permettre à l’utilisateur de transmettre des ordres au SVI. Avec cette technique, les touches du clavier téléphonique sont identifiées par leur fréquence en mode DTMF qui permet l’émission de tonalités multifréquences destinées à la signalisation sur le réseau analogique. Chaque chiffre ou digit correspond à un signal sonore. Le signal est constitué de l'addition de deux sons (Dual Tone), dont les fréquences caractérisent un digit (Multi Frequency). Le signal ainsi envoyé correspond à l'émission de deux fréquences précise qu'un bruit intempestif sur la ligne ne peut perturber. Les digits définis par le DTMF sont les mêmes que pour le système à impulsions (de 0 à 9) avec en plus 6 nouveaux digits (#, *, A, B, C et D). Cependant, on ne trouve généralement que les deux nouveaux digits # et * sur les claviers de téléphone. Un digit est défini par la somme de signaux sinusoïdaux de fréquences différentes. Les fréquences utilisées sont caractéristiques et
  • 24. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 24 leurs valeurs sont regroupées ci-contre. Un 5 sera, par exemple, généré en additionnant deux signaux de fréquences 770Hz et 1336Hz. Les avantages de ce système sont multiples, les numéros de téléphone peuvent être composés très rapidement et peuvent être générés par des systèmes informatiques. Figure 5: Tableau récapitulatif des différentes fréquences du standard DTMF Cependant la signalisation DTMF est remplacée dans certaines plateformes par la reconnaissance vocale qui se trouve être plus facile à utiliser. Avec le DTMF, le système donne des ordres à l'utilisateur, avec la reconnaissance vocale, c'est l'inverse. L’inconvénient majeur du DTMF est que certains postes téléphoniques n’y ont pas accès, il concerne les postes émettant des sons à la numérotation. De plus, en termes purement fonctionnels le DTMF est limité car il ne peut pas être utilisé par un SVI qui propose un nombre de choix qui dépasse le nombre de touches du clavier téléphonique. IV.1.2. La reconnaissance vocale Figure 6: Processus de la reconnaissance vocale La reconnaissance vocale est l’une des tâches pionnières de l’Intelligence Artificielle (IA) consistant à reproduire la capacité d’un être humain à extraire des informations de la parole produite par un autre être humain. Cette tâche, trop complexe pour être reproduite par un système informatique unique, a été subdivisée en plusieurs sous- problèmes en fonction du type d’informations à extraire et à reconnaître. Les problématiques les plus étudiées sont la reconnaissance du locuteur, de son état émotionnel, de la langue employée et du langage parlé. Les recherches sur la résolution de ces tâches ont donné lieu, depuis une vingtaine d’années, à des dizaines de milliers de publications, des centaines de bases de données de parole, des dizaines de campagnes internationales d’évaluation. Les progrès ont été importants et ont permis le développement d’applications importantes en communication homme-machine comme la dictée vocale ou les systèmes de dialogues finalisés des serveurs vocaux interactifs (SVI). Cependant de nombreuses recherches restent indispensables en raison de l’ampleur du problème et de sa variabilité : 7 milliards de locuteurs, plus de 500 noms d’émotions, près de 7000 langues et quelques centaines de milliers de mots par langue.
  • 25. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 25 D’autres types d’information restent pour l’instant pratiquement inexploités comme l’accent, l’état physiologique, le niveau de stress ou de fatigue. Pour les utilisateurs, la reconnaissance vocale est plus souple d’utilisation que les touches DTMF. Cette fonction permet de rendre les applications plus interactives. La reconnaissance automatique de la parole en langage naturel s'effectue par repérage des mots clés. Cette technologie permet de remplacer les interfaces DTMF. Avec la reconnaissance vocale, c’est l’utilisateur qui impose ses choix de navigation au système. La reconnaissance vocale permet une plus grande souplesse pour l'utilisateur mais implique un coût plus élevé pour la configuration du serveur vocal : mémoire, applications, espaces disques, processeurs, etc. Un module de reconnaissance de mots ou de phrases d'un système nécessite des quantités importantes de connaissances acoustiques et linguistiques. Les connaissances acoustiques permettent au système de reconnaître les sons, alors que les connaissances linguistiques permettent de retrouver les mots et de valider leur enchaînement. Pour obtenir des performances suffisantes, il est indispensable de disposer de corpus enregistrés dans des conditions aussi proches que possible de celles des applications visées. Deux approches, l'une plus globale, l'autre plus analytique permettent d'appréhender la reconnaissance des mots. Dans l'approche globale, l'unité de base sera le plus souvent le mot considéré comme une entité globale, c'est-à-dire non décomposée. L'idée de cette méthode est de donner au système une image acoustique de chacun des mots qu'il devra identifier par la suite. Cette opération est faite lors de la phase d'apprentissage, où chacun des mots est prononcé une ou plusieurs fois. Cette méthode a pour avantage d'éviter les effets de coarticulation, c'est- à- dire l'influence réciproque des sons à l'intérieur des mots. Elle est cependant limitée aux petits vocabulaires prononcés par un nombre restreint de locuteurs. L’approche analytique, qui tire parti de la structure linguistique des mots tente de détecter et d’identifier les composantes élémentaires (phonèmes, syllabes). Celles-ci sont les unités de base à reconnaître. Cette approche a un caractère plus général que la précédente : pour reconnaître de grands vocabulaires, il suffit d’enregistrer dans la mémoire de la machine les principales caractéristiques des unités de base. Actuellement, bien que la reconnaissance vocale soit encore loin d’être parfaite, les échecs de cette technique sont le plus souvent causés par une mauvaise compréhension notamment pour les mots hors vocabulaire, un modèle de dialogue inadapté ou encore par le comportement et les attitudes de l‘utilisateur mal modélisés. Ce dernier n’agissant pas comme prévu, le système comprend mal ses attitudes et la stratégie de dialogue peut alors devenir déroutante pour l’usager. IV.2. Interactions SVI-Clients Le SVI guide l’utilisateur à travers l’arborescence vocale par le biais d’annonces vocales. On distingue les annonces avec un fond sonore et les annonces classiques. IV.2.1. Annonce avec un fond sonore Un fond sonore est ajouté au message vocal pour améliorer l’interface vocale. Cette opération est réalisée par un enregistrement ou suivant la technique d’encodage MIC, le message est numérisé à 64 kbps. Il peut être compressé pour prendre moins d’espace disque sur le SVI. IV.2.2. Annonces classiques Dans le cas d’un message composé de texte sans fond sonore (annonce classique), on peut soit enregistrer directement l’annonce sous forme de fichier sonore, soit utiliser la technique de la synthèse vocale. Dans le premier cas, l’espace disque nécessaire pour
  • 26. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 26 stocker l’annonce est plus important que dans le second. Pour cela, on préfère donc la technique de la synthèse vocale. V. La synthèse vocale Figure 7: Processus de la synthèse vocale La synthèse de la parole à partir du texte est la passerelle-clé entre le monde de l'écrit et celui de l'oral. La synthèse vocale est une technologie qui produit « des sons de parole à partir d’une représentation phonétique du message ». Cette technologie ne doit pas être confondue avec la restitution d’un message préenregistré dans laquelle le texte est fixe puisque la synthèse à partir du texte est utilisée à la place de la restitution de messages préenregistrés, dès que la fréquence (et donc le coût) de mise à jour de ces messages devient trop importante. Le principe est extrêmement simple, tout texte écrit peut être traduit en message vocal grâce à une simple carte de synthèse vocale. Deux grandes familles de synthèse vocale sont à distinguer : Les systèmes qui utilisent la concaténation de mots entiers qui ont un vocabulaire limité et qui offrent une qualité de parole excellente. Ces systèmes ne nécessitent pas d’analyse linguistique. Les systèmes dits de synthèse à partir du texte qui dans une première étape convertissent un texte en une chaîne de phonèmes marqués par des informations prosodiques (ensemble des phénomènes d’intonation d’une langue), et dans une seconde étape qui transforment cette chaîne en un ensemble de données acoustiques à transmettre à un synthétiseur. Le synthétiseur vocal permet de créer une voix artificielle semblable à celle de l'homme. Il convertit le texte codé au moyen d’un lecteur sonore d’écran et le transmet à la carte son, afin d’obtenir une reproduction orale en appliquant au signal les caractéristiques linguistico-prosodiques. Contrôlé au moyen d’un logiciel de lecteur sonore, le synthétiseur vocal peut faire varier la cadence, le débit, le volume et la langue. V.1. Mbrola Mbrola est un synthétiseur vocal initié par le laboratoire de la Faculté Polytechnique de Mons en Belgique. Il est à l’origine d’un projet visant à obtenir un ensemble de synthétiseurs vocaux pour une multitude de langues qui est fournie gratuitement lorsqu’il s’agit d’applications non commerciales. Mbrola n’est pas sous licence de source libre.
  • 27. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 27 D’un point de vue, plus, concret, le synthétiseur vocal Mbrola est basé sur la concaténation de diphones. Ainsi, il prend une liste de phonèmes en entrée, avec des informations prosodiques, c’est-à-dire la durée des phonèmes et une description linéaire par morceaux de la tonalité, et produit des échantillons de parole sur 16 bits linéaire. Les fréquences d’échantillonnage proviennent d’une base de données de diphone. MBROLA n’est donc pas un synthétiseur « Text-To-Speech », puisqu’il n’accepte pas de texte brut en entrée, mais plutôt une représentation de phonèmes. Chaque base de données de diphone est adaptée au format MBROLA. Une voix françaises a été mise à la disposition par les auteurs de MBROLA, et le projet MBROLA a été lui- même organisée de manière à inciter les laboratoires de recherche et les entreprises à partager leurs bases de données de diphone. Il est à noter que les bases de données sont aussi rendues disponibles pour utilisation non commerciale et utilisation non militaires dans le cadre du projet MBROLA. V.2. Lia_Phon Comme nous l’avions évoqués précédemment, MBROLA n’étant pas un synthétiseur «Text-To-Speech», Lia_Phon va être utilisé pour cette fonction, en le reliant au synthétiseur vocal MBROLA, afin d’obtenir effectivement une sortie audio basée sur un texte d’origine. Lia_Phon est un système de phonétisation de textes qui a été développé au LIA (Laboratoire Informatique de l’Avignon) par Frédéric Bechet. Ce système permet de nettoyer, étiqueter, accentuer et phonétiser un texte libre. Un module de génération d’une prosodie minimale est également fourni afin de générer des fichiers compatibles avec le synthétiseur vocal MBROLA. Lia_Phon est disponible gratuitement sous licence GNU GPL. V.3. Liambrola Le fait d’installer Mbrola puis Lia_Phon peut sembler quelque fois fastidieuse. C’est dans ce sens qu’un module d’interface nommé Asterisk-liambrola a été écrit afin d’interfacer Lia_phon et MBROLA au plan de numérotation d’Asterisk. Ce module permet l’ajout de l’application Liambrola au plan de numérotation, ce qui permet d’utiliser Lia_phon et Mbrola comme synthétiseur vocal « français » directement dans Asterisk. Le module Liambrola fait appel à Lia_phon et Mbrola via un appel système, car il n’existe pas d’interface de programmation applicative « API » pour ces deux composants.
  • 28. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 28 CHAPITRE III. ETUDE DES DIFFERENTES SOLUTIONS DE SVI Plusieurs plateformes sur le marché et en open source nous permettent la mise en œuvre d’un serveur vocal interactif. Nous choisissons d’étudier les trois les plus répandues en l’occurrence WebSphere, Bayonne et Asterisk. Au terme de cette étude, nous procéderons à un choix. Pour ce faire, plusieurs aspects doivent être pris en compte. Ainsi pour chaque solution, nous étudierons son architecture, ses caractéristiques et enfin ses avantages et ses inconvénients. I. La plateforme WebSphere L’une des inventions majeures qui a profondément impactée la société humaine est le téléphone. Par ailleurs, le système de téléphonie a aussi évolué, allant des systèmes de mise en connexion manuelle avec opérateur humain, aux systèmes électromécaniques, et plus récemment à l’intégration des fibres optiques. Le téléphone est aujourd’hui largement adopté à travers le monde. De même l’invention des technologies du traitement de la voix telles que la reconnaissance automatique de la voix et la génération automatique de la voix à partir de texte seront universellement adoptées. Les compagnies disposant de telles technologies seront demain, sans aucun doute, les leaders au niveau mondial. C’est ainsi que IBM a mis en place un serveur d’application appelé WebSphere qui regroupe en son sein les différents modules cités plus haut. Ce qui fait de WebSphere l’une des solutions qui répond le plus aux besoins des entreprises. I.1. Architecture La technologie du traitement de la voix proposée par IBM comporte : la technologie de reconnaissance automatique de la voix (ASR) et la technologie de la production du langage parlé à partir d’un texte (TTS). Ainsi un certain nombre de dispositifs doivent être mis en œuvre d’où le schéma ci-dessous. Figure 8 : Architecture de Websphere En effet pour mettre en place un serveur vocal interactif utilisant la technologie d’IBM plusieurs éléments interviennent. Tout d’abord le téléphone, qui peut être de types diverses
  • 29. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 29 Figure 9 : Types de téléphones utilisés avec Websphere Ainsi l’utilisateur peut solliciter le serveur en utilisant un de ces téléphones. S’il s’agit d’un téléphone IP ou d’un softphone, l’appel émis passe d’abord par un Gateway et ensuite par un opérateur de téléphonie ou par un autre dispositif capable de simuler le réseau de téléphonie. Ce dispositif est appelé Gordon Kapes System (GKS) et peut être utilisé comme centrale de téléphonie ou un Private Branch eXchange (PBX). Ce dispositif permet également d’interconnecter plusieurs serveurs vocaux. Figure 10 : Dispositif simulant le réseau de téléphonie L’appel ainsi reçu par le serveur, doit être traité. Pour effectuer ces traitements l’application vocale fait appel à plusieurs autres serveurs notamment le serveur de reconnaissance vocale et le serveur de synthèse vocale. La reconnaissance des mots prononcés par l’utilisateur se fait grâce à la grammaire spécifiée et aux fichiers VoiceXML. Le serveur vocal pour répondre à l’utilisateur interagit avec les autres serveurs en utilisant plusieurs protocoles, notamment HTTP, RTP, RGCP. HTTP: HyperText Transfert Protocole a été mis en service par l'initiative globale de l'information d'enchaînement mondial depuis 1990. Ces spécifications définissent le protocole désigné sous le nom de "HTTP/1.1". HTTP est un protocole de réseau de couche application construit sur TCP. HTTP permet à des Figure 10 : Dispositif simulant le réseau de téléphonie
  • 30. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 30 browsers d'enchaînement et à des serveurs d'enchaînement de communiquer. Les clients et les serveurs de http communiquent par l'intermédiaire des messages de demande et de réponse. HTTP utilise le port 80 de TCP par défaut, bien que d'autres ports tels que 8080 soient également employés. C'est le protocole employé pour transférer des données sur le World Wide Web. Le protocole HTTP est le support du Web, la partie la plus utilisée d'Internet et celle qui connaît la plus forte croissance. C'est pourquoi toutes les adresses de site Web commencent par "HTTP://". Toutes les fois que l’on dactylographie un URL dans son navigateur, l’ordinateur envoie une demande HTTP au "web server" approprié. Ce dernier, conçu pour manipuler des demandes HTTP, envoie la page HTML demandée. RTP : Le but de RTP (Real-time Transfert Protocole) est de fournir un moyen uniforme de transmettre sur IP des données soumises à des contraintes de temps réel (audio, vidéo,...). Le rôle principal de RTP consiste à mettre en œuvre des numéros de séquence de paquets IP pour reconstituer les informations de voix ou vidéo même si le réseau sous-jacent change l'ordre des paquets. Plus généralement, RTP permet : D’identifier le type de l'information transportée ; D'ajouter des marqueurs temporels et des numéros de séquence l'information transportée ; De contrôler l'arrivée à destination des paquets ; De plus, RTP peut véhiculer des paquets multicast afin d'acheminer des conversations vers des destinataires multiples. MRCP : Le but du protocole MRCP (Media Ressource Control Protocol) est de standardiser les dialogues informatiques entre les moteurs d'ASR et de TTS avec les serveurs vocaux. Il s'agit d'un dialogue client-serveur. Le protocole définit les requêtes, les réponses et le contrôle du média. Il est également basé sur une base des protocoles RTSP (Real Time Streaming Protocol) et RTP (Real Time Protocole). Websphere utilise uniquement ce protocole pour les fonctions avancées de reconnaissance vocale liées au langage VoiceXML. I.2. Caractéristiques Le serveur vocal d’IBM présente plusieurs caractéristiques. Websphere est propriétaire : En effet Websphere est une solution commercialisée par IBM, mais il existe une version d’évaluation de quatre-vingt-dix jours disponible sur Internet. Il supporte les plates-formes suivantes : Red Hat Enterprise Linux WS/ES/AS V3.0 Update 1 pour les processeurs Intel Pentium III (1 GHz ou plus) SUSE Linux Enterprise Server (SLES) V8.0 powered by United Linux V1.0 avec le Service Pack 2a ou 3 pour les processeurs Intel Pentium III (1 GHz ou plus) Microsoft Windows Server 2003 Il supporte le VoiceXML : Voice eXtensible Markup Language ou VoiceXML, est conçu pour créer les dialogues audio qui comportent le discours synthétisé, l'acoustique digitalisée, le DTMF, et l'enregistrement de l'acoustique pour des applications de téléphonie. Il
  • 31. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 31 apporte l'avantage des technologies d'enchaînement aux utilisateurs d'un téléphone en fournissant un mécanisme interactif de la réponse de voix. Une application développée en VoiceXML doit permettre de "parler" à l'utilisateur en synthétisant de la parole, mais également "écouter" la voix de l'utilisateur grâce à la reconnaissance vocale. VoiceXML représente le ‘HTML’ pour la téléphonie et les applications de voix. C’est le langage de programmation des applications vocales. Il est basé sur XML et permet l’accès aux applications Web à partir de téléphones ou autres appareils fonctionnant avec la voix. L’éditeur VoiceXML est l'interface de développement d'applications vocales sur le modèle Web. La connexion aux informations issues du site Web devient naturelle car elle répond aux exigences de la norme VoiceXML. Elle permet ainsi d'échanger des informations avec tout moteur répondant à cette norme : reconnaissance vocale, synthèse de texte, analyse sémantique. Grâce à l’éditeur VoiceXML, on peut donner de la voix à un site Web en permettant un accès téléphonique aux données en ligne. VoiceXML est une passerelle entre le contenu Web et le portail vocal. Etant un langage d'un seul bloc de présentation conçu pour accepter l'entrée d'utilisateur sous forme de DTMF (tonalités de contact produites par un téléphone) et de parole, VoiceXML est une nouvelle technologie très utilisée dans la conception de serveur vocal car facilitant celle-ci. En effet avec VoiceXML, le développement d'application de reconnaissance de la parole est considérablement simplifié. Au lieu d'utiliser un PC avec un navigateur Web, n'importe quel téléphone peut accéder à des applications de VoiceXML par l'intermédiaire d'un VoiceXML browser fonctionnant sur un serveur de téléphonie. Considérant que le HTML est généralement employé pour créer des applications graphiques d'enchaînement, VoiceXML peut être employé pour des applications voix-permises d'enchaînement. Il supporte plusieurs langues dont : Anglais, Français, Chinois, Japonais, Espagnol, Allemand etc. La configuration minimale du serveur :  Intel Pentium III (minimum 1 GHz ou processeurs équivalent)  Mémoire (RAM): 2 GB (minimum)  Espace disque disponible: 2 GB  Réseaux: TCP/IP  Adresse IP statique II.3. Avantages et inconvénients II.3.1. Avantages Fiabilité : En effet, installé dans un réseau stable, Websphere nous offre une grande résistance aux pannes. Ce qui permet d’ailleurs d’avoir une grande satisfaction de la part des clients. Ceci est essentiellement dû à l’utilisation de composants robustes pour sa mise en œuvre. Websphere est très scalable : dans la mesure où on a la possibilité de changer les caractéristiques (Mémoire, etc.…) de certains de ces composants dans le but d’augmenter ses performances.
  • 32. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 32 Haute disponibilité : Cette avantage vient du fait que plusieurs appels peuvent être traités en même temps par le serveur sans aucune interférence ni interaction entre eux. C’est ce qui fait que la plus part des appels aboutissent. II.3.2. Inconvénients Cette solution présente néanmoins quelques inconvénients, parmi lesquels : Manque de fiabilité du moteur de reconnaissance vocale L’inconvénient majeur de cette solution réside au niveau de son moteur de reconnaissance vocale. En effet, en dépit du progrès accompli par la reconnaissance de la parole ces dernières années, il reste beaucoup à faire. Les algorithmes actuellement employés ont en partie échoué dans une variété de situations, d'un changement simple de voix à un changement d'environnement. Par conséquent, un effort de perfectionnement doit se faire au niveau des caractéristiques suivantes :  Mots hors vocabulaire Un vocabulaire contient tous les mots qu'un moteur d'identification de voix devrait identifier. Cependant, il n'est pas possible de garantir qu'un haut-parleur n'emploiera jamais un mot non inclus dans le vocabulaire, puisqu’il peut ne pas se rendre compte de ce que le vocabulaire contient. Actuellement, le processus d'identification essaye d'identifier le brin le plus étroit pour l'entrée reçue, parce qu'il ne peut pas distinguer, qu'un mot donné appartienne au vocabulaire ou pas. Ce comportement n'est pas souhaitable pour des applications de commande puisqu'une fausse action sera appelée. Une bonne manière de résoudre ce problème pourrait être, employer les niveaux de seuil minimum pour un brin de mots. L’inconvénient est que, selon le seuil, les mots qui appartiennent au vocabulaire pourraient être mal classifiés.  Discours spontané Pendant une conversation normale, il peut jaillir, se produire, que les gens éternuent, toussent ou hésitent avant de poursuivre une conversation. Dans toutes ces circonstances, la reconnaissance de la parole s’exécute tout à fait mal parce que le bruit supplémentaire affecte la qualité du discours réel. Il est certainement souhaitable d'avoir un système où toutes ces conditions pourraient facilement être traitées. Demande beaucoup de ressources : En effet, les différents serveurs qui composent l’architecture proposée par Websphere ont une certaine caractéristique. Ainsi leur installation et configuration nécessitent aussi bien des ressources matérielles qu’humaines. Et ces dernières doivent avoir une certaine expérience pour être capables de mener à bien le travail. Très coûteuse également, comme tenu précédemment dans notre propos, il demeure propriétaire. Et son acquisition implique d’autres dépenses supplémentaires notamment le dispositif qui doit simuler le réseau de téléphonie si l’on désire faire des tests en local. II. La plate-forme Bayonne Les serveurs vocaux ont été pendant longtemps le monopole de quelques vendeurs qui proposent des solutions fermées. Chacun d'eux développant des serveurs IVR (Interactive Voice Response) adaptés à leur propre matériel. Bayonne est la réponse du monde open source à cette situation.
  • 33. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 33 GNU Bayonne est un serveur de téléphonie sous licence libre permettant aux petites et grandes entreprises ainsi qu'aux opérateurs de créer, déployer et gérer les solutions téléphoniques intégrées pour des capacités allant de la simple ligne analogique jusqu'à plusieurs lignes ISDN. Un serveur GNU Bayonne doté d'une carte de téléphonie numérique ou analogique permet de prototyper et de déployer des services applicatifs commerciaux de qualité professionnelle. Cette facilité de développement et d'intégration avec d'autres logiciels libres ouvre les portes du développement d'applications téléphoniques à un large public d'utilisateurs et de développeurs, sans nécessiter d'autres compétences spéciales ou des API propriétaires. II.1. Architecture Utilisant un PC ordinaire tournant sous GNU/linux équipée de cartes téléphoniques multicanaux (disponibles auprès de fabricants divers), GNU Bayonne a déjà été utilisé pour créer et déployer des applications vocales commerciales s'interfaçant avec le réseau téléphonique public. De telles applications peuvent être des services d'Email vocal, des services web intégrés de commerce vocal ou des systèmes de gestion de la relation client. GNU Bayonne est également facilement dimensionnable afin de permettre le déploiement de services avancés d'opérateur fonctionnant sur des systèmes d’exploitation open source. Figure 11 : Architecture de Bayonne II.2. Caractéristiques La principale caractéristique de Bayonne est d'offrir une plateforme IVR virtuelle qui est indépendante du matériel utilisé. Indépendance vis à vis des plates-formes Bayonne peut fonctionner avec une partie des familles IVR (pas toutes encore) sans pour autant avoir besoin d'une d'entre elles. En effet, Bayonne a un tronc commun modulaire qui définit un ensemble d'instructions et un environnement virtuel, pour un usage général. Dans cet environnement virtuel on peut développer une application vocale sans être restreint par le matériel utilisé. Il est donc possible de changer de plateforme ou mettre en communication un service IVR à un autre système avec une plateforme différente sans avoir à réécrire le code.
  • 34. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 34 Possibilité de test en local Pour essayer ou tester Bayonne, il ne faut pas de plateforme IVR coûteuse. Actuellement, il suffit d'une carte son, car Bayonne utilise un pilote qui émule une plateforme IVR utilisant les entrées/sorties du PC (clavier, microphone et écouteurs). Bayonne tourne sur un PC de bureau. Donc pour lancer des services IVR, Bayonne utilise son propre langage, appelé CcScript. Ce langage est très simple, avec des actions informatiques complètes et les principales structures de programmation: blocs conditionnels, boucles, sauts conditionnels ou non, routines.... Une fonction principale de CcScript est d'avoir des instructions «limitées temporellement : avant qu'une instruction ne soit exécutée, le langage connaît son temps maximum d'exécution ». Pour des opérations incluant des appels à des systèmes externes, comme les systèmes de fichiers, les bases de données et les connexions réseau, il y a un paramètre «timeout ». Si l'exécution dure plus longtemps que le timeout, l'opération échoue. Du point de vue du serveur, cette fonction est très importante car elle permet à Bayonne d'offrir des services déterministes et reliés. Les possibilités informatiques de Bayonne ne sont pas seulement limitées à ceux de CcScript. En fait, Bayonne peut interagir avec des langages de haut niveau comme le Perl et le Python. Grâce à cette intégration directe, Bayonne hérite de toutes les bibliothèques et modules disponibles pour ces langages: chaque opération informatique, algorithme habituel ou non, manipulation de données, raccordement à la base de données ou serveur externe (enchaînement, courriel, LDAP, dossier partagés)... Ainsi Bayonne peut traiter tout ce qu'on peut lui demander. Accès direct aux ressources distantes Même sans Perl et Python, Bayonne peut directement accéder à des bases de données MySql ou PostGres et aux requêtes SQL. De la même manière, Bayonne peut accéder au Systèmes de fichiers et se connecter par l'intermédiaire du réseau à des ressources distantes. En outre, Bayonne peut directement interagir avec un synthétiseur de voix TTS, thêta (seulement les voix anglaises sont disponibles) et festival (multilingue). Actuellement, Bayonne ne peut se relier aux systèmes de reconnaissance de la parole, mais ce dispositif est au statut de développement. Gestion synchronisée et/ou désynchronisée Bayonne peut gérer des entrées venant de connections téléphoniques et des entrées provenant du système lui−même dans plusieurs buts : gestion synchronisée, où Bayonne attend pour un signal d'entrée (exemple : attendre qu'une touche soit pressée par l'utilisateur) et de la gestion désynchronisée, où Bayonne reçoit une notification quand un événement arrive (exemple : une touche pressée ou un timeout expiré) sans explicitement les attendre. Ces deux modes de gestion d'entrées permettent à Bayonne de réagir rapidement à l'utilisateur et aux événements système sans aucune perte de temps. Système d’exploitation Bayonne est la réponse du monde open source et du projet GNU au monde propriétaire et fermé. Donc, le système d’exploitation sur lequel tourne Bayonne est le GNU Linux. II.3. Avantages et inconvénients II.3.1. Avantages Multitraitement Comme vu précédemment, Bayonne a été développé pour gérer un grand nombre de lignes téléphoniques simultanément, donc il permet des commandes et des instructions
  • 35. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 35 «multithreading » (gestion simultanée de plusieurs processus). Chaque processus peut interagir avec les autres par le biais de signaux. Cela autorise des processus de synchronisation et des échanges de données entre les processus et, de plus, en connectant des tâches qui utilisent des lignes différentes (exemple : deux utilisateurs peuvent se parler à travers Bayonne). Modules TTS intégrés Pour la plupart des services IVR, Bayonne n'a pas besoin de systèmes externes « Texte à Parole » car il possède déjà ces propres modules vocaux multilingues (Anglais, Français, Italien et Russe) qui peuvent dire des nombres (ordinaires ou cardinaux), et des dates (ces modules sont complètement personnalisables). Ils incluent des voies humaines préenregistrées et qui peuvent être utilisées pour la plus part directement dans l’architecture de Bayonne. Flexibilité Toutes ces caractéristiques rendent Bayonne utile dans un large éventail de situations. Il peut être utilisé pour de petits services téléphoniques IVR avec quelques lignes, tout aussi bien que pour un grand service central supportant des centaines de lignes. Avec Bayonne on peut facilement avoir des services « simples et rapides » ou des services complexes invoquant par là même des systèmes externes. Ainsi, on peut dire que Bayonne est une bonne solution de serveur IVR pour tous les besoins en services IVR. II.3.2. Inconvénients Incompatibilité avec des modems Comme indiqué précédemment, Bayonne supporte plusieurs panneaux, même très différents les uns des autres, de 2 à 120 lignes téléphoniques (analogique ou numérique). D'ailleurs, dans la nouvelle version de Bayonne, on peut même utiliser des panneaux de différentes familles en même temps, ainsi des centaines de lignes téléphoniques peuvent être manipulées simultanément. Malheureusement Bayonne ne supporte pas les modems habituels série/USB (analogique, RNIS ou GSM). Inexistence d’un moteur de reconnaissance vocale L’une des faiblesses majeures de cette plate-forme, est qu’elle n’a pas de moteur de reconnaissance vocale. Ainsi la seule interaction qu’il peut y avoir entre un utilisateur et l’application vocale est l’ensemble des touches du téléphone en l’occurrence les touches DTMF. III. La plate-forme Asterisk Asterisk est un commutateur téléphonique privé à part entière mais d'implémentation logicielle, compatible avec Linux et qui s'interconnecte avec quasiment tous les équipements de téléphonie de base. Il rassemble plus de 100 ans de connaissance sur la téléphonie dans une robuste suite d’applications de télécommunication fortement intégrées. C’est probablement l’un des outils les plus puissants, les plus flexibles et les plus extensibles fournissant tous les services de télécommunications qui soient. Il a été développé par Mark Spencer à l'origine de l'entreprise Digium, et qui continue, grâce à de nombreux contributeurs, à évoluer régulièrement. Ce logiciel a été conçu pour une flexibilité maximale et reste un système ouvert à de nouvelles applications. Asterisk fournit toutes les fonctionnalités attendues d'un PABX mais aussi la voix sur IP et n'a besoin d'aucun matériel supplémentaire pour l'assurer. Dans l'interconnexion avec les équipements de téléphonie numériques et analogiques, Asterisk reconnaît une large
  • 36. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 36 gamme de dispositifs matériels, et notamment ceux fabriqués par ses sponsors, tels que digium, ou encore Quicknet. Asterisk offre des services tel que la conférence téléphonique, le répondeur interactif, la mise en attente d'appels, la messagerie vocale, la musique d'attente, les enregistrements d'appels pour l'intégration avec des systèmes de facturation, etc... Asterisk crée un environnement unique qui peut être façonné pour s’adapter à n’importe quel cas d’utilisation notamment en tant que serveur vocal interactif. Asterisk est conçu pour s’interfacer avec n’importe quel dispositif logiciel ou matériel de télécommunication de manière cohérente et progressive. Asterisk est un logiciel assez complexe, dont la configuration peut être ardue. Il propose des options avancées de configuration et d’ouverture parmi lesquelles nous avons une base de données interne et un système de communication avec des applications externes : AGI. AGI (Asterisk Gateway Interface) est une interface permettant de faire communiquer le plan de numérotation (extensions.conf) avec des programmes extérieurs à Asterisk, écrits avec des langages de programmation aussi divers que PHP, Perl, Python, C, Shell Linux. AGI est matérialisé par l'écriture de scripts qui sont exécutés dans le plan de numérotation. A chaque lancement d'un script AGI, Asterisk envoie au script un ensemble de variables avec leurs valeurs. Les fonctionnalités des scripts AGI sont aussi diverses que le langage de programmation choisi ne permet de possibilités. Il est entre autres possible de :  Faire des requêtes dans une base de données (et ainsi lier un serveur Asterisk à une application)  Modifier les informations à l'affichage  Améliorer les manipulations dans le plan de numérotation  Améliorer le traitement des appels  Créer un historique personnalisé  Etc. A cela est ajoutée la possibilité d'utiliser les autres applications de type AGI. A savoir :  EAGI (): Permet de lire le canal son.  DeadAGI (): Permet de contrôler les canaux désactivés (hangup/raccroché).  FastAGI (): Permet au script d'être utilisé sur un serveur Asterisk distant. Création d’une base de données de test, elle comporte 4 tables fonctionnelles. Mais il est à noter qu’elle ne constitue pas la base de données définitive car ne servant ici que d’un support pour exploiter le serveur vocal. L’application ainsi développée est sous forme de script. Ce script doit être exécutable (chmod 755 monscript.agi) et déposé au niveau du répertoire /var/lib/asterisk/agi- bin/. Pour être accessible via un téléphone, l’application vocale doit être associée à un numéro, et doit être mis au niveau du fichier extensions.conf. Machine distante : exten=> numéro, 1, AGI(agi://adresseIP/monscripts.agi) Même machine : exten => numéro, 1, Agi (monscripts.agi). III.1. Architecture Asterisk a une architecture très simple. Il se comporte comme un middleware connectant les applications et les technologies de téléphonie. Il a tout d’abord été développé sur GNU/LINUX pour x/86. Mais il a été soigneusement conçu pour une flexibilité maximale. Ainsi les APIS spécifiques sont définies autour d'un système PBX
  • 37. Etude et Conception d’un Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph KAPOU 37 central. Ce noyau avancé manipule l’interconnexion interne du PBX proprement soustrait des protocoles spécifiques, des codecs et des interfaces matérielles des applications de téléphonie. Cela permet à Asterisk d'utiliser n'importe quel matériel approprié et technologie disponible (maintenant ou à l'avenir) pour exécuter ces fonctions essentielles, en connectant le matériel et les applications. Figure 12 : Architecture d’Asterisk Equipement d’interconnexion Il est à noter que pour un usage en interne, Asterisk ne nécessite aucun matériel supplémentaire mais nécessite une ou plusieurs cartes pour atteindre le réseau téléphonique commuté. Figure 13 : Carte vocale Digium III.2. Caractéristiques Les solutions de commutations téléphoniques d’Asterisk offrent un assortiment à caractères riches et flexibles. Asterisk offre les fonctionnalités du PBX classique ainsi que des caractéristiques avancées et fonctionne avec les systèmes traditionnels de commutations téléphoniques à base standard et aussi avec les systèmes Voix sur IP. Asterisk fournit toutes les caractéristiques souhaitables d’un large système PBX. Asterisk prend en charge de nombreux protocoles MRT (Multi-Threaded Routing Toolkit) pour le traitement et la transmission de la voix par les interfaces de téléphonie traditionnelle. Asterisk est compatible avec les types de signalisations standards américaines et européennes utilisés dans les systèmes téléphoniques d’affaire standard ; il établit un pont entre la prochaine génération de réseaux d'intégration voix-données et les infrastructures déjà en place.