SlideShare une entreprise Scribd logo
Email : Abdelli@hotmail.com
Site Web :
https://sites.google.com/site/abdelkrimabdelli/teaching
Page Facebook :
https://www.facebook.com/Syst%C3%A8mes-
Multim%C3%A9dia-Usthb-Fei-section-MIL-278158342199354
III.2 Numérisation du son
Exercice 1 :
Soit une séquence audio de 2 minutes, estimez le poids du
fichier dans les cas d’une numérisation avec :
 Une qualité téléphone.
 Une qualité CD audio.
Solution : 2 minutes = 120 secondes
Qualité téléphone :
Fréquence : 8000 Hz ; Quantification : 1 octet ; Mono
Poids fichier = 120× 8000 × 1 × 1= 960 000 octets
Qualité CD AUDIO :
Fréquence : 44 100 Hz ; Quantification : 2 octet ; Stereo
Poids fichier = 120 × 44 100 × 2 × 2= 21 168 000 octets
III.2 Numérisation du son
Exercice 2:
 Qu’appelle-t-on dynamique d’un signal sonore ?
 Soit une séquence audio de 4 minutes, estimez le poids du fichier
dans les cas d’une numérisation avec une qualité radio FM.
 Si l’on désire obtenir une dynamique de 144 DB quelle serait alors le
poids du fichier.
Solution : La dynamique d’un signal c’est la l’intervalle entre la
plus petite et la plus grande intensité (amplitude), enregistré
dans le signal.
Fréquence = 22 050 HZ ; N = 2 octet ; Pistes = 2 :
Poids= (60 × 4) × 22050 × 2 × 2 = 21 168 000 octets
Dynamique= 6 × N  N= 144 /6 = 24 bits =3 octets ;
Poids= (60 × 4) × 22050 × 3 × 2= 31 752 000 octets
III.2 Numérisation du son
Exercice 3:
 Soit une séquence audio de 5 minutes à diffuser online sur un
réseau, Quelle est la qualité de numérisation optimale que l’on
puisse appliquer si la vitesse maximal de transmission est
limitée à 64 kbit/s.
Solution :
Débit = 64 000 =fréquence échantillonnage × N × Nbre pistes.
= 8000 × 8 × 1
Cela correspond au paramètres de numérisation d’une Qualité
téléphone.
III.2 Numérisation du son
Exercice 4:
 On voudrait enregistrer une séquence audio de telle façon à
obtenir un fichier de taille égale à 480 000 octets, quelles
seraient les durées envisageables de cette séquence si la
dynamique est de 48 DB ?
Solution :
Poids fichier= 480 000 octets,
Dyn= 48 DB  N=8 bits ; 1 octet.
Qualité téléphone : 480 000 octets= 8000 × 1 ×1 × durée
 durée =60 secondes
Qualité Radio AM : 480 000 octets= 11 025 × 1 ×1× durée
 durée =43,5 secondes
III.4 Compression du Son
1. Objectif de la compression
 Nous avons pu voir que l'opération d'échantillonnage
effectuée avec des paramètres utilisés pour les CD (16
bit, 44.1KHz) produit 172.26 KO à la seconde, il s'ensuit
donc que quelques minutes de musique équivalent à
une quantité élevée de données.
 Le but d’une compression est d’optimiser les données,
de réduire le débit d’informations binaires, tout en
conservant une qualité sonore la plus élevée possible.
Dans le cas de l’audio numérique le flux de données est
considérable: une minute de données audio en qualité
CD (16 bits, 44.1kHz) représente env.
10 MB de données. Une compression de ces dernières
s’avère indispensable pour le stockage et la
transmission.
III.4 Compression du Son
1.Objectif de la compression
 Dans certains contextes, ceci peut représenter un problème
comme par exemple dans le cas où on désire mémoriser une
grande quantité de morceaux ou alors dans le cas où on
accède à un morceau mémorisé sur un ordinateur en
utilisant un emplacement à distance.
 Dans le premier cas, plus grande est la quantité des données
qu'on doit mémoriser, plus grande sera la dimension du
support utilisé, ce qui sera naturellement plus onéreux.
Dans le deuxième cas, le transfert de données sur un réseau
se produit à une vitesse relativement réduite et le transfert
demanderait beaucoup de temps pour être effectué, sans
compter que les ressources du réseau en seraient
visiblement alourdies. C'est pour ces raisons que l'on a
souvent recours à une compression des données composant
le signal sonore numérique.
III.4 Compression du Son
2. Compression sans perte
 Ce type de compression est Non destructif : le signal restitué
est exactement identique au signal d'origine. La numérisation
du signal telle qu'elle a été décrite précédemment introduit
peu de perte, si ce n'est les défauts produits par des
caractéristiques de numérisation insuffisants.
 Un exemple de ce type de compression est donné avec la
méthode DPCM (Differential Pulse Code Modulation). Par
rapport à la numérisation de type PCM décrite
précédemment, au lieu de coder intégralement chacun des
échantillons numériques (sur 256 niveaux par exemple avec un
échantillonnage sur 8 bits) on ne code que la différence entre
deux échantillons successifs plutôt que le valeur elle même.
Excepté lorsque les variations de niveaux sont importantes, le
codage de la différence va nécessiter un nombre de bits
beaucoup moins important.
III.4 Compression du Son
2. Compression sans perte
200 193 203 194 195 78 81 75 205 198 208
200 -7 +3 -6 -5 78 +3 -3 205 -7 +3
Au lieu de représenter toutes les valeurs Sur 8 bits [0,256]
La première valeur est représentée sur un octet ensuite toutes valeurs
suivantes par différence sur 3 bits signés (soit 4 bits) ce qui autorise un
écart maximum +/-7, si l’écart est trop grand on revient vers l’encodage de
la valeur référence. de
1100 1000 0111 1011 0110 0101 01001110 1011 0011 11001101 0111 1011
III.4. Compression du Son
3. Principe de la compression avec pertes
Les codecs de compression audio fonctionnent selon divers
modes qui s’appuient tous sur des études de
psychoacoustique de l’oreille humaine. Il est en effet
indispensable de comprendre le fonctionnement de notre
système auditif pour pouvoir développer des techniques
audionumériques. Ces connaissances permettent de
développer un modèle de représentation du phénomène
audio.
Dans le cas du signal sonore, les caractéristiques à exploiter pour
la compression sont différentes de ceux de l’imagerie. La
grande partie des algorithmes de compression du signal
sonore se basent sur le principe du masquage, autrement dit
« sur le fait que si une certaine fréquence du signal en question
a une ampleur suffisamment élevée, elle aura pour effet de
masquer les fréquences voisines si celles-ci ont une ampleur
réduite ».
III.4 Compression du Son
3.Principe de la compression avec pertes
 Les algorithmes les plus connus qui opèrent selon les critères
qu'on vient de décrire sont ATRAC et MP3 largement utilisés
pour le transfert des fichiers audio. Dans le second, la
compression est réalisée en utilisant un algorithme appelé
MPEG1 Layer III qui opère en se servant du principe du
masquage. Il permet d'atteindre des rapports de compression
de l'ordre de 12:1.
 MPEG est l'acronyme de Moving Picture Expert Group. Il s'agit
d'un groupe de travail qui opère sous la direction de l'ISO
(International Standard Organization) et de l'IEC
(International Electro-Technical Commission).
 A ne pas confondre l'MP3 (MPEG 1 Layer III) avec l'MPEG 3
qui est un système de compression du signal vidéo.
III.4 Compression du Son
3.1 - Phénomène de masquage :
a)- Courbe de sensibilité : La compression audio repose
complètement sur des études psycho-acoustiques et la
connaissance du système auditif humain. Tout d’abord, les
principes de compression vont tenir compte de la courbe de
sensibilité de l’oreille humaine en fonction de la fréquence.
L’étude psycho-acoustique fait apparaître une bande critique à
l’intérieur de laquelle un son devient audible.
En pratique un codeur audio utilise des modèles
psychoacoustiques pour déterminer les composantes inaudibles
du signal, ce qui revient à éliminer ce que nous n’entendons pas.
La difficulté de cette opération provient du fait que cette largeur
de bande n’est pas constante.
Cette courbe représente le seuil de sensibilité en fonction de la
fréquence : des composantes fréquentielles du signal audio qui
auraient des énergies inférieures à ce seuil ne sont pas utiles à
transmettre puisque inaudibles.
III.4 Compression du Son
3.1 - Phénomène de masquage :
III.4 Compression du Son
3.1 - Phénomène de masquage :
b) - Masquage Fréquentiel et temporel :
 Nous avons vu que le fonctionnement mécanique de l’oreille
est modifié par l’intensité du son qui arrive sur le tympan. On
comprend donc que la perception d’un son de faible intensité
soit modifiée par la présence ou l’absence d’un autre son plus
intense. Ce phénomène de masquage qui se manifeste •dans
une plage de fréquence autour du son intense (masquage
fréquentiel) •pendant la durée du son intense et même un
peu plus ( masquage temporel ).
 Ce phénomène de masquage est tellement courant qu’on n’y
prête plus guère attention . Par exemple, le passage d’une
voiture nous empêche momentanément d’entendre le gazouillis
des oiseaux.
III.4 Compression du Son
3.1-Phénomène de masquage :
 Masquage fréquentiel : Un son d’énergie élevé (par exemple
une sinusoïde pure à 1kHz) produit une zone de masquage
s’étendant légèrement en dessous et surtout au dessus de cette
fréquence. Les sons d’énergie plus faibles à l’intérieur de cette
zone de masquage sont inaudibles. Les zones de masquage
sont plus étendues pour les fréquences élevées.
III.4 Compression du Son
3.1- Phénomène de masquage :
III.4 Compression du Son
3.1 - Phénomène de masquage :
III.4. Compression du Son
3.1-Phénomène de masquage :
Masquage temporel : En présence d’un son d’énergie élevée, il faut
un certain délai (environ 100 ms) à l’oreille pour entendre à nouveau
des sons plus faibles. Mais le masquage se produit également avant !
En effet, le système auditif présente une certaine inertie (lenteur) (2
à 5 ms pour détecter un changement de 40 dB) qui fait que seuls les
sons ayant une certaine durée sont audibles. Ils peuvent donc être
masqués par un signal ultérieur.
III.4. Compression du Son
3.1- Phénomène de masquage
Signal à comprimer Signal comprimé
 La première figure montre un signal à diverses fréquences et le
cheminement du seuil d'écoute de l'oreille, en correspondance
des fréquences à ampleur plus élevée:
 La seconde figure montre le résultat de la compression
obtenue en éliminant les fréquences à ampleur limitée voisines
aux fréquences à ampleur élevée. Comme on peut le voir, les
informations à mémoriser ont visiblement diminué.
III.4. Compression du Son
3.1- Phénomène de masquage
 S(t) = A1 sin (2 f1 t+1) + A2 sin (2 f2 t+2) +.. +A3 sin (2 f3 rt+3 r).
+A11 sin (2 f11 t+11) + A12 sin (2 f12 t+12) +.. +A32 r sin (2 f32 rt+32 ).
Après masquage
 S(t) = A1 sin (2 f1 t+1) + A2 sin (2 f2 t+2) +.. +A3 sin (2 f3 rt+3 r).
+A11 sin (2 f11 t+11) + A12 sin (2 f12 t+12) +.. +A32 r sin (2 f32 rt+32 ).
Dynamique large nécessite
bcp de bits pour sa
quantification.
Dynamique faible nécessite
moins de bits pour sa
quantification.
III.4 Compression du Son
3.2- Joint Stereo :
Une autre technique issue du modèle psychoacoustique
consiste à enregistrer certaines fréquences en mono. Dans
beaucoup de chaînes hi-fi, il y a un boomer unique (qui
produit les basses fréquences i.e, les sons graves).
Cependant on n'a pas l'impression que le son vient de ce
boomer mais plutôt des haut-parleurs satellites.
Notre oreille est en effet incapable, dans les basses
fréquences, de localiser l'origine des sons. Le format MP3
par exemple prévoit d'exploiter cette faiblesse en recodant
certains passages en monophonie et en leur associant des
informations qui permettent de reconstituer une stéréo
simplifiée lors du décodage. C'est-à-dire que certaines
fréquences sont enregistrées en mono mais elles sont
accompagnées d'informations complémentaires afin de
restituer un minimum d'effet spatial.
III.4 Compression du Son
3.3- Reserve Bytes :
Souvent, certains passages d'une musique peuvent être
encodés différemment sans altérer la qualité. Le codage
basé sur l’effet de masque tient compte des courbe de
masquage en procédant à une allocation dynamique
des bits de l’échantillonnage en fonction de la
fréquence.
Cette technique permet d’adapter localement
l’échantillonnage tout en minimisant le bruit de
quantification. Le codeur s’appuie sur une bibliothèque
(base de données) comprenant des schémas de
quantification adaptés au contenu. Par exemple, le
modèle 1 de la norme ISO-MPEG-AUDIO, qui permet
un rapport de compression de l'ordre de 6, procède par
une mesure à intervalles réguliers (24 ms).
III.4. Compression du Son
3.3- Reserve Bytes :
 Le spectre obtenu permet de définir une courbe
de masquage pour chacune des mesures et, après
synthèse de toutes les courbes, on obtient une
courbe globale indiquant pour chaque fréquence
la quantité de bruit de quantification maximale
inaudible.
 C’est ce type de codage qui est mis en oeuvre dans
le format miniDisk, en téléphonie mobile, en
radio numérique, dans les formats MPEG-audio
etc… On parle de quantification dynamique :
DBR (dynamique bit rate) ou constante CBR.
III.4. Compression du Son
3.4- Codage de Huffman :
 Cette technique de codage intervient après la compression
en créant des blocs d’information de longueur variable qui,
par tables de correspondance permet de minimiser les
redondances.
 Lorsque les sons sont « purs » l'algorithme Huffman est très
efficace car le son digitalisé contient de nombreux sons
redondants. Ce type d'encodage permet de gagner en
moyenne un peu moins de 20% d'espace.
III.5. Compression MPEG AUDIO
 Il existe 3 modes de compression, ce sont les Layers I, II, et III
exigeant plus ou moins de temps de calcul. Pour chaque mode, le
débit de données est fixé (fréquence échantillonnage et bruit de
quantification). Le choix d'un très bas débit entraîne
inévitablement une perte de qualité du signal original, en particulier
dans la diminution de la bande passante du signal restitué.
 La structure même des données permet aussi, à la lecture, d'utiliser
une bande passante restreinte ou de travailler en mono, ceci afin de
permettre à une machine moins puissante de toujours réaliser un
décodage en temps réel mais à qualité amoindrie.
 Les 3 types de codecs sont compatibles sur le plan hiérarchique : un
décodeur de niveau 3 décodera les layers 1, 2 ou 3 mais un décodeur
prévu pour le layer 2 n'acceptera de décoder que les layers 1 et 2. La
complexité des codecs et les performances croissent avec chacun des
layers : pour un débit donné, la qualité de la restitution sera
meilleure avec un layer 3 qu'avec un layer 1 mais le codeur du layer 3
sera plus complexe.
III.5. Compression MPEG AUDIO
 Layer I est le plus simple qui vise une utilisation domestique. Il
utilise un filtrage à 32 sous-bandes de même largeur. Le débit varie
de 32 Kbps à 448 Kbps. En fonction de la complexité de l'encodeur,
une haute qualité audio (proche du CD), implique un débit entre
256 et 384 Kbps pour un programme stéréo. Layer I est notamment
utilisé dans le système de cassette numérique DCC (Philips).
 Layer II permet une compression plus élevée que Layer I et se
destine aussi bien aux domaines audio domestique que
professionnel, comme l'émission radio et télévision et les
télécommunications. Le débit varie de 32 à 192 Kbps pour la mono,
et 64 à 384 Kbps pour la stéréo. En fonction de la complexité de
l'encodeur, une haute qualité audio (CD) implique un débit entre 192
et 256 Kbps pour un programme stéréo. La complexité du décodeur
est d'environ 25 % plus haute que pour un décodeur Layer I.
 Layer III ajoute des filtres hybrides, et un codage de type Huffman.
C’est le mode qui offre le plus de compression. Layer III étend les
applications du MPEG dans les télécommunications à bande étroite
ou bien à certains domaines spécialisés de l'audio professionnelle. Il
a été banalisé par l’usage des fichiers MP3.
III.5. Compression MPEG AUDIO
Débit piste: = (largeur de bande passante × 2) × NbbitsQuant
= Freq echant × NbbitsQuant
III.5. Compression MPEG AUDIO
Codage en sous-bandes : Pour profiter des phénomènes de
masquage, le signal d'entrée est filtré dans le domaine
fréquentiel en 32 bandes de fréquences, appelées sous-
bandes (subbands).
Rappelons que le masquage ne concerne que les fréquences
voisines (masquage fréquentiel), c’est-à-dire appartenant à
une même sous bande et se déroulant durant un laps de temps
très court.
S(t) = A11 sin (2 f11 t+11) + A12 sin (2 f12 t+12) +.. +A1r sin (2
f1rt+1r).
+ A21 sin (2 f21 t+21) + A22 sin (2 f22 t+22) +.. +A2r sin (2
f2rt+2r).
…
+ A32 1 sin (2 f32 1 t+32 1 ) + A32 2 sin (2 f32 2 t+32 2) +.. +A32 r sin
(2 f32 rt+32 r).
III.5. Compression MPEG AUDIO
Codage en sous-bandes :
Bande 1 Bande 2 Bande 31 Bande 32
0 0 0
0
III.5. Compression MPEG AUDIO
Codage en sous-bandes : En MPEG Layer I, le signal est
découpé selon l’axe des temps en des blocs d'égale longueur de
384 échantillons (soit 8 ms de signal à 48 kHz) ce qui
correspond dans le domaine fréquentiel à 12 échantillons
dans chacune des 32 bandes.
Le signal S est filtré en 32 signaux.
S1 =A11 sin (2 f11 t+11) + A12 sin (2 f12 t+12) +.. +A1r sin (2
f1rt+1r).
S2 = A21 sin (2 f21 t+21) + A22 sin (2 f22 t+22) +.. +A2r sin (2
f2rt+2r).
….
S32= A32 1 sin (2 f32 1 t+32 1 ) + A32 2 sin (2 f32 2 t+32 2) +.. +A32 r sin
(2 f32 rt+32 r).
III.5. Compression MPEG AUDIO
Découpage en blocs :
 D’après le théorème de Shanon la fréquence
d’échantillonnage de chaque sous bande est égale à
deux fois de la largeur de la bande passante : ce qui
revient à échantillonner les 8ms avec 48KHZ /32 c’est
à dire 12 échantillons par 8 ms.
 Chaque signal dans une sous-bande est quantifié de
manière telle que le bruit de quantification
(quantisation noise) introduit par le codage ne
dépasse pas la courbe de masquage pour cette sous-
bande. Le spectre du bruit de quantification est donc
dynamiquement adapté au spectre du signal.
III.5. Compression MPEG AUDIO
 Les paramètres concernant les quantifieurs (quantisers)
utilisés dans chaque sous-bande sont transmises avec les
échantillons de la sous-bande codée. Le décodeur peut
ainsi décoder le flux de bits sans connaître la manière
dont l'encodeur a déterminé ces paramètres. Ceci permet
l'utilisation d'encodeurs de différentes qualités et
différentes complexités, ainsi que de proposer de futures
améliorations aux encodeurs. Encodeurs et décodeurs ne
sont donc pas de la même complexité, on parle de
systèmes asymétriques.
 Une analyse permet de réaliser le modèle de masquage
permettant de déterminer le degré de masquage (seuil de
masquage), que l'on peut attendre dans chaque bande.
Dans chaque bande, plus le masquage est agissant, moins
l'échantillon doit être précis.
III.5. Compression MPEG AUDIO
 La précision des échantillons est alors réduite par re-
quantification en vue de diminuer la longueur des mots.
Cette re-quantification est constante pour tous les mots
d’une même bande, mais les différentes bandes peuvent
utiliser des longueurs de mot différentes. La longueur de
mots doit être transmise comme un code d'affectation de
bits afin de permettre au décodeur de dé-sérialiser
convenablement le flux de bits.
 A l'intérieur de chaque bande, une fois le masquage opéré,
le niveau du signal est amplifié par multiplication jusqu'à sa
valeur maximale. Le gain nécessaire est constant pour la
durée du bloc et un seul facteur d'échelle est transmis avec
chaque bloc, pour chaque bande, de façon à pouvoir
renverser le processus au décodage.
III.5. Compression MPEG AUDIO
Le modèle que l'on utilise dans le codage en sous-bande se
réfèrent à la manière dont une personne perçoit les sons. Le
modèle utilisé lors du codage détermine quelles sont les
fréquences sensées masquer d'autres fréquences. A la lecture, le
décodeur retrouvera les paramètres concernant le modèle
utilisé dans le flux du signal même. Plusieurs modèles existent
(Musicam, AT&T), qui sont plus ou moins adaptés au type de
données audio à compresser.
III.5. Compression MPEG AUDIO
Les 384 échantillons (12 ×32 ) du bloc temporel forment une trame
comprenant un mot de synchronisation et un en-ête, suivis de 32
codes d'affectation de bits de 4 bits chacun. Ces codes décrivent
la longueur des mots des échantillons dans chaque sous-bande.
Viennent ensuite les 32 facteurs d'échelle utilisés par la
compression dans chaque bande, indispensables pour rétablir le bon
niveau au décodage. Les facteurs d'échelle sont suivis des données
audio de chaque bande.
III.5. Compression MPEG AUDIO
Le mot de synchronisation est détecté par le générateur de
temps qui dé-sérialise les bits d'affectation et les données de
facteur d'échelle. L'affectation de bits permet ensuite la dé-
sérialisation des échantillons à longueurs variables. La re-
quantification inverse et la multiplication par l'inverse du
facteur d’échelle sont appliquées de façon à ramener le niveau
de chaque bande à sa bonne valeur. Les 32 bandes sont ensuite
rassemblées dans un filtre de recombinaison pour rétablir la
sortie audio.
III.5. Compression MPEG AUDIO
 En Layer I, l'analyse du spectre n'est pas très précise dans
la mesure où cette analyse utilise simplement les 32
sous-bandes du codage. Cette figure montre que,
lorsque le filtre de séparation de bandes est utilisé pour
créer le modèle de masquage, l'analyse de spectre n'est
pas très précise dès que l'énergie est répartie dans la
totalité d’une bande. Une analyse spectrale plus précise
autoriserait un facteur de compression plus élevé.
 Dans la layer II, pour améliorer la précision de la
résolution de fréquence, il faut augmenter l'exécution
temporelle de la transformée, ce qui est effectué en
portant la taille du bloc à 1152 échantillons ce qui
correspond à 36 échantillons pour chaque bande.
III.5. Compression MPEG AUDIO
MPEG II
III.5. Compression MPEG AUDIO
La compression MPEG Audio III
Le MP3 (« MPEG-1 Audio layer 3 ») est un format de compression
de données audio par destruction de données, développé par
l'organisation de standardisation internationale (ISO -
International Standard Organization). Ce format permet de
compresser à un taux de 1:12 les formats audio habituels. Il
permet de faire tenir l'équivalent en fichiers de douze albums de
musique sur un seul CD-ROM. De plus, le format MP3 n'altère
que faiblement le son pour l'oreille humaine. Comme pour les
couches 1 et 2 du MPEG, la couche 3 utilise de son côté un codage
par séparation de bandes.
Pour obtenir un facteur de compression élevé, la technique du
joint stéréo et appliquée et un recodage des coefficients à
longueur variable est effectué selon l’algorithme de Huffman.
Cette technique attribue les mots les plus courts aux valeurs de
code les plus fréquentes. Ce niveau complexe de codage n'est en
réalité utilisé que lorsque les facteurs de compression les plus
élevés sont nécessaires. Il comporte quelques points communs
avec la couche 2.
III.5. Compression MPEG AUDIO
La compression MPEG Audio III
Ainsi, une minute d'un CD-audio (à une fréquence de 44.1 kHz, 16
bits, stéréo) ne prendra qu'un seul 1 Mo alors qu’elle nécessitait 10
MO en non compressé. Une chanson fait donc en moyenne 3 ou 4
Mo, ce qui rend son téléchargement possible. Le décodage d'un
fichier MP3 est relativement peu coûteux en utilisation du
processeur, tandis que l'encodage est plus gourmand.
III.5. Compression MPEG AUDIO
Applicabilité de la compression
 Il faut néanmoins se rappeler que la conversion au numérique du
signal sonore analogique introduit une dégradation (due à
l'opération de quantification). Les 16 bit de quantification du format
standard du Compact Disc sont à peine suffisants pour arriver è une
qualité acceptable dans le domaine professionnel. Donc la
possibilité d'introduire une compression de type lossy sur les
données n'est même pas à tenir en compte.
 Dans d'autres contextes, où la qualité ne représente pas un facteur
fondamental, il se trouve que la meilleure solution est la
compression. Comme par exemple sur Internet ou sur les lecteurs
MP3 portables qui permettent de mémoriser des centaines de
morceaux dans une mémoire RAM (sur un CD il est possible de
mémoriser 74 minutes de musique pour une moyenne de 10 à 12
morceaux; sur le même support, on peut mémoriser une centaine de
morceaux en forme de données de type MP3).
III.5. Compression MPEG AUDIO
Exercice 1:
1. Soit une séquence audio numérisée de 4 minutes, estimez son poids
dans les cas d’une numérisation avec une qualité DAT.
2. Si on devait compresser la séquence précédente en MP3, estimez la
durée de compression si le traitement d’un bloc nécessite 10-7 sec.
3. On voudrait compresser la séquence de la Q1 pour la diffuser en
audio en streaming, quel devrait être le rapport de compression si le
débit de transmission est 1 mega bit/sec et que les données de
services (entêtes etc) occupent 30 % du flux global transmis.
Réponse :
1) Qualité DAT : Freq = 48000 HZ N=2 octets ; stéreo ( 2 pistes).
Poids= FreEch *N* Durée*Nbrpistes.
Poids = 48000 * 240* 2*2 = 46 080 000 octets.
III.5. Compression MPEG AUDIO
Réponse:
Q2) Si on devait compresser la séquence précédente en MP3,
estimez la durée de compression si le traitement d’un bloc
nécessite 10-7 sec.
Qualité DAT : FreqEc = 48000 HZ N=2 octet stéreo
En MP3, un bloc contient 36 échantillons.
Nbr blocs = nbr échan Total /36
nbr échan total = FreqEc * Durée seq* Nb pistes
=23 040 000 ech
23040000 /36= 640 000 blocs.
Duré de compression = Nbr de blocs *10-7 sec=0.64 sec.
III.5. Compression MPEG AUDIO
Q3) On voudrait compresser la séquence de la Q1 pour la diffuser en
audio en streaming, quel devrait être le rapport de compression si le
débit de transmission est 1 mega bit/sec et que les données de
services (entêtes etc) occupent 30 % du flux global transmis.
Réponse:
Poids non compessé = 46 080 000 octets.
Débit = poids des données compressées /durée
1*1024*1024 = Poids données Streaming /240 sec 
Poids données Streaming = 240 Mbit.
Poids données Streaming = Poids données utiles (son) + Poids données Service.
Poids données Service = 30* Poids données Streaming /100.
Poids données utiles (son) =168 mgbits =21Mo.
Rapport de compression =46 /21= 2.2 (au minimum)
III.6. Les Formats AUDIO numériques
Le format d'un fichier audio prend en considération un ensemble de
facteurs liés
1. à la numérisation de la source :
 Fréquence d'échantillonnage du signal sonore analogique
 Codage de chaque échantillon (1, 2 ou 3 octets soit : 8, 16 ou 24
bits)
 Nombre de canaux ("pistes") utilisés (son mono = 1, stéréo = 2,
multipiste = 3 et plus).
 L'utilisation de plusieurs pistes audio permet de restituer le son sur
un système comportant plusieurs enceintes (une par piste). Une
piste est un canal d'enregistrement réservé à un son, pour une durée
déterminée, avant le mixage.
 Plus on augmente la fréquence d'échantillonnage, la valeur de
codage ou/et le nombre de canaux, plus la qualité sera bonne ... et le
poids du fichier audio lourd.
 Poids du fichier (kilooctets/seconde) = Fréquence x Codage x Nb de
pistes
III.6. Les Formats AUDIO numériques
2. à la compression utilisée (codec):
Pour réduire la taille du fichier (pour permettre son stockage
et faciliter sa transmission), les données sont, en effet,
généralement compressées. Mais, plus le fichier est
compressé, moins la qualité sonore sera bonne. La
compression est indispensable si la séquence sonore doit être
écoutée en temps réel, pendant son téléchargement. Dans ce
cas, les taux de compression peuvent être élevés. Ils sont
parfois différenciés selon le débit de la liaison.
3. à l'organisation des octets dans le fichier : Certains
formats sont adaptés à un usage local sur l'ordinateur,
d'autres au streaming.
III.6. Les Formats AUDIO numériques
Les formats audio sont en général du type auto-décrit, c’est à dire que
le fichier contient un en-tête qui décrit les particularités du codage
(échantillonnage, nombre de canaux, type de compression, etc.). Le
choix du format est lié à l’utilisation qui sera faite du fichier
(transfert sur lecteur MP3, montage audio "musical",
postproduction vidéo, streaming, podcasting,...). Les formats sont
nombreux et pour la plus grande partie liés à une utilisation
spécifique, respectivement à un support dédié:
III.6. Les Formats AUDIO numériques
Formats de fichiers non compressés :
CDA (Compact Disc Audio) Extension : .cda Format des pistes des CD
audio.
PCM (Pulse Code Modulation) Extension : .pcm Codec audio non
compressé utilisé pour les disques compacts audio (CD), pour
l'enregistrement sur bandes DAT, les disques optiques à haute capacité,
ainsi que pour les fichiers WAV standard. Il Peut contenir jusqu'à 8 canaux
et supporte les résolutions : 16, 20 ou 24 bits.
WAV (ou WAVE) Extension : .wav est le format natif des systèmes
Windows. Format propriétaire et ouvert, mono ou stéréo, mis au point par
Microsoft et IBM. Fichier conteneur le plus courant pour l'audio non
compressé sur les plates-formes de Microsoft, mais il est également
courant sur les systèmes GNU/Linux aussi. Il est le codage le plus
couramment utilisé pour la compression, car il confère au format un
encodage et un décodage immédiats avec une qualité sonore excellente.
Cependant la taille des fichiers est très importante. Le Fichier est limité à 2
Go et est Compatible avec tous les lecteurs audio.
III.6. Les Formats AUDIO numériques
Formats non compressés :
AIFF (Audio Interchange File) Extension : .aif ou .aiff est à
l’origine développé par Apple, ce format permet une grande variété de
codage de fréquences et résolutions d’échantillonnage. Utilisé pour le
mixage et l’encodage des données destinées au CD audio (44100 Hz, 16
bit, stéréo ). Fichier conteneur. propriétaire et ouvert. Equivalent du
format Wav dans le monde Macintosh. Les fichiers sont très
volumineux. Le format AIFF-C (ou AIFC) supporte une compression.
•Résolutions possibles : 8, 16, 20, 24 et 32 bits.
•Peut être lu avec les lecteurs audio : Quicktime, iTunes, Winamp,
Audacity.
µLaw (.au) est le format audio UNIX, il est codé sur 8 bits, la qualité
audio est donc réduite.
III.6. Les Formats AUDIO numériques
Les formats compressés
Ce sont en principe des fichiers de type AIF, WAV ou AU auquel on a appliqué
un algorithme de compression. Les principales normes de codecs sont:
 Real Audio Extension : .ra (real audio), .rv (real video), .rm (real media),
.ram (real audio metadata)
Famille de codecs audio propriétaires (RealNetworks). Très ancien. Il
permet de diffuser de la musique sur internet en utilisant la technique du
streaming.
• Les fichiers RealAudio sont compressés selon différents formats.
• Lisible avec RealPlayer.
 MACE : très rapide, elle ne demande pas beaucoup de ressources
processeur. Facteurs de compression de 3:1 ou 6:1, la qualité réduite, seuls
les fichiers 8 bits sont supportés. L’environnement Macintosh la propose à
l’enregistrement de tout fichier faisant appel au format Quicktime. Utile
uniquement pour sons système.
 IMA: solution intermédiaire entre qualité et espace, le ratio de
compression est de 4:1 et l’encodage est possible sur 8 ou 16 bits.
III.6. Les Formats AUDIO numériques
Les formats compressés
 MP3 (MPEG-1 Layer 3) Extension : .mp3
Cette norme garantit une bonne qualité et permet des taux de
compression importants allant jusque à un facteur de 12:1. (format très
répandu sur le web, Ipod, Mini-Disc). Le format fichier est propriétaire
et ouvert et fait l'objet d'une licence. Il représente le Codec audio le plus
répandu.
La couche (layer) 3 de la norme MPEG-1 (compression destructive) est
dédiée à des applications nécessitant des débits faibles. MP3 est devenu
ainsi idéal pour la diffusion libre sur internet. Un encodage de 128 ou 192
kilobits par seconde (kbit/s) permet de bénéficier d'une qualité audio
acceptable pour un morceau de musique. Compatible avec presque tous
les logiciels existants.
Il supporte 2 canaux maximum en stéréo et le stockage et la gestion des
métadonnées. Elles permettent de contenir des informations comme le
nom de l'artiste, le titre, l'auteur-compositeur. Il ne supporte pas la
gestion des droits d'accès (DRM) et le streaming. Le codec MP3Pro est
une évolution de mp3 et présente un meilleur ratio qualité/poids.
III.6. Les Formats AUDIO numériques
Les formats compressés
 OGG Vorbis Extension : .ogg Format ouvert et libre (concurrent des
formats propriétaires MP3, WMA et AAC). OGG est un fichier conteneur qui
peut contenir des pistes sonores (codec Vorbis), audio sans perte (codec
FLAC), audio parlées (codec Speex) ou/et vidéo (codec Theora). OGG Vorbis
contient des pistes sonores au format Vorbis. Vorbis est un codec audio
ouvert et libre. Il utilise une compression destructive, et un encodage VBR. Il
est plus performant en terme de qualité et taux de compression que le format
MP3 car il offre une bonne compression jumelée avec une très bonne qualité
sonore. Sa qualité est estimé sur une échelle de 1 à 10. Ce format est sans
doute le meilleur dans les très hauts niveaux d’encodage (de q5 à q10). Une
équivalence avec le MP3 peut être approximativement donnée :
Ogg q5  Mp3 160 Kbps Ogg q7  Mp3 224 Kbps
Ogg q9  Mp3 320 Kbps , Ogg q10: Mp3 500 Kbps
La structure en paquet le rend bien adapté à une utilisation en streaming sur
l'internet. Il Permet un enregistrement polyphonique (jusqu'à 255 canaux
son). Peut être lu avec les lecteurs audio : MPlayer, Winamp, VLC (VideoLAN
Client), Windows Media Player, Audacious, Whamb, etc. Cependant, il est
non pris en charge par les baladeurs numériques iPod de chez Apple.
III.6. Les Formats AUDIO numériques
Les formats compressés
 AAC (Advanced Audio Coding) Extension : .aac, .mp4, .m4a
Format propriétaire et fermé ; il est le Codec concurrent direct du WMA. Il
représente l’un des formats successeurs au MP3. Utilise une compression
audio avec perte de données (extension du MPEG-2 et amélioré en MPEG-4).
Format des fichiers audio supportés par Apple pour son baladeur numérique
iPod et son logiciel iTunes. Possibilité de gérer des sons sur 48 canaux
différents. Il supporte la gestion des droits d'accès (DRM) et la fonction
« Gapless », qui permet ne plus avoir de coupure entre 2 morceaux. Peut être
lu avec les lecteurs audio : iTunes, Winamp.
 FLAC (Free Lossless Audio Codec) Extension : .flac ou .fla
Format ouvert et libre. Il utilise un Codec de compression audio non
destructive ("lossless" : sans perte acoustique). Compression faible par
rapport au MP3. Ce format est utilisé pour l'archivage ou l'édition. Il utilise
un format VBR. Il autorise le Streaming (la décompression se faisant par
blocs). Il supporte la Gestion des métadonnées et est caractérisé par une
grande rapidité de décodage, mais moins performant à l'encodage. Il peut
être lu avec les lecteurs (après ajout d'un plug-in) : Adobe Audition,
Audacity, Winamp, XMMS, etc. Il offre les résolutions de 4 à 32 bits.
III.6. Les Formats AUDIO numériques
Les formats compressés
 Monkey's Audio Extension : .ape
Format fermé. Il utilise un Codec de compression audio sans perte. Taux de
compression légèrement meilleur que celui de FLAC : division par deux de la
taille des fichiers audio.
 MPC (Musepack) Extension : .mpc
Format ouvert et libre. Il utilise un Codec de compression audio destructive,
basé sur le format MPEG-2. Grande qualité sonore bien supérieure au MP3
ou à l'Ogg. Il supporte aussi, comme le format AAC, le « GapLess », qui
permet de ne pas faire de coupure entre 2 morceaux. Codage et encodage très
rapides.
 WMA (Windows Media Audio) Extension : .wma
Format propriétaire et fermé de compression audio destructive développé
par Microsoft. Uniquement compatible avec Microsoft. Alternative au MP3 :
plus souple mais moins répandu. A la fois codec et fichier conteneur.
Différentes déclinaisons : compressé, non compressé, avec ou sans DRM
(gestion des droits d'accès ). Il supporte le streaming et bien adapté à la
diffusion par internet (si compressé). Il permet 2 canaux maximum en
stéréo. Format CBR ou VBR. Peut être lu avec les lecteurs audio : Media
Player, Winamp.
III.6. Les Formats AUDIO numériques
Formats Hybrides
 QUICKTIME : méta-format Apple qui permet d’encapsuler, de
compresser et d’interfacer l’accès à divers types de média permet de lire et
de traiter les formats les plus courants : AIFF, WAV, AU, MP3, etc.…
 MOD (.mod) ce format est proche du MIDI dans son principe à la
différence près qu’il inclus les échantillons sonores utilisés dans la
partition. Utilisé dans l’environnement "Reason"
 Rich music Format (.rmf), développé par Headspace pour la diffusion
web, ce format permet d’encapsuler les échantillons audio, les données
MIDI et les données d’arrangement à l’intérieur d’un seul fichier. La
restitution est faite par un plug-in.
III.6. Les Formats AUDIO numériques
Format Extension
Type Accès
Plateforme Usage
Codec Conteneur Propriétaire Ouvert Libre
PCM .pcm X X
X X
Mac
Windows
Linux
Audio non compressé.
WAV .wav - X X X -
Windows
Linux
Couramment le plus utilisé pour
l'audio non compressé (PCM).
AIFF .aif, .aiff X X X X -
Mac
Linux
Audio non compressé (PCM).
RealAudio .ra, .ram X - X - -
Mac
Windows
Linux
Streaming
MP3 .mp3 X - X X -
Mac
Windows
Linux
Idéal pour la diffusion libre sur
internet
WMA .wma X X X - -
Windows
Linux
Adapté à la diffusion par internet.
Compression avec ou sans pertes.
III.6. Les Formats AUDIO numériques
Format Extension
Type Accès
Plateforme Usage
Codec Conteneur Propriétaire Ouvert Libre
AAC
.aac, .mp4,
.m4a
X - X - -
Mac
Linux
Un des formats successeurs
au MP3.
OGG Vorbis .ogg X - - X X
Mac
Windows
Linux
Alternative à MP3, WMA et
AAC. Très bonne qualité
sonore.
MPC .mpc, .mp+ X - - X X
Mac
Windows
Linux
Qualité sonore bien supérieure
au Mp3 ou encore à l’Ogg.
FLAC .flac, .fla X. - - X X
Mac
Windows
Linux
Compression sans pertes.
Monkey'Audio .ape X. - X - -
Mac
Windows
Linux
Compression sans pertes.
III.6. Les Formats AUDIO numériques
Le format MIDI
 Le terme MIDI est l'acronyme de Musical Instrument Digital
Interface, et c'est un protocole de communication conçu en
1983, qui permet de piloter un dispositif musical à travers un
appareil contrôleur. A l'aide de ce protocole de contrôler en
même temps une série d'appareils de manière synchronisée.
 Le MIDI (Musical Instruments Digital Interface):n’est pas à
proprement parler un format audio mais un système
complet d’interface et d’édition numérique. Un document
MIDI contient une description d’un morceau de musique
sous la forme d’une partition. Celle-ci inclue des indications
sur la hauteur, la durée, la modulation, etc… ainsi que
l’attribution d’un instrument.
III.6. Les Formats AUDIO numériques
Le format MIDI
 C'est un protocole de communication pour l'échange de
données musicales entre instruments de musique
électronique. Ces instruments peuvent être des synthétiseurs,
des ordinateurs, des contrôleurs d'expressions comme le
saxophone midi, etc... Ces instruments sont raccordés entre
eux par une prise DIN à 5 broches.
 Le document midi est un format texte, il est donc
extrêmement compact. Les informations qu’il contient
permettent de synthétiser la musique sur tout instrument
conforme à cette norme: synthé, piano etc… ou en recourant à
un synthétiseur du type quick-time. Le format midi offre une
alternative à la diffusion de musique. La qualité de
reproduction du morceau est liée au synthétiseur utilisé. Un
éditeur midi permet de travailler directement sur la partition
musicale
III.6. Les Formats AUDIO numériques
 Introduisons le principe de fonctionnement en nous
basant sur un clavier-synthétiseur pourvu d'une interface
MIDI contrôlée par un ordinateur. L'ordinateur est doté
d'un logiciel en mesure "d'enregistrer les impulsions issues
du clavier-synthétiseur en mémorisant également les laps
de temps de leur arrivée.
 On peut donc exécuter un morceau musical sur le clavier-
synthétiseur et "l'enregistrer" sur l'ordinateur. Il est
important de comprendre que l'ordinateur n'enregistre pas
en fait les sons issus du clavier-synthétiseur, mais des
codes correspondants aux notes qui sont jouées ainsi que
leur durée.
III.6. Les Formats AUDIO numériques
 Durant la phase de reproduction, l'ordinateur envoie au
clavier-synthétiseur les codes qu'il a mémorisées
précédemment et le clavier-synthétiseur les interprète
exactement comme si un musicien avait effectivement joué à
ce moment-là les notes correspondantes. Le protocole n'a pas
subi de variations depuis sa création (même si en fait il a subi
plusieurs extensions) et donc même de très vieux dispositifs
sont en mesure de communiquer avec des dispositifs
modernes.
 De nos jours, les dispositifs sont souvent pilotés par les
ordinateurs et par conséquent, la partie de protocole
concernant la couche physique (câbles, connecteurs) a changé,
passant au standard USB. Cependant, la partie applicative du
protocole (celle concernant les messages) est restée invariable.
III.6. Les Formats AUDIO numériques
Exemple de branchement de plusieurs machines synchronisées par la
norme MIDI
III.7 Traitement du Son
 Compresseur : processeur de signal (électronique ou
logiciel) permettant de manipuler le niveau, la
dynamique du signal audio. En général utilisé pour
diminuer l'écart entre les sons forts et faibles, mais
permet également bien d'autres possibilités.
 Compresseur multibande : une variante du
compresseur permettant de traiter la dynamique du
signal sur plusieurs bandes de fréquences
simultanément, ce qui permet par exemple de réduire
le volume d'un son de basse sans affecter un son de
flûte.
III.7 Traitement du Son
 Egaliseur : l'égaliseur permet de corriger une certaine gamme
de fréquence en lui appliquant un gain ou une atténuation. Le
choix et le nombre de bandes de fréquences ainsi que les
réglages possibles déterminent le type d'égaliseur auquel on a
affaire : égaliseur passe-bas ou passe-haut qui permet de
filtrer les fréquences au-dessus ou en-dessous d'un fréquence
donnée, égaliseur graphique qui permet de régler le gain d'un
certain nombre de fréquences fixes, et égaliseur paramétrique,
qui permet de choisir précisément la fréquence et l'étendue de
la correction.
 Echo ou Delay : Effet basé sur une simple répétition du son
avec un retard réglable. Les versions évoluées de cet effet
peuvent comporter des réglages supplémentaires tels que
plusieurs réglages de retards différents, variation des retards
dans l'espace stéréo, filtrage fréquentiels des retards, etc...
III.7. Traitement du Son
 Chorus : Effet temporel basé sur une réinjection d'une partie du
signal d'origine retardée et traitée avec une léger désaccord de
hauteur variable, de manière à faire apparaître le son plus « riche »,
plus ample.
 Fader : Potentiomètre linéaire logarithmique utilisé en audio pour
le contrôle de volume d'une piste audio. (Fade in ou Fade out)
 Flanger : Le flanger est un effet temporel basé sur un réinjection
d'une partie du signal d'origine avec une variation en fréquence, elle-
même variant périodiquement à une fréquence très faible,
généralement de quelques hertz.
 Réverbération : La réverbération ou « reverb » est un effet
cherchant à restituer l'ambiance acoustique d'un lieu plus ou moins
grand, de la salle de bains à la salle de concert. Elle permet de
donner de l'ampleur à un son. Elle peut être simulée dans les
processeurs d'effets (électroniques ou logiciels) à partir d'une
somme de très nombreux échos simples, ou enregistrée dans le lieu
à l'aide de micros et de haut-parleurs. Généralement, une unité de
réverbération possède de nombreux réglages permettant d'adapter
l'effet aux souhaits de l'ingénieur du son.

Contenu connexe

Similaire à Systèmes audio Fin 2 (1).ppsx

traitement_signal.pdf
traitement_signal.pdftraitement_signal.pdf
traitement_signal.pdf
waelHechmi
 
fdocuments.net_traitement-signal.ppt
fdocuments.net_traitement-signal.pptfdocuments.net_traitement-signal.ppt
fdocuments.net_traitement-signal.ppt
docteurgyneco1
 
Examen Principal - Fondement Multimedia Janvier 2015
Examen Principal - Fondement Multimedia Janvier 2015Examen Principal - Fondement Multimedia Janvier 2015
Examen Principal - Fondement Multimedia Janvier 2015
Ines Ouaz
 
CM2 - Conversion Anlogique Numérique
CM2 - Conversion Anlogique NumériqueCM2 - Conversion Anlogique Numérique
CM2 - Conversion Anlogique NumériquePierre Maréchal
 
Les mathématiques au service du transport de l’information
Les mathématiques au service du transport de l’informationLes mathématiques au service du transport de l’information
Les mathématiques au service du transport de l’information
Dany-Jack Mercier
 
Asterisk to ip_rapport
Asterisk to ip_rapportAsterisk to ip_rapport
Asterisk to ip_rapportGilles Samba
 
L'empreinte audio numerique au service de l'analyse des diffusions Masterclas...
L'empreinte audio numerique au service de l'analyse des diffusions Masterclas...L'empreinte audio numerique au service de l'analyse des diffusions Masterclas...
L'empreinte audio numerique au service de l'analyse des diffusions Masterclas...
ACTUONDA
 
Fichiers audios
Fichiers audios Fichiers audios
Fichiers audios
Régine Roué
 
Système géoradar et technologie MALA HDR
Système géoradar et technologie MALA HDRSystème géoradar et technologie MALA HDR
Système géoradar et technologie MALA HDR
Benoit NOEL
 
Conception d’antennes imprimées pour Identification Radio Fréquence (RFID) d...
Conception d’antennes imprimées pour Identification  Radio Fréquence (RFID) d...Conception d’antennes imprimées pour Identification  Radio Fréquence (RFID) d...
Conception d’antennes imprimées pour Identification Radio Fréquence (RFID) d...
Chergui Athman
 
Forom écoute la technologie au service des malentendants v1.099999
Forom écoute la technologie au service des malentendants v1.099999Forom écoute la technologie au service des malentendants v1.099999
Forom écoute la technologie au service des malentendants v1.099999ChristopheGonin
 
Generalities sur scanner et ses generation
Generalities sur scanner et ses generationGeneralities sur scanner et ses generation
Generalities sur scanner et ses generation
ranahadjadji
 
rapport_projet-l2spi_xu-carrero-lomet
rapport_projet-l2spi_xu-carrero-lometrapport_projet-l2spi_xu-carrero-lomet
rapport_projet-l2spi_xu-carrero-lometEtienne Lomet
 
Présentation telegramme morlaix
Présentation telegramme morlaixPrésentation telegramme morlaix
Présentation telegramme morlaix
Arkhenum
 
Rapport TP SuppTx (Aurele).pdf
Rapport TP SuppTx (Aurele).pdfRapport TP SuppTx (Aurele).pdf
Rapport TP SuppTx (Aurele).pdf
stevekambea602
 
Lexique mao
Lexique maoLexique mao
Lexique maopozortun
 
Bruit.pdf
Bruit.pdfBruit.pdf
Bruit.pdf
MebarkiChafik
 

Similaire à Systèmes audio Fin 2 (1).ppsx (20)

traitement_signal.pdf
traitement_signal.pdftraitement_signal.pdf
traitement_signal.pdf
 
fdocuments.net_traitement-signal.ppt
fdocuments.net_traitement-signal.pptfdocuments.net_traitement-signal.ppt
fdocuments.net_traitement-signal.ppt
 
Cours4 gdm
Cours4 gdmCours4 gdm
Cours4 gdm
 
Examen Principal - Fondement Multimedia Janvier 2015
Examen Principal - Fondement Multimedia Janvier 2015Examen Principal - Fondement Multimedia Janvier 2015
Examen Principal - Fondement Multimedia Janvier 2015
 
Cours5 cdmm
Cours5 cdmmCours5 cdmm
Cours5 cdmm
 
CM2 - Conversion Anlogique Numérique
CM2 - Conversion Anlogique NumériqueCM2 - Conversion Anlogique Numérique
CM2 - Conversion Anlogique Numérique
 
Les mathématiques au service du transport de l’information
Les mathématiques au service du transport de l’informationLes mathématiques au service du transport de l’information
Les mathématiques au service du transport de l’information
 
Asterisk to ip_rapport
Asterisk to ip_rapportAsterisk to ip_rapport
Asterisk to ip_rapport
 
L'empreinte audio numerique au service de l'analyse des diffusions Masterclas...
L'empreinte audio numerique au service de l'analyse des diffusions Masterclas...L'empreinte audio numerique au service de l'analyse des diffusions Masterclas...
L'empreinte audio numerique au service de l'analyse des diffusions Masterclas...
 
7480 solutions
7480 solutions7480 solutions
7480 solutions
 
Fichiers audios
Fichiers audios Fichiers audios
Fichiers audios
 
Système géoradar et technologie MALA HDR
Système géoradar et technologie MALA HDRSystème géoradar et technologie MALA HDR
Système géoradar et technologie MALA HDR
 
Conception d’antennes imprimées pour Identification Radio Fréquence (RFID) d...
Conception d’antennes imprimées pour Identification  Radio Fréquence (RFID) d...Conception d’antennes imprimées pour Identification  Radio Fréquence (RFID) d...
Conception d’antennes imprimées pour Identification Radio Fréquence (RFID) d...
 
Forom écoute la technologie au service des malentendants v1.099999
Forom écoute la technologie au service des malentendants v1.099999Forom écoute la technologie au service des malentendants v1.099999
Forom écoute la technologie au service des malentendants v1.099999
 
Generalities sur scanner et ses generation
Generalities sur scanner et ses generationGeneralities sur scanner et ses generation
Generalities sur scanner et ses generation
 
rapport_projet-l2spi_xu-carrero-lomet
rapport_projet-l2spi_xu-carrero-lometrapport_projet-l2spi_xu-carrero-lomet
rapport_projet-l2spi_xu-carrero-lomet
 
Présentation telegramme morlaix
Présentation telegramme morlaixPrésentation telegramme morlaix
Présentation telegramme morlaix
 
Rapport TP SuppTx (Aurele).pdf
Rapport TP SuppTx (Aurele).pdfRapport TP SuppTx (Aurele).pdf
Rapport TP SuppTx (Aurele).pdf
 
Lexique mao
Lexique maoLexique mao
Lexique mao
 
Bruit.pdf
Bruit.pdfBruit.pdf
Bruit.pdf
 

Dernier

02_UMT STAR_un nouveau biomarqueur de résilience basé sur les métabolites du ...
02_UMT STAR_un nouveau biomarqueur de résilience basé sur les métabolites du ...02_UMT STAR_un nouveau biomarqueur de résilience basé sur les métabolites du ...
02_UMT STAR_un nouveau biomarqueur de résilience basé sur les métabolites du ...
Institut de l'Elevage - Idele
 
SRE - Mythes et Réalités - Voxxed 2024.pdf
SRE - Mythes et Réalités - Voxxed 2024.pdfSRE - Mythes et Réalités - Voxxed 2024.pdf
SRE - Mythes et Réalités - Voxxed 2024.pdf
Henri Gomez
 
PROVINLAIT - Bâtiment et bien-être estival
PROVINLAIT - Bâtiment et bien-être estivalPROVINLAIT - Bâtiment et bien-être estival
PROVINLAIT - Bâtiment et bien-être estival
idelewebmestre
 
01_UMT STAR_étude de la résilience et des compromis entre résilience et effic...
01_UMT STAR_étude de la résilience et des compromis entre résilience et effic...01_UMT STAR_étude de la résilience et des compromis entre résilience et effic...
01_UMT STAR_étude de la résilience et des compromis entre résilience et effic...
Institut de l'Elevage - Idele
 
Note Agro-climatique et prairies n°4 - Juin 2024
Note Agro-climatique et prairies n°4 - Juin 2024Note Agro-climatique et prairies n°4 - Juin 2024
Note Agro-climatique et prairies n°4 - Juin 2024
idelewebmestre
 
QCM de révision pour la haute qualité.pdf
QCM de révision pour la haute qualité.pdfQCM de révision pour la haute qualité.pdf
QCM de révision pour la haute qualité.pdf
ffffourissou
 
S210-S-27.04-chaudiere-à-vapeur bilan thermique
S210-S-27.04-chaudiere-à-vapeur bilan thermiqueS210-S-27.04-chaudiere-à-vapeur bilan thermique
S210-S-27.04-chaudiere-à-vapeur bilan thermique
ALIIAE
 
05_UMT STAR_Vers une indexation de la longévité fonctionnelle en ovin lait
05_UMT STAR_Vers une indexation de la longévité fonctionnelle en ovin lait05_UMT STAR_Vers une indexation de la longévité fonctionnelle en ovin lait
05_UMT STAR_Vers une indexation de la longévité fonctionnelle en ovin lait
Institut de l'Elevage - Idele
 
Alternative au 3eme lien et complement au Tramway de la ville de Quebec Rev 1...
Alternative au 3eme lien et complement au Tramway de la ville de Quebec Rev 1...Alternative au 3eme lien et complement au Tramway de la ville de Quebec Rev 1...
Alternative au 3eme lien et complement au Tramway de la ville de Quebec Rev 1...
Daniel Bedard
 
Rénovation des prairies sans labour est-ce possible en bio.pdf
Rénovation des prairies sans labour est-ce possible en bio.pdfRénovation des prairies sans labour est-ce possible en bio.pdf
Rénovation des prairies sans labour est-ce possible en bio.pdf
idelewebmestre
 
Alternative - Complément au Tramway et 3 ème lien de la ville de Quebec (PDF)
Alternative - Complément au Tramway  et 3 ème lien de la ville de Quebec (PDF)Alternative - Complément au Tramway  et 3 ème lien de la ville de Quebec (PDF)
Alternative - Complément au Tramway et 3 ème lien de la ville de Quebec (PDF)
Daniel Bedard
 
03_UMT STAR_compromis entre résistance au parasitisme et efficience alimentai...
03_UMT STAR_compromis entre résistance au parasitisme et efficience alimentai...03_UMT STAR_compromis entre résistance au parasitisme et efficience alimentai...
03_UMT STAR_compromis entre résistance au parasitisme et efficience alimentai...
Institut de l'Elevage - Idele
 
04_UMT STAR_Étude de nouveaux caractères en lien avec la santé et le bien-êtr...
04_UMT STAR_Étude de nouveaux caractères en lien avec la santé et le bien-êtr...04_UMT STAR_Étude de nouveaux caractères en lien avec la santé et le bien-êtr...
04_UMT STAR_Étude de nouveaux caractères en lien avec la santé et le bien-êtr...
Institut de l'Elevage - Idele
 

Dernier (13)

02_UMT STAR_un nouveau biomarqueur de résilience basé sur les métabolites du ...
02_UMT STAR_un nouveau biomarqueur de résilience basé sur les métabolites du ...02_UMT STAR_un nouveau biomarqueur de résilience basé sur les métabolites du ...
02_UMT STAR_un nouveau biomarqueur de résilience basé sur les métabolites du ...
 
SRE - Mythes et Réalités - Voxxed 2024.pdf
SRE - Mythes et Réalités - Voxxed 2024.pdfSRE - Mythes et Réalités - Voxxed 2024.pdf
SRE - Mythes et Réalités - Voxxed 2024.pdf
 
PROVINLAIT - Bâtiment et bien-être estival
PROVINLAIT - Bâtiment et bien-être estivalPROVINLAIT - Bâtiment et bien-être estival
PROVINLAIT - Bâtiment et bien-être estival
 
01_UMT STAR_étude de la résilience et des compromis entre résilience et effic...
01_UMT STAR_étude de la résilience et des compromis entre résilience et effic...01_UMT STAR_étude de la résilience et des compromis entre résilience et effic...
01_UMT STAR_étude de la résilience et des compromis entre résilience et effic...
 
Note Agro-climatique et prairies n°4 - Juin 2024
Note Agro-climatique et prairies n°4 - Juin 2024Note Agro-climatique et prairies n°4 - Juin 2024
Note Agro-climatique et prairies n°4 - Juin 2024
 
QCM de révision pour la haute qualité.pdf
QCM de révision pour la haute qualité.pdfQCM de révision pour la haute qualité.pdf
QCM de révision pour la haute qualité.pdf
 
S210-S-27.04-chaudiere-à-vapeur bilan thermique
S210-S-27.04-chaudiere-à-vapeur bilan thermiqueS210-S-27.04-chaudiere-à-vapeur bilan thermique
S210-S-27.04-chaudiere-à-vapeur bilan thermique
 
05_UMT STAR_Vers une indexation de la longévité fonctionnelle en ovin lait
05_UMT STAR_Vers une indexation de la longévité fonctionnelle en ovin lait05_UMT STAR_Vers une indexation de la longévité fonctionnelle en ovin lait
05_UMT STAR_Vers une indexation de la longévité fonctionnelle en ovin lait
 
Alternative au 3eme lien et complement au Tramway de la ville de Quebec Rev 1...
Alternative au 3eme lien et complement au Tramway de la ville de Quebec Rev 1...Alternative au 3eme lien et complement au Tramway de la ville de Quebec Rev 1...
Alternative au 3eme lien et complement au Tramway de la ville de Quebec Rev 1...
 
Rénovation des prairies sans labour est-ce possible en bio.pdf
Rénovation des prairies sans labour est-ce possible en bio.pdfRénovation des prairies sans labour est-ce possible en bio.pdf
Rénovation des prairies sans labour est-ce possible en bio.pdf
 
Alternative - Complément au Tramway et 3 ème lien de la ville de Quebec (PDF)
Alternative - Complément au Tramway  et 3 ème lien de la ville de Quebec (PDF)Alternative - Complément au Tramway  et 3 ème lien de la ville de Quebec (PDF)
Alternative - Complément au Tramway et 3 ème lien de la ville de Quebec (PDF)
 
03_UMT STAR_compromis entre résistance au parasitisme et efficience alimentai...
03_UMT STAR_compromis entre résistance au parasitisme et efficience alimentai...03_UMT STAR_compromis entre résistance au parasitisme et efficience alimentai...
03_UMT STAR_compromis entre résistance au parasitisme et efficience alimentai...
 
04_UMT STAR_Étude de nouveaux caractères en lien avec la santé et le bien-êtr...
04_UMT STAR_Étude de nouveaux caractères en lien avec la santé et le bien-êtr...04_UMT STAR_Étude de nouveaux caractères en lien avec la santé et le bien-êtr...
04_UMT STAR_Étude de nouveaux caractères en lien avec la santé et le bien-êtr...
 

Systèmes audio Fin 2 (1).ppsx

  • 1. Email : Abdelli@hotmail.com Site Web : https://sites.google.com/site/abdelkrimabdelli/teaching Page Facebook : https://www.facebook.com/Syst%C3%A8mes- Multim%C3%A9dia-Usthb-Fei-section-MIL-278158342199354
  • 2. III.2 Numérisation du son Exercice 1 : Soit une séquence audio de 2 minutes, estimez le poids du fichier dans les cas d’une numérisation avec :  Une qualité téléphone.  Une qualité CD audio. Solution : 2 minutes = 120 secondes Qualité téléphone : Fréquence : 8000 Hz ; Quantification : 1 octet ; Mono Poids fichier = 120× 8000 × 1 × 1= 960 000 octets Qualité CD AUDIO : Fréquence : 44 100 Hz ; Quantification : 2 octet ; Stereo Poids fichier = 120 × 44 100 × 2 × 2= 21 168 000 octets
  • 3. III.2 Numérisation du son Exercice 2:  Qu’appelle-t-on dynamique d’un signal sonore ?  Soit une séquence audio de 4 minutes, estimez le poids du fichier dans les cas d’une numérisation avec une qualité radio FM.  Si l’on désire obtenir une dynamique de 144 DB quelle serait alors le poids du fichier. Solution : La dynamique d’un signal c’est la l’intervalle entre la plus petite et la plus grande intensité (amplitude), enregistré dans le signal. Fréquence = 22 050 HZ ; N = 2 octet ; Pistes = 2 : Poids= (60 × 4) × 22050 × 2 × 2 = 21 168 000 octets Dynamique= 6 × N  N= 144 /6 = 24 bits =3 octets ; Poids= (60 × 4) × 22050 × 3 × 2= 31 752 000 octets
  • 4. III.2 Numérisation du son Exercice 3:  Soit une séquence audio de 5 minutes à diffuser online sur un réseau, Quelle est la qualité de numérisation optimale que l’on puisse appliquer si la vitesse maximal de transmission est limitée à 64 kbit/s. Solution : Débit = 64 000 =fréquence échantillonnage × N × Nbre pistes. = 8000 × 8 × 1 Cela correspond au paramètres de numérisation d’une Qualité téléphone.
  • 5. III.2 Numérisation du son Exercice 4:  On voudrait enregistrer une séquence audio de telle façon à obtenir un fichier de taille égale à 480 000 octets, quelles seraient les durées envisageables de cette séquence si la dynamique est de 48 DB ? Solution : Poids fichier= 480 000 octets, Dyn= 48 DB  N=8 bits ; 1 octet. Qualité téléphone : 480 000 octets= 8000 × 1 ×1 × durée  durée =60 secondes Qualité Radio AM : 480 000 octets= 11 025 × 1 ×1× durée  durée =43,5 secondes
  • 6. III.4 Compression du Son 1. Objectif de la compression  Nous avons pu voir que l'opération d'échantillonnage effectuée avec des paramètres utilisés pour les CD (16 bit, 44.1KHz) produit 172.26 KO à la seconde, il s'ensuit donc que quelques minutes de musique équivalent à une quantité élevée de données.  Le but d’une compression est d’optimiser les données, de réduire le débit d’informations binaires, tout en conservant une qualité sonore la plus élevée possible. Dans le cas de l’audio numérique le flux de données est considérable: une minute de données audio en qualité CD (16 bits, 44.1kHz) représente env. 10 MB de données. Une compression de ces dernières s’avère indispensable pour le stockage et la transmission.
  • 7. III.4 Compression du Son 1.Objectif de la compression  Dans certains contextes, ceci peut représenter un problème comme par exemple dans le cas où on désire mémoriser une grande quantité de morceaux ou alors dans le cas où on accède à un morceau mémorisé sur un ordinateur en utilisant un emplacement à distance.  Dans le premier cas, plus grande est la quantité des données qu'on doit mémoriser, plus grande sera la dimension du support utilisé, ce qui sera naturellement plus onéreux. Dans le deuxième cas, le transfert de données sur un réseau se produit à une vitesse relativement réduite et le transfert demanderait beaucoup de temps pour être effectué, sans compter que les ressources du réseau en seraient visiblement alourdies. C'est pour ces raisons que l'on a souvent recours à une compression des données composant le signal sonore numérique.
  • 8. III.4 Compression du Son 2. Compression sans perte  Ce type de compression est Non destructif : le signal restitué est exactement identique au signal d'origine. La numérisation du signal telle qu'elle a été décrite précédemment introduit peu de perte, si ce n'est les défauts produits par des caractéristiques de numérisation insuffisants.  Un exemple de ce type de compression est donné avec la méthode DPCM (Differential Pulse Code Modulation). Par rapport à la numérisation de type PCM décrite précédemment, au lieu de coder intégralement chacun des échantillons numériques (sur 256 niveaux par exemple avec un échantillonnage sur 8 bits) on ne code que la différence entre deux échantillons successifs plutôt que le valeur elle même. Excepté lorsque les variations de niveaux sont importantes, le codage de la différence va nécessiter un nombre de bits beaucoup moins important.
  • 9. III.4 Compression du Son 2. Compression sans perte 200 193 203 194 195 78 81 75 205 198 208 200 -7 +3 -6 -5 78 +3 -3 205 -7 +3 Au lieu de représenter toutes les valeurs Sur 8 bits [0,256] La première valeur est représentée sur un octet ensuite toutes valeurs suivantes par différence sur 3 bits signés (soit 4 bits) ce qui autorise un écart maximum +/-7, si l’écart est trop grand on revient vers l’encodage de la valeur référence. de 1100 1000 0111 1011 0110 0101 01001110 1011 0011 11001101 0111 1011
  • 10. III.4. Compression du Son 3. Principe de la compression avec pertes Les codecs de compression audio fonctionnent selon divers modes qui s’appuient tous sur des études de psychoacoustique de l’oreille humaine. Il est en effet indispensable de comprendre le fonctionnement de notre système auditif pour pouvoir développer des techniques audionumériques. Ces connaissances permettent de développer un modèle de représentation du phénomène audio. Dans le cas du signal sonore, les caractéristiques à exploiter pour la compression sont différentes de ceux de l’imagerie. La grande partie des algorithmes de compression du signal sonore se basent sur le principe du masquage, autrement dit « sur le fait que si une certaine fréquence du signal en question a une ampleur suffisamment élevée, elle aura pour effet de masquer les fréquences voisines si celles-ci ont une ampleur réduite ».
  • 11. III.4 Compression du Son 3.Principe de la compression avec pertes  Les algorithmes les plus connus qui opèrent selon les critères qu'on vient de décrire sont ATRAC et MP3 largement utilisés pour le transfert des fichiers audio. Dans le second, la compression est réalisée en utilisant un algorithme appelé MPEG1 Layer III qui opère en se servant du principe du masquage. Il permet d'atteindre des rapports de compression de l'ordre de 12:1.  MPEG est l'acronyme de Moving Picture Expert Group. Il s'agit d'un groupe de travail qui opère sous la direction de l'ISO (International Standard Organization) et de l'IEC (International Electro-Technical Commission).  A ne pas confondre l'MP3 (MPEG 1 Layer III) avec l'MPEG 3 qui est un système de compression du signal vidéo.
  • 12. III.4 Compression du Son 3.1 - Phénomène de masquage : a)- Courbe de sensibilité : La compression audio repose complètement sur des études psycho-acoustiques et la connaissance du système auditif humain. Tout d’abord, les principes de compression vont tenir compte de la courbe de sensibilité de l’oreille humaine en fonction de la fréquence. L’étude psycho-acoustique fait apparaître une bande critique à l’intérieur de laquelle un son devient audible. En pratique un codeur audio utilise des modèles psychoacoustiques pour déterminer les composantes inaudibles du signal, ce qui revient à éliminer ce que nous n’entendons pas. La difficulté de cette opération provient du fait que cette largeur de bande n’est pas constante. Cette courbe représente le seuil de sensibilité en fonction de la fréquence : des composantes fréquentielles du signal audio qui auraient des énergies inférieures à ce seuil ne sont pas utiles à transmettre puisque inaudibles.
  • 13. III.4 Compression du Son 3.1 - Phénomène de masquage :
  • 14. III.4 Compression du Son 3.1 - Phénomène de masquage : b) - Masquage Fréquentiel et temporel :  Nous avons vu que le fonctionnement mécanique de l’oreille est modifié par l’intensité du son qui arrive sur le tympan. On comprend donc que la perception d’un son de faible intensité soit modifiée par la présence ou l’absence d’un autre son plus intense. Ce phénomène de masquage qui se manifeste •dans une plage de fréquence autour du son intense (masquage fréquentiel) •pendant la durée du son intense et même un peu plus ( masquage temporel ).  Ce phénomène de masquage est tellement courant qu’on n’y prête plus guère attention . Par exemple, le passage d’une voiture nous empêche momentanément d’entendre le gazouillis des oiseaux.
  • 15. III.4 Compression du Son 3.1-Phénomène de masquage :  Masquage fréquentiel : Un son d’énergie élevé (par exemple une sinusoïde pure à 1kHz) produit une zone de masquage s’étendant légèrement en dessous et surtout au dessus de cette fréquence. Les sons d’énergie plus faibles à l’intérieur de cette zone de masquage sont inaudibles. Les zones de masquage sont plus étendues pour les fréquences élevées.
  • 16. III.4 Compression du Son 3.1- Phénomène de masquage :
  • 17. III.4 Compression du Son 3.1 - Phénomène de masquage :
  • 18. III.4. Compression du Son 3.1-Phénomène de masquage : Masquage temporel : En présence d’un son d’énergie élevée, il faut un certain délai (environ 100 ms) à l’oreille pour entendre à nouveau des sons plus faibles. Mais le masquage se produit également avant ! En effet, le système auditif présente une certaine inertie (lenteur) (2 à 5 ms pour détecter un changement de 40 dB) qui fait que seuls les sons ayant une certaine durée sont audibles. Ils peuvent donc être masqués par un signal ultérieur.
  • 19. III.4. Compression du Son 3.1- Phénomène de masquage Signal à comprimer Signal comprimé  La première figure montre un signal à diverses fréquences et le cheminement du seuil d'écoute de l'oreille, en correspondance des fréquences à ampleur plus élevée:  La seconde figure montre le résultat de la compression obtenue en éliminant les fréquences à ampleur limitée voisines aux fréquences à ampleur élevée. Comme on peut le voir, les informations à mémoriser ont visiblement diminué.
  • 20. III.4. Compression du Son 3.1- Phénomène de masquage  S(t) = A1 sin (2 f1 t+1) + A2 sin (2 f2 t+2) +.. +A3 sin (2 f3 rt+3 r). +A11 sin (2 f11 t+11) + A12 sin (2 f12 t+12) +.. +A32 r sin (2 f32 rt+32 ). Après masquage  S(t) = A1 sin (2 f1 t+1) + A2 sin (2 f2 t+2) +.. +A3 sin (2 f3 rt+3 r). +A11 sin (2 f11 t+11) + A12 sin (2 f12 t+12) +.. +A32 r sin (2 f32 rt+32 ). Dynamique large nécessite bcp de bits pour sa quantification. Dynamique faible nécessite moins de bits pour sa quantification.
  • 21. III.4 Compression du Son 3.2- Joint Stereo : Une autre technique issue du modèle psychoacoustique consiste à enregistrer certaines fréquences en mono. Dans beaucoup de chaînes hi-fi, il y a un boomer unique (qui produit les basses fréquences i.e, les sons graves). Cependant on n'a pas l'impression que le son vient de ce boomer mais plutôt des haut-parleurs satellites. Notre oreille est en effet incapable, dans les basses fréquences, de localiser l'origine des sons. Le format MP3 par exemple prévoit d'exploiter cette faiblesse en recodant certains passages en monophonie et en leur associant des informations qui permettent de reconstituer une stéréo simplifiée lors du décodage. C'est-à-dire que certaines fréquences sont enregistrées en mono mais elles sont accompagnées d'informations complémentaires afin de restituer un minimum d'effet spatial.
  • 22. III.4 Compression du Son 3.3- Reserve Bytes : Souvent, certains passages d'une musique peuvent être encodés différemment sans altérer la qualité. Le codage basé sur l’effet de masque tient compte des courbe de masquage en procédant à une allocation dynamique des bits de l’échantillonnage en fonction de la fréquence. Cette technique permet d’adapter localement l’échantillonnage tout en minimisant le bruit de quantification. Le codeur s’appuie sur une bibliothèque (base de données) comprenant des schémas de quantification adaptés au contenu. Par exemple, le modèle 1 de la norme ISO-MPEG-AUDIO, qui permet un rapport de compression de l'ordre de 6, procède par une mesure à intervalles réguliers (24 ms).
  • 23. III.4. Compression du Son 3.3- Reserve Bytes :  Le spectre obtenu permet de définir une courbe de masquage pour chacune des mesures et, après synthèse de toutes les courbes, on obtient une courbe globale indiquant pour chaque fréquence la quantité de bruit de quantification maximale inaudible.  C’est ce type de codage qui est mis en oeuvre dans le format miniDisk, en téléphonie mobile, en radio numérique, dans les formats MPEG-audio etc… On parle de quantification dynamique : DBR (dynamique bit rate) ou constante CBR.
  • 24. III.4. Compression du Son 3.4- Codage de Huffman :  Cette technique de codage intervient après la compression en créant des blocs d’information de longueur variable qui, par tables de correspondance permet de minimiser les redondances.  Lorsque les sons sont « purs » l'algorithme Huffman est très efficace car le son digitalisé contient de nombreux sons redondants. Ce type d'encodage permet de gagner en moyenne un peu moins de 20% d'espace.
  • 25. III.5. Compression MPEG AUDIO  Il existe 3 modes de compression, ce sont les Layers I, II, et III exigeant plus ou moins de temps de calcul. Pour chaque mode, le débit de données est fixé (fréquence échantillonnage et bruit de quantification). Le choix d'un très bas débit entraîne inévitablement une perte de qualité du signal original, en particulier dans la diminution de la bande passante du signal restitué.  La structure même des données permet aussi, à la lecture, d'utiliser une bande passante restreinte ou de travailler en mono, ceci afin de permettre à une machine moins puissante de toujours réaliser un décodage en temps réel mais à qualité amoindrie.  Les 3 types de codecs sont compatibles sur le plan hiérarchique : un décodeur de niveau 3 décodera les layers 1, 2 ou 3 mais un décodeur prévu pour le layer 2 n'acceptera de décoder que les layers 1 et 2. La complexité des codecs et les performances croissent avec chacun des layers : pour un débit donné, la qualité de la restitution sera meilleure avec un layer 3 qu'avec un layer 1 mais le codeur du layer 3 sera plus complexe.
  • 26. III.5. Compression MPEG AUDIO  Layer I est le plus simple qui vise une utilisation domestique. Il utilise un filtrage à 32 sous-bandes de même largeur. Le débit varie de 32 Kbps à 448 Kbps. En fonction de la complexité de l'encodeur, une haute qualité audio (proche du CD), implique un débit entre 256 et 384 Kbps pour un programme stéréo. Layer I est notamment utilisé dans le système de cassette numérique DCC (Philips).  Layer II permet une compression plus élevée que Layer I et se destine aussi bien aux domaines audio domestique que professionnel, comme l'émission radio et télévision et les télécommunications. Le débit varie de 32 à 192 Kbps pour la mono, et 64 à 384 Kbps pour la stéréo. En fonction de la complexité de l'encodeur, une haute qualité audio (CD) implique un débit entre 192 et 256 Kbps pour un programme stéréo. La complexité du décodeur est d'environ 25 % plus haute que pour un décodeur Layer I.  Layer III ajoute des filtres hybrides, et un codage de type Huffman. C’est le mode qui offre le plus de compression. Layer III étend les applications du MPEG dans les télécommunications à bande étroite ou bien à certains domaines spécialisés de l'audio professionnelle. Il a été banalisé par l’usage des fichiers MP3.
  • 27. III.5. Compression MPEG AUDIO Débit piste: = (largeur de bande passante × 2) × NbbitsQuant = Freq echant × NbbitsQuant
  • 28. III.5. Compression MPEG AUDIO Codage en sous-bandes : Pour profiter des phénomènes de masquage, le signal d'entrée est filtré dans le domaine fréquentiel en 32 bandes de fréquences, appelées sous- bandes (subbands). Rappelons que le masquage ne concerne que les fréquences voisines (masquage fréquentiel), c’est-à-dire appartenant à une même sous bande et se déroulant durant un laps de temps très court. S(t) = A11 sin (2 f11 t+11) + A12 sin (2 f12 t+12) +.. +A1r sin (2 f1rt+1r). + A21 sin (2 f21 t+21) + A22 sin (2 f22 t+22) +.. +A2r sin (2 f2rt+2r). … + A32 1 sin (2 f32 1 t+32 1 ) + A32 2 sin (2 f32 2 t+32 2) +.. +A32 r sin (2 f32 rt+32 r).
  • 29. III.5. Compression MPEG AUDIO Codage en sous-bandes : Bande 1 Bande 2 Bande 31 Bande 32 0 0 0 0
  • 30. III.5. Compression MPEG AUDIO Codage en sous-bandes : En MPEG Layer I, le signal est découpé selon l’axe des temps en des blocs d'égale longueur de 384 échantillons (soit 8 ms de signal à 48 kHz) ce qui correspond dans le domaine fréquentiel à 12 échantillons dans chacune des 32 bandes. Le signal S est filtré en 32 signaux. S1 =A11 sin (2 f11 t+11) + A12 sin (2 f12 t+12) +.. +A1r sin (2 f1rt+1r). S2 = A21 sin (2 f21 t+21) + A22 sin (2 f22 t+22) +.. +A2r sin (2 f2rt+2r). …. S32= A32 1 sin (2 f32 1 t+32 1 ) + A32 2 sin (2 f32 2 t+32 2) +.. +A32 r sin (2 f32 rt+32 r).
  • 31. III.5. Compression MPEG AUDIO Découpage en blocs :  D’après le théorème de Shanon la fréquence d’échantillonnage de chaque sous bande est égale à deux fois de la largeur de la bande passante : ce qui revient à échantillonner les 8ms avec 48KHZ /32 c’est à dire 12 échantillons par 8 ms.  Chaque signal dans une sous-bande est quantifié de manière telle que le bruit de quantification (quantisation noise) introduit par le codage ne dépasse pas la courbe de masquage pour cette sous- bande. Le spectre du bruit de quantification est donc dynamiquement adapté au spectre du signal.
  • 32. III.5. Compression MPEG AUDIO  Les paramètres concernant les quantifieurs (quantisers) utilisés dans chaque sous-bande sont transmises avec les échantillons de la sous-bande codée. Le décodeur peut ainsi décoder le flux de bits sans connaître la manière dont l'encodeur a déterminé ces paramètres. Ceci permet l'utilisation d'encodeurs de différentes qualités et différentes complexités, ainsi que de proposer de futures améliorations aux encodeurs. Encodeurs et décodeurs ne sont donc pas de la même complexité, on parle de systèmes asymétriques.  Une analyse permet de réaliser le modèle de masquage permettant de déterminer le degré de masquage (seuil de masquage), que l'on peut attendre dans chaque bande. Dans chaque bande, plus le masquage est agissant, moins l'échantillon doit être précis.
  • 33. III.5. Compression MPEG AUDIO  La précision des échantillons est alors réduite par re- quantification en vue de diminuer la longueur des mots. Cette re-quantification est constante pour tous les mots d’une même bande, mais les différentes bandes peuvent utiliser des longueurs de mot différentes. La longueur de mots doit être transmise comme un code d'affectation de bits afin de permettre au décodeur de dé-sérialiser convenablement le flux de bits.  A l'intérieur de chaque bande, une fois le masquage opéré, le niveau du signal est amplifié par multiplication jusqu'à sa valeur maximale. Le gain nécessaire est constant pour la durée du bloc et un seul facteur d'échelle est transmis avec chaque bloc, pour chaque bande, de façon à pouvoir renverser le processus au décodage.
  • 34. III.5. Compression MPEG AUDIO Le modèle que l'on utilise dans le codage en sous-bande se réfèrent à la manière dont une personne perçoit les sons. Le modèle utilisé lors du codage détermine quelles sont les fréquences sensées masquer d'autres fréquences. A la lecture, le décodeur retrouvera les paramètres concernant le modèle utilisé dans le flux du signal même. Plusieurs modèles existent (Musicam, AT&T), qui sont plus ou moins adaptés au type de données audio à compresser.
  • 35. III.5. Compression MPEG AUDIO Les 384 échantillons (12 ×32 ) du bloc temporel forment une trame comprenant un mot de synchronisation et un en-ête, suivis de 32 codes d'affectation de bits de 4 bits chacun. Ces codes décrivent la longueur des mots des échantillons dans chaque sous-bande. Viennent ensuite les 32 facteurs d'échelle utilisés par la compression dans chaque bande, indispensables pour rétablir le bon niveau au décodage. Les facteurs d'échelle sont suivis des données audio de chaque bande.
  • 36. III.5. Compression MPEG AUDIO Le mot de synchronisation est détecté par le générateur de temps qui dé-sérialise les bits d'affectation et les données de facteur d'échelle. L'affectation de bits permet ensuite la dé- sérialisation des échantillons à longueurs variables. La re- quantification inverse et la multiplication par l'inverse du facteur d’échelle sont appliquées de façon à ramener le niveau de chaque bande à sa bonne valeur. Les 32 bandes sont ensuite rassemblées dans un filtre de recombinaison pour rétablir la sortie audio.
  • 37. III.5. Compression MPEG AUDIO  En Layer I, l'analyse du spectre n'est pas très précise dans la mesure où cette analyse utilise simplement les 32 sous-bandes du codage. Cette figure montre que, lorsque le filtre de séparation de bandes est utilisé pour créer le modèle de masquage, l'analyse de spectre n'est pas très précise dès que l'énergie est répartie dans la totalité d’une bande. Une analyse spectrale plus précise autoriserait un facteur de compression plus élevé.  Dans la layer II, pour améliorer la précision de la résolution de fréquence, il faut augmenter l'exécution temporelle de la transformée, ce qui est effectué en portant la taille du bloc à 1152 échantillons ce qui correspond à 36 échantillons pour chaque bande.
  • 38. III.5. Compression MPEG AUDIO MPEG II
  • 39. III.5. Compression MPEG AUDIO La compression MPEG Audio III Le MP3 (« MPEG-1 Audio layer 3 ») est un format de compression de données audio par destruction de données, développé par l'organisation de standardisation internationale (ISO - International Standard Organization). Ce format permet de compresser à un taux de 1:12 les formats audio habituels. Il permet de faire tenir l'équivalent en fichiers de douze albums de musique sur un seul CD-ROM. De plus, le format MP3 n'altère que faiblement le son pour l'oreille humaine. Comme pour les couches 1 et 2 du MPEG, la couche 3 utilise de son côté un codage par séparation de bandes. Pour obtenir un facteur de compression élevé, la technique du joint stéréo et appliquée et un recodage des coefficients à longueur variable est effectué selon l’algorithme de Huffman. Cette technique attribue les mots les plus courts aux valeurs de code les plus fréquentes. Ce niveau complexe de codage n'est en réalité utilisé que lorsque les facteurs de compression les plus élevés sont nécessaires. Il comporte quelques points communs avec la couche 2.
  • 40. III.5. Compression MPEG AUDIO La compression MPEG Audio III Ainsi, une minute d'un CD-audio (à une fréquence de 44.1 kHz, 16 bits, stéréo) ne prendra qu'un seul 1 Mo alors qu’elle nécessitait 10 MO en non compressé. Une chanson fait donc en moyenne 3 ou 4 Mo, ce qui rend son téléchargement possible. Le décodage d'un fichier MP3 est relativement peu coûteux en utilisation du processeur, tandis que l'encodage est plus gourmand.
  • 41. III.5. Compression MPEG AUDIO Applicabilité de la compression  Il faut néanmoins se rappeler que la conversion au numérique du signal sonore analogique introduit une dégradation (due à l'opération de quantification). Les 16 bit de quantification du format standard du Compact Disc sont à peine suffisants pour arriver è une qualité acceptable dans le domaine professionnel. Donc la possibilité d'introduire une compression de type lossy sur les données n'est même pas à tenir en compte.  Dans d'autres contextes, où la qualité ne représente pas un facteur fondamental, il se trouve que la meilleure solution est la compression. Comme par exemple sur Internet ou sur les lecteurs MP3 portables qui permettent de mémoriser des centaines de morceaux dans une mémoire RAM (sur un CD il est possible de mémoriser 74 minutes de musique pour une moyenne de 10 à 12 morceaux; sur le même support, on peut mémoriser une centaine de morceaux en forme de données de type MP3).
  • 42. III.5. Compression MPEG AUDIO Exercice 1: 1. Soit une séquence audio numérisée de 4 minutes, estimez son poids dans les cas d’une numérisation avec une qualité DAT. 2. Si on devait compresser la séquence précédente en MP3, estimez la durée de compression si le traitement d’un bloc nécessite 10-7 sec. 3. On voudrait compresser la séquence de la Q1 pour la diffuser en audio en streaming, quel devrait être le rapport de compression si le débit de transmission est 1 mega bit/sec et que les données de services (entêtes etc) occupent 30 % du flux global transmis. Réponse : 1) Qualité DAT : Freq = 48000 HZ N=2 octets ; stéreo ( 2 pistes). Poids= FreEch *N* Durée*Nbrpistes. Poids = 48000 * 240* 2*2 = 46 080 000 octets.
  • 43. III.5. Compression MPEG AUDIO Réponse: Q2) Si on devait compresser la séquence précédente en MP3, estimez la durée de compression si le traitement d’un bloc nécessite 10-7 sec. Qualité DAT : FreqEc = 48000 HZ N=2 octet stéreo En MP3, un bloc contient 36 échantillons. Nbr blocs = nbr échan Total /36 nbr échan total = FreqEc * Durée seq* Nb pistes =23 040 000 ech 23040000 /36= 640 000 blocs. Duré de compression = Nbr de blocs *10-7 sec=0.64 sec.
  • 44. III.5. Compression MPEG AUDIO Q3) On voudrait compresser la séquence de la Q1 pour la diffuser en audio en streaming, quel devrait être le rapport de compression si le débit de transmission est 1 mega bit/sec et que les données de services (entêtes etc) occupent 30 % du flux global transmis. Réponse: Poids non compessé = 46 080 000 octets. Débit = poids des données compressées /durée 1*1024*1024 = Poids données Streaming /240 sec  Poids données Streaming = 240 Mbit. Poids données Streaming = Poids données utiles (son) + Poids données Service. Poids données Service = 30* Poids données Streaming /100. Poids données utiles (son) =168 mgbits =21Mo. Rapport de compression =46 /21= 2.2 (au minimum)
  • 45. III.6. Les Formats AUDIO numériques Le format d'un fichier audio prend en considération un ensemble de facteurs liés 1. à la numérisation de la source :  Fréquence d'échantillonnage du signal sonore analogique  Codage de chaque échantillon (1, 2 ou 3 octets soit : 8, 16 ou 24 bits)  Nombre de canaux ("pistes") utilisés (son mono = 1, stéréo = 2, multipiste = 3 et plus).  L'utilisation de plusieurs pistes audio permet de restituer le son sur un système comportant plusieurs enceintes (une par piste). Une piste est un canal d'enregistrement réservé à un son, pour une durée déterminée, avant le mixage.  Plus on augmente la fréquence d'échantillonnage, la valeur de codage ou/et le nombre de canaux, plus la qualité sera bonne ... et le poids du fichier audio lourd.  Poids du fichier (kilooctets/seconde) = Fréquence x Codage x Nb de pistes
  • 46. III.6. Les Formats AUDIO numériques 2. à la compression utilisée (codec): Pour réduire la taille du fichier (pour permettre son stockage et faciliter sa transmission), les données sont, en effet, généralement compressées. Mais, plus le fichier est compressé, moins la qualité sonore sera bonne. La compression est indispensable si la séquence sonore doit être écoutée en temps réel, pendant son téléchargement. Dans ce cas, les taux de compression peuvent être élevés. Ils sont parfois différenciés selon le débit de la liaison. 3. à l'organisation des octets dans le fichier : Certains formats sont adaptés à un usage local sur l'ordinateur, d'autres au streaming.
  • 47. III.6. Les Formats AUDIO numériques Les formats audio sont en général du type auto-décrit, c’est à dire que le fichier contient un en-tête qui décrit les particularités du codage (échantillonnage, nombre de canaux, type de compression, etc.). Le choix du format est lié à l’utilisation qui sera faite du fichier (transfert sur lecteur MP3, montage audio "musical", postproduction vidéo, streaming, podcasting,...). Les formats sont nombreux et pour la plus grande partie liés à une utilisation spécifique, respectivement à un support dédié:
  • 48. III.6. Les Formats AUDIO numériques Formats de fichiers non compressés : CDA (Compact Disc Audio) Extension : .cda Format des pistes des CD audio. PCM (Pulse Code Modulation) Extension : .pcm Codec audio non compressé utilisé pour les disques compacts audio (CD), pour l'enregistrement sur bandes DAT, les disques optiques à haute capacité, ainsi que pour les fichiers WAV standard. Il Peut contenir jusqu'à 8 canaux et supporte les résolutions : 16, 20 ou 24 bits. WAV (ou WAVE) Extension : .wav est le format natif des systèmes Windows. Format propriétaire et ouvert, mono ou stéréo, mis au point par Microsoft et IBM. Fichier conteneur le plus courant pour l'audio non compressé sur les plates-formes de Microsoft, mais il est également courant sur les systèmes GNU/Linux aussi. Il est le codage le plus couramment utilisé pour la compression, car il confère au format un encodage et un décodage immédiats avec une qualité sonore excellente. Cependant la taille des fichiers est très importante. Le Fichier est limité à 2 Go et est Compatible avec tous les lecteurs audio.
  • 49. III.6. Les Formats AUDIO numériques Formats non compressés : AIFF (Audio Interchange File) Extension : .aif ou .aiff est à l’origine développé par Apple, ce format permet une grande variété de codage de fréquences et résolutions d’échantillonnage. Utilisé pour le mixage et l’encodage des données destinées au CD audio (44100 Hz, 16 bit, stéréo ). Fichier conteneur. propriétaire et ouvert. Equivalent du format Wav dans le monde Macintosh. Les fichiers sont très volumineux. Le format AIFF-C (ou AIFC) supporte une compression. •Résolutions possibles : 8, 16, 20, 24 et 32 bits. •Peut être lu avec les lecteurs audio : Quicktime, iTunes, Winamp, Audacity. µLaw (.au) est le format audio UNIX, il est codé sur 8 bits, la qualité audio est donc réduite.
  • 50. III.6. Les Formats AUDIO numériques Les formats compressés Ce sont en principe des fichiers de type AIF, WAV ou AU auquel on a appliqué un algorithme de compression. Les principales normes de codecs sont:  Real Audio Extension : .ra (real audio), .rv (real video), .rm (real media), .ram (real audio metadata) Famille de codecs audio propriétaires (RealNetworks). Très ancien. Il permet de diffuser de la musique sur internet en utilisant la technique du streaming. • Les fichiers RealAudio sont compressés selon différents formats. • Lisible avec RealPlayer.  MACE : très rapide, elle ne demande pas beaucoup de ressources processeur. Facteurs de compression de 3:1 ou 6:1, la qualité réduite, seuls les fichiers 8 bits sont supportés. L’environnement Macintosh la propose à l’enregistrement de tout fichier faisant appel au format Quicktime. Utile uniquement pour sons système.  IMA: solution intermédiaire entre qualité et espace, le ratio de compression est de 4:1 et l’encodage est possible sur 8 ou 16 bits.
  • 51. III.6. Les Formats AUDIO numériques Les formats compressés  MP3 (MPEG-1 Layer 3) Extension : .mp3 Cette norme garantit une bonne qualité et permet des taux de compression importants allant jusque à un facteur de 12:1. (format très répandu sur le web, Ipod, Mini-Disc). Le format fichier est propriétaire et ouvert et fait l'objet d'une licence. Il représente le Codec audio le plus répandu. La couche (layer) 3 de la norme MPEG-1 (compression destructive) est dédiée à des applications nécessitant des débits faibles. MP3 est devenu ainsi idéal pour la diffusion libre sur internet. Un encodage de 128 ou 192 kilobits par seconde (kbit/s) permet de bénéficier d'une qualité audio acceptable pour un morceau de musique. Compatible avec presque tous les logiciels existants. Il supporte 2 canaux maximum en stéréo et le stockage et la gestion des métadonnées. Elles permettent de contenir des informations comme le nom de l'artiste, le titre, l'auteur-compositeur. Il ne supporte pas la gestion des droits d'accès (DRM) et le streaming. Le codec MP3Pro est une évolution de mp3 et présente un meilleur ratio qualité/poids.
  • 52. III.6. Les Formats AUDIO numériques Les formats compressés  OGG Vorbis Extension : .ogg Format ouvert et libre (concurrent des formats propriétaires MP3, WMA et AAC). OGG est un fichier conteneur qui peut contenir des pistes sonores (codec Vorbis), audio sans perte (codec FLAC), audio parlées (codec Speex) ou/et vidéo (codec Theora). OGG Vorbis contient des pistes sonores au format Vorbis. Vorbis est un codec audio ouvert et libre. Il utilise une compression destructive, et un encodage VBR. Il est plus performant en terme de qualité et taux de compression que le format MP3 car il offre une bonne compression jumelée avec une très bonne qualité sonore. Sa qualité est estimé sur une échelle de 1 à 10. Ce format est sans doute le meilleur dans les très hauts niveaux d’encodage (de q5 à q10). Une équivalence avec le MP3 peut être approximativement donnée : Ogg q5  Mp3 160 Kbps Ogg q7  Mp3 224 Kbps Ogg q9  Mp3 320 Kbps , Ogg q10: Mp3 500 Kbps La structure en paquet le rend bien adapté à une utilisation en streaming sur l'internet. Il Permet un enregistrement polyphonique (jusqu'à 255 canaux son). Peut être lu avec les lecteurs audio : MPlayer, Winamp, VLC (VideoLAN Client), Windows Media Player, Audacious, Whamb, etc. Cependant, il est non pris en charge par les baladeurs numériques iPod de chez Apple.
  • 53. III.6. Les Formats AUDIO numériques Les formats compressés  AAC (Advanced Audio Coding) Extension : .aac, .mp4, .m4a Format propriétaire et fermé ; il est le Codec concurrent direct du WMA. Il représente l’un des formats successeurs au MP3. Utilise une compression audio avec perte de données (extension du MPEG-2 et amélioré en MPEG-4). Format des fichiers audio supportés par Apple pour son baladeur numérique iPod et son logiciel iTunes. Possibilité de gérer des sons sur 48 canaux différents. Il supporte la gestion des droits d'accès (DRM) et la fonction « Gapless », qui permet ne plus avoir de coupure entre 2 morceaux. Peut être lu avec les lecteurs audio : iTunes, Winamp.  FLAC (Free Lossless Audio Codec) Extension : .flac ou .fla Format ouvert et libre. Il utilise un Codec de compression audio non destructive ("lossless" : sans perte acoustique). Compression faible par rapport au MP3. Ce format est utilisé pour l'archivage ou l'édition. Il utilise un format VBR. Il autorise le Streaming (la décompression se faisant par blocs). Il supporte la Gestion des métadonnées et est caractérisé par une grande rapidité de décodage, mais moins performant à l'encodage. Il peut être lu avec les lecteurs (après ajout d'un plug-in) : Adobe Audition, Audacity, Winamp, XMMS, etc. Il offre les résolutions de 4 à 32 bits.
  • 54. III.6. Les Formats AUDIO numériques Les formats compressés  Monkey's Audio Extension : .ape Format fermé. Il utilise un Codec de compression audio sans perte. Taux de compression légèrement meilleur que celui de FLAC : division par deux de la taille des fichiers audio.  MPC (Musepack) Extension : .mpc Format ouvert et libre. Il utilise un Codec de compression audio destructive, basé sur le format MPEG-2. Grande qualité sonore bien supérieure au MP3 ou à l'Ogg. Il supporte aussi, comme le format AAC, le « GapLess », qui permet de ne pas faire de coupure entre 2 morceaux. Codage et encodage très rapides.  WMA (Windows Media Audio) Extension : .wma Format propriétaire et fermé de compression audio destructive développé par Microsoft. Uniquement compatible avec Microsoft. Alternative au MP3 : plus souple mais moins répandu. A la fois codec et fichier conteneur. Différentes déclinaisons : compressé, non compressé, avec ou sans DRM (gestion des droits d'accès ). Il supporte le streaming et bien adapté à la diffusion par internet (si compressé). Il permet 2 canaux maximum en stéréo. Format CBR ou VBR. Peut être lu avec les lecteurs audio : Media Player, Winamp.
  • 55. III.6. Les Formats AUDIO numériques Formats Hybrides  QUICKTIME : méta-format Apple qui permet d’encapsuler, de compresser et d’interfacer l’accès à divers types de média permet de lire et de traiter les formats les plus courants : AIFF, WAV, AU, MP3, etc.…  MOD (.mod) ce format est proche du MIDI dans son principe à la différence près qu’il inclus les échantillons sonores utilisés dans la partition. Utilisé dans l’environnement "Reason"  Rich music Format (.rmf), développé par Headspace pour la diffusion web, ce format permet d’encapsuler les échantillons audio, les données MIDI et les données d’arrangement à l’intérieur d’un seul fichier. La restitution est faite par un plug-in.
  • 56. III.6. Les Formats AUDIO numériques Format Extension Type Accès Plateforme Usage Codec Conteneur Propriétaire Ouvert Libre PCM .pcm X X X X Mac Windows Linux Audio non compressé. WAV .wav - X X X - Windows Linux Couramment le plus utilisé pour l'audio non compressé (PCM). AIFF .aif, .aiff X X X X - Mac Linux Audio non compressé (PCM). RealAudio .ra, .ram X - X - - Mac Windows Linux Streaming MP3 .mp3 X - X X - Mac Windows Linux Idéal pour la diffusion libre sur internet WMA .wma X X X - - Windows Linux Adapté à la diffusion par internet. Compression avec ou sans pertes.
  • 57. III.6. Les Formats AUDIO numériques Format Extension Type Accès Plateforme Usage Codec Conteneur Propriétaire Ouvert Libre AAC .aac, .mp4, .m4a X - X - - Mac Linux Un des formats successeurs au MP3. OGG Vorbis .ogg X - - X X Mac Windows Linux Alternative à MP3, WMA et AAC. Très bonne qualité sonore. MPC .mpc, .mp+ X - - X X Mac Windows Linux Qualité sonore bien supérieure au Mp3 ou encore à l’Ogg. FLAC .flac, .fla X. - - X X Mac Windows Linux Compression sans pertes. Monkey'Audio .ape X. - X - - Mac Windows Linux Compression sans pertes.
  • 58. III.6. Les Formats AUDIO numériques Le format MIDI  Le terme MIDI est l'acronyme de Musical Instrument Digital Interface, et c'est un protocole de communication conçu en 1983, qui permet de piloter un dispositif musical à travers un appareil contrôleur. A l'aide de ce protocole de contrôler en même temps une série d'appareils de manière synchronisée.  Le MIDI (Musical Instruments Digital Interface):n’est pas à proprement parler un format audio mais un système complet d’interface et d’édition numérique. Un document MIDI contient une description d’un morceau de musique sous la forme d’une partition. Celle-ci inclue des indications sur la hauteur, la durée, la modulation, etc… ainsi que l’attribution d’un instrument.
  • 59. III.6. Les Formats AUDIO numériques Le format MIDI  C'est un protocole de communication pour l'échange de données musicales entre instruments de musique électronique. Ces instruments peuvent être des synthétiseurs, des ordinateurs, des contrôleurs d'expressions comme le saxophone midi, etc... Ces instruments sont raccordés entre eux par une prise DIN à 5 broches.  Le document midi est un format texte, il est donc extrêmement compact. Les informations qu’il contient permettent de synthétiser la musique sur tout instrument conforme à cette norme: synthé, piano etc… ou en recourant à un synthétiseur du type quick-time. Le format midi offre une alternative à la diffusion de musique. La qualité de reproduction du morceau est liée au synthétiseur utilisé. Un éditeur midi permet de travailler directement sur la partition musicale
  • 60. III.6. Les Formats AUDIO numériques  Introduisons le principe de fonctionnement en nous basant sur un clavier-synthétiseur pourvu d'une interface MIDI contrôlée par un ordinateur. L'ordinateur est doté d'un logiciel en mesure "d'enregistrer les impulsions issues du clavier-synthétiseur en mémorisant également les laps de temps de leur arrivée.  On peut donc exécuter un morceau musical sur le clavier- synthétiseur et "l'enregistrer" sur l'ordinateur. Il est important de comprendre que l'ordinateur n'enregistre pas en fait les sons issus du clavier-synthétiseur, mais des codes correspondants aux notes qui sont jouées ainsi que leur durée.
  • 61. III.6. Les Formats AUDIO numériques  Durant la phase de reproduction, l'ordinateur envoie au clavier-synthétiseur les codes qu'il a mémorisées précédemment et le clavier-synthétiseur les interprète exactement comme si un musicien avait effectivement joué à ce moment-là les notes correspondantes. Le protocole n'a pas subi de variations depuis sa création (même si en fait il a subi plusieurs extensions) et donc même de très vieux dispositifs sont en mesure de communiquer avec des dispositifs modernes.  De nos jours, les dispositifs sont souvent pilotés par les ordinateurs et par conséquent, la partie de protocole concernant la couche physique (câbles, connecteurs) a changé, passant au standard USB. Cependant, la partie applicative du protocole (celle concernant les messages) est restée invariable.
  • 62. III.6. Les Formats AUDIO numériques Exemple de branchement de plusieurs machines synchronisées par la norme MIDI
  • 63. III.7 Traitement du Son  Compresseur : processeur de signal (électronique ou logiciel) permettant de manipuler le niveau, la dynamique du signal audio. En général utilisé pour diminuer l'écart entre les sons forts et faibles, mais permet également bien d'autres possibilités.  Compresseur multibande : une variante du compresseur permettant de traiter la dynamique du signal sur plusieurs bandes de fréquences simultanément, ce qui permet par exemple de réduire le volume d'un son de basse sans affecter un son de flûte.
  • 64. III.7 Traitement du Son  Egaliseur : l'égaliseur permet de corriger une certaine gamme de fréquence en lui appliquant un gain ou une atténuation. Le choix et le nombre de bandes de fréquences ainsi que les réglages possibles déterminent le type d'égaliseur auquel on a affaire : égaliseur passe-bas ou passe-haut qui permet de filtrer les fréquences au-dessus ou en-dessous d'un fréquence donnée, égaliseur graphique qui permet de régler le gain d'un certain nombre de fréquences fixes, et égaliseur paramétrique, qui permet de choisir précisément la fréquence et l'étendue de la correction.  Echo ou Delay : Effet basé sur une simple répétition du son avec un retard réglable. Les versions évoluées de cet effet peuvent comporter des réglages supplémentaires tels que plusieurs réglages de retards différents, variation des retards dans l'espace stéréo, filtrage fréquentiels des retards, etc...
  • 65. III.7. Traitement du Son  Chorus : Effet temporel basé sur une réinjection d'une partie du signal d'origine retardée et traitée avec une léger désaccord de hauteur variable, de manière à faire apparaître le son plus « riche », plus ample.  Fader : Potentiomètre linéaire logarithmique utilisé en audio pour le contrôle de volume d'une piste audio. (Fade in ou Fade out)  Flanger : Le flanger est un effet temporel basé sur un réinjection d'une partie du signal d'origine avec une variation en fréquence, elle- même variant périodiquement à une fréquence très faible, généralement de quelques hertz.  Réverbération : La réverbération ou « reverb » est un effet cherchant à restituer l'ambiance acoustique d'un lieu plus ou moins grand, de la salle de bains à la salle de concert. Elle permet de donner de l'ampleur à un son. Elle peut être simulée dans les processeurs d'effets (électroniques ou logiciels) à partir d'une somme de très nombreux échos simples, ou enregistrée dans le lieu à l'aide de micros et de haut-parleurs. Généralement, une unité de réverbération possède de nombreux réglages permettant d'adapter l'effet aux souhaits de l'ingénieur du son.