Systèmes audio Fin 2 (1).ppsx

Email : Abdelli@hotmail.com
Site Web :
https://sites.google.com/site/abdelkrimabdelli/teaching
Page Facebook :
https://www.facebook.com/Syst%C3%A8mes-
Multim%C3%A9dia-Usthb-Fei-section-MIL-278158342199354

III.2 Numérisation du son
Exercice 1 :
Soit une séquence audio de 2 minutes, estimez le poids du
fichier dans les cas d’une numérisation avec :
 Une qualité téléphone.
 Une qualité CD audio.
Solution : 2 minutes = 120 secondes
Qualité téléphone :
Fréquence : 8000 Hz ; Quantification : 1 octet ; Mono
Poids fichier = 120× 8000 × 1 × 1= 960 000 octets
Qualité CD AUDIO :
Fréquence : 44 100 Hz ; Quantification : 2 octet ; Stereo
Poids fichier = 120 × 44 100 × 2 × 2= 21 168 000 octets

Exercice 2:
 Qu’appelle-t-on dynamique d’un signal sonore ?
 Soit une séquence audio de 4 minutes, estimez le poids du fichier
dans les cas d’une numérisation avec une qualité radio FM.
 Si l’on désire obtenir une dynamique de 144 DB quelle serait alors le
poids du fichier.
Solution : La dynamique d’un signal c’est la l’intervalle entre la
plus petite et la plus grande intensité (amplitude), enregistré
dans le signal.
Fréquence = 22 050 HZ ; N = 2 octet ; Pistes = 2 :
Poids= (60 × 4) × 22050 × 2 × 2 = 21 168 000 octets
Dynamique= 6 × N  N= 144 /6 = 24 bits =3 octets ;
Poids= (60 × 4) × 22050 × 3 × 2= 31 752 000 octets

Exercice 3:
 Soit une séquence audio de 5 minutes à diffuser online sur un
réseau, Quelle est la qualité de numérisation optimale que l’on
puisse appliquer si la vitesse maximal de transmission est
limitée à 64 kbit/s.
Solution :
Débit = 64 000 =fréquence échantillonnage × N × Nbre pistes.
= 8000 × 8 × 1
Cela correspond au paramètres de numérisation d’une Qualité
téléphone.

Exercice 4:
 On voudrait enregistrer une séquence audio de telle façon à
obtenir un fichier de taille égale à 480 000 octets, quelles
seraient les durées envisageables de cette séquence si la
dynamique est de 48 DB ?
Solution :
Poids fichier= 480 000 octets,
Dyn= 48 DB  N=8 bits ; 1 octet.
Qualité téléphone : 480 000 octets= 8000 × 1 ×1 × durée
 durée =60 secondes
Qualité Radio AM : 480 000 octets= 11 025 × 1 ×1× durée
 durée =43,5 secondes

III.4 Compression du Son
1. Objectif de la compression
 Nous avons pu voir que l'opération d'échantillonnage
effectuée avec des paramètres utilisés pour les CD (16
bit, 44.1KHz) produit 172.26 KO à la seconde, il s'ensuit
donc que quelques minutes de musique équivalent à
une quantité élevée de données.
 Le but d’une compression est d’optimiser les données,
de réduire le débit d’informations binaires, tout en
conservant une qualité sonore la plus élevée possible.
Dans le cas de l’audio numérique le flux de données est
considérable: une minute de données audio en qualité
CD (16 bits, 44.1kHz) représente env.
10 MB de données. Une compression de ces dernières
s’avère indispensable pour le stockage et la
transmission.

1.Objectif de la compression
 Dans certains contextes, ceci peut représenter un problème
comme par exemple dans le cas où on désire mémoriser une
grande quantité de morceaux ou alors dans le cas où on
accède à un morceau mémorisé sur un ordinateur en
utilisant un emplacement à distance.
 Dans le premier cas, plus grande est la quantité des données
qu'on doit mémoriser, plus grande sera la dimension du
support utilisé, ce qui sera naturellement plus onéreux.
Dans le deuxième cas, le transfert de données sur un réseau
se produit à une vitesse relativement réduite et le transfert
demanderait beaucoup de temps pour être effectué, sans
compter que les ressources du réseau en seraient
visiblement alourdies. C'est pour ces raisons que l'on a
souvent recours à une compression des données composant
le signal sonore numérique.

2. Compression sans perte
 Ce type de compression est Non destructif : le signal restitué
est exactement identique au signal d'origine. La numérisation
du signal telle qu'elle a été décrite précédemment introduit
peu de perte, si ce n'est les défauts produits par des
caractéristiques de numérisation insuffisants.
 Un exemple de ce type de compression est donné avec la
méthode DPCM (Differential Pulse Code Modulation). Par
rapport à la numérisation de type PCM décrite
précédemment, au lieu de coder intégralement chacun des
échantillons numériques (sur 256 niveaux par exemple avec un
échantillonnage sur 8 bits) on ne code que la différence entre
deux échantillons successifs plutôt que le valeur elle même.
Excepté lorsque les variations de niveaux sont importantes, le
codage de la différence va nécessiter un nombre de bits
beaucoup moins important.

2. Compression sans perte
200 193 203 194 195 78 81 75 205 198 208
200 -7 +3 -6 -5 78 +3 -3 205 -7 +3
Au lieu de représenter toutes les valeurs Sur 8 bits [0,256]
La première valeur est représentée sur un octet ensuite toutes valeurs
suivantes par différence sur 3 bits signés (soit 4 bits) ce qui autorise un
écart maximum +/-7, si l’écart est trop grand on revient vers l’encodage de
la valeur référence. de
1100 1000 0111 1011 0110 0101 01001110 1011 0011 11001101 0111 1011

III.4. Compression du Son
3. Principe de la compression avec pertes
Les codecs de compression audio fonctionnent selon divers
modes qui s’appuient tous sur des études de
psychoacoustique de l’oreille humaine. Il est en effet
indispensable de comprendre le fonctionnement de notre
système auditif pour pouvoir développer des techniques
audionumériques. Ces connaissances permettent de
développer un modèle de représentation du phénomène
audio.
Dans le cas du signal sonore, les caractéristiques à exploiter pour
la compression sont différentes de ceux de l’imagerie. La
grande partie des algorithmes de compression du signal
sonore se basent sur le principe du masquage, autrement dit
« sur le fait que si une certaine fréquence du signal en question
a une ampleur suffisamment élevée, elle aura pour effet de
masquer les fréquences voisines si celles-ci ont une ampleur
réduite ».

3.Principe de la compression avec pertes
 Les algorithmes les plus connus qui opèrent selon les critères
qu'on vient de décrire sont ATRAC et MP3 largement utilisés
pour le transfert des fichiers audio. Dans le second, la
compression est réalisée en utilisant un algorithme appelé
MPEG1 Layer III qui opère en se servant du principe du
masquage. Il permet d'atteindre des rapports de compression
de l'ordre de 12:1.
 MPEG est l'acronyme de Moving Picture Expert Group. Il s'agit
d'un groupe de travail qui opère sous la direction de l'ISO
(International Standard Organization) et de l'IEC
(International Electro-Technical Commission).
 A ne pas confondre l'MP3 (MPEG 1 Layer III) avec l'MPEG 3
qui est un système de compression du signal vidéo.

3.1 - Phénomène de masquage :
a)- Courbe de sensibilité : La compression audio repose
complètement sur des études psycho-acoustiques et la
connaissance du système auditif humain. Tout d’abord, les
principes de compression vont tenir compte de la courbe de
sensibilité de l’oreille humaine en fonction de la fréquence.
L’étude psycho-acoustique fait apparaître une bande critique à
l’intérieur de laquelle un son devient audible.
En pratique un codeur audio utilise des modèles
psychoacoustiques pour déterminer les composantes inaudibles
du signal, ce qui revient à éliminer ce que nous n’entendons pas.
La difficulté de cette opération provient du fait que cette largeur
de bande n’est pas constante.
Cette courbe représente le seuil de sensibilité en fonction de la
fréquence : des composantes fréquentielles du signal audio qui
auraient des énergies inférieures à ce seuil ne sont pas utiles à
transmettre puisque inaudibles.

b) - Masquage Fréquentiel et temporel :
 Nous avons vu que le fonctionnement mécanique de l’oreille
est modifié par l’intensité du son qui arrive sur le tympan. On
comprend donc que la perception d’un son de faible intensité
soit modifiée par la présence ou l’absence d’un autre son plus
intense. Ce phénomène de masquage qui se manifeste •dans
une plage de fréquence autour du son intense (masquage
fréquentiel) •pendant la durée du son intense et même un
peu plus ( masquage temporel ).
 Ce phénomène de masquage est tellement courant qu’on n’y
prête plus guère attention . Par exemple, le passage d’une
voiture nous empêche momentanément d’entendre le gazouillis
des oiseaux.

3.1-Phénomène de masquage :
 Masquage fréquentiel : Un son d’énergie élevé (par exemple
une sinusoïde pure à 1kHz) produit une zone de masquage
s’étendant légèrement en dessous et surtout au dessus de cette
fréquence. Les sons d’énergie plus faibles à l’intérieur de cette
zone de masquage sont inaudibles. Les zones de masquage
sont plus étendues pour les fréquences élevées.

3.1- Phénomène de masquage :

3.1-Phénomène de masquage :
Masquage temporel : En présence d’un son d’énergie élevée, il faut
un certain délai (environ 100 ms) à l’oreille pour entendre à nouveau
des sons plus faibles. Mais le masquage se produit également avant !
En effet, le système auditif présente une certaine inertie (lenteur) (2
à 5 ms pour détecter un changement de 40 dB) qui fait que seuls les
sons ayant une certaine durée sont audibles. Ils peuvent donc être
masqués par un signal ultérieur.

3.1- Phénomène de masquage
Signal à comprimer Signal comprimé
 La première figure montre un signal à diverses fréquences et le
cheminement du seuil d'écoute de l'oreille, en correspondance
des fréquences à ampleur plus élevée:
 La seconde figure montre le résultat de la compression
obtenue en éliminant les fréquences à ampleur limitée voisines
aux fréquences à ampleur élevée. Comme on peut le voir, les
informations à mémoriser ont visiblement diminué.

3.1- Phénomène de masquage
 S(t) = A1 sin (2 f1 t+1) + A2 sin (2 f2 t+2) +.. +A3 sin (2 f3 rt+3 r).
+A11 sin (2 f11 t+11) + A12 sin (2 f12 t+12) +.. +A32 r sin (2 f32 rt+32 ).
Après masquage
 S(t) = A1 sin (2 f1 t+1) + A2 sin (2 f2 t+2) +.. +A3 sin (2 f3 rt+3 r).
+A11 sin (2 f11 t+11) + A12 sin (2 f12 t+12) +.. +A32 r sin (2 f32 rt+32 ).
Dynamique large nécessite
bcp de bits pour sa
quantification.
Dynamique faible nécessite
moins de bits pour sa
quantification.

3.2- Joint Stereo :
Une autre technique issue du modèle psychoacoustique
consiste à enregistrer certaines fréquences en mono. Dans
beaucoup de chaînes hi-fi, il y a un boomer unique (qui
produit les basses fréquences i.e, les sons graves).
Cependant on n'a pas l'impression que le son vient de ce
boomer mais plutôt des haut-parleurs satellites.
Notre oreille est en effet incapable, dans les basses
fréquences, de localiser l'origine des sons. Le format MP3
par exemple prévoit d'exploiter cette faiblesse en recodant
certains passages en monophonie et en leur associant des
informations qui permettent de reconstituer une stéréo
simplifiée lors du décodage. C'est-à-dire que certaines
fréquences sont enregistrées en mono mais elles sont
accompagnées d'informations complémentaires afin de
restituer un minimum d'effet spatial.

3.3- Reserve Bytes :
Souvent, certains passages d'une musique peuvent être
encodés différemment sans altérer la qualité. Le codage
basé sur l’effet de masque tient compte des courbe de
masquage en procédant à une allocation dynamique
des bits de l’échantillonnage en fonction de la
fréquence.
Cette technique permet d’adapter localement
l’échantillonnage tout en minimisant le bruit de
quantification. Le codeur s’appuie sur une bibliothèque
(base de données) comprenant des schémas de
quantification adaptés au contenu. Par exemple, le
modèle 1 de la norme ISO-MPEG-AUDIO, qui permet
un rapport de compression de l'ordre de 6, procède par
une mesure à intervalles réguliers (24 ms).

3.3- Reserve Bytes :
 Le spectre obtenu permet de définir une courbe
de masquage pour chacune des mesures et, après
synthèse de toutes les courbes, on obtient une
courbe globale indiquant pour chaque fréquence
la quantité de bruit de quantification maximale
inaudible.
 C’est ce type de codage qui est mis en oeuvre dans
le format miniDisk, en téléphonie mobile, en
radio numérique, dans les formats MPEG-audio
etc… On parle de quantification dynamique :
DBR (dynamique bit rate) ou constante CBR.

3.4- Codage de Huffman :
 Cette technique de codage intervient après la compression
en créant des blocs d’information de longueur variable qui,
par tables de correspondance permet de minimiser les
redondances.
 Lorsque les sons sont « purs » l'algorithme Huffman est très
efficace car le son digitalisé contient de nombreux sons
redondants. Ce type d'encodage permet de gagner en
moyenne un peu moins de 20% d'espace.

III.5. Compression MPEG AUDIO
 Il existe 3 modes de compression, ce sont les Layers I, II, et III
exigeant plus ou moins de temps de calcul. Pour chaque mode, le
débit de données est fixé (fréquence échantillonnage et bruit de
quantification). Le choix d'un très bas débit entraîne
inévitablement une perte de qualité du signal original, en particulier
dans la diminution de la bande passante du signal restitué.
 La structure même des données permet aussi, à la lecture, d'utiliser
une bande passante restreinte ou de travailler en mono, ceci afin de
permettre à une machine moins puissante de toujours réaliser un
décodage en temps réel mais à qualité amoindrie.
 Les 3 types de codecs sont compatibles sur le plan hiérarchique : un
décodeur de niveau 3 décodera les layers 1, 2 ou 3 mais un décodeur
prévu pour le layer 2 n'acceptera de décoder que les layers 1 et 2. La
complexité des codecs et les performances croissent avec chacun des
layers : pour un débit donné, la qualité de la restitution sera
meilleure avec un layer 3 qu'avec un layer 1 mais le codeur du layer 3
sera plus complexe.

 Layer I est le plus simple qui vise une utilisation domestique. Il
utilise un filtrage à 32 sous-bandes de même largeur. Le débit varie
de 32 Kbps à 448 Kbps. En fonction de la complexité de l'encodeur,
une haute qualité audio (proche du CD), implique un débit entre
256 et 384 Kbps pour un programme stéréo. Layer I est notamment
utilisé dans le système de cassette numérique DCC (Philips).
 Layer II permet une compression plus élevée que Layer I et se
destine aussi bien aux domaines audio domestique que
professionnel, comme l'émission radio et télévision et les
télécommunications. Le débit varie de 32 à 192 Kbps pour la mono,
et 64 à 384 Kbps pour la stéréo. En fonction de la complexité de
l'encodeur, une haute qualité audio (CD) implique un débit entre 192
et 256 Kbps pour un programme stéréo. La complexité du décodeur
est d'environ 25 % plus haute que pour un décodeur Layer I.
 Layer III ajoute des filtres hybrides, et un codage de type Huffman.
C’est le mode qui offre le plus de compression. Layer III étend les
applications du MPEG dans les télécommunications à bande étroite
ou bien à certains domaines spécialisés de l'audio professionnelle. Il
a été banalisé par l’usage des fichiers MP3.

Débit piste: = (largeur de bande passante × 2) × NbbitsQuant
= Freq echant × NbbitsQuant

Codage en sous-bandes : Pour profiter des phénomènes de
masquage, le signal d'entrée est filtré dans le domaine
fréquentiel en 32 bandes de fréquences, appelées sous-
bandes (subbands).
Rappelons que le masquage ne concerne que les fréquences
voisines (masquage fréquentiel), c’est-à-dire appartenant à
une même sous bande et se déroulant durant un laps de temps
très court.
S(t) = A11 sin (2 f11 t+11) + A12 sin (2 f12 t+12) +.. +A1r sin (2
f1rt+1r).
+ A21 sin (2 f21 t+21) + A22 sin (2 f22 t+22) +.. +A2r sin (2
f2rt+2r).
…
+ A32 1 sin (2 f32 1 t+32 1 ) + A32 2 sin (2 f32 2 t+32 2) +.. +A32 r sin
(2 f32 rt+32 r).

Codage en sous-bandes :
Bande 1 Bande 2 Bande 31 Bande 32
0 0 0
0

Codage en sous-bandes : En MPEG Layer I, le signal est
découpé selon l’axe des temps en des blocs d'égale longueur de
384 échantillons (soit 8 ms de signal à 48 kHz) ce qui
correspond dans le domaine fréquentiel à 12 échantillons
dans chacune des 32 bandes.
Le signal S est filtré en 32 signaux.
S1 =A11 sin (2 f11 t+11) + A12 sin (2 f12 t+12) +.. +A1r sin (2
f1rt+1r).
S2 = A21 sin (2 f21 t+21) + A22 sin (2 f22 t+22) +.. +A2r sin (2
f2rt+2r).
….
S32= A32 1 sin (2 f32 1 t+32 1 ) + A32 2 sin (2 f32 2 t+32 2) +.. +A32 r sin
(2 f32 rt+32 r).

Découpage en blocs :
 D’après le théorème de Shanon la fréquence
d’échantillonnage de chaque sous bande est égale à
deux fois de la largeur de la bande passante : ce qui
revient à échantillonner les 8ms avec 48KHZ /32 c’est
à dire 12 échantillons par 8 ms.
 Chaque signal dans une sous-bande est quantifié de
manière telle que le bruit de quantification
(quantisation noise) introduit par le codage ne
dépasse pas la courbe de masquage pour cette sous-
bande. Le spectre du bruit de quantification est donc
dynamiquement adapté au spectre du signal.

 Les paramètres concernant les quantifieurs (quantisers)
utilisés dans chaque sous-bande sont transmises avec les
échantillons de la sous-bande codée. Le décodeur peut
ainsi décoder le flux de bits sans connaître la manière
dont l'encodeur a déterminé ces paramètres. Ceci permet
l'utilisation d'encodeurs de différentes qualités et
différentes complexités, ainsi que de proposer de futures
améliorations aux encodeurs. Encodeurs et décodeurs ne
sont donc pas de la même complexité, on parle de
systèmes asymétriques.
 Une analyse permet de réaliser le modèle de masquage
permettant de déterminer le degré de masquage (seuil de
masquage), que l'on peut attendre dans chaque bande.
Dans chaque bande, plus le masquage est agissant, moins
l'échantillon doit être précis.

 La précision des échantillons est alors réduite par re-
quantification en vue de diminuer la longueur des mots.
Cette re-quantification est constante pour tous les mots
d’une même bande, mais les différentes bandes peuvent
utiliser des longueurs de mot différentes. La longueur de
mots doit être transmise comme un code d'affectation de
bits afin de permettre au décodeur de dé-sérialiser
convenablement le flux de bits.
 A l'intérieur de chaque bande, une fois le masquage opéré,
le niveau du signal est amplifié par multiplication jusqu'à sa
valeur maximale. Le gain nécessaire est constant pour la
durée du bloc et un seul facteur d'échelle est transmis avec
chaque bloc, pour chaque bande, de façon à pouvoir
renverser le processus au décodage.

Le modèle que l'on utilise dans le codage en sous-bande se
réfèrent à la manière dont une personne perçoit les sons. Le
modèle utilisé lors du codage détermine quelles sont les
fréquences sensées masquer d'autres fréquences. A la lecture, le
décodeur retrouvera les paramètres concernant le modèle
utilisé dans le flux du signal même. Plusieurs modèles existent
(Musicam, AT&T), qui sont plus ou moins adaptés au type de
données audio à compresser.

Les 384 échantillons (12 ×32 ) du bloc temporel forment une trame
comprenant un mot de synchronisation et un en-ête, suivis de 32
codes d'affectation de bits de 4 bits chacun. Ces codes décrivent
la longueur des mots des échantillons dans chaque sous-bande.
Viennent ensuite les 32 facteurs d'échelle utilisés par la
compression dans chaque bande, indispensables pour rétablir le bon
niveau au décodage. Les facteurs d'échelle sont suivis des données
audio de chaque bande.

Le mot de synchronisation est détecté par le générateur de
temps qui dé-sérialise les bits d'affectation et les données de
facteur d'échelle. L'affectation de bits permet ensuite la dé-
sérialisation des échantillons à longueurs variables. La re-
quantification inverse et la multiplication par l'inverse du
facteur d’échelle sont appliquées de façon à ramener le niveau
de chaque bande à sa bonne valeur. Les 32 bandes sont ensuite
rassemblées dans un filtre de recombinaison pour rétablir la
sortie audio.

 En Layer I, l'analyse du spectre n'est pas très précise dans
la mesure où cette analyse utilise simplement les 32
sous-bandes du codage. Cette figure montre que,
lorsque le filtre de séparation de bandes est utilisé pour
créer le modèle de masquage, l'analyse de spectre n'est
pas très précise dès que l'énergie est répartie dans la
totalité d’une bande. Une analyse spectrale plus précise
autoriserait un facteur de compression plus élevé.
 Dans la layer II, pour améliorer la précision de la
résolution de fréquence, il faut augmenter l'exécution
temporelle de la transformée, ce qui est effectué en
portant la taille du bloc à 1152 échantillons ce qui
correspond à 36 échantillons pour chaque bande.

MPEG II

La compression MPEG Audio III
Le MP3 (« MPEG-1 Audio layer 3 ») est un format de compression
de données audio par destruction de données, développé par
l'organisation de standardisation internationale (ISO -
International Standard Organization). Ce format permet de
compresser à un taux de 1:12 les formats audio habituels. Il
permet de faire tenir l'équivalent en fichiers de douze albums de
musique sur un seul CD-ROM. De plus, le format MP3 n'altère
que faiblement le son pour l'oreille humaine. Comme pour les
couches 1 et 2 du MPEG, la couche 3 utilise de son côté un codage
par séparation de bandes.
Pour obtenir un facteur de compression élevé, la technique du
joint stéréo et appliquée et un recodage des coefficients à
longueur variable est effectué selon l’algorithme de Huffman.
Cette technique attribue les mots les plus courts aux valeurs de
code les plus fréquentes. Ce niveau complexe de codage n'est en
réalité utilisé que lorsque les facteurs de compression les plus
élevés sont nécessaires. Il comporte quelques points communs
avec la couche 2.

La compression MPEG Audio III
Ainsi, une minute d'un CD-audio (à une fréquence de 44.1 kHz, 16
bits, stéréo) ne prendra qu'un seul 1 Mo alors qu’elle nécessitait 10
MO en non compressé. Une chanson fait donc en moyenne 3 ou 4
Mo, ce qui rend son téléchargement possible. Le décodage d'un
fichier MP3 est relativement peu coûteux en utilisation du
processeur, tandis que l'encodage est plus gourmand.

Applicabilité de la compression
 Il faut néanmoins se rappeler que la conversion au numérique du
signal sonore analogique introduit une dégradation (due à
l'opération de quantification). Les 16 bit de quantification du format
standard du Compact Disc sont à peine suffisants pour arriver è une
qualité acceptable dans le domaine professionnel. Donc la
possibilité d'introduire une compression de type lossy sur les
données n'est même pas à tenir en compte.
 Dans d'autres contextes, où la qualité ne représente pas un facteur
fondamental, il se trouve que la meilleure solution est la
compression. Comme par exemple sur Internet ou sur les lecteurs
MP3 portables qui permettent de mémoriser des centaines de
morceaux dans une mémoire RAM (sur un CD il est possible de
mémoriser 74 minutes de musique pour une moyenne de 10 à 12
morceaux; sur le même support, on peut mémoriser une centaine de
morceaux en forme de données de type MP3).

Exercice 1:
1. Soit une séquence audio numérisée de 4 minutes, estimez son poids
dans les cas d’une numérisation avec une qualité DAT.
2. Si on devait compresser la séquence précédente en MP3, estimez la
durée de compression si le traitement d’un bloc nécessite 10-7 sec.
3. On voudrait compresser la séquence de la Q1 pour la diffuser en
audio en streaming, quel devrait être le rapport de compression si le
débit de transmission est 1 mega bit/sec et que les données de
services (entêtes etc) occupent 30 % du flux global transmis.
Réponse :
1) Qualité DAT : Freq = 48000 HZ N=2 octets ; stéreo ( 2 pistes).
Poids= FreEch *N* Durée*Nbrpistes.
Poids = 48000 * 240* 2*2 = 46 080 000 octets.

Réponse:
Q2) Si on devait compresser la séquence précédente en MP3,
estimez la durée de compression si le traitement d’un bloc
nécessite 10-7 sec.
Qualité DAT : FreqEc = 48000 HZ N=2 octet stéreo
En MP3, un bloc contient 36 échantillons.
Nbr blocs = nbr échan Total /36
nbr échan total = FreqEc * Durée seq* Nb pistes
=23 040 000 ech
23040000 /36= 640 000 blocs.
Duré de compression = Nbr de blocs *10-7 sec=0.64 sec.

Q3) On voudrait compresser la séquence de la Q1 pour la diffuser en
audio en streaming, quel devrait être le rapport de compression si le
débit de transmission est 1 mega bit/sec et que les données de
services (entêtes etc) occupent 30 % du flux global transmis.
Réponse:
Poids non compessé = 46 080 000 octets.
Débit = poids des données compressées /durée
1*1024*1024 = Poids données Streaming /240 sec 
Poids données Streaming = 240 Mbit.
Poids données Streaming = Poids données utiles (son) + Poids données Service.
Poids données Service = 30* Poids données Streaming /100.
Poids données utiles (son) =168 mgbits =21Mo.
Rapport de compression =46 /21= 2.2 (au minimum)

III.6. Les Formats AUDIO numériques
Le format d'un fichier audio prend en considération un ensemble de
facteurs liés
1. à la numérisation de la source :
 Fréquence d'échantillonnage du signal sonore analogique
 Codage de chaque échantillon (1, 2 ou 3 octets soit : 8, 16 ou 24
bits)
 Nombre de canaux ("pistes") utilisés (son mono = 1, stéréo = 2,
multipiste = 3 et plus).
 L'utilisation de plusieurs pistes audio permet de restituer le son sur
un système comportant plusieurs enceintes (une par piste). Une
piste est un canal d'enregistrement réservé à un son, pour une durée
déterminée, avant le mixage.
 Plus on augmente la fréquence d'échantillonnage, la valeur de
codage ou/et le nombre de canaux, plus la qualité sera bonne ... et le
poids du fichier audio lourd.
 Poids du fichier (kilooctets/seconde) = Fréquence x Codage x Nb de
pistes

2. à la compression utilisée (codec):
Pour réduire la taille du fichier (pour permettre son stockage
et faciliter sa transmission), les données sont, en effet,
généralement compressées. Mais, plus le fichier est
compressé, moins la qualité sonore sera bonne. La
compression est indispensable si la séquence sonore doit être
écoutée en temps réel, pendant son téléchargement. Dans ce
cas, les taux de compression peuvent être élevés. Ils sont
parfois différenciés selon le débit de la liaison.
3. à l'organisation des octets dans le fichier : Certains
formats sont adaptés à un usage local sur l'ordinateur,
d'autres au streaming.

Les formats audio sont en général du type auto-décrit, c’est à dire que
le fichier contient un en-tête qui décrit les particularités du codage
(échantillonnage, nombre de canaux, type de compression, etc.). Le
choix du format est lié à l’utilisation qui sera faite du fichier
(transfert sur lecteur MP3, montage audio "musical",
postproduction vidéo, streaming, podcasting,...). Les formats sont
nombreux et pour la plus grande partie liés à une utilisation
spécifique, respectivement à un support dédié:

Formats de fichiers non compressés :
CDA (Compact Disc Audio) Extension : .cda Format des pistes des CD
audio.
PCM (Pulse Code Modulation) Extension : .pcm Codec audio non
compressé utilisé pour les disques compacts audio (CD), pour
l'enregistrement sur bandes DAT, les disques optiques à haute capacité,
ainsi que pour les fichiers WAV standard. Il Peut contenir jusqu'à 8 canaux
et supporte les résolutions : 16, 20 ou 24 bits.
WAV (ou WAVE) Extension : .wav est le format natif des systèmes
Windows. Format propriétaire et ouvert, mono ou stéréo, mis au point par
Microsoft et IBM. Fichier conteneur le plus courant pour l'audio non
compressé sur les plates-formes de Microsoft, mais il est également
courant sur les systèmes GNU/Linux aussi. Il est le codage le plus
couramment utilisé pour la compression, car il confère au format un
encodage et un décodage immédiats avec une qualité sonore excellente.
Cependant la taille des fichiers est très importante. Le Fichier est limité à 2
Go et est Compatible avec tous les lecteurs audio.

Formats non compressés :
AIFF (Audio Interchange File) Extension : .aif ou .aiff est à
l’origine développé par Apple, ce format permet une grande variété de
codage de fréquences et résolutions d’échantillonnage. Utilisé pour le
mixage et l’encodage des données destinées au CD audio (44100 Hz, 16
bit, stéréo ). Fichier conteneur. propriétaire et ouvert. Equivalent du
format Wav dans le monde Macintosh. Les fichiers sont très
volumineux. Le format AIFF-C (ou AIFC) supporte une compression.
•Résolutions possibles : 8, 16, 20, 24 et 32 bits.
•Peut être lu avec les lecteurs audio : Quicktime, iTunes, Winamp,
Audacity.
µLaw (.au) est le format audio UNIX, il est codé sur 8 bits, la qualité
audio est donc réduite.

Les formats compressés
Ce sont en principe des fichiers de type AIF, WAV ou AU auquel on a appliqué
un algorithme de compression. Les principales normes de codecs sont:
 Real Audio Extension : .ra (real audio), .rv (real video), .rm (real media),
.ram (real audio metadata)
Famille de codecs audio propriétaires (RealNetworks). Très ancien. Il
permet de diffuser de la musique sur internet en utilisant la technique du
streaming.
• Les fichiers RealAudio sont compressés selon différents formats.
• Lisible avec RealPlayer.
 MACE : très rapide, elle ne demande pas beaucoup de ressources
processeur. Facteurs de compression de 3:1 ou 6:1, la qualité réduite, seuls
les fichiers 8 bits sont supportés. L’environnement Macintosh la propose à
l’enregistrement de tout fichier faisant appel au format Quicktime. Utile
uniquement pour sons système.
 IMA: solution intermédiaire entre qualité et espace, le ratio de
compression est de 4:1 et l’encodage est possible sur 8 ou 16 bits.

 MP3 (MPEG-1 Layer 3) Extension : .mp3
Cette norme garantit une bonne qualité et permet des taux de
compression importants allant jusque à un facteur de 12:1. (format très
répandu sur le web, Ipod, Mini-Disc). Le format fichier est propriétaire
et ouvert et fait l'objet d'une licence. Il représente le Codec audio le plus
répandu.
La couche (layer) 3 de la norme MPEG-1 (compression destructive) est
dédiée à des applications nécessitant des débits faibles. MP3 est devenu
ainsi idéal pour la diffusion libre sur internet. Un encodage de 128 ou 192
kilobits par seconde (kbit/s) permet de bénéficier d'une qualité audio
acceptable pour un morceau de musique. Compatible avec presque tous
les logiciels existants.
Il supporte 2 canaux maximum en stéréo et le stockage et la gestion des
métadonnées. Elles permettent de contenir des informations comme le
nom de l'artiste, le titre, l'auteur-compositeur. Il ne supporte pas la
gestion des droits d'accès (DRM) et le streaming. Le codec MP3Pro est
une évolution de mp3 et présente un meilleur ratio qualité/poids.

 OGG Vorbis Extension : .ogg Format ouvert et libre (concurrent des
formats propriétaires MP3, WMA et AAC). OGG est un fichier conteneur qui
peut contenir des pistes sonores (codec Vorbis), audio sans perte (codec
FLAC), audio parlées (codec Speex) ou/et vidéo (codec Theora). OGG Vorbis
contient des pistes sonores au format Vorbis. Vorbis est un codec audio
ouvert et libre. Il utilise une compression destructive, et un encodage VBR. Il
est plus performant en terme de qualité et taux de compression que le format
MP3 car il offre une bonne compression jumelée avec une très bonne qualité
sonore. Sa qualité est estimé sur une échelle de 1 à 10. Ce format est sans
doute le meilleur dans les très hauts niveaux d’encodage (de q5 à q10). Une
équivalence avec le MP3 peut être approximativement donnée :
Ogg q5  Mp3 160 Kbps Ogg q7  Mp3 224 Kbps
Ogg q9  Mp3 320 Kbps , Ogg q10: Mp3 500 Kbps
La structure en paquet le rend bien adapté à une utilisation en streaming sur
l'internet. Il Permet un enregistrement polyphonique (jusqu'à 255 canaux
son). Peut être lu avec les lecteurs audio : MPlayer, Winamp, VLC (VideoLAN
Client), Windows Media Player, Audacious, Whamb, etc. Cependant, il est
non pris en charge par les baladeurs numériques iPod de chez Apple.

 AAC (Advanced Audio Coding) Extension : .aac, .mp4, .m4a
Format propriétaire et fermé ; il est le Codec concurrent direct du WMA. Il
représente l’un des formats successeurs au MP3. Utilise une compression
audio avec perte de données (extension du MPEG-2 et amélioré en MPEG-4).
Format des fichiers audio supportés par Apple pour son baladeur numérique
iPod et son logiciel iTunes. Possibilité de gérer des sons sur 48 canaux
différents. Il supporte la gestion des droits d'accès (DRM) et la fonction
« Gapless », qui permet ne plus avoir de coupure entre 2 morceaux. Peut être
lu avec les lecteurs audio : iTunes, Winamp.
 FLAC (Free Lossless Audio Codec) Extension : .flac ou .fla
Format ouvert et libre. Il utilise un Codec de compression audio non
destructive ("lossless" : sans perte acoustique). Compression faible par
rapport au MP3. Ce format est utilisé pour l'archivage ou l'édition. Il utilise
un format VBR. Il autorise le Streaming (la décompression se faisant par
blocs). Il supporte la Gestion des métadonnées et est caractérisé par une
grande rapidité de décodage, mais moins performant à l'encodage. Il peut
être lu avec les lecteurs (après ajout d'un plug-in) : Adobe Audition,
Audacity, Winamp, XMMS, etc. Il offre les résolutions de 4 à 32 bits.

 Monkey's Audio Extension : .ape
Format fermé. Il utilise un Codec de compression audio sans perte. Taux de
compression légèrement meilleur que celui de FLAC : division par deux de la
taille des fichiers audio.
 MPC (Musepack) Extension : .mpc
Format ouvert et libre. Il utilise un Codec de compression audio destructive,
basé sur le format MPEG-2. Grande qualité sonore bien supérieure au MP3
ou à l'Ogg. Il supporte aussi, comme le format AAC, le « GapLess », qui
permet de ne pas faire de coupure entre 2 morceaux. Codage et encodage très
rapides.
 WMA (Windows Media Audio) Extension : .wma
Format propriétaire et fermé de compression audio destructive développé
par Microsoft. Uniquement compatible avec Microsoft. Alternative au MP3 :
plus souple mais moins répandu. A la fois codec et fichier conteneur.
Différentes déclinaisons : compressé, non compressé, avec ou sans DRM
(gestion des droits d'accès ). Il supporte le streaming et bien adapté à la
diffusion par internet (si compressé). Il permet 2 canaux maximum en
stéréo. Format CBR ou VBR. Peut être lu avec les lecteurs audio : Media
Player, Winamp.

Formats Hybrides
 QUICKTIME : méta-format Apple qui permet d’encapsuler, de
compresser et d’interfacer l’accès à divers types de média permet de lire et
de traiter les formats les plus courants : AIFF, WAV, AU, MP3, etc.…
 MOD (.mod) ce format est proche du MIDI dans son principe à la
différence près qu’il inclus les échantillons sonores utilisés dans la
partition. Utilisé dans l’environnement "Reason"
 Rich music Format (.rmf), développé par Headspace pour la diffusion
web, ce format permet d’encapsuler les échantillons audio, les données
MIDI et les données d’arrangement à l’intérieur d’un seul fichier. La
restitution est faite par un plug-in.

Format Extension
Type Accès
Plateforme Usage
Codec Conteneur Propriétaire Ouvert Libre
PCM .pcm X X
X X
Mac
Windows
Linux
Audio non compressé.
WAV .wav - X X X -
Windows
Linux
Couramment le plus utilisé pour
l'audio non compressé (PCM).
AIFF .aif, .aiff X X X X -
Mac
Linux
Audio non compressé (PCM).
RealAudio .ra, .ram X - X - -
Mac
Windows
Linux
Streaming
MP3 .mp3 X - X X -
Mac
Windows
Linux
Idéal pour la diffusion libre sur
internet
WMA .wma X X X - -
Windows
Linux
Adapté à la diffusion par internet.
Compression avec ou sans pertes.

Format Extension
Type Accès
Plateforme Usage
Codec Conteneur Propriétaire Ouvert Libre
AAC
.aac, .mp4,
.m4a
X - X - -
Mac
Linux
Un des formats successeurs
au MP3.
OGG Vorbis .ogg X - - X X
Mac
Windows
Linux
Alternative à MP3, WMA et
AAC. Très bonne qualité
sonore.
MPC .mpc, .mp+ X - - X X
Mac
Windows
Linux
Qualité sonore bien supérieure
au Mp3 ou encore à l’Ogg.
FLAC .flac, .fla X. - - X X
Mac
Windows
Linux
Compression sans pertes.
Monkey'Audio .ape X. - X - -
Mac
Windows
Linux
Compression sans pertes.

Le format MIDI
 Le terme MIDI est l'acronyme de Musical Instrument Digital
Interface, et c'est un protocole de communication conçu en
1983, qui permet de piloter un dispositif musical à travers un
appareil contrôleur. A l'aide de ce protocole de contrôler en
même temps une série d'appareils de manière synchronisée.
 Le MIDI (Musical Instruments Digital Interface):n’est pas à
proprement parler un format audio mais un système
complet d’interface et d’édition numérique. Un document
MIDI contient une description d’un morceau de musique
sous la forme d’une partition. Celle-ci inclue des indications
sur la hauteur, la durée, la modulation, etc… ainsi que
l’attribution d’un instrument.

Le format MIDI
 C'est un protocole de communication pour l'échange de
données musicales entre instruments de musique
électronique. Ces instruments peuvent être des synthétiseurs,
des ordinateurs, des contrôleurs d'expressions comme le
saxophone midi, etc... Ces instruments sont raccordés entre
eux par une prise DIN à 5 broches.
 Le document midi est un format texte, il est donc
extrêmement compact. Les informations qu’il contient
permettent de synthétiser la musique sur tout instrument
conforme à cette norme: synthé, piano etc… ou en recourant à
un synthétiseur du type quick-time. Le format midi offre une
alternative à la diffusion de musique. La qualité de
reproduction du morceau est liée au synthétiseur utilisé. Un
éditeur midi permet de travailler directement sur la partition
musicale

 Introduisons le principe de fonctionnement en nous
basant sur un clavier-synthétiseur pourvu d'une interface
MIDI contrôlée par un ordinateur. L'ordinateur est doté
d'un logiciel en mesure "d'enregistrer les impulsions issues
du clavier-synthétiseur en mémorisant également les laps
de temps de leur arrivée.
 On peut donc exécuter un morceau musical sur le clavier-
synthétiseur et "l'enregistrer" sur l'ordinateur. Il est
important de comprendre que l'ordinateur n'enregistre pas
en fait les sons issus du clavier-synthétiseur, mais des
codes correspondants aux notes qui sont jouées ainsi que
leur durée.

 Durant la phase de reproduction, l'ordinateur envoie au
clavier-synthétiseur les codes qu'il a mémorisées
précédemment et le clavier-synthétiseur les interprète
exactement comme si un musicien avait effectivement joué à
ce moment-là les notes correspondantes. Le protocole n'a pas
subi de variations depuis sa création (même si en fait il a subi
plusieurs extensions) et donc même de très vieux dispositifs
sont en mesure de communiquer avec des dispositifs
modernes.
 De nos jours, les dispositifs sont souvent pilotés par les
ordinateurs et par conséquent, la partie de protocole
concernant la couche physique (câbles, connecteurs) a changé,
passant au standard USB. Cependant, la partie applicative du
protocole (celle concernant les messages) est restée invariable.

Exemple de branchement de plusieurs machines synchronisées par la
norme MIDI

III.7 Traitement du Son
 Compresseur : processeur de signal (électronique ou
logiciel) permettant de manipuler le niveau, la
dynamique du signal audio. En général utilisé pour
diminuer l'écart entre les sons forts et faibles, mais
permet également bien d'autres possibilités.
 Compresseur multibande : une variante du
compresseur permettant de traiter la dynamique du
signal sur plusieurs bandes de fréquences
simultanément, ce qui permet par exemple de réduire
le volume d'un son de basse sans affecter un son de
flûte.

III.7 Traitement du Son
 Egaliseur : l'égaliseur permet de corriger une certaine gamme
de fréquence en lui appliquant un gain ou une atténuation. Le
choix et le nombre de bandes de fréquences ainsi que les
réglages possibles déterminent le type d'égaliseur auquel on a
affaire : égaliseur passe-bas ou passe-haut qui permet de
filtrer les fréquences au-dessus ou en-dessous d'un fréquence
donnée, égaliseur graphique qui permet de régler le gain d'un
certain nombre de fréquences fixes, et égaliseur paramétrique,
qui permet de choisir précisément la fréquence et l'étendue de
la correction.
 Echo ou Delay : Effet basé sur une simple répétition du son
avec un retard réglable. Les versions évoluées de cet effet
peuvent comporter des réglages supplémentaires tels que
plusieurs réglages de retards différents, variation des retards
dans l'espace stéréo, filtrage fréquentiels des retards, etc...

III.7. Traitement du Son
 Chorus : Effet temporel basé sur une réinjection d'une partie du
signal d'origine retardée et traitée avec une léger désaccord de
hauteur variable, de manière à faire apparaître le son plus « riche »,
plus ample.
 Fader : Potentiomètre linéaire logarithmique utilisé en audio pour
le contrôle de volume d'une piste audio. (Fade in ou Fade out)
 Flanger : Le flanger est un effet temporel basé sur un réinjection
d'une partie du signal d'origine avec une variation en fréquence, elle-
même variant périodiquement à une fréquence très faible,
généralement de quelques hertz.
 Réverbération : La réverbération ou « reverb » est un effet
cherchant à restituer l'ambiance acoustique d'un lieu plus ou moins
grand, de la salle de bains à la salle de concert. Elle permet de
donner de l'ampleur à un son. Elle peut être simulée dans les
processeurs d'effets (électroniques ou logiciels) à partir d'une
somme de très nombreux échos simples, ou enregistrée dans le lieu
à l'aide de micros et de haut-parleurs. Généralement, une unité de
réverbération possède de nombreux réglages permettant d'adapter
l'effet aux souhaits de l'ingénieur du son.

Systèmes audio Fin 2 (1).ppsx

Recommandé

Recommandé

Contenu connexe

Similaire à Systèmes audio Fin 2 (1).ppsx

Similaire à Systèmes audio Fin 2 (1).ppsx (20)

Dernier

Dernier (20)

Systèmes audio Fin 2 (1).ppsx