Le traitement du signal en Audio. Les procédés de compression audio. Présentation

Le traitement du signal en Audio
Les procédés de compression audio
Exemple principal : MPEG 1 Layer 3

Sommaire
Présentation personnelle. Le groupe Digigram.
Les points à connaître pour comprendre les procédés de
compression :
– Pourquoi le numérique ?
– L’oreille humaine et l’audition
– La boîte à outils mathématique : Compactage des données et
Transformée Temps  Fréquence

Les algorithmes de compression :
–
–
–
–

MP3
Autres Algorithmes
Le futur de la compression
Et les algorithmes de compression sans perte ?

Introduction personnelle
La société Innova SON

La société Innova SON
Produits : Consoles de mixage
numérique pour marché Audio Pro
Ciblé sur le spectacle vivant : concerts,
festivals, théâtre, broadcast, etc …
Audio 24 bits / 48 kHz
Surtout pas de compression !
Compétences : TDS (minimal),
Electronique analogique et numérique,
mécanique, intégration, CEM

Pourquoi travailler en numérique ?
Systèmes analogiques et numériques sont capables de réaliser les même
fonctions (contre-exemples : retard pur / systèmes non linéaires)
Le grande différence avec le format numérique est qu’il est capable de gérer
des signaux dégradés sans perte de données, d’où les qualités suivantes :
–
–
–
–
–
–
–

Immunité du système aux bruits électriques bien plus grande
Précision ajustable suivant son besoin
Faible sensibilité aux conditions extérieures ( température, humidité, vibration, … )
Calibrations et maintenances moins importantes
Taux de défauts en fabrication plus faible
Pannes plus faciles à diagnostiquer et réparer
Interfaçage d’un système avec un ordinateur facile

Attention : les développements en numérique qui profitent de tous les
avantages évoqués ci-dessus sont en logique synchrone.
Les systèmes audio-numériques profitent des avantages cités ci-dessus :
répétabilité, transmission sur de longues distances sans perte, gestion par
ordinateur, compacité, etc …

L’oreille humaine / L’audition

Description de l’oreille
Étrier
Cochlée : enroulée, 35 mm de long
Pavillon
Cochlée
dépliée
Nerf
Auditif
Organe de corti comprenant 2500
Conduit
cellules ciliées (reliées aux nerfs
Auditif externe
auditifs) + 7500 cellules ciliées
Tympan
Enclume
externes (amplification)
Marteau
En fonction de leur position le long de
la cochlée, les cellules ciliées vibrent
pour des fréquences d’excitation différentes.
Les cellules ciliées et les neurones
"saturent" rapidement : le niveau
ressenti du signal n’est pas linéairement
couplé au niveau efficace du son.

Caractéristiques de l’audition (1)
Échelle de niveau logarithmique.
– Niveau sonore perçu est doublé si on multiplie par 10 le nombre
d’instrumentistes.
– Niveaux exprimé en dB SPL
– 0 dB = agitation des
molécules de l’air
– Seuil de la douleur : 140 dB

Réponse en fréquence
complexe :
– 20 Hz~20 kHz ( qu’on dit )
– Dépend du niveau
– Échelle Logarithmique en fréquence : l’octave

Caractéristiques de l’audition (2)
Localisation spatiale du son :
–
–
–
–

Grâce à la différence de niveau sonore entre oreilles
Grâce à la différence temporelle ( <0,6 ms)
Grâce à la forme de la tête, des épaules, du pavillon
Localisation peu ou pas efficace aux basses fréquences

Perception de fréquence très fine ( erreur 1% ) mais …
Masquage
– Fréquentiel : si deux signaux sont de fréquences proches, on n’entendra
que celui de plus fort niveau
– Temporel : un son masquera un autre dans la foulée pendant un court
instant

Perception du timbre : attaque / harmonique / apprentissage

La boîte à outils mathématique

Compactage des données (1)
Le but est de réduire la taille d’un bloc de données
sans perte, en s’appuyant sur ces spécificités. Cas
d’école : compression ZIP, RAR, LZE
Divers algorithmes :
RLE ( Run Length Encoding )
Code la répétition successive d’éléments
AAAAABBBCDDDD

*5ABBBC*4D

*5A  Je répète 5 fois la lettre A
BBBC Je garde BBBC tel quel

Compactage des données (2)
Huffman. Méthode statistique codant les
caractères les plus courants avec les codes les
plus courts.
La bibliothèque de symbole peut être dynamique
(arbre de Huffman) ou fixe
Lempel-ZIV. Basé sur un dictionnaire de mots. Le dictionnaire
contient au démarrage les 256 caractères de base. Il est rempli
au fur et à mesure de l’analyse du fichier
/WED/WE/WEE/WEB

/WED<256>E<260><261><257>B

256

257

258

259

260

261

262

263

264

/W

WE

ED

D/

/WE

E/

/WEE

E/W

WEB

Transformation TempsFréq.
La plupart des algorithmes de compression nécessitent
d’analyser le signal dans l’espace fréquentiel plutôt
que temporel.
Le passage de l’un à l’autre peut être réalisé de
différentes manières, les deux principales étant
Les bancs de filtres unitaires
Un banc de filtre particulier : la transformée de
Fourier et ses déclinaisons. ( DCT, MDCT, …)

Les bancs de filtre (1)
Deux étapes :
– Décomposer le signal en bande de fréquence par un banc
de filtres en parallèle

Freq

– Sous-échantillonner chacune des bandes
Sous-éch.
1/3
Freq

Freq

Les bancs de filtre (2)
Les filtres sont choisis pour leurs propriétés …
– de reconstruction parfaite du signal
– d’atténuation maximale des phénomènes de repliement
– de simplifier les calculs  réduire puissance de calcul

Filtres optimaux : fréquences de coupure sont
multiples de la fréquence d’échantillonnage.
Freq

Les filtres polyphases font partie de cette famille. Leur calcul
simplifié en fait un choix intéressant

La Transformée de Fourier (1)
DFT ( Discrete Fourier transform )
N −1
π
1 x(k).e− j k.2N .n
f(n)= ∑
N k =0
Décomposition du signal en cosinus et sinus
DCT ( Discrete cosine transform )
N −1
1 + 2 . x(k).cos n(2k +1)π 
f(n)=
 2N 
N∑
N


k =1

Décomposition en terme cosinus (partie réelle).
Même base théorique que la DFT.
En plus de l’avantage de travailler en nombres réels et non
complexes, la décomposition par DCT est plus optimale

La Transformée de Fourier (2)
MDCT ( Modified Discrete Cosine Transform)
(2n+1)(2k +1+N 2)π 
f(n)=∑ f(k).x(k).cos


2N
k =0


N −1

Une fonction de pondération f(k) vient se rajouter. Son choix
judicieux permet une reconstruction parfaite du signal tout en
permettant :
– Le chevauchement des zones
temporelles pour limiter
les effets de bord de la DCT
– L’adaptation de la largeur
d’analyse ( précision ou vitesse )

FFT ( Fast Fourier Transform )

La compression ‘’MP3’’

Le MP3. Présentation
Bon exemple des procédés de compression actuels. Mise en
application des études sur l’audition
De son vrai nom MPEG 1 Layer 3. Norme internationale
dérivée du Musicam et ASPEC.
Système numérique, signal échantillonné
Procédé de compression destructif : on perd de l’information
Taux de compression : facteur 1/11 pour une « qualité CD ».
Taux fixe en général
Basé principalement sur l’effet de masquage de l’oreille.

MP3 : Procédé de compression

MP3 : Banque de filtres

Banc de filtres
Spectre en fréquence divisé par un banc de 32 filtres
polyphases de 700 Hz de largeur. Compatible Layer 1 et 2.
Chacune des 32 sorties est traitée par un filtre MDCT
décomposant en 18 sous-bandes
Codage d’un seul canal dans les basses fréquences
Codage de la somme des 2 canaux et un peu de la différence

MP3 : Modèle perceptuel
Cœur de l’algorithme. Qualité de la compression
Analyses par bandes de fréquences indépendantes
des banques de filtres
En général, décomposition par FFT 1024 points

MP3 : Modèle perceptuel
Décomposition du spectre en
composantes tonales et non
tonales
Calcul du seuil de masquage
par fréquence

Rapport signal / seuil de
masquage
On en déduit le nombre
de bits par bande de fréquence

MP3 : Allocation de bits
Dec.
0
1
2
3

Bin.
00
01
10
11

Huffman
0
10
110
111

But de la manœuvre : allouer le nombre de bits permettant de coder
chaque bande de fréquence afin de suivre la courbe de masquage.
Huffman : valeurs petites codées avec moins de bits
Allouer des bits consiste alors au augmenter le gain par bande
Bouclage jusqu’à ce que l’allocation soit optimale

MP3 : Mise en forme / Décodage
Mettre en forme les données binaires produites
aux étapes précédentes dans une structure
définie
En plus des données audio, on rajoute d’autres
données : format, nom, type de codage, etc. …
Décodage : on inverse les étapes.
Pas de modèle perceptuel qui ne sert qu’au
codage pour supprimer les informations
Du coup le décodage est une étape très simple
comparée à la compression

D’autres formats de compression

MP3 Pro / WMA / ATRAC
MP3 Pro. Compatible MP3 avec tout lecteur MP3 standard. Le
procédé SBR rajoute quelque kbits/s permettant de reconstruire
les hautes fréquences perdues dans les MP3 < 128 kbit/s
WMA. Format Microsoft. Basé sur une MDCT ( pas de Banque de
filtres ). En plus la ‘Substitution de bruit’, en moins pas de codage
de la stéréo
ATRAC. Minidisc SONY. Taux de compression de 1/5 d’un signal
16 bits / 44.1 kHz. Décomposition en 3 bandes principales suivie
de 3 MDCT 512 points.

La quantification vectorielle
Procédé utilisé dans les formats
- VQF (Yamaha)
- TwinVQ (intégré à la nouvelle norme MPEG 4 )
- WMA (Microsoft) pour faibles débits

Basé sur une bibliothèque fixe de vecteurs les plus représentatifs
d’un signal audio. Cette bibliothèque est incluse dans le module de
compression et de décompression
Pas à pas, le codeur recherche dans sa bibliothèque le vecteur le
plus proche du signal à coder. Il code le numéro de ce vecteur et
passe au tronçon suivant
Processus de compression long, même comparé au MP3, qualité
quasi identique

Le Format Ogg Vorbis
Norme concurrente du MP3 récemment passé sous licence GPL
(Open Source)
Les principaux éléments :
- Décomposition fréquentielle par MDCT de taille variable multiple de 2
- Compactage par Huffman quantification par vecteur
- Non limité à la stéréo mais multi-canaux

Principale différence : la plupart des paramètres d’encodage ne sont
pas fixes et sont stockés avec le fichier compressé :
-

Modèle perceptuel
Tables de correspondance pour compactage Huffman ou VQ
L’encodage peut donc changer d’une trame à l’autre pour s’adapter aux changements
Le format est générique, il peut rester identique alors que le procédé s’affine
Seul inconvénient : la place prise pour stocker les paramètres ( 4 Ko, ces données sont ellesmême compressées ! )

Le futur, aujourd’hui : MPEG 4 (1)
Norme très complexe car complète : compression audio, compression
vidéo, générateurs audio/vidéo, effets audio, effets vidéo, etc…
Tous ces types de données peuvent être empaquetés dans un seul
fichier et synchronisés les uns aux autres.
Le domaine de la compression audio profite des avancées réalisées
dans le domaine.
Non compatibilité avec MPEG 1,2,3
Les principes généraux de la compression sont les même :
décomposition en fréquence, modèle conceptuel, quantification des
différentes bandes, compactage des données (en plus de Huffman,
on peut utiliser TwinVQ), mise en trame.
Déjà utilisé sous un format simplifié  Format AAC ( Apple ITunes )

Le futur, aujourd’hui : MPEG 4 (2)
Les ajouts
•
•

•

•

Filter Bank
DCT de longueur 2048 ou 256
TNS ( Temporal noise shaping ).
Filtrage adaptatif permettant une évolution du
bruit de quantification dans le temps
LTP ( Long term prediction )
Reduction des données par analyse de la
redondance d’information d’un bloc
d’échantillon à l’autre
PNS ( Perceptual noise substitution )
Détecte qu’une ou plusieurs bandes de
fréquences s’apparentent à une source de
bruit. Il n’est pas codé, seule l’information de
niveau est envoyée. Le bruit est regénéré
dans le décodeur

Evolution vers le multi-canal
Pour la vidéo, on ne se limite plus à la stéréo. Le 5+1 devient
standard ( Gauche,droite, centre, arrière gauche, arrière droite +
Subwoofer )
Ce format nécessite une compression pour tenir sur un DVD.
Débit utilisable par la partie audio sur le support : 1, 509 Mbits/s
Débit normal de 6 canaux 16 bits 44,1 kHz :
4,233 Mbits/s

Deux normes sont utilisées actuellement :
Dolby AC-3
- Débit : 384 Kbits/s ( rapport d’environ 1/10 ). Compression du niveau MPEG 1

DTS :
- Débit maximal : 1509 Kbits/s ( rapport d’environ 1/4 )

Les formats MPEG 3 AAC et MPEG 4 AAC, futurs sucesseurs ?

Les procédés de compression sans
perte

La compression audio sans perte (1)
Les formats de compression sans perte sont basés sur la redondance
d’information au sein de la source audio. De ce fait les algorithmes
sont différents des procédés de compression avec perte.
Les procédés de compression ’’informatiques’’ ( ZIP ), sont peu
efficaces car basés sur la probabilité statistique de mots
Les applications sont peu nombreuses, donc les recherches moins
avancées que pour les techniques de compression avec pertes
Le taux de compression est variable et dépend du contenu du signal
audio compressé
Les taux de compression relevés en moyenne varient de 1/3 à 4/5
suivant le type de musique et le compresseur
Quelques codeurs : APE, FLAC, WMA Lossless, Quicktime 6.5 …

La compression audio sans perte (2)
La méthode courante utilise la prédiction linéaire
Elle utilise des filtres récursifs d’ordre n pour estimer le signal.

Il peut s’agir d’un FIR (moins efficace) ou d’un IIR (calcul plus
complexe des coefficients)
L’autre solution consiste à utiliser un algorithme de compression avec
perte et de coder l'erreur. C’est le cas du codeur LTAC basé sur une
DCT suivie d’une quantification.
Dans les deux cas, le signal d’erreur et compacté avec un procédé de
type Huffman.

Quelques référence
Très intéressant article sur la compression audio par Bryan Dipert pour EDN Magazine
( http://www.e-insite.net/ednmag/contents/images/47036.pdf )
Bases théoriques. Livres disponibles en ligne :
– The Scientist and Engineer's Guide to Digital Signal Processing ( http://www.dspguide.com/ )
– Numerical Recipes in C. ( http://www.nr.com/ )
Explications sur le format MPEG
– Fraunhofer Institut (http://www.iis.fraunhofer.de/amm/techinf/layer3/index.html )
– http://www.mpeg.org
Pour des recherches plus précises, utilisez le moteur de recherche spécialisé dans la littérature
scientifique ( http://citeseer.nj.nec.com/cs )
Le format Ogg Vorbis : ( http://www.vorbis.com )
La compression sans perte
– Comparatif et liens sur les utilitaires de compression audio
( http://www.firstpr.com.au/audiocomp/lossless/ )
– Théorie sur la compression sans perte ( http://geocities.com/eri32/ )
InnovaSON : http://www.innovason.com

C’est la fin !

A votre tour. Posez vos questions …

Le traitement du signal en Audio. Les procédés de compression audio. Présentation

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (20)

Similaire à Le traitement du signal en Audio. Les procédés de compression audio. Présentation

Similaire à Le traitement du signal en Audio. Les procédés de compression audio. Présentation (20)

Le traitement du signal en Audio. Les procédés de compression audio. Présentation

Notes de l'éditeur