SlideShare une entreprise Scribd logo
1  sur  38
Le traitement du signal en Audio
Les procédés de compression audio
Exemple principal : MPEG 1 Layer 3
Sommaire
Présentation personnelle. Le groupe Digigram.
Les points à connaître pour comprendre les procédés de
compression :
– Pourquoi le numérique ?
– L’oreille humaine et l’audition
– La boîte à outils mathématique : Compactage des données et
Transformée Temps  Fréquence

Les algorithmes de compression :
–
–
–
–

MP3
Autres Algorithmes
Le futur de la compression
Et les algorithmes de compression sans perte ?
Introduction personnelle
La société Innova SON
La société Innova SON
Produits : Consoles de mixage
numérique pour marché Audio Pro
Ciblé sur le spectacle vivant : concerts,
festivals, théâtre, broadcast, etc …
Audio 24 bits / 48 kHz
Surtout pas de compression !
Compétences : TDS (minimal),
Electronique analogique et numérique,
mécanique, intégration, CEM
Pourquoi le numérique ?
Pourquoi travailler en numérique ?
Systèmes analogiques et numériques sont capables de réaliser les même
fonctions (contre-exemples : retard pur / systèmes non linéaires)
Le grande différence avec le format numérique est qu’il est capable de gérer
des signaux dégradés sans perte de données, d’où les qualités suivantes :
–
–
–
–
–
–
–

Immunité du système aux bruits électriques bien plus grande
Précision ajustable suivant son besoin
Faible sensibilité aux conditions extérieures ( température, humidité, vibration, … )
Calibrations et maintenances moins importantes
Taux de défauts en fabrication plus faible
Pannes plus faciles à diagnostiquer et réparer
Interfaçage d’un système avec un ordinateur facile

Attention : les développements en numérique qui profitent de tous les
avantages évoqués ci-dessus sont en logique synchrone.
Les systèmes audio-numériques profitent des avantages cités ci-dessus :
répétabilité, transmission sur de longues distances sans perte, gestion par
ordinateur, compacité, etc …
L’oreille humaine / L’audition
Description de l’oreille
Étrier
Cochlée : enroulée, 35 mm de long
Pavillon
Cochlée
dépliée
Nerf
Auditif
Organe de corti comprenant 2500
Conduit
cellules ciliées (reliées aux nerfs
Auditif externe
auditifs) + 7500 cellules ciliées
Tympan
Enclume
externes (amplification)
Marteau
En fonction de leur position le long de
la cochlée, les cellules ciliées vibrent
pour des fréquences d’excitation différentes.
Les cellules ciliées et les neurones
"saturent" rapidement : le niveau
ressenti du signal n’est pas linéairement
couplé au niveau efficace du son.
Caractéristiques de l’audition (1)
Échelle de niveau logarithmique.
– Niveau sonore perçu est doublé si on multiplie par 10 le nombre
d’instrumentistes.
– Niveaux exprimé en dB SPL
– 0 dB = agitation des
molécules de l’air
– Seuil de la douleur : 140 dB

Réponse en fréquence
complexe :
– 20 Hz~20 kHz ( qu’on dit )
– Dépend du niveau
– Échelle Logarithmique en fréquence : l’octave
Caractéristiques de l’audition (2)
Localisation spatiale du son :
–
–
–
–

Grâce à la différence de niveau sonore entre oreilles
Grâce à la différence temporelle ( <0,6 ms)
Grâce à la forme de la tête, des épaules, du pavillon
Localisation peu ou pas efficace aux basses fréquences

Perception de fréquence très fine ( erreur 1% ) mais …
Masquage
– Fréquentiel : si deux signaux sont de fréquences proches, on n’entendra
que celui de plus fort niveau
– Temporel : un son masquera un autre dans la foulée pendant un court
instant

Perception du timbre : attaque / harmonique / apprentissage
La boîte à outils mathématique
Compactage des données (1)
Le but est de réduire la taille d’un bloc de données
sans perte, en s’appuyant sur ces spécificités. Cas
d’école : compression ZIP, RAR, LZE
Divers algorithmes :
RLE ( Run Length Encoding )
Code la répétition successive d’éléments
AAAAABBBCDDDD

*5ABBBC*4D

*5A  Je répète 5 fois la lettre A
BBBC Je garde BBBC tel quel
Compactage des données (2)
Huffman. Méthode statistique codant les
caractères les plus courants avec les codes les
plus courts.
La bibliothèque de symbole peut être dynamique
(arbre de Huffman) ou fixe
Lempel-ZIV. Basé sur un dictionnaire de mots. Le dictionnaire
contient au démarrage les 256 caractères de base. Il est rempli
au fur et à mesure de l’analyse du fichier
/WED/WE/WEE/WEB

/WED<256>E<260><261><257>B

256

257

258

259

260

261

262

263

264

/W

WE

ED

D/

/WE

E/

/WEE

E/W

WEB
Transformation TempsFréq.
La plupart des algorithmes de compression nécessitent
d’analyser le signal dans l’espace fréquentiel plutôt
que temporel.
Le passage de l’un à l’autre peut être réalisé de
différentes manières, les deux principales étant
Les bancs de filtres unitaires
Un banc de filtre particulier : la transformée de
Fourier et ses déclinaisons. ( DCT, MDCT, …)
Les bancs de filtre (1)
Deux étapes :
– Décomposer le signal en bande de fréquence par un banc
de filtres en parallèle

Freq

– Sous-échantillonner chacune des bandes
Sous-éch.
1/3
Freq

Freq
Les bancs de filtre (2)
Les filtres sont choisis pour leurs propriétés …
– de reconstruction parfaite du signal
– d’atténuation maximale des phénomènes de repliement
– de simplifier les calculs  réduire puissance de calcul

Filtres optimaux : fréquences de coupure sont
multiples de la fréquence d’échantillonnage.
Freq

Les filtres polyphases font partie de cette famille. Leur calcul
simplifié en fait un choix intéressant
La Transformée de Fourier (1)
DFT ( Discrete Fourier transform )
N −1
π
1 x(k).e− j k.2N .n
f(n)= ∑
N k =0
Décomposition du signal en cosinus et sinus
DCT ( Discrete cosine transform )
N −1
1 + 2 . x(k).cos n(2k +1)π 
f(n)=
 2N 
N∑
N


k =1

Décomposition en terme cosinus (partie réelle).
Même base théorique que la DFT.
En plus de l’avantage de travailler en nombres réels et non
complexes, la décomposition par DCT est plus optimale
La Transformée de Fourier (2)
MDCT ( Modified Discrete Cosine Transform)
(2n+1)(2k +1+N 2)π 
f(n)=∑ f(k).x(k).cos


2N
k =0


N −1

Une fonction de pondération f(k) vient se rajouter. Son choix
judicieux permet une reconstruction parfaite du signal tout en
permettant :
– Le chevauchement des zones
temporelles pour limiter
les effets de bord de la DCT
– L’adaptation de la largeur
d’analyse ( précision ou vitesse )

FFT ( Fast Fourier Transform )
La compression ‘’MP3’’
Le MP3. Présentation
Bon exemple des procédés de compression actuels. Mise en
application des études sur l’audition
De son vrai nom MPEG 1 Layer 3. Norme internationale
dérivée du Musicam et ASPEC.
Système numérique, signal échantillonné
Procédé de compression destructif : on perd de l’information
Taux de compression : facteur 1/11 pour une « qualité CD ».
Taux fixe en général
Basé principalement sur l’effet de masquage de l’oreille.
MP3 : Procédé de compression
MP3 : Banque de filtres

Banc de filtres
Spectre en fréquence divisé par un banc de 32 filtres
polyphases de 700 Hz de largeur. Compatible Layer 1 et 2.
Chacune des 32 sorties est traitée par un filtre MDCT
décomposant en 18 sous-bandes
Codage d’un seul canal dans les basses fréquences
Codage de la somme des 2 canaux et un peu de la différence
MP3 : Modèle perceptuel
Cœur de l’algorithme. Qualité de la compression
Analyses par bandes de fréquences indépendantes
des banques de filtres
En général, décomposition par FFT 1024 points
MP3 : Modèle perceptuel
Décomposition du spectre en
composantes tonales et non
tonales
Calcul du seuil de masquage
par fréquence

Rapport signal / seuil de
masquage
On en déduit le nombre
de bits par bande de fréquence
MP3 : Allocation de bits
Dec.
0
1
2
3

Bin.
00
01
10
11

Huffman
0
10
110
111

But de la manœuvre : allouer le nombre de bits permettant de coder
chaque bande de fréquence afin de suivre la courbe de masquage.
Huffman : valeurs petites codées avec moins de bits
Allouer des bits consiste alors au augmenter le gain par bande
Bouclage jusqu’à ce que l’allocation soit optimale
MP3 : Mise en forme / Décodage
Mettre en forme les données binaires produites
aux étapes précédentes dans une structure
définie
En plus des données audio, on rajoute d’autres
données : format, nom, type de codage, etc. …
Décodage : on inverse les étapes.
Pas de modèle perceptuel qui ne sert qu’au
codage pour supprimer les informations
Du coup le décodage est une étape très simple
comparée à la compression
D’autres formats de compression
MP3 Pro / WMA / ATRAC
MP3 Pro. Compatible MP3 avec tout lecteur MP3 standard. Le
procédé SBR rajoute quelque kbits/s permettant de reconstruire
les hautes fréquences perdues dans les MP3 < 128 kbit/s
WMA. Format Microsoft. Basé sur une MDCT ( pas de Banque de
filtres ). En plus la ‘Substitution de bruit’, en moins pas de codage
de la stéréo
ATRAC. Minidisc SONY. Taux de compression de 1/5 d’un signal
16 bits / 44.1 kHz. Décomposition en 3 bandes principales suivie
de 3 MDCT 512 points.
La quantification vectorielle
Procédé utilisé dans les formats
- VQF (Yamaha)
- TwinVQ (intégré à la nouvelle norme MPEG 4 )
- WMA (Microsoft) pour faibles débits

Basé sur une bibliothèque fixe de vecteurs les plus représentatifs
d’un signal audio. Cette bibliothèque est incluse dans le module de
compression et de décompression
Pas à pas, le codeur recherche dans sa bibliothèque le vecteur le
plus proche du signal à coder. Il code le numéro de ce vecteur et
passe au tronçon suivant
Processus de compression long, même comparé au MP3, qualité
quasi identique
Le Format Ogg Vorbis
Norme concurrente du MP3 récemment passé sous licence GPL
(Open Source)
Les principaux éléments :
- Décomposition fréquentielle par MDCT de taille variable multiple de 2
- Compactage par Huffman quantification par vecteur
- Non limité à la stéréo mais multi-canaux

Principale différence : la plupart des paramètres d’encodage ne sont
pas fixes et sont stockés avec le fichier compressé :
-

Modèle perceptuel
Tables de correspondance pour compactage Huffman ou VQ
L’encodage peut donc changer d’une trame à l’autre pour s’adapter aux changements
Le format est générique, il peut rester identique alors que le procédé s’affine
Seul inconvénient : la place prise pour stocker les paramètres ( 4 Ko, ces données sont ellesmême compressées ! )
Le futur, aujourd’hui : MPEG 4 (1)
Norme très complexe car complète : compression audio, compression
vidéo, générateurs audio/vidéo, effets audio, effets vidéo, etc…
Tous ces types de données peuvent être empaquetés dans un seul
fichier et synchronisés les uns aux autres.
Le domaine de la compression audio profite des avancées réalisées
dans le domaine.
Non compatibilité avec MPEG 1,2,3
Les principes généraux de la compression sont les même :
décomposition en fréquence, modèle conceptuel, quantification des
différentes bandes, compactage des données (en plus de Huffman,
on peut utiliser TwinVQ), mise en trame.
Déjà utilisé sous un format simplifié  Format AAC ( Apple ITunes )
Le futur, aujourd’hui : MPEG 4 (2)
Les ajouts
•
•

•

•

Filter Bank
DCT de longueur 2048 ou 256
TNS ( Temporal noise shaping ).
Filtrage adaptatif permettant une évolution du
bruit de quantification dans le temps
LTP ( Long term prediction )
Reduction des données par analyse de la
redondance d’information d’un bloc
d’échantillon à l’autre
PNS ( Perceptual noise substitution )
Détecte qu’une ou plusieurs bandes de
fréquences s’apparentent à une source de
bruit. Il n’est pas codé, seule l’information de
niveau est envoyée. Le bruit est regénéré
dans le décodeur
Evolution vers le multi-canal
Pour la vidéo, on ne se limite plus à la stéréo. Le 5+1 devient
standard ( Gauche,droite, centre, arrière gauche, arrière droite +
Subwoofer )
Ce format nécessite une compression pour tenir sur un DVD.
Débit utilisable par la partie audio sur le support : 1, 509 Mbits/s
Débit normal de 6 canaux 16 bits 44,1 kHz :
4,233 Mbits/s

Deux normes sont utilisées actuellement :
Dolby AC-3
- Débit : 384 Kbits/s ( rapport d’environ 1/10 ). Compression du niveau MPEG 1

DTS :
- Débit maximal : 1509 Kbits/s ( rapport d’environ 1/4 )

Les formats MPEG 3 AAC et MPEG 4 AAC, futurs sucesseurs ?
Les procédés de compression sans
perte
La compression audio sans perte (1)
Les formats de compression sans perte sont basés sur la redondance
d’information au sein de la source audio. De ce fait les algorithmes
sont différents des procédés de compression avec perte.
Les procédés de compression ’’informatiques’’ ( ZIP ), sont peu
efficaces car basés sur la probabilité statistique de mots
Les applications sont peu nombreuses, donc les recherches moins
avancées que pour les techniques de compression avec pertes
Le taux de compression est variable et dépend du contenu du signal
audio compressé
Les taux de compression relevés en moyenne varient de 1/3 à 4/5
suivant le type de musique et le compresseur
Quelques codeurs : APE, FLAC, WMA Lossless, Quicktime 6.5 …
La compression audio sans perte (2)
La méthode courante utilise la prédiction linéaire
Elle utilise des filtres récursifs d’ordre n pour estimer le signal.

Il peut s’agir d’un FIR (moins efficace) ou d’un IIR (calcul plus
complexe des coefficients)
L’autre solution consiste à utiliser un algorithme de compression avec
perte et de coder l'erreur. C’est le cas du codeur LTAC basé sur une
DCT suivie d’une quantification.
Dans les deux cas, le signal d’erreur et compacté avec un procédé de
type Huffman.
Quelques référence
Très intéressant article sur la compression audio par Bryan Dipert pour EDN Magazine
( http://www.e-insite.net/ednmag/contents/images/47036.pdf )
Bases théoriques. Livres disponibles en ligne :
– The Scientist and Engineer's Guide to Digital Signal Processing ( http://www.dspguide.com/ )
– Numerical Recipes in C. ( http://www.nr.com/ )
Explications sur le format MPEG
– Fraunhofer Institut (http://www.iis.fraunhofer.de/amm/techinf/layer3/index.html )
– http://www.mpeg.org
Pour des recherches plus précises, utilisez le moteur de recherche spécialisé dans la littérature
scientifique ( http://citeseer.nj.nec.com/cs )
Le format Ogg Vorbis : ( http://www.vorbis.com )
La compression sans perte
– Comparatif et liens sur les utilitaires de compression audio
( http://www.firstpr.com.au/audiocomp/lossless/ )
– Théorie sur la compression sans perte ( http://geocities.com/eri32/ )
InnovaSON : http://www.innovason.com
C’est la fin !

A votre tour. Posez vos questions …

Contenu connexe

Tendances

Assembler design option
Assembler design optionAssembler design option
Assembler design optionMohd Arif
 
Chapitre5 les chaînes de caractères - Copy.pptx
Chapitre5 les chaînes de caractères - Copy.pptxChapitre5 les chaînes de caractères - Copy.pptx
Chapitre5 les chaînes de caractères - Copy.pptxFerdawsBNasrBSalah
 
Transform coding
Transform codingTransform coding
Transform codingNancy K
 
Chapter 5 - Data Compression
Chapter 5 - Data CompressionChapter 5 - Data Compression
Chapter 5 - Data CompressionPratik Pradhan
 
Video et formats numeriques
Video et formats numeriquesVideo et formats numeriques
Video et formats numeriquesReseau Informed
 
Image Enhancement in Spatial Domain
Image Enhancement in Spatial DomainImage Enhancement in Spatial Domain
Image Enhancement in Spatial DomainDEEPASHRI HK
 
Examen principal - Fondement Multimedia - correction
Examen principal - Fondement Multimedia - correctionExamen principal - Fondement Multimedia - correction
Examen principal - Fondement Multimedia - correctionInes Ouaz
 
Video Compression, Part 3-Section 1, Some Standard Video Codecs
Video Compression, Part 3-Section 1, Some Standard Video CodecsVideo Compression, Part 3-Section 1, Some Standard Video Codecs
Video Compression, Part 3-Section 1, Some Standard Video CodecsDr. Mohieddin Moradi
 
Cour systeme d'exploitation sghaier anouar
Cour systeme d'exploitation sghaier anouarCour systeme d'exploitation sghaier anouar
Cour systeme d'exploitation sghaier anouarAnouar Sghaier
 
Video Compression Basics - MPEG2
Video Compression Basics - MPEG2Video Compression Basics - MPEG2
Video Compression Basics - MPEG2VijayKumarArya
 
Introduction to Video Compression Techniques - Anurag Jain
Introduction to Video Compression Techniques - Anurag JainIntroduction to Video Compression Techniques - Anurag Jain
Introduction to Video Compression Techniques - Anurag JainVideoguy
 
Compression: Images (JPEG)
Compression: Images (JPEG)Compression: Images (JPEG)
Compression: Images (JPEG)danishrafiq
 

Tendances (20)

Assembler design option
Assembler design optionAssembler design option
Assembler design option
 
Codecs
CodecsCodecs
Codecs
 
JPEG Image Compression
JPEG Image CompressionJPEG Image Compression
JPEG Image Compression
 
Chapitre5 les chaînes de caractères - Copy.pptx
Chapitre5 les chaînes de caractères - Copy.pptxChapitre5 les chaînes de caractères - Copy.pptx
Chapitre5 les chaînes de caractères - Copy.pptx
 
Transform coding
Transform codingTransform coding
Transform coding
 
Multimedia Network
Multimedia NetworkMultimedia Network
Multimedia Network
 
Chapter 5 - Data Compression
Chapter 5 - Data CompressionChapter 5 - Data Compression
Chapter 5 - Data Compression
 
Architecture IPTV
Architecture IPTVArchitecture IPTV
Architecture IPTV
 
Video et formats numeriques
Video et formats numeriquesVideo et formats numeriques
Video et formats numeriques
 
Text compression
Text compressionText compression
Text compression
 
Image Enhancement in Spatial Domain
Image Enhancement in Spatial DomainImage Enhancement in Spatial Domain
Image Enhancement in Spatial Domain
 
Lzw
LzwLzw
Lzw
 
Examen principal - Fondement Multimedia - correction
Examen principal - Fondement Multimedia - correctionExamen principal - Fondement Multimedia - correction
Examen principal - Fondement Multimedia - correction
 
Video Compression, Part 3-Section 1, Some Standard Video Codecs
Video Compression, Part 3-Section 1, Some Standard Video CodecsVideo Compression, Part 3-Section 1, Some Standard Video Codecs
Video Compression, Part 3-Section 1, Some Standard Video Codecs
 
Cour systeme d'exploitation sghaier anouar
Cour systeme d'exploitation sghaier anouarCour systeme d'exploitation sghaier anouar
Cour systeme d'exploitation sghaier anouar
 
Compression video
Compression videoCompression video
Compression video
 
Video Compression Basics - MPEG2
Video Compression Basics - MPEG2Video Compression Basics - MPEG2
Video Compression Basics - MPEG2
 
Introduction to Video Compression Techniques - Anurag Jain
Introduction to Video Compression Techniques - Anurag JainIntroduction to Video Compression Techniques - Anurag Jain
Introduction to Video Compression Techniques - Anurag Jain
 
H263.ppt
H263.pptH263.ppt
H263.ppt
 
Compression: Images (JPEG)
Compression: Images (JPEG)Compression: Images (JPEG)
Compression: Images (JPEG)
 

En vedette

Le traitement du signal en Audio. Les procédés de compression audio. Annexe ...
Le traitement du signal en Audio. Les  procédés de compression audio. Annexe ...Le traitement du signal en Audio. Les  procédés de compression audio. Annexe ...
Le traitement du signal en Audio. Les procédés de compression audio. Annexe ...Vincent RECIPON
 
Antecedentes de administración
Antecedentes de administraciónAntecedentes de administración
Antecedentes de administraciónultrapegaso
 
Apartes de la Charla: VIAJE A EGIPTO_5 de Diciembre de 2015_Parte I
Apartes de la Charla: VIAJE A EGIPTO_5 de Diciembre de 2015_Parte IApartes de la Charla: VIAJE A EGIPTO_5 de Diciembre de 2015_Parte I
Apartes de la Charla: VIAJE A EGIPTO_5 de Diciembre de 2015_Parte ISOCIEDAD JULIO GARAVITO
 
Formation compu training
Formation compu trainingFormation compu training
Formation compu trainingMJBD92
 
La Firma Digital
La Firma DigitalLa Firma Digital
La Firma DigitalStalin Jara
 
Presentación comercial eco innovación
Presentación comercial eco innovaciónPresentación comercial eco innovación
Presentación comercial eco innovaciónEVM
 
Tc01 tp4 corrige
Tc01 tp4 corrigeTc01 tp4 corrige
Tc01 tp4 corrigeDoon Ali
 
Charla del Sábado 18/02/2012: De los átomos a las naves espaciales
Charla del Sábado 18/02/2012: De los átomos a las naves espacialesCharla del Sábado 18/02/2012: De los átomos a las naves espaciales
Charla del Sábado 18/02/2012: De los átomos a las naves espacialesSOCIEDAD JULIO GARAVITO
 
Enquete insertion professionnelle - MASTER Audiovisuel et Multimedia - Promot...
Enquete insertion professionnelle - MASTER Audiovisuel et Multimedia - Promot...Enquete insertion professionnelle - MASTER Audiovisuel et Multimedia - Promot...
Enquete insertion professionnelle - MASTER Audiovisuel et Multimedia - Promot...AVVAL
 
#TOTEC 5/12/2013, Paris
#TOTEC 5/12/2013, Paris#TOTEC 5/12/2013, Paris
#TOTEC 5/12/2013, ParisAnaïs Couto
 

En vedette (20)

Le traitement du signal en Audio. Les procédés de compression audio. Annexe ...
Le traitement du signal en Audio. Les  procédés de compression audio. Annexe ...Le traitement du signal en Audio. Les  procédés de compression audio. Annexe ...
Le traitement du signal en Audio. Les procédés de compression audio. Annexe ...
 
Antecedentes de administración
Antecedentes de administraciónAntecedentes de administración
Antecedentes de administración
 
Apartes de la Charla: VIAJE A EGIPTO_5 de Diciembre de 2015_Parte I
Apartes de la Charla: VIAJE A EGIPTO_5 de Diciembre de 2015_Parte IApartes de la Charla: VIAJE A EGIPTO_5 de Diciembre de 2015_Parte I
Apartes de la Charla: VIAJE A EGIPTO_5 de Diciembre de 2015_Parte I
 
Mes amis
Mes amisMes amis
Mes amis
 
Dcn 2009
Dcn 2009Dcn 2009
Dcn 2009
 
Arzúa
ArzúaArzúa
Arzúa
 
Formation compu training
Formation compu trainingFormation compu training
Formation compu training
 
La Firma Digital
La Firma DigitalLa Firma Digital
La Firma Digital
 
Partition fabula
Partition fabulaPartition fabula
Partition fabula
 
Presentación comercial eco innovación
Presentación comercial eco innovaciónPresentación comercial eco innovación
Presentación comercial eco innovación
 
Tc01 tp4 corrige
Tc01 tp4 corrigeTc01 tp4 corrige
Tc01 tp4 corrige
 
3rd me question papers december 2013
3rd me question papers december 20133rd me question papers december 2013
3rd me question papers december 2013
 
Cahier personnel hda
Cahier personnel hdaCahier personnel hda
Cahier personnel hda
 
Charla del Sábado 18/02/2012: De los átomos a las naves espaciales
Charla del Sábado 18/02/2012: De los átomos a las naves espacialesCharla del Sábado 18/02/2012: De los átomos a las naves espaciales
Charla del Sábado 18/02/2012: De los átomos a las naves espaciales
 
Enquete insertion professionnelle - MASTER Audiovisuel et Multimedia - Promot...
Enquete insertion professionnelle - MASTER Audiovisuel et Multimedia - Promot...Enquete insertion professionnelle - MASTER Audiovisuel et Multimedia - Promot...
Enquete insertion professionnelle - MASTER Audiovisuel et Multimedia - Promot...
 
Html
HtmlHtml
Html
 
Juvo
JuvoJuvo
Juvo
 
#TOTEC 5/12/2013, Paris
#TOTEC 5/12/2013, Paris#TOTEC 5/12/2013, Paris
#TOTEC 5/12/2013, Paris
 
Is carrieres
Is carrieres Is carrieres
Is carrieres
 
Analyse série numérique
Analyse série numériqueAnalyse série numérique
Analyse série numérique
 

Similaire à Le traitement du signal en Audio. Les procédés de compression audio. Présentation

audionum numerique .pdf
audionum numerique .pdfaudionum numerique .pdf
audionum numerique .pdfzayd6
 
Cours Benhabiles TMS320.pdf
Cours Benhabiles TMS320.pdfCours Benhabiles TMS320.pdf
Cours Benhabiles TMS320.pdfHouBou3
 
Lexique mao
Lexique maoLexique mao
Lexique maopozortun
 
Les mathématiques au service du transport de l’information
Les mathématiques au service du transport de l’informationLes mathématiques au service du transport de l’information
Les mathématiques au service du transport de l’informationDany-Jack Mercier
 
Usrp episode 1: smoke gets in your eyes
Usrp episode 1: smoke gets in your eyesUsrp episode 1: smoke gets in your eyes
Usrp episode 1: smoke gets in your eyes📡 Sebastien Dudek
 
Systèmes audio Fin 2 (1).ppsx
Systèmes audio Fin 2 (1).ppsxSystèmes audio Fin 2 (1).ppsx
Systèmes audio Fin 2 (1).ppsxHadjer Kaddour
 
Turbo code
Turbo codeTurbo code
Turbo coden allali
 
2014 04-10 nebhen
2014 04-10 nebhen2014 04-10 nebhen
2014 04-10 nebhenSCEE Team
 
Digital Signal Processor ( DSP ) [French]
Digital Signal Processor ( DSP )  [French]Digital Signal Processor ( DSP )  [French]
Digital Signal Processor ( DSP ) [French]Assia Mounir
 
examen en DSP 2023.pdf
examen en DSP 2023.pdfexamen en DSP 2023.pdf
examen en DSP 2023.pdfkamouf
 
Cours de PIC Généralités.pdf
Cours de PIC Généralités.pdfCours de PIC Généralités.pdf
Cours de PIC Généralités.pdfAliRami3
 
Diabang et fatimetou mennou rapport design &amp; simulation of dssss using ma...
Diabang et fatimetou mennou rapport design &amp; simulation of dssss using ma...Diabang et fatimetou mennou rapport design &amp; simulation of dssss using ma...
Diabang et fatimetou mennou rapport design &amp; simulation of dssss using ma...Cheikh Tidiane DIABANG
 
Lamini&farsane traitement de_signale
Lamini&farsane traitement de_signaleLamini&farsane traitement de_signale
Lamini&farsane traitement de_signaleAsmae Lamini
 
Présentation telegramme morlaix
Présentation telegramme morlaixPrésentation telegramme morlaix
Présentation telegramme morlaixArkhenum
 
Digital_Signal_Processors_TG_FULL.pdf
Digital_Signal_Processors_TG_FULL.pdfDigital_Signal_Processors_TG_FULL.pdf
Digital_Signal_Processors_TG_FULL.pdfHouBou3
 

Similaire à Le traitement du signal en Audio. Les procédés de compression audio. Présentation (20)

audionum numerique .pdf
audionum numerique .pdfaudionum numerique .pdf
audionum numerique .pdf
 
Criteres evalformatscompressioncicmhd3d
Criteres evalformatscompressioncicmhd3dCriteres evalformatscompressioncicmhd3d
Criteres evalformatscompressioncicmhd3d
 
Cours Benhabiles TMS320.pdf
Cours Benhabiles TMS320.pdfCours Benhabiles TMS320.pdf
Cours Benhabiles TMS320.pdf
 
Lexique mao
Lexique maoLexique mao
Lexique mao
 
Les mathématiques au service du transport de l’information
Les mathématiques au service du transport de l’informationLes mathématiques au service du transport de l’information
Les mathématiques au service du transport de l’information
 
Usrp episode 1: smoke gets in your eyes
Usrp episode 1: smoke gets in your eyesUsrp episode 1: smoke gets in your eyes
Usrp episode 1: smoke gets in your eyes
 
DSP
DSPDSP
DSP
 
Systèmes audio Fin 2 (1).ppsx
Systèmes audio Fin 2 (1).ppsxSystèmes audio Fin 2 (1).ppsx
Systèmes audio Fin 2 (1).ppsx
 
Turbo code
Turbo codeTurbo code
Turbo code
 
Cours6 cdmm suite
Cours6 cdmm suiteCours6 cdmm suite
Cours6 cdmm suite
 
dsp.ppt
dsp.pptdsp.ppt
dsp.ppt
 
2014 04-10 nebhen
2014 04-10 nebhen2014 04-10 nebhen
2014 04-10 nebhen
 
Digital Signal Processor ( DSP ) [French]
Digital Signal Processor ( DSP )  [French]Digital Signal Processor ( DSP )  [French]
Digital Signal Processor ( DSP ) [French]
 
examen en DSP 2023.pdf
examen en DSP 2023.pdfexamen en DSP 2023.pdf
examen en DSP 2023.pdf
 
Cours de PIC Généralités.pdf
Cours de PIC Généralités.pdfCours de PIC Généralités.pdf
Cours de PIC Généralités.pdf
 
Diabang et fatimetou mennou rapport design &amp; simulation of dssss using ma...
Diabang et fatimetou mennou rapport design &amp; simulation of dssss using ma...Diabang et fatimetou mennou rapport design &amp; simulation of dssss using ma...
Diabang et fatimetou mennou rapport design &amp; simulation of dssss using ma...
 
Lamini&farsane traitement de_signale
Lamini&farsane traitement de_signaleLamini&farsane traitement de_signale
Lamini&farsane traitement de_signale
 
Chap1 dsp
Chap1 dspChap1 dsp
Chap1 dsp
 
Présentation telegramme morlaix
Présentation telegramme morlaixPrésentation telegramme morlaix
Présentation telegramme morlaix
 
Digital_Signal_Processors_TG_FULL.pdf
Digital_Signal_Processors_TG_FULL.pdfDigital_Signal_Processors_TG_FULL.pdf
Digital_Signal_Processors_TG_FULL.pdf
 

Le traitement du signal en Audio. Les procédés de compression audio. Présentation

  • 1. Le traitement du signal en Audio Les procédés de compression audio Exemple principal : MPEG 1 Layer 3
  • 2. Sommaire Présentation personnelle. Le groupe Digigram. Les points à connaître pour comprendre les procédés de compression : – Pourquoi le numérique ? – L’oreille humaine et l’audition – La boîte à outils mathématique : Compactage des données et Transformée Temps  Fréquence Les algorithmes de compression : – – – – MP3 Autres Algorithmes Le futur de la compression Et les algorithmes de compression sans perte ?
  • 4. La société Innova SON Produits : Consoles de mixage numérique pour marché Audio Pro Ciblé sur le spectacle vivant : concerts, festivals, théâtre, broadcast, etc … Audio 24 bits / 48 kHz Surtout pas de compression ! Compétences : TDS (minimal), Electronique analogique et numérique, mécanique, intégration, CEM
  • 6. Pourquoi travailler en numérique ? Systèmes analogiques et numériques sont capables de réaliser les même fonctions (contre-exemples : retard pur / systèmes non linéaires) Le grande différence avec le format numérique est qu’il est capable de gérer des signaux dégradés sans perte de données, d’où les qualités suivantes : – – – – – – – Immunité du système aux bruits électriques bien plus grande Précision ajustable suivant son besoin Faible sensibilité aux conditions extérieures ( température, humidité, vibration, … ) Calibrations et maintenances moins importantes Taux de défauts en fabrication plus faible Pannes plus faciles à diagnostiquer et réparer Interfaçage d’un système avec un ordinateur facile Attention : les développements en numérique qui profitent de tous les avantages évoqués ci-dessus sont en logique synchrone. Les systèmes audio-numériques profitent des avantages cités ci-dessus : répétabilité, transmission sur de longues distances sans perte, gestion par ordinateur, compacité, etc …
  • 7. L’oreille humaine / L’audition
  • 8. Description de l’oreille Étrier Cochlée : enroulée, 35 mm de long Pavillon Cochlée dépliée Nerf Auditif Organe de corti comprenant 2500 Conduit cellules ciliées (reliées aux nerfs Auditif externe auditifs) + 7500 cellules ciliées Tympan Enclume externes (amplification) Marteau En fonction de leur position le long de la cochlée, les cellules ciliées vibrent pour des fréquences d’excitation différentes. Les cellules ciliées et les neurones "saturent" rapidement : le niveau ressenti du signal n’est pas linéairement couplé au niveau efficace du son.
  • 9. Caractéristiques de l’audition (1) Échelle de niveau logarithmique. – Niveau sonore perçu est doublé si on multiplie par 10 le nombre d’instrumentistes. – Niveaux exprimé en dB SPL – 0 dB = agitation des molécules de l’air – Seuil de la douleur : 140 dB Réponse en fréquence complexe : – 20 Hz~20 kHz ( qu’on dit ) – Dépend du niveau – Échelle Logarithmique en fréquence : l’octave
  • 10. Caractéristiques de l’audition (2) Localisation spatiale du son : – – – – Grâce à la différence de niveau sonore entre oreilles Grâce à la différence temporelle ( <0,6 ms) Grâce à la forme de la tête, des épaules, du pavillon Localisation peu ou pas efficace aux basses fréquences Perception de fréquence très fine ( erreur 1% ) mais … Masquage – Fréquentiel : si deux signaux sont de fréquences proches, on n’entendra que celui de plus fort niveau – Temporel : un son masquera un autre dans la foulée pendant un court instant Perception du timbre : attaque / harmonique / apprentissage
  • 11. La boîte à outils mathématique
  • 12. Compactage des données (1) Le but est de réduire la taille d’un bloc de données sans perte, en s’appuyant sur ces spécificités. Cas d’école : compression ZIP, RAR, LZE Divers algorithmes : RLE ( Run Length Encoding ) Code la répétition successive d’éléments AAAAABBBCDDDD *5ABBBC*4D *5A  Je répète 5 fois la lettre A BBBC Je garde BBBC tel quel
  • 13. Compactage des données (2) Huffman. Méthode statistique codant les caractères les plus courants avec les codes les plus courts. La bibliothèque de symbole peut être dynamique (arbre de Huffman) ou fixe Lempel-ZIV. Basé sur un dictionnaire de mots. Le dictionnaire contient au démarrage les 256 caractères de base. Il est rempli au fur et à mesure de l’analyse du fichier /WED/WE/WEE/WEB /WED<256>E<260><261><257>B 256 257 258 259 260 261 262 263 264 /W WE ED D/ /WE E/ /WEE E/W WEB
  • 14. Transformation TempsFréq. La plupart des algorithmes de compression nécessitent d’analyser le signal dans l’espace fréquentiel plutôt que temporel. Le passage de l’un à l’autre peut être réalisé de différentes manières, les deux principales étant Les bancs de filtres unitaires Un banc de filtre particulier : la transformée de Fourier et ses déclinaisons. ( DCT, MDCT, …)
  • 15. Les bancs de filtre (1) Deux étapes : – Décomposer le signal en bande de fréquence par un banc de filtres en parallèle Freq – Sous-échantillonner chacune des bandes Sous-éch. 1/3 Freq Freq
  • 16. Les bancs de filtre (2) Les filtres sont choisis pour leurs propriétés … – de reconstruction parfaite du signal – d’atténuation maximale des phénomènes de repliement – de simplifier les calculs  réduire puissance de calcul Filtres optimaux : fréquences de coupure sont multiples de la fréquence d’échantillonnage. Freq Les filtres polyphases font partie de cette famille. Leur calcul simplifié en fait un choix intéressant
  • 17. La Transformée de Fourier (1) DFT ( Discrete Fourier transform ) N −1 π 1 x(k).e− j k.2N .n f(n)= ∑ N k =0 Décomposition du signal en cosinus et sinus DCT ( Discrete cosine transform ) N −1 1 + 2 . x(k).cos n(2k +1)π  f(n)=  2N  N∑ N   k =1 Décomposition en terme cosinus (partie réelle). Même base théorique que la DFT. En plus de l’avantage de travailler en nombres réels et non complexes, la décomposition par DCT est plus optimale
  • 18. La Transformée de Fourier (2) MDCT ( Modified Discrete Cosine Transform) (2n+1)(2k +1+N 2)π  f(n)=∑ f(k).x(k).cos   2N k =0   N −1 Une fonction de pondération f(k) vient se rajouter. Son choix judicieux permet une reconstruction parfaite du signal tout en permettant : – Le chevauchement des zones temporelles pour limiter les effets de bord de la DCT – L’adaptation de la largeur d’analyse ( précision ou vitesse ) FFT ( Fast Fourier Transform )
  • 20. Le MP3. Présentation Bon exemple des procédés de compression actuels. Mise en application des études sur l’audition De son vrai nom MPEG 1 Layer 3. Norme internationale dérivée du Musicam et ASPEC. Système numérique, signal échantillonné Procédé de compression destructif : on perd de l’information Taux de compression : facteur 1/11 pour une « qualité CD ». Taux fixe en général Basé principalement sur l’effet de masquage de l’oreille.
  • 21. MP3 : Procédé de compression
  • 22. MP3 : Banque de filtres Banc de filtres Spectre en fréquence divisé par un banc de 32 filtres polyphases de 700 Hz de largeur. Compatible Layer 1 et 2. Chacune des 32 sorties est traitée par un filtre MDCT décomposant en 18 sous-bandes Codage d’un seul canal dans les basses fréquences Codage de la somme des 2 canaux et un peu de la différence
  • 23. MP3 : Modèle perceptuel Cœur de l’algorithme. Qualité de la compression Analyses par bandes de fréquences indépendantes des banques de filtres En général, décomposition par FFT 1024 points
  • 24. MP3 : Modèle perceptuel Décomposition du spectre en composantes tonales et non tonales Calcul du seuil de masquage par fréquence Rapport signal / seuil de masquage On en déduit le nombre de bits par bande de fréquence
  • 25. MP3 : Allocation de bits Dec. 0 1 2 3 Bin. 00 01 10 11 Huffman 0 10 110 111 But de la manœuvre : allouer le nombre de bits permettant de coder chaque bande de fréquence afin de suivre la courbe de masquage. Huffman : valeurs petites codées avec moins de bits Allouer des bits consiste alors au augmenter le gain par bande Bouclage jusqu’à ce que l’allocation soit optimale
  • 26. MP3 : Mise en forme / Décodage Mettre en forme les données binaires produites aux étapes précédentes dans une structure définie En plus des données audio, on rajoute d’autres données : format, nom, type de codage, etc. … Décodage : on inverse les étapes. Pas de modèle perceptuel qui ne sert qu’au codage pour supprimer les informations Du coup le décodage est une étape très simple comparée à la compression
  • 27. D’autres formats de compression
  • 28. MP3 Pro / WMA / ATRAC MP3 Pro. Compatible MP3 avec tout lecteur MP3 standard. Le procédé SBR rajoute quelque kbits/s permettant de reconstruire les hautes fréquences perdues dans les MP3 < 128 kbit/s WMA. Format Microsoft. Basé sur une MDCT ( pas de Banque de filtres ). En plus la ‘Substitution de bruit’, en moins pas de codage de la stéréo ATRAC. Minidisc SONY. Taux de compression de 1/5 d’un signal 16 bits / 44.1 kHz. Décomposition en 3 bandes principales suivie de 3 MDCT 512 points.
  • 29. La quantification vectorielle Procédé utilisé dans les formats - VQF (Yamaha) - TwinVQ (intégré à la nouvelle norme MPEG 4 ) - WMA (Microsoft) pour faibles débits Basé sur une bibliothèque fixe de vecteurs les plus représentatifs d’un signal audio. Cette bibliothèque est incluse dans le module de compression et de décompression Pas à pas, le codeur recherche dans sa bibliothèque le vecteur le plus proche du signal à coder. Il code le numéro de ce vecteur et passe au tronçon suivant Processus de compression long, même comparé au MP3, qualité quasi identique
  • 30. Le Format Ogg Vorbis Norme concurrente du MP3 récemment passé sous licence GPL (Open Source) Les principaux éléments : - Décomposition fréquentielle par MDCT de taille variable multiple de 2 - Compactage par Huffman quantification par vecteur - Non limité à la stéréo mais multi-canaux Principale différence : la plupart des paramètres d’encodage ne sont pas fixes et sont stockés avec le fichier compressé : - Modèle perceptuel Tables de correspondance pour compactage Huffman ou VQ L’encodage peut donc changer d’une trame à l’autre pour s’adapter aux changements Le format est générique, il peut rester identique alors que le procédé s’affine Seul inconvénient : la place prise pour stocker les paramètres ( 4 Ko, ces données sont ellesmême compressées ! )
  • 31. Le futur, aujourd’hui : MPEG 4 (1) Norme très complexe car complète : compression audio, compression vidéo, générateurs audio/vidéo, effets audio, effets vidéo, etc… Tous ces types de données peuvent être empaquetés dans un seul fichier et synchronisés les uns aux autres. Le domaine de la compression audio profite des avancées réalisées dans le domaine. Non compatibilité avec MPEG 1,2,3 Les principes généraux de la compression sont les même : décomposition en fréquence, modèle conceptuel, quantification des différentes bandes, compactage des données (en plus de Huffman, on peut utiliser TwinVQ), mise en trame. Déjà utilisé sous un format simplifié  Format AAC ( Apple ITunes )
  • 32. Le futur, aujourd’hui : MPEG 4 (2) Les ajouts • • • • Filter Bank DCT de longueur 2048 ou 256 TNS ( Temporal noise shaping ). Filtrage adaptatif permettant une évolution du bruit de quantification dans le temps LTP ( Long term prediction ) Reduction des données par analyse de la redondance d’information d’un bloc d’échantillon à l’autre PNS ( Perceptual noise substitution ) Détecte qu’une ou plusieurs bandes de fréquences s’apparentent à une source de bruit. Il n’est pas codé, seule l’information de niveau est envoyée. Le bruit est regénéré dans le décodeur
  • 33. Evolution vers le multi-canal Pour la vidéo, on ne se limite plus à la stéréo. Le 5+1 devient standard ( Gauche,droite, centre, arrière gauche, arrière droite + Subwoofer ) Ce format nécessite une compression pour tenir sur un DVD. Débit utilisable par la partie audio sur le support : 1, 509 Mbits/s Débit normal de 6 canaux 16 bits 44,1 kHz : 4,233 Mbits/s Deux normes sont utilisées actuellement : Dolby AC-3 - Débit : 384 Kbits/s ( rapport d’environ 1/10 ). Compression du niveau MPEG 1 DTS : - Débit maximal : 1509 Kbits/s ( rapport d’environ 1/4 ) Les formats MPEG 3 AAC et MPEG 4 AAC, futurs sucesseurs ?
  • 34. Les procédés de compression sans perte
  • 35. La compression audio sans perte (1) Les formats de compression sans perte sont basés sur la redondance d’information au sein de la source audio. De ce fait les algorithmes sont différents des procédés de compression avec perte. Les procédés de compression ’’informatiques’’ ( ZIP ), sont peu efficaces car basés sur la probabilité statistique de mots Les applications sont peu nombreuses, donc les recherches moins avancées que pour les techniques de compression avec pertes Le taux de compression est variable et dépend du contenu du signal audio compressé Les taux de compression relevés en moyenne varient de 1/3 à 4/5 suivant le type de musique et le compresseur Quelques codeurs : APE, FLAC, WMA Lossless, Quicktime 6.5 …
  • 36. La compression audio sans perte (2) La méthode courante utilise la prédiction linéaire Elle utilise des filtres récursifs d’ordre n pour estimer le signal. Il peut s’agir d’un FIR (moins efficace) ou d’un IIR (calcul plus complexe des coefficients) L’autre solution consiste à utiliser un algorithme de compression avec perte et de coder l'erreur. C’est le cas du codeur LTAC basé sur une DCT suivie d’une quantification. Dans les deux cas, le signal d’erreur et compacté avec un procédé de type Huffman.
  • 37. Quelques référence Très intéressant article sur la compression audio par Bryan Dipert pour EDN Magazine ( http://www.e-insite.net/ednmag/contents/images/47036.pdf ) Bases théoriques. Livres disponibles en ligne : – The Scientist and Engineer's Guide to Digital Signal Processing ( http://www.dspguide.com/ ) – Numerical Recipes in C. ( http://www.nr.com/ ) Explications sur le format MPEG – Fraunhofer Institut (http://www.iis.fraunhofer.de/amm/techinf/layer3/index.html ) – http://www.mpeg.org Pour des recherches plus précises, utilisez le moteur de recherche spécialisé dans la littérature scientifique ( http://citeseer.nj.nec.com/cs ) Le format Ogg Vorbis : ( http://www.vorbis.com ) La compression sans perte – Comparatif et liens sur les utilitaires de compression audio ( http://www.firstpr.com.au/audiocomp/lossless/ ) – Théorie sur la compression sans perte ( http://geocities.com/eri32/ ) InnovaSON : http://www.innovason.com
  • 38. C’est la fin ! A votre tour. Posez vos questions …

Notes de l'éditeur

  1. Plusieurs console de tailles différentes : Compact Essential Grand Live SY80 Nouvelle génération de console : les anciennes sont totalement analogiques. En dehors des étages de conversion, nos consoles sont totalement numériques Système de transmission audio sur deux câbles coaxiaux jusqu’à 400/500 m Qualité audio importante : 24 bits est le standard de l’audio professionnel (dynamique = 144 dB)Pour rappel le CD audio = 16 bits soit 96 dB de dynamique Quand à l’oreille humaine = 140 dB de dynamique
  2. Exemple de procédé aujourd’hui purement numérique mais possible en analogique : la compression. Les anciens systèmes dolby A/B/C, dbx etc… disponibles sur les magnétophones peuvent être mis en correspondance avec les système de compression numérique. Ils permettent en effet un signal audio de dynamique importante sur un support qui ne le permet pas ( bruit de fond important). A l’époque les caractéristiques de l’audition humaine ont déjà été utilisées. Logique synchrone vs logique asynchrone :en logique synchrone tous les signaux sont synchronisés par rapport à une horloge de haute fréquence. Les aléas dûs aux temps de propagation dans les composants et les connections sont supprimésInconvénient de la logique synchrone : plus lente que la logique asynchrone L’évolution des technologies plus rapide en numérique qu’en analogique est aussi un avantage. Raison : La miniaturisation des composants est plus facile en numérique qu’en analogique : une capacité, une self demandera toujours une surface importante. Remarque sur les systèmes audio numériquesCe n’est pas parce que un système audio est numérique qu’il fournit forcément une meilleure qualité audio.Les grands amateurs de Hifi ne jurent encore, et à juste titre, que par les disques vinyl 33 tours. Ils estiment cependant que le disque est usé après 3 ou 4 utilisations …
  3. Chemin du son : Fenêtre ovale --&gt; canal vestibulaire --&gt; apex --&gt; canal tympanique --&gt; fenêtre ronde à travers le liquide visqueux Membrane basilaire sépare les 2 canaux. Étroite à l’entrée de la fenêtre ovale et large à l’Apex. Résonance de l’aigu à l’entrée au grave à la fin. Sur la membrane l’organe de Corti qui contient les cellules ciliées : Cellules ciliées internes ( ~2500 ) qui transforment le son en influx nerveux , et cellules ciliées externes qui amplifient le son ( ~7500 ) Une cellule ciliée interne -&gt; un nerf auditif. Nerf auditif arrive sur un ou plusieurs neurones. Un neurone ne sait recevoir des signaux de fréquences &gt; à 500 Hz sinon il s’épuise. Plusieurs neurones se répartissent le signal. En résultat l’oreille interne fait une décomposition en fréquence des vibrations qui lui arrivent. Ca explique l’effet de masque
  4. Échelle des dB SPL représentatif : bruit de feuilles / studio d’enregistrement : 20 dB SPL Conversation : 50 dB SPL musique forte: 80 dB SPL Personne poussant des cris : 90 dB SPL Avion à hélice à l’envol / grand orchestre symphonique : 120 dB SPL Avion à réaction à l’envol : 140 dB SPL Réponse en fréquence : oreille optimisée pour la bande 1000 Hz / 5000 Hz : la voix. C’est à ces fréquences aussi que la surdité apparaît en premier (plus sensible donc plus fragile)
  5. Localisation spatiale Localisation horizontal gauche/ droite : différence temporelle ou de niveau en fonction de la fréquence Localisation avant / arrière : mouvement de la tête, effet du pavillon et forme de la tête sur la réponse en fréquence Localisation haut / bas : réflexions sur le sol, sur les épaules, forme du pavillon. Exemple simple de notre capacité de localisation : l’effet cocktail Les basses fréquence ( &lt; 100 Hz ) sont très mal localisées par l’oreille. Cela explique le succès des caissons de basse uniques. La perception de fréquence pour un signal est très fine de l’ordre de 5% pour une personne non entraînée : ce signal est à 1000 Hz +/- 50Hz ! Masquage Bande critique : Lié directement au fonctionnement de l’oreille interne et la décomposition en fréquence.Entre 1/3 et 1/5 d’octave. ( 10 octaves entre 20 Hz et 20 kHz ). Reconnaissance des instruments des voix : le timbre Par le contenu harmonique par rapport à la fondamentale et l’évolution de ces harmoniques dans le temps Par l’attaque du son. Principalement un signal non harmonique : bruit Et surtout par l’apprentissage puis le travail du cerveau qui fait un sacré boulot.
  6. RLE : utilisé dans les formats PCX et certaines variantes des images au format TIFF Décodage du format RLE *5ABBBC*4D : *5A  répétition 5 fois de la lettre A BBBC  pas de codage de répétition (*), donc on laisse tel quel *4D  répétition 4 fois de la lettre D
  7. Algorithme de Huffman : le plus utilisé dans les procédés de compression audioSa mise en œuvre peut suivre deux voies : La bibliothèque de correspondance ‘’numéro de symbole  symbole’’ est définie dynamiquement par analyse sur tout ou partie du fichier en suivant l’arbre de choix. La bibliothèque est fixe. Elle est pré-calculée et intégrée au codeur et au décodeur. La bibliothèque est issue d’une période d’optimisation en tenant compte des caractéristiques statistiques des données à coder Méthode de Lempel-ZIV. Méthode plus efficace que Huffman. C’est le mode de fonctionnement employé par les formats de compactage informatiques tels que ZIP, ARJ, RAR. Elle est aussi basée sur un principe de bibliothèque, mais : La bibliothèque est au départ remplie des caractères ‘’de base’’ L’algorithme enrichit au fur et à mesure celle-ci par de nouveaux mots plus longs trouvés dans les données à coder
  8. Les filtres choisis peuvent être de largeur variables Le facteur de sous-échantillonnage dépend uniquement de la largeur du filtre impliqué. Largeur = Bf, échantillonnage à 2x Bf (Shannon)
  9. La reconstruction parfaite du signal se traduit aisément en formule mathématique. De nombreuses classes de filtres répondent à ce besoin (filtres orthogonaux …) La pente d’atténuation à chaque bord du filtre n’est pas infinie et est liée à l’ordre du filtre. Une partie, même infime du signal des bandes adjacentes se retrouvent dans la mauvaise bande d’analyse.Après sous-échantillonnage, ce signal se retrouve hors bande et est donc replié. Les filtres polyphases sont très peu gourmands en calculs. Ils ont la propriété de pouvoir inverser bloc de sous-échantillonnage et filtrage, d’où gain important de calculs. Le sous-échantillonnage pour chaque filtre est réalisé sur une série différente d’échantillons.
  10. La DFT est l’application de la transformée de Fourier au domaine des signaux discrets ( par point soit échantillonnés ). La DFT est un algorithme travaillant dans le plan des nombres complexes. Un peu lourd à mettre en œuvre sur des signaux réels ( réels  monde réel et échantillonnage, réels  sans partie imaginaire ) La formule donnée pour la DCT est l’une de celle qu’on peut trouver (type I). D’autres variantes peuvent être trouvées appliquant des facteurs différents sur cette même base L’efficacité de la DCT se traduit par une extraction plus précise des signaux périodiques qui apparaît par un différence entre coefficients grands et petits plus importante que la DFT
  11. DCT, DFT et MDCT transforment des blocs de données. Ils supposent par principe qu’à chaque bord de ce bloc, un nouveau bloc identique recommence. Ce n’est pas le cas en réalité, ce qui provoque une mauvaise évaluation à ces bords. La MDCT lutte contre ce phénomène d’effet de bord par le chevauchement temporel ( et aussi du coup fréquentiel ). La FFT est un algorithme de transformation rapide de Fourier ( calcul suivant un facteur n.log(n) au lieu de n x n.On utilise la FFT pour le calcul de la DFT mais aussi pour la DCT et la MDCT. D’autres algorithmes existent cependant aujourd’hui.
  12. MPEG : moving picture expert group. MUSICAM / ASPEC : développé pour la DAB ( digital audio broadcast). MUSICAM : Phillips, le CCETT et Fraunhofer ASPEC : Bell, Thomson et le CENT Procédé de compression numérique. A l’ère du tout numérique, on n’oubliera pas qu’il existe en effet des systèmes de compression analogiques ( dBX des cassettes peut être un exemple ). Compression destructive : si on compare bit à bit un fichier audio avant et après compression / décompression, on s’aperçoit que le fichier n’a plus rien à voir. Débit des données. CD = 44100 Hz *16 bits * 2 = 1411,2 kbits/s. MP3 = 128 kbits/s. Taux de compression = 11.025 Utilise l’effet de masquage fréquentiel. Pour rappel : un son fort cache un autre son de fréquence voisine moins fort.Le phénomène de masquage temporel de l’audition n’est pas utilisé.
  13. 5 grandes étapes : Découpage du spectre audio en bandes de fréquence Analyse du signal d’entrée pour en sortir un niveau de masquage Codage de la stéréo avec réduction de débit. Dans le cas d’un codage stéréo seulement bien sûr Boucle itératives de codage et de quantification de chaque bande fréquentielle Mise en forme de la flux binaire
  14. Le passage dans le banc de filtre polyphase détériore légèrement le signal (repliement de spectre) La décomposition MDCT est mise à profit pour rattraper cette précédente détérioration. Bien que par principe sans perte, la MDCT réduit cependant aussi la qualité du signal du fait de son implémentation non parfaite. Remarque : En sortie du banc de filtres, le débit de données n’a pas changé : ni augmenté, ni diminué. Le codage stéréo sépare la bande de fréquence en 2 : En dessous de 200 Hz, on ne code pas la stéréo : l’oreille ne fait pas la différence Au dessus de 200 Hz, le signal n’est pas codé gauche/droite mais Gauche+droite et Gauche-droite : Gauche + droite = j’écoute en mono mon signal stéréo Gauche – droite = je code la différence entre les deux canaux soit la stéréo. Comme la stéréo est généralement assez limitée, on code des valeurs faibles ( donc meilleur rapport de compression par le codage de Huffman ).
  15. Il s’agit de la partie la plus sensible du système de compression. Le phénomène de masquage de l’oreille y est décrit sous forme de de banques de coefficients : les modèles perceptuels Pour bien déterminer les seuils de masquage, il faut bien analyser le signal, d’où décomposition fine : FFT 1024 points soit des bandes de fréquences de 22000 Hz / 512 = 43 Hz
  16. Analyse de la décomposition fréquentielle pour en tirer : Les composantes tonales : hauteur des notes, harmoniques Les composantes non tonales : bruit, attaque des notes Cette décomposition se justifie car le seuil de masquage est différent pour les deux Connaissant les composantes du signal, la courbe de masquage est calculée On en déduit le rapport signal / niveau de masquage : &gt;0, le signal sera entendu et doit donc être codé &lt;0, le signal est sous le niveau de masquage et peut, si nécessaire, être laissé de côté.
  17. Boucle itérative qui permet d’obtenir une allocation d’un certains nombre de bits à chacune des 32 bandes de fréquence Les valeurs suivent un type de codage de Huffman. Ce codage permet de coder les valeurs les plus fréquentes avec moins de bits. Dans notre cas, les petites valeurs sont codées avec moins de bits, et les plus grandes avec plus de bits. Du fait du codage de Huffman, l’allocation se fait simplement en augmentant le facteur de gain sur chaque bande : au plus le gain est élevé, au plus le nombre de pas de codage est important, et donc le nombre de bits utilisés La boucle itérative présente trois étapes : Une étape adaptant le gain de chaque bande pour avoir un niveau de bruit en dessous du niveau de masque Une étape adaptant le gain général du signal pour faire tenir le codage de toutes les bandes dans le débit binaire alloué en sortie La bouclé itérative s’arrête dans trois cas suivants : Toutes les bandes répondent au critère de masquage la prochaine itération ferait dépasser à une de ces bandes la valeur maximum autorisée. la prochaine itération ferait augmenter toutes les bandes de facteurs d&apos;échelle.
  18. L’étape de mise en forme des données binaires récupère les données compressées et les enregistre dans un format bien défini Le format se décompose en trames contenant les données audio et une entête. L’entête contient toutes les informations non audio : type de codage, fréquence d’échantillonnage, bit de copie, nom de la chanson, etc. … Le décodage est un processus beaucoup plus simple : plus de modèle perceptuel, on ne traduit que les données qui ont été gardées pour reconstruire le signal Le processus suit à l’inverse les étapes essentielles du codage : Lecture du flux binaire et extraction des données de celui-ci Calcul des valeurs de niveau pour chaque bande de fréquence Reconstruction du signal par sommation des 32 bandes de fréquence
  19. MP3 Pro Evolution du MP3 permettant d&apos;améliorer la qualité pour des taux de compression importants. Lors de compression importante, le codage MP3 supprime les aigus. Le procédé &quot;Spectral Band Replication&quot; utilisé dans le MP3 pro permet de les reconstituer Quelques kilobits/s sont rajoutés pour permettre cette reconstitution. Ces données sont ignorées par un lecteur MP3 standard non compatible MP3 Pro. Un fichier MP3 Pro peut être lu par un lecteur MP3, mais sans profiter de l&apos;amélioration de qualité PASC désuet, peu performant ATRAC Les 3 bandes de fréquences principales sont : 0 à 5,52 kHz 5,52 kHz à 11,025 kHz 11,025 kHz à 22,05 kHz L’algorithme a évolué passant de la Version 1 en 1992 à la version 3.5 en 1996. Une bonne partie des critiques sur ce procédé de compression ont alors été atténuées.
  20. La bibliothèque peut être vue comme de minuscule bout de signaux audio représentatifs d’une majorité de signaux. Les calculs numériques sont peu nombreux. Par contre le tri est fastidieux et long La quantification vectorielle est meilleure que la compression perceptuelle pour des débits peu élevés. Exemple : codage de la voix. C’est pour cette raison qu’il a été rajouté dans la norme MPEG4
  21. A la différence du MP3 le format OGG n’utilise pas de banc de filtres mais directement une MDCT plus récente et plus efficace. Cela explique en partie sa meilleure efficacité
  22. Temporal noise shaping : filtrage dans le domaine fréquentiel pour obtenir une convolution dans le domaine temporel. Cela permet de coder l’évolution lente des bruits de quantification d’une bande à l’autre Long term prediction : permet de coder seulement les différence entre les analyses fréquentielles successives Perceptual noise substitution : si dans une ou plusieurs bandes, l’algorithme détermine qu’il s’agit d’un bruit non corrélé, il n’est pas codé. Cette simple information avec le niveau du bruit est enregistré. Au décodage un bruit de même niveau est généré.