Criteres evalformatscompressioncicmhd3d

224 vues

Publié le

Criteres evalformatscompressioncicmhd3d

Publié dans : Ingénierie
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
224
Sur SlideShare
0
Issues des intégrations
0
Intégrations
3
Actions
Partages
0
Téléchargements
2
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Criteres evalformatscompressioncicmhd3d

  1. 1. 1 CRITÈRES D’ÉVALUATION DES FORMATS DE COMPRESSION AUDIO Timothée Baschet, Benoît Navarret
  2. 2. 2
  3. 3. 3 Ce document a pour objet de recenser les différents critères et méthodes permettant d’évaluer qualitativement un contenu audio. Cette recherche s’inscrit dans le cadre du projet HD3D-IIO et s’articule autour des « codecs » couramment utilisés dans le cadre de la post-production et de la diffusion audiovisuelles. Il s’agit ici de détailler les caractéristiques des encodeurs/décodeurs qui ont une influence sur la qualité de contenus audio. Nous présenterons ensuite les méthodes permettant d’évaluer qualitativement un contenu audio Evaluer un format de compression suppose une comparaison du signal dégradé avec un signal de référence. Nous décrirons donc les procédés permettant d’aboutir à un signal de référence puis les techniques de réduction de débit d’un signal audionumerique. Une étude de l’existant sous forme de liste comprenant les « codecs » les plus utilisés sera apportée, ainsi que le détail de grands formats standards de compression. Enfin nous décrirons les différentes méthodes permettant d’évaluer qualitativement un signal audio. 1. La numérisation d’un signal audio La numérisation d’un signal est une opération qui consiste à convertir un signal « analogique » en un signal dit « numérique ». Un signal analogique est un signal continu, c’est-à-dire qu’il a en tout temps une valeur. Au contraire, un signal numérique est discontinu : il est constitué d’une suite de valeurs numériques discrètes. Un signal audio analogique est un signal électrique. Les valeurs de tension du courant électrique (mesurées en volt) rende compte de l’amplitude du signal audio. Un signal audio numérique traduit en chiffres les valeurs d’amplitude du signal analogique. La discrétisation du signal analogique est obtenue grâce à ce que l’on nomme « l’échantillonnage », effectuée par un convertisseur analogique/numérique (en anglais ADC pour Analog/Digital Converter) 1.1. La fréquence d’échantillonnage Échantillonner un signal audio analogique revient à prélever ses valeurs de tension électrique un certain nombre de fois par seconde. La fréquence de ces prélèvements est appelée fréquence d’échantillonnage .La fréquence d’échantillonnage est fixée avant l’opération de numérisation et ne varie pas pendant la numérisation. Les fréquences d’échantillonnage couramment utilisées en audio sont 44100Hz et 48000Hz. Elles sont souvent imposées par des contraintes technologiques. Par exemple, la norme du disque compact audio (CD audio) impose une fréquence d’échantillonnage de 44100Hz.
  4. 4. 4 L’échantillonnage est effectué par découpage temporel du signal audio analogique. Ce découpage temporel permet de reconstruire en données chiffrées la forme d’onde du signal numérisé. La numérisation ne repose que sur des séries de 0 et de 1 : il s’agit d’un codage binaire. Figure 1 : Echantillonnage et numérisation d’un signal audio 1.2. La quantification
  5. 5. 5 Alors que l’échantillonnage opère un découpage temporel, l’opération de quantification crée une échelle de valeurs discrètes permettant d’attribuer à chaque échantillon une valeur d’amplitude. La quantification s’exprime en « bit » (un acronyme de binary digit). Les valeurs couramment utilisées en audio sont 16bit et 24bit. L’amplitude de chaque échantillon doit impérativement prendre l’une des valeurs définies par l’échelle de quantification. Si la valeur d’amplitude de l’échantillon se situe entre deux paliers de l’échelle de quantification, elle est approximée au palier le plus proche. Cette approximation induit une erreur que l’on nomme « erreur de quantification ». Par suite, plus le nombre de bits est élevé, plus le nombre de paliers est important et l’erreur de quantification faible. Autrement dit, les petites variations d’amplitude du signal échantillonné sont d’autant mieux approximées que la résolution de la quantification est élevée. La fidélité de la forme d’onde numérisée à la forme d’onde du signal analogique dépend donc de la résolution (exprimée en bit) et de la fréquence d’échantillonnage (exprimée en kHz). De même que pour la fréquence d’échantillonnage, le choix de la résolution de la quantification est soumis à des contraintes techniques. Pour le disque compact audio (CD audio), la quantification requise est 16bit. Toute autre valeur ne sera pas acceptée. Avant quantification Après quantification Figure 2 : Signal échantillonné avant et après quantification
  6. 6. 6 1.3. Fréquence d’échantillonnage et repliement spectral La fréquence d'échantillonnage (Fe) détermine le nombre d’échantillons prélevés par seconde. Elle est importante car elle peut être la cause d’importantes distorsions du signal numérisé. Les chercheurs Shannon et Nyquist ont observé les valeurs limites de Fe à partir desquelles le signal audio analogique n’est plus reproduit de manière acceptable. De ces travaux est né le fameux théorème de Shannon/Nyquist qui suit : « La fréquence d’échantillonnage (Fe) doit être au moins égale au double de la fréquence maximale du signal à échantillonné. » Dans le cas du CD par exemple, la fréquence d’échantillonnage est de 44100Hz. Cela signifie que la fréquence la plus aiguë pouvant être enregistré sans distorsion est de 44100/2 soit 22050Hz. Toute fréquence supérieure à 22050Hz produit des artefacts indésirables : le phénomène qui se produit se nomme alors « repliement spectral » (en anglais aliasing). Signal A Signal B AVANT conversion APRÈS conversion
  7. 7. 7 Figure 3 : Phénomène de repliement spectral pour des fréquences supérieures à Fe/2. Les traits continus représentent la forme d’onde des signaux analogiques (signaux A et B) ; les points montrent les valeurs du signal analogique qui sont échantillonnées. La forme d’onde numérisée du signal B est très différente de la forme d’onde analogique. Pour éviter le phénomène de repliement, les convertisseurs analogique/numérique filtrent le signal en entrée pour éliminer les fréquences supérieures à Fe/2. Ainsi, si la fréquence d’échantillonnage est de 44100Hz, le filtre appliqué en entrée va supprimer toute fréquence du signal supérieure à 22050Hz. Si Fe est paramétrée à 48000Hz, la nouvelle fréquence de coupure du filtre est 24000Hz. (à vérifier) Remarque : Les fréquences d'échantillonnage utilisées en audionumérique sont toutes situées au- dessus du double de la fréquence maximale perçue par l'oreille humaine. Ces fréquences d'échantillonnage assurent donc un codage du signal audio adapté à la bande passante de l’oreille. On peut néanmoins s'interroger sur l'intérêt de coder des fréquences non perceptibles par l'oreille humaine dans le cas, par exemple, d’une fréquence d’échantillonnage égale à 48kHz ou 96kHz. Des travaux s'intéressent à l'influence de ces fréquences ultrasonores sur certains aspects de notre perception sonore. (référence à citer). La technique de l’échantillonnage présente donc une limitation importante à connaître pour réaliser des transferts audio dans de bonnes conditions. 2. La compression du signal audio numérisé Un signal audio numérisé est stocké sur des disques durs, des disques compacts, des DVD… La nature de l’information qu’ils contiennent rend ces fichiers relativement volumineux. L’intérêt de la compression de données audio est de réduire la taille des fichiers audio. La possibilité de réduire le débit de ces données est généralement appliquée pour des systèmes ayant un débit faible (ex : Internet) ou une capacité de stockage limitée (ex : baladeur mp3). Les techniques de réduction de débit sont déjà très largement employées dans les domaines du cinéma et de la radio, via le câble, le satellite ou la TNT. 2.1. Les algorithmes de compression Un algorithme est l’énoncé d’une suite d’opérations permettant de donner la réponse à un problème. Dans le cas de la compression, l’algorithme a pour fonction de réduire la taille d’un fichier selon un certain nombre de contraintes que le programmeur spécifie. Par exemple, une des contraintes peut être de conserver toutes les fréquences inférieures à 20kHz afin de limiter les pertes de qualité sonore dans la zone audible du spectre. Lors de l’étape de compression et de décompression d’un flux audio ou vidéo, on utilisera des algorithmes spécifiques rassemblés sous le terme commun de « CoDec ». Un codec est constitué de deux éléments :
  8. 8. 8 • le COdeur contient un algorithme destiné à coder l’information. Dans le cas de la compression ce sera pour effectuer une réduction du poids des données ; • le DECodeur contient un algorithme destiné à décoder l’information. Dans le cas de la compression ce sera pour reconstruire un signal audionumérique. 2.2. Le taux de compression Compresser revient à réduire le débit du flux audio et/ou vidéo. Les algorithmes sont adaptés en fonction des applications (diffusion internet, télévision, cinéma) pour répondre aux besoins de chacun des médias. La réduction de débit (ou compression) s’exprime généralement sous la forme d’un taux dit « taux de compression ». Le taux de compression peut s’énoncer comme suit : - soit comme le rapport entre le volume initial des données et le volume après réduction. Si le volume de données est deux fois plus faible après réduction (passant de 10Mo à 5Mo par exemple), on écrira qu’il s’agit d’un taux de  2:1 ; - soit en pourcentage du volume après réduction par rapport au volume initial. Si le volume de données est deux fois plus faible après réduction, on écrira qu’il s’agit d’un taux de 50%. Il existe par ailleurs deux types de compressions : la compression « destructive » et la compression « non destructive ». 2.3. Compressions destructive (avec perte) et non destructive (sans perte) La compression « destructive » supprime définitivement certaines informations pour réduire le débit du flux audio ou vidéo. Cette opération n’est pas réversible : il n’est pas possible de « reconstruire » le signal original une fois les données compressées. Ce type d’algorithme repère les données pouvant être détruites sans affecter (selon certaines tolérances) la perception que l’on a du son ou de l’image. Parmi les techniques de compression avec perte, une grande majorité des méthodes exploite les résultats issus des recherches en psychoacoustique1 . La compression « non destructive » permet de préserver les données originales lors de l’étape de compression. Il est ainsi possible de reconstruire les données d’origines dans leur intégralité à l’issue de la décompression. Cependant ce traitement a pour inconvénient de présenter des taux de compression faibles. C’est pourquoi de nombreuses applications utilisent des méthodes de compression avec pertes qui présentent des taux de compression nettement supérieurs. Les techniques de compression sans perte, non spécifiques au domaine de l’audio, sont utilisées en complément des techniques avec perte ;c’est le cas du MP3 par exemple. 2.3.1. Méthode appliquée lors d’une compression avec perte Voici la méthode de compression avec perte couramment utilisée : • décomposition temporelle du signal non compressé (PCM) en unités de temps élémentaires (les « frames ») ; 1 Pour avoir un complément d’information sur les caractéristiques de l’oreille humaine et les effets de masquage, consulter les annexes 1 et 2.
  9. 9. 9 • calcul d’une transformée pour passer du domaine temporel au domaine fréquentiel, en général par MDCT (Modified Discrete Cosine Transform) ; • série d'analyses permettant de réduire le volume de données à encoder en tenant compte des caractéristiques de l'oreille : les sons susceptibles d'être masqués ne sont pas encodés ; • quantification spectrale : il s’agit de l'étape de réduction de données ; • compression de données par codage de Huffman, correspondant à une méthode non destructive d'élimination des redondances, pour optimiser la taille des données encodées. On obtient alors une « frame » de données spectrales compressées. Cette méthode est ainsi utilisée dans les algorithmes de compression MPEG-1 Layer 3, Advanced Audio Coding (AAC), Vorbis, Dolby Digital ou ATRAC. 2.3.2. Principales techniques de compression sans perte 2.3.2.1. Codage à longueur variable Plus connu sous le nom de RLC (Run Length Coding) ou RLE (Run Length Encoding), ce codage détecte la redondance entre des éléments successifs. Exemple : La série de chiffres… 7 1 1 1 1 3 8 8 8 2 2 6 …sera réécrite comme suit : 7 ; 4 x 1 ; 3 ; 3 x 8 ; 2 x 2 ; 6 2.3.2.2. Codage de Huffman (codage entropique) Le codage de Huffman (inventé en 1952) est une méthode de compression statistique de données. Cet algorithme est souvent utilisé en complément d’autres méthodes de compression (comme le MPEG 1 Layer 3 par exemple). L’algorithme de Huffman comprend plusieurs étapes : • Calcul statistique de la fréquence d’apparition de chacun des éléments ; • Classement dans l’ordre décroissant de probabilité d’occurrence ; • Regroupement des deux éléments ayant la probabilité la plus faible pour constituer un nouvel élément dont la nouvelle probabilité est la somme des deux probabilités des deux éléments regroupés ; • Réitération de l’opération. Résultats présentés sous la forme d’une arborescence des éléments suivant l’augmentation de la probabilité d’occurrence (figure 4).
  10. 10. 10 Figure 4 : Arborescence d’un codage de Huffman
  11. 11. 11 3. Liste des codecs de compression Voici une liste des algorithmes de compression audionumériques les plus répandus. Des sources pour une étude plus approfondie sont également fournies.2 3.1. Codecs utilisant une compression sans perte ALAC (Apple Lossless) www.apple.com/itunes FLAC (Free Lossless Audio Codec) www.flac.sourceforge.net LA (LosslessAudio) www.lossless-audio.com LPAC (Lossless Predictive Audio Codec) www.nue.tu-berlin.de/wer/liebchen/lpac.html MPEG-4 ALS (Audio Lossless Coding) www.nue.tu-berlin.de/forschung/projekte/lossless/mp4als.html MPEG-4 SLS (Scalable Lossless Coding) www.chiariglione.org/mpeg/technologies/mp04-sls RAL (Real Audio Lossless) www.realnetworks.com/products/codecs/realaudio.html WMAL (Windows Media Audio Lossless) www.microsoft.com/windows/windowsmedia/forpros/encoder/default.mspx www.microsoft.com/windows/windowsmedia/9series/codecs/audio.aspx MLP (Meridian Lossless Packing) www.meridian-audio.com/p_mlp_in.htm Adaptative Transform Acoustic Coding (ATRAC Advanced Lossless) www.sony.net/Products/ATRAC3/ 3.2. Codecs utilisant une compression avec perte A A C ( A d v a n c e dCoding) www.iso.org/iso/en/CombinedQueryResult.CombinedQueryResult?queryString=AAC AAC-LD (AAC Low Delay) HE-AAC (High Efficiency AAC) 2 Les sources internet ont été consultées le 11/10/2007
  12. 12. 12 HE-AAC v2 (High Efficiency AAC v2) AC3 www.dolby.com/assets/pdf/tech_library/a_52b.pdf Adaptative Transform Acoustic Coding (ATRAC1, ATRAC2, ATRAC3, ATRAC3Plus) www.sony.net/Products/ATRAC3 MP1 (MPEG-1 Layer I) www.chiariglione.org/mpeg/standards/mpeg-1/mpeg-1.htm MP2 (MPEG-1/2 Layer II) www.chiariglione.org/mpeg/standards/mpeg-1/mpeg-1.htm www.chiariglione.org/mpeg/standards/mpeg-2/mpeg-2.htm MP3 (MPEG-1 Layer III) www.chiariglione.org/mpeg/standards/mpeg-1/mpeg-1.htm MPEG-4 www.chiariglione.org/mpeg/standards/mpeg-4/mpeg-4.htm MPEG-7 www.chiariglione.org/mpeg/standards/mpeg-7/mpeg-7.htm MPEG-21 www.chiariglione.org/mpeg/standards/mpeg-21/mpeg-21.htm RealAudio www.realnetworks.com/products/codecs/realaudio.html VGF www.twinvq.org/english/index_en.html WMA (Windows Media Audio) www.microsoft.com/windows/windowsmedia/forpros/codecs/audio.aspx AVS (Audio Video Standard) www.avs.org.cn/en/index.asp
  13. 13. 13 4. Les formats de compression standard : l’exemple du MPEG-1 Audio Le groupe MPEG (Moving Pictures Experts Group) est issu de deux instances de normalisation : l’ISO (International Standards Organisation) et l’IEC (International Electrotechnical Commission). Les standards MPEG sont généralement utilisés pour la diffusion( internet, télévision) .Les algorithmes MPEG exploitent essentiellement les caractéristiques de l’audition humaine lors de l’étape de compression. 4.1 La norme MPEG1 La norme MPEG-1 (1993) est composée de trois couches (ou modes) optionnelles (Layer 1, 2 ou 3). Chacune de ces couches présente des caractéristiques différentes. De manière générale, chaque nouvelle couche présente par rapport aux précédentes des taux de compression plus élevés (taux de compression maximum). MPEG-1 / Audio Coding Approximate bit rates Compression factor Layer 1 384 kbit/s 4 Layer 2 192 kbit/s 8 Layer 3 128 kbit/s 12 Figure 5 : Débits moyens des différentes couches MPEG1 et facteurs de compression. 4.2 Techniques employées 4.2.1 Le modèle psychoacoustique Les modèles psychoacoustiques essaient de décrire la manière dont une personne perçoit les sons. Ces modèles sont utilisés dans l’algorithme de compression MPEG-1 afin de déterminer avec quelle résolution les différentes données présentes dans le signal audio doivent être codées. Les données perçues avec une grande précision par le système auditif humain seront affectées d’un nombre de bits plus importants que les données moins perceptibles. Par exemple, la bande de fréquences 1000-3000Hz correspond à la zone de plus grande sensibilité de l’oreille. Toute modification du son dans cette zone du spectre peut être préjudiciable car l’auditeur y sera très sensible. Il existe plusieurs modèles psychoacoustiques comme MUSICAM3 ou l’AT&T 4 . Ils sont appliqués selon le type de données audio à compresser et le débit en sortie recherché. Par exemple, les codages d’une voix seule ou d’un orchestre symphonique reposent sur des modèles différents. 4.2.2 Le codage en sous-bandes Cet algorithme décompose le signal en 32 bandes de fréquences (appelées « sous-bandes ») grâce à des filtres spécifiques. 3 Musicam est l’ abréviation de Masking pattern adapted Universal Subband Coding And Multiplexing 4 Modèle psychoacoustique développé par la société AT&T
  14. 14. 14 L’encodeur fait une analyse fréquentielle par TFTD (Transformée de Fourrier à Temps Discret) de chaque sous-bande et détermine le niveau de bruit tolérable à l’aide d’un modèle psychoacoustique. Le nombre minimal de bits nécessaires à chaque sous-bande est ensuite attribué par l’encodeur afin que les erreurs de quantification ne soient pas perceptibles. Pour cela, il tient compte des effets de masque. Les informations de quantification de chaque sous-bande sont ensuite transférées avec les échantillons de la sous-bande codée. Figure 6 : Division de la bande audiofréquence en 32 sous-bandes Une dernière étape, le codage entropique, peut être ajoutée à la fin du processus (c’est le cas du MP3). Ce codage sans perte permet la réduction de données en enlevant les redondances des différentes données numériques. Le schéma suivant présente les différentes opérations présentes dans un encodeur perceptuel. Figure 7 : Principe général d’un encodeur perceptuel
  15. 15. 15 Détailler le schéma (flux entrant / flux sortant) 4.3) Caractéristiques des différentes couches 4.3.1) MPEG-1 audio couche 1 Le Mpeg-1 couche 1 est aussi connu sous le nom de « Musicam simplifié ». Son débit peut varier de 32 à 448kbit/s pour des fréquences d’échantillonnage classiques de 32, 44,1 et 48kHz. 4.3.2) MPEG-1 audio couche 2 Le Mpeg-1 couche 2 est aussi connu sous le nom de « Musicam ». Son débit peut varier de 32 à 192kbit/s pour un signal mono et de 64 à 384kbit/s pour un signal stéréo. Une des principales différences en ce qui concerne la couche 2 réside dans la précision de l’analyse de chaque sous-bande. En effet, une résolution d’analyse plus élevée de ces sous-bandes permet de repérer avec plus de précision les différentes données à encoder. La figure ci-dessous traite de la difficulté d’évaluer les effets de masque. La largeur des sous-bandes a une influence sur l’appréciation du masquage. Pour un meilleur calcul des phénomènes de masquage, on augmente la résolution de l’analyse fréquentielle de chaque sous-bande en élevant le nombre d’échantillons analysés en entrée. Par exemple, on passe de 128 à 256, 512 ou 1024 échantillons. 4.3.3) MPEG-1 audio couche 3 Le Mpeg-1 couche 3, connu sous le nom « MP3 », ajoute une quantification non uniforme ainsi qu’un codage de Huffman. Cette couche est la plus complexe des trois et permet des taux de compressions supérieurs aux autres. Chacune des 32 sous-bandes principales est subdivisée en 18 sous-bandes supplémentaires. Son débit peut varier de 8 à 320kbit/s avec des fréquences d’échantillonnage pouvant descendre à 24 et 16 kHz. En résumé, voici un tableau récapitulatif des principales caractéristiques des trois couches audio du codec MPEG 1. Complexité du codeur Plage de débits Caractéristiques Couche 1 Basse 32 à 448kbps Filtrage numérique pour les 32 sous-bandes Quantification uniforme Seuil de masquage fréquentiel uniquement Couche 2 Moyenne 32 à 384kbps Filtrage numérique pour les 32 sous-bandes Quantification uniforme Seuils de masquage fréquentiel et temporel Couche 23 Élevée 8 à 320kbps Filtrage numérique + opération mathématique MDCT Quantification adaptative Seuils de masquage fréquentiel et temporel Codage de Huffman
  16. 16. 16 5. Les critères d’évaluation 5.1. Caractéristiques des encodeurs / Décodeurs Plusieurs caractéristiques peuvent selon les applications être déterminantes dans le choix d’un encodeur/décodeur. • Le débit : Il peut-être exprimé en kbps et peut-être un critère déterminant dans le choix d’un codec. Ainsi, en fonction de l’application et de la bande passante disponible (VOD Internet), le choix du débit proposé par le « codec » peut être primordiale. • La qualité « audio »  • La Complexité et le temps de retard : Les encodeurs/décodeurs selon leurs complexité, ont un temps de traitement plus ou moins rapide. Ce temps de traitement se mesure en millions d’instructions par seconde (MIPS) ou en millions d’opérations par seconde (MOPS). Pour atteindre des taux de compression supérieurs, les algorithmes de compression sont en général plus complexes et nécessitent des temps de calcul plus élevés. On présentera dans le tableau suivant une comparaison des différentes couches du format MPEG ainsi que leur temps de retard respectif : Couches Débits Taux de compression Retard minimum théorique* Couche 1 192 kbps 4:1 19ms Couche 2 128 kbps 6:1 35ms Couche 3 64 kbps 12:1 59ms * En pratique, les temps de retard sont approximativement trois fois plus importants. La valeur du temps de retard peut être un des critères à prendre en compte notamment pour des applications audiovisuelles en « temps réel » (comme le direct).
  17. 17. 17 5.2 Critères d’évaluation de la « qualité audio » La plupart des « codecs » audio utilisent des algorithmes de compression avec perte. Le signal est dégradé en fonction du taux de compression adopté. Les algorithmes de compression sans perte, eux, sont utilisés pour la compression de données et / ou en complément des techniques de compression avec perte. Dans ce cas, il n’y a pas de « qualité audio » à déterminer puisque le signal original peut-être reconstruit dans son intégralité après le processus de décompression. Afin d’évaluer qualitativement les dégradations éventuelles d’un signal audio après codage, réduction de débit et / ou décodage, plusieurs méthodes existent. La plupart de ces méthodes utilisent un signal-test de référence (le signal original avant codage) pour le comparer ensuite au signal à évaluer (signal après codage et décodage). Le premier type de méthode consiste à effectuer des tests d’écoute (tests subjectifs) avec un panel d’auditeurs novices ou experts. Ces méthodes sont généralement considérés comme des références lorsqu’il s’agit d’estimer la qualité audio d’un signal. Néanmoins, ces tests subjectifs sont long et coûteux car ils impliquent le respect de nombreuses conditions comme le choix des auditeurs et du matériel de diffusion sonore, le respect des conditions d’écoute (acoustique de la salle),les séquences, la chronologies des tests … Afin de faciliter la mise en œuvre d’une évaluation de la « qualité » d’un signal audio, de nombreuses recherches ont été menées en psychoacoustique afin de modéliser le système auditif humain. Ces modèles permettent de prendre en compte différentes caractéristiques de l’audition humaine comme les effets de masquage (décrits en Annexe 1) lors de l’analyse et de l’estimation qualitative du signal audio. La qualité audio mesurée par ces méthodes est alors appelée « qualité perceptuelle objective ». 5.2.1 Les critères subjectifs • La recommandation ITU-R BS 1116 La recommandation UIT-R BS. 11165 définit un cadre et des méthodes pour effectuer des tests dans de bonnes conditions (matériel utilisé, acoustique de la salle, choix des séquences audio, chronologie des séquences …) afin d’estimer qualitativement un signal audio. Le protocole consiste en une série d’extraits sonores courts (5 à 10 secondes) diffusés trois fois de suite selon deux possibilités : A B A ou A A B (A étant le signal original et B le signal compressé). Une fois les extraits sonores diffusés, l’auditeur doit identifier la position de B. De plus, l’auditeur doit également émettre une opinion sur la « qualité » de B. Cette opinion est exprimée selon un jugement de valeur arbitraire décrit dans le schéma ci-dessous : 5 La recommandation ITU-R BS 1116 se nomme : « Méthodes d'évaluation subjective des dégradations faibles dans les systèmes audio y compris les systèmes sonores multivoies ».
  18. 18. 18 Fig. 9 Echelle de dégradation à cinq notes de l’UIT-R BS 1116 Cette recommandation utilise une méthode dite : « à double aveugle, triple stimulus et référence dissimulée ». Cette recommandation est essentiellement utilisée pour détecter et quantifier de faibles dégradations d’un signal par rapport au signal de référence. En effet, lors de tests concernant des signaux à faible ou à moyen débit, la plupart des notes se retrouvent en bas de l’échelle ce qui rend la distinction peu aisée. Selon l’UER6 , d’autres méthodes comme MUSHRA7 semblent plus adaptées aux signaux audio à faible ou moyen débit (notamment ceux utilisés sur internet). • La recommandation ITU BS.1534-1 (méthode MUSHRA) Alors que la recommandation précédente (ITU-R BS 1116) utilise une méthode « à double aveugle, triple stimulus et référence dissimulée », MUSHRA8 utilise une méthode « à double aveugle, stimulus multiples, avec références et repères dissimulés ». Cette méthode sert à évaluer des dégradations moyennes et / ou importantes du signal audio. Lors des tests d’écoute, les différents extraits audio sont généralement assez dégradés par rapport à la référence, il est donc aisé de les distinguer de cette dernière. Par contre, il est moins facile de pouvoir les évaluer qualitativement entre eux. De ce fait, cette méthode au contraire de la recommandation ITU-R BS 1116 permet aux utilisateurs de comparer librement les signaux dégradés de même débit entre eux afin de mieux les évaluer qualitativement. Par exemple, si un test concerne dix systèmes audio, les évaluateurs peuvent commuter entre au moins treize signaux (la référence « connue » + les dix signaux dégradés + une référence dissimulée + au moins un repère « dissimulé »). À noter qu’il est possible dans le test d’inclure plusieurs repères. La notation des stimulus (extraits audio) dans la méthode MUSHRA s’effectue par rapport à une échelle de qualité comprenant cinq niveaux et graduée de 0 à 100. Ces différents niveaux sont : 6 UER est l’abréviation de Union Européenne de Radio-Télévision 7 MUSHRA est l’abréviation de : « Multi Stimulus test with Hidden Reference and Anchors »
  19. 19. 19 On présentera ci-après l’interface utilisateur utilisé par l’UER pour ce test. Figure 10 Interface utilisateur pour les essais MUSHRA utilisé par le groupe 5.2.2 Les critères objectifs Dans le but de faciliter l’évaluation qualitative d’échantillons audio, de nombreux algorithmes prenant en compte les caractéristiques de l’audition humaine ont été développés. Le but de ces méthodes est de pouvoir anticiper un jugement subjectif de la qualité audio avec des méthodes objectives. Le principe général consiste, d’une part, à calculer à l’aide d’un modèle perceptuel d’audition les différences entre le signal original et le signal dégradé9 et, d’autre part, à inclure un modèle cognitif concernant des connaissances sur le jugement humain de la qualité audio. La validité de ces méthodes s’appuie sur la corrélation entre les données issues de ces tests et les données provenant des tests subjectifs. Ces méthodes ont d’abord été appliquées aux signaux audio à bande passante réduite (parole) puis plus tard aux signaux à large bande (musique, ambiances…). En 1996, est 9 On se réfèrera pour une description plus détaillée de ce type de méthode à l’article de John G. BEERENDS et JAN A. STEMERDINK intitulé "A Perceptual Audio Quality Measure Based on a Psychoacoustic Sound Representation", publié dans"Journal of Audio Engineering Society", vol. 12, Décembre 1992, pages 963 à 978.
  20. 20. 20 apparu l’algorithme PESQ (Perceptual Evaluation of Speech Quality) normalisé par l’ITU-R permettant d’évaluer la qualité de la voix transmise par un réseau de télécommunication. Plus tard, en 1998, l’algorithme PEAQ (Perceptual Evaluation of Audio Quality) a été normalisé par l’ITU-R afin d’évaluer des signaux audio à large bande. • L’algorithme PEAQ10 , L’algorithme PEAQ est une synthèse de six méthodes développées dans les années 90 à savoir : - L’indice de perturbation DIX (Distortion Index) ; Le rapport bruit à masque (NMR) - Le rapport bruit à masque (NMR) - Le système de mesure OASE (Objective Audio Signal Evaluation) - La mesure perceptuelle de la qualité du son (PAQM) - Le système PERCEVAL (PERCeptual EVALuation of the quality of audio signal) - La mesure perceptuelle objective POM (Perceptual Objective Measurement) - La Toolbox Approach Cette méthode a pour objectif de fournir « une mesure objective de la qualité du son perçu ». Pour quantifier la qualité du signal compressé par rapport à celle du signal audio original, l’algorithme PEAQ utilise aussi bien des caractéristiques physiques11 que des considérations psychoacoustiques. Un modèle auditif est donc utilisé permettant ainsi de repérer plusieurs phénomènes psychoacoustiques comme les phénomènes de masquage (décrits en annexe 1) ou comme la perception de certaines bandes de fréquence en fonction de leur intensité sonore. Différentes mesures et jugements qualitatifs sont alors déduits après analyse du signal. On présentera ci-dessous le fonctionnement général de l’algorithme PEAQ afin d’en clarifier le procédé :
  21. 21. 21 Figure 12 : fonctionnement général de l’algorithme PEAQ Au vu de la littérature existante12 sur l’évaluation de l’algorithme PEAQ les données issues de cette méthode semblent être dans la plupart des cas conformes aux résultats des tests subjectifs. Cependant, cette corrélation des données issues de PEAQ avec celles des tests subjectifs (l’IUT-R BS 1387 et ITU-R BS 1116 ) semble moins fiable dans le cas de système audio à faible débit. 5.2.3 Synthèse à propos de la qualité audio Nous avons présenté plusieurs méthodes permettant de qualifier quantitativement un contenu audio par rapport à une référence (signal original). Le premier type de méthode regroupe les tests subjectifs considérés dans ce domaine comme une référence (d’après les recommandations ITU et UER) lorsqu’il s’agit d’évaluer une certaine qualité audio. Plusieurs recommandations ITU ont donc été présentées comme la norme ITU-R BS 1116 et ITU BS 1534-1 destinées à évaluer du contenu audio à différents débits. Toutefois, ces tests sont en pratique très difficilement réalisables à cause des nombreuses conditions à respecter (panels d’auditeurs, matériel utilisé, acoustique de la salle …). Ces procédés sont donc destinés à être appliqués dans des locaux spécifiques et semble être en terme de temps très contraignants. D’autres méthodes objectives ont donc été créées afin de faciliter la mise en œuvre de ce type de test. Ces méthodes reposent sur l’utilisation de modèles psychoacoustiques et cognitifs destinés à reproduire la manière dont l’être humain perçoit et juge une qualité sonore par rapport à une autre. L’algorithme PEAQ, normalisé par l’ITU, à donc été succinctement exposé et son processus expliqué. Cependant, ces méthodes objectives restent de bons indicateurs mais semblent, dans certains cas, être peu convainquant au regard des données issues des tests subjectifs notamment pour les faibles débits audio. Les tests subjectifs bien que difficile à mettre en œuvre, semblent donc, pour le moment, être le moyen le plus fiable pour évaluer qualitativement un fichier audio. 12 On se réfère ici aux articles concernant l’évaluation de l’algorithme PEAQ à savoir, l’article de C. Schmidmer « Perceptual wideband audio quality assessments using PEAQ »
  22. 22. 22
  23. 23. 23 Annexe 1: Rappels de quelques caractéristiques de l’audition humaine Les méthodes de codage audio étant basées sur différentes caractéristiques de la perception auditive humaine, nous rappellerons ici quelques principes fondamentaux nécessaires à la compréhension des principaux algorithmes de compression. Des éléments provenant du livrable « Formats audionumériques » ont été réutilisés afin d’assurer une certaine cohérence générale et de faciliter la compréhension de ce document. • Bande passante de l’oreille humaine La bande passante de l’oreille humaine est de 20Hz-20000Hz. Cela signifie que les fréquences inférieures à 20Hz (les infrasons) ou supérieures à 20kHz (les ultrasons) ne sont pas entendus comme des hauteurs tonales déterminées. • Seuil d’audition et seuil de douleur Figure 9 : Seuil d’audition et de douleur Lecture du graphique : par exemple, pour une fréquence de 1000Hz, le seuil d’audition est de 0dB et le seuil de douleur de 120dB (ce qui correspond à une pression acoustique de 20Pa). Ces courbes ont été obtenues grâce à des tests psychoacoustiques menés en chambre anéchoïque auprès de sujets lambda. L’étude a porté sur la détection du seuil d’audition et du seuil de douleur pour chaque fréquence. Ces tests ont été réalisés en émettant des sons purs (sons sinusoïdaux). • Sensibilité de l’oreille La sensibilité de l’oreille varie selon la fréquence émise. Cela signifie qu’à intensité égale, la sensation auditive de deux fréquences peut être différente. La sensation auditive (sonie ou phone) est donc fonction de l’intensité acoustique et de la fréquence de l’onde sonore. Le diagramme de Fletcher (figure 5) dresse des courbes d’isosonie, c’est-à-dire des courbes de même sensation auditive. Chaque courbe indique quelle doit être l’intensité acoustique de chacune des fréquences pour que toutes soient perçues avec la même intensité. Ces courbes ont été réalisées en diffusant un son pur de 1Khz comme son de référence.
  24. 24. 24 Figure 10 : Courbes d’isosonies de Fletcher (source : http://pedagogie.ac-montpellier.fr:8080/disciplines/scphysiques/SP16/images/SP161.40.gif) Lecture du graphique : pour avoir une sensation perceptive équivalente à 60 phones, une fréquence de 1000Hz doit être diffusée à 60dB alors qu’une fréquence de 50Hz doit être diffusée à 80dB.
  25. 25. 25 Annexe 2 : Effet de masque On parle de « masquage » dès qu’un signal sonore disparaît de l’image sonore à cause de la présence d’une autre signal sonore. Autrement dit, sur les deux sources sonores en présence, une seule est vraiment entendue. Cette disparition peut être partielle ou totale. Compte tenu de la courbe de réponse non linéaire de l’oreille humaine (Annexe 1), l’effet de masque n'est pas linéaire en fréquence. On distingue le phénomène de masquage simultané, présent pour deux sources simultanées, du masquage temporel, pour lequel les sons masquant et masqués ne sont pas simultanés. • Le masquage simultané Des expériences sur des sujets humains ont montré que pour des signaux masquant correspondant à des fréquences pures, il existait une « zone spectrale » masquée située autour de la fréquence pure. Figure 11 : L'effet de masquage simultané (source : www.minidisc.org) Ces expériences n’utilisent pas des signaux complexes mais permettent de mettre en évidence le mécanisme de masquage qui sert de base aux différentes méthodes de compression audio. En effet, si une composante spectrale est supposée masquée, cette composante n’est pas codée. • Le masquage temporel Parallèlement au phénomène de masquage simultané, il existe un phénomène de masquage temporel, observé plus particulièrement au niveau des transitoires d’attaques (valable pour des chocs ou des impulsions par exemple). Lorsque le son masqué intervient après le son masquant, on parle « d'effet de précédence » ou « effet de Haas ». Un signal sera masqué s'il intervient dans les 20 millisecondes après un signal transitoire (moyennant un certain rapport d'intensité). À l'inverse, un son peut être masqué par un son lui succédant si ce dernier arrive moins de 2 ou 3 millisecondes après.
  26. 26. 26 Figure 12 : Phénomènes de masquage temporel Les études sur l’effet de masquage audio ont permis la décomposition du spectre sonore en bandes critiques. • Les bandes critiques Le postulat est que l'oreille humaine intègre les informations fréquentielles par « tranches » comme le laisse supposer le phénomène de masquage simultané. Au voisinage de la fréquence du son masquant, il faut considérablement augmenter le niveau d'un son masqué pour le rendre audible. Le spectre sonore a donc été découpé en « voisinages » qui sont nommés « bandes critiques ». On remarquera tout particulièrement la largeur variable de ces bandes. Figure 13 : Tableau des bandes critiques

×