Chapitre 3.
Codage de source
3.1. Notions générales
Systèmes de communications numériques
U
V
X
Y
Codeur de
source
Cryptage Codeur de
canal
Emetteur
Milieu de
transmission
Décodeur
source
Décryptage Décodeur
canal
Récepteur
U
S
E
R
CANAL
S
O
U
R
C
E
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
Source d’information : Définition
 SOURCE D’INFORMATION :
 Définition :
Une source d’information S est un dispositif dont la
sortie, observable de l’extérieur, peut prendre de
façon aléatoire un nombre fini q d’états distincts S1 ,
S2 , …, Sq avec des probabilités respectives P1 , P2 , …, Pq.
 Une source d’information est complètement définie
par son alphabet A = {S1, S2, …, Sq } et sa statistique.
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
Source d’information : Définitions
 SOURCE D’INFORMATION :
 Exemples de source d’information :
 signal analogique tel que le signal audio ou le signal vidéo,
 signal numérique tel que des données informatiques ou du texte.
 Une source sans mémoire est une source dont les probabilités
d’apparition des symboles (les éléments de l’alphabet) ne
dépendent pas des symboles précédemment émis.
 Une source de Markov d’ordre m est une source à mémoire
finie où les probabilités d’apparition des symboles dépendent
des m symboles précédemment émis.
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
Source d’information : Quantité d’information
 QUANTITÉ D’INFORMATION I :
 L’information fournie à un observateur par un certain événement
(apparition du symbole Si à la sortie de la source S) est liée au
caractère plus ou moins prévisible de cet événement.
 Si un événement est a priori très probable, son apparition n’apporte
que peu d’information à son observateur; en revanche, un
événement a priori peu probable, est très inattendu pour
l’observateur et son apparition apporte une grande information.
 La quantité d’information apportée par l’apparition du symbole Si
à la sortie de la source S doit donc être caractérisée par une fonction
décroissante de la probabilité d’occurrence, Pi , de ce symbole.
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
Source d’information : Quantité d’information
 QUANTITÉ D’INFORMATION I (DÉFINITION) :
 La quantité d’information I s’exprime, par définition, en
fonction des probabilités d’occurrence des symboles de source :
I = log2 (1/Pi ) = - log2 Pi .
 L’unité de I est le bit (ou le shannon).
 Dans le cas particulier où les symboles S1 ,S2 ,…,Sq sont
équiprobables on a : Pi = 1/q et donc I = log2 q.
 La quantité d’information est liée au nombre minimal
d’éléments binaires nécessaires au codage de ce symbole dans
un code à décodage unique.
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
Source d’information : Entropie
 L’entropie d’une source sans mémoire
S=(A, p) est la moyenne statistique de
la quantité d’information fournie par
la source. Elle est définie par H(S) :
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
  log
1
2




q
i
i
i P
P
S
H
Source d’information : Capacité
La capacité d’une source sans mémoire est par
définition le maximum d’information moyenne
par symbole que la source est capable de fournir
lorsqu’on peut modifier sa statistique.
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
 
   
q
S
H
C
i
P
2
log
max 

La capacité d’une source sans mémoire est
atteinte lorsque les symboles sont équiprobables.
Codage de source : Définitions
Le CODAGE DE SOURCE :
est une mise en forme appropriée de l’ information
délivrée par la source visant à éviter toute
redondance (répétition) inutile de l’information.
Le codage d’une source d’information consiste à faire
correspondre à chacun de ses symboles un mot de
code constitué d’une séquence de symboles qui
appartiennent à un alphabet généralement (binaire)
distinct de l’alphabet de source.
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
Codage de source : Définitions
On considère une source S d’alphabet A = {s1, …, sq}.
L’alphabet du code B est un ensemble de b symboles de
code (si b=2 alors B = {0, 1}).
 Les éléments de B sont appelés symboles de code.
 Un sous-ensemble fini de suites finies d’éléments construites
avec l’alphabet B est appelé dictionnaire C.
 Un élément de C est appelé mot de code.
 Le codage (ou encodage) est une application bijective  :
A  C.
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
Codage de source : Définitions
On considère une source S d’alphabet A = {s1, …, sq}.
L’alphabet du code B est un ensemble de b symboles
de code (si b=2 alors B = {0, 1}).
 La Longueur d’un mot de code cC est le nombre de
symboles de code que compte c.
 Le décodage est l’application inverse -1
: C  A qui
consiste à traduire un mot de code en un symbole de
la source.
Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022
Codage de source : Redondance
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
 Si S est une source d'alphabet à q symboles et d'entropie H(S), alors son
contenu est compressible sans perte d'information si H(S) < log2 q, c'est-
à-dire si son entropie n'est pas maximale.
 Si une source S est compressible, alors elle possède de la redondance et
l'opération de codage de source va consister à réduire, en partie ou en
totalité, cette redondance.
 La redondance dans une source d’information est le fait du
déséquilibre de sa loi de probabilité par rapport à la loi uniforme et de
l'existence d'une mémoire (propriétés favorables à une diminution de
l’entropie).
 La redondance d'une source se mesure par la quantité suivante souvent
exprimée en pourcentage :
q
S
H
r
2
log
)
(
1

Codage de source : Propriétés du code
 Un code C est un ensemble de mots de code ci (i=1, …, q) formés à
partir de symboles issus d'un alphabet de B (de cardinal b). Chaque
mot de code ci est caractérisé par sa longueur li.
 Des propriétés importantes relatives aux codes on note : préfixe,
à décodage unique, instantané.
 Code préfixe : est un code qui ne comporte aucun mot de code qui
soit le début d'un autre mot de code.
 Code à décodage unique :
Un code est dit à décodage unique lorsque dans une séquence
comportant plusieurs mots de code, on peut toujours retrouver les
mots de code individuels d’une et d’une seule manière (et donc les
symboles de source auxquels ils correspondent).
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
Codage de source : Propriétés du code
 Code à décodage unique :
Une condition suffisante pour qu'un code soit à
décodage unique est qu'il soit préfixe.
 Exemple :
 Alphabet binaire B = {0, 1} , donc b = 2.
 Le code binaire C = {1, 01, 000, 001} - comportant un
mot de longueur 1 (c1 ="1"), un mot de longueur 2 (c2
="01") et deux mots de longueur 3 (c3 ="000" et c4 ="001")
– est un code préfixe, et donc à décodage unique.
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
Codage de source : Propriétés du code
 Remarque :
 Un code à décodage unique n'est pas forcément préfixe.
 Exemple : Avec C = {1, 10}, le décodage de la séquence "1110101"
s'effectue sans ambiguïté, à condition de lire les symboles 2 par 2.
 Pour identifier un mot de code, on est contraint de lire le
symbole suivant : ce code n'est pas instantané.
 Code instantané :
 Si le code est à décodage unique,
 Et si, à mesure que les séquences de symboles de l’alphabet du
code sont reçus, il est possible de reconnaître chaque mot de
code sans devoir se référer aux symboles de code qui suivent.
CNS : il faut et il suffit qu’aucun code ne soit le préfixe (début)
d’un autre mot de code.
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
Codage de source : Propriétés du code
Dans l’exemple du tableau ci-après on a :
 Les codes B et C sont à décodage unique ;
 Le code C est instantané.
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
Symboles de source S1 S2 S3 S4
Mots du code A 0 10 110 1011
Mots du code B 0 01 011 0111
Mots du code C 0 10 110 1110
Codage de source : Inégalité de Kraft
Théorème de Kraft (inégalité de Kraft) :
Une condition nécessaire et suffisante pour qu'un code C
puisse être transformé (en effectuant des permutations sur les symboles
formant les mots de code) en un code préfixe équivalent (possédant la
même distribution de longueur des mots) est que l'inégalité suivante soit
satisfaite :
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022




q
i
l
b
i
1
1
Exemple :
Le code C = {10, 11, 000, 101, 111, 1100, 1101}, un code binaire =>
b = 2, vérifie l'inégalité de Kraft car on a 22-2
+ 3  2-3
+2  2-4
= 1.
Par conséquent, il existe un code préfixe équivalent ayant
même distribution des longueurs.
Codage de source : Inégalité de Kraft
 Pour construire le code préfixe équivalent, on peut
utiliser un arbre.
 Il suffit de dessiner un arbre dont la profondeur
correspond à la longueur maximum des mots de code.
Chaque mot de code correspond à une suite de nœuds
débutant à la racine de l’arbre et finissant par un nœud
terminal (feuille).
 La recette pour obtenir un code préfixe consiste à faire en
sorte qu'aucun chemin (succession d'arêtes)
correspondant à un mot de code ne soit strictement inclus
dans les chemins correspondant aux autres mots code.
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
Codage de source : Inégalité de Kraft
 Exemple (le même que précédemment) :
Soit le code C = {10, 11, 000, 101, 111, 1100, 1101}
 La longueur maximum des mots de code est 4. Donc l'arbre
devra comporter 4 niveaux.
 Le code initial C se compose de :
 2 mots de longueur 2, il faut donc réserver 2 feuilles au 2è niveau,
 3 mots de longueur 3 => 3 nœuds terminaux au 3è niveau,
 2 mots de longueur 4 => 2 nœuds terminaux au 4è niveau.
 Le dessin (voir slide suivante) illustre la construction du code
préfixe équivalent.
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
Codage de source : Inégalité de Kraft
 Le code ainsi obtenu est :
 C ’ = {01, 10, 000, 001, 111, 1100, 1101}
 Remarque: il existe d’autres possibilités
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
0
0
0
0 0
0
1
1
1
1
1
1 "01" "10"
"001"
"000" "111"
"1100" "1101"
1er
niveau
2è niveau
3è niveau
4è niveau
Codage de source : Théorème de Kraft-McMillan
 Théorème de Kraft-McMillan :
Soit C un code b-aire dont les longueurs des q mots de
code sont l1, …, lq. Si C est à décodage unique alors il
satisfait l'inégalité de Kraft :
Réciproquement, si des nombres l1, …, lq satisfont l’inégalité
de Kraft, il existe un code b-aire instantané (donc à
décodage unique) dont le dictionnaire possède q mots de
code et dont les longueurs des mots de code sont l1, …, lq.
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022




q
i
l
b
i
1
1
Codage de source : Théorème de Kraft-McMillan
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
 Remarques :
 Les deux théorèmes (Kraft et Kraft-McMillan)
permettent de conclure que tout code à décodage
unique possède un code préfixe équivalent.
 Bien que la notion de code préfixe soit plus restrictive
que celle de code à décodage unique, les deux
théorèmes (Kraft et Kraft-McMillan) montrent que l'on
peut, sans perte de généralité, se restreindre à la
classe des codes préfixes.
Codage de source : Efficacité du code
Longueur moyenne du mot de
code :
Soit li la longueur du mot de code
correspondant à Si de probabilité Pi, la
longueur moyenne d’un mot de code est
définie par L0 :
L’unité de L0 est le : bits par symbole de source
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
1
0 


q
i
i
il
P
L
Codage de source : Efficacité du code
 Théorème (Première inégalité de l’entropie) :
Soit une source S d’entropie H(S) et soit  un code
b-aire de la source S. Si  est à décodage unique,
sa longueur moyenne L0() satisfait :
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
   
)
(
log2
0
b
S
H
L 

 Ce théorème traduit que l’entropie d’une source
correspond au nombre minimal d’éléments binaires
(b=2) nécessaires en moyenne pour coder un symbole
de la source sans perte ; c’est-à-dire que H(S)  L0.
Codage de source : 1er théorème de SHANNON
PREMIER THÉORÈME DE SHANNON (THÉORÈME DU
CODAGE SOURCE SANS PERTE) :
Soit X une source discrète sans mémoire avec
une entropie H(X). Il existe un code source
sans perte pour cette source à tout débit R si
R > H(X). Il n'existe pas de code sans perte
pour cette source à des débits inférieurs à
H(X).
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
Codage de source : Schéma général
Décodeur
de source
z
m
V
k
Destination
Données
reconstruite
s
Données
comprimée
s
Codeur
de source
U
m
w
k
Sourc
e
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
Codage de source : Schéma général
 la source : est définie par U, vecteur comprenant m
symboles prenant leurs valeurs dans un alphabet fini.
 Le codeur de source : réalise la fonction de codage
pour donner à sa sortie un vecteur (un train binaire) w
de longueur k.
 Le décodeur de source : restitue l’information de
même nature que la source, reçoit un vecteur z de taille
k qui sera décodé en la source reconstruite V de m
symboles.
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
Codage de source : Objectifs
 Les objectifs du codage de source sont :
1. Réduire la redondance dans le message source.
2. Reproduire une nouvelle version de la source
en visant :
- soit une compression sans perte;
- soit une compression avec perte.
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
Codage de source : Critères de performance
 CRITÈRES DE PERFORMANCE du codage source :
 Rapport de compression ;
 Taux de compression ou débit de source ;
 Mesure de distorsion (en cas de compression avec perte).
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
Codeur
de source
Décodeur
de source
U=(u1,u2,…,um) Y = ( b1,b2,…,bk ) V
Codage source : critères de performance
 RAPPORT DE COMPRESSION :
 Il est défini par la taille des données de la source
(TDs) en bits sur la taille des données comprimées
(TDc) en bits.
 Rapport de compression r = TDs / TDc
 Plus r est élevé, plus le système de compression est
meilleur.
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
Codage de source : critères de
performance
 TAUX DE COMPRESSION OU DÉBIT DE SOURCE :
 Le débit de source, Rs , est exactement le nombre moyen
de bits par symbole de source: Rs= k / m où m est le nombre
de symboles de la source à coder et k la longueur de la séquence
binaire du code résultant.
 Rs s’exprime en bits par symbole de source.
 Un codeur est performant s’il est caractérisé par Rs faible.
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
Codage de source : critères de performance
 Exemple illustratif :
On désire coder une image 44 de quatre couleurs (rouge-R, orange-O, vert-V et
jaune-J). Un balayage horizontal de l’image donne le vecteur
X = (3,3,2,1,3,2,2,1,2,2,1,0,1,1,1,0) de cardinal m=16. Le codage source utilisé associe
aux symboles de source les mots de code selon le tableau donné. On obtient alors
la séquence binaire codée
Y = (0,0,1,0,0,1,0,1,1,0,0,1,0,1,0,1,1,0,1,0,1,1,0,0,0,1,1,1,0,0,0) de longueur k=31.
 Le rapport de compression est r = 44  round(log2A)/31 = 32/31.
 Le taux de compression est Rs = k/m = 31/16
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
Image Alphabet A
(Symboles)
Fréquence Mot de
code
R R O J
R O O J
O O J V
J J J V
R 3 001
O 5 01
J 6 1
V 2 000
Codage de source : critères de performance
 MESURE DE DISTORSION : INTÉRÊT
 Dans la pratique les signaux reconstruits à la réception
ne sont pas absolument identiques aux signaux
originaux émis.
 La notion de distorsion met en évidence ce défaut de
ressemblance parfaite entre signal reconstruit et signal
original.
 La distorsion offre à la Communauté du codage source
un paramètre d’optimisation.
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
Codage de source : critères de performance
 MESURE DE DISTORSION (DÉFINITION) :
 La mesure de distorsion est la distorsion moyenne entre le signal et
sa version reconstruite.
 La distorsion est la distance moyenne du vecteur de source U par
rapport au vecteur reconstruit V.
 Cette distance doit être normalisée par la longueur du vecteur U.
 D’où la distorsion notée D est : D = 1/mE[d(U,V)], où E[.] est
l’espérance mathématique ; m la taille du vecteur U et d une mesure
de distance (soit la distance euclidienne ou celle de Hamming).
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
Codage de source : critères de performance
 MESURE DE DISTORSION : EXEMPLE 1
 D = 1/mE[dH(U,V)],
avec dH la distance de Hamming.
 D est une mesure de la probabilité d’erreur-bit.
 D reflète le nombre moyen de bits erronés entre les
vecteurs d’entrée U et de sortie V normalisé par la
longueur du vecteur d’entrée.
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
Codage de source : critères de performance
 MESURE DE DISTORSION :
EXEMPLE 2
 D = 1/mE[dE(U,V)],
avec dE = ||U-V||2
la distance euclidienne.
 D est l’erreur quadratique moyenne (EQM).
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
Codage de source : critères de performance
 MESURE DE DISTORSION : DEUX TYPES DE MESURE
1. les mesures de distorsion subjectives : sont généralement
basées sur la perception humaine : l’audition pour les signaux
audio et la vue pour les signaux images/vidéo.
Ces mesures subjectives donnent des critères plus fiables de
comparaison des différents signaux (et systèmes);
Malheureusement leur utilisation difficile conduit à utiliser
plus fréquemment les mesures objectives.
2. les mesures de distorsion objectives : sont des outils
mathématiques de mesure de la distorsion. Exemples: EQM,
PSNR.
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
Codage de source : fonction débit distorsion
 FONCTION DÉBIT-DISTORSION :
 La fonction débit-distorsion est notée Rs(D).
 Rs(D) décrit une courbe théorique qui donne, en fonction de
la distorsion D, le nombre moyen minimal de bits
nécessaires pour coder un symbole de source.
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
     
 







 D
V
U
d
E
m
V
U
I
m
D
R
u
v
p
m
s ,
1
/
,
1
min
inf
)
/
(
     
   
dudv
v
p
u
p
v
u
p
v
u
p
m
V
U
I
,
log
,
1
, 2
 








Codage de source : fonction débit distorsion
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
 Rs(D) est une minimisation de l’information mutuelle I(U, V) sur toutes
les probabilités conditionnelles p(u/v) possibles et sur toutes les
longueurs m possibles du vecteur U pour une pdf p(u) sous une
contrainte de distorsion de la source.
 u (resp. v) est une composante du vecteur U (resp. V).
 Information mutuelle I(U,V) = information disposée sur la source U
sachant l’observation de la sortie V du décodeur
Remarque :
Lorsque D est nulle, Rs(D) représente le nombre moyen
minimum de bits nécessaires pour coder les symboles
de source sans perte. Rs(D) est dans ce cas égale à
l’entropie.
Codage de source : Théorème de Shannon
Théorème de Shannon du codage source avec
perte :
La longueur (c’est-à-dire le nombre moyen de bits
par symbole) Rs d’un codage source peut approcher,
d’aussi près qu’on le veut, la limite Rs(D) ; ce qui se
traduit par l’inégalité suivante :
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
 
D
R
R s
s 
Remarque : Dans le cas sans perte, D=0. On retourne
au 1er théorème de Shannon (th. du codage sans
perte)
Codage de source : Théorème de Shannon
THÉORÈME DE SHANNON (COMMENTAIRE) :
Autrement dit, le théorème dit que pour un
codeur de source pratiquement réalisé avec une
distorsion D donnée, le nombre moyen de bits
par symbole de source est supérieur ou égal à
celui donné par la courbe théorique pour cette
même valeur de la distorsion D.
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
Codage de source : Théorème de Shannon
THÉORÈME DE SHANNON (ILLUSTRATION NO-01) :
Pour une source binaire symétrique :
Rs(D) = 1-H2(D)
où H2(.) est la fonction d’entropie binaire définie par :
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
   
   
x
x
x
x
x
H
x
H





1
1
log
1
1
log
1
,
0
1
,
0
:
2
2
2
2

Codage de source : Théorème de Shannon
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
0 0.1 0.2 0.3 0.4 0.5
0
0.2
0.4
0.6
0.8
1
Distorsion D
Débit
de
source
Rs
Rs(D)
THÉORÈME DE
SHANNON
(ILLUSTRATION NO-
01) :
Courbe débit-
distorsion
Codage de source : Théorème de Shannon
THÉORÈME DE SHANNON (ILLUSTRATION NO-02) :
Pour une source Gaussienne :
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
  








D
D
Rs
2
2
log
2
1 
Codage de source : Théorème de Shannon
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
THÉORÈME DE SHANNON
(ILLUSTRATION NO-
02) :
Courbe débit-distorsion
pour une variance unitaire
0 0.2 0.4 0.6 0.8 1
0
0.5
1
1.5
2
2.5
3
3.5
Distorsion D
Débit
de
source
Rs
Rs(D)
Références bibliographiques
 Jean-Yves Le BOUDEC, Patrick THIRAN, Rüdiger
URBANKE, « Sciences de l’Information », 2014.
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
Questions
1. Définir les notions : source d'information, quantité d'information,
capacité d'une source d'information sans mémoire, codage de source.
2. Quel rapport y a-t-il entre la quantité d'information et l'entropie
d'une source ?
3. En un schéma, montrer les blocs d'encodage et de décodage à
réaliser dans le cadre d'une opération de codage de source. Y faire
ressortir et annoter les définitions suivantes : mot de code, symbole de
code, dictionnaire, longueur d'un mot de code.
4. En codage de source, comment mesure-t-on la redondance ?
5. Définir les trois propriétés importantes pouvant caractériser un
code C donné : prefixe, à décodage unique, instantané.
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
Questions
6. Pour chacun des codes du tableau ci-dessous,
vérifier et justifier si chacune des trois propriétés
d'un code sont satisfaites :
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022
Code Dictionnaire
C1 0 10 110 1011
C2 0 01 011 0111
C3 0 10 110 1110
C4 10 11 000 101 111 1100 1101
7. Rappeler et définir les critères de performance d'un
système de codage de source.

Lecture_IT_P02_Theorie de l'information.pptx

  • 1.
    Chapitre 3. Codage desource 3.1. Notions générales
  • 2.
    Systèmes de communicationsnumériques U V X Y Codeur de source Cryptage Codeur de canal Emetteur Milieu de transmission Décodeur source Décryptage Décodeur canal Récepteur U S E R CANAL S O U R C E Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022
  • 3.
    Source d’information :Définition  SOURCE D’INFORMATION :  Définition : Une source d’information S est un dispositif dont la sortie, observable de l’extérieur, peut prendre de façon aléatoire un nombre fini q d’états distincts S1 , S2 , …, Sq avec des probabilités respectives P1 , P2 , …, Pq.  Une source d’information est complètement définie par son alphabet A = {S1, S2, …, Sq } et sa statistique. Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022
  • 4.
    Source d’information :Définitions  SOURCE D’INFORMATION :  Exemples de source d’information :  signal analogique tel que le signal audio ou le signal vidéo,  signal numérique tel que des données informatiques ou du texte.  Une source sans mémoire est une source dont les probabilités d’apparition des symboles (les éléments de l’alphabet) ne dépendent pas des symboles précédemment émis.  Une source de Markov d’ordre m est une source à mémoire finie où les probabilités d’apparition des symboles dépendent des m symboles précédemment émis. Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022
  • 6.
    Source d’information :Quantité d’information  QUANTITÉ D’INFORMATION I :  L’information fournie à un observateur par un certain événement (apparition du symbole Si à la sortie de la source S) est liée au caractère plus ou moins prévisible de cet événement.  Si un événement est a priori très probable, son apparition n’apporte que peu d’information à son observateur; en revanche, un événement a priori peu probable, est très inattendu pour l’observateur et son apparition apporte une grande information.  La quantité d’information apportée par l’apparition du symbole Si à la sortie de la source S doit donc être caractérisée par une fonction décroissante de la probabilité d’occurrence, Pi , de ce symbole. Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022
  • 7.
    Source d’information :Quantité d’information  QUANTITÉ D’INFORMATION I (DÉFINITION) :  La quantité d’information I s’exprime, par définition, en fonction des probabilités d’occurrence des symboles de source : I = log2 (1/Pi ) = - log2 Pi .  L’unité de I est le bit (ou le shannon).  Dans le cas particulier où les symboles S1 ,S2 ,…,Sq sont équiprobables on a : Pi = 1/q et donc I = log2 q.  La quantité d’information est liée au nombre minimal d’éléments binaires nécessaires au codage de ce symbole dans un code à décodage unique. Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022
  • 8.
    Source d’information :Entropie  L’entropie d’une source sans mémoire S=(A, p) est la moyenne statistique de la quantité d’information fournie par la source. Elle est définie par H(S) : Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022   log 1 2     q i i i P P S H
  • 9.
    Source d’information :Capacité La capacité d’une source sans mémoire est par définition le maximum d’information moyenne par symbole que la source est capable de fournir lorsqu’on peut modifier sa statistique. Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022       q S H C i P 2 log max   La capacité d’une source sans mémoire est atteinte lorsque les symboles sont équiprobables.
  • 10.
    Codage de source: Définitions Le CODAGE DE SOURCE : est une mise en forme appropriée de l’ information délivrée par la source visant à éviter toute redondance (répétition) inutile de l’information. Le codage d’une source d’information consiste à faire correspondre à chacun de ses symboles un mot de code constitué d’une séquence de symboles qui appartiennent à un alphabet généralement (binaire) distinct de l’alphabet de source. Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022
  • 11.
    Codage de source: Définitions On considère une source S d’alphabet A = {s1, …, sq}. L’alphabet du code B est un ensemble de b symboles de code (si b=2 alors B = {0, 1}).  Les éléments de B sont appelés symboles de code.  Un sous-ensemble fini de suites finies d’éléments construites avec l’alphabet B est appelé dictionnaire C.  Un élément de C est appelé mot de code.  Le codage (ou encodage) est une application bijective  : A  C. Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022
  • 12.
    Codage de source: Définitions On considère une source S d’alphabet A = {s1, …, sq}. L’alphabet du code B est un ensemble de b symboles de code (si b=2 alors B = {0, 1}).  La Longueur d’un mot de code cC est le nombre de symboles de code que compte c.  Le décodage est l’application inverse -1 : C  A qui consiste à traduire un mot de code en un symbole de la source. Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022
  • 13.
    Codage de source: Redondance Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022  Si S est une source d'alphabet à q symboles et d'entropie H(S), alors son contenu est compressible sans perte d'information si H(S) < log2 q, c'est- à-dire si son entropie n'est pas maximale.  Si une source S est compressible, alors elle possède de la redondance et l'opération de codage de source va consister à réduire, en partie ou en totalité, cette redondance.  La redondance dans une source d’information est le fait du déséquilibre de sa loi de probabilité par rapport à la loi uniforme et de l'existence d'une mémoire (propriétés favorables à une diminution de l’entropie).  La redondance d'une source se mesure par la quantité suivante souvent exprimée en pourcentage : q S H r 2 log ) ( 1 
  • 14.
    Codage de source: Propriétés du code  Un code C est un ensemble de mots de code ci (i=1, …, q) formés à partir de symboles issus d'un alphabet de B (de cardinal b). Chaque mot de code ci est caractérisé par sa longueur li.  Des propriétés importantes relatives aux codes on note : préfixe, à décodage unique, instantané.  Code préfixe : est un code qui ne comporte aucun mot de code qui soit le début d'un autre mot de code.  Code à décodage unique : Un code est dit à décodage unique lorsque dans une séquence comportant plusieurs mots de code, on peut toujours retrouver les mots de code individuels d’une et d’une seule manière (et donc les symboles de source auxquels ils correspondent). Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022
  • 15.
    Codage de source: Propriétés du code  Code à décodage unique : Une condition suffisante pour qu'un code soit à décodage unique est qu'il soit préfixe.  Exemple :  Alphabet binaire B = {0, 1} , donc b = 2.  Le code binaire C = {1, 01, 000, 001} - comportant un mot de longueur 1 (c1 ="1"), un mot de longueur 2 (c2 ="01") et deux mots de longueur 3 (c3 ="000" et c4 ="001") – est un code préfixe, et donc à décodage unique. Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022
  • 16.
    Codage de source: Propriétés du code  Remarque :  Un code à décodage unique n'est pas forcément préfixe.  Exemple : Avec C = {1, 10}, le décodage de la séquence "1110101" s'effectue sans ambiguïté, à condition de lire les symboles 2 par 2.  Pour identifier un mot de code, on est contraint de lire le symbole suivant : ce code n'est pas instantané.  Code instantané :  Si le code est à décodage unique,  Et si, à mesure que les séquences de symboles de l’alphabet du code sont reçus, il est possible de reconnaître chaque mot de code sans devoir se référer aux symboles de code qui suivent. CNS : il faut et il suffit qu’aucun code ne soit le préfixe (début) d’un autre mot de code. Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022
  • 17.
    Codage de source: Propriétés du code Dans l’exemple du tableau ci-après on a :  Les codes B et C sont à décodage unique ;  Le code C est instantané. Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022 Symboles de source S1 S2 S3 S4 Mots du code A 0 10 110 1011 Mots du code B 0 01 011 0111 Mots du code C 0 10 110 1110
  • 18.
    Codage de source: Inégalité de Kraft Théorème de Kraft (inégalité de Kraft) : Une condition nécessaire et suffisante pour qu'un code C puisse être transformé (en effectuant des permutations sur les symboles formant les mots de code) en un code préfixe équivalent (possédant la même distribution de longueur des mots) est que l'inégalité suivante soit satisfaite : Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022     q i l b i 1 1 Exemple : Le code C = {10, 11, 000, 101, 111, 1100, 1101}, un code binaire => b = 2, vérifie l'inégalité de Kraft car on a 22-2 + 3  2-3 +2  2-4 = 1. Par conséquent, il existe un code préfixe équivalent ayant même distribution des longueurs.
  • 19.
    Codage de source: Inégalité de Kraft  Pour construire le code préfixe équivalent, on peut utiliser un arbre.  Il suffit de dessiner un arbre dont la profondeur correspond à la longueur maximum des mots de code. Chaque mot de code correspond à une suite de nœuds débutant à la racine de l’arbre et finissant par un nœud terminal (feuille).  La recette pour obtenir un code préfixe consiste à faire en sorte qu'aucun chemin (succession d'arêtes) correspondant à un mot de code ne soit strictement inclus dans les chemins correspondant aux autres mots code. Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022
  • 20.
    Codage de source: Inégalité de Kraft  Exemple (le même que précédemment) : Soit le code C = {10, 11, 000, 101, 111, 1100, 1101}  La longueur maximum des mots de code est 4. Donc l'arbre devra comporter 4 niveaux.  Le code initial C se compose de :  2 mots de longueur 2, il faut donc réserver 2 feuilles au 2è niveau,  3 mots de longueur 3 => 3 nœuds terminaux au 3è niveau,  2 mots de longueur 4 => 2 nœuds terminaux au 4è niveau.  Le dessin (voir slide suivante) illustre la construction du code préfixe équivalent. Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022
  • 21.
    Codage de source: Inégalité de Kraft  Le code ainsi obtenu est :  C ’ = {01, 10, 000, 001, 111, 1100, 1101}  Remarque: il existe d’autres possibilités Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022 0 0 0 0 0 0 1 1 1 1 1 1 "01" "10" "001" "000" "111" "1100" "1101" 1er niveau 2è niveau 3è niveau 4è niveau
  • 22.
    Codage de source: Théorème de Kraft-McMillan  Théorème de Kraft-McMillan : Soit C un code b-aire dont les longueurs des q mots de code sont l1, …, lq. Si C est à décodage unique alors il satisfait l'inégalité de Kraft : Réciproquement, si des nombres l1, …, lq satisfont l’inégalité de Kraft, il existe un code b-aire instantané (donc à décodage unique) dont le dictionnaire possède q mots de code et dont les longueurs des mots de code sont l1, …, lq. Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022     q i l b i 1 1
  • 23.
    Codage de source: Théorème de Kraft-McMillan Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022  Remarques :  Les deux théorèmes (Kraft et Kraft-McMillan) permettent de conclure que tout code à décodage unique possède un code préfixe équivalent.  Bien que la notion de code préfixe soit plus restrictive que celle de code à décodage unique, les deux théorèmes (Kraft et Kraft-McMillan) montrent que l'on peut, sans perte de généralité, se restreindre à la classe des codes préfixes.
  • 24.
    Codage de source: Efficacité du code Longueur moyenne du mot de code : Soit li la longueur du mot de code correspondant à Si de probabilité Pi, la longueur moyenne d’un mot de code est définie par L0 : L’unité de L0 est le : bits par symbole de source Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022 1 0    q i i il P L
  • 25.
    Codage de source: Efficacité du code  Théorème (Première inégalité de l’entropie) : Soit une source S d’entropie H(S) et soit  un code b-aire de la source S. Si  est à décodage unique, sa longueur moyenne L0() satisfait : Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022     ) ( log2 0 b S H L    Ce théorème traduit que l’entropie d’une source correspond au nombre minimal d’éléments binaires (b=2) nécessaires en moyenne pour coder un symbole de la source sans perte ; c’est-à-dire que H(S)  L0.
  • 26.
    Codage de source: 1er théorème de SHANNON PREMIER THÉORÈME DE SHANNON (THÉORÈME DU CODAGE SOURCE SANS PERTE) : Soit X une source discrète sans mémoire avec une entropie H(X). Il existe un code source sans perte pour cette source à tout débit R si R > H(X). Il n'existe pas de code sans perte pour cette source à des débits inférieurs à H(X). Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022
  • 27.
    Codage de source: Schéma général Décodeur de source z m V k Destination Données reconstruite s Données comprimée s Codeur de source U m w k Sourc e Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022
  • 28.
    Codage de source: Schéma général  la source : est définie par U, vecteur comprenant m symboles prenant leurs valeurs dans un alphabet fini.  Le codeur de source : réalise la fonction de codage pour donner à sa sortie un vecteur (un train binaire) w de longueur k.  Le décodeur de source : restitue l’information de même nature que la source, reçoit un vecteur z de taille k qui sera décodé en la source reconstruite V de m symboles. Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022
  • 29.
    Codage de source: Objectifs  Les objectifs du codage de source sont : 1. Réduire la redondance dans le message source. 2. Reproduire une nouvelle version de la source en visant : - soit une compression sans perte; - soit une compression avec perte. Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022
  • 30.
    Codage de source: Critères de performance  CRITÈRES DE PERFORMANCE du codage source :  Rapport de compression ;  Taux de compression ou débit de source ;  Mesure de distorsion (en cas de compression avec perte). Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022 Codeur de source Décodeur de source U=(u1,u2,…,um) Y = ( b1,b2,…,bk ) V
  • 31.
    Codage source :critères de performance  RAPPORT DE COMPRESSION :  Il est défini par la taille des données de la source (TDs) en bits sur la taille des données comprimées (TDc) en bits.  Rapport de compression r = TDs / TDc  Plus r est élevé, plus le système de compression est meilleur. Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022
  • 32.
    Codage de source: critères de performance  TAUX DE COMPRESSION OU DÉBIT DE SOURCE :  Le débit de source, Rs , est exactement le nombre moyen de bits par symbole de source: Rs= k / m où m est le nombre de symboles de la source à coder et k la longueur de la séquence binaire du code résultant.  Rs s’exprime en bits par symbole de source.  Un codeur est performant s’il est caractérisé par Rs faible. Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022
  • 33.
    Codage de source: critères de performance  Exemple illustratif : On désire coder une image 44 de quatre couleurs (rouge-R, orange-O, vert-V et jaune-J). Un balayage horizontal de l’image donne le vecteur X = (3,3,2,1,3,2,2,1,2,2,1,0,1,1,1,0) de cardinal m=16. Le codage source utilisé associe aux symboles de source les mots de code selon le tableau donné. On obtient alors la séquence binaire codée Y = (0,0,1,0,0,1,0,1,1,0,0,1,0,1,0,1,1,0,1,0,1,1,0,0,0,1,1,1,0,0,0) de longueur k=31.  Le rapport de compression est r = 44  round(log2A)/31 = 32/31.  Le taux de compression est Rs = k/m = 31/16 Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022 Image Alphabet A (Symboles) Fréquence Mot de code R R O J R O O J O O J V J J J V R 3 001 O 5 01 J 6 1 V 2 000
  • 34.
    Codage de source: critères de performance  MESURE DE DISTORSION : INTÉRÊT  Dans la pratique les signaux reconstruits à la réception ne sont pas absolument identiques aux signaux originaux émis.  La notion de distorsion met en évidence ce défaut de ressemblance parfaite entre signal reconstruit et signal original.  La distorsion offre à la Communauté du codage source un paramètre d’optimisation. Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022
  • 35.
    Codage de source: critères de performance  MESURE DE DISTORSION (DÉFINITION) :  La mesure de distorsion est la distorsion moyenne entre le signal et sa version reconstruite.  La distorsion est la distance moyenne du vecteur de source U par rapport au vecteur reconstruit V.  Cette distance doit être normalisée par la longueur du vecteur U.  D’où la distorsion notée D est : D = 1/mE[d(U,V)], où E[.] est l’espérance mathématique ; m la taille du vecteur U et d une mesure de distance (soit la distance euclidienne ou celle de Hamming). Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022
  • 36.
    Codage de source: critères de performance  MESURE DE DISTORSION : EXEMPLE 1  D = 1/mE[dH(U,V)], avec dH la distance de Hamming.  D est une mesure de la probabilité d’erreur-bit.  D reflète le nombre moyen de bits erronés entre les vecteurs d’entrée U et de sortie V normalisé par la longueur du vecteur d’entrée. Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022
  • 37.
    Codage de source: critères de performance  MESURE DE DISTORSION : EXEMPLE 2  D = 1/mE[dE(U,V)], avec dE = ||U-V||2 la distance euclidienne.  D est l’erreur quadratique moyenne (EQM). Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022
  • 38.
    Codage de source: critères de performance  MESURE DE DISTORSION : DEUX TYPES DE MESURE 1. les mesures de distorsion subjectives : sont généralement basées sur la perception humaine : l’audition pour les signaux audio et la vue pour les signaux images/vidéo. Ces mesures subjectives donnent des critères plus fiables de comparaison des différents signaux (et systèmes); Malheureusement leur utilisation difficile conduit à utiliser plus fréquemment les mesures objectives. 2. les mesures de distorsion objectives : sont des outils mathématiques de mesure de la distorsion. Exemples: EQM, PSNR. Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022
  • 39.
    Codage de source: fonction débit distorsion  FONCTION DÉBIT-DISTORSION :  La fonction débit-distorsion est notée Rs(D).  Rs(D) décrit une courbe théorique qui donne, en fonction de la distorsion D, le nombre moyen minimal de bits nécessaires pour coder un symbole de source. Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022                 D V U d E m V U I m D R u v p m s , 1 / , 1 min inf ) / (           dudv v p u p v u p v u p m V U I , log , 1 , 2          
  • 40.
    Codage de source: fonction débit distorsion Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022  Rs(D) est une minimisation de l’information mutuelle I(U, V) sur toutes les probabilités conditionnelles p(u/v) possibles et sur toutes les longueurs m possibles du vecteur U pour une pdf p(u) sous une contrainte de distorsion de la source.  u (resp. v) est une composante du vecteur U (resp. V).  Information mutuelle I(U,V) = information disposée sur la source U sachant l’observation de la sortie V du décodeur Remarque : Lorsque D est nulle, Rs(D) représente le nombre moyen minimum de bits nécessaires pour coder les symboles de source sans perte. Rs(D) est dans ce cas égale à l’entropie.
  • 41.
    Codage de source: Théorème de Shannon Théorème de Shannon du codage source avec perte : La longueur (c’est-à-dire le nombre moyen de bits par symbole) Rs d’un codage source peut approcher, d’aussi près qu’on le veut, la limite Rs(D) ; ce qui se traduit par l’inégalité suivante : Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022   D R R s s  Remarque : Dans le cas sans perte, D=0. On retourne au 1er théorème de Shannon (th. du codage sans perte)
  • 42.
    Codage de source: Théorème de Shannon THÉORÈME DE SHANNON (COMMENTAIRE) : Autrement dit, le théorème dit que pour un codeur de source pratiquement réalisé avec une distorsion D donnée, le nombre moyen de bits par symbole de source est supérieur ou égal à celui donné par la courbe théorique pour cette même valeur de la distorsion D. Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022
  • 43.
    Codage de source: Théorème de Shannon THÉORÈME DE SHANNON (ILLUSTRATION NO-01) : Pour une source binaire symétrique : Rs(D) = 1-H2(D) où H2(.) est la fonction d’entropie binaire définie par : Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022         x x x x x H x H      1 1 log 1 1 log 1 , 0 1 , 0 : 2 2 2 2 
  • 44.
    Codage de source: Théorème de Shannon Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022 0 0.1 0.2 0.3 0.4 0.5 0 0.2 0.4 0.6 0.8 1 Distorsion D Débit de source Rs Rs(D) THÉORÈME DE SHANNON (ILLUSTRATION NO- 01) : Courbe débit- distorsion
  • 45.
    Codage de source: Théorème de Shannon THÉORÈME DE SHANNON (ILLUSTRATION NO-02) : Pour une source Gaussienne : Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022            D D Rs 2 2 log 2 1 
  • 46.
    Codage de source: Théorème de Shannon Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022 THÉORÈME DE SHANNON (ILLUSTRATION NO- 02) : Courbe débit-distorsion pour une variance unitaire 0 0.2 0.4 0.6 0.8 1 0 0.5 1 1.5 2 2.5 3 3.5 Distorsion D Débit de source Rs Rs(D)
  • 47.
    Références bibliographiques  Jean-YvesLe BOUDEC, Patrick THIRAN, Rüdiger URBANKE, « Sciences de l’Information », 2014. Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022
  • 48.
    Questions 1. Définir lesnotions : source d'information, quantité d'information, capacité d'une source d'information sans mémoire, codage de source. 2. Quel rapport y a-t-il entre la quantité d'information et l'entropie d'une source ? 3. En un schéma, montrer les blocs d'encodage et de décodage à réaliser dans le cadre d'une opération de codage de source. Y faire ressortir et annoter les définitions suivantes : mot de code, symbole de code, dictionnaire, longueur d'un mot de code. 4. En codage de source, comment mesure-t-on la redondance ? 5. Définir les trois propriétés importantes pouvant caractériser un code C donné : prefixe, à décodage unique, instantané. Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022
  • 49.
    Questions 6. Pour chacundes codes du tableau ci-dessous, vérifier et justifier si chacune des trois propriétés d'un code sont satisfaites : Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022 Code Dictionnaire C1 0 10 110 1011 C2 0 01 011 0111 C3 0 10 110 1110 C4 10 11 000 101 111 1100 1101 7. Rappeler et définir les critères de performance d'un système de codage de source.