Lecture_IT_P02_Theorie de l'information.pptx

Chapitre 3.
Codage de source
3.1. Notions générales

Systèmes de communications numériques
U
V
X
Y
Codeur de
source
Cryptage Codeur de
canal
Emetteur
Milieu de
transmission
Décodeur
source
Décryptage Décodeur
canal
Récepteur
U
S
E
R
CANAL
S
O
U
R
C
E
Dr P. PODA, MC, pasteurpoda@yahoo.fr,
12/2022

Source d’information : Définition
 SOURCE D’INFORMATION :
 Définition :
Une source d’information S est un dispositif dont la
sortie, observable de l’extérieur, peut prendre de
façon aléatoire un nombre fini q d’états distincts S1 ,
S2 , …, Sq avec des probabilités respectives P1 , P2 , …, Pq.
 Une source d’information est complètement définie
par son alphabet A = {S1, S2, …, Sq } et sa statistique.
12/2022

Source d’information : Définitions
 SOURCE D’INFORMATION :
 Exemples de source d’information :
 signal analogique tel que le signal audio ou le signal vidéo,
 signal numérique tel que des données informatiques ou du texte.
 Une source sans mémoire est une source dont les probabilités
d’apparition des symboles (les éléments de l’alphabet) ne
dépendent pas des symboles précédemment émis.
 Une source de Markov d’ordre m est une source à mémoire
finie où les probabilités d’apparition des symboles dépendent
des m symboles précédemment émis.
12/2022

Source d’information : Quantité d’information
 QUANTITÉ D’INFORMATION I :
 L’information fournie à un observateur par un certain événement
(apparition du symbole Si à la sortie de la source S) est liée au
caractère plus ou moins prévisible de cet événement.
 Si un événement est a priori très probable, son apparition n’apporte
que peu d’information à son observateur; en revanche, un
événement a priori peu probable, est très inattendu pour
l’observateur et son apparition apporte une grande information.
 La quantité d’information apportée par l’apparition du symbole Si
à la sortie de la source S doit donc être caractérisée par une fonction
décroissante de la probabilité d’occurrence, Pi , de ce symbole.
12/2022

Source d’information : Quantité d’information
 QUANTITÉ D’INFORMATION I (DÉFINITION) :
 La quantité d’information I s’exprime, par définition, en
fonction des probabilités d’occurrence des symboles de source :
I = log2 (1/Pi ) = - log2 Pi .
 L’unité de I est le bit (ou le shannon).
 Dans le cas particulier où les symboles S1 ,S2 ,…,Sq sont
équiprobables on a : Pi = 1/q et donc I = log2 q.
 La quantité d’information est liée au nombre minimal
d’éléments binaires nécessaires au codage de ce symbole dans
un code à décodage unique.
12/2022

Source d’information : Entropie
 L’entropie d’une source sans mémoire
S=(A, p) est la moyenne statistique de
la quantité d’information fournie par
la source. Elle est définie par H(S) :
12/2022
  log
1
2




q
i
i
i P
P
S
H

Source d’information : Capacité
La capacité d’une source sans mémoire est par
définition le maximum d’information moyenne
par symbole que la source est capable de fournir
lorsqu’on peut modifier sa statistique.
12/2022
 
   
q
S
H
C
i
P
2
log
max 

La capacité d’une source sans mémoire est
atteinte lorsque les symboles sont équiprobables.

Codage de source : Définitions
Le CODAGE DE SOURCE :
est une mise en forme appropriée de l’ information
délivrée par la source visant à éviter toute
redondance (répétition) inutile de l’information.
Le codage d’une source d’information consiste à faire
correspondre à chacun de ses symboles un mot de
code constitué d’une séquence de symboles qui
appartiennent à un alphabet généralement (binaire)
distinct de l’alphabet de source.
12/2022

On considère une source S d’alphabet A = {s1, …, sq}.
L’alphabet du code B est un ensemble de b symboles de
code (si b=2 alors B = {0, 1}).
 Les éléments de B sont appelés symboles de code.
 Un sous-ensemble fini de suites finies d’éléments construites
avec l’alphabet B est appelé dictionnaire C.
 Un élément de C est appelé mot de code.
 Le codage (ou encodage) est une application bijective  :
A  C.
12/2022

On considère une source S d’alphabet A = {s1, …, sq}.
L’alphabet du code B est un ensemble de b symboles
de code (si b=2 alors B = {0, 1}).
 La Longueur d’un mot de code cC est le nombre de
symboles de code que compte c.
 Le décodage est l’application inverse -1
: C  A qui
consiste à traduire un mot de code en un symbole de
la source.
Dr P. PODA, MC, pasteurpoda@yahoo.fr, 12/2022

Codage de source : Redondance
12/2022
 Si S est une source d'alphabet à q symboles et d'entropie H(S), alors son
contenu est compressible sans perte d'information si H(S) < log2 q, c'est-
à-dire si son entropie n'est pas maximale.
 Si une source S est compressible, alors elle possède de la redondance et
l'opération de codage de source va consister à réduire, en partie ou en
totalité, cette redondance.
 La redondance dans une source d’information est le fait du
déséquilibre de sa loi de probabilité par rapport à la loi uniforme et de
l'existence d'une mémoire (propriétés favorables à une diminution de
l’entropie).
 La redondance d'une source se mesure par la quantité suivante souvent
exprimée en pourcentage :
q
S
H
r
2
log
)
(
1


Codage de source : Propriétés du code
 Un code C est un ensemble de mots de code ci (i=1, …, q) formés à
partir de symboles issus d'un alphabet de B (de cardinal b). Chaque
mot de code ci est caractérisé par sa longueur li.
 Des propriétés importantes relatives aux codes on note : préfixe,
à décodage unique, instantané.
 Code préfixe : est un code qui ne comporte aucun mot de code qui
soit le début d'un autre mot de code.
 Code à décodage unique :
Un code est dit à décodage unique lorsque dans une séquence
comportant plusieurs mots de code, on peut toujours retrouver les
mots de code individuels d’une et d’une seule manière (et donc les
symboles de source auxquels ils correspondent).
12/2022

 Code à décodage unique :
Une condition suffisante pour qu'un code soit à
décodage unique est qu'il soit préfixe.
 Exemple :
 Alphabet binaire B = {0, 1} , donc b = 2.
 Le code binaire C = {1, 01, 000, 001} - comportant un
mot de longueur 1 (c1 ="1"), un mot de longueur 2 (c2
="01") et deux mots de longueur 3 (c3 ="000" et c4 ="001")
– est un code préfixe, et donc à décodage unique.
12/2022

 Remarque :
 Un code à décodage unique n'est pas forcément préfixe.
 Exemple : Avec C = {1, 10}, le décodage de la séquence "1110101"
s'effectue sans ambiguïté, à condition de lire les symboles 2 par 2.
 Pour identifier un mot de code, on est contraint de lire le
symbole suivant : ce code n'est pas instantané.
 Code instantané :
 Si le code est à décodage unique,
 Et si, à mesure que les séquences de symboles de l’alphabet du
code sont reçus, il est possible de reconnaître chaque mot de
code sans devoir se référer aux symboles de code qui suivent.
CNS : il faut et il suffit qu’aucun code ne soit le préfixe (début)
d’un autre mot de code.
12/2022

Dans l’exemple du tableau ci-après on a :
 Les codes B et C sont à décodage unique ;
 Le code C est instantané.
12/2022
Symboles de source S1 S2 S3 S4
Mots du code A 0 10 110 1011
Mots du code B 0 01 011 0111
Mots du code C 0 10 110 1110

Codage de source : Inégalité de Kraft
Théorème de Kraft (inégalité de Kraft) :
Une condition nécessaire et suffisante pour qu'un code C
puisse être transformé (en effectuant des permutations sur les symboles
formant les mots de code) en un code préfixe équivalent (possédant la
même distribution de longueur des mots) est que l'inégalité suivante soit
satisfaite :
12/2022




q
i
l
b
i
1
1
Exemple :
Le code C = {10, 11, 000, 101, 111, 1100, 1101}, un code binaire =>
b = 2, vérifie l'inégalité de Kraft car on a 22-2
+ 3  2-3
+2  2-4
= 1.
Par conséquent, il existe un code préfixe équivalent ayant
même distribution des longueurs.

 Pour construire le code préfixe équivalent, on peut
utiliser un arbre.
 Il suffit de dessiner un arbre dont la profondeur
correspond à la longueur maximum des mots de code.
Chaque mot de code correspond à une suite de nœuds
débutant à la racine de l’arbre et finissant par un nœud
terminal (feuille).
 La recette pour obtenir un code préfixe consiste à faire en
sorte qu'aucun chemin (succession d'arêtes)
correspondant à un mot de code ne soit strictement inclus
dans les chemins correspondant aux autres mots code.
12/2022

 Exemple (le même que précédemment) :
Soit le code C = {10, 11, 000, 101, 111, 1100, 1101}
 La longueur maximum des mots de code est 4. Donc l'arbre
devra comporter 4 niveaux.
 Le code initial C se compose de :
 2 mots de longueur 2, il faut donc réserver 2 feuilles au 2è niveau,
 3 mots de longueur 3 => 3 nœuds terminaux au 3è niveau,
 2 mots de longueur 4 => 2 nœuds terminaux au 4è niveau.
 Le dessin (voir slide suivante) illustre la construction du code
préfixe équivalent.
12/2022

 Le code ainsi obtenu est :
 C ’ = {01, 10, 000, 001, 111, 1100, 1101}
 Remarque: il existe d’autres possibilités
12/2022
0
0
0
0 0
0
1
1
1
1
1
1 "01" "10"
"001"
"000" "111"
"1100" "1101"
1er
niveau
2è niveau
3è niveau
4è niveau

Codage de source : Théorème de Kraft-McMillan
 Théorème de Kraft-McMillan :
Soit C un code b-aire dont les longueurs des q mots de
code sont l1, …, lq. Si C est à décodage unique alors il
satisfait l'inégalité de Kraft :
Réciproquement, si des nombres l1, …, lq satisfont l’inégalité
de Kraft, il existe un code b-aire instantané (donc à
décodage unique) dont le dictionnaire possède q mots de
code et dont les longueurs des mots de code sont l1, …, lq.
12/2022




q
i
l
b
i
1
1

Codage de source : Théorème de Kraft-McMillan
12/2022
 Remarques :
 Les deux théorèmes (Kraft et Kraft-McMillan)
permettent de conclure que tout code à décodage
unique possède un code préfixe équivalent.
 Bien que la notion de code préfixe soit plus restrictive
que celle de code à décodage unique, les deux
théorèmes (Kraft et Kraft-McMillan) montrent que l'on
peut, sans perte de généralité, se restreindre à la
classe des codes préfixes.

Codage de source : Efficacité du code
Longueur moyenne du mot de
code :
Soit li la longueur du mot de code
correspondant à Si de probabilité Pi, la
longueur moyenne d’un mot de code est
définie par L0 :
L’unité de L0 est le : bits par symbole de source
12/2022
1
0 


q
i
i
il
P
L

Codage de source : Efficacité du code
 Théorème (Première inégalité de l’entropie) :
Soit une source S d’entropie H(S) et soit  un code
b-aire de la source S. Si  est à décodage unique,
sa longueur moyenne L0() satisfait :
12/2022
   
)
(
log2
0
b
S
H
L 

 Ce théorème traduit que l’entropie d’une source
correspond au nombre minimal d’éléments binaires
(b=2) nécessaires en moyenne pour coder un symbole
de la source sans perte ; c’est-à-dire que H(S)  L0.

Codage de source : 1er théorème de SHANNON
PREMIER THÉORÈME DE SHANNON (THÉORÈME DU
CODAGE SOURCE SANS PERTE) :
Soit X une source discrète sans mémoire avec
une entropie H(X). Il existe un code source
sans perte pour cette source à tout débit R si
R > H(X). Il n'existe pas de code sans perte
pour cette source à des débits inférieurs à
H(X).
12/2022

Codage de source : Schéma général
Décodeur
de source
z
m
V
k
Destination
Données
reconstruite
s
Données
comprimée
s
Codeur
de source
U
m
w
k
Sourc
e
12/2022

Codage de source : Schéma général
 la source : est définie par U, vecteur comprenant m
symboles prenant leurs valeurs dans un alphabet fini.
 Le codeur de source : réalise la fonction de codage
pour donner à sa sortie un vecteur (un train binaire) w
de longueur k.
 Le décodeur de source : restitue l’information de
même nature que la source, reçoit un vecteur z de taille
k qui sera décodé en la source reconstruite V de m
symboles.
12/2022

Codage de source : Objectifs
 Les objectifs du codage de source sont :
1. Réduire la redondance dans le message source.
2. Reproduire une nouvelle version de la source
en visant :
- soit une compression sans perte;
- soit une compression avec perte.
12/2022

Codage de source : Critères de performance
 CRITÈRES DE PERFORMANCE du codage source :
 Rapport de compression ;
 Taux de compression ou débit de source ;
 Mesure de distorsion (en cas de compression avec perte).
12/2022
Codeur
de source
Décodeur
de source
U=(u1,u2,…,um) Y = ( b1,b2,…,bk ) V

Codage source : critères de performance
 RAPPORT DE COMPRESSION :
 Il est défini par la taille des données de la source
(TDs) en bits sur la taille des données comprimées
(TDc) en bits.
 Rapport de compression r = TDs / TDc
 Plus r est élevé, plus le système de compression est
meilleur.
12/2022

Codage de source : critères de
performance
 TAUX DE COMPRESSION OU DÉBIT DE SOURCE :
 Le débit de source, Rs , est exactement le nombre moyen
de bits par symbole de source: Rs= k / m où m est le nombre
de symboles de la source à coder et k la longueur de la séquence
binaire du code résultant.
 Rs s’exprime en bits par symbole de source.
 Un codeur est performant s’il est caractérisé par Rs faible.
12/2022

Codage de source : critères de performance
 Exemple illustratif :
On désire coder une image 44 de quatre couleurs (rouge-R, orange-O, vert-V et
jaune-J). Un balayage horizontal de l’image donne le vecteur
X = (3,3,2,1,3,2,2,1,2,2,1,0,1,1,1,0) de cardinal m=16. Le codage source utilisé associe
aux symboles de source les mots de code selon le tableau donné. On obtient alors
la séquence binaire codée
Y = (0,0,1,0,0,1,0,1,1,0,0,1,0,1,0,1,1,0,1,0,1,1,0,0,0,1,1,1,0,0,0) de longueur k=31.
 Le rapport de compression est r = 44  round(log2A)/31 = 32/31.
 Le taux de compression est Rs = k/m = 31/16
12/2022
Image Alphabet A
(Symboles)
Fréquence Mot de
code
R R O J
R O O J
O O J V
J J J V
R 3 001
O 5 01
J 6 1
V 2 000

 MESURE DE DISTORSION : INTÉRÊT
 Dans la pratique les signaux reconstruits à la réception
ne sont pas absolument identiques aux signaux
originaux émis.
 La notion de distorsion met en évidence ce défaut de
ressemblance parfaite entre signal reconstruit et signal
original.
 La distorsion offre à la Communauté du codage source
un paramètre d’optimisation.
12/2022

 MESURE DE DISTORSION (DÉFINITION) :
 La mesure de distorsion est la distorsion moyenne entre le signal et
sa version reconstruite.
 La distorsion est la distance moyenne du vecteur de source U par
rapport au vecteur reconstruit V.
 Cette distance doit être normalisée par la longueur du vecteur U.
 D’où la distorsion notée D est : D = 1/mE[d(U,V)], où E[.] est
l’espérance mathématique ; m la taille du vecteur U et d une mesure
de distance (soit la distance euclidienne ou celle de Hamming).
12/2022

 MESURE DE DISTORSION : EXEMPLE 1
 D = 1/mE[dH(U,V)],
avec dH la distance de Hamming.
 D est une mesure de la probabilité d’erreur-bit.
 D reflète le nombre moyen de bits erronés entre les
vecteurs d’entrée U et de sortie V normalisé par la
longueur du vecteur d’entrée.
12/2022

 MESURE DE DISTORSION :
EXEMPLE 2
 D = 1/mE[dE(U,V)],
avec dE = ||U-V||2
la distance euclidienne.
 D est l’erreur quadratique moyenne (EQM).
12/2022

 MESURE DE DISTORSION : DEUX TYPES DE MESURE
1. les mesures de distorsion subjectives : sont généralement
basées sur la perception humaine : l’audition pour les signaux
audio et la vue pour les signaux images/vidéo.
Ces mesures subjectives donnent des critères plus fiables de
comparaison des différents signaux (et systèmes);
Malheureusement leur utilisation difficile conduit à utiliser
plus fréquemment les mesures objectives.
2. les mesures de distorsion objectives : sont des outils
mathématiques de mesure de la distorsion. Exemples: EQM,
PSNR.
12/2022

Codage de source : fonction débit distorsion
 FONCTION DÉBIT-DISTORSION :
 La fonction débit-distorsion est notée Rs(D).
 Rs(D) décrit une courbe théorique qui donne, en fonction de
la distorsion D, le nombre moyen minimal de bits
nécessaires pour coder un symbole de source.
12/2022
     
 







 D
V
U
d
E
m
V
U
I
m
D
R
u
v
p
m
s ,
1
/
,
1
min
inf
)
/
(
     
   
dudv
v
p
u
p
v
u
p
v
u
p
m
V
U
I
,
log
,
1
, 2
 









Codage de source : fonction débit distorsion
12/2022
 Rs(D) est une minimisation de l’information mutuelle I(U, V) sur toutes
les probabilités conditionnelles p(u/v) possibles et sur toutes les
longueurs m possibles du vecteur U pour une pdf p(u) sous une
contrainte de distorsion de la source.
 u (resp. v) est une composante du vecteur U (resp. V).
 Information mutuelle I(U,V) = information disposée sur la source U
sachant l’observation de la sortie V du décodeur
Remarque :
Lorsque D est nulle, Rs(D) représente le nombre moyen
minimum de bits nécessaires pour coder les symboles
de source sans perte. Rs(D) est dans ce cas égale à
l’entropie.

Codage de source : Théorème de Shannon
Théorème de Shannon du codage source avec
perte :
La longueur (c’est-à-dire le nombre moyen de bits
par symbole) Rs d’un codage source peut approcher,
d’aussi près qu’on le veut, la limite Rs(D) ; ce qui se
traduit par l’inégalité suivante :
12/2022
 
D
R
R s
s 
Remarque : Dans le cas sans perte, D=0. On retourne
au 1er théorème de Shannon (th. du codage sans
perte)

THÉORÈME DE SHANNON (COMMENTAIRE) :
Autrement dit, le théorème dit que pour un
codeur de source pratiquement réalisé avec une
distorsion D donnée, le nombre moyen de bits
par symbole de source est supérieur ou égal à
celui donné par la courbe théorique pour cette
même valeur de la distorsion D.
12/2022

THÉORÈME DE SHANNON (ILLUSTRATION NO-01) :
Pour une source binaire symétrique :
Rs(D) = 1-H2(D)
où H2(.) est la fonction d’entropie binaire définie par :
12/2022
   
   
x
x
x
x
x
H
x
H





1
1
log
1
1
log
1
,
0
1
,
0
:
2
2
2
2


12/2022
0 0.1 0.2 0.3 0.4 0.5
0
0.2
0.4
0.6
0.8
1
Distorsion D
Débit
de
source
Rs
Rs(D)
THÉORÈME DE
SHANNON
(ILLUSTRATION NO-
01) :
Courbe débit-
distorsion

THÉORÈME DE SHANNON (ILLUSTRATION NO-02) :
Pour une source Gaussienne :
12/2022
  








D
D
Rs
2
2
log
2
1 

12/2022
THÉORÈME DE SHANNON
(ILLUSTRATION NO-
02) :
Courbe débit-distorsion
pour une variance unitaire
0 0.2 0.4 0.6 0.8 1
0
0.5
1
1.5
2
2.5
3
3.5
Distorsion D
Débit
de
source
Rs
Rs(D)

Références bibliographiques
 Jean-Yves Le BOUDEC, Patrick THIRAN, Rüdiger
URBANKE, « Sciences de l’Information », 2014.
12/2022

Questions
1. Définir les notions : source d'information, quantité d'information,
capacité d'une source d'information sans mémoire, codage de source.
2. Quel rapport y a-t-il entre la quantité d'information et l'entropie
d'une source ?
3. En un schéma, montrer les blocs d'encodage et de décodage à
réaliser dans le cadre d'une opération de codage de source. Y faire
ressortir et annoter les définitions suivantes : mot de code, symbole de
code, dictionnaire, longueur d'un mot de code.
4. En codage de source, comment mesure-t-on la redondance ?
5. Définir les trois propriétés importantes pouvant caractériser un
code C donné : prefixe, à décodage unique, instantané.
12/2022

Questions
6. Pour chacun des codes du tableau ci-dessous,
vérifier et justifier si chacune des trois propriétés
d'un code sont satisfaites :
12/2022
Code Dictionnaire
C1 0 10 110 1011
C2 0 01 011 0111
C3 0 10 110 1110
C4 10 11 000 101 111 1100 1101
7. Rappeler et définir les critères de performance d'un
système de codage de source.

Lecture_IT_P02_Theorie de l'information.pptx

Contenu connexe

En vedette

Lecture_IT_P02_Theorie de l'information.pptx