SlideShare une entreprise Scribd logo
1  sur  21
Intégration de l’amazighe dans un
OCR OpenSource
Ocropus comme modèle
Présenté par
Ait ouguengay Youssef
IRCAM - Rabat
PLAN
SITACAM’11 Agadir 06 & 07 Mai 20112
 Introduction
 Situation du travail
 Ocropus : un système OCR modèle
 Intégration du Tifinaghe
 Discussions et perspectives
Introduction
SITACAM’11 Agadir 06 & 07 Mai 20113
 Depuis 2002, le « Tifinaghe » est le caractère officiel
de l’écriture de l’amazighe au Maroc.
 Plusieurs travaux d’aménagement :
 Linguistiques (syntaxe, grammaire, etc)
 Technologiques (normalisation Tifinaghe, TAL, OCR, etc)
 Proposition d’un projet OCR pour l’amazighe depuis
2008 (conférence SITALA2008 INPT Rabat ).
Situation du Travail (1/3)
SITACAM’11 Agadir 06 & 07 Mai 20114
 La majorité des projets OCR traitent les
problématiques de la reconnaissance optique des
alphabets latins.
 Quelques travaux sur les script non latins:
 Exemple : le thaï, le Bangali, le Korian, le chinois, l’arabe,
etc.
 la majorité des projets open source mais de petite à
moyenne porté.
Situation du Travail (2/3)
SITACAM’11 Agadir 06 & 07 Mai 20115
 Le cas du Tifinaghe :
 Travaux de recherche sur l’OCR amazighe
 Optimisation des méthodes de classification :
 les réseaux de neurones
 les automates à états finis
 Etc.
 Besoin d’un système complet d’OCR disponible comme référence
:
 Tests des méthodes directement sur un OCR exploitable immédiatement,
 Système ouvert, comparaisons des résultats, etc.
Travailler sur l’open source
Situation du Travail (3/3)
SITACAM’11 Agadir 06 & 07 Mai 20116
 Schéma d’un OCR théorique :
Ocropus : vers un système OCR modèle
SITACAM’11 Agadir 06 & 07 Mai 20117
 Motivations :
 Problèmes des systèmes existants
 propriétaires et non multi-scripts.
 Analyseur des documents non ouvert pour l’apprentissage.
 Classificateurs adaptés par dictionnaires et orientés plutôt
vitesse.
 Les entrées inattendu donnent des résultats catastrophiques.
Ocropus : vers un système OCR modèle
SITACAM’11 Agadir 06 & 07 Mai 20118
 Motivations :
 Solutions :
 Nouvelle génération de systèmes OCR.
 S’approcher des modèles théoriques
 Apprentissage automatique, traitement statistiques des langages
naturels
 Améliorer l’analyse des documents
 Améliorer la reconnaissance :
 diversités de classificateurs, possibilités de choix et de
paramétrage.
 Modélisation du langage.
Ocropus : vers un système OCR modèle
SITACAM’11 Agadir 06 & 07 Mai 20119
Atouts et objectifs :
 Multi-fonte, multi-script.
 Support de l’Unicode (UTF-8)
 Ingénierie logiciel à base de composants
 Couplage minimale entre les composants
 Outils en ligne de commande
 Applications cibles :
 Livre OCRisé (en cours )
 Construction automatisé des bibliothèques numériques.
Ocropus : vers un système OCR modèle
SITACAM’11 Agadir 06 & 07 Mai 201110
 Multiples classificateurs
 De base
 Le plus proche voisin
Vx : l’ensemble des k modèles les plus proches et Vx
(i) : les modèles
appartenant à la classe i.
 Réseaux de neurones
Où
: la valeur du nœud i de la couche k
: nombre du nœuds de la couche k
: biais du nœud i de la couche k
: le poids de la connexion entre les nœuds j de la couche k et le noeud i de la couche k-1.
   
x
i
xi VVxD 





)1(
1
1
kn
i
k
i
k
ji
k
j
k
j xwbx
k
ix
)(kn
k
ib
k
jiw
Ocropus : un système OCR modèle
SITACAM’11 Agadir 06 & 07 Mai 201112
 Combinaisons de classificateurs
 Mixage d’experts
Ocropus : un système OCR modèle
SITACAM’11 Agadir 06 & 07 Mai 201113
 Classificateurs externes
 Tesseract (optionnel à partir de la version V 0.4)
Prétraitement d’image
Analyse de rendu
Reconnaissance
Modélisation de langage
Intégration du Tifinaghe dans OCRopus
SITACAM’11 Agadir 06 & 07 Mai 201114
 L’Ensemble ciblé réduit aux :
 33 caractères marocains,
 Les Ponctuations usuels et chiffres arabes.
- : ’ 2 ⴰ ⵃ ⵔ ⵣ
! ? + ² ⴱ ⵄ ⵕ ⵥ
# @ < 3 ⴳ ⵅ ⵖ
& [ = 4 ⴳⵯ ⵇ ⵙ
( ] > 5 ⴷ ⵉ ⵚ
) _ « 6 ⴹ ⵊ ⵛ
* { » 7 ⴼ ⵍ ⵜ
, } § 8 ⴽ ⵎ ⵟ
. ~ 0 9 ⴽⵯ ⵏ ⵡ
/ ‘ 1 ⵀ ⵓ ⵢ
Intégration du Tifinaghe dans OCRopus
SITACAM’11 Agadir 06 & 07 Mai 201115
 Base de données d’apprentissage :
 images textes
 Bouts de textes aléatoires tiré d’un corpus brut de l’IRCAM.
Intégration du Tifinaghe dans OCRopus
SITACAM’11 Agadir 06 & 07 Mai 201116
 1746 caractères
 16 fontes :
 13 fontes classiques (serif et sans serif )
 02 fontes gras
 01 fonte manuscrite
 Une base de données de :
1746 * 16 caractères
Intégration du Tifinaghe dans OCRopus
SITACAM’11 Agadir 06 & 07 Mai 201117
 Fréquence des caractères Tifinaghe dans la base de données
d’apprentissage :
 Recommandation :
 Minimum 20 apparition pour les caractères les plus fréquents
 5 à 10 pour les rares utilisés
Intégration du Tifinaghe dans OCRopus
SITACAM’11 Agadir 06 & 07 Mai 201118
 Création de la BD d’entrainement :
 Plusieurs fichiers de formats bien déterminés :
 tessdata/ⵣ.unicharset
 tessdata/ⵣ.unicharambigs
 tessdata/ⵣ.inttemp
 tessdata/ⵣ.pffmtable
 tessdata/ⵣ.normproto
 tessdata/ⵣ.punc-dawg
 tessdata/ⵣ.word-dawg
 tessdata/ⵣ.number-dawg
 tessdata/ⵣ.freq-dawg
Intégration du Tifinaghe dans OCRopus
SITACAM’11 Agadir 06 & 07 Mai 201119
 Création de la BD d’entrainement (technique de
fenêtrage ) :
Fichiers «Box»
Fichiers
D’apprentissag
e
Intégration du Tifinaghe dans OCRopus
SITACAM’11 Agadir 06 & 07 Mai 201120
 Premiers résultats :
 Tests effectués sur :
 Caractères isolés
 Textes avec fontes déjà appris
 98 % de reconnaissance sans ambigüité
 Quelques cas d’ambiguité pour des fontes particuliers :
 ⴰ  ‘’
 1  ‘I
 ⵔ 0
 ⵓ  :
Intégration du Tifinaghe dans OCRopus
SITACAM’11 Agadir 06 & 07 Mai 201121
 Discussions
 Quelques types de fontes « fantaisiques » causent des
problèmes d’ambiguités en classification.
 les fichiers optionnels n’ont pas été intégrés dans la BD
d’entrainement (ⵣ.unicharambigs, dictionnaire, etc)
 Taux de reconnaissance est bon mais nécessite encore
une amélioration.
 Plus de tests avec des textes et fontes non appris sont
nécessaires.
SITACAM’11 Agadir 06 & 07 Mai 201122

Contenu connexe

Similaire à intégration du Tifinaghe dans un Ocr OpenSource

Mise en place d’un moteur de recherche et de recommandation de documents text...
Mise en place d’un moteur de recherche et de recommandation de documents text...Mise en place d’un moteur de recherche et de recommandation de documents text...
Mise en place d’un moteur de recherche et de recommandation de documents text...
AbdeslamAMRANE3
 

Similaire à intégration du Tifinaghe dans un Ocr OpenSource (20)

Odoo / OCA
Odoo / OCAOdoo / OCA
Odoo / OCA
 
CV REBAI Hamida
CV REBAI HamidaCV REBAI Hamida
CV REBAI Hamida
 
Devcon Ile Maurice présentation Use Cases Elasticsearch par Spoon Consulting
Devcon Ile Maurice présentation Use Cases Elasticsearch par Spoon ConsultingDevcon Ile Maurice présentation Use Cases Elasticsearch par Spoon Consulting
Devcon Ile Maurice présentation Use Cases Elasticsearch par Spoon Consulting
 
EcmaScript
EcmaScriptEcmaScript
EcmaScript
 
Paper presentation of Performance Analysis of IoT-Based Sensor,Big Data Proce...
Paper presentation of Performance Analysis of IoT-Based Sensor,Big Data Proce...Paper presentation of Performance Analysis of IoT-Based Sensor,Big Data Proce...
Paper presentation of Performance Analysis of IoT-Based Sensor,Big Data Proce...
 
Ingénieur en développement logiciel
Ingénieur en développement logicielIngénieur en développement logiciel
Ingénieur en développement logiciel
 
Réutilisation de code entre windows 8 et windows phone 8
Réutilisation de code entre windows 8 et windows phone 8Réutilisation de code entre windows 8 et windows phone 8
Réutilisation de code entre windows 8 et windows phone 8
 
Du texte à la connaissance : annotation sémantique et peuplement d'ontologie ...
Du texte à la connaissance : annotation sémantique et peuplement d'ontologie ...Du texte à la connaissance : annotation sémantique et peuplement d'ontologie ...
Du texte à la connaissance : annotation sémantique et peuplement d'ontologie ...
 
Ingénieur FullStack Java/Angular
Ingénieur FullStack Java/Angular  Ingénieur FullStack Java/Angular
Ingénieur FullStack Java/Angular
 
MERAZKA Messaoud
MERAZKA MessaoudMERAZKA Messaoud
MERAZKA Messaoud
 
CV-Elhassane-NAIM-FR
CV-Elhassane-NAIM-FRCV-Elhassane-NAIM-FR
CV-Elhassane-NAIM-FR
 
Mise en place d’un moteur de recherche et de recommandation de documents text...
Mise en place d’un moteur de recherche et de recommandation de documents text...Mise en place d’un moteur de recherche et de recommandation de documents text...
Mise en place d’un moteur de recherche et de recommandation de documents text...
 
pfe benamor
pfe benamorpfe benamor
pfe benamor
 
pfe mehdi benamor
pfe mehdi benamorpfe mehdi benamor
pfe mehdi benamor
 
20120612 06 - Un framework d'analyse de logiciels issu de la recherche
20120612 06 - Un framework d'analyse de logiciels issu de la recherche20120612 06 - Un framework d'analyse de logiciels issu de la recherche
20120612 06 - Un framework d'analyse de logiciels issu de la recherche
 
Presentation forum php 2010
Presentation forum php 2010Presentation forum php 2010
Presentation forum php 2010
 
Introduction à la fouille de textes et positionnement de l'offre logicielle
Introduction à la fouille de textes et positionnement de l'offre logicielleIntroduction à la fouille de textes et positionnement de l'offre logicielle
Introduction à la fouille de textes et positionnement de l'offre logicielle
 
Sonar devant le Java User Group de Lausanne
Sonar devant le Java User Group de LausanneSonar devant le Java User Group de Lausanne
Sonar devant le Java User Group de Lausanne
 
Tayachi nadhir cv
Tayachi nadhir cvTayachi nadhir cv
Tayachi nadhir cv
 
Cv tayachi nadhir f
Cv tayachi nadhir fCv tayachi nadhir f
Cv tayachi nadhir f
 

Plus de Youssef Ouguengay

Plus de Youssef Ouguengay (8)

Le Tifinaghe face au défi technologique
Le Tifinaghe face au défi technologiqueLe Tifinaghe face au défi technologique
Le Tifinaghe face au défi technologique
 
Création des ressources amazighes en Tifinaghe
Création des ressources amazighes en TifinagheCréation des ressources amazighes en Tifinaghe
Création des ressources amazighes en Tifinaghe
 
La graphie Tifinaghe : parcours et perspectives d'informatisation
La graphie Tifinaghe : parcours et perspectives d'informatisationLa graphie Tifinaghe : parcours et perspectives d'informatisation
La graphie Tifinaghe : parcours et perspectives d'informatisation
 
réseaux de neurones artificielles pour la reconnaissance optique du Tifinaghe
réseaux de neurones artificielles pour la reconnaissance optique du Tifinagheréseaux de neurones artificielles pour la reconnaissance optique du Tifinaghe
réseaux de neurones artificielles pour la reconnaissance optique du Tifinaghe
 
Atelier sur l'amazighe et les NTIC
Atelier sur l'amazighe et les NTICAtelier sur l'amazighe et les NTIC
Atelier sur l'amazighe et les NTIC
 
L'amazighe à l'ère des tablettes
L'amazighe à l'ère des tablettesL'amazighe à l'ère des tablettes
L'amazighe à l'ère des tablettes
 
contexte de l'amazighe dans la normalisation internationale
contexte de l'amazighe dans la normalisation internationalecontexte de l'amazighe dans la normalisation internationale
contexte de l'amazighe dans la normalisation internationale
 
Le Tifinaghe et les nouvelles technologies au service du document numérique a...
Le Tifinaghe et les nouvelles technologies au service du document numérique a...Le Tifinaghe et les nouvelles technologies au service du document numérique a...
Le Tifinaghe et les nouvelles technologies au service du document numérique a...
 

intégration du Tifinaghe dans un Ocr OpenSource

  • 1. Intégration de l’amazighe dans un OCR OpenSource Ocropus comme modèle Présenté par Ait ouguengay Youssef IRCAM - Rabat
  • 2. PLAN SITACAM’11 Agadir 06 & 07 Mai 20112  Introduction  Situation du travail  Ocropus : un système OCR modèle  Intégration du Tifinaghe  Discussions et perspectives
  • 3. Introduction SITACAM’11 Agadir 06 & 07 Mai 20113  Depuis 2002, le « Tifinaghe » est le caractère officiel de l’écriture de l’amazighe au Maroc.  Plusieurs travaux d’aménagement :  Linguistiques (syntaxe, grammaire, etc)  Technologiques (normalisation Tifinaghe, TAL, OCR, etc)  Proposition d’un projet OCR pour l’amazighe depuis 2008 (conférence SITALA2008 INPT Rabat ).
  • 4. Situation du Travail (1/3) SITACAM’11 Agadir 06 & 07 Mai 20114  La majorité des projets OCR traitent les problématiques de la reconnaissance optique des alphabets latins.  Quelques travaux sur les script non latins:  Exemple : le thaï, le Bangali, le Korian, le chinois, l’arabe, etc.  la majorité des projets open source mais de petite à moyenne porté.
  • 5. Situation du Travail (2/3) SITACAM’11 Agadir 06 & 07 Mai 20115  Le cas du Tifinaghe :  Travaux de recherche sur l’OCR amazighe  Optimisation des méthodes de classification :  les réseaux de neurones  les automates à états finis  Etc.  Besoin d’un système complet d’OCR disponible comme référence :  Tests des méthodes directement sur un OCR exploitable immédiatement,  Système ouvert, comparaisons des résultats, etc. Travailler sur l’open source
  • 6. Situation du Travail (3/3) SITACAM’11 Agadir 06 & 07 Mai 20116  Schéma d’un OCR théorique :
  • 7. Ocropus : vers un système OCR modèle SITACAM’11 Agadir 06 & 07 Mai 20117  Motivations :  Problèmes des systèmes existants  propriétaires et non multi-scripts.  Analyseur des documents non ouvert pour l’apprentissage.  Classificateurs adaptés par dictionnaires et orientés plutôt vitesse.  Les entrées inattendu donnent des résultats catastrophiques.
  • 8. Ocropus : vers un système OCR modèle SITACAM’11 Agadir 06 & 07 Mai 20118  Motivations :  Solutions :  Nouvelle génération de systèmes OCR.  S’approcher des modèles théoriques  Apprentissage automatique, traitement statistiques des langages naturels  Améliorer l’analyse des documents  Améliorer la reconnaissance :  diversités de classificateurs, possibilités de choix et de paramétrage.  Modélisation du langage.
  • 9. Ocropus : vers un système OCR modèle SITACAM’11 Agadir 06 & 07 Mai 20119 Atouts et objectifs :  Multi-fonte, multi-script.  Support de l’Unicode (UTF-8)  Ingénierie logiciel à base de composants  Couplage minimale entre les composants  Outils en ligne de commande  Applications cibles :  Livre OCRisé (en cours )  Construction automatisé des bibliothèques numériques.
  • 10. Ocropus : vers un système OCR modèle SITACAM’11 Agadir 06 & 07 Mai 201110  Multiples classificateurs  De base  Le plus proche voisin Vx : l’ensemble des k modèles les plus proches et Vx (i) : les modèles appartenant à la classe i.  Réseaux de neurones Où : la valeur du nœud i de la couche k : nombre du nœuds de la couche k : biais du nœud i de la couche k : le poids de la connexion entre les nœuds j de la couche k et le noeud i de la couche k-1.     x i xi VVxD       )1( 1 1 kn i k i k ji k j k j xwbx k ix )(kn k ib k jiw
  • 11. Ocropus : un système OCR modèle SITACAM’11 Agadir 06 & 07 Mai 201112  Combinaisons de classificateurs  Mixage d’experts
  • 12. Ocropus : un système OCR modèle SITACAM’11 Agadir 06 & 07 Mai 201113  Classificateurs externes  Tesseract (optionnel à partir de la version V 0.4) Prétraitement d’image Analyse de rendu Reconnaissance Modélisation de langage
  • 13. Intégration du Tifinaghe dans OCRopus SITACAM’11 Agadir 06 & 07 Mai 201114  L’Ensemble ciblé réduit aux :  33 caractères marocains,  Les Ponctuations usuels et chiffres arabes. - : ’ 2 ⴰ ⵃ ⵔ ⵣ ! ? + ² ⴱ ⵄ ⵕ ⵥ # @ < 3 ⴳ ⵅ ⵖ & [ = 4 ⴳⵯ ⵇ ⵙ ( ] > 5 ⴷ ⵉ ⵚ ) _ « 6 ⴹ ⵊ ⵛ * { » 7 ⴼ ⵍ ⵜ , } § 8 ⴽ ⵎ ⵟ . ~ 0 9 ⴽⵯ ⵏ ⵡ / ‘ 1 ⵀ ⵓ ⵢ
  • 14. Intégration du Tifinaghe dans OCRopus SITACAM’11 Agadir 06 & 07 Mai 201115  Base de données d’apprentissage :  images textes  Bouts de textes aléatoires tiré d’un corpus brut de l’IRCAM.
  • 15. Intégration du Tifinaghe dans OCRopus SITACAM’11 Agadir 06 & 07 Mai 201116  1746 caractères  16 fontes :  13 fontes classiques (serif et sans serif )  02 fontes gras  01 fonte manuscrite  Une base de données de : 1746 * 16 caractères
  • 16. Intégration du Tifinaghe dans OCRopus SITACAM’11 Agadir 06 & 07 Mai 201117  Fréquence des caractères Tifinaghe dans la base de données d’apprentissage :  Recommandation :  Minimum 20 apparition pour les caractères les plus fréquents  5 à 10 pour les rares utilisés
  • 17. Intégration du Tifinaghe dans OCRopus SITACAM’11 Agadir 06 & 07 Mai 201118  Création de la BD d’entrainement :  Plusieurs fichiers de formats bien déterminés :  tessdata/ⵣ.unicharset  tessdata/ⵣ.unicharambigs  tessdata/ⵣ.inttemp  tessdata/ⵣ.pffmtable  tessdata/ⵣ.normproto  tessdata/ⵣ.punc-dawg  tessdata/ⵣ.word-dawg  tessdata/ⵣ.number-dawg  tessdata/ⵣ.freq-dawg
  • 18. Intégration du Tifinaghe dans OCRopus SITACAM’11 Agadir 06 & 07 Mai 201119  Création de la BD d’entrainement (technique de fenêtrage ) : Fichiers «Box» Fichiers D’apprentissag e
  • 19. Intégration du Tifinaghe dans OCRopus SITACAM’11 Agadir 06 & 07 Mai 201120  Premiers résultats :  Tests effectués sur :  Caractères isolés  Textes avec fontes déjà appris  98 % de reconnaissance sans ambigüité  Quelques cas d’ambiguité pour des fontes particuliers :  ⴰ  ‘’  1  ‘I  ⵔ 0  ⵓ  :
  • 20. Intégration du Tifinaghe dans OCRopus SITACAM’11 Agadir 06 & 07 Mai 201121  Discussions  Quelques types de fontes « fantaisiques » causent des problèmes d’ambiguités en classification.  les fichiers optionnels n’ont pas été intégrés dans la BD d’entrainement (ⵣ.unicharambigs, dictionnaire, etc)  Taux de reconnaissance est bon mais nécessite encore une amélioration.  Plus de tests avec des textes et fontes non appris sont nécessaires.
  • 21. SITACAM’11 Agadir 06 & 07 Mai 201122