Intervention de Michel Le Nouy, directeur de projets informatiques « Contenus et données » chez Ouest-France au Forum du GFII 2015 : http://forum.gfii.fr/forum/fouille-de-texte-fouille-de-donnees-un-nouveau-paradigme-panorama-des-usages-exploratoires-du-tdm
Editions OCDE : les défis à relever pour une transformation digitale - Pascal...
Text Mining et enrichissement sémantique de contenus : retour d'expérience du groupe Ouest-France
1. 1
Michel Le Nouy – SI OF - Banque de Contenus – GFII Paris – 08 décembre 2015
Contenusetdonnées
MichelleNouy
ForumGFII
8décembre2015
Michel Le Nouy – SI OF - Banque de Contenus – GFII Paris – 08 décembre 2015
Ouest-France?
6. 6
MichelLeNouy–SIOF-BanquedeContenus–GFIIParis–08décembre2015
Collecte
Sources :
• Uniquement internes au groupe
Structuration
Descriptions
Hétérogène
• Page PDF
• Article TXT / Xml
• Tableaux / Fichiers
• Base de données
• ….
• Complétude avec sources Open-Data
MichelLeNouy–SIOF-BanquedeContenus–GFIIParis–08décembre2015
Analyse
Entités :
• Personnes
• Sociétés
• Lieux
• ….
Classifications :
• IPTC
• Thésaurus …
• Empreintes sémantique
Signaux faibles
7. 7
MichelLeNouy–SIOF-BanquedeContenus–GFIIParis–08décembre2015
Exploitation
1ere version en exploitation
Plusieurs rédactions connectées
Indexations sources et formats multiples
Annotations entités
• Personnes
• Sociétés
• Lieux
30 000 000 documents depuis 1899,
• Accessibles en quelques millisecondes
MichelLeNouy–SIOF-BanquedeContenus–GFIIParis–08décembre2015
Facilités / Difficultés / Confiance
Hétérogénéité des sources
• Page PDF / Article XML
Analyse du contexte d’extraction
• Période analysée
1899 à 2015
• Généraliste / Spécialisé
Etendue des sujets traités par les rédactions ..
Echelle et Etendue …
• Des sources / référentiels et cas d’usages demandés
Ambiguïtés ++ = Confiance --