Séminaire DIXIT - Les nouvelles frontières de la « data intelligence » :
content analytics, machine-learning, prédictif
13...
ARGUS DE LA PRESSE 2LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT
L’ARGUS, SES SERVICES & SON TERRAIN DE JEU
ARGUS DE LA PRESSE 3LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT
DEVELOPPEMENT
&
ANTICIPATION
VEILLE
STRATEGI...
ARGUS DE LA PRESSE 4LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT
SOCIAL MEDIA & TERRITOIRES DE L’INFORMATION
...
ARGUS DE LA PRESSE 5LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT
UN PEU DE THEORIE
ARGUS DE LA PRESSE 6LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT
DE QUOI PARLE-T-ON ?
Jordan Awan
ARGUS DE LA PRESSE 7LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT
• S’agit-il de prédire un prix, ou une catég...
ARGUS DE LA PRESSE 8LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT
Apprentissage supervisé
• Anticiper la gesti...
ARGUS DE LA PRESSE 9LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT
http://www.ted.com/talks/fei_fei_li_how_we_r...
ARGUS DE LA PRESSE 10LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT
Que dit l’ordinateur quand il
voit une imag...
ARGUS DE LA PRESSE 11LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT
ALGORITHMES ET MACHINE LEARNING A L’ARGUS
D...
ARGUS DE LA PRESSE 12LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT
8 500 Publications Presse France &
Internat...
ARGUS DE LA PRESSE 13LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT
Lever les contraintes
de format
Des contenu...
ARGUS DE LA PRESSE 14LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT
LEVER LES CONTRAINTES DE FORMAT
OCR - Recon...
ARGUS DE LA PRESSE 15LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT
DES DONNEES INTELLIGIBLES & ENRICHIES
Extra...
ARGUS DE LA PRESSE 16LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT
Valoriser le contenu
Aider à la décision
Ex...
Merci pour votre attention
odile.quesnel@argus-presse.fr
Prochain SlideShare
Chargement dans…5
×

Expérience informationnelle et exploitation analytique des données : comment aller au-delà des discours très généraux sur les données massives et le machine learning ? L'exemple de l'Argus de la Presse

546 vues

Publié le

Intervention d'Odile Quesnel, Responsable ArgusLab, Argus de la Presse au séminaire DIXIT du GFII "Les nouvelles frontières de la data intelligence" le 13/04/2015, Paris.

Abstract : Dans un contexte où contenus médias et sociaux sont en permanence augmentés par les parcours informationnels des socionautes, nous assistons à un renouvellement des questionnements sur la transmission de l’information et l’influence. Les défis sont autant dans la multiplicité des usages que dans les contraintes de volume, d’hétérogénéité et de temps réel. L’analyse marketing et les sciences de l’information jouent désormais très souvent sur un territoire commun. Ceci oblige les métiers de l’information comme le Market Intelligence à intégrer une démarche également pilotée par les données et les corrélations. Nous chercherons donc à comprendre en quoi il devient indispensable de mobiliser des procédés de machine learning et de content analytics pour répondre à ces enjeux.

Publié dans : Technologie
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
546
Sur SlideShare
0
Issues des intégrations
0
Intégrations
196
Actions
Partages
0
Téléchargements
3
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Expérience informationnelle et exploitation analytique des données : comment aller au-delà des discours très généraux sur les données massives et le machine learning ? L'exemple de l'Argus de la Presse

  1. 1. Séminaire DIXIT - Les nouvelles frontières de la « data intelligence » : content analytics, machine-learning, prédictif 13 avril 2015 LES INNOVATIONS DANS LA SOCIAL MEDIA INTELLIGENCE Expérience informationnelle et exploitation analytique des données : comment aller au-delà des discours très généraux sur les données massives et le machine learning ? Odile Quesnel - Responsable ArgusLab
  2. 2. ARGUS DE LA PRESSE 2LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT L’ARGUS, SES SERVICES & SON TERRAIN DE JEU
  3. 3. ARGUS DE LA PRESSE 3LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT DEVELOPPEMENT & ANTICIPATION VEILLE STRATEGIQUE ANALYSE STRATEGIQUE CONTACT STRATEGIQUE REPUTATION & INFLUENCE VEILLE MEDIA ANALYSE MEDIA ENGAGEMENT MEDIA ARGUS DE LA PRESSE ENJEUX & EXPERTISES
  4. 4. ARGUS DE LA PRESSE 4LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT SOCIAL MEDIA & TERRITOIRES DE L’INFORMATION • Un monde en permanence « augmenté » • le data exhaust bouscule les processus de production et d’accès aux contenus Dans ce contexte de données massives les cloisonnements traditionnels tombent Les décideurs attendent des réponses de la part des professionnels de l’information, de la communication comme du marketing Apprécier les contenus nécessite de passer par du cross-media
  5. 5. ARGUS DE LA PRESSE 5LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT UN PEU DE THEORIE
  6. 6. ARGUS DE LA PRESSE 6LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT DE QUOI PARLE-T-ON ? Jordan Awan
  7. 7. ARGUS DE LA PRESSE 7LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT • S’agit-il de prédire un prix, ou une catégorie ? • Souhaite-t-on un apprentissage au fil de l’eau ou statique ? • Quelles variables cibles souhaite-ton prédire au moyen de quelles variables prédictives ? • A-t-on par avance une idée du type de relation qui lie les variables prédictives à la variable cible ? => Plusieurs types d'algorithmes ML à choisir et à appliquer en fonction de l'objectif et du type de données D’après Melanie Warrick MAIS ENCORE ? Ce qui manque par la connaissance « objective » et un modèle explicatif nous le chercherons par les données S’il n’y a pas d’algorithme idéal nous avons des données pour apprendre Le Machine Learning a donc pour objectif d’élaborer et d’optimiser des algorithmes pour optimiser des processus d’apprentissage et concevoir des modèles prédictifs.
  8. 8. ARGUS DE LA PRESSE 8LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT Apprentissage supervisé • Anticiper la gestion des stations de vélos en libre accès sachant que …. • Eviter d’être pollué par des messages publicitaires sachant que … La classification consiste à identifier les classes d'appartenance de nouveaux objets à partir d'exemples antérieurs connus La régression prédit les valeurs possibles d'une ou plusieurs variables à partir des anciennes valeurs relevées Apprendre d’une relation , la phase d’apprentissage consiste à trouver les bonnes questions à poser pour catégoriser correctement un ensemble Généraliser à partir de ce qu'on connaît déjà Apprentissage non supervisé • Répartir un ensemble de prospects en niches quand on ignore la segmentation du marché • Prévoir quels seront les clients potentiels pour un produit, à partir des données d’achat de déplacement • des données qui peuvent se classer dans un trop grand nombre de catégories. Découvrir des structures cachées dans les données plutôt que de « généraliser » à partir d’un corpus exemple. Il ne s’agit pas de « profiler » complètement les processus Si les corrélations n’expliquent pas tout, elles aident à détecter certains motifs ou régularités. APPRENDRE ? Construire des systèmes autonomes que l’on pourra « éduquer » sur la base d’un corpus d’exemples pertinents pré existant ou que le système fera émerger
  9. 9. ARGUS DE LA PRESSE 9LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT http://www.ted.com/talks/fei_fei_li_how_we_re_teachin g_computers_to_understand_pictures#t-477527 NOS MACHINES LES PLUS INTELLIGENTES SONT TOUJOURS AVEUGLES Modèles de réseaux neuronaux : le laboratoire d’IA de Stanford dirigé par Fei Fei Li a créé un logiciel capable de reconnaître des scènes fixes photographiés et de les décrire en langage naturel . Projet de catégorisation en crowdsourcing
  10. 10. ARGUS DE LA PRESSE 10LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT Que dit l’ordinateur quand il voit une image OU COMMENT ENSEIGNER AUX MACHINES A COMPRENDRE UNE PHOTO La machine a appris comme un enfant de 0 à 3 ans, Le défi suivant est d’aller de 3 à 13 ans Elle fait des erreurs
  11. 11. ARGUS DE LA PRESSE 11LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT ALGORITHMES ET MACHINE LEARNING A L’ARGUS DE LA THEORIE A L’ACTION
  12. 12. ARGUS DE LA PRESSE 12LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT 8 500 Publications Presse France & International 270 Radios et TV 10 500 Sites Internet éditoriaux France & International 60 000 contacts et influenceurs médias & sociaux Web social : blogs & réseaux sociaux Web corporate & Institutionnel QUELLES ROUTES TRACER ? Des contenus hétérogènes dans leur forme et leur langage Des données structurées et qualifiées Des données à extraire pour donner du sens • Vision à 360 de son marché • Connaître les évolutions et les tendances • Identifier les menaces & opportunités • Détecter & analyser les leviers de croissance • Détecter de nouveaux prospects • Détection et suivi des signaux d’alertes …….. Un territoire complexe et mouvant Un monde à révéler Apprendre à partir des jeux de données Identifier des schémas via l’exploration Des données correctement préparées & des stratégies soigneusement considérées Des outils et des méthodologies qui mobilisent : • Traitement automatique de la langue • Modèles algorithmiques et apprentissage automatique • Content analytics De multiples destinations
  13. 13. ARGUS DE LA PRESSE 13LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT Lever les contraintes de format Des contenus cross media et des données intelligibles Des données enrichies et contextualisées Systèmes de représentation et de navigation pour exploiter contenus et connaissance extraite en contexte UNE CHAÎNE DE VALEUR POUR DES SPHÈRES D’USAGES MULTIPLES Data scientist Linguiste Développeur Chief Data Officer Architecte Linguiste - Mathématicien
  14. 14. ARGUS DE LA PRESSE 14LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT LEVER LES CONTRAINTES DE FORMAT OCR - Reconnaissance automatique de caractères • Comparer sur un corpus de formes connues • Retenir les formes les plus proches • Traiter sur méthodes linguistiques et contextuelles pour réduire le nombre d'erreurs de reconnaissance Reconnaissance automatique de la parole Hypothèse de transcription avec une mesure de confiance sur des modèles de langue et acoustiques D’après Pascale Sébillot Inria
  15. 15. ARGUS DE LA PRESSE 15LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT DES DONNEES INTELLIGIBLES & ENRICHIES Extraction de relations Apprentissage d’un classificateur classant chaque phrase avec au moins deux EN et un déclencheur => relation / pas de relation => relation positive ou négative Catégorisation des contenus textuels Classificateur de texte par l’apprentissage, à partir d’une série des documents pré- classifiés ou de caractéristiques de catégories d’intérêts L’’algorithme ventile dans des classes différenciées et ce sur la base du critère de similarité entre documents Analyse de sentiments Apprentissage de l’orientation sémantique des mots ou des expressions Un mot a un contexte qui contribue au sens Signaux forts et faibles Algorithme de « régression linéaire Comptages de présence d’information sur des périodes => montrer une tendance constatée. Une dimension prédictive => faire intervenir d’autres variables comme la durée de la tendance sur les périodes passées, le nombre de médias qui en parlent, etc.
  16. 16. ARGUS DE LA PRESSE 16LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT Valoriser le contenu Aider à la décision Exploiter la mesure Tendances Aider au repérage “Prendre ce que l’on a et le faire parler” Produire de la valeur sur le contenu : Mesure Indicateurs Proposer des endroits à écouter Etudier viralité Cartographier relations et interactions cross media Rechercher DES FONCTIONS ADAPTÉES A CHAQUE SPHÈRE D’USAGE Comprendre la propagation d’une information, les processus de contamination - Explorer dans une multitude de signaux => Des modèles existants et de nouveaux modèles à construire • Dans des formes variées de trajectoires de notoriété. discriminer ce qui relève de la « contagion » et ce qui ressort des différentes formes d’éditorialisation cross media Faire émerger une histoire pertinente Découverte de faits intéressants Mise en évidence de tendances cachées => D’une histoire complexe à un graphique interactif, personnalisable
  17. 17. Merci pour votre attention odile.quesnel@argus-presse.fr

×