SlideShare une entreprise Scribd logo
D A T A Q U I T A I N E
C o m m e n t o p t i m i s e r l ’e x p l o i t a t i o n
d e s d o n n é e s d e p r e s s e à p a r t i r d e s
t e c h n i q u e s d ’ I A ?
Contexte
I
II
III
Méthode
Résultats
UN CONTEXTE GENERAL DE DIVERSIFICATION DES SOURCES D’INFORMATIONS UTILES A
L’INTELLIGENCE TECHNOLOGIQUE
§ Sélection rigoureuse des données avant leur intégration
§ Nouvelles compétences et nouveaux outils nécessaires pour l’exploration et
l’exploitation de ces données
Double objectif de notre travail :
► Développer une méthode d’exploitation facilitée à moindres coûts
► Evaluer l’intérêt des données de presse dans l’étude de l’innovation
P r o p o s d e l a p r é s e n t a t i o n
Les données issues de la presse sont une source d’informations utiles pour :
• Identifier d’autres acteurs de l’innovation et la recherche (autres que les
déposants de brevets, les institutions publiantes),
• Détecter de nouveaux types de relations,
• Comprendre les problématiques scientifiques et techniques d’un secteur,
• Détecter les nouveaux produits,
• Comprendre les stades de développement technologiques des acteurs,
• Comprendre les performances économiques et les relations financières,
• Evaluer le soutien public (financier et social) d’un domaine d’innovation.
Qui ?
Quoi ?
Pourquoi ?
Bonus : une données plus « grand public » que les brevets ou publications scientifiques
L e s d o n n é e s d e p r e s s e
A p p o r t s p o u r l ’ I T
Cas test : la robotique autonome
Détection des articles : recherche par mots-clés
"robot mobile autonome" OR "robots mobiles autonomes" OR "robot autonome mobile"
OR "robots autonomes mobiles" OR "véhicule guidé automatique" OR "véhicules guidés
automatiquement" OR "véhicules à guidage automatique" OR "véhicule à guidage
automatique" OR "véhicules guidés automatiques" OR "véhicule guidé
automatiquement »
Résultats : 400 articles de presse
Export et traitement : Principalement rubrique « titre et résumé »
L e s d o n n é e s d e p r e s s e
C a s d ’ u s a g e
Contexte
I
II
III
Méthode
Résultats
E x p l o i t a t i o n d e s d o n n é e s
U n e m é t h o d e e n 6 é t a p e s
BDD
PRESSE
ETL
PAR
MOTS-
CLÉS
ANALYSE
CATEGORI
SATION
PAR ZERO
-SHOT
Q / A
1 2
3
5
4
6
NER
O b t e n t i o n d e s d o n n é e s
P r o c e s s u s E T L
E X T R A C T T R A N S F O R M L O A D
1. Extraction des données depuis la source
• Factiva, Dow Jones : BDD presse par abonnement
2. Transformation des données pour les structurer
• Mise en place d’expressions rationnelles pour détection des champs de
l’article et structuration de ceux-ci
3. Sauvegarde des données formatées pour les exploiter
• Format retenu : fichiers Excel
title = re.findall(r'^(.*?)*[A-Za-z]{2,3}*', article, re.DOTALL)[0]
date = re.findall(r'*PD* *(.*)n*', article)[0]
abstract = re.findall(r'*LP*(.*?)*[A-Za-z]{2,3}*', article, re.DOTALL)[0]
C a t é g o r i s a t i o n d u t e x t e
A p p r o c h e p a r d i c t i o n n a i r e
A S S O C I A T I O N D E
M O T S - C L É S A U X
C A T É G O R I E S
R E C H E R C H E D E S
M O T S - C L É S D A N S
L E T E X T E
1. Parcourir le dataset des articles de presse
2. Parcourir le dictionnaire de catégories
3. Pour chaque mot-clé, essayer de la trouver dans le titre ou abstract de l’article
4. Si c’est le cas, associer la catégorie à l’article
D É F I N I T I O N
D E S
C A T É G O R I E S
CATÉGORIE MOT EXPRESSION RATIONNELLE
climat social d'entreprise avantages sociaux avantag[^ ]* soci[^ ]*
partenariat alliance alli[^ ]*
rapprochement entreprise acquérir acqu[^ ]*
sortie commerciale dévoiler devoil[^ ]*
C a t é g o r i s a t i o n d u t e x t e
A p p r o c h e z e r o - s h o t t e x t
c l a s s i f i c a t i o n
A J U S T E M E N T D E S
N O M S D E S
C A T É G O R I E S
A S S O C I A T I O N D E S
C A T É G O R I E S A U X
T E X T E S
Processus mené à travers plusieurs itérations :
1. Définir et ajuster les noms des catégories
• Hypothèse : le modèle sera mieux capable d’identifier les catégories
2. Etablir un seuil en dessus duquel les catégories sont valables pour l’article
3. Parcourir le dataset des articles de presse
4. Analyser les scores obtenus pour chacune des catégories et conserver celles qui sont pertinentes
D É F I N I T I O N
D E S
C A T É G O R I E S
for abstract in input_df["Abstract"]:
results = classifier(input_df["Title"][i] + abstract,
candidate_labels, multi_label = True)
C a t é g o r i s a t i o n d u t e x t e
C o n s t a t d e s a p p r o c h e s
D I C T I O N N A I R E S Z E R O - S H O T
AVANTAGES INCONVENIENTS AVANTAGES INCONVENIENTS
Un degré de finesse plus
élevé
Un mot-clé peut apparaître
dans un article qui
n’appartient pas à la
catégorie qu’il permet
d’identifier
Plus rapide à prendre en
main
Moins de contrôle sur les
résultats
Facile à faire évoluer en
rajoutant d’autres mots-clés
Certaines catégories ne
peuvent pas être définies par
des mots-clés
Plus de flexibilité pour
l’identification des catégories
Nécessite d’une réflexion
profonde pour la définition
du seuil de pertinence pour
les catégories
Améliorer les résultats d’une
catégorie peut entrainer la
diminution de performance
pour une autre
• La donnée presse est compliquée à catégoriser avec les techniques envisagées
• La manière dont les mots sont utilisés dans un article complexifie le travail.
• Même si ce n’est pas parfait, la technique de catégorisation par mots-clés semble
aujourd’hui plus performante, et c’est donc elle qui est retenue
C o m p r é h e n s i o n d e s a c t i v i t é s
Q u e s t i o n / A n s w e r i n g
A S S O C I A T I O N D E
Q U E S T I O N S A U X
C A T É G O R I E S
P O S E R L E S
Q U E S T I O N S A U
M O D È L E
D É F I N I T I O N
D E S
C A T É G O R I E S
1. Parcourir le dataset des articles de presse
2. Parcourir les listes de questions par catégories
3. Pour chaque question, trouver la réponse que le modèle fournit
4. Associer la réponse à l’article
CATÉGORIE QUESTION
climat social d'entreprise Quelles sont les revendications des salariés ?
partenariat Quel est l’objectif du partenariat ?
rapprochement entreprise Quel acteur est acquis ?
sortie commerciale Quelle est le produit mentionné ?
P o s i t i o n n e m e n t d e s a c t e u r s
N a m e d E n t i t y R e c o g n i t i o n
Nommé directeur des opérations, Nicolas Breton devrait devenir
le nouveau directeur général du groupe français spécialisé dans
la manutention automatisée à partir de janvier 2021. - Nicolas
Breton est le nouveau directeur des opérations de B2A
Technology. Polytechnicien, diplômé des Ponts et Chaussées et
de l’université Stanford, il a passé presque toute sa carrière
dans l’industrie. D’abord chez le fabricant de ponts roulants
ECL (Alcan) auprès duquel il a officié en France et dans la
filiale chinoise, puis chez l’ascensoriste Otis Elevators où il
a été en charge de la Nouvelle-Zélande ainsi que de la zone
Belgique et Luxembourg. En 2015, il prend la direction de
l’Australie, où il occupera successivement les postes de
directeur des services, puis de directeur général de Schindler
Lifts Australia.
Schneider Electric et Orange peuvent être
considérés comme les pionniers français de la 5G
industrielle. Depuis mars, ils testent des cas
d’usage de cette technologie dans une usine en
Normandie. Voici Emma, aux commandes d’un robot
Axyn, à la fois distante et présente », lance
Virginie Rigaudeau, la responsable de la
communication usine intelligente de Schneider
Electric. En lieu et place d’Emma Lannoy,
alternante, c’est un robot roulant longiligne
surmonté d’un écran qui débarque dans le hall
d’entrée de l’usine du Vaudreuil (Eure). Il
retransmet en temps réel l’image de la jeune
femme, située à l’autre bout du site.
1. Parcourir le dataset des articles de presse
2. Pour chaque article, identifier les entités qui sont mentionnées
Le modèle permet également d’identifier des personnes ou des endroits qui seraient également
mentionnés dans le texte
Contexte
I
II
III
Méthode
Résultats
E x p l o i t a t i o n d e s d o n n é e s d e p r e s s e
R é s u l t a t s i s s u s d e l a m é t h o d e
12 7 12
35
72 70
98
67
2
0
1
5
2
0
1
6
2
0
1
7
2
0
1
8
2
0
1
9
2
0
2
0
2
0
2
1
2
0
2
2
D y n a m i q u e d e s a r t i c l e s
Unités : nombre d'articles par année
1
2
9
10
14
16
19
20
31
33
38
38
45
50
95
Climat social d’entreprise
Interview / parole d’expert
Ouverture/construction bâtiment
État des lieux secteur tendance enjeux
Recrutement
Compétition récompense
Démonstration
Rapprochement entreprise
Performance technologique
Performance économique d’une entreprise
Financement
Partenariat
Contrat commercial
Évènement
Sortie commerciale
C a t é g o r i e s d e s a r t i c l e s
Unités : nombre d’articles
Catégories / Organisations
VELODYNE
LIDAR
BASYSTEMES MG TECH OMRON STAUBLI TERADYNE
UNIVERSAL
ROBOTS
ABB BOSCH HUAWEI PSA
Sortiecommerciale 4 2 4 2 1 1 1 3
Évènement 3 1 1 1 1 1 5 1
Contrat commercial 3 2 1 2 2
Financement 1 1 1 2 2 1 1 1 1
Partenariat 3 2 1 2 1 1
Performanceéconomiqued’une
entreprise
1 1 1 3 1 1 3
Performancetechno 2 4 3 1 1
Rapprochement entreprise 1 1 2 1 1 4 4 1 1
Démonstration 1 1 1 1
Compétition récompense 1 1
Recrutement 1 1 3 1
État des lieux secteur tendance
enjeux
1 1 1
C a t é g o r i e s d e s a r t i c l e s p a r a c t e u r s
Unités : nombre d’articles
Source
:
Factiva,
Traitement
:
VIA
INNO
E x p l o i t a t i o n d e s d o n n é e s d e p r e s s e
R é s u l t a t s i s s u s d e l a c a t é g o r i s a t i o n
Sorties commerciales
Velodyne Lidar lance le capteur Velabit™ de nouvelle génération 2021
Velabit adapte le lidar 3D aux applications essentielles pour la sécurité
Velodyne Lidar lance un capteur à semi-conducteurs, destiné aux *robots mobiles autonomes* ainsi qu’à la livraison du dernier kilomètre 2020
Le Velarray M1600 offre une perception avancée pour le marché à croissance rapide des robots autonomes . Le lancement de Velarray M1600, un capteur lidar innovant à semi-conducteurs, conçu pour servir les applications de
robotique mobile. Le capteur est le tout dernier d’une nouvelle gamme de produits Velarray, et le premier de la nouvelle série M. Il est conçu à partir de l’architecture Micro Lidar Array (MLA) exclusive et révolutionnaire de
Velodyne, et s’appuie sur les partenariats de fabrication de Velodyne, pour offrir optimisation des coûts et production à grande échelle.
Velodyne va présenter ses solutions lidar destinées aux opérations de fabrication et à la chaîne d’approvisionnement au salon MODEX 2020 2020
Seoul Robotics fera la démonstration sur le stand de Velodyne de sa solution Level 5 Control Tower, alimentée Velodyne Lidar, permettant une automatisation sûre et efficace du parc logistique
Velodyne présente le lidar perfectionné pour l’automatisation des terminaux portuaires, au salon TOC Europe 2019
DGWorld, un intégrateur Velodyne, expose l’automatisation avancée des véhicules
Évènement
Velodyne va présenter ses solutions lidar destinées aux opérations de fabrication et à la chaîne d’approvisionnement au salon MODEX 2020 2020
Seoul Robotics fera la démonstration sur le stand de Velodyne de sa solution Level 5 Control Tower, alimentée Velodyne Lidar, permettant une automatisation sûre et efficace du parc logistique
Velodyne Lidar annonce une série d’apprentissages numériques sur l’automatisation et la sécurité pendant la pandémie de COVID-19 2020
Des webinaires bimensuels évaluent comment les *robots mobiles autonomes* améliorent la sécurité publique et combattent les maladies Velodyne Lidar a annoncé aujourd’hui une nouvelle série d’apprentissages numériques
qui vont évaluer comment l’automatisation fait progresser la sécurité pendant la pandémie de COVID-19. Les webinaires comporteront des conversations avec des experts issus d’entreprises innovantes qui utilisent la
technologie Velodyne lidar en première ligne de la réponse à la pandémie de COVID-19.
Velodyne présente le lidar perfectionné pour l’automatisation des terminaux portuaires, au salon TOC Europe 2019
DGWorld, un intégrateur Velodyne, expose l’automatisation avancée des véhicules
Partenariats
Velodyne Lidar signe un accord pluriannuel avec Boston Dynamics 2022
Velodyne Lidar a annoncé aujourd’hui avoir signé un accord pluriannuel concernant ses capteurs lidar avec Boston Dynamics, leader mondial dans le secteur de la robotique mobile. Boston Dynamics a choisi les capteurs de
Velodyne pour fournir des capacités de perception et de navigation à ses robots hautement mobiles, qui sont capables de relever les défis robotiques les plus difficiles.
Velodyne Lidar et MOV.AI s’associent pour fournir des solutions autonomes au secteur de la robotique industrielle et du commerce électronique 2021
Velodyne Lidar ont annoncé aujourd’hui que les deux entreprises collaboraient pour fournir aux fabricants de robots des solutions d’automatisation de classe entreprise, notamment en matière de cartographie, de navigation,
d’évitement des obstacles et d’évitement des risques.
Velodyne Lidar lance un capteur à semi-conducteurs, destiné aux *robots mobiles autonomes* ainsi qu’à la livraison du dernier kilomètre 2021
Velodyne Lidar a annoncé aujourd’hui le lancement de Velarray M1600, un capteur lidar innovant à semi-conducteurs, conçu pour servir les applications de robotique mobile. Le capteur est le tout dernier d’une nouvelle gamme
de produits Velarray, et le premier de la nouvelle série M. Il est conçu à partir de l’architecture Micro Lidar Array (MLA) exclusive et révolutionnaire de Velodyne, et s’appuie sur les partenariats de fabrication de Velodyne, pour
offrir optimisation des coûts et production à grande échelle.
Evènements
Velabit™ de Velodyne Lidar remporte le prix de l’innovation de Silicon Valley Robotics 2020
Les capteurs lidar de Velodyne sont récompensés pour avoir fourni une perception avancée pour le marché en croissance rapide des robots autonomes
Rapprochement d'entreprises 2020
Velodyne Lidar, Inc. et Graf Industrial Corp. annoncent la finalisation de leur regroupement d’entreprises
La négociation des actions ordinaires sur le Nasdaq débutera le mercredi 30 septembre 2020 SAN JOSÉ, Californie et HOUSTON. Velodyne Lidar, Inc. (« Velodyne ») et Graf Industrial Corp. (« Graf ») ont conjointement annoncé
aujourd’hui la finalisation de leur regroupement d’entreprises, tel qu’annoncé précédemment et en vertu duquel Velodyne devient une filiale à 100 % de Graf, et Graf change de nom pour s’appeler désormais Velodyne Lidar, Inc.
Le regroupement d’entreprises a été approuvé lors d’une assemblée extraordinaire des actionnaires de Graf, qui s’est tenue aujourd’hui.
E x p l o i t a t i o n d e s d o n n é e s d e p r e s s e
R é s u l t a t s i s s u s d e l a c a t é g o r i s a t i o n
2019 2020 2021
Velodyne Lidar lance le capteur
Velabit™ de nouvelle génération
Velodyne Lidar lance un capteur à
semi-conducteurs, destiné aux
robots mobiles autonomes ainsi
qu’à la livraison du dernier kilomètre
Velodyne présente le lidar
perfectionné pour l’automatisation
des terminaux portuaires, au salon
TOC Europe
Velodyne va présenter ses
solutions lidar destinées aux
opérations de fabrication et à la
chaîne d’approvisionnement au
salon MODEX 2020
Velodyne Lidar annonce une série
d’apprentissages numériques sur
l’automatisation et la sécurité
pendant la pandémie de COVID-19
Velodyne Lidar signe un accord
pluriannuel avec Boston Dynamics
Velodyne Lidar et MOV.AI
s’associent pour fournir des
solutions autonomes au secteur de
la robotique industrielle et du
commerce électronique
2022
Velodyne Lidar, Inc. et Graf Industrial
Corp. annoncent la finalisation de
leur regroupement d’entreprises
Velabit™ de Velodyne Lidar
remporte le prix de l’innovation de
Silicon Valley Robotics
Velodyne présente le lidar
perfectionné pour l’automatisation
des terminaux portuaires, au salon
TOC Europe
Velodyne va présenter ses
solutions lidar destinées aux
opérations de fabrication et à la
chaîne d’approvisionnement au
salon MODEX 2020
E x p l o i t a t i o n d e s d o n n é e s d e p r e s s e
R é s u l t a t s i s s u s d u q u e s t i o n / a n s w e r i n g
• salon TOC Europe
• MODEX 2020
• webinaires bimensuels
Évènements
Compétition
Sorties
commerciales
Partenariat
Quel est l’évènement?
• Silicon Valley Robotics
Quel est le
secteur
d’activité ?
Qui sont les partenaires ?
• ?
• ?
• Boston Dynamics
• salon TOC Europe DGWorld
• salon MODEX 2020 Seoul
• SAN JOSE, Californie
Où est l’évènement?
• Prix de l’innovation de Silicon
Valley Robotics
De quelle compétition
s’agit-il ?
Quel prix a remporté
l’entreprise ?
Quelle est le
produit
mentionné
dans le texte
?
Quels sont
les
avantages
du produit ?
Quel est l’objectif de la
collaboration ?
• offrir optimisation des coûts et
production à grande échelle
• fournir aux fabricants de robots des
solutions d’automatisation de classe
entreprise
• fournir des capacités de perception et
de navigation à ses robots hautement
mobiles, qui sont capables de relever
les défis robotiques les plus difficiles
• robotique mobile
• sécurité
• terminaux portuaires
• opérations de
fabrication et à la
chaîne
d’approvisionnement
• Velarray M1600
• capteur VelabitTM
• lidar perfectionné pour
l’automatisation des
terminaux portuaires
• Level 5 Control Tower
• optimisation des coûts et
production à grande échelle
• Velabit adapte le lidar 3D aux
applications essentielles pour
la sécurité
• l’automatisation des
terminaux portuaires
• automatisation sûre et
efficace du parc logistique
Conclusion
§ Evaluer l’intérêt des données de presse dans l’étude de l’innovation
Une donnée pertinente :
ü Des informations actuelles
ü Simples de compréhension
ü De natures variées
§ Développer une méthode d’exploitation facilitée de cette donnée « semi-structurée »
Deux techniques satisfaisantes :
ü Le découpage du texte en dictionnaire
ü Les techniques d’IA de reconnaissance d’entités nommées
ü Les techniques d’IA de question/answering
Une technique peu satisfaisante :
ü Les techniques d’IA zero-shot classification
Les techniques d’IA permettent d’optimiser le processus et le traitement des données
cependant des phases de vérifications et validations des résultats restent nécessaires.
E x p l o i t a t i o n d e s d o n n é e s d e p r e s s e
C o n c l u s i o n s e t p r o l o n g e m e n t s
P R O L O N G E M E N T S
§ Consolider le dictionnaire de l’innovation,
§ Étendre la sélection des données aux articles anglophones,
§ Tester et adapter la méthodes pour des données de presse en libre accès,
§ Adapter la méthodologie aux données de publications scientifiques afin d’en
optimiser l’exploitation dans une démarche de compréhension des activités
d’innovation,
§ Qualifier les relations entre les organisations.
E x p l o i t a t i o n d e s d o n n é e s d e p r e s s e
C o n c l u s i o n s e t p r o l o n g e m e n t s
INIGO URIZ-GIL
MARINA FLAMAND
INES DHUIT
VIA INNO – Research platform in technology intelligence
Bordeaux School of Economics
University of Bordeaux
inigo.uriz-gil@u-bordeaux.fr
marina.flamand@u-bordeaux.fr
ines.dhuit@u-bordeaux.fr
MERCI

Contenu connexe

Similaire à Présentation Dataquitaine 2023.pdf

Escen080419
Escen080419Escen080419
Escen080419
Alexandre Cazaurang
 
Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...
Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...
Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...
SOLLAN FRANCE
 
L'Intelligence Economique concrète : recettes & bonnes pratiques
L'Intelligence Economique concrète :  recettes & bonnes pratiquesL'Intelligence Economique concrète :  recettes & bonnes pratiques
L'Intelligence Economique concrète : recettes & bonnes pratiques
Inter-Ligere
 
Guide cspro tapé
Guide cspro tapéGuide cspro tapé
Guide cspro tapé
MELAINE TAPE
 
Du contenu B2B pour les Nuls (et les PME)
Du contenu B2B pour les Nuls (et les PME)Du contenu B2B pour les Nuls (et les PME)
Du contenu B2B pour les Nuls (et les PME)
Patrick Ducher
 
Jcom02.ppt
Jcom02.pptJcom02.ppt
CHAP 1 PRÉSENTATION GENERALE.pdf
CHAP 1 PRÉSENTATION GENERALE.pdfCHAP 1 PRÉSENTATION GENERALE.pdf
CHAP 1 PRÉSENTATION GENERALE.pdf
amine17157
 
resume-theorique-m108-v2-2206-62b30edcd953e (1).pdf
resume-theorique-m108-v2-2206-62b30edcd953e (1).pdfresume-theorique-m108-v2-2206-62b30edcd953e (1).pdf
resume-theorique-m108-v2-2206-62b30edcd953e (1).pdf
FootballLovers9
 
Compte rendu AI Paris 2017
Compte rendu AI Paris 2017Compte rendu AI Paris 2017
Compte rendu AI Paris 2017
FacilisPro
 
8 trend dsi pharma vf
8 trend dsi pharma vf8 trend dsi pharma vf
8 trend dsi pharma vf
Bertrand Petit
 
00_intro_PrincipRelatConceptOracle.pdf
00_intro_PrincipRelatConceptOracle.pdf00_intro_PrincipRelatConceptOracle.pdf
00_intro_PrincipRelatConceptOracle.pdf
LaaouissiAzed
 
0 a005g formation-introduction-a-ibm-spss-modeler-et-au-data-mining-v16
0 a005g formation-introduction-a-ibm-spss-modeler-et-au-data-mining-v160 a005g formation-introduction-a-ibm-spss-modeler-et-au-data-mining-v16
0 a005g formation-introduction-a-ibm-spss-modeler-et-au-data-mining-v16
CERTyou Formation
 
Mettre en place une cellule de veille en entreprise
Mettre en place une cellule de veille en entrepriseMettre en place une cellule de veille en entreprise
Mettre en place une cellule de veille en entreprise
VINCIT SPRL - STRATEGY
 
Une perspective multi-source de données pour l'Intelligence Technologique
Une perspective multi-source de données pour l'Intelligence TechnologiqueUne perspective multi-source de données pour l'Intelligence Technologique
Une perspective multi-source de données pour l'Intelligence Technologique
VIA INNO
 
L'Encyclopédie des Big Data 2016
L'Encyclopédie des Big Data 2016L'Encyclopédie des Big Data 2016
L'Encyclopédie des Big Data 2016
55 | fifty-five
 
Séminaire IDS Scheer Processus Santé part 1
Séminaire IDS Scheer Processus Santé part 1Séminaire IDS Scheer Processus Santé part 1
Séminaire IDS Scheer Processus Santé part 1
SAGIDS1
 
Introduction à la veille sur le web
Introduction à la veille sur le webIntroduction à la veille sur le web
Introduction à la veille sur le web
Quentin Adam
 
L'émergence d'une nouvelle filière de formation : data science
L'émergence d'une nouvelle filière de formation : data scienceL'émergence d'une nouvelle filière de formation : data science
L'émergence d'une nouvelle filière de formation : data science
Kezhan SHI
 
CSI_COURS_diapo_part1...............ppsx
CSI_COURS_diapo_part1...............ppsxCSI_COURS_diapo_part1...............ppsx
CSI_COURS_diapo_part1...............ppsx
FUR7
 
Conférence big data
Conférence big dataConférence big data
Conférence big data
Stéphane Traumat
 

Similaire à Présentation Dataquitaine 2023.pdf (20)

Escen080419
Escen080419Escen080419
Escen080419
 
Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...
Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...
Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...
 
L'Intelligence Economique concrète : recettes & bonnes pratiques
L'Intelligence Economique concrète :  recettes & bonnes pratiquesL'Intelligence Economique concrète :  recettes & bonnes pratiques
L'Intelligence Economique concrète : recettes & bonnes pratiques
 
Guide cspro tapé
Guide cspro tapéGuide cspro tapé
Guide cspro tapé
 
Du contenu B2B pour les Nuls (et les PME)
Du contenu B2B pour les Nuls (et les PME)Du contenu B2B pour les Nuls (et les PME)
Du contenu B2B pour les Nuls (et les PME)
 
Jcom02.ppt
Jcom02.pptJcom02.ppt
Jcom02.ppt
 
CHAP 1 PRÉSENTATION GENERALE.pdf
CHAP 1 PRÉSENTATION GENERALE.pdfCHAP 1 PRÉSENTATION GENERALE.pdf
CHAP 1 PRÉSENTATION GENERALE.pdf
 
resume-theorique-m108-v2-2206-62b30edcd953e (1).pdf
resume-theorique-m108-v2-2206-62b30edcd953e (1).pdfresume-theorique-m108-v2-2206-62b30edcd953e (1).pdf
resume-theorique-m108-v2-2206-62b30edcd953e (1).pdf
 
Compte rendu AI Paris 2017
Compte rendu AI Paris 2017Compte rendu AI Paris 2017
Compte rendu AI Paris 2017
 
8 trend dsi pharma vf
8 trend dsi pharma vf8 trend dsi pharma vf
8 trend dsi pharma vf
 
00_intro_PrincipRelatConceptOracle.pdf
00_intro_PrincipRelatConceptOracle.pdf00_intro_PrincipRelatConceptOracle.pdf
00_intro_PrincipRelatConceptOracle.pdf
 
0 a005g formation-introduction-a-ibm-spss-modeler-et-au-data-mining-v16
0 a005g formation-introduction-a-ibm-spss-modeler-et-au-data-mining-v160 a005g formation-introduction-a-ibm-spss-modeler-et-au-data-mining-v16
0 a005g formation-introduction-a-ibm-spss-modeler-et-au-data-mining-v16
 
Mettre en place une cellule de veille en entreprise
Mettre en place une cellule de veille en entrepriseMettre en place une cellule de veille en entreprise
Mettre en place une cellule de veille en entreprise
 
Une perspective multi-source de données pour l'Intelligence Technologique
Une perspective multi-source de données pour l'Intelligence TechnologiqueUne perspective multi-source de données pour l'Intelligence Technologique
Une perspective multi-source de données pour l'Intelligence Technologique
 
L'Encyclopédie des Big Data 2016
L'Encyclopédie des Big Data 2016L'Encyclopédie des Big Data 2016
L'Encyclopédie des Big Data 2016
 
Séminaire IDS Scheer Processus Santé part 1
Séminaire IDS Scheer Processus Santé part 1Séminaire IDS Scheer Processus Santé part 1
Séminaire IDS Scheer Processus Santé part 1
 
Introduction à la veille sur le web
Introduction à la veille sur le webIntroduction à la veille sur le web
Introduction à la veille sur le web
 
L'émergence d'une nouvelle filière de formation : data science
L'émergence d'une nouvelle filière de formation : data scienceL'émergence d'une nouvelle filière de formation : data science
L'émergence d'une nouvelle filière de formation : data science
 
CSI_COURS_diapo_part1...............ppsx
CSI_COURS_diapo_part1...............ppsxCSI_COURS_diapo_part1...............ppsx
CSI_COURS_diapo_part1...............ppsx
 
Conférence big data
Conférence big dataConférence big data
Conférence big data
 

Présentation Dataquitaine 2023.pdf

  • 1. D A T A Q U I T A I N E C o m m e n t o p t i m i s e r l ’e x p l o i t a t i o n d e s d o n n é e s d e p r e s s e à p a r t i r d e s t e c h n i q u e s d ’ I A ?
  • 3. UN CONTEXTE GENERAL DE DIVERSIFICATION DES SOURCES D’INFORMATIONS UTILES A L’INTELLIGENCE TECHNOLOGIQUE § Sélection rigoureuse des données avant leur intégration § Nouvelles compétences et nouveaux outils nécessaires pour l’exploration et l’exploitation de ces données Double objectif de notre travail : ► Développer une méthode d’exploitation facilitée à moindres coûts ► Evaluer l’intérêt des données de presse dans l’étude de l’innovation P r o p o s d e l a p r é s e n t a t i o n
  • 4. Les données issues de la presse sont une source d’informations utiles pour : • Identifier d’autres acteurs de l’innovation et la recherche (autres que les déposants de brevets, les institutions publiantes), • Détecter de nouveaux types de relations, • Comprendre les problématiques scientifiques et techniques d’un secteur, • Détecter les nouveaux produits, • Comprendre les stades de développement technologiques des acteurs, • Comprendre les performances économiques et les relations financières, • Evaluer le soutien public (financier et social) d’un domaine d’innovation. Qui ? Quoi ? Pourquoi ? Bonus : une données plus « grand public » que les brevets ou publications scientifiques L e s d o n n é e s d e p r e s s e A p p o r t s p o u r l ’ I T
  • 5. Cas test : la robotique autonome Détection des articles : recherche par mots-clés "robot mobile autonome" OR "robots mobiles autonomes" OR "robot autonome mobile" OR "robots autonomes mobiles" OR "véhicule guidé automatique" OR "véhicules guidés automatiquement" OR "véhicules à guidage automatique" OR "véhicule à guidage automatique" OR "véhicules guidés automatiques" OR "véhicule guidé automatiquement » Résultats : 400 articles de presse Export et traitement : Principalement rubrique « titre et résumé » L e s d o n n é e s d e p r e s s e C a s d ’ u s a g e
  • 7. E x p l o i t a t i o n d e s d o n n é e s U n e m é t h o d e e n 6 é t a p e s BDD PRESSE ETL PAR MOTS- CLÉS ANALYSE CATEGORI SATION PAR ZERO -SHOT Q / A 1 2 3 5 4 6 NER
  • 8. O b t e n t i o n d e s d o n n é e s P r o c e s s u s E T L E X T R A C T T R A N S F O R M L O A D 1. Extraction des données depuis la source • Factiva, Dow Jones : BDD presse par abonnement 2. Transformation des données pour les structurer • Mise en place d’expressions rationnelles pour détection des champs de l’article et structuration de ceux-ci 3. Sauvegarde des données formatées pour les exploiter • Format retenu : fichiers Excel title = re.findall(r'^(.*?)*[A-Za-z]{2,3}*', article, re.DOTALL)[0] date = re.findall(r'*PD* *(.*)n*', article)[0] abstract = re.findall(r'*LP*(.*?)*[A-Za-z]{2,3}*', article, re.DOTALL)[0]
  • 9. C a t é g o r i s a t i o n d u t e x t e A p p r o c h e p a r d i c t i o n n a i r e A S S O C I A T I O N D E M O T S - C L É S A U X C A T É G O R I E S R E C H E R C H E D E S M O T S - C L É S D A N S L E T E X T E 1. Parcourir le dataset des articles de presse 2. Parcourir le dictionnaire de catégories 3. Pour chaque mot-clé, essayer de la trouver dans le titre ou abstract de l’article 4. Si c’est le cas, associer la catégorie à l’article D É F I N I T I O N D E S C A T É G O R I E S CATÉGORIE MOT EXPRESSION RATIONNELLE climat social d'entreprise avantages sociaux avantag[^ ]* soci[^ ]* partenariat alliance alli[^ ]* rapprochement entreprise acquérir acqu[^ ]* sortie commerciale dévoiler devoil[^ ]*
  • 10. C a t é g o r i s a t i o n d u t e x t e A p p r o c h e z e r o - s h o t t e x t c l a s s i f i c a t i o n A J U S T E M E N T D E S N O M S D E S C A T É G O R I E S A S S O C I A T I O N D E S C A T É G O R I E S A U X T E X T E S Processus mené à travers plusieurs itérations : 1. Définir et ajuster les noms des catégories • Hypothèse : le modèle sera mieux capable d’identifier les catégories 2. Etablir un seuil en dessus duquel les catégories sont valables pour l’article 3. Parcourir le dataset des articles de presse 4. Analyser les scores obtenus pour chacune des catégories et conserver celles qui sont pertinentes D É F I N I T I O N D E S C A T É G O R I E S for abstract in input_df["Abstract"]: results = classifier(input_df["Title"][i] + abstract, candidate_labels, multi_label = True)
  • 11. C a t é g o r i s a t i o n d u t e x t e C o n s t a t d e s a p p r o c h e s D I C T I O N N A I R E S Z E R O - S H O T AVANTAGES INCONVENIENTS AVANTAGES INCONVENIENTS Un degré de finesse plus élevé Un mot-clé peut apparaître dans un article qui n’appartient pas à la catégorie qu’il permet d’identifier Plus rapide à prendre en main Moins de contrôle sur les résultats Facile à faire évoluer en rajoutant d’autres mots-clés Certaines catégories ne peuvent pas être définies par des mots-clés Plus de flexibilité pour l’identification des catégories Nécessite d’une réflexion profonde pour la définition du seuil de pertinence pour les catégories Améliorer les résultats d’une catégorie peut entrainer la diminution de performance pour une autre • La donnée presse est compliquée à catégoriser avec les techniques envisagées • La manière dont les mots sont utilisés dans un article complexifie le travail. • Même si ce n’est pas parfait, la technique de catégorisation par mots-clés semble aujourd’hui plus performante, et c’est donc elle qui est retenue
  • 12. C o m p r é h e n s i o n d e s a c t i v i t é s Q u e s t i o n / A n s w e r i n g A S S O C I A T I O N D E Q U E S T I O N S A U X C A T É G O R I E S P O S E R L E S Q U E S T I O N S A U M O D È L E D É F I N I T I O N D E S C A T É G O R I E S 1. Parcourir le dataset des articles de presse 2. Parcourir les listes de questions par catégories 3. Pour chaque question, trouver la réponse que le modèle fournit 4. Associer la réponse à l’article CATÉGORIE QUESTION climat social d'entreprise Quelles sont les revendications des salariés ? partenariat Quel est l’objectif du partenariat ? rapprochement entreprise Quel acteur est acquis ? sortie commerciale Quelle est le produit mentionné ?
  • 13. P o s i t i o n n e m e n t d e s a c t e u r s N a m e d E n t i t y R e c o g n i t i o n Nommé directeur des opérations, Nicolas Breton devrait devenir le nouveau directeur général du groupe français spécialisé dans la manutention automatisée à partir de janvier 2021. - Nicolas Breton est le nouveau directeur des opérations de B2A Technology. Polytechnicien, diplômé des Ponts et Chaussées et de l’université Stanford, il a passé presque toute sa carrière dans l’industrie. D’abord chez le fabricant de ponts roulants ECL (Alcan) auprès duquel il a officié en France et dans la filiale chinoise, puis chez l’ascensoriste Otis Elevators où il a été en charge de la Nouvelle-Zélande ainsi que de la zone Belgique et Luxembourg. En 2015, il prend la direction de l’Australie, où il occupera successivement les postes de directeur des services, puis de directeur général de Schindler Lifts Australia. Schneider Electric et Orange peuvent être considérés comme les pionniers français de la 5G industrielle. Depuis mars, ils testent des cas d’usage de cette technologie dans une usine en Normandie. Voici Emma, aux commandes d’un robot Axyn, à la fois distante et présente », lance Virginie Rigaudeau, la responsable de la communication usine intelligente de Schneider Electric. En lieu et place d’Emma Lannoy, alternante, c’est un robot roulant longiligne surmonté d’un écran qui débarque dans le hall d’entrée de l’usine du Vaudreuil (Eure). Il retransmet en temps réel l’image de la jeune femme, située à l’autre bout du site. 1. Parcourir le dataset des articles de presse 2. Pour chaque article, identifier les entités qui sont mentionnées Le modèle permet également d’identifier des personnes ou des endroits qui seraient également mentionnés dans le texte
  • 15. E x p l o i t a t i o n d e s d o n n é e s d e p r e s s e R é s u l t a t s i s s u s d e l a m é t h o d e 12 7 12 35 72 70 98 67 2 0 1 5 2 0 1 6 2 0 1 7 2 0 1 8 2 0 1 9 2 0 2 0 2 0 2 1 2 0 2 2 D y n a m i q u e d e s a r t i c l e s Unités : nombre d'articles par année 1 2 9 10 14 16 19 20 31 33 38 38 45 50 95 Climat social d’entreprise Interview / parole d’expert Ouverture/construction bâtiment État des lieux secteur tendance enjeux Recrutement Compétition récompense Démonstration Rapprochement entreprise Performance technologique Performance économique d’une entreprise Financement Partenariat Contrat commercial Évènement Sortie commerciale C a t é g o r i e s d e s a r t i c l e s Unités : nombre d’articles Catégories / Organisations VELODYNE LIDAR BASYSTEMES MG TECH OMRON STAUBLI TERADYNE UNIVERSAL ROBOTS ABB BOSCH HUAWEI PSA Sortiecommerciale 4 2 4 2 1 1 1 3 Évènement 3 1 1 1 1 1 5 1 Contrat commercial 3 2 1 2 2 Financement 1 1 1 2 2 1 1 1 1 Partenariat 3 2 1 2 1 1 Performanceéconomiqued’une entreprise 1 1 1 3 1 1 3 Performancetechno 2 4 3 1 1 Rapprochement entreprise 1 1 2 1 1 4 4 1 1 Démonstration 1 1 1 1 Compétition récompense 1 1 Recrutement 1 1 3 1 État des lieux secteur tendance enjeux 1 1 1 C a t é g o r i e s d e s a r t i c l e s p a r a c t e u r s Unités : nombre d’articles Source : Factiva, Traitement : VIA INNO
  • 16. E x p l o i t a t i o n d e s d o n n é e s d e p r e s s e R é s u l t a t s i s s u s d e l a c a t é g o r i s a t i o n Sorties commerciales Velodyne Lidar lance le capteur Velabit™ de nouvelle génération 2021 Velabit adapte le lidar 3D aux applications essentielles pour la sécurité Velodyne Lidar lance un capteur à semi-conducteurs, destiné aux *robots mobiles autonomes* ainsi qu’à la livraison du dernier kilomètre 2020 Le Velarray M1600 offre une perception avancée pour le marché à croissance rapide des robots autonomes . Le lancement de Velarray M1600, un capteur lidar innovant à semi-conducteurs, conçu pour servir les applications de robotique mobile. Le capteur est le tout dernier d’une nouvelle gamme de produits Velarray, et le premier de la nouvelle série M. Il est conçu à partir de l’architecture Micro Lidar Array (MLA) exclusive et révolutionnaire de Velodyne, et s’appuie sur les partenariats de fabrication de Velodyne, pour offrir optimisation des coûts et production à grande échelle. Velodyne va présenter ses solutions lidar destinées aux opérations de fabrication et à la chaîne d’approvisionnement au salon MODEX 2020 2020 Seoul Robotics fera la démonstration sur le stand de Velodyne de sa solution Level 5 Control Tower, alimentée Velodyne Lidar, permettant une automatisation sûre et efficace du parc logistique Velodyne présente le lidar perfectionné pour l’automatisation des terminaux portuaires, au salon TOC Europe 2019 DGWorld, un intégrateur Velodyne, expose l’automatisation avancée des véhicules Évènement Velodyne va présenter ses solutions lidar destinées aux opérations de fabrication et à la chaîne d’approvisionnement au salon MODEX 2020 2020 Seoul Robotics fera la démonstration sur le stand de Velodyne de sa solution Level 5 Control Tower, alimentée Velodyne Lidar, permettant une automatisation sûre et efficace du parc logistique Velodyne Lidar annonce une série d’apprentissages numériques sur l’automatisation et la sécurité pendant la pandémie de COVID-19 2020 Des webinaires bimensuels évaluent comment les *robots mobiles autonomes* améliorent la sécurité publique et combattent les maladies Velodyne Lidar a annoncé aujourd’hui une nouvelle série d’apprentissages numériques qui vont évaluer comment l’automatisation fait progresser la sécurité pendant la pandémie de COVID-19. Les webinaires comporteront des conversations avec des experts issus d’entreprises innovantes qui utilisent la technologie Velodyne lidar en première ligne de la réponse à la pandémie de COVID-19. Velodyne présente le lidar perfectionné pour l’automatisation des terminaux portuaires, au salon TOC Europe 2019 DGWorld, un intégrateur Velodyne, expose l’automatisation avancée des véhicules Partenariats Velodyne Lidar signe un accord pluriannuel avec Boston Dynamics 2022 Velodyne Lidar a annoncé aujourd’hui avoir signé un accord pluriannuel concernant ses capteurs lidar avec Boston Dynamics, leader mondial dans le secteur de la robotique mobile. Boston Dynamics a choisi les capteurs de Velodyne pour fournir des capacités de perception et de navigation à ses robots hautement mobiles, qui sont capables de relever les défis robotiques les plus difficiles. Velodyne Lidar et MOV.AI s’associent pour fournir des solutions autonomes au secteur de la robotique industrielle et du commerce électronique 2021 Velodyne Lidar ont annoncé aujourd’hui que les deux entreprises collaboraient pour fournir aux fabricants de robots des solutions d’automatisation de classe entreprise, notamment en matière de cartographie, de navigation, d’évitement des obstacles et d’évitement des risques. Velodyne Lidar lance un capteur à semi-conducteurs, destiné aux *robots mobiles autonomes* ainsi qu’à la livraison du dernier kilomètre 2021 Velodyne Lidar a annoncé aujourd’hui le lancement de Velarray M1600, un capteur lidar innovant à semi-conducteurs, conçu pour servir les applications de robotique mobile. Le capteur est le tout dernier d’une nouvelle gamme de produits Velarray, et le premier de la nouvelle série M. Il est conçu à partir de l’architecture Micro Lidar Array (MLA) exclusive et révolutionnaire de Velodyne, et s’appuie sur les partenariats de fabrication de Velodyne, pour offrir optimisation des coûts et production à grande échelle. Evènements Velabit™ de Velodyne Lidar remporte le prix de l’innovation de Silicon Valley Robotics 2020 Les capteurs lidar de Velodyne sont récompensés pour avoir fourni une perception avancée pour le marché en croissance rapide des robots autonomes Rapprochement d'entreprises 2020 Velodyne Lidar, Inc. et Graf Industrial Corp. annoncent la finalisation de leur regroupement d’entreprises La négociation des actions ordinaires sur le Nasdaq débutera le mercredi 30 septembre 2020 SAN JOSÉ, Californie et HOUSTON. Velodyne Lidar, Inc. (« Velodyne ») et Graf Industrial Corp. (« Graf ») ont conjointement annoncé aujourd’hui la finalisation de leur regroupement d’entreprises, tel qu’annoncé précédemment et en vertu duquel Velodyne devient une filiale à 100 % de Graf, et Graf change de nom pour s’appeler désormais Velodyne Lidar, Inc. Le regroupement d’entreprises a été approuvé lors d’une assemblée extraordinaire des actionnaires de Graf, qui s’est tenue aujourd’hui.
  • 17. E x p l o i t a t i o n d e s d o n n é e s d e p r e s s e R é s u l t a t s i s s u s d e l a c a t é g o r i s a t i o n 2019 2020 2021 Velodyne Lidar lance le capteur Velabit™ de nouvelle génération Velodyne Lidar lance un capteur à semi-conducteurs, destiné aux robots mobiles autonomes ainsi qu’à la livraison du dernier kilomètre Velodyne présente le lidar perfectionné pour l’automatisation des terminaux portuaires, au salon TOC Europe Velodyne va présenter ses solutions lidar destinées aux opérations de fabrication et à la chaîne d’approvisionnement au salon MODEX 2020 Velodyne Lidar annonce une série d’apprentissages numériques sur l’automatisation et la sécurité pendant la pandémie de COVID-19 Velodyne Lidar signe un accord pluriannuel avec Boston Dynamics Velodyne Lidar et MOV.AI s’associent pour fournir des solutions autonomes au secteur de la robotique industrielle et du commerce électronique 2022 Velodyne Lidar, Inc. et Graf Industrial Corp. annoncent la finalisation de leur regroupement d’entreprises Velabit™ de Velodyne Lidar remporte le prix de l’innovation de Silicon Valley Robotics Velodyne présente le lidar perfectionné pour l’automatisation des terminaux portuaires, au salon TOC Europe Velodyne va présenter ses solutions lidar destinées aux opérations de fabrication et à la chaîne d’approvisionnement au salon MODEX 2020
  • 18. E x p l o i t a t i o n d e s d o n n é e s d e p r e s s e R é s u l t a t s i s s u s d u q u e s t i o n / a n s w e r i n g • salon TOC Europe • MODEX 2020 • webinaires bimensuels Évènements Compétition Sorties commerciales Partenariat Quel est l’évènement? • Silicon Valley Robotics Quel est le secteur d’activité ? Qui sont les partenaires ? • ? • ? • Boston Dynamics • salon TOC Europe DGWorld • salon MODEX 2020 Seoul • SAN JOSE, Californie Où est l’évènement? • Prix de l’innovation de Silicon Valley Robotics De quelle compétition s’agit-il ? Quel prix a remporté l’entreprise ? Quelle est le produit mentionné dans le texte ? Quels sont les avantages du produit ? Quel est l’objectif de la collaboration ? • offrir optimisation des coûts et production à grande échelle • fournir aux fabricants de robots des solutions d’automatisation de classe entreprise • fournir des capacités de perception et de navigation à ses robots hautement mobiles, qui sont capables de relever les défis robotiques les plus difficiles • robotique mobile • sécurité • terminaux portuaires • opérations de fabrication et à la chaîne d’approvisionnement • Velarray M1600 • capteur VelabitTM • lidar perfectionné pour l’automatisation des terminaux portuaires • Level 5 Control Tower • optimisation des coûts et production à grande échelle • Velabit adapte le lidar 3D aux applications essentielles pour la sécurité • l’automatisation des terminaux portuaires • automatisation sûre et efficace du parc logistique
  • 20. § Evaluer l’intérêt des données de presse dans l’étude de l’innovation Une donnée pertinente : ü Des informations actuelles ü Simples de compréhension ü De natures variées § Développer une méthode d’exploitation facilitée de cette donnée « semi-structurée » Deux techniques satisfaisantes : ü Le découpage du texte en dictionnaire ü Les techniques d’IA de reconnaissance d’entités nommées ü Les techniques d’IA de question/answering Une technique peu satisfaisante : ü Les techniques d’IA zero-shot classification Les techniques d’IA permettent d’optimiser le processus et le traitement des données cependant des phases de vérifications et validations des résultats restent nécessaires. E x p l o i t a t i o n d e s d o n n é e s d e p r e s s e C o n c l u s i o n s e t p r o l o n g e m e n t s
  • 21. P R O L O N G E M E N T S § Consolider le dictionnaire de l’innovation, § Étendre la sélection des données aux articles anglophones, § Tester et adapter la méthodes pour des données de presse en libre accès, § Adapter la méthodologie aux données de publications scientifiques afin d’en optimiser l’exploitation dans une démarche de compréhension des activités d’innovation, § Qualifier les relations entre les organisations. E x p l o i t a t i o n d e s d o n n é e s d e p r e s s e C o n c l u s i o n s e t p r o l o n g e m e n t s
  • 22. INIGO URIZ-GIL MARINA FLAMAND INES DHUIT VIA INNO – Research platform in technology intelligence Bordeaux School of Economics University of Bordeaux inigo.uriz-gil@u-bordeaux.fr marina.flamand@u-bordeaux.fr ines.dhuit@u-bordeaux.fr MERCI