EXPERT EN
DATA INTELLIGENCE
© EXPLORE
Qui sommes-nous ?
Création
2 implantations
Nantes & Paris
Collaborateurs
Clients
Utilisateurs
1997
180
+15 M€
Chiffre d’affaires
+1500
+50 000
Producteur de données à haute valeur ajoutée pour les marchés du BtoB
Immobilier
Promoteur, Investisseur, Broker,
Syndic, Aménagement foncier,
Bailleur social, Grande distribution,
enseignes…
Construction &
prescription
Fabricants / Industriels,
Travaux Bâtiments, Travaux publics,
MOE
Services à
l’entreprise
Banque, Assurance, Communication,
IT, Déménagement, FM, RH,
Sécurité…
Territoires &
Environnement
Collectivités & Administrations,
Bureaux d'études & Conseil,
Energies, Déchets, Eau
Nos
marchés
Chiffres
clés
Data for success
© EXPLORE
Concepteur de solutions de data
comportementales BtoB / BtoC à haute
valeur ajoutée, EXPLORE identifie tous les
moments de vie de vos prospects et
clients et les transforme en levier de
performance commerciale.
© EXPLORE
© EXPLORE
Notre savoir-faire
Le meilleur de la technologie, la
valeur ajoutée de l’humain
SOURCING
360°
ÉQUIPES
D’EXPERTS
TECHNOLOGIES
DU BIG DATA
Presse, web, réseaux sociaux,
communiqués d’entreprise, permis
de construire, transactions,
annonces légales…
Documentalistes, Chargés d’enquêtes,
Chargés de veille stratégique, Urbanistes,
Géomaticiens, Data analysts, Data scientists,
Développeurs …
Bases multidimensionnelles
SQLServer, API sémantique,
Géocodage (Siretisation à 100%),
Graphs, machine learning, dataviz…
© EXPLORE
d’entreprises
(Base Sirene)
+ 11 M
Raison sociale
Adresse
Siren, Siret
Date de création
Code NAF
Effectif
Chiffre d’affaires
Forme juridique
Etablissement principal
ou secondaire
Dirigeants…
d’immeubles et
terrains recensés
+ 18 M
Patrimoine immobilier et
foncier des entreprises :
- Section cadastrale
- Adresse
- Surface
- Nombre d’étages
- Type de bien : bureaux,
commerces, logements…
Identité des propriétaires
et des occupants :
- Raison sociale
- Siren, Siret
- Coordonnées complètes
- Contacts…
Marchés
publics /an
+ 850
000
700 000 appels d’offres
Etudes et avant-projet,
immobilier, aménagement urbain,
santé, travaux, maintenance,
assurance, services généraux,
énergie, financement…
150 000 avis d’attribution
projets
immobiliers /an
+ 25 000
15 000 mouvements
d’entreprises
Déménagements, transferts
d’activité, nouvelles
implantations…
10 000 projets de
construction
évènements
stratégiques /an
+ 3 M
2,7 millions d’annonces légales
12 000 développements
(investissement productif, croissance
CA…)
7 000 recrutements
6 000 transactions
5 500 fusions-acquisitions
5 000 nominations dans le top
management
1 000 sinistres…
Notre solution
Quelques chiffres sur nos data
© EXPLORE
Sourcing
360°
Article
s
de
presse
Sites
web
Patrimoin
e
immobilie
r
Annonce
s
légale
s
Open
Data
Sites
web
annonceur
s
Permis
de
construir
e
Réseau
x
sociau
x
Crowd
-
sourcin
g
Nos sources
L'information, notre
matière première
C’est la diversité et le
croisement des sources
d’information qui permettent la
meilleure vision d’un marché,
d’un territoire, d’une
entreprise. C’est pourquoi
EXPLORE collecte ses données
parmi plusieurs milliers de
sources et supports
d’informations : presse
nationale, régionale et locale,
sites web, réseaux sociaux,
communiqués d’entreprise,
données et annonces légales,
appels d’offres…
Qualification
© EXPLORE
L’infrastructure au service de la diversité des données
© EXPLORE
Traitements spécifiques de la donnée textuelle pour la veille
Problématiques adressées par Elasticsearch
Article de
Presse
Avis de Marché
Sociétés mentionnées (Raison Sociale,
sigle…)
Eléments géographiques
Mots clefs actualité
Collectivité / Structure / Administration
Actifs immobiliers mentionnés
Mots clefs, nature des services / travaux
5 minutes / document :
2h / personne / jour
Moins de documents en file
d’attente => visibilité des
équipes sur la charge
© EXPLORE
Traitement automatique de dédoublonnage
Problématiques adressées par Elasticsearch
Stream de dédoublonnage des documents
Documents importés Indexation
MLT
- Analyzers spécifiques
- Clauses structurées
- Filtres gaussiens /dates
- Similarité textes
Constitution de familles de documents doublons
et filtre automatique
5 minutes / document :
2h / personne / jour
Moins de documents en file d’attente :
visibilité des équipes sur la charge
© EXPLORE
Fouiller la donnée non structurée
Problématiques adressées par Elasticsearch
Documentation de consultation des entreprises :
• Documents de formats mixtes (docs, pdf)
• Plusieurs dizaines voire centaines de pages
• Documents multi-sujets
• OCR
Moteur de recherche DCE :
Trouver des documents, des prescriptions selon
de multiples critères et mots clefs
© EXPLORE
Repenser nos moteurs de recherche
Problématiques adressées par Elasticsearch
Nos référentiels sémantiques dénormalisés :
Données mises à plat, fortement nested, texte + attributs
structurés
Indices agrégeant des dizaines de tables dans plusieurs bases
SQL différentes pour des recherches multi-critères
API python de composition de requêtes elasticsearch « lego »
© EXPLORE
Repenser nos moteurs de recherche
Problématiques adressées par Elasticsearch
© EXPLORE
Déploiement d’un catalogue d’APIs spécialisées
Le Choix Elastic Cloud
Sociétés
~ 200 millions de docs / Index
~ 150Go
Essentiellement structurés
2 index de structure distincte
__________________________
APIs de Recherche,
intégration applicative
(siretisation) et distribution
tierces
Documentaire Interne
~ 5 millions de docs / index
~ 100Go
Texte + métadonnées
___________________________
APIs applicatives de production
Traitement de masse de nuit +
haute fréquence de requêtes
en journée
Documentaire Externe
~ 5 à 100 millions de documents
non structurés par index
~ 10 indices par famille de
document
~ 200 Go
___________________________
APIs de recherche + kibana
interne
Foncier et chantiers
> 600 millions de documents
~ 150 Go
Très fortement structuré et nested
___________________________
API de recherche multicritère
Agrégations complexes
DCE
~ 30 millions de documents
~ 1,5 To
Textes longs ocrisés non structurés
___________________________
API de recherche textuelle
Mieux adresser la diversité de nos données et besoins de performances :
- Différences de structures
- Différences de volumes
- Différences d’usages
© EXPLORE
Explorer nos logs et mieux accompagner nos clients
Le Choix Elastic Cloud
Logs de notre espace client et
de consommation de nos APIs
Suivi des fonctionnalités les + ou – utilisées
Préférences clients
Centres d’intérêts
Etablissement aisé de scénarios de démos
© EXPLORE
Un outil additionnel à la R&D datascience
Le Choix Elastic Cloud
En attendant des fonctionnalités de machine learning en NLP intégrées ….
- Référencement RGPD par reconnaissance d’entités nommées
- Constituer et labelliser des datasets selon recherche
- Récupérer tokens plutôt que textes bruts pour vectorisation (word2vec, text2vec, etc.)
- Recherche documents similaires pour constituer échantillons d’apprentissages
MERCI
C’EST FINI !
02 51 89 09 34
info@explore.fr I www.explore.fr

Explore relève les défis Big Data avec Elastic Cloud

  • 1.
  • 2.
    © EXPLORE Qui sommes-nous? Création 2 implantations Nantes & Paris Collaborateurs Clients Utilisateurs 1997 180 +15 M€ Chiffre d’affaires +1500 +50 000 Producteur de données à haute valeur ajoutée pour les marchés du BtoB Immobilier Promoteur, Investisseur, Broker, Syndic, Aménagement foncier, Bailleur social, Grande distribution, enseignes… Construction & prescription Fabricants / Industriels, Travaux Bâtiments, Travaux publics, MOE Services à l’entreprise Banque, Assurance, Communication, IT, Déménagement, FM, RH, Sécurité… Territoires & Environnement Collectivités & Administrations, Bureaux d'études & Conseil, Energies, Déchets, Eau Nos marchés Chiffres clés
  • 3.
    Data for success ©EXPLORE Concepteur de solutions de data comportementales BtoB / BtoC à haute valeur ajoutée, EXPLORE identifie tous les moments de vie de vos prospects et clients et les transforme en levier de performance commerciale.
  • 4.
    © EXPLORE © EXPLORE Notresavoir-faire Le meilleur de la technologie, la valeur ajoutée de l’humain SOURCING 360° ÉQUIPES D’EXPERTS TECHNOLOGIES DU BIG DATA Presse, web, réseaux sociaux, communiqués d’entreprise, permis de construire, transactions, annonces légales… Documentalistes, Chargés d’enquêtes, Chargés de veille stratégique, Urbanistes, Géomaticiens, Data analysts, Data scientists, Développeurs … Bases multidimensionnelles SQLServer, API sémantique, Géocodage (Siretisation à 100%), Graphs, machine learning, dataviz…
  • 5.
    © EXPLORE d’entreprises (Base Sirene) +11 M Raison sociale Adresse Siren, Siret Date de création Code NAF Effectif Chiffre d’affaires Forme juridique Etablissement principal ou secondaire Dirigeants… d’immeubles et terrains recensés + 18 M Patrimoine immobilier et foncier des entreprises : - Section cadastrale - Adresse - Surface - Nombre d’étages - Type de bien : bureaux, commerces, logements… Identité des propriétaires et des occupants : - Raison sociale - Siren, Siret - Coordonnées complètes - Contacts… Marchés publics /an + 850 000 700 000 appels d’offres Etudes et avant-projet, immobilier, aménagement urbain, santé, travaux, maintenance, assurance, services généraux, énergie, financement… 150 000 avis d’attribution projets immobiliers /an + 25 000 15 000 mouvements d’entreprises Déménagements, transferts d’activité, nouvelles implantations… 10 000 projets de construction évènements stratégiques /an + 3 M 2,7 millions d’annonces légales 12 000 développements (investissement productif, croissance CA…) 7 000 recrutements 6 000 transactions 5 500 fusions-acquisitions 5 000 nominations dans le top management 1 000 sinistres… Notre solution Quelques chiffres sur nos data
  • 6.
    © EXPLORE Sourcing 360° Article s de presse Sites web Patrimoin e immobilie r Annonce s légale s Open Data Sites web annonceur s Permis de construir e Réseau x sociau x Crowd - sourcin g Nos sources L'information,notre matière première C’est la diversité et le croisement des sources d’information qui permettent la meilleure vision d’un marché, d’un territoire, d’une entreprise. C’est pourquoi EXPLORE collecte ses données parmi plusieurs milliers de sources et supports d’informations : presse nationale, régionale et locale, sites web, réseaux sociaux, communiqués d’entreprise, données et annonces légales, appels d’offres… Qualification
  • 7.
    © EXPLORE L’infrastructure auservice de la diversité des données
  • 8.
    © EXPLORE Traitements spécifiquesde la donnée textuelle pour la veille Problématiques adressées par Elasticsearch Article de Presse Avis de Marché Sociétés mentionnées (Raison Sociale, sigle…) Eléments géographiques Mots clefs actualité Collectivité / Structure / Administration Actifs immobiliers mentionnés Mots clefs, nature des services / travaux 5 minutes / document : 2h / personne / jour Moins de documents en file d’attente => visibilité des équipes sur la charge
  • 9.
    © EXPLORE Traitement automatiquede dédoublonnage Problématiques adressées par Elasticsearch Stream de dédoublonnage des documents Documents importés Indexation MLT - Analyzers spécifiques - Clauses structurées - Filtres gaussiens /dates - Similarité textes Constitution de familles de documents doublons et filtre automatique 5 minutes / document : 2h / personne / jour Moins de documents en file d’attente : visibilité des équipes sur la charge
  • 10.
    © EXPLORE Fouiller ladonnée non structurée Problématiques adressées par Elasticsearch Documentation de consultation des entreprises : • Documents de formats mixtes (docs, pdf) • Plusieurs dizaines voire centaines de pages • Documents multi-sujets • OCR Moteur de recherche DCE : Trouver des documents, des prescriptions selon de multiples critères et mots clefs
  • 11.
    © EXPLORE Repenser nosmoteurs de recherche Problématiques adressées par Elasticsearch Nos référentiels sémantiques dénormalisés : Données mises à plat, fortement nested, texte + attributs structurés Indices agrégeant des dizaines de tables dans plusieurs bases SQL différentes pour des recherches multi-critères API python de composition de requêtes elasticsearch « lego »
  • 12.
    © EXPLORE Repenser nosmoteurs de recherche Problématiques adressées par Elasticsearch
  • 13.
    © EXPLORE Déploiement d’uncatalogue d’APIs spécialisées Le Choix Elastic Cloud Sociétés ~ 200 millions de docs / Index ~ 150Go Essentiellement structurés 2 index de structure distincte __________________________ APIs de Recherche, intégration applicative (siretisation) et distribution tierces Documentaire Interne ~ 5 millions de docs / index ~ 100Go Texte + métadonnées ___________________________ APIs applicatives de production Traitement de masse de nuit + haute fréquence de requêtes en journée Documentaire Externe ~ 5 à 100 millions de documents non structurés par index ~ 10 indices par famille de document ~ 200 Go ___________________________ APIs de recherche + kibana interne Foncier et chantiers > 600 millions de documents ~ 150 Go Très fortement structuré et nested ___________________________ API de recherche multicritère Agrégations complexes DCE ~ 30 millions de documents ~ 1,5 To Textes longs ocrisés non structurés ___________________________ API de recherche textuelle Mieux adresser la diversité de nos données et besoins de performances : - Différences de structures - Différences de volumes - Différences d’usages
  • 14.
    © EXPLORE Explorer noslogs et mieux accompagner nos clients Le Choix Elastic Cloud Logs de notre espace client et de consommation de nos APIs Suivi des fonctionnalités les + ou – utilisées Préférences clients Centres d’intérêts Etablissement aisé de scénarios de démos
  • 15.
    © EXPLORE Un outiladditionnel à la R&D datascience Le Choix Elastic Cloud En attendant des fonctionnalités de machine learning en NLP intégrées …. - Référencement RGPD par reconnaissance d’entités nommées - Constituer et labelliser des datasets selon recherche - Récupérer tokens plutôt que textes bruts pour vectorisation (word2vec, text2vec, etc.) - Recherche documents similaires pour constituer échantillons d’apprentissages
  • 16.
    MERCI C’EST FINI ! 0251 89 09 34 info@explore.fr I www.explore.fr