SlideShare une entreprise Scribd logo
1  sur  19
Télécharger pour lire hors ligne
Bringing Entreprise Search in
the Big Data era with PCU
Unified, search-first Machine Learning
platform targeted at business applications
PCU @ POSS 2017
Marc Dutoo, Smile
Dematerialization track
PCU
1
2
● Why Big Data for Entreprise Search
● Demo !
● PCU introduction
● Questions
PCU
Plateforme de Connaissances Unifiée
Overview
The speaker
● Marc Dutoo, R&D projects lead at Smile, the leading EU Open Source service provider
● PCU project coordinator, Data / API / Cloud expert
Why Entreprise
Search and Big Data
PCU @ POSS 2017
PCU
3
4
PCU
Plateforme de Connaissances Unifiée
Digital Entreprise ?
Entreprise Search, a powerful
asset to make your
documents go digital !
=
images courtesy LinkedIn.com
But out of fashion ?
PCU Entreprise Search
Big Data
by
+
https://www.smile.eu/fr/technologies/pcu-enterprise-search
Demo !
PCU @ POSS 2017
PCU
7
8
PCU
Plateforme de Connaissances Unifiée
Entreprise Search (démo)
PCU Architecture
Apache
Log
Connecteur
File
Connecteur
File
Connecteur
Web
Connecteur
Web
Connecteur
Application
Connecteur
Application
Connecteur
Log
Connecteur
Log
File entity
Product entity
Apache log
Append (delta)
content
Enterprise search
Direct or async. Spark ETL indexing
Checks
Trigger
event/alert
prediction
File
ecommerce
Reco
REST
Reco
REST
Vues
360
Vues
360
IndexingRESTIndexingREST
Topic Kafka streaming job
incl. cleaning
ElasticSearch
Distributed file
system
Meta
modèle
Meta
modèle
ES Proxy
Content
stream
Smart search engine
REST
Smart search engine
REST
ML batch jobs
10
PCU
Plateforme de Connaissances Unifiée
Entreprise Search (WP7), avec Spark ETL
indexing (WP2) (démo)
● Entreprise Search : “qui peut le plus peut le moins”
○ le produit d’appel “pied dans la porte” de PCU pour élargir son
audience au-delà des early adopters
● … MAIS pas seulement !
○ plus tard, il héritera des fonctionnalités de recherche intelligentes
mises au point pour le e-commerce (en “trickle-down”)
○ dès à présent, il bénéficie de l’intégralité de l’architecture de PCU,
qu’il valide
■ pipeline d’indexation alternatif sur YAML-configured
Spark ETL :
● à la volée (mode streaming), configuration simple (YAML)
● asynchrone et scalable grâce à Kafka (files partitionnées)
● transformation de données en Spark (tout comme le ML)
Tomorrow : PCU
Introduction
PCU @ POSS 2017
PCU
11
12
PCU
Plateforme de Connaissances Unifiée
PCU - the problem
(Big)
Data
=
images courtesy thinglink.com, lebigdata.fr, webengage.com, toptal.com, mattturk.com
Data scientist Devops Machine Learning
BUT you need...
… how can (very) small companies take advantage of it ?
13
● 6 partners, 36 man-year over 2017-2019, sponsored by the French
ministry of Industry & région Île de France
● In order to democratize Big Data, so that every company will be able to
add value to its own core business thanks to its existing data
○ The Big Data / Machine Learning / semantic module to enrich any business
application
○ … Unified, search-first Machine Learning platform targeted at
business applications.
● As showcased in 2 use cases :
○ E-commerce (up to digital in store) & B2B
○ Enterprise search
● Thanks to:
○ A factory of Machine Learning and Semantics-enriched search engines
○ state-of-the-art and new algorithms analyzing user behaviour
○ end-to-end event-driven data processing workflow
○ an open source, best-of-breed, unified, flexible and extensible approach
PCU
Plateforme de Connaissances Unifiée
Factsheet - Unified Knowledge Platform
14
Smile : coordinator, architecture, ecommerce
Paris 13 : Machine Learning, semantics
ESILV : pipeline, semantics
Proxem : text & opinion mining, B2B
Wallix : enterprise search experience
Armadillo : integration & mgmt API & UI
PCU
Plateforme de Connaissances Unifiée
Partners and stakeholders
Financial sponsors : BPI, IDF
Cluster : System@tic
Overall architecture
Collect Learn Reference Publish
Deploy, Manage, Monitor
15
>>
>
>>
>
>>
>
PCU
Plateforme de Connaissances Unifiée
16
● Generic platform
○ Unified, flexible, extensible, best-of-breed-based, API-managed
○ Along with a set of standard connectors, data pipeline elements,
and Machine Learning (ML) and text mining algorithms
● Use cases and products
○ E-commerce (product, deployed at Smile early adopter customers),
B2B (deployed at Smile & Proxem)
○ Enterprise Search (product, deployed at each partner's)
● Open Source Ecosystem
○ Ties with integrated technical components' communities as well as
derived business-specific products
○ Home of platform examples, tryout and adoption
PCU
Plateforme de Connaissances Unifiée
Target outputs
17
● Business requirements, up to Machine Learning prototypes
○ Search, Ecommerce (B2C), CRM (B2B), including 10GB+ data sets
○ Data analysis, up to ML prototypes on Spark + Jupyter : reco, coocs...
● Architecture and development
○ State of the art, POCs (ElasticSearch, Solr, Spark), technical architecture
○ Semantic platform architecture, topic detection algorithm
○ YAML-configured ETL pipeline on Spark (prototype)
○ 360 View & A/B testing prototypes
○ Enterprise search demo (API, indexing, crawler, metadata extractor, UI)
● Project setup
○ Collaboration, communication
○ Tools : Github, first shared data and Big Data / ML components Cloud,
Spark Machine Learning dockerized environment...
PCU
Plateforme de Connaissances Unifiée
Year 1 outputs
18
Questions ?
https://pcu-consortium.github.io/
https://twitter.com/PCUConsortium
Contact : marc.dutoo@smile.fr
https://www.smile.eu/fr/technologies/pcu-enterprise-search
Thanks for
your attention !
https://www.smile.eu/fr/technologies/pcu-enterprise-search
19
PCU
Plateforme de Connaissances Unifiée
Vue d’ensemble des Work Packages
techniques
WP1 : Architecture
WP2 : Valorisation WP3: Utilisation
WP4 : Catalogue
WP5 : Client
WP6 : Omnicanal WP7 : Recherche
Messagerie Système de fichier
Machine Learning
analyse sémantique
Recherche
Vues
Alerte
Analytiques
Recherche
Vues
Mobile
Vues B2B B2C
Beacon
Campagne
Connecteurs
Vues
Sécurité
Conclusion
Revue an 1
PCU
20
21
PCU
Plateforme de Connaissances Unifiée
Conclusion
● Fait en 2017 :
○ Besoins prototypés
○ Architecture et fondations R&D
○ Prototypes techniques v1
○ Solution Entreprise Search v1
● Prévu en 2018 :
○ Gestion des modèles de données et configuration générique et
dynamique
○ Refactoring du framework de connecteurs
○ Algorithmes recherche sémantique, NLP, recommandation

Contenu connexe

Similaire à Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source Summit 2017

Digital workspace : la réalité
Digital workspace : la réalitéDigital workspace : la réalité
Digital workspace : la réalitéThomas Gennburg
 
L'écosystème régional du Big Data
L'écosystème régional du Big DataL'écosystème régional du Big Data
L'écosystème régional du Big DataRobert Viseur
 
PCU@Documation 2017 -Flyer
PCU@Documation 2017 -FlyerPCU@Documation 2017 -Flyer
PCU@Documation 2017 -FlyerRania Soussi
 
CMSday 2013 - OpenData, BigData
CMSday 2013 - OpenData, BigDataCMSday 2013 - OpenData, BigData
CMSday 2013 - OpenData, BigDataSmile I.T is open
 
Usages 2 0 en entreprise nouvelle expérience de travail - microsoft france
Usages 2 0 en entreprise   nouvelle expérience de travail - microsoft franceUsages 2 0 en entreprise   nouvelle expérience de travail - microsoft france
Usages 2 0 en entreprise nouvelle expérience de travail - microsoft franceThomas Kerjean
 
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...Paris Open Source Summit
 
Présentation programme OREE
Présentation programme OREEPrésentation programme OREE
Présentation programme OREECYB@RDECHE
 
Présentation Ozwillo aux Interconnectés
Présentation Ozwillo aux InterconnectésPrésentation Ozwillo aux Interconnectés
Présentation Ozwillo aux InterconnectésOzwillo
 
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...Nuxeo
 
Be Googley, a corporate culture for innovation
Be Googley, a corporate culture for innovationBe Googley, a corporate culture for innovation
Be Googley, a corporate culture for innovationPatrick Chanezon
 
Plateforme digitale services et technologies
Plateforme digitale   services et technologiesPlateforme digitale   services et technologies
Plateforme digitale services et technologiesWilliam Poos
 
Benchmark des solutions IoT et intégration d'une plateforme à un progiciel de...
Benchmark des solutions IoT et intégration d'une plateforme à un progiciel de...Benchmark des solutions IoT et intégration d'une plateforme à un progiciel de...
Benchmark des solutions IoT et intégration d'une plateforme à un progiciel de...Karim Gmir
 
Big Data by Soft Computing - Lille
Big Data by Soft Computing - LilleBig Data by Soft Computing - Lille
Big Data by Soft Computing - LilleSoft Computing
 
Une révolution technologique à nos portes ; nos organisations sont-elles prêtes?
Une révolution technologique à nos portes ; nos organisations sont-elles prêtes?Une révolution technologique à nos portes ; nos organisations sont-elles prêtes?
Une révolution technologique à nos portes ; nos organisations sont-elles prêtes?IRSST
 
Livre blanc des Big Data
Livre blanc des Big DataLivre blanc des Big Data
Livre blanc des Big DataYann Gourvennec
 
Livre blanc-big-data-jems.-teaserpdf
Livre blanc-big-data-jems.-teaserpdfLivre blanc-big-data-jems.-teaserpdf
Livre blanc-big-data-jems.-teaserpdfMarina Lapaquette
 

Similaire à Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source Summit 2017 (20)

Digital workspace : la réalité
Digital workspace : la réalitéDigital workspace : la réalité
Digital workspace : la réalité
 
L'écosystème régional du Big Data
L'écosystème régional du Big DataL'écosystème régional du Big Data
L'écosystème régional du Big Data
 
PCU@Documation 2017 -Flyer
PCU@Documation 2017 -FlyerPCU@Documation 2017 -Flyer
PCU@Documation 2017 -Flyer
 
Offre onepoint medias
Offre onepoint mediasOffre onepoint medias
Offre onepoint medias
 
CMSday 2013 - OpenData, BigData
CMSday 2013 - OpenData, BigDataCMSday 2013 - OpenData, BigData
CMSday 2013 - OpenData, BigData
 
ML Ops a Survey
ML Ops a SurveyML Ops a Survey
ML Ops a Survey
 
Présentation 6 IT 2016
Présentation 6 IT 2016Présentation 6 IT 2016
Présentation 6 IT 2016
 
Usages 2 0 en entreprise nouvelle expérience de travail - microsoft france
Usages 2 0 en entreprise   nouvelle expérience de travail - microsoft franceUsages 2 0 en entreprise   nouvelle expérience de travail - microsoft france
Usages 2 0 en entreprise nouvelle expérience de travail - microsoft france
 
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
 
Présentation programme OREE
Présentation programme OREEPrésentation programme OREE
Présentation programme OREE
 
Présentation Ozwillo aux Interconnectés
Présentation Ozwillo aux InterconnectésPrésentation Ozwillo aux Interconnectés
Présentation Ozwillo aux Interconnectés
 
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...
 
Be Googley, a corporate culture for innovation
Be Googley, a corporate culture for innovationBe Googley, a corporate culture for innovation
Be Googley, a corporate culture for innovation
 
CV Fabrice
CV FabriceCV Fabrice
CV Fabrice
 
Plateforme digitale services et technologies
Plateforme digitale   services et technologiesPlateforme digitale   services et technologies
Plateforme digitale services et technologies
 
Benchmark des solutions IoT et intégration d'une plateforme à un progiciel de...
Benchmark des solutions IoT et intégration d'une plateforme à un progiciel de...Benchmark des solutions IoT et intégration d'une plateforme à un progiciel de...
Benchmark des solutions IoT et intégration d'une plateforme à un progiciel de...
 
Big Data by Soft Computing - Lille
Big Data by Soft Computing - LilleBig Data by Soft Computing - Lille
Big Data by Soft Computing - Lille
 
Une révolution technologique à nos portes ; nos organisations sont-elles prêtes?
Une révolution technologique à nos portes ; nos organisations sont-elles prêtes?Une révolution technologique à nos portes ; nos organisations sont-elles prêtes?
Une révolution technologique à nos portes ; nos organisations sont-elles prêtes?
 
Livre blanc des Big Data
Livre blanc des Big DataLivre blanc des Big Data
Livre blanc des Big Data
 
Livre blanc-big-data-jems.-teaserpdf
Livre blanc-big-data-jems.-teaserpdfLivre blanc-big-data-jems.-teaserpdf
Livre blanc-big-data-jems.-teaserpdf
 

Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source Summit 2017

  • 1. Bringing Entreprise Search in the Big Data era with PCU Unified, search-first Machine Learning platform targeted at business applications PCU @ POSS 2017 Marc Dutoo, Smile Dematerialization track PCU 1
  • 2. 2 ● Why Big Data for Entreprise Search ● Demo ! ● PCU introduction ● Questions PCU Plateforme de Connaissances Unifiée Overview The speaker ● Marc Dutoo, R&D projects lead at Smile, the leading EU Open Source service provider ● PCU project coordinator, Data / API / Cloud expert
  • 3. Why Entreprise Search and Big Data PCU @ POSS 2017 PCU 3
  • 4. 4 PCU Plateforme de Connaissances Unifiée Digital Entreprise ? Entreprise Search, a powerful asset to make your documents go digital ! = images courtesy LinkedIn.com But out of fashion ? PCU Entreprise Search Big Data by + https://www.smile.eu/fr/technologies/pcu-enterprise-search
  • 5. Demo ! PCU @ POSS 2017 PCU 7
  • 6. 8 PCU Plateforme de Connaissances Unifiée Entreprise Search (démo)
  • 7. PCU Architecture Apache Log Connecteur File Connecteur File Connecteur Web Connecteur Web Connecteur Application Connecteur Application Connecteur Log Connecteur Log File entity Product entity Apache log Append (delta) content Enterprise search Direct or async. Spark ETL indexing Checks Trigger event/alert prediction File ecommerce Reco REST Reco REST Vues 360 Vues 360 IndexingRESTIndexingREST Topic Kafka streaming job incl. cleaning ElasticSearch Distributed file system Meta modèle Meta modèle ES Proxy Content stream Smart search engine REST Smart search engine REST ML batch jobs
  • 8. 10 PCU Plateforme de Connaissances Unifiée Entreprise Search (WP7), avec Spark ETL indexing (WP2) (démo) ● Entreprise Search : “qui peut le plus peut le moins” ○ le produit d’appel “pied dans la porte” de PCU pour élargir son audience au-delà des early adopters ● … MAIS pas seulement ! ○ plus tard, il héritera des fonctionnalités de recherche intelligentes mises au point pour le e-commerce (en “trickle-down”) ○ dès à présent, il bénéficie de l’intégralité de l’architecture de PCU, qu’il valide ■ pipeline d’indexation alternatif sur YAML-configured Spark ETL : ● à la volée (mode streaming), configuration simple (YAML) ● asynchrone et scalable grâce à Kafka (files partitionnées) ● transformation de données en Spark (tout comme le ML)
  • 9. Tomorrow : PCU Introduction PCU @ POSS 2017 PCU 11
  • 10. 12 PCU Plateforme de Connaissances Unifiée PCU - the problem (Big) Data = images courtesy thinglink.com, lebigdata.fr, webengage.com, toptal.com, mattturk.com Data scientist Devops Machine Learning BUT you need... … how can (very) small companies take advantage of it ?
  • 11. 13 ● 6 partners, 36 man-year over 2017-2019, sponsored by the French ministry of Industry & région Île de France ● In order to democratize Big Data, so that every company will be able to add value to its own core business thanks to its existing data ○ The Big Data / Machine Learning / semantic module to enrich any business application ○ … Unified, search-first Machine Learning platform targeted at business applications. ● As showcased in 2 use cases : ○ E-commerce (up to digital in store) & B2B ○ Enterprise search ● Thanks to: ○ A factory of Machine Learning and Semantics-enriched search engines ○ state-of-the-art and new algorithms analyzing user behaviour ○ end-to-end event-driven data processing workflow ○ an open source, best-of-breed, unified, flexible and extensible approach PCU Plateforme de Connaissances Unifiée Factsheet - Unified Knowledge Platform
  • 12. 14 Smile : coordinator, architecture, ecommerce Paris 13 : Machine Learning, semantics ESILV : pipeline, semantics Proxem : text & opinion mining, B2B Wallix : enterprise search experience Armadillo : integration & mgmt API & UI PCU Plateforme de Connaissances Unifiée Partners and stakeholders Financial sponsors : BPI, IDF Cluster : System@tic
  • 13. Overall architecture Collect Learn Reference Publish Deploy, Manage, Monitor 15 >> > >> > >> > PCU Plateforme de Connaissances Unifiée
  • 14. 16 ● Generic platform ○ Unified, flexible, extensible, best-of-breed-based, API-managed ○ Along with a set of standard connectors, data pipeline elements, and Machine Learning (ML) and text mining algorithms ● Use cases and products ○ E-commerce (product, deployed at Smile early adopter customers), B2B (deployed at Smile & Proxem) ○ Enterprise Search (product, deployed at each partner's) ● Open Source Ecosystem ○ Ties with integrated technical components' communities as well as derived business-specific products ○ Home of platform examples, tryout and adoption PCU Plateforme de Connaissances Unifiée Target outputs
  • 15. 17 ● Business requirements, up to Machine Learning prototypes ○ Search, Ecommerce (B2C), CRM (B2B), including 10GB+ data sets ○ Data analysis, up to ML prototypes on Spark + Jupyter : reco, coocs... ● Architecture and development ○ State of the art, POCs (ElasticSearch, Solr, Spark), technical architecture ○ Semantic platform architecture, topic detection algorithm ○ YAML-configured ETL pipeline on Spark (prototype) ○ 360 View & A/B testing prototypes ○ Enterprise search demo (API, indexing, crawler, metadata extractor, UI) ● Project setup ○ Collaboration, communication ○ Tools : Github, first shared data and Big Data / ML components Cloud, Spark Machine Learning dockerized environment... PCU Plateforme de Connaissances Unifiée Year 1 outputs
  • 16. 18 Questions ? https://pcu-consortium.github.io/ https://twitter.com/PCUConsortium Contact : marc.dutoo@smile.fr https://www.smile.eu/fr/technologies/pcu-enterprise-search Thanks for your attention ! https://www.smile.eu/fr/technologies/pcu-enterprise-search
  • 17. 19 PCU Plateforme de Connaissances Unifiée Vue d’ensemble des Work Packages techniques WP1 : Architecture WP2 : Valorisation WP3: Utilisation WP4 : Catalogue WP5 : Client WP6 : Omnicanal WP7 : Recherche Messagerie Système de fichier Machine Learning analyse sémantique Recherche Vues Alerte Analytiques Recherche Vues Mobile Vues B2B B2C Beacon Campagne Connecteurs Vues Sécurité
  • 19. 21 PCU Plateforme de Connaissances Unifiée Conclusion ● Fait en 2017 : ○ Besoins prototypés ○ Architecture et fondations R&D ○ Prototypes techniques v1 ○ Solution Entreprise Search v1 ● Prévu en 2018 : ○ Gestion des modèles de données et configuration générique et dynamique ○ Refactoring du framework de connecteurs ○ Algorithmes recherche sémantique, NLP, recommandation