4. Gaia Satellite Data Processing Challenges
Objectifs Innovation Prochaines étapes
Gaia is a cornerstone mission of the European Space Agency The data processing is very intense in terms of IO and many The data sent by the external Data Processing centres will be
to be launched towards tests with different alternatives and increasing amounts of gathered and integrated in a central repository, analysing and
the end of 2013. It will scan the sky for 5 years measuring data have been performed. We will outline some of the verifying its integrity in order to find possible flaws in the
with unprecedented accuracy the positions and motions of problems found along the way. Since 2008 we have had a processing will be far from trivial and need significant IO
more than 1000 million stars from the Galaxy. This data will fruitful collaboration with Intersystems Cache which has been demands due to the large number of records.
allow us to create a 3D model of the Milky Way. Gaia which non-traditional in many aspects as we have had costumer-
will revolutionize may fields of Astronomy. provider contacts at multiple levels (management, experts, Sometime in 2020 the final catalogue should be made
developers), this has proven very beneficial for both parties available to the scientific community, the archive and data
Présentation and has lead to fast turn-around time in getting new versions, access mechanism is starting to shape now and will also be
The satellite will send to ground every day its observations problems fixed, new features. It has also allowed us to highly demanding in terms of data access. Often
amounting to 50 GB, this data will be processed continuously optimize the system for our needs and obtain adequate disentangling instrument or processing artifacts from real
in order to asses the satellite performance. The daily performance without going for expensive top hardware issues will require the execution of user provided algorithms
processing is critical in terms of robustness and reliability as it solutions. which can discover hidden correlations within the data.
is needed in order to adjust the instrument settings on board
Gaia to meet the scientific requirements. Résultats Information additionnelles
We have now in place the core systems which will be needed The trend in astronomy and other scientific fields in the last
At the end of the mission we will have of the order 100 TB of to start receiving and processing the data sent by Gaia by the decades has been to build more sensitive and powerful
raw compressed data. end of the year, so far one of the main worries in the project instruments, larger antenas and better satellites/
which was the performance and scalability of the data access observatories, this has led to a huge increase in the amount
The long term processing of this data involves 6 European rate needed for the processing has been solved. of data to be processed. Simultaneously this has been
Data Processing Centres and will be done multiple times with compensated by the developments in in the IT Industry at the
increasing amounts of data. The estimated size of the data software and hardware levels. The processing of Gaia's data
processed after the 5 year mission will be in the order of 1 presents unmatched challenges in this respect and will open
Pbyte and the final catalogue should be published by 2021. the road too future missions.
In order to achieve the necessary precision every factor
affecting the observations needs to be modelled, this means
adapting the model as we process the data in an iterative
manner. The core processing implemented in Java will use
over 200 million stars and their 160,000 million
measurements. A direct solution is not computationally
affordable due to the huge number of unknowns, instead an
iterative process adjusting the stars positions, motions, Porteur du projet
satellite orientation, and calibrations has been designed and Jose Luis Hernández Muñoz, Gaia Operational Data and
implemented. Calibration Engineer - European Space Agency
Partenaires
Intersystems, Jose Ruperez, Jose Costa, Robert Bira
5. Alephd, we help publishers
Objectifs Innovation Prochaines étapes
AlephdD permet aux éditeurs de médias web et aux AlephD est la première solution d’optimisation des revenus AlephD cherche aujourd’hui des investisseurs pour accélérer
gestionnaires d'inventaires d'espaces publicitaires de tirer des éditeurs de site pour le RTB, en tempsréel son développement et attaquer le marché international :
profit des technologies d'enchères en temps réel (RTB). et indépendante d’une plateforme. européen dans un premier temps, puis américain. Les
Grâce à une technologie big data temps réel, AlephD rend En effet, il existe aujourd’hui deux types de solutions : principaux investissements prévus concernent le recrutement
possible une optimisation utilisateur par utilisateur de la vente - des solutions « statiques », qui optimisent les paramètres d’ingénieurs, de statisticiens et de business developers. Par
d'espaces sur les plateformes d'enchères (AppNexus, une fois par jour par ex. Ces solutions ne prennent pas en ailleurs, AlephD continue son travail avec ses clients
Rubicon, Google...). compte les particularités de chaque utilisateur, et manquent existants, développant de nouveaux algorithmes, avec
donc une bonne partie des opportunités d’optimisation comme objectif de convaincre d’importants nouveaux clients
Présentation - des solutions « in-house » de plateformes, qui sont des d’ici au deuxième semestre.
L'arrivée du RTB donne aux acheteurs et aux vendeurs boîtes noires. Ces options ont mauvaise réputation chez les
d'espaces publicitaires la possibilité de personnaliser leurs annonceurs, qui détectent et fuient les éditeurs y recourant
ordres en temps réel, utilisateur par utilisateur. Cela car peu transparentes et remettant en cause l’équité des
nécessite le déploiement d'une infrastructure serveur enchères.
complexe (big data, temps réel) et la mise en place
d'algorithmes de décision. Résultats
Les données traitées sont des logs d’enchères de publicités Les données recueillies permettent de comprendre comment
en ligne. Concrètement, AlephD obtient, pour chaque s’effectuent les enchères, au degré de granularité le plus fin.
affichage de publicité sur le site d’un de ses clients, les Elles permettent ainsi de découvrir et donc de modéliser les
informations sur le prix et les paramètres de l’enchère comportements des acheteurs de publicité.
correspondante. Ces informations sont recueillies en temps Sur les données disponibles, la technologie d’AlephD permet
réel par nos serveurs, qui les mettent ensuite sur un cluster d’obtenir une amélioration des revenus de l’ordre de 30%.
Hadoop.
Aujourd’hui, AlephD ne traite que les données issues de la
plateforme d’enchère AppNexus, qui est la solution la plus
transparente et qui connait le plus de croissance
actuellement.
AlephD a développé une technologie propriétaire unique pour
traiter ces données et optimiser les paramètres d’enchère en
temps réel. Cette technologie repose sur deux piliers :
- une infrastructure big data, utilisant les technologies
Hadoop et Hive. AlephD développe des algorithmes en Map/
Reduce pour exploiter au mieux ces Tera-octets de données ;
Porteur du projet
- une infrastructure temps réel de prise de décision, c’est-à-
Vincent Lepage - Directeur Général – AlephD SAS
dire capable de répondre en moins de 10ms à une requête
Nicolas Grislain – Président – AlephD SAS
de paramètres d’enchère, avec plusieurs milliers de requêtes Partenaires
par secondes.
Pubsquared
Audience Square
6. Artimon, service de collecte et d'analyse de
métriques à large échelle.
Objectifs Innovation Prochaines étapes
Offrir un service de centralisation de métriques à caractère L'utilisation d'un format universel de métriques permet de ne Les étapes à venir pour ce projet sont l'instrumentation de
technique et fonctionnel permettant un suivi temps-réel et pas avoir autant d'outils de monitoring (technique ou nouvelles applications et l'exploitation des métriques
historique du fonctionnement de l'entreprise. business) que de périmètres, il en découle des possibilités produites. La disponibilité de métriques vise à centrer les
d'analyses croisées riches d'enseignements (quel est l'impact processus de décisions de l'entreprise autour de données
Présentation d'une augmentation de température sur le comportement des objectives.
Le projet Artimon définit un format universel de métriques, les bases de données et in fine sur les temps de traitements des
différents périmètres fonctionnels et techniques de requêtes issues des sites Web). Information additionnelles
l'entreprise produisent des indicateurs (de type compteurs ou Ce projet s'inscrit dans une démarche Big Data plus large
jauges) sous ce format. Ces indicateurs sont collectés toutes La facilité d'instrumentation des applicatifs permet de initiées dès 2009 au sein du groupe Crédit Mutuel Arkéa.
les minutes sur l'ensemble des machines du groupe Crédit rapidement disposer de métriques éclairant les métiers sur
Mutuel Arkéa et remontés sur la plate-forme Big Data basée l'activité de leur périmètre. Les spécialistes des différents Ce projet a été réalisé par des équipes internes du Crédit
sur Hadoop. domaines ont le sentiment de ne plus être aveugles et Mutuel Arkéa.
cantonnés à des chiffres à J+1.
Ce projet a été initié dans les équipes techniques du groupe
Crédit Mutuel Arkéa qui ont mis au point l'infrastructure de Résultats
collecte et de stockage. Les premières métriques collectées L'analyse de la distribution statistique des indicateurs permet
furent techniques (températures de machines, espaces de faire de la détection d'anomalie, par exemple lorsqu'une
disques disponibles, charge machine, ...) et ont été utilisées machine est sur le point de tomber en panne suite à un
pour la mise au point de fonctions d'analyse de ce type de défaut de refroidissement, ou que le volume d'opérations d'un
données. Ces fonctions d'analyse sont capables de certain type est atypique par rapport au volume
déclencher des alertes, permettant une réaction rapide à des habituellement observé le même jour sur la même plage
situations anormales. horaire.
Une fois la chaîne complète mise au point sur le périmètre En cas d'incident, la priorité est donnée au rétablissement du
des données initiales, les équipes en charge des périmètres service, la disponibilité des métriques sur la période
fonctionnels (spécialistes métier et développeurs) ont été précédant la survenue de l'incident permet lorsque la
accompagnées dans l'instrumentation de leurs applications et situation est rétablie de procéder à une analyse post-mortem
la mise au point de fonctions d'analyse propres à leurs de l'indicent et à la mise en place de mécanismes d'alertes
métiers. adaptés.
Les travaux sur ce projet ont débuté en 2009, le périmètre de L'existence de métriques dont la signification est maîtrisée
collecte s'est agrandi graduellement pour couvrir depuis fin permet de mettre en place des contrats de services (SLA)
2012 l'ensemble des serveurs du groupe Crédit Mutuel basés sur des éléments objectifs. L'historisation de ces
Arkéa. métriques permet de tester différents modes de calculs des
indicateurs de SLA afin de déterminer par exemple si un
abaissement de seuil est ou non compatible avec la réalité de Porteur du projet
la production. Matthias Herberts - Engineer – Credit Mutuel Arkea
7. BELOGIK: rendre les logs intelligentes
Objectifs Innovation
Le projet vise à améliorer la connaissance de Outscale sur le L’innovation pour Outscale est de produire une connaissance
comportement de ses clients dans l’utilisation de ses services intime du comportement de son infrastructure. La mise à
d’IaaS. L’infrastructure de production de Outscale est disposition d’une énergie informatique élastique et sans
décentralisée sur plusieurs sites physiques dans le monde et «limite » génère des usages et des comportements de la part
fonctionne sur plusieurs fuseaux horaires. des clients en complète rupture avec l’hébergement
traditionnel à capacité finie. L’innovation réside à donner
corps au concept de Customer Insight dans un contexte
Présentation technologique, c’est une rupture majeure avec les pratiques
L’infrastructure de Outscale produit des millions de lignes de marketing en vigueur dans cette industrie. Les bénéfices pour
données machines par jour sur le fonctionnement de Outscale sont immenses avec un capacité de provisionner
l’infrastructure : ouverture d’instance, fermeture d’instance, plus finement ses ressources physiques et surtout d’adapter
consommation des ressources, augmentation des à terme son offre de services à ces nouveaux
ressources, trace d’erreurs, communication réseau, …. comportements. Un effet de bord induit est d’accélérer le
Croissant de 50% par an, le nombre d’opérations d’une traitement de l’analyse des données machines en situation
infrastructure cloud dépasse les 500 opérations à la seconde d’anomalie. C’est un projet stratégique pour le
et les traces laissées par l’infrastructure sont de plus en plus développement de l’entreprise.
nombreuses.
Les solutions actuelles de traitement de données ne Résultats
permettent ni d’agréger les données au regard de la diversité L’objet du projet consiste à collecter toutes les données,
des formats produits par les équipements techniques, ni de permettant éventuellement une fouille en temps réel et
traiter les volumes engendrés. surtout de construire les indicateurs métiers permettant au
Le projet est basé sur la solution BELOGIK d’analyse de log Product Manager de Outscale de proposer des nouvelles
as a service. offres de service.
L’objet du projet consiste à :
• collecter à l’échelle du big data les données machines,
• permettre la fouille en temps réel dans les données
machines,
• générer l’intégralité des indicateurs métiers. Porteur du projet
Christophe Ballihaut - Président – Belogik
Le projet est en phase de prototypage des indicateurs
métiers avant de passer à la phase de montée en charge de Partenaires
la solution et de qualification des performances. Le partenaire du projet est Outscale, Le Cloud Français,
opérateur de services cloud computing. Le fournisseur
d'un des plus grands éditeurs de logiciels mondiaux
s'appuie sur les services d’Outscale pour opérer
l’ensemble de ses activités SaaS.
Laurent Seror – Président
8. “Moving Data & BIME: Harnessing the power
of Google BigQuery”
Objectifs Innovation Prochaines étapes
Moving Data improves mobile performance by ensuring the Scaling a database is hard and scaling analytical databases Roll-out of the product to a larger number of customers
quality and serviceability of telephone and broadband is even harder. BIME powered by Google BigQuery offers an dealing with ever increasing volumes of data.
networks in the Australian Outback. The company has analytical database as a service that scales to petabytes of
developed advanced methods to collect and disseminate data. It means that Moving Data doesn’t require sophisticated
alerts and statistics from mobile devices and supporting infrastructure and an operational team to analyze data. BIME
mobile networks. When dealing with millions of network- + Google BigQuery provide Moving Data with a reliable, quick
generated events, trend analysis rather than specific alerts and infinitely scalable pay-as-you-go service to tap data
becomes critical to make the right decisions fast. generated by the Internet of Things.
Moving Data had two needs that only BIME could satisfy. It With Moving Data based in Australia and BIME in France, this
needed tools to enable interactive, visual analysis of Big Data project has been undertaken across disparate time-
emerging network issues. They also wanted to communicate zones. However, with everything in the cloud, execution has
insights to their current clients via collaborative and online been fast at all stages: testing, implementation and client
dashboards, as well as promote insights to other validation, even in a Big Data context. The scalability of the
telecommunications clients with similar data, which is BIME-BigQuery combo can facilitate the regular
standardized across the industry, for a fee. They needed Big incrementation in the volume of data.
Data analytics in real-time.
Résultats
Présentation Moving Data’s prime benefit consists of harnessing events
type of data processed, approximate volume: and audit data and communicating insights to clients (major
For the initial project, the type and volume of data processed Australian telco companies) as quickly and as concisely as
by BIME and Big Query was 500 million radius records, possible. Dashboards with KPIs reduce the customer
10,000 network probes, 120.6 million sessions, 960 device decision-cycle for further analytical actions.
models.
With each future project the amount of data processed is
projected to increase exponentially.
Resources used: human skills, technical tools:
BIME cloud BI runs in any browser, queries datasets stored in
BigQuery at the speed of thought and, thanks to its’ powerful
calculation engine, displays results in interactive analysis
dashboards, in seconds.
BIME’s BigData project manager worked in parallel with the
client on the dashboard setup and design. At Moving Data,
CEO and founder Craig Morton worked on the project along
with an in-house IT engineer. Porteur du projet
Rachel Delacour - CEO – Bime
9. “Moving Data & BIME: Harnessing the power
of Google BigQuery”
Objectifs Innovation Prochaines étapes
Moving Data improves mobile performance by ensuring the Scaling a database is hard and scaling analytical databases Roll-out of the product to a larger number of customers
quality and serviceability of telephone and broadband is even harder. BIME powered by Google BigQuery offers an dealing with ever increasing volumes of data.
networks in the Australian Outback. The company has analytical database as a service that scales to petabytes of
developed advanced methods to collect and disseminate data. It means that Moving Data doesn’t require sophisticated
alerts and statistics from mobile devices and supporting infrastructure and an operational team to analyze data. BIME
mobile networks. When dealing with millions of network- + Google BigQuery provide Moving Data with a reliable, quick
generated events, trend analysis rather than specific alerts and infinitely scalable pay-as-you-go service to tap data
becomes critical to make the right decisions fast. generated by the Internet of Things.
Moving Data had two needs that only BIME could satisfy. It With Moving Data based in Australia and BIME in France, this
needed tools to enable interactive, visual analysis of Big Data project has been undertaken across disparate time-
emerging network issues. They also wanted to communicate zones. However, with everything in the cloud, execution has
insights to their current clients via collaborative and online been fast at all stages: testing, implementation and client
dashboards, as well as promote insights to other validation, even in a Big Data context. The scalability of the
telecommunications clients with similar data, which is BIME-BigQuery combo can facilitate the regular
standardized across the industry, for a fee. They needed Big incrementation in the volume of data.
Data analytics in real-time.
Résultats
Présentation Moving Data’s prime benefit consists of harnessing events
type of data processed, approximate volume: and audit data and communicating insights to clients (major
For the initial project, the type and volume of data processed Australian telco companies) as quickly and as concisely as
by BIME and Big Query was 500 million radius records, possible. Dashboards with KPIs reduce the customer
10,000 network probes, 120.6 million sessions, 960 device decision-cycle for further analytical actions.
models.
With each future project the amount of data processed is
projected to increase exponentially.
Resources used: human skills, technical tools:
BIME cloud BI runs in any browser, queries datasets stored in
BigQuery at the speed of thought and, thanks to its’ powerful
calculation engine, displays results in interactive analysis
dashboards, in seconds.
BIME’s BigData project manager worked in parallel with the
client on the dashboard setup and design. At Moving Data,
CEO and founder Craig Morton worked on the project along
with an in-house IT engineer. Porteur du projet
Rachel Delacour - CEO – Bime
10. ICANIC : Intellectual Capital Analytics
Objectifs Innovation Prochaines étapes
L’objectif est de créer un instrument de mesure de la valeur Les brevets sont jusqu’à présent considérés comme ne Finalisation et lancement commercial de la V1 pour fin 2013.
intrinsèque des brevets, fondé sur des critères objectifs et pouvant relever que d’appréciation d’expert et le projet de La prochaine étape sera d’étendre la capacité de notation
statistiques, qui s’applique à l’ensemble des brevets du traiter les brevets comme des données qu’il est possible de aux brevets américains et asiatiques.
monde.. traiter statistiquement pour en tirer du sens constitue une
révolution dans cet univers.
Présentation
Les volumes sont considérables puisqu’il s’agit de traiter Résultats
l’ensemble des données sur les brevets contenues dans les La valorisation commerciale d’Icanic s’effectuera de trois
bases des offices de propriété intellectuelle. manières :
• Mise en place de web-crawlers et de flux XML permettant • par son utilisation par les entreprises et leurs
d’industrialiser la récupération en temps réel des interlocuteurs financiers, auxquels il donnera le moyen
informations brevets d’évaluer objectivement la valeur d’un portefeuille de
• Mise en place d’une architecture de stockage et d’une brevets
architecture de calcul / ré-estimation de scores temps réel • en direction des investisseurs financiers par la création
en environnement Big Data d’indices boursiers de type « CAC 40 » qui permettront
• Analyse de type text-mining sur les textes de brevets d’identifier la performance des entreprises inventives et
permettant de créer des données qualifiantes structurées de diriger l’épargne vers elles.
à partir de données non structurées • L’intégration des notes dans les analyses vendues par
• Croisement des données qualifiantes du brevet avec les des agences de notation sociale. L’analyse de la capacité
données administratives et de citations. d’innovation des entreprises est un complément naturel
• Mise en place de modèles statistiques de durée de vie, aux analyses existantes de ces agences, telles que
permettant d’estimer la durée de vie résiduelle d’un Vigeo.
brevet en fonction de ses caractéristiques intrinsèques
• Développement de web services de restitution des Le schéma suivant résume la valorisation escomptée de
données (en cours) l’outil :
Porteur du projet
Patrick Terroir – Directeur Général Délégué – CDC
Propriétéintellectuelle
Partenaires
Bluestone est notre partenaire pour les travaux de
modélisation statistique. Arnaud Laroche est notre
directeur de mission depuis 2010.
Fourniture des données et hébergement : Questel
Expertise sur la vie des brevets : Marks&Clerk France
11. Cedexis Radar
Objectif du projet Aspects Novateurs Etapes à venir et démarche Big Data dans l’entreprise
L’objectif de Cedexis Radar est de comparer de façon neutre Cedexis Radar ne réalise pas ses mesures depuis quelques Cedexis envisage de collecter et d’utiliser toujours plus de
et objective la qualité de service des fournisseurs de services points déterminés (et un unique réseau) dans le monde. Le données pour optimiser l’aiguillage de trafic vers le meilleur
d’hébergement et de diffusion de contenus (CDN, Clouds…) système de mesure repose sur la collecte de données diffuseur/hébergeur de contenus. C’est le cas avec Cedexis
pour aiguiller les utlisateurs finaux vers le meilleur prestataire (techniques) issues des vrais utilisateurs qui exécutent la Fusion qui permet d’aiguiller le trafic en fonction de
et améliorer la performance d’un service en ligne. sonde Cedexis Radar lorsqu’ils consultent les sites d’éditeurs nombreuses variables personnalisées telles que l'énergie
intégrant celle-ci. Chaque jour, Cedexis collecte, traite et utilisée par l’infrastructure, la charge des serveurs (et/ou des
Présentation utilise en temps-réel près d’un milliard de mesures issues des métriques liées à ces serveurs comme l’usage de mémoire
Aucun prestataire (hébergeur, CDN, Cloud) n’est performant utilisateurs finaux répartis dans 230 pays et 34 000 réseaux RAM, l’état des disques durs, etc), le coût des prestataires et
partout, tout le temps et pour tous les utilisateurs finaux. Ces d’accès (FAI, entreprises…). bien plus encore... toujours dans l’objectif d’anticiper ou
variations sont liées à de multiples facteurs provenant - par contourner une éventuelle défaillance de leur infrastructure
exemple - de la distance entre l’utilisateur final et le serveur Valorisation observée de la donnée pour améliorer la performance des applicatifs hébergés et
d’origine, de la latence, du chemin d’accès aux serveurs du Autrefois, les données de monitoring d’infrastructures diffusion de contenus Internet.
prestataire ou à la saturation/dégradation momentanée de n’étaient utilisées que de façon passive, c'est-à-dire après
segments du réseau public. analyse longue. Cedexis a voulu rendre « actives » ces
données : Les mesures de Cedexis Radar servent ainsi à
Les données collectées par Cedexis « Radar » permettent de prendre une décision automatisée (en temps réel) d’usage
lever le voile sur la véritable qualité de services des d’un prestataire pour améliorer la performance et la
prestataires. Elles sont utilisées par l’aiguilleur de trafic DNS disponibilité des services en ligne pour chaque utilisateur à
Cedexis « OpenMix » pour diriger le trafic vers le meilleur travers le monde, quelque soit son terminal et son réseau
prestataire et ceci, en prenant en compte les données de d’accès.
Radar et/ou les critères définis par l’éditeur de contenus
(performance, géographie, coûts, capacité technique / bande
passante, engagements contractuels...).
Les éditeurs ont ainsi l’assurance que chaque utilisateur de
ses services pourra visualiser ses contenus ou utiliser ses
services de façon optimale.
porteur de projet et noms des partenaires
Société : Cedexis
Service : Cedexis Radar
12. Distributed e-commerce : bringing online
shops to high-traffic content websites
Objectifs Innovation Prochaines étapes
Amener des magasins en ligne directement dans des sites de Cette application ouvre les portes d’un nouveau marché : Notre réseau de partenaires s’étend tous les mois, aussi bien
contenu l’échange de données qualifiées et sémantisées entre le en termes de magasins en ligne que d’éditeurs.
monde du contenu et de l’achat, qui jusqu’ici ne se parlaient
Présentation que par bannières agressives interposées. A l’inverse, nous Informations supplémentaires
Nous créons un lien entre le monde du contenu et de l’achat, tâchons de reproduire un maximum de l’expérience utilisateur http://corporate.chefjerome.com
en développant une gamme d’interfaces qui permettent d’un magasin, directement dans la page d’origine. adurieux@chefjerome.com
d’apporter des magasins en ligne directement dans des sites Là où la plupart des usages BigData se contentent de
de contenu, dans des formats reprenant les codes de la chercher de vagues corrélations dans des volumes de
publicité en ligne classique. données importantes, l’originalité de notre approche est de
Grâce à une analyse sémantique, nous affichons au sein de privilégier une compréhension profonde et sémantique de
cette interface des produits parfaitement qualifiés, afin de données complexes et intriquées.
permettre à un utilisateur de commencer ou de compléter un
panier sans même quitter la page. Résultats
Nous avons lancé en Décembre 2012 dans le domaine de Nos interfaces sont non-intrusives, parfaitement qualifiées et
l’alimentaire, en apportant des supermarchés en ligne apportent un service supplémentaire à la page qui les
(CasinoExpress, CasinoDrive, MesCoursesCasino, Mon- héberge, ce qui nous permet d’atteindre des taux de clics
Marché) dans des sites culinaires (l’AtelierDesChefs, C’vous, absolument stupéfiants, signe d’un nouveau vecteur
blogs, forums)… d’acquisition de clients et de monétisation du contenu.
Porteur du projet
Jerome SAS
Partenaires
Groupe SEB – François-Xavier Meyer
Groupe CASINO – Patrick Garrel
13. CLIRIS, plate-forme de pilotage des points
de vente par l’analyse des flux shoppers
Objectifs Innovation Prochaines étapes
Délivrer aux Retailers des indicateurs-clés de performance Accès à de nouveaux leviers de pilotage de leur réseau, Nouveaux modules :
inédits et développer ainsi de nouveaux leviers d’optimisation auparavant inexploités : • cartographie des mesures de performance
des ventes grâce à l’analyse du comportement des « • attractivité des vitrines, des points de vente • gestion de la planification des ressources RH d’une
shoppers ». • adéquation des équipes de vente au flux client, boutique
• optimisation du plan merchandising et circulation des • module prédictif
Présentation clients au sein des boutiques, • module de simulation de l’activité d’un réseau et d’une
Conception et mis en œuvre d’une plateforme d’analyse de • optimisation du calendrier des opérations commerciales boutique
données Big Data. • impact des opérations commerciales
Cliris reçoit chaque jour un volume de données exceptionnel
depuis les box en points de vente et les SI clients. Ce flux de Résultats
données asynchrone est intégré de façon périodique, avec • Fiabilité des données
une actualisation chaque minute possible. Les informations • Prise en compte et exploitation en temps réel
sont consolidées, croisées et structurées avant d’être • Restitution d’indicateurs de pilotage inédits et
restituées sur notre portail de reporting permettant une personnalisés
supervision de la performance des points de vente et l’édition
de tableaux de bord.
Porteur du projet
Anne Steinberg Directeur
Marketing
14. ELLICIBLE
Objectifs Innovation Prochaines étapes
Pour répondre aux évolutions technologiques et à la Ellicible s’appuie sur une technologie européenne novatrice Réel projet d’entreprise associant tant la direction générale
demande du « realtime marketing » où l'information produite et apporte la commodité du « search » grand public au poste que les experts métier et les marketeurs, l’objectif de
n'est plus segmentée en silos fonctionnels mais selon les de travail du professionnel en marketing direct. Dans les www.ellicible.fr est de créer avec cette technologie innovante
usages de la cible, Coface Services a entrepris la refonte de sélections, elle rend la donnée accessible immédiatement et unique sur son marché de nouvelles opportunités de
son offre « Solutions Data ». Lancée le 20 mars 2013, élimine les temps de latence dans l’affichage des résultats. développement en « Solutions Data ».
www.ellicible.fr est une plateforme marketing direct « big Exprimé d’une autre manière, l'application utilisant le moteur Dans les étapes à venir pour accompagner les besoins
data» en temps réel et à haut débit. Sa vocation est de cibler, de ParStream réalise à grande échelle un « facetted search » utilisateurs, sera associée à cet outil une politique
trier, ventiler, explorer, segmenter, surveiller et extraire des sur plus d'une centaine de dimensions en temps réel. d’intégration de données complémentaires avec la possibilité
populations d’entreprises dans un espace multidimensionnel L’outil associe à cette technique novatrice une politique de recherche textuelle.
de plusieurs dizaines de milliards de données. d’intégration de nouvelles sources partenaires visant des
données riches et volumineuses tant nationales ou
Présentation internationales que métiers.
Ellicible intègre le moteur « big data analytics » de ParStream La combinaison « technique » et « données » permet de
GmbH. Elle transforme le concept de ciblage et comptage répondre aux nouveaux usages et demandes de nos clients à
haut débit temps réel en réalité opérationnelle sur des la recherche de performances permettant de cibler le plus
données volumineuses. juste et le plus rapidement possible leurs clients potentiels.
Ce moteur repose sur une approche innovante d’index
compressés à très hautes performances couplée à un Résultats
traitement parallèle de requêtes. Cette mécanique permet Ellicible permet de traiter des milliers de requêtes à très forte
l’accès aux données à haut débit et à très faible latence. volumétrie d’informations (milliards de données) en temps
C’est ainsi que sous une faible empreinte énergétique et réel (millisecondes). L’utilisateur, à travers la combinaison de
matérielle des milliers de requêtes sont traitées sur de très multiples critères, compte de manière instantanée des
fortes volumétries d’informations (milliards de données) en potentiels au fur et mesure de l’élaboration de ces stratégies
temps réel (millisecondes). et identifie des entreprises. Le rôle d’Ellicible est de
Avec cette technologie novatrice associée à ses solutions construire des groupes homogènes pour mettre en place des
métiers, Coface Services a su surmonter les problématiques opérations de marketing direct différenciées en fonction de
techniques traditionnelles des bases de données. Ellicible segments identifiés.
s’affranchit de l’UX « essai-erreur » et de la gestion des
tâches complexes et asynchrones tout en maintenant une
très forte réactivité data avec de faibles ressources.
Ces performances comparées aux technologies
traditionnelles, ou même avec NoSql, bouleversent les
usages de la profession du marketing direct habituée à des Porteur du projet
temps de calcul et d’affichage importants avant d’avoir le Bernard Simon – Responsable Marketing Data Solutions
résultat d’un ciblage. – COFACE SERVICES
Partenaires
Partream GMBH : Peter Livaudais, Sr. Director Solutions
15. Tableau de bord des Territoires
Objectifs Innovation Prochaines étapes
Proposer aux utilisateurs une base de données toujours à L’innovation du projet tient à (i) la mise à disposition de Data Publica est « développeur de jeux de données », c'est-
jour de l’ensemble des données de description l’ensemble des données structurée selon la dimension à-dire qu’il produit des jeux de données pour ses clients.
(démographiques, économiques, immobilier, activité, mobilité, géographique, (ii) la mise à jour automatique et permanente Pour cette production, Data Publica identifie les sources,
…) des territoires (bassin d’emplois, communes, …) et (iii) la disponibilité en ligne customisée au besoin du client, extrait les données brutes des sources, transforme les
en terme de géographie et de dimensions de contenu. données brutes en données structurées et livre ses données,
Présentation sous forme de flux ou de visualisation. Ces jeux de données
Les données sont issues de toutes les sources publiques sont produits sur mesure (le client spécifie ses besoins et
accessibles en ligne et susceptibles de contribuer au portrait Data Publica produit le jeu de données suivant ses
des territoires. spécifications) ou sur étagère (Data Publica définit et produit
le jeu de données après une analyse des besoins du
Le volume est d’abord dimensionné par le nombre de marché). Les jeux de données sont livrés en DaaS (Data as a
territoires, de l’ordre de 37.000, et quelques dizaines/ Service) et facturés sous forme d’abonnement (un jeu de
centaines de données par territoire. Ces données sont données est un objet vivant mis à jour en permanence).
chacune rafraîchies une ou plusieurs fois par an, ce qui fait
de la mise à jour automatique une difficulté significative du
projet.
Ce projet est déployé, les données étant d’ores et déjà
accessibles pour les clients de Data Publica.
Porteur du projet
François Bancilhon – PDG – DATA PUBLICA
Partenaires
F. Lainée, PDG CetaData
16. Domirama, un outil d'exploration des
historiques de comptes au service de nos
clients
Objectifs Innovation Prochaines étapes
L'objectif de ce projet est la création d'un outil permettant à L'aspect le plus novateur est de redonner la maîtrise de leurs Les évolutions visant à enrichir les opérations de
nos sociétaires et clients d'effectuer des recherches sur opérations à nos sociétaires et clients, et ce sur une métadonnées seront sources de création de valeur
l'historique des opérations réalisées sur leurs comptes profondeur d'historique sans équivalent puisque nos supplémentaire.
bancaires et d'enrichir ces historiques par des métadonnées concurrents se limitent généralement dans le meilleur des
personnalisées. cas à 12 mois d'historique. Informations supplémentaires
Ce projet s'inscrit dans une démarche Big Data plus large
Présentation Résultats visant à valoriser le patrimoine 'données' du groupe Crédit
Les données manipulées dans le cadre de ce projet sont La possibilité d'effectuer des recherches en temps réel sur Mutuel Arkéa.
constituées de l'ensemble des mouvements bancaires de nos l'historique de leurs opérations permet à nos clients
clients depuis mai 2001. La date retenue correspond au d'appréhender la gestion de leurs finances dans d'excellentes Ce projet a été réalisé par des équipes internes du Crédit
moment où les opérations en francs ne représentaient plus conditions. Mutuel Arkéa, garantissant au groupe l'exclusivité de la
qu'une part infime du flux, et ce afin d'éviter d'avoir à gérer maîtrise des technologies mises en œuvre, gage d'avantage
une approche multi-devises. concurrentiel durable.
Ce projet est l'un des premiers s'appuyant sur la plate-forme
Big Data basée sur Hadoop mise en place dès 2009 au
Crédit Mutuel Arkéa. Il est issu d'un travail conjoint entre les
équipes en charge du périmètre banque à distance pour les
aspects restitution, les équipes des différents métiers
(comptes à vue, livrets, cartes, SEPA) pour la fourniture des
données, et l'équipe Big Data/Hadoop pour la mise au point
du moteur de recherche.
Les données sont stockées dans HBase, permettant un
accès en temps-réel à celles-ci. Le moteur de recherche est
optimisé pour n'indexer les opérations qu'à la demande,
offrant ainsi des performances élevées. Une recherche
complexe sur près de 12 années d'historique s'effectue dans
90% des cas en moins de 500ms.
Ce service est en production depuis fin 2011 pour nos
sociétaires et clients des fédérations du Crédit Mutuel de
Bretagne, du Sud-Ouest et du Massif-Central, de Fortunéo
ainsi que de la Banque Privée Européenne.
Porteur du projet
Matthias Herberts – Engineer – CREDIT MUTUEL ARKEA
17. BIG DATA GETS PERSONAL
Objectifs Innovation Prochaines étapes
• Récompenser les clients les plus fidèles de l’enseigne En relation avec les marques nous constituons au fil de La personnalisation des offres a permis de doubler le taux de
avec des offres personnalisées l’année une banque de coupons. Pendant la phase de retour des coupons par rapport à des coupons non
• Créer une occasion supplémentaire de venir en magasin préparation du mailing, nous entrons les offres disponibles personnalisés.
• Exploiter et valoriser l’intégralité des données de dans un outil propre à dunnhumby. L’algorithme d’allocation
transactions intégré à cet outil a été développé grâce à l’expérience Tesco Ce premier mailing personnalisé a été envoyé à partir de
• Améliorer le retour sur investissement du programme de en Angleterre et Kroger aux Etats Unis. Il permet parmi des février 2012. Au fur et mesure que les mailings ont été reçus
Fidélité millions de possibilités de sélectionner la combinaison par les clients et analysés en terme de performance, le
d’offres la plus pertinente pour chaque client en regard de ciblage des clients a été optimisé pour privilégier les clients
Présentation son comportement d’achat. Le niveau de récompense des les plus appétant à ce type d’offre. Ceci a également permis
Nous avons créé avec Monoprix un rendez-vous mensuel offres peut lui aussi être personnalisé selon sa fidélité à de développer des supports pour les clients sensibles à
dédié aux clients les plus Fidèles pour les récompenser avec l’enseigne. d’autres canaux de communication tels que les emails et les
des offres personnalisées sur leurs marques et rayons coupons caisse. Nous pouvons ainsi optimiser chaque point
préférés. L’exploitation des big data nous permet de Résultats de contact avec le client.
personnaliser un mailing intégrant 8 coupons envoyé à Plus de 33 millions de transactions des clients les plus
environ 600 000 clients par mois. Fidèles à Monoprix sur tous les formats (y compris le site Informations supplémentaires
marchand) ont été analysées, représentant environ 350 L’équipe dédiée chez dunnhumby est composée de :
millions articles achetés. • 1 Project Manager pour adapter l’outil Media Centre pour
Cet outil d’allocation d’offres et de contenus au niveau client la base de données Monoprix
permet une véritable personnalisation de la communication. Il • 1 Data Manager
est capable de traiter cette énorme quantité de données : en • 1 Analyste pour sélectionner les clients éligibles pour les
moins d’une heure les offres sont allouées parmi les milliers offres proposés
de possibilités. • 1 Campaign Manager pour organiser et coordonner la
Plus de 80% des clients ciblés reçoit une version unique de mise en place du ciblage
ce mailing
Chez Monoprix le projet était mené par l’équipe Fidélité avec
deux personnes dédiées à la mise en place opérationnelle.
La conception et création du mailing était mené par l’agence
Rosa Parks.
Porteur du projet
Hannah Whittall – Directrice Coms & Media –
DUNNHUMBY France
Partenaires
Monoprix Stéphanie Guillonneau Directrice Fidélité
18. ECO2DATA
Objectifs Innovation Prochaines étapes
Répondre aux impératifs d’accès à l’information dans un eCO2data est à ce jour la plus grande base de données sur Nous travaillons actuellement sur 2 axes :
marché réglementé en croissance et décentralisé. Permettre le marché du carbone. Elle innove dans la mesure ou les • Extension de la plateforme au domaine de la foret. La
aux acteurs du marché de la finance environnementale données sont récupérées systématiquement et ce en temps foret est le poumon de notre planète car elle stocke
d’avoir accès à un niveau de transparence et de traçabilité du réel là ou nos concurrent reposent essentiellement sur un naturellement le CO2. Des projets d’investissements de
niveau d’un marché mature alors que le marché est encore traitement manuel des données. Cet aspect de la plateforme taille massive sont pour l’instant bloqués car il n’existe
très jeune. nous permet de proposer des services inédits comme celui pas à ce jour d’outil de suivi d’un investissement forestier
des « eCO2data alerts » qui permettent à nos clients de à grande échelle sous l’égide des normes internationales
Présentation recevoir des alertes emails dés qu’un de leur portefeuille de l’ONU. Nous sommes associés à une entreprise
Le but du projet est de construire un tableau de bord temps environnemental connait un changement. franco-allemande du secteur de la défense et qui
réel qui centralise toutes les informations relatives aux projets posséde un réseau satellitaire de premier plan pour
de réduction de gaz à effet de serres qui génèrent des crédits Résultats connecter les données satelitaires à notre outil et
carbones. Ces projets sont jusqu’ici la meilleure arme mis en L’une des principales valorisation de la donnée est le fait de proposer « eCO2data Forest » afin de combattre la
place au niveau international contre la menace du travailler sur les données non structurées pour recontruire à problématique de la deforrestation et plus généralement
réchauffement climatique et constituent à ce titre un enjeu la volée le portefeuille de n’importe quel acteur du marché. de la conservation de la foret.
décisif. Ces projets sont répartis à travers le monde et Ainsi « BNP », « BNP Aribitrage », « Banque Nationale de • Nouvelle plateforme sur le marché du Gas Naturel
obtiennent chaque jour 1 crédit pour chaque tonne de CO2 Paris » ou encore « BNP, SA » sont automatiquement Liquéfié (LNG). Nous appliquons actuellement notre
économisée. Un projet prend de 18 à 36 mois à se aggrégé en un seul participant et permet à nos clients technologie propriétaire au marché du LNG qui connait
concrétiser. Il est soutenu par un conglomérat très vaste d’accéder à un niveau de transparence inégalé jusqu’ici. une croissance rapide et pour lequel il existe les mêmes
d’acteurs privés et publics et est évalué par des organismes problématiques de suivi de l’activité du marché et de
externes tout au long de sa vie qui peut durer plus de 20 ans. monitoring des acteurs que sur nos précédentes
réalisations. En détournant l’usage initial des balises de
positionnement AIS contenues dans chaque navire on
créé une carte interactive et temps réel de
l’acheminement des volumes de LNG actuellement en
transit à travers le monde.
Porteur du projet
François Cazor – Président – Kpler SAS
19. Artémis : « De la logique du service public…à
la logique de rendre le service au public »
Objectifs Innovation Résultats
« campagnes multicanaux sur mesure : rendre le service au La solution proposée couvre l’ensemble du protocole Pour l’année 2013 les perspectives sur la big data sont
public » décisionnel de traitement de la donnée avec trois briques nombreuses :
Pour cela, générer des campagnes multicanaux qui ont pour fonctionnelles : • Industrialisation de l’application destinée à l’aide à la
objectifs : • Brique 1 : Collecter : cette brique est au cœur de la décision,
• De cibler : le ciblage est le facteur clés de succès d’une donnée, l’objectif est simple, une donnée active, propre et • Intégration des données clients complémentaires,
campagne de communication réussie : quel client ? Sur juste. Pour cela : auditer, redresser, enrichir et fiabiliser. • Intégration d’une couche de données relatives aux
quel sujet ? Avec quel discours ? Avec quel canal de • Brique 2 : Comprendre pour mieux cibler : avec un outil potentiels de marchés : par communes et par Iris.
contact (Téléphone, SMS, Email) ? d’aide à la décision sur l’analyse de la performance • Enrichissement des tableaux de bord : part de marché
• De fidéliser : En identifiant les bons clients et en les commerciale construit sur le principe du géo- modale, taux de pénétration mobilité, identification des
remerciant (Opération de parrainage). En identifiant les référencement de l’individu : 1 point = 1 client. zones potentielles de développement.
clients en phase d’abandon (Relance commerciale et • Brique 3 : Agir : par des campagnes multicanaux ciblées
analyse des causes). pour fidéliser les clients. Prospecter : « Changer vos
• De prospecter : Avec une meilleure connaissance de habitudes de mobilité au moins une fois dans l’année »,
client, il est plus facile de créer le profil type et de avec une meilleure connaissance client, la recherche des
rechercher les jumeaux (Bases de données scorées : Par « jumeaux » par le scoring des données est plus efficace.
zone géographique, données sociologiques et données
comportementales).
• D’informer en mode sur mesure : En fonction de la nature
des perturbations (Exemple : Travaux), des zones
géographiques impactées et des statuts des clients
(Exemple : Personnes à mobilité réduite).
• De créer du ROI sur les campagnes : L’Emailing permet
le déploiement d’une stratégie de « tracking » avec : taux
d’ouverture, liste des ouvreurs et taux de rebond.
Porteur du projet
Daniel Aubaret – Directeur Marketing – EFFIA
SYNERGIES
20. BRAND IMAGE & BIG DATA : COMMENT VALORISER
LA DONNEE ISSUE DES RESEAUX SOCIAUX POUR
NOURRIR LA STRATEGIE DE MARQUE
Objectifs Innovation Prochaines étapes
Comprendre et valoriser la donnée issue des plateformes des Approche en rupture avec les approches classiques de Déploiement d’une offre complète à destination des
réseaux sociaux pour : valorisation de la donnée (type CRM), pour lesquelles les annonceurs.
1- Monitorer et mesurer en temps réel le ROI/ROE de ses coûts d’entrée sont forts (notamment en outil & système) Partenariat avec agences de communication sur la
actions de communication pour valorisation à terme souvent limitée et en silo de la couverture évènementielle.
2- Comprendre les mécanismes de viralité et identifier les donnée (CRM & stratégie relationnelle / marketing / Couverture d’évènement mondiaux dans une logique de PR
leaders d’opinion communication). (worldcup 2014 / fashion weeks / olympic games).
3- Saisir les tendances, et identifier des territoires de marque Ici l’approche est « smart », donc cost-effective, et permet de
4- Détecter les ambassadeurs des marques de demain façon simple et immédiate de tracker, mesurer, piloter des
5- Comprendre les proximités de produits et de marques données individuelles publiques pour des usages marketing
dans une perspective de cross-sell / faciliter les logiques de multiples et immédiats (cf. objectifs du projet).
partenariat entre marques (via du maching learning). Alors que le tracking de données issues des réseaux sociaux
6- Enrichissement des bases de données clients des s’est beaucoup développé ces dernières années, notre
annonceurs à partir de données publiques issues des valeur-ajoutée réside non pas dans la barrière technologique
réseaux sociaux nécessaire à leur récupération, mais surtout dans leur
valorisation orientée « usages ».
Présentation
• La démarche consiste en la récupération en temps réel Résultats
de l’ensemble des données issues des plateformes de Au-delà de simples tableaux de reporting, nous valorisons la
réseaux sociaux (Twitter / Facebook / Instagram / donnée par le déploiement de modèles statistiques ad-hoc et
Pinterest, Youtube, Tumblr) relié à un évènement ou à complexes (ce qui constitue véritablement le coeur de métier
sujet d’intérêt. Puis à analyser cette donnée pour la de notre entreprise).
valoriser, et multiplier ses usages, pour nourrir la stratégie Notamment, utilisation de techniques telles que:
marketing, et plus spécifiquement la stratégie de marque. • Réseaux de neurones & modèles bayésiens : outil de
• La volumétrie reste assez limitée, mais nécessite recommandation.
néanmoins l’usage de technologies big data notamment • Analyse de données: segmentation / scoring orientée
en ce qui concerne la collecte et le traitement de flux de connaissance client
données en temps réel (Node.j, Base de données • Séries temporelles : impact & ROI des actions de
NoSQL, Map Reduce). communication
• Les ressources mises à disposition : 2 hommes à temps • Analyses sémantiques
plein pendant 4 mois
• Le déploiement s’est fait sur 1 an et demi, dans une
démarche test & learn après une première
implémentation réussie lors des jeux olympiques de
Londres, puis lors de la couverture systématique
d’évènement mondiaux, en déployant à chaque fois de
nouveaux usages et de nouvelles démarches
analytiques. Porteur du projet
Quentin Michard – Directeur Général – Ekimetrics SAS
21. Roland-Garros SlamTracker
Objectifs Innovation Prochaines étapes
Le Roland-Garros SlamTracker développé par IBM permet de L’aspect innovant de ce projet consiste à mettre à la La démarche Big data continue à la FFT. Au delà de l’analyse
fournir aux fans de tennis une information complète et disposition des joueurs mais également des spectateurs une prédictive utilisée dans le SlamTracker dans le contexte des
précise sur le déroulement des matchs à Roland-Garros, solution habituellement développée pour aider les entreprises matchs, des analyses des médias sociaux sont conduites
avec notamment l’utilisation de l’analyse prédictive pour à mieux prévoir leurs ventes, les niveaux de stocks durant la durée du turnoi pour étudier les flux d’intérêt qui font
déterminer les clés du match : 3 critères définis en début de nécessaires, l’efficacité des campagnes de promotion. lumière au cours du tournoi, tant au niveau des joueurs,
match, sur la base des données complètes des tournois du qu’au niveau de l’environnement et de l’organisation du
Grand Chelem. Résultats tournoi.
Avec le Slamtracker, « les données prennent vie »
Présentation • les clés du match permettent d’utiliser de façon Informations Supplémentaires
Avec plus de 41 millions de points collectés lors des 8 intelligente tous les scores passés et de leur donner un L’analyse prédictive appliquée à Roland-Garros a permis
dernières années de Grand Chelem, la Fédération Française sens pour mieux anticiper le match qui va se jouer et d’utiliser de nombreuses informations des matchs passés
de Tennis et IBM disposent d’un historique colossal sur les comprendre les points forts de chaque adversaire pour déterminer des styles de joueurs et mieux analyser les
scores détaillés des matchs. Et les joueurs de tennis se • la courbe de dynamique donnent une vision temps réel comportements. Les critères sont classés par type :
rencontrent fréquemment lors des tournois, ils ont déjà joué de l’ascendant des joueurs, avec visualisation graphique - offensifs
les uns contre les autres. L’analyse poussée de leurs scores de chaque type de point en fonction du temps - défensifs
a permis de montrer que chacun a un comportement assez • les statistiques mises à jour en temps réel permettent de - endurance
prévisible et un style de jeu, en fonction de son adversaire. mieux comprendre les éléments clés du match en - style
Ces scores, couplés avec la solution d’analyse prédictive comparant les adversaires. L’outil est sans cesse affiné pour devenir plus pertinent. On
IBM Smarter Analytics (SPSS Modeler) permettent de définir voit que si un joueur atteint ses 3 clés et l’autre aucune clé,
les critères clés que chaque joueur doit atteindre pour dans 98% des cas, le gagnant est celui qui a atteint ses 3
maximiser ses chances de gagner. Le système va choisir les clés. Des statistiques assez poussées existent maintenant
3 critères les plus pertinents par joueur parmi une sur la fiabilité du modèle.
cinquantaine de possibilités. Chaque joueur n’aura pas La finale Nadal-Djokovic de Roland-Garros 2012 est assez
forcément les mêmes critères que son adversaire. parlante car Nadal a gagné, en atteignant ses clés à moins
de 1% près ! Djokovic n’a atteint qu’une seule clé mais n’était
Le projet a été testé lors de l’édition 2011 de Roland-Garros pas si loin des 2 autres.
puis lancé à Wimbledon, utilisé à l’US Open et pendant
l’Australian Open. Lors de l’annonce officielle pour l’édition
2012 de Roland-Garros, la FFT a donc bénéficié d’une
solution déjà bien testée et éprouvée sur les autres tournois.
Les clés du Match sont mis à disposition des joueurs et de
leurs équipes mais également depuis 2012 sur le site web
public de Roland Garros afin de permettre à chaque Porteur du projet
spectateur d’enrichir son expérience du match en bénéficiant Alex Loth – DSI Roland-Garros – Fédération Française de
des informations supplémentaires mises à sa disposition, et Tennis
en permettant de suivre leur évolution au cours du match, par
une mise à jour en temps réel des indicateurs. Partenaires
IBM France Claire Herrenschmidt
22. Search Analytics
Objectifs du projet : Innovation Prochaines étapes
Améliorer la pertinence du moteur de recherche de L’exploitation des données de webanalyse permet à Le modèle de prédiction et la méthodologie élaborés pour
PagesJaunes. PagesJaunes d’améliorer en continu, de façon automatique cette mission sont en cours d’internalisation et d’intégration
et collaborative (donc à moindre coût) la pertinence de son dans les process métiers.
Présentation du projet : moteur. Les applications potentiellement dérivées de cette mission
La catégorisation des requêtes est cruciale pour la pertinence sont multiples. L’architecture mise en place permet par
des résultats affichés par PagesJaunes. Si un visiteur tape « exemple d’envisager une personnalisation des résultats, une
acacias, Toulouse », on peut penser qu’il veut acheter des Résultats évolution du système de monétisation de PagesJaunes
acacias. Cela signifie qu’on catégorise « acacias » en objet La précision du ciblage des requêtes mal catégorisées a (fondée sur le taux de clic, etc) ou encore la prise en compte
(« Quoi ? »). Et si l’utilisateur cherchait en fait l’adresse d’un augmenté d’un facteur 10. de nouveaux critères pour le classement des blocs-réponses.
restaurant appelé « Les Acacias » à Toulouse ? Il faut
comprendre « Les Acacias » comme le nom d’une entreprise
(« Qui ? »). Dans un cas, la réponse attendue est une liste de Informations supplémentaires
pépinières, dans l’autre, l’adresse d’un restaurant bien Cette mission constitue un excellent exemple de ce que
identifié. l’Analytics peut apporter aux organisations, à condition d’y
La correction des requêtes mal catégorisées est un enjeu construire la bonne architecture de données, ce qui permet
majeur pour l’annuaire, et pour les professionnels répertoriés, de développer ensuite des applications adaptées pour
puisque 74 % des recherches effectuées sur PagesJaunes.fr améliorer la performance.
aboutissent à un contact professionnel physique.
La mission de fifty-five était d’exploiter les données de
webanalyse de PagesJaunes pour établir un modèle de
prédiction permettant d’automatiser la détection de requêtes
mal catégorisées.
S’appuyant sur l’analyse de 3 terabytes de logs de
webanalyse et des dernières technologies de big data et de
machine learning, l’équipe de fifty-five, composée
d’ingénieurs, de data scientists et de spécialistes de
datavisualisation, a amélioré d’un facteur 10 le ciblage des
catégories mal catégorisées.
La mission s’est déroulée en 3 étapes : collecte, traitement,
puis visualisation de la donnée.
Après la mise en place d’un Data Management Platform
(DMP) pour structurer la donnée, fifty-five a élaboré un
modèle de machine learning calculant un score de prédiction.
L’équipe a ensuite créé une interface interactive dédiée pour
rendre lisible l’intelligence extraite de l’analyse des données.
Porteur du projet
Lan Anh VU HONG – Responsable Marketing - 55 SAS
23. Focusmatic : Accurate Digital Reach
Objectifs Innovation Prochaines étapes
Focusmatic propose plusieurs applications du Big Data au Notre projet est novateur car il aide des opérationnels en L’entreprise toute entière est tournée vers le BigData. A date
marketing digital pour le rendre « opérationnel », c’est-à-dire extrayant de la valeur métier des données sociales. Cela est nous avons des fonctionnalités analytiques sur notre outil,
utilisable par le métier. Un de nos exemples est la mesure de possible car il y a trois innovations technologiques : capable de gérer la big data. Nous travaillons à continuer à
l’impact d’investissements médias de type co-branding ou la 1. business intelligence sur des Big Data améliorer les capacités d’analyses sémantiques, notamment
priorisation d’une liste longue de partenaires potentiels. 2. calculs orientés métier : calcul d’audience par exemple en travaillant sur la clusterisation et le maintient temps réel
(nombre de personnes ayant vus) au lieu d’un reporting des clusters de messages. Cela permet de répondre à la
Présentation du nombre de messages. Tous n’ayant pas le même question : « De quels sujets parle-t-on ? ».
Notre projet consiste à collecter les données pertinentes sur impact…
le web et les réseaux sociaux pour nos clients. Nous 3. le tout en temps réel pour apporter des réponses au
organisons cela par « univers logique d’écoute » comme par moment où les questions sont posées
exemple une marque et ses concurrents ou encore des
usages. Résultats
Nous collectons chiffres, textes, images et vidéos sur les Nous aidons nos clients à isoler les données qui sont utiles à
principales plateformes de réseaux sociaux, les blogs, etc. leur question business et de les traiter instantanément. Les
Selon les projets nous récoltons typiquement de 50,000 à données servent à prendre des décisions, typiquement
1,000,000 de messages par jour et conservons toute d’investissement de co-marketing ou de focalisation des
l’historique pour le client. Cela monte rapidement à des efforts commerciaux.
volumes très élevés. On est typiquement en big data car les
volumes à traiter comprennent aussi l’historique, les flux sont
très variables et les données hétérogènes. Dans le cas
d’une de nos plateforme, celle qui absorbe parfois jusqu’à
1,000,000 de messages par jour, il y a un pic à 20h le soir
couvrant en général la moitié du volume de la journée.
Ce genre de projet passe par une phase de compréhension
de besoin du client et un travail pour paramétrer notre
plateforme générique au client. Ce travail qui est plus
business que technique prend une à deux semaines.
Le projet commence ensuite mais la performance du système
est améliorée en continue car l’analyse sémantique s’appuie
notamment sur des algorithmes de machine learning qui
prennent compte des résultats passés validés ou infirmés
pour mieux prédire le futur. Cela s’applique notamment à ce
qui est analyse sémantique (sentiment, émotions, etc.)
Porteur du projet
Malekzadeh Amirhossein – Président – Focusmatic
24. Gamned – Le Big Data au service de
l’Advertising Intelligence
Objectifs Innovation Informations supplémentaires
Ajouter de la Data Intelligence pour le RTB (Real Time Gamned innove dans le domaine du RTB par l’utilisation du Dans le cadre du rachat de Gamned par LeadMedia,
Bidding) pour mieux cibler et acheter des espaces Big Data dont les technologies ont été éprouvées et validées l’infrastructure Big Data de Gamned va être généralisée pour
publicitaires en temps réel et mieux personnaliser l’affichage dans d’autres domaines tels que les secteurs tous les domaines nécessitant stockage et/ou calcul en
publicitaire pour les Internautes pharmaceutiques, industriels et aéronautiques. masse. Les compétences métier de fouille de données déjà
présente chez Gamned et LeadMedia vont aussi être
Ajouter de la valeur sur le reporting, pour le Media Traders en Ces technologies font maintenant partie du cœur fusionnées pour répondre plus largement aux besoins des
interne, et pour nos clients qui doivent avoir accès à des technologique de Gamned. clients.
informations disponibles en temps réel pour optimiser les
campagnes publicitaires, avec une bonne profondeur et un Résultats
bon historique. En résumé :
• nous stockons plusieurs milliards d’impressions nouvelles
Présentation par mois,
Pour stocker, gérer et analyser une très grosse quantité de • nous en extrayons, en temps-réel ou en différé, des
données, nous avons mis en place une infrastructure Big partitionnements et des indicateurs pour :
Data basée sur Hadoop, Hive, HBase. Cette infrastructure • personnaliser l’affichage par Internaute,
est flexible pour le stockage, extensible et nous donne une • créer un reporting solide pour nos clients,
très grande puissance de calculs distribués. • Nous utilisons notre infrastructure Big Data pour optimiser
en temps réel les achats d’espaces publicitaires.
Nous intégrons aussi d’autres technologies directement
branchées sur notre Big Data comme Néo4J pour optimiser
nos algorithmes de parcours de graphs ou MemCached pour
servir efficacement certaines données à nos applications
Porteur du projet
Denis GARCIA - Gamned - Directeur R&D
25. DEUS
Objectif du projet Innovation Etapes à venir et démarche Big Data dans l’entreprise
Réaliser sur un des plus grands supercalculateurs au monde, Le projet DEUS a pour la première fois disposé de Les mécanismes de délégation des entrées/sorties réalisés
le premier calcul de la formation des structures cosmiques l’infrastructure, capable de charger en mémoire TOUT par le projet DEUS seront ré-utilisées pour des applications
dans TOUT l’Univers observable du Big-bang à aujourd’hui l’Univers observable et permettre des simulations dans des comme l’évolution du climat, la fusion par confinement
pour trois modèles d’énergie noire, mystérieuse composante temps de calcul satisfaisants et, surtout, capable de stocker magnétique (ITER) ou la combustion. Une autre option
représentant plus de 70% du contenu énergétique de et de post traiter à la volée à un débit soutenu de 50Go/s plus consistera à évaluer des approches type Map/Reduce sur
l’Univers et moteur de son expansion accélérée. de 150 péta octets de données réduits à un volume final utile des données scientifiques complexes, en utilisant des
et acceptable de 1.5 péta octets. Tous les aspects du calcul systèmes de fichiers parallèle Lustre ou GPFS avec des
Présentation haute performance ont été sollicités durant ce défi numérique réseaux Infiniband.
Chacune des simulations a permis de suivre l'évolution et les performances atteintes par notre application sont une
gravitationnelle de 550 milliards de particules sur plus de première pour un code en production en astrophysique et
2500 milliards de points de calcul avec une résolution plus généralement pour le calcul haute performance.
spatiale de la taille de la Voie Lactée à celle de l'Univers
observable. Les 150 Poctets de données générées durant les Résultats
calculs ont été finalement réduites à 1.5 Poctets grâce à une Les données résultant du projet DEUS sont à la disposition
procédure innovante et performante de traitement de de la communauté scientifique internationale. Elles
données indispensables pour un tel projet. constituent un support exceptionnel aux grands projets
Pour la première fois nous disposons de la distribution de observationnels des agences spatiales ESA et NASA comme
matière dans TOUT l’Univers observable semblable à celle le satellite européen Planck dont les résultats seront
qui pourrait être observée par les télescopes et nous y prochainement publiques et le futur télescope spatial Euclid
reconnaissons les structures cosmiques en formation tout au lancé en 2019.
long de l’histoire de notre Univers.
Porteur du projet
Observatoire de Paris – Jean-Michel Alimi
GENCI – Stéphane Requena
26. GET PLUS
Présentation
GETPLUS www.getplus.fr , projet CLOUD basée sur
l’agrégation annuelle de plus de 100 MILLIONS de données
MARKETING comportementales en provenance de plus de
1000 DATAMARTS de WEB TRACKING.
GETPLUS révèle l’identité des entreprises qui visitent un site
Internet, même celles qui n’ont pas remplies de formulaire de
contact, ce qui permet de réengager le bon prospect, avec le
bon besoin au bon moment.
Porteur du projet
Porteur du projet
Hervé Gonay – Fondateur – GET PLUS
Partenaires
RUNMYPROCESS : Alexandre LACHMANN