SlideShare une entreprise Scribd logo
1  sur  50
Télécharger pour lire hors ligne
Gaia Satellite Data Processing Challenges
Objectifs                                                             Innovation                                                       Prochaines étapes
Gaia is a cornerstone mission of the European Space Agency            The data processing is very intense in terms of IO and many      The data sent by the external Data Processing centres will be
to be launched towards                                                tests with different alternatives and increasing amounts of      gathered and integrated in a central repository, analysing and
the end of 2013. It will scan the sky for 5 years measuring           data have been performed. We will outline some of the            verifying its integrity in order to find possible flaws in the
with unprecedented accuracy the positions and motions of              problems found along the way. Since 2008 we have had a           processing will be far from trivial and need significant IO
more than 1000 million stars from the Galaxy. This data will          fruitful collaboration with Intersystems Cache which has been    demands due to the large number of records.
allow us to create a 3D model of the Milky Way. Gaia which            non-traditional in many aspects as we have had costumer-
will revolutionize may fields of Astronomy.                           provider contacts at multiple levels (management, experts,       Sometime in 2020 the final catalogue should be made
                                                                      developers), this has proven very beneficial for both parties    available to the scientific community, the archive and data
Présentation                                                          and has lead to fast turn-around time in getting new versions,   access mechanism is starting to shape now and will also be
The satellite will send to ground every day its observations          problems fixed, new features. It has also allowed us to          highly demanding in terms of data access. Often
amounting to 50 GB, this data will be processed continuously          optimize the system for our needs and obtain adequate            disentangling instrument or processing artifacts from real
in order to asses the satellite performance. The daily                performance without going for expensive top hardware             issues will require the execution of user provided algorithms
processing is critical in terms of robustness and reliability as it   solutions.                                                       which can discover hidden correlations within the data.
is needed in order to adjust the instrument settings on board
Gaia to meet the scientific requirements.                             Résultats                                                        Information additionnelles
                                                                      We have now in place the core systems which will be needed       The trend in astronomy and other scientific fields in the last
At the end of the mission we will have of the order 100 TB of         to start receiving and processing the data sent by Gaia by the   decades has been to build more sensitive and powerful
raw compressed data.                                                  end of the year, so far one of the main worries in the project   instruments, larger antenas and better satellites/
                                                                      which was the performance and scalability of the data access     observatories, this has led to a huge increase in the amount
The long term processing of this data involves 6 European             rate needed for the processing has been solved.                  of data to be processed. Simultaneously this has been
Data Processing Centres and will be done multiple times with                                                                           compensated by the developments in in the IT Industry at the
increasing amounts of data. The estimated size of the data                                                                             software and hardware levels. The processing of Gaia's data
processed after the 5 year mission will be in the order of 1                                                                           presents unmatched challenges in this respect and will open
Pbyte and the final catalogue should be published by 2021.                                                                             the road too future missions.

In order to achieve the necessary precision every factor
affecting the observations needs to be modelled, this means
adapting the model as we process the data in an iterative
manner. The core processing implemented in Java will use
over 200 million stars and              their 160,000 million
measurements. A direct solution is not computationally
affordable due to the huge number of unknowns, instead an
iterative process adjusting the stars positions, motions,                                                                              Porteur du projet
satellite orientation, and calibrations has been designed and                                                                          Jose Luis Hernández Muñoz, Gaia Operational Data and
implemented.                                                                                                                           Calibration Engineer - European Space Agency
                                                                                                                                       Partenaires
                                                                                                                                       Intersystems, Jose Ruperez, Jose Costa, Robert Bira
Alephd, we help publishers
Objectifs                                                           Innovation                                                        Prochaines étapes
AlephdD permet aux éditeurs de médias web et aux                    AlephD est la première solution d’optimisation des revenus        AlephD cherche aujourd’hui des investisseurs pour accélérer
gestionnaires d'inventaires d'espaces publicitaires de tirer        des éditeurs de site pour le RTB, en tempsréel                    son développement et attaquer le marché international :
profit des technologies d'enchères en temps réel (RTB).             et indépendante d’une plateforme.                                 européen dans un premier temps, puis américain. Les
Grâce à une technologie big data temps réel, AlephD rend            En effet, il existe aujourd’hui deux types de solutions :         principaux investissements prévus concernent le recrutement
possible une optimisation utilisateur par utilisateur de la vente   - des solutions « statiques », qui optimisent les paramètres      d’ingénieurs, de statisticiens et de business developers. Par
d'espaces sur les plateformes d'enchères (AppNexus,                 une fois par jour par ex. Ces solutions ne prennent pas en        ailleurs, AlephD continue son travail avec ses clients
Rubicon, Google...).                                                compte les particularités de chaque utilisateur, et manquent      existants, développant de nouveaux algorithmes, avec
                                                                    donc une bonne partie des opportunités d’optimisation             comme objectif de convaincre d’importants nouveaux clients
Présentation                                                        - des solutions « in-house » de plateformes, qui sont des         d’ici au deuxième semestre.
L'arrivée du RTB donne aux acheteurs et aux vendeurs                boîtes noires. Ces options ont mauvaise réputation chez les
d'espaces publicitaires la possibilité de personnaliser leurs       annonceurs, qui détectent et fuient les éditeurs y recourant
ordres en temps réel, utilisateur par utilisateur. Cela             car peu transparentes et remettant en cause l’équité des
nécessite le déploiement d'une infrastructure serveur               enchères.
complexe (big data, temps réel) et la mise en place
d'algorithmes de décision.                                          Résultats
Les données traitées sont des logs d’enchères de publicités         Les données recueillies permettent de comprendre comment
en ligne. Concrètement, AlephD obtient, pour chaque                 s’effectuent les enchères, au degré de granularité le plus fin.
affichage de publicité sur le site d’un de ses clients, les         Elles permettent ainsi de découvrir et donc de modéliser les
informations sur le prix et les paramètres de l’enchère             comportements des acheteurs de publicité.
correspondante. Ces informations sont recueillies en temps          Sur les données disponibles, la technologie d’AlephD permet
réel par nos serveurs, qui les mettent ensuite sur un cluster       d’obtenir une amélioration des revenus de l’ordre de 30%.
Hadoop.
Aujourd’hui, AlephD ne traite que les données issues de la
plateforme d’enchère AppNexus, qui est la solution la plus
transparente et qui connait le plus de croissance
actuellement.
AlephD a développé une technologie propriétaire unique pour
traiter ces données et optimiser les paramètres d’enchère en
temps réel. Cette technologie repose sur deux piliers :
- une infrastructure big data, utilisant les technologies
Hadoop et Hive. AlephD développe des algorithmes en Map/
Reduce pour exploiter au mieux ces Tera-octets de données ;
                                                                                                                                      Porteur du projet
- une infrastructure temps réel de prise de décision, c’est-à-
                                                                                                                                      Vincent Lepage - Directeur Général – AlephD SAS
dire capable de répondre en moins de 10ms à une requête
                                                                                                                                      Nicolas Grislain – Président – AlephD SAS
de paramètres d’enchère, avec plusieurs milliers de requêtes                                                                          Partenaires
par secondes.
                                                                                                                                      Pubsquared
                                                                                                                                      Audience Square
Artimon, service de collecte et d'analyse de
                           métriques à large échelle.
Objectifs                                                         Innovation                                                        Prochaines étapes
Offrir un service de centralisation de métriques à caractère      L'utilisation d'un format universel de métriques permet de ne     Les étapes à venir pour ce projet sont l'instrumentation de
technique et fonctionnel permettant un suivi temps-réel et        pas avoir autant d'outils de monitoring (technique ou             nouvelles applications et l'exploitation des métriques
historique du fonctionnement de l'entreprise.                     business) que de périmètres, il en découle des possibilités       produites. La disponibilité de métriques vise à centrer les
                                                                  d'analyses croisées riches d'enseignements (quel est l'impact     processus de décisions de l'entreprise autour de données
Présentation                                                      d'une augmentation de température sur le comportement des         objectives.
Le projet Artimon définit un format universel de métriques, les   bases de données et in fine sur les temps de traitements des
différents périmètres fonctionnels et techniques de               requêtes issues des sites Web).                                   Information additionnelles
l'entreprise produisent des indicateurs (de type compteurs ou                                                                       Ce projet s'inscrit dans une démarche Big Data plus large
jauges) sous ce format. Ces indicateurs sont collectés toutes     La facilité d'instrumentation des applicatifs permet de           initiées dès 2009 au sein du groupe Crédit Mutuel Arkéa.
les minutes sur l'ensemble des machines du groupe Crédit          rapidement disposer de métriques éclairant les métiers sur
Mutuel Arkéa et remontés sur la plate-forme Big Data basée        l'activité de leur périmètre. Les spécialistes des différents     Ce projet a été réalisé par des équipes internes du Crédit
sur Hadoop.                                                       domaines ont le sentiment de ne plus être aveugles et             Mutuel Arkéa.
                                                                  cantonnés à des chiffres à J+1.
Ce projet a été initié dans les équipes techniques du groupe
Crédit Mutuel Arkéa qui ont mis au point l'infrastructure de      Résultats
collecte et de stockage. Les premières métriques collectées       L'analyse de la distribution statistique des indicateurs permet
furent techniques (températures de machines, espaces              de faire de la détection d'anomalie, par exemple lorsqu'une
disques disponibles, charge machine, ...) et ont été utilisées    machine est sur le point de tomber en panne suite à un
pour la mise au point de fonctions d'analyse de ce type de        défaut de refroidissement, ou que le volume d'opérations d'un
données. Ces fonctions d'analyse sont capables de                 certain type est atypique par rapport au volume
déclencher des alertes, permettant une réaction rapide à des      habituellement observé le même jour sur la même plage
situations anormales.                                             horaire.

Une fois la chaîne complète mise au point sur le périmètre        En cas d'incident, la priorité est donnée au rétablissement du
des données initiales, les équipes en charge des périmètres       service, la disponibilité des métriques sur la période
fonctionnels (spécialistes métier et développeurs) ont été        précédant la survenue de l'incident permet lorsque la
accompagnées dans l'instrumentation de leurs applications et      situation est rétablie de procéder à une analyse post-mortem
la mise au point de fonctions d'analyse propres à leurs           de l'indicent et à la mise en place de mécanismes d'alertes
métiers.                                                          adaptés.

Les travaux sur ce projet ont débuté en 2009, le périmètre de     L'existence de métriques dont la signification est maîtrisée
collecte s'est agrandi graduellement pour couvrir depuis fin      permet de mettre en place des contrats de services (SLA)
2012 l'ensemble des serveurs du groupe Crédit Mutuel              basés sur des éléments objectifs. L'historisation de ces
Arkéa.                                                            métriques permet de tester différents modes de calculs des
                                                                  indicateurs de SLA afin de déterminer par exemple si un
                                                                  abaissement de seuil est ou non compatible avec la réalité de     Porteur du projet
                                                                  la production.                                                    Matthias Herberts - Engineer – Credit Mutuel Arkea
BELOGIK: rendre les logs intelligentes

Objectifs                                                          Innovation
Le projet vise à améliorer la connaissance de Outscale sur le      L’innovation pour Outscale est de produire une connaissance
comportement de ses clients dans l’utilisation de ses services     intime du comportement de son infrastructure. La mise à
d’IaaS. L’infrastructure de production de Outscale est             disposition d’une énergie informatique élastique et sans
décentralisée sur plusieurs sites physiques dans le monde et       «limite » génère des usages et des comportements de la part
fonctionne sur plusieurs fuseaux horaires.                         des clients en complète rupture avec l’hébergement
                                                                   traditionnel à capacité finie. L’innovation réside à donner
                                                                   corps au concept de Customer Insight dans un contexte
Présentation                                                       technologique, c’est une rupture majeure avec les pratiques
L’infrastructure de Outscale produit des millions de lignes de     marketing en vigueur dans cette industrie. Les bénéfices pour
données machines par jour sur le fonctionnement de                 Outscale sont immenses avec un capacité de provisionner
l’infrastructure : ouverture d’instance, fermeture d’instance,     plus finement ses ressources physiques et surtout d’adapter
consommation des ressources, augmentation des                      à terme son offre de services à ces nouveaux
ressources, trace d’erreurs, communication réseau, ….              comportements. Un effet de bord induit est d’accélérer le
Croissant de 50% par an, le nombre d’opérations d’une              traitement de l’analyse des données machines en situation
infrastructure cloud dépasse les 500 opérations à la seconde       d’anomalie. C’est un projet stratégique pour le
et les traces laissées par l’infrastructure sont de plus en plus   développement de l’entreprise.
nombreuses.
Les solutions actuelles de traitement de données ne                Résultats
permettent ni d’agréger les données au regard de la diversité      L’objet du projet consiste à collecter toutes les données,
des formats produits par les équipements techniques, ni de         permettant éventuellement une fouille en temps réel et
traiter les volumes engendrés.                                     surtout de construire les indicateurs métiers permettant au
Le projet est basé sur la solution BELOGIK d’analyse de log        Product Manager de Outscale de proposer des nouvelles
as a service.                                                      offres de service.

L’objet du projet consiste à :
•  collecter à l’échelle du big data les données machines,
•  permettre la fouille en temps réel dans les données
    machines,
•  générer l’intégralité des indicateurs métiers.                                                                                  Porteur du projet
                                                                                                                                   Christophe Ballihaut - Président – Belogik
Le projet est en phase de prototypage des indicateurs
métiers avant de passer à la phase de montée en charge de                                                                          Partenaires
la solution et de qualification des performances.                                                                                  Le partenaire du projet est Outscale, Le Cloud Français,
                                                                                                                                   opérateur de services cloud computing. Le fournisseur
                                                                                                                                   d'un des plus grands éditeurs de logiciels mondiaux
                                                                                                                                   s'appuie sur les services d’Outscale pour opérer
                                                                                                                                   l’ensemble de ses activités SaaS.
                                                                                                                                   Laurent Seror – Président
“Moving Data & BIME: Harnessing the power
                           of Google BigQuery”
Objectifs                                                        Innovation                                                       Prochaines étapes
Moving Data improves mobile performance by ensuring the          Scaling a database is hard and scaling analytical databases      Roll-out of the product to a larger number of customers
quality and serviceability of telephone and broadband            is even harder. BIME powered by Google BigQuery offers an        dealing with ever increasing volumes of data.
networks in the Australian Outback. The company has              analytical database as a service that scales to petabytes of
developed advanced methods to collect and disseminate            data. It means that Moving Data doesn’t require sophisticated
alerts and statistics from mobile devices and supporting         infrastructure and an operational team to analyze data. BIME
mobile networks. When dealing with millions of network-          + Google BigQuery provide Moving Data with a reliable, quick
generated events, trend analysis rather than specific alerts     and infinitely scalable pay-as-you-go service to tap data
becomes critical to make the right decisions fast.               generated by the Internet of Things.

Moving Data had two needs that only BIME could satisfy. It       With Moving Data based in Australia and BIME in France, this
needed tools to enable interactive, visual analysis of           Big Data project has been undertaken across disparate time-
emerging network issues. They also wanted to communicate         zones. However, with everything in the cloud, execution has
insights to their current clients via collaborative and online   been fast at all stages: testing, implementation and client
dashboards, as well as promote insights to other                 validation, even in a Big Data context. The scalability of the
telecommunications clients with similar data, which is           BIME-BigQuery combo can facilitate the regular
standardized across the industry, for a fee. They needed Big     incrementation in the volume of data.
Data analytics in real-time.
                                                                 Résultats
Présentation                                                     Moving Data’s prime benefit consists of harnessing events
type of data processed, approximate volume:                      and audit data and communicating insights to clients (major
For the initial project, the type and volume of data processed   Australian telco companies) as quickly and as concisely as
by BIME and Big Query was 500 million radius records,            possible. Dashboards with KPIs reduce the customer
10,000 network probes, 120.6 million sessions, 960 device        decision-cycle for further analytical actions.
models.
With each future project the amount of data processed is
projected to increase exponentially.

Resources used: human skills, technical tools:
BIME cloud BI runs in any browser, queries datasets stored in
BigQuery at the speed of thought and, thanks to its’ powerful
calculation engine, displays results in interactive analysis
dashboards, in seconds.

BIME’s BigData project manager worked in parallel with the
client on the dashboard setup and design. At Moving Data,
CEO and founder Craig Morton worked on the project along
with an in-house IT engineer.                                                                                                     Porteur du projet
                                                                                                                                  Rachel Delacour - CEO – Bime
“Moving Data & BIME: Harnessing the power
                           of Google BigQuery”
Objectifs                                                        Innovation                                                       Prochaines étapes
Moving Data improves mobile performance by ensuring the          Scaling a database is hard and scaling analytical databases      Roll-out of the product to a larger number of customers
quality and serviceability of telephone and broadband            is even harder. BIME powered by Google BigQuery offers an        dealing with ever increasing volumes of data.
networks in the Australian Outback. The company has              analytical database as a service that scales to petabytes of
developed advanced methods to collect and disseminate            data. It means that Moving Data doesn’t require sophisticated
alerts and statistics from mobile devices and supporting         infrastructure and an operational team to analyze data. BIME
mobile networks. When dealing with millions of network-          + Google BigQuery provide Moving Data with a reliable, quick
generated events, trend analysis rather than specific alerts     and infinitely scalable pay-as-you-go service to tap data
becomes critical to make the right decisions fast.               generated by the Internet of Things.

Moving Data had two needs that only BIME could satisfy. It       With Moving Data based in Australia and BIME in France, this
needed tools to enable interactive, visual analysis of           Big Data project has been undertaken across disparate time-
emerging network issues. They also wanted to communicate         zones. However, with everything in the cloud, execution has
insights to their current clients via collaborative and online   been fast at all stages: testing, implementation and client
dashboards, as well as promote insights to other                 validation, even in a Big Data context. The scalability of the
telecommunications clients with similar data, which is           BIME-BigQuery combo can facilitate the regular
standardized across the industry, for a fee. They needed Big     incrementation in the volume of data.
Data analytics in real-time.
                                                                 Résultats
Présentation                                                     Moving Data’s prime benefit consists of harnessing events
type of data processed, approximate volume:                      and audit data and communicating insights to clients (major
For the initial project, the type and volume of data processed   Australian telco companies) as quickly and as concisely as
by BIME and Big Query was 500 million radius records,            possible. Dashboards with KPIs reduce the customer
10,000 network probes, 120.6 million sessions, 960 device        decision-cycle for further analytical actions.
models.
With each future project the amount of data processed is
projected to increase exponentially.

Resources used: human skills, technical tools:
BIME cloud BI runs in any browser, queries datasets stored in
BigQuery at the speed of thought and, thanks to its’ powerful
calculation engine, displays results in interactive analysis
dashboards, in seconds.

BIME’s BigData project manager worked in parallel with the
client on the dashboard setup and design. At Moving Data,
CEO and founder Craig Morton worked on the project along
with an in-house IT engineer.                                                                                                     Porteur du projet
                                                                                                                                  Rachel Delacour - CEO – Bime
ICANIC : Intellectual Capital Analytics

Objectifs                                                         Innovation                                                     Prochaines étapes
L’objectif est de créer un instrument de mesure de la valeur      Les brevets sont jusqu’à présent considérés comme ne           Finalisation et lancement commercial de la V1 pour fin 2013.
intrinsèque des brevets, fondé sur des critères objectifs et      pouvant relever que d’appréciation d’expert et le projet de    La prochaine étape sera d’étendre la capacité de notation
statistiques, qui s’applique à l’ensemble des brevets du          traiter les brevets comme des données qu’il est possible de    aux brevets américains et asiatiques.
monde..                                                           traiter statistiquement pour en tirer du sens constitue une
                                                                  révolution dans cet univers.
Présentation
Les volumes sont considérables puisqu’il s’agit de traiter        Résultats
l’ensemble des données sur les brevets contenues dans les         La valorisation commerciale d’Icanic s’effectuera de trois
bases des offices de propriété intellectuelle.                    manières :
•  Mise en place de web-crawlers et de flux XML permettant        •  par son utilisation par les entreprises et leurs
    d’industrialiser la récupération en temps réel des               interlocuteurs financiers, auxquels il donnera le moyen
    informations brevets                                             d’évaluer objectivement la valeur d’un portefeuille de
•  Mise en place d’une architecture de stockage et d’une             brevets
    architecture de calcul / ré-estimation de scores temps réel   •  en direction des investisseurs financiers par la création
    en environnement Big Data                                        d’indices boursiers de type « CAC 40 » qui permettront
•  Analyse de type text-mining sur les textes de brevets             d’identifier la performance des entreprises inventives et
    permettant de créer des données qualifiantes structurées         de diriger l’épargne vers elles.
    à partir de données non structurées                           •  L’intégration des notes dans les analyses vendues par
•  Croisement des données qualifiantes du brevet avec les            des agences de notation sociale. L’analyse de la capacité
    données administratives et de citations.                         d’innovation des entreprises est un complément naturel
•  Mise en place de modèles statistiques de durée de vie,            aux analyses existantes de ces agences, telles que
    permettant d’estimer la durée de vie résiduelle d’un             Vigeo.
    brevet en fonction de ses caractéristiques intrinsèques
•  Développement de web services de restitution des               Le schéma suivant résume la valorisation escomptée de
    données (en cours)                                            l’outil :



                                                                                                                                 Porteur du projet
                                                                                                                                 Patrick Terroir – Directeur Général Délégué – CDC
                                                                                                                                 Propriétéintellectuelle

                                                                                                                                 Partenaires
                                                                                                                                 Bluestone est notre partenaire pour les travaux de
                                                                                                                                 modélisation statistique. Arnaud Laroche est notre
                                                                                                                                 directeur de mission depuis 2010.
                                                                                                                                 Fourniture des données et hébergement : Questel
                                                                                                                                 Expertise sur la vie des brevets : Marks&Clerk France
Cedexis Radar

Objectif du projet                                                   Aspects Novateurs                                                Etapes à venir et démarche Big Data dans l’entreprise
L’objectif de Cedexis Radar est de comparer de façon neutre          Cedexis Radar ne réalise pas ses mesures depuis quelques         Cedexis envisage de collecter et d’utiliser toujours plus de
et objective la qualité de service des fournisseurs de services      points déterminés (et un unique réseau) dans le monde. Le        données pour optimiser l’aiguillage de trafic vers le meilleur
d’hébergement et de diffusion de contenus (CDN, Clouds…)             système de mesure repose sur la collecte de données              diffuseur/hébergeur de contenus. C’est le cas avec Cedexis
pour aiguiller les utlisateurs finaux vers le meilleur prestataire   (techniques) issues des vrais utilisateurs qui exécutent la      Fusion qui permet d’aiguiller le trafic en fonction de
et améliorer la performance d’un service en ligne.                   sonde Cedexis Radar lorsqu’ils consultent les sites d’éditeurs   nombreuses variables personnalisées telles que l'énergie
                                                                     intégrant celle-ci. Chaque jour, Cedexis collecte, traite et     utilisée par l’infrastructure, la charge des serveurs (et/ou des
Présentation                                                         utilise en temps-réel près d’un milliard de mesures issues des   métriques liées à ces serveurs comme l’usage de mémoire
Aucun prestataire (hébergeur, CDN, Cloud) n’est performant           utilisateurs finaux répartis dans 230 pays et 34 000 réseaux     RAM, l’état des disques durs, etc), le coût des prestataires et
partout, tout le temps et pour tous les utilisateurs finaux. Ces     d’accès (FAI, entreprises…).                                     bien plus encore... toujours dans l’objectif d’anticiper ou
variations sont liées à de multiples facteurs provenant - par                                                                         contourner une éventuelle défaillance de leur infrastructure
exemple - de la distance entre l’utilisateur final et le serveur     Valorisation observée de la donnée                               pour améliorer la performance des applicatifs hébergés et
d’origine, de la latence, du chemin d’accès aux serveurs du          Autrefois, les données de monitoring d’infrastructures           diffusion de contenus Internet.
prestataire ou à la saturation/dégradation momentanée de             n’étaient utilisées que de façon passive, c'est-à-dire après
segments du réseau public.                                           analyse longue. Cedexis a voulu rendre « actives » ces
                                                                     données : Les mesures de Cedexis Radar servent ainsi à
Les données collectées par Cedexis « Radar » permettent de           prendre une décision automatisée (en temps réel) d’usage
lever le voile sur la véritable qualité de services des              d’un prestataire pour améliorer la performance et la
prestataires. Elles sont utilisées par l’aiguilleur de trafic DNS    disponibilité des services en ligne pour chaque utilisateur à
Cedexis « OpenMix » pour diriger le trafic vers le meilleur          travers le monde, quelque soit son terminal et son réseau
prestataire et ceci, en prenant en compte les données de             d’accès.
Radar et/ou les critères définis par l’éditeur de contenus
(performance, géographie, coûts, capacité technique / bande
passante, engagements contractuels...).

Les éditeurs ont ainsi l’assurance que chaque utilisateur de
ses services pourra visualiser ses contenus ou utiliser ses
services de façon optimale.




                                                                                                                                      porteur de projet et noms des partenaires
                                                                                                                                      Société : Cedexis
                                                                                                                                      Service : Cedexis Radar
Distributed e-commerce : bringing online
                         shops to high-traffic content websites
Objectifs                                                       Innovation                                                       Prochaines étapes
Amener des magasins en ligne directement dans des sites de      Cette application ouvre les portes d’un nouveau marché :         Notre réseau de partenaires s’étend tous les mois, aussi bien
contenu                                                         l’échange de données qualifiées et sémantisées entre le          en termes de magasins en ligne que d’éditeurs.
                                                                monde du contenu et de l’achat, qui jusqu’ici ne se parlaient
Présentation                                                    que par bannières agressives interposées. A l’inverse, nous      Informations supplémentaires
Nous créons un lien entre le monde du contenu et de l’achat,    tâchons de reproduire un maximum de l’expérience utilisateur     http://corporate.chefjerome.com
en développant une gamme d’interfaces qui permettent            d’un magasin, directement dans la page d’origine.                adurieux@chefjerome.com
d’apporter des magasins en ligne directement dans des sites     Là où la plupart des usages BigData se contentent de
de contenu, dans des formats reprenant les codes de la          chercher de vagues corrélations dans des volumes de
publicité en ligne classique.                                   données importantes, l’originalité de notre approche est de
Grâce à une analyse sémantique, nous affichons au sein de       privilégier une compréhension profonde et sémantique de
cette interface des produits parfaitement qualifiés, afin de    données complexes et intriquées.
permettre à un utilisateur de commencer ou de compléter un
panier sans même quitter la page.                               Résultats
Nous avons lancé en Décembre 2012 dans le domaine de            Nos interfaces sont non-intrusives, parfaitement qualifiées et
l’alimentaire, en apportant des supermarchés en ligne           apportent un service supplémentaire à la page qui les
(CasinoExpress, CasinoDrive, MesCoursesCasino, Mon-             héberge, ce qui nous permet d’atteindre des taux de clics
Marché) dans des sites culinaires (l’AtelierDesChefs, C’vous,   absolument stupéfiants, signe d’un nouveau vecteur
blogs, forums)…                                                 d’acquisition de clients et de monétisation du contenu.




                                                                                                                                 Porteur du projet
                                                                                                                                 Jerome SAS

                                                                                                                                 Partenaires
                                                                                                                                 Groupe SEB – François-Xavier Meyer
                                                                                                                                 Groupe CASINO – Patrick Garrel
CLIRIS, plate-forme de pilotage des points
                          de vente par l’analyse des flux shoppers
Objectifs                                                         Innovation                                                  Prochaines étapes
Délivrer aux Retailers des indicateurs-clés de performance        Accès à de nouveaux leviers de pilotage de leur réseau,     Nouveaux modules :
inédits et développer ainsi de nouveaux leviers d’optimisation    auparavant inexploités :                                    •  cartographie des mesures de performance
des ventes grâce à l’analyse du comportement des «                •  attractivité des vitrines, des points de vente           •  gestion de la planification des ressources RH d’une
shoppers ».                                                       •  adéquation des équipes de vente au flux client,             boutique
                                                                  •  optimisation du plan merchandising et circulation des    •  module prédictif
Présentation                                                         clients au sein des boutiques,                           •  module de simulation de l’activité d’un réseau et d’une
Conception et mis en œuvre d’une plateforme d’analyse de          •  optimisation du calendrier des opérations commerciales      boutique
données Big Data.                                                 •  impact des opérations commerciales
Cliris reçoit chaque jour un volume de données exceptionnel
depuis les box en points de vente et les SI clients. Ce flux de   Résultats
données asynchrone est intégré de façon périodique, avec          •  Fiabilité des données
une actualisation chaque minute possible. Les informations        •  Prise en compte et exploitation en temps réel
sont consolidées, croisées et structurées avant d’être            •  Restitution d’indicateurs de pilotage inédits et
restituées sur notre portail de reporting permettant une             personnalisés
supervision de la performance des points de vente et l’édition
de tableaux de bord.




                                                                                                                              Porteur du projet
                                                                                                                              Anne Steinberg                               Directeur
                                                                                                                              Marketing
ELLICIBLE
Objectifs                                                          Innovation                                                          Prochaines étapes
Pour répondre aux évolutions technologiques et à la                Ellicible s’appuie sur une technologie européenne novatrice         Réel projet d’entreprise associant tant la direction générale
demande du « realtime marketing » où l'information produite        et apporte la commodité du « search » grand public au poste         que les experts métier et les marketeurs, l’objectif de
n'est plus segmentée en silos fonctionnels mais selon les          de travail du professionnel en marketing direct. Dans les           www.ellicible.fr est de créer avec cette technologie innovante
usages de la cible, Coface Services a entrepris la refonte de      sélections, elle rend la donnée accessible immédiatement et         unique sur son marché de nouvelles opportunités de
son offre « Solutions Data ». Lancée le 20 mars 2013,              élimine les temps de latence dans l’affichage des résultats.        développement en « Solutions Data ».
www.ellicible.fr est une plateforme marketing direct « big         Exprimé d’une autre manière, l'application utilisant le moteur      Dans les étapes à venir pour accompagner les besoins
data» en temps réel et à haut débit. Sa vocation est de cibler,    de ParStream réalise à grande échelle un « facetted search »        utilisateurs, sera associée à cet outil une politique
trier, ventiler, explorer, segmenter, surveiller et extraire des   sur plus d'une centaine de dimensions en temps réel.                d’intégration de données complémentaires avec la possibilité
populations d’entreprises dans un espace multidimensionnel         L’outil associe à cette technique novatrice une politique           de recherche textuelle.
de plusieurs dizaines de milliards de données.                     d’intégration de nouvelles sources partenaires visant des
                                                                   données riches et volumineuses tant nationales ou
Présentation                                                       internationales que métiers.
Ellicible intègre le moteur « big data analytics » de ParStream    La combinaison « technique » et « données » permet de
GmbH. Elle transforme le concept de ciblage et comptage            répondre aux nouveaux usages et demandes de nos clients à
haut débit temps réel en réalité opérationnelle sur des            la recherche de performances permettant de cibler le plus
données volumineuses.                                              juste et le plus rapidement possible leurs clients potentiels.
Ce moteur repose sur une approche innovante d’index
compressés à très hautes performances couplée à un                 Résultats
traitement parallèle de requêtes. Cette mécanique permet           Ellicible permet de traiter des milliers de requêtes à très forte
l’accès aux données à haut débit et à très faible latence.         volumétrie d’informations (milliards de données) en temps
C’est ainsi que sous une faible empreinte énergétique et           réel (millisecondes). L’utilisateur, à travers la combinaison de
matérielle des milliers de requêtes sont traitées sur de très      multiples critères, compte de manière instantanée des
fortes volumétries d’informations (milliards de données) en        potentiels au fur et mesure de l’élaboration de ces stratégies
temps réel (millisecondes).                                        et identifie des entreprises. Le rôle d’Ellicible est de
Avec cette technologie novatrice associée à ses solutions          construire des groupes homogènes pour mettre en place des
métiers, Coface Services a su surmonter les problématiques         opérations de marketing direct différenciées en fonction de
techniques traditionnelles des bases de données. Ellicible         segments identifiés.
s’affranchit de l’UX « essai-erreur » et de la gestion des
tâches complexes et asynchrones tout en maintenant une
très forte réactivité data avec de faibles ressources.
Ces performances comparées aux technologies
traditionnelles, ou même avec NoSql, bouleversent les
usages de la profession du marketing direct habituée à des                                                                             Porteur du projet
temps de calcul et d’affichage importants avant d’avoir le                                                                             Bernard Simon – Responsable Marketing Data Solutions
résultat d’un ciblage.                                                                                                                 – COFACE SERVICES

                                                                                                                                       Partenaires
                                                                                                                                       Partream GMBH : Peter Livaudais, Sr. Director Solutions
Tableau de bord des Territoires
Objectifs                                                        Innovation                                                           Prochaines étapes
Proposer aux utilisateurs une base de données toujours à         L’innovation du projet tient à (i) la mise à disposition de          Data Publica est « développeur de jeux de données », c'est-
jour de l’ensemble des données de description                    l’ensemble des données structurée selon la dimension                 à-dire qu’il produit des jeux de données pour ses clients.
(démographiques, économiques, immobilier, activité, mobilité,    géographique, (ii) la mise à jour automatique et permanente          Pour cette production, Data Publica identifie les sources,
…) des territoires (bassin d’emplois, communes, …)               et (iii) la disponibilité en ligne customisée au besoin du client,   extrait les données brutes des sources, transforme les
                                                                 en terme de géographie et de dimensions de contenu.                  données brutes en données structurées et livre ses données,
Présentation                                                                                                                          sous forme de flux ou de visualisation. Ces jeux de données
Les données sont issues de toutes les sources publiques                                                                               sont produits sur mesure (le client spécifie ses besoins et
accessibles en ligne et susceptibles de contribuer au portrait                                                                        Data Publica produit le jeu de données suivant ses
des territoires.                                                                                                                      spécifications) ou sur étagère (Data Publica définit et produit
                                                                                                                                      le jeu de données après une analyse des besoins du
Le volume est d’abord dimensionné par le nombre de                                                                                    marché). Les jeux de données sont livrés en DaaS (Data as a
territoires, de l’ordre de 37.000, et quelques dizaines/                                                                              Service) et facturés sous forme d’abonnement (un jeu de
centaines de données par territoire. Ces données sont                                                                                 données est un objet vivant mis à jour en permanence).
chacune rafraîchies une ou plusieurs fois par an, ce qui fait
de la mise à jour automatique une difficulté significative du
projet.

Ce projet est déployé, les données étant d’ores et déjà
accessibles pour les clients de Data Publica.




                                                                                                                                      Porteur du projet
                                                                                                                                      François Bancilhon – PDG – DATA PUBLICA

                                                                                                                                      Partenaires
                                                                                                                                      F. Lainée, PDG CetaData
Domirama, un outil d'exploration des
                            historiques de comptes au service de nos
                            clients
Objectifs                                                          Innovation                                                       Prochaines étapes
L'objectif de ce projet est la création d'un outil permettant à    L'aspect le plus novateur est de redonner la maîtrise de leurs   Les évolutions visant à enrichir les opérations de
nos sociétaires et clients d'effectuer des recherches sur          opérations à nos sociétaires et clients, et ce sur une           métadonnées seront sources de création de valeur
l'historique des opérations réalisées sur leurs comptes            profondeur d'historique sans équivalent puisque nos              supplémentaire.
bancaires et d'enrichir ces historiques par des métadonnées        concurrents se limitent généralement dans le meilleur des
personnalisées.                                                    cas à 12 mois d'historique.                                      Informations supplémentaires
                                                                                                                                    Ce projet s'inscrit dans une démarche Big Data plus large
Présentation                                                       Résultats                                                        visant à valoriser le patrimoine 'données' du groupe Crédit
Les données manipulées dans le cadre de ce projet sont             La possibilité d'effectuer des recherches en temps réel sur      Mutuel Arkéa.
constituées de l'ensemble des mouvements bancaires de nos          l'historique de leurs opérations permet à nos clients
clients depuis mai 2001. La date retenue correspond au             d'appréhender la gestion de leurs finances dans d'excellentes    Ce projet a été réalisé par des équipes internes du Crédit
moment où les opérations en francs ne représentaient plus          conditions.                                                      Mutuel Arkéa, garantissant au groupe l'exclusivité de la
qu'une part infime du flux, et ce afin d'éviter d'avoir à gérer                                                                     maîtrise des technologies mises en œuvre, gage d'avantage
une approche multi-devises.                                                                                                         concurrentiel durable.

Ce projet est l'un des premiers s'appuyant sur la plate-forme
Big Data basée sur Hadoop mise en place dès 2009 au
Crédit Mutuel Arkéa. Il est issu d'un travail conjoint entre les
équipes en charge du périmètre banque à distance pour les
aspects restitution, les équipes des différents métiers
(comptes à vue, livrets, cartes, SEPA) pour la fourniture des
données, et l'équipe Big Data/Hadoop pour la mise au point
du moteur de recherche.

Les données sont stockées dans HBase, permettant un
accès en temps-réel à celles-ci. Le moteur de recherche est
optimisé pour n'indexer les opérations qu'à la demande,
offrant ainsi des performances élevées. Une recherche
complexe sur près de 12 années d'historique s'effectue dans
90% des cas en moins de 500ms.

Ce service est en production depuis fin 2011 pour nos
sociétaires et clients des fédérations du Crédit Mutuel de
Bretagne, du Sud-Ouest et du Massif-Central, de Fortunéo
ainsi que de la Banque Privée Européenne.

                                                                                                                                    Porteur du projet
                                                                                                                                    Matthias Herberts – Engineer – CREDIT MUTUEL ARKEA
BIG DATA GETS PERSONAL

Objectifs                                                      Innovation                                                        Prochaines étapes
•  Récompenser les clients les plus fidèles de l’enseigne      En relation avec les marques nous constituons au fil de           La personnalisation des offres a permis de doubler le taux de
   avec des offres personnalisées                              l’année une banque de coupons. Pendant la phase de                retour des coupons par rapport à des coupons non
•  Créer une occasion supplémentaire de venir en magasin       préparation du mailing, nous entrons les offres disponibles       personnalisés.
•  Exploiter et valoriser l’intégralité des données de         dans un outil propre à dunnhumby. L’algorithme d’allocation
   transactions                                                intégré à cet outil a été développé grâce à l’expérience Tesco    Ce premier mailing personnalisé a été envoyé à partir de
•  Améliorer le retour sur investissement du programme de      en Angleterre et Kroger aux Etats Unis. Il permet parmi des       février 2012. Au fur et mesure que les mailings ont été reçus
   Fidélité                                                    millions de possibilités de sélectionner la combinaison           par les clients et analysés en terme de performance, le
                                                               d’offres la plus pertinente pour chaque client en regard de       ciblage des clients a été optimisé pour privilégier les clients
Présentation                                                   son comportement d’achat. Le niveau de récompense des             les plus appétant à ce type d’offre. Ceci a également permis
Nous avons créé avec Monoprix un rendez-vous mensuel           offres peut lui aussi être personnalisé selon sa fidélité à       de développer des supports pour les clients sensibles à
dédié aux clients les plus Fidèles pour les récompenser avec   l’enseigne.                                                       d’autres canaux de communication tels que les emails et les
des offres personnalisées sur leurs marques et rayons                                                                            coupons caisse. Nous pouvons ainsi optimiser chaque point
préférés. L’exploitation des big data nous permet de           Résultats                                                         de contact avec le client.
personnaliser un mailing intégrant 8 coupons envoyé à          Plus de 33 millions de transactions des clients les plus
environ 600 000 clients par mois.                              Fidèles à Monoprix sur tous les formats (y compris le site        Informations supplémentaires
                                                               marchand) ont été analysées, représentant environ 350             L’équipe dédiée chez dunnhumby est composée de :
                                                               millions articles achetés.                                        •  1 Project Manager pour adapter l’outil Media Centre pour
                                                               Cet outil d’allocation d’offres et de contenus au niveau client       la base de données Monoprix
                                                               permet une véritable personnalisation de la communication. Il     •  1 Data Manager
                                                               est capable de traiter cette énorme quantité de données : en      •  1 Analyste pour sélectionner les clients éligibles pour les
                                                               moins d’une heure les offres sont allouées parmi les milliers         offres proposés
                                                               de possibilités.                                                  •  1 Campaign Manager pour organiser et coordonner la
                                                               Plus de 80% des clients ciblés reçoit une version unique de           mise en place du ciblage
                                                               ce mailing
                                                                                                                                 Chez Monoprix le projet était mené par l’équipe Fidélité avec
                                                                                                                                 deux personnes dédiées à la mise en place opérationnelle.
                                                                                                                                 La conception et création du mailing était mené par l’agence
                                                                                                                                 Rosa Parks.




                                                                                                                                 Porteur du projet
                                                                                                                                 Hannah Whittall – Directrice Coms & Media –
                                                                                                                                 DUNNHUMBY France

                                                                                                                                 Partenaires
                                                                                                                                 Monoprix Stéphanie Guillonneau Directrice Fidélité
ECO2DATA

Objectifs                                                           Innovation                                                       Prochaines étapes
Répondre aux impératifs d’accès à l’information dans un             eCO2data est à ce jour la plus grande base de données sur        Nous travaillons actuellement sur 2 axes :
marché réglementé en croissance et décentralisé. Permettre          le marché du carbone. Elle innove dans la mesure ou les          •  Extension de la plateforme au domaine de la foret. La
aux acteurs du marché de la finance environnementale                données sont récupérées systématiquement et ce en temps             foret est le poumon de notre planète car elle stocke
d’avoir accès à un niveau de transparence et de traçabilité du      réel là ou nos concurrent reposent essentiellement sur un           naturellement le CO2. Des projets d’investissements de
niveau d’un marché mature alors que le marché est encore            traitement manuel des données. Cet aspect de la plateforme          taille massive sont pour l’instant bloqués car il n’existe
très jeune.                                                         nous permet de proposer des services inédits comme celui            pas à ce jour d’outil de suivi d’un investissement forestier
                                                                    des « eCO2data alerts » qui permettent à nos clients de             à grande échelle sous l’égide des normes internationales
Présentation                                                        recevoir des alertes emails dés qu’un de leur portefeuille          de l’ONU. Nous sommes associés à une entreprise
Le but du projet est de construire un tableau de bord temps         environnemental connait un changement.                              franco-allemande du secteur de la défense et qui
réel qui centralise toutes les informations relatives aux projets                                                                       posséde un réseau satellitaire de premier plan pour
de réduction de gaz à effet de serres qui génèrent des crédits      Résultats                                                           connecter les données satelitaires à notre outil et
carbones. Ces projets sont jusqu’ici la meilleure arme mis en       L’une des principales valorisation de la donnée est le fait de      proposer « eCO2data Forest » afin de combattre la
place au niveau international contre la menace du                   travailler sur les données non structurées pour recontruire à       problématique de la deforrestation et plus généralement
réchauffement climatique et constituent à ce titre un enjeu         la volée le portefeuille de n’importe quel acteur du marché.        de la conservation de la foret.
décisif. Ces projets sont répartis à travers le monde et            Ainsi « BNP », « BNP Aribitrage », « Banque Nationale de         •  Nouvelle plateforme sur le marché du Gas Naturel
obtiennent chaque jour 1 crédit pour chaque tonne de CO2            Paris » ou encore « BNP, SA » sont automatiquement                  Liquéfié (LNG). Nous appliquons actuellement notre
économisée. Un projet prend de 18 à 36 mois à se                    aggrégé en un seul participant et permet à nos clients              technologie propriétaire au marché du LNG qui connait
concrétiser. Il est soutenu par un conglomérat très vaste           d’accéder à un niveau de transparence inégalé jusqu’ici.            une croissance rapide et pour lequel il existe les mêmes
d’acteurs privés et publics et est évalué par des organismes                                                                            problématiques de suivi de l’activité du marché et de
externes tout au long de sa vie qui peut durer plus de 20 ans.                                                                          monitoring des        acteurs que sur nos précédentes
                                                                                                                                        réalisations. En détournant l’usage initial des balises de
                                                                                                                                        positionnement AIS contenues dans chaque navire on
                                                                                                                                        créé une carte interactive et temps réel de
                                                                                                                                        l’acheminement des volumes de LNG actuellement en
                                                                                                                                        transit à travers le monde.




                                                                                                                                     Porteur du projet
                                                                                                                                     François Cazor – Président – Kpler SAS
Artémis : « De la logique du service public…à
                         la logique de rendre le service au public »
Objectifs                                                        Innovation                                                          Résultats
« campagnes multicanaux sur mesure : rendre le service au        La solution proposée couvre l’ensemble du protocole                 Pour l’année 2013 les perspectives sur la big data sont
public »                                                         décisionnel de traitement de la donnée avec trois briques           nombreuses :
Pour cela, générer des campagnes multicanaux qui ont pour        fonctionnelles :                                                    •  Industrialisation de l’application destinée à l’aide à la
objectifs :                                                      •  Brique 1 : Collecter : cette brique est au cœur de la               décision,
•  De cibler : le ciblage est le facteur clés de succès d’une       donnée, l’objectif est simple, une donnée active, propre et      •  Intégration des données clients complémentaires,
    campagne de communication réussie : quel client ? Sur           juste. Pour cela : auditer, redresser, enrichir et fiabiliser.   •  Intégration d’une couche de données relatives aux
    quel sujet ? Avec quel discours ? Avec quel canal de         •  Brique 2 : Comprendre pour mieux cibler : avec un outil             potentiels de marchés : par communes et par Iris.
    contact (Téléphone, SMS, Email) ?                               d’aide à la décision sur l’analyse de la performance             •  Enrichissement des tableaux de bord : part de marché
•  De fidéliser : En identifiant les bons clients et en les         commerciale construit sur le principe du géo-                       modale, taux de pénétration mobilité, identification des
    remerciant (Opération de parrainage). En identifiant les        référencement de l’individu : 1 point = 1 client.                   zones potentielles de développement.
    clients en phase d’abandon (Relance commerciale et           •  Brique 3 : Agir : par des campagnes multicanaux ciblées
    analyse des causes).                                            pour fidéliser les clients. Prospecter : « Changer vos
•  De prospecter : Avec une meilleure connaissance de               habitudes de mobilité au moins une fois dans l’année »,
    client, il est plus facile de créer le profil type et de        avec une meilleure connaissance client, la recherche des
    rechercher les jumeaux (Bases de données scorées : Par          « jumeaux » par le scoring des données est plus efficace.
    zone géographique, données sociologiques et données
    comportementales).
•  D’informer en mode sur mesure : En fonction de la nature
    des perturbations (Exemple : Travaux), des zones
    géographiques impactées et des statuts des clients
    (Exemple : Personnes à mobilité réduite).
•  De créer du ROI sur les campagnes : L’Emailing permet
    le déploiement d’une stratégie de « tracking » avec : taux
    d’ouverture, liste des ouvreurs et taux de rebond.




                                                                                                                                     Porteur du projet
                                                                                                                                     Daniel Aubaret – Directeur Marketing – EFFIA
                                                                                                                                     SYNERGIES
BRAND IMAGE & BIG DATA : COMMENT VALORISER
                          LA DONNEE ISSUE DES RESEAUX SOCIAUX POUR
                          NOURRIR LA STRATEGIE DE MARQUE
Objectifs                                                           Innovation                                                        Prochaines étapes
Comprendre et valoriser la donnée issue des plateformes des         Approche en rupture avec les approches classiques de              Déploiement d’une offre complète à destination des
réseaux sociaux pour :                                              valorisation de la donnée (type CRM), pour lesquelles les         annonceurs.
1- Monitorer et mesurer en temps réel le ROI/ROE de ses             coûts d’entrée sont forts (notamment en outil & système)          Partenariat avec agences de communication sur la
actions de communication                                            pour valorisation à terme souvent limitée et en silo de la        couverture évènementielle.
2- Comprendre les mécanismes de viralité et identifier les          donnée (CRM & stratégie relationnelle / marketing /               Couverture d’évènement mondiaux dans une logique de PR
leaders d’opinion                                                   communication).                                                   (worldcup 2014 / fashion weeks / olympic games).
3- Saisir les tendances, et identifier des territoires de marque    Ici l’approche est « smart », donc cost-effective, et permet de
4- Détecter les ambassadeurs des marques de demain                  façon simple et immédiate de tracker, mesurer, piloter des
5- Comprendre les proximités de produits et de marques              données individuelles publiques pour des usages marketing
dans une perspective de cross-sell / faciliter les logiques de      multiples et immédiats (cf. objectifs du projet).
partenariat entre marques (via du maching learning).                Alors que le tracking de données issues des réseaux sociaux
6- Enrichissement des bases de données clients des                  s’est beaucoup développé ces dernières années, notre
annonceurs à partir de données publiques issues des                 valeur-ajoutée réside non pas dans la barrière technologique
réseaux sociaux                                                     nécessaire à leur récupération, mais surtout dans leur
                                                                    valorisation orientée « usages ».
Présentation
•  La démarche consiste en la récupération en temps réel            Résultats
   de l’ensemble des données issues des plateformes de              Au-delà de simples tableaux de reporting, nous valorisons la
   réseaux sociaux (Twitter / Facebook / Instagram /                donnée par le déploiement de modèles statistiques ad-hoc et
   Pinterest, Youtube, Tumblr) relié à un évènement ou à            complexes (ce qui constitue véritablement le coeur de métier
   sujet d’intérêt. Puis à analyser cette donnée pour la            de notre entreprise).
   valoriser, et multiplier ses usages, pour nourrir la stratégie   Notamment, utilisation de techniques telles que:
   marketing, et plus spécifiquement la stratégie de marque.        •  Réseaux de neurones & modèles bayésiens : outil de
•  La volumétrie reste assez limitée, mais nécessite                   recommandation.
   néanmoins l’usage de technologies big data notamment             •  Analyse de données: segmentation / scoring orientée
   en ce qui concerne la collecte et le traitement de flux de          connaissance client
   données en temps réel (Node.j, Base de données                   •  Séries temporelles : impact & ROI des actions de
   NoSQL, Map Reduce).                                                 communication
•  Les ressources mises à disposition : 2 hommes à temps            •  Analyses sémantiques
   plein pendant 4 mois
•  Le déploiement s’est fait sur 1 an et demi, dans une
   démarche test & learn après une première
   implémentation réussie lors des jeux olympiques de
   Londres, puis lors de la couverture systématique
   d’évènement mondiaux, en déployant à chaque fois de
   nouveaux usages et de nouvelles démarches
   analytiques.                                                                                                                       Porteur du projet
                                                                                                                                      Quentin Michard – Directeur Général – Ekimetrics SAS
Roland-Garros SlamTracker

Objectifs                                                        Innovation                                                      Prochaines étapes
Le Roland-Garros SlamTracker développé par IBM permet de         L’aspect innovant de ce projet consiste à mettre à la           La démarche Big data continue à la FFT. Au delà de l’analyse
fournir aux fans de tennis une information complète et           disposition des joueurs mais également des spectateurs une      prédictive utilisée dans le SlamTracker dans le contexte des
précise sur le déroulement des matchs à Roland-Garros,           solution habituellement développée pour aider les entreprises   matchs, des analyses des médias sociaux sont conduites
avec notamment l’utilisation de l’analyse prédictive pour        à mieux prévoir leurs ventes, les niveaux de stocks             durant la durée du turnoi pour étudier les flux d’intérêt qui font
déterminer les clés du match : 3 critères définis en début de    nécessaires, l’efficacité des campagnes de promotion.           lumière au cours du tournoi, tant au niveau des joueurs,
match, sur la base des données complètes des tournois du                                                                         qu’au niveau de l’environnement et de l’organisation du
Grand Chelem.                                                    Résultats                                                       tournoi.
                                                                 Avec le Slamtracker, « les données prennent vie »
Présentation                                                     •  les clés du match permettent d’utiliser de façon             Informations Supplémentaires
Avec plus de 41 millions de points collectés lors des 8             intelligente tous les scores passés et de leur donner un     L’analyse prédictive appliquée à Roland-Garros a permis
dernières années de Grand Chelem, la Fédération Française           sens pour mieux anticiper le match qui va se jouer et        d’utiliser de nombreuses informations des matchs passés
de Tennis et IBM disposent d’un historique colossal sur les         comprendre les points forts de chaque adversaire             pour déterminer des styles de joueurs et mieux analyser les
scores détaillés des matchs. Et les joueurs de tennis se         •  la courbe de dynamique donnent une vision temps réel         comportements. Les critères sont classés par type :
rencontrent fréquemment lors des tournois, ils ont déjà joué        de l’ascendant des joueurs, avec visualisation graphique     - offensifs
les uns contre les autres. L’analyse poussée de leurs scores        de chaque type de point en fonction du temps                 - défensifs
a permis de montrer que chacun a un comportement assez           •  les statistiques mises à jour en temps réel permettent de    - endurance
prévisible et un style de jeu, en fonction de son adversaire.       mieux comprendre les éléments clés du match en               - style
Ces scores, couplés avec la solution d’analyse prédictive           comparant les adversaires.                                   L’outil est sans cesse affiné pour devenir plus pertinent. On
IBM Smarter Analytics (SPSS Modeler) permettent de définir                                                                       voit que si un joueur atteint ses 3 clés et l’autre aucune clé,
les critères clés que chaque joueur doit atteindre pour                                                                          dans 98% des cas, le gagnant est celui qui a atteint ses 3
maximiser ses chances de gagner. Le système va choisir les                                                                       clés. Des statistiques assez poussées existent maintenant
3 critères les plus pertinents par joueur parmi une                                                                              sur la fiabilité du modèle.
cinquantaine de possibilités. Chaque joueur n’aura pas                                                                           La finale Nadal-Djokovic de Roland-Garros 2012 est assez
forcément les mêmes critères que son adversaire.                                                                                 parlante car Nadal a gagné, en atteignant ses clés à moins
                                                                                                                                 de 1% près ! Djokovic n’a atteint qu’une seule clé mais n’était
Le projet a été testé lors de l’édition 2011 de Roland-Garros                                                                    pas si loin des 2 autres.
puis lancé à Wimbledon, utilisé à l’US Open et pendant
l’Australian Open. Lors de l’annonce officielle pour l’édition
2012 de Roland-Garros, la FFT a donc bénéficié d’une
solution déjà bien testée et éprouvée sur les autres tournois.
Les clés du Match sont mis à disposition des joueurs et de
leurs équipes mais également depuis 2012 sur le site web
public de Roland Garros afin de permettre à chaque                                                                               Porteur du projet
spectateur d’enrichir son expérience du match en bénéficiant                                                                     Alex Loth – DSI Roland-Garros – Fédération Française de
des informations supplémentaires mises à sa disposition, et                                                                      Tennis
en permettant de suivre leur évolution au cours du match, par
une mise à jour en temps réel des indicateurs.                                                                                   Partenaires
                                                                                                                                 IBM France Claire Herrenschmidt
Search Analytics
Objectifs du projet :                                                Innovation                                                    Prochaines étapes
Améliorer la pertinence du moteur de recherche de                    L’exploitation des données de webanalyse permet à             Le modèle de prédiction et la méthodologie élaborés pour
PagesJaunes.                                                         PagesJaunes d’améliorer en continu, de façon automatique      cette mission sont en cours d’internalisation et d’intégration
                                                                     et collaborative (donc à moindre coût) la pertinence de son   dans les process métiers.
Présentation du projet :                                             moteur.                                                       Les applications potentiellement dérivées de cette mission
La catégorisation des requêtes est cruciale pour la pertinence                                                                     sont multiples. L’architecture mise en place permet par
des résultats affichés par PagesJaunes. Si un visiteur tape «                                                                      exemple d’envisager une personnalisation des résultats, une
acacias, Toulouse », on peut penser qu’il veut acheter des           Résultats                                                     évolution du système de monétisation de PagesJaunes
acacias. Cela signifie qu’on catégorise « acacias » en objet         La précision du ciblage des requêtes mal catégorisées a       (fondée sur le taux de clic, etc) ou encore la prise en compte
(« Quoi ? »). Et si l’utilisateur cherchait en fait l’adresse d’un   augmenté d’un facteur 10.                                     de nouveaux critères pour le classement des blocs-réponses.
restaurant appelé « Les Acacias » à Toulouse ? Il faut
comprendre « Les Acacias » comme le nom d’une entreprise
(« Qui ? »). Dans un cas, la réponse attendue est une liste de                                                                     Informations supplémentaires
pépinières, dans l’autre, l’adresse d’un restaurant bien                                                                           Cette mission constitue un excellent exemple de ce que
identifié.                                                                                                                         l’Analytics peut apporter aux organisations, à condition d’y
La correction des requêtes mal catégorisées est un enjeu                                                                           construire la bonne architecture de données, ce qui permet
majeur pour l’annuaire, et pour les professionnels répertoriés,                                                                    de développer ensuite des applications adaptées pour
puisque 74 % des recherches effectuées sur PagesJaunes.fr                                                                          améliorer la performance.
aboutissent à un contact professionnel physique.
La mission de fifty-five était d’exploiter les données de
webanalyse de PagesJaunes pour établir un modèle de
prédiction permettant d’automatiser la détection de requêtes
mal catégorisées.
S’appuyant sur l’analyse de 3 terabytes de logs de
webanalyse et des dernières technologies de big data et de
machine learning, l’équipe de fifty-five, composée
d’ingénieurs, de data scientists et de spécialistes de
datavisualisation, a amélioré d’un facteur 10 le ciblage des
catégories mal catégorisées.
La mission s’est déroulée en 3 étapes : collecte, traitement,
puis visualisation de la donnée.
Après la mise en place d’un Data Management Platform
(DMP) pour structurer la donnée, fifty-five a élaboré un
modèle de machine learning calculant un score de prédiction.
L’équipe a ensuite créé une interface interactive dédiée pour
rendre lisible l’intelligence extraite de l’analyse des données.

                                                                                                                                   Porteur du projet
                                                                                                                                   Lan Anh VU HONG – Responsable Marketing - 55 SAS
Focusmatic : Accurate Digital Reach
Objectifs                                                         Innovation                                                       Prochaines étapes
Focusmatic propose plusieurs applications du Big Data au          Notre projet est novateur car il aide des opérationnels en       L’entreprise toute entière est tournée vers le BigData. A date
marketing digital pour le rendre « opérationnel », c’est-à-dire   extrayant de la valeur métier des données sociales. Cela est     nous avons des fonctionnalités analytiques sur notre outil,
utilisable par le métier. Un de nos exemples est la mesure de     possible car il y a trois innovations technologiques :           capable de gérer la big data. Nous travaillons à continuer à
l’impact d’investissements médias de type co-branding ou la       1.  business intelligence sur des Big Data                       améliorer les capacités d’analyses sémantiques, notamment
priorisation d’une liste longue de partenaires potentiels.        2.  calculs orientés métier : calcul d’audience par exemple      en travaillant sur la clusterisation et le maintient temps réel
                                                                       (nombre de personnes ayant vus) au lieu d’un reporting      des clusters de messages. Cela permet de répondre à la
Présentation                                                           du nombre de messages. Tous n’ayant pas le même             question : « De quels sujets parle-t-on ? ».
Notre projet consiste à collecter les données pertinentes sur          impact…
le web et les réseaux sociaux pour nos clients.           Nous    3.  le tout en temps réel pour apporter des réponses au
organisons cela par « univers logique d’écoute » comme par             moment où les questions sont posées
exemple une marque et ses concurrents ou encore des
usages.                                                           Résultats
Nous collectons chiffres, textes, images et vidéos sur les        Nous aidons nos clients à isoler les données qui sont utiles à
principales plateformes de réseaux sociaux, les blogs, etc.       leur question business et de les traiter instantanément. Les
Selon les projets nous récoltons typiquement de 50,000 à          données servent à prendre des décisions, typiquement
1,000,000 de messages par jour et conservons toute                d’investissement de co-marketing ou de focalisation des
l’historique pour le client. Cela monte rapidement à des          efforts commerciaux.
volumes très élevés. On est typiquement en big data car les
volumes à traiter comprennent aussi l’historique, les flux sont
très variables et les données hétérogènes. Dans le cas
d’une de nos plateforme, celle qui absorbe parfois jusqu’à
1,000,000 de messages par jour, il y a un pic à 20h le soir
couvrant en général la moitié du volume de la journée.
Ce genre de projet passe par une phase de compréhension
de besoin du client et un travail pour paramétrer notre
plateforme générique au client.       Ce travail qui est plus
business que technique prend une à deux semaines.
Le projet commence ensuite mais la performance du système
est améliorée en continue car l’analyse sémantique s’appuie
notamment sur des algorithmes de machine learning qui
prennent compte des résultats passés validés ou infirmés
pour mieux prédire le futur. Cela s’applique notamment à ce
qui est analyse sémantique (sentiment, émotions, etc.)



                                                                                                                                   Porteur du projet
                                                                                                                                   Malekzadeh Amirhossein – Président – Focusmatic
Gamned – Le Big Data au service de
                                              l’Advertising Intelligence
Objectifs                                                         Innovation                                                       Informations supplémentaires
Ajouter de la Data Intelligence pour le RTB (Real Time            Gamned innove dans le domaine du RTB par l’utilisation du        Dans le cadre du rachat de Gamned par LeadMedia,
Bidding) pour mieux cibler et acheter des espaces                 Big Data dont les technologies ont été éprouvées et validées     l’infrastructure Big Data de Gamned va être généralisée pour
publicitaires en temps réel et mieux personnaliser l’affichage    dans d’autres domaines tels que les secteurs                     tous les domaines nécessitant stockage et/ou calcul en
publicitaire pour les Internautes                                 pharmaceutiques, industriels et aéronautiques.                   masse. Les compétences métier de fouille de données déjà
                                                                                                                                   présente chez Gamned et LeadMedia vont aussi être
Ajouter de la valeur sur le reporting, pour le Media Traders en   Ces technologies font maintenant partie du cœur                  fusionnées pour répondre plus largement aux besoins des
interne, et pour nos clients qui doivent avoir accès à des        technologique de Gamned.                                         clients.
informations disponibles en temps réel pour optimiser les
campagnes publicitaires, avec une bonne profondeur et un          Résultats
bon historique.                                                   En résumé :
                                                                  •  nous stockons plusieurs milliards d’impressions nouvelles
Présentation                                                         par mois,
Pour stocker, gérer et analyser une très grosse quantité de       •  nous en extrayons, en temps-réel ou en différé, des
données, nous avons mis en place une infrastructure Big              partitionnements et des indicateurs pour :
Data basée sur Hadoop, Hive, HBase. Cette infrastructure          •  personnaliser l’affichage par Internaute,
est flexible pour le stockage, extensible et nous donne une       •  créer un reporting solide pour nos clients,
très grande puissance de calculs distribués.                      •  Nous utilisons notre infrastructure Big Data pour optimiser
                                                                     en temps réel les achats d’espaces publicitaires.
Nous intégrons aussi d’autres technologies directement
branchées sur notre Big Data comme Néo4J pour optimiser
nos algorithmes de parcours de graphs ou MemCached pour
servir efficacement certaines données à nos applications




                                                                                                                                   Porteur du projet
                                                                                                                                   Denis GARCIA - Gamned - Directeur R&D
DEUS
Objectif du projet                                              Innovation                                                        Etapes à venir et démarche Big Data dans l’entreprise
Réaliser sur un des plus grands supercalculateurs au monde,     Le projet DEUS a pour la première fois disposé de                 Les mécanismes de délégation des entrées/sorties réalisés
le premier calcul de la formation des structures cosmiques      l’infrastructure, capable de charger en mémoire TOUT              par le projet DEUS seront ré-utilisées pour des applications
dans TOUT l’Univers observable du Big-bang à aujourd’hui        l’Univers observable et permettre des simulations dans des        comme l’évolution du climat, la fusion par confinement
pour trois modèles d’énergie noire, mystérieuse composante      temps de calcul satisfaisants et, surtout, capable de stocker     magnétique (ITER) ou la combustion. Une autre option
représentant plus de 70% du contenu énergétique de              et de post traiter à la volée à un débit soutenu de 50Go/s plus   consistera à évaluer des approches type Map/Reduce sur
l’Univers et moteur de son expansion accélérée.                 de 150 péta octets de données réduits à un volume final utile     des données scientifiques complexes, en utilisant des
                                                                et acceptable de 1.5 péta octets. Tous les aspects du calcul      systèmes de fichiers parallèle Lustre ou GPFS avec des
Présentation                                                    haute performance ont été sollicités durant ce défi numérique     réseaux Infiniband.
Chacune des simulations a permis de suivre l'évolution          et les performances atteintes par notre application sont une
gravitationnelle de 550 milliards de particules sur plus de     première pour un code en production en astrophysique et
2500 milliards de points de calcul avec une résolution          plus généralement pour le calcul haute performance.
spatiale de la taille de la Voie Lactée à celle de l'Univers
observable. Les 150 Poctets de données générées durant les      Résultats
calculs ont été finalement réduites à 1.5 Poctets grâce à une   Les données résultant du projet DEUS sont à la disposition
procédure innovante et performante de traitement de             de la communauté scientifique internationale. Elles
données indispensables pour un tel projet.                      constituent un support exceptionnel aux grands projets
Pour la première fois nous disposons de la distribution de      observationnels des agences spatiales ESA et NASA comme
matière dans TOUT l’Univers observable semblable à celle        le satellite européen Planck dont les résultats seront
qui pourrait être observée par les télescopes et nous y         prochainement publiques et le futur télescope spatial Euclid
reconnaissons les structures cosmiques en formation tout au     lancé en 2019.
long de l’histoire de notre Univers.




                                                                                                                                  Porteur du projet
                                                                                                                                  Observatoire de Paris – Jean-Michel Alimi
                                                                                                                                  GENCI – Stéphane Requena
GET PLUS
Présentation
GETPLUS www.getplus.fr , projet CLOUD basée sur
l’agrégation annuelle de plus de 100 MILLIONS de données
MARKETING comportementales en provenance de plus de
1000 DATAMARTS de WEB TRACKING.
GETPLUS révèle l’identité des entreprises qui visitent un site
Internet, même celles qui n’ont pas remplies de formulaire de
contact, ce qui permet de réengager le bon prospect, avec le
bon besoin au bon moment.




                                                                            Porteur du projet
                                                                            Porteur du projet
                                                                            Hervé Gonay – Fondateur – GET PLUS

                                                                            Partenaires
                                                                            RUNMYPROCESS : Alexandre LACHMANN
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data

Contenu connexe

Similaire à Slides trophee big data

20160216 - From BigData to BigProcessing
20160216 - From BigData to BigProcessing20160216 - From BigData to BigProcessing
20160216 - From BigData to BigProcessingPierre-Marie Brunet
 
Prez ia big_data_bruno_v3_finale
Prez ia big_data_bruno_v3_finalePrez ia big_data_bruno_v3_finale
Prez ia big_data_bruno_v3_finaleBruno Seznec
 
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...OCTO Technology
 
EXL Group - Offre Data Science
EXL Group - Offre Data ScienceEXL Group - Offre Data Science
EXL Group - Offre Data ScienceAshraf Grioute
 
Présentation du FME World Tour du 12 avril 2017 à Montreal
Présentation du FME World Tour du 12 avril 2017 à MontrealPrésentation du FME World Tour du 12 avril 2017 à Montreal
Présentation du FME World Tour du 12 avril 2017 à MontrealGuillaume Genest
 
Sido 2017 : Vincent Thavonekham, MVP azure et Regional Director, VISEO, Retou...
Sido 2017 : Vincent Thavonekham, MVP azure et Regional Director, VISEO, Retou...Sido 2017 : Vincent Thavonekham, MVP azure et Regional Director, VISEO, Retou...
Sido 2017 : Vincent Thavonekham, MVP azure et Regional Director, VISEO, Retou...FactoVia
 
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...Jean-Michel Franco
 
Pres azure paas tdf -rex-hager-vincent thavonekham-regional director-azug f...
Pres azure   paas tdf -rex-hager-vincent thavonekham-regional director-azug f...Pres azure   paas tdf -rex-hager-vincent thavonekham-regional director-azug f...
Pres azure paas tdf -rex-hager-vincent thavonekham-regional director-azug f...FactoVia
 
Évaluation du rôle des technologies géomatiques dans les processus de consult...
Évaluation du rôle des technologies géomatiques dans les processus de consult...Évaluation du rôle des technologies géomatiques dans les processus de consult...
Évaluation du rôle des technologies géomatiques dans les processus de consult...ACSG Section Montréal
 
Les technologies big data avec speech commentaries
Les technologies big data avec speech commentariesLes technologies big data avec speech commentaries
Les technologies big data avec speech commentariesRima Jamli Faidi
 
La ville de Trois-Rivières intègre un volet cartographique à son processus
La ville de Trois-Rivières intègre un volet cartographique à son processusLa ville de Trois-Rivières intègre un volet cartographique à son processus
La ville de Trois-Rivières intègre un volet cartographique à son processusACSG Section Montréal
 
Investissements d'avenir axe cloud computing
Investissements d'avenir axe cloud computingInvestissements d'avenir axe cloud computing
Investissements d'avenir axe cloud computingcapdigital
 

Similaire à Slides trophee big data (20)

20160216 - From BigData to BigProcessing
20160216 - From BigData to BigProcessing20160216 - From BigData to BigProcessing
20160216 - From BigData to BigProcessing
 
Prez ia big_data_bruno_v3_finale
Prez ia big_data_bruno_v3_finalePrez ia big_data_bruno_v3_finale
Prez ia big_data_bruno_v3_finale
 
FTC Workshop-genci
FTC  Workshop-genciFTC  Workshop-genci
FTC Workshop-genci
 
HADOOP + R
HADOOP + RHADOOP + R
HADOOP + R
 
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...
 
BigData on change d'ère !
BigData on change d'ère ! BigData on change d'ère !
BigData on change d'ère !
 
EXL Group - Offre Data Science
EXL Group - Offre Data ScienceEXL Group - Offre Data Science
EXL Group - Offre Data Science
 
Présentation du FME World Tour du 12 avril 2017 à Montreal
Présentation du FME World Tour du 12 avril 2017 à MontrealPrésentation du FME World Tour du 12 avril 2017 à Montreal
Présentation du FME World Tour du 12 avril 2017 à Montreal
 
Québec : ville virtuelle
Québec : ville virtuelleQuébec : ville virtuelle
Québec : ville virtuelle
 
Big data
Big dataBig data
Big data
 
Sido 2017 : Vincent Thavonekham, MVP azure et Regional Director, VISEO, Retou...
Sido 2017 : Vincent Thavonekham, MVP azure et Regional Director, VISEO, Retou...Sido 2017 : Vincent Thavonekham, MVP azure et Regional Director, VISEO, Retou...
Sido 2017 : Vincent Thavonekham, MVP azure et Regional Director, VISEO, Retou...
 
Quel hadoop (#quelhadoop)
Quel hadoop (#quelhadoop)Quel hadoop (#quelhadoop)
Quel hadoop (#quelhadoop)
 
Urban Big Data .pdf
Urban Big Data .pdfUrban Big Data .pdf
Urban Big Data .pdf
 
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
 
Pres azure paas tdf -rex-hager-vincent thavonekham-regional director-azug f...
Pres azure   paas tdf -rex-hager-vincent thavonekham-regional director-azug f...Pres azure   paas tdf -rex-hager-vincent thavonekham-regional director-azug f...
Pres azure paas tdf -rex-hager-vincent thavonekham-regional director-azug f...
 
Évaluation du rôle des technologies géomatiques dans les processus de consult...
Évaluation du rôle des technologies géomatiques dans les processus de consult...Évaluation du rôle des technologies géomatiques dans les processus de consult...
Évaluation du rôle des technologies géomatiques dans les processus de consult...
 
Les technologies big data avec speech commentaries
Les technologies big data avec speech commentariesLes technologies big data avec speech commentaries
Les technologies big data avec speech commentaries
 
Omd sotmfr
Omd sotmfrOmd sotmfr
Omd sotmfr
 
La ville de Trois-Rivières intègre un volet cartographique à son processus
La ville de Trois-Rivières intègre un volet cartographique à son processusLa ville de Trois-Rivières intègre un volet cartographique à son processus
La ville de Trois-Rivières intègre un volet cartographique à son processus
 
Investissements d'avenir axe cloud computing
Investissements d'avenir axe cloud computingInvestissements d'avenir axe cloud computing
Investissements d'avenir axe cloud computing
 

Slides trophee big data

  • 1.
  • 2.
  • 3.
  • 4. Gaia Satellite Data Processing Challenges Objectifs Innovation Prochaines étapes Gaia is a cornerstone mission of the European Space Agency The data processing is very intense in terms of IO and many The data sent by the external Data Processing centres will be to be launched towards tests with different alternatives and increasing amounts of gathered and integrated in a central repository, analysing and the end of 2013. It will scan the sky for 5 years measuring data have been performed. We will outline some of the verifying its integrity in order to find possible flaws in the with unprecedented accuracy the positions and motions of problems found along the way. Since 2008 we have had a processing will be far from trivial and need significant IO more than 1000 million stars from the Galaxy. This data will fruitful collaboration with Intersystems Cache which has been demands due to the large number of records. allow us to create a 3D model of the Milky Way. Gaia which non-traditional in many aspects as we have had costumer- will revolutionize may fields of Astronomy. provider contacts at multiple levels (management, experts, Sometime in 2020 the final catalogue should be made developers), this has proven very beneficial for both parties available to the scientific community, the archive and data Présentation and has lead to fast turn-around time in getting new versions, access mechanism is starting to shape now and will also be The satellite will send to ground every day its observations problems fixed, new features. It has also allowed us to highly demanding in terms of data access. Often amounting to 50 GB, this data will be processed continuously optimize the system for our needs and obtain adequate disentangling instrument or processing artifacts from real in order to asses the satellite performance. The daily performance without going for expensive top hardware issues will require the execution of user provided algorithms processing is critical in terms of robustness and reliability as it solutions. which can discover hidden correlations within the data. is needed in order to adjust the instrument settings on board Gaia to meet the scientific requirements. Résultats Information additionnelles We have now in place the core systems which will be needed The trend in astronomy and other scientific fields in the last At the end of the mission we will have of the order 100 TB of to start receiving and processing the data sent by Gaia by the decades has been to build more sensitive and powerful raw compressed data. end of the year, so far one of the main worries in the project instruments, larger antenas and better satellites/ which was the performance and scalability of the data access observatories, this has led to a huge increase in the amount The long term processing of this data involves 6 European rate needed for the processing has been solved. of data to be processed. Simultaneously this has been Data Processing Centres and will be done multiple times with compensated by the developments in in the IT Industry at the increasing amounts of data. The estimated size of the data software and hardware levels. The processing of Gaia's data processed after the 5 year mission will be in the order of 1 presents unmatched challenges in this respect and will open Pbyte and the final catalogue should be published by 2021. the road too future missions. In order to achieve the necessary precision every factor affecting the observations needs to be modelled, this means adapting the model as we process the data in an iterative manner. The core processing implemented in Java will use over 200 million stars and their 160,000 million measurements. A direct solution is not computationally affordable due to the huge number of unknowns, instead an iterative process adjusting the stars positions, motions, Porteur du projet satellite orientation, and calibrations has been designed and Jose Luis Hernández Muñoz, Gaia Operational Data and implemented. Calibration Engineer - European Space Agency Partenaires Intersystems, Jose Ruperez, Jose Costa, Robert Bira
  • 5. Alephd, we help publishers Objectifs Innovation Prochaines étapes AlephdD permet aux éditeurs de médias web et aux AlephD est la première solution d’optimisation des revenus AlephD cherche aujourd’hui des investisseurs pour accélérer gestionnaires d'inventaires d'espaces publicitaires de tirer des éditeurs de site pour le RTB, en tempsréel son développement et attaquer le marché international : profit des technologies d'enchères en temps réel (RTB). et indépendante d’une plateforme. européen dans un premier temps, puis américain. Les Grâce à une technologie big data temps réel, AlephD rend En effet, il existe aujourd’hui deux types de solutions : principaux investissements prévus concernent le recrutement possible une optimisation utilisateur par utilisateur de la vente - des solutions « statiques », qui optimisent les paramètres d’ingénieurs, de statisticiens et de business developers. Par d'espaces sur les plateformes d'enchères (AppNexus, une fois par jour par ex. Ces solutions ne prennent pas en ailleurs, AlephD continue son travail avec ses clients Rubicon, Google...). compte les particularités de chaque utilisateur, et manquent existants, développant de nouveaux algorithmes, avec donc une bonne partie des opportunités d’optimisation comme objectif de convaincre d’importants nouveaux clients Présentation - des solutions « in-house » de plateformes, qui sont des d’ici au deuxième semestre. L'arrivée du RTB donne aux acheteurs et aux vendeurs boîtes noires. Ces options ont mauvaise réputation chez les d'espaces publicitaires la possibilité de personnaliser leurs annonceurs, qui détectent et fuient les éditeurs y recourant ordres en temps réel, utilisateur par utilisateur. Cela car peu transparentes et remettant en cause l’équité des nécessite le déploiement d'une infrastructure serveur enchères. complexe (big data, temps réel) et la mise en place d'algorithmes de décision. Résultats Les données traitées sont des logs d’enchères de publicités Les données recueillies permettent de comprendre comment en ligne. Concrètement, AlephD obtient, pour chaque s’effectuent les enchères, au degré de granularité le plus fin. affichage de publicité sur le site d’un de ses clients, les Elles permettent ainsi de découvrir et donc de modéliser les informations sur le prix et les paramètres de l’enchère comportements des acheteurs de publicité. correspondante. Ces informations sont recueillies en temps Sur les données disponibles, la technologie d’AlephD permet réel par nos serveurs, qui les mettent ensuite sur un cluster d’obtenir une amélioration des revenus de l’ordre de 30%. Hadoop. Aujourd’hui, AlephD ne traite que les données issues de la plateforme d’enchère AppNexus, qui est la solution la plus transparente et qui connait le plus de croissance actuellement. AlephD a développé une technologie propriétaire unique pour traiter ces données et optimiser les paramètres d’enchère en temps réel. Cette technologie repose sur deux piliers : - une infrastructure big data, utilisant les technologies Hadoop et Hive. AlephD développe des algorithmes en Map/ Reduce pour exploiter au mieux ces Tera-octets de données ; Porteur du projet - une infrastructure temps réel de prise de décision, c’est-à- Vincent Lepage - Directeur Général – AlephD SAS dire capable de répondre en moins de 10ms à une requête Nicolas Grislain – Président – AlephD SAS de paramètres d’enchère, avec plusieurs milliers de requêtes Partenaires par secondes. Pubsquared Audience Square
  • 6. Artimon, service de collecte et d'analyse de métriques à large échelle. Objectifs Innovation Prochaines étapes Offrir un service de centralisation de métriques à caractère L'utilisation d'un format universel de métriques permet de ne Les étapes à venir pour ce projet sont l'instrumentation de technique et fonctionnel permettant un suivi temps-réel et pas avoir autant d'outils de monitoring (technique ou nouvelles applications et l'exploitation des métriques historique du fonctionnement de l'entreprise. business) que de périmètres, il en découle des possibilités produites. La disponibilité de métriques vise à centrer les d'analyses croisées riches d'enseignements (quel est l'impact processus de décisions de l'entreprise autour de données Présentation d'une augmentation de température sur le comportement des objectives. Le projet Artimon définit un format universel de métriques, les bases de données et in fine sur les temps de traitements des différents périmètres fonctionnels et techniques de requêtes issues des sites Web). Information additionnelles l'entreprise produisent des indicateurs (de type compteurs ou Ce projet s'inscrit dans une démarche Big Data plus large jauges) sous ce format. Ces indicateurs sont collectés toutes La facilité d'instrumentation des applicatifs permet de initiées dès 2009 au sein du groupe Crédit Mutuel Arkéa. les minutes sur l'ensemble des machines du groupe Crédit rapidement disposer de métriques éclairant les métiers sur Mutuel Arkéa et remontés sur la plate-forme Big Data basée l'activité de leur périmètre. Les spécialistes des différents Ce projet a été réalisé par des équipes internes du Crédit sur Hadoop. domaines ont le sentiment de ne plus être aveugles et Mutuel Arkéa. cantonnés à des chiffres à J+1. Ce projet a été initié dans les équipes techniques du groupe Crédit Mutuel Arkéa qui ont mis au point l'infrastructure de Résultats collecte et de stockage. Les premières métriques collectées L'analyse de la distribution statistique des indicateurs permet furent techniques (températures de machines, espaces de faire de la détection d'anomalie, par exemple lorsqu'une disques disponibles, charge machine, ...) et ont été utilisées machine est sur le point de tomber en panne suite à un pour la mise au point de fonctions d'analyse de ce type de défaut de refroidissement, ou que le volume d'opérations d'un données. Ces fonctions d'analyse sont capables de certain type est atypique par rapport au volume déclencher des alertes, permettant une réaction rapide à des habituellement observé le même jour sur la même plage situations anormales. horaire. Une fois la chaîne complète mise au point sur le périmètre En cas d'incident, la priorité est donnée au rétablissement du des données initiales, les équipes en charge des périmètres service, la disponibilité des métriques sur la période fonctionnels (spécialistes métier et développeurs) ont été précédant la survenue de l'incident permet lorsque la accompagnées dans l'instrumentation de leurs applications et situation est rétablie de procéder à une analyse post-mortem la mise au point de fonctions d'analyse propres à leurs de l'indicent et à la mise en place de mécanismes d'alertes métiers. adaptés. Les travaux sur ce projet ont débuté en 2009, le périmètre de L'existence de métriques dont la signification est maîtrisée collecte s'est agrandi graduellement pour couvrir depuis fin permet de mettre en place des contrats de services (SLA) 2012 l'ensemble des serveurs du groupe Crédit Mutuel basés sur des éléments objectifs. L'historisation de ces Arkéa. métriques permet de tester différents modes de calculs des indicateurs de SLA afin de déterminer par exemple si un abaissement de seuil est ou non compatible avec la réalité de Porteur du projet la production. Matthias Herberts - Engineer – Credit Mutuel Arkea
  • 7. BELOGIK: rendre les logs intelligentes Objectifs Innovation Le projet vise à améliorer la connaissance de Outscale sur le L’innovation pour Outscale est de produire une connaissance comportement de ses clients dans l’utilisation de ses services intime du comportement de son infrastructure. La mise à d’IaaS. L’infrastructure de production de Outscale est disposition d’une énergie informatique élastique et sans décentralisée sur plusieurs sites physiques dans le monde et «limite » génère des usages et des comportements de la part fonctionne sur plusieurs fuseaux horaires. des clients en complète rupture avec l’hébergement traditionnel à capacité finie. L’innovation réside à donner corps au concept de Customer Insight dans un contexte Présentation technologique, c’est une rupture majeure avec les pratiques L’infrastructure de Outscale produit des millions de lignes de marketing en vigueur dans cette industrie. Les bénéfices pour données machines par jour sur le fonctionnement de Outscale sont immenses avec un capacité de provisionner l’infrastructure : ouverture d’instance, fermeture d’instance, plus finement ses ressources physiques et surtout d’adapter consommation des ressources, augmentation des à terme son offre de services à ces nouveaux ressources, trace d’erreurs, communication réseau, …. comportements. Un effet de bord induit est d’accélérer le Croissant de 50% par an, le nombre d’opérations d’une traitement de l’analyse des données machines en situation infrastructure cloud dépasse les 500 opérations à la seconde d’anomalie. C’est un projet stratégique pour le et les traces laissées par l’infrastructure sont de plus en plus développement de l’entreprise. nombreuses. Les solutions actuelles de traitement de données ne Résultats permettent ni d’agréger les données au regard de la diversité L’objet du projet consiste à collecter toutes les données, des formats produits par les équipements techniques, ni de permettant éventuellement une fouille en temps réel et traiter les volumes engendrés. surtout de construire les indicateurs métiers permettant au Le projet est basé sur la solution BELOGIK d’analyse de log Product Manager de Outscale de proposer des nouvelles as a service. offres de service. L’objet du projet consiste à : •  collecter à l’échelle du big data les données machines, •  permettre la fouille en temps réel dans les données machines, •  générer l’intégralité des indicateurs métiers. Porteur du projet Christophe Ballihaut - Président – Belogik Le projet est en phase de prototypage des indicateurs métiers avant de passer à la phase de montée en charge de Partenaires la solution et de qualification des performances. Le partenaire du projet est Outscale, Le Cloud Français, opérateur de services cloud computing. Le fournisseur d'un des plus grands éditeurs de logiciels mondiaux s'appuie sur les services d’Outscale pour opérer l’ensemble de ses activités SaaS. Laurent Seror – Président
  • 8. “Moving Data & BIME: Harnessing the power of Google BigQuery” Objectifs Innovation Prochaines étapes Moving Data improves mobile performance by ensuring the Scaling a database is hard and scaling analytical databases Roll-out of the product to a larger number of customers quality and serviceability of telephone and broadband is even harder. BIME powered by Google BigQuery offers an dealing with ever increasing volumes of data. networks in the Australian Outback. The company has analytical database as a service that scales to petabytes of developed advanced methods to collect and disseminate data. It means that Moving Data doesn’t require sophisticated alerts and statistics from mobile devices and supporting infrastructure and an operational team to analyze data. BIME mobile networks. When dealing with millions of network- + Google BigQuery provide Moving Data with a reliable, quick generated events, trend analysis rather than specific alerts and infinitely scalable pay-as-you-go service to tap data becomes critical to make the right decisions fast. generated by the Internet of Things. Moving Data had two needs that only BIME could satisfy. It With Moving Data based in Australia and BIME in France, this needed tools to enable interactive, visual analysis of Big Data project has been undertaken across disparate time- emerging network issues. They also wanted to communicate zones. However, with everything in the cloud, execution has insights to their current clients via collaborative and online been fast at all stages: testing, implementation and client dashboards, as well as promote insights to other validation, even in a Big Data context. The scalability of the telecommunications clients with similar data, which is BIME-BigQuery combo can facilitate the regular standardized across the industry, for a fee. They needed Big incrementation in the volume of data. Data analytics in real-time. Résultats Présentation Moving Data’s prime benefit consists of harnessing events type of data processed, approximate volume: and audit data and communicating insights to clients (major For the initial project, the type and volume of data processed Australian telco companies) as quickly and as concisely as by BIME and Big Query was 500 million radius records, possible. Dashboards with KPIs reduce the customer 10,000 network probes, 120.6 million sessions, 960 device decision-cycle for further analytical actions. models. With each future project the amount of data processed is projected to increase exponentially. Resources used: human skills, technical tools: BIME cloud BI runs in any browser, queries datasets stored in BigQuery at the speed of thought and, thanks to its’ powerful calculation engine, displays results in interactive analysis dashboards, in seconds. BIME’s BigData project manager worked in parallel with the client on the dashboard setup and design. At Moving Data, CEO and founder Craig Morton worked on the project along with an in-house IT engineer. Porteur du projet Rachel Delacour - CEO – Bime
  • 9. “Moving Data & BIME: Harnessing the power of Google BigQuery” Objectifs Innovation Prochaines étapes Moving Data improves mobile performance by ensuring the Scaling a database is hard and scaling analytical databases Roll-out of the product to a larger number of customers quality and serviceability of telephone and broadband is even harder. BIME powered by Google BigQuery offers an dealing with ever increasing volumes of data. networks in the Australian Outback. The company has analytical database as a service that scales to petabytes of developed advanced methods to collect and disseminate data. It means that Moving Data doesn’t require sophisticated alerts and statistics from mobile devices and supporting infrastructure and an operational team to analyze data. BIME mobile networks. When dealing with millions of network- + Google BigQuery provide Moving Data with a reliable, quick generated events, trend analysis rather than specific alerts and infinitely scalable pay-as-you-go service to tap data becomes critical to make the right decisions fast. generated by the Internet of Things. Moving Data had two needs that only BIME could satisfy. It With Moving Data based in Australia and BIME in France, this needed tools to enable interactive, visual analysis of Big Data project has been undertaken across disparate time- emerging network issues. They also wanted to communicate zones. However, with everything in the cloud, execution has insights to their current clients via collaborative and online been fast at all stages: testing, implementation and client dashboards, as well as promote insights to other validation, even in a Big Data context. The scalability of the telecommunications clients with similar data, which is BIME-BigQuery combo can facilitate the regular standardized across the industry, for a fee. They needed Big incrementation in the volume of data. Data analytics in real-time. Résultats Présentation Moving Data’s prime benefit consists of harnessing events type of data processed, approximate volume: and audit data and communicating insights to clients (major For the initial project, the type and volume of data processed Australian telco companies) as quickly and as concisely as by BIME and Big Query was 500 million radius records, possible. Dashboards with KPIs reduce the customer 10,000 network probes, 120.6 million sessions, 960 device decision-cycle for further analytical actions. models. With each future project the amount of data processed is projected to increase exponentially. Resources used: human skills, technical tools: BIME cloud BI runs in any browser, queries datasets stored in BigQuery at the speed of thought and, thanks to its’ powerful calculation engine, displays results in interactive analysis dashboards, in seconds. BIME’s BigData project manager worked in parallel with the client on the dashboard setup and design. At Moving Data, CEO and founder Craig Morton worked on the project along with an in-house IT engineer. Porteur du projet Rachel Delacour - CEO – Bime
  • 10. ICANIC : Intellectual Capital Analytics Objectifs Innovation Prochaines étapes L’objectif est de créer un instrument de mesure de la valeur Les brevets sont jusqu’à présent considérés comme ne Finalisation et lancement commercial de la V1 pour fin 2013. intrinsèque des brevets, fondé sur des critères objectifs et pouvant relever que d’appréciation d’expert et le projet de La prochaine étape sera d’étendre la capacité de notation statistiques, qui s’applique à l’ensemble des brevets du traiter les brevets comme des données qu’il est possible de aux brevets américains et asiatiques. monde.. traiter statistiquement pour en tirer du sens constitue une révolution dans cet univers. Présentation Les volumes sont considérables puisqu’il s’agit de traiter Résultats l’ensemble des données sur les brevets contenues dans les La valorisation commerciale d’Icanic s’effectuera de trois bases des offices de propriété intellectuelle. manières : •  Mise en place de web-crawlers et de flux XML permettant •  par son utilisation par les entreprises et leurs d’industrialiser la récupération en temps réel des interlocuteurs financiers, auxquels il donnera le moyen informations brevets d’évaluer objectivement la valeur d’un portefeuille de •  Mise en place d’une architecture de stockage et d’une brevets architecture de calcul / ré-estimation de scores temps réel •  en direction des investisseurs financiers par la création en environnement Big Data d’indices boursiers de type « CAC 40 » qui permettront •  Analyse de type text-mining sur les textes de brevets d’identifier la performance des entreprises inventives et permettant de créer des données qualifiantes structurées de diriger l’épargne vers elles. à partir de données non structurées •  L’intégration des notes dans les analyses vendues par •  Croisement des données qualifiantes du brevet avec les des agences de notation sociale. L’analyse de la capacité données administratives et de citations. d’innovation des entreprises est un complément naturel •  Mise en place de modèles statistiques de durée de vie, aux analyses existantes de ces agences, telles que permettant d’estimer la durée de vie résiduelle d’un Vigeo. brevet en fonction de ses caractéristiques intrinsèques •  Développement de web services de restitution des Le schéma suivant résume la valorisation escomptée de données (en cours) l’outil : Porteur du projet Patrick Terroir – Directeur Général Délégué – CDC Propriétéintellectuelle Partenaires Bluestone est notre partenaire pour les travaux de modélisation statistique. Arnaud Laroche est notre directeur de mission depuis 2010. Fourniture des données et hébergement : Questel Expertise sur la vie des brevets : Marks&Clerk France
  • 11. Cedexis Radar Objectif du projet Aspects Novateurs Etapes à venir et démarche Big Data dans l’entreprise L’objectif de Cedexis Radar est de comparer de façon neutre Cedexis Radar ne réalise pas ses mesures depuis quelques Cedexis envisage de collecter et d’utiliser toujours plus de et objective la qualité de service des fournisseurs de services points déterminés (et un unique réseau) dans le monde. Le données pour optimiser l’aiguillage de trafic vers le meilleur d’hébergement et de diffusion de contenus (CDN, Clouds…) système de mesure repose sur la collecte de données diffuseur/hébergeur de contenus. C’est le cas avec Cedexis pour aiguiller les utlisateurs finaux vers le meilleur prestataire (techniques) issues des vrais utilisateurs qui exécutent la Fusion qui permet d’aiguiller le trafic en fonction de et améliorer la performance d’un service en ligne. sonde Cedexis Radar lorsqu’ils consultent les sites d’éditeurs nombreuses variables personnalisées telles que l'énergie intégrant celle-ci. Chaque jour, Cedexis collecte, traite et utilisée par l’infrastructure, la charge des serveurs (et/ou des Présentation utilise en temps-réel près d’un milliard de mesures issues des métriques liées à ces serveurs comme l’usage de mémoire Aucun prestataire (hébergeur, CDN, Cloud) n’est performant utilisateurs finaux répartis dans 230 pays et 34 000 réseaux RAM, l’état des disques durs, etc), le coût des prestataires et partout, tout le temps et pour tous les utilisateurs finaux. Ces d’accès (FAI, entreprises…). bien plus encore... toujours dans l’objectif d’anticiper ou variations sont liées à de multiples facteurs provenant - par contourner une éventuelle défaillance de leur infrastructure exemple - de la distance entre l’utilisateur final et le serveur Valorisation observée de la donnée pour améliorer la performance des applicatifs hébergés et d’origine, de la latence, du chemin d’accès aux serveurs du Autrefois, les données de monitoring d’infrastructures diffusion de contenus Internet. prestataire ou à la saturation/dégradation momentanée de n’étaient utilisées que de façon passive, c'est-à-dire après segments du réseau public. analyse longue. Cedexis a voulu rendre « actives » ces données : Les mesures de Cedexis Radar servent ainsi à Les données collectées par Cedexis « Radar » permettent de prendre une décision automatisée (en temps réel) d’usage lever le voile sur la véritable qualité de services des d’un prestataire pour améliorer la performance et la prestataires. Elles sont utilisées par l’aiguilleur de trafic DNS disponibilité des services en ligne pour chaque utilisateur à Cedexis « OpenMix » pour diriger le trafic vers le meilleur travers le monde, quelque soit son terminal et son réseau prestataire et ceci, en prenant en compte les données de d’accès. Radar et/ou les critères définis par l’éditeur de contenus (performance, géographie, coûts, capacité technique / bande passante, engagements contractuels...). Les éditeurs ont ainsi l’assurance que chaque utilisateur de ses services pourra visualiser ses contenus ou utiliser ses services de façon optimale. porteur de projet et noms des partenaires Société : Cedexis Service : Cedexis Radar
  • 12. Distributed e-commerce : bringing online shops to high-traffic content websites Objectifs Innovation Prochaines étapes Amener des magasins en ligne directement dans des sites de Cette application ouvre les portes d’un nouveau marché : Notre réseau de partenaires s’étend tous les mois, aussi bien contenu l’échange de données qualifiées et sémantisées entre le en termes de magasins en ligne que d’éditeurs. monde du contenu et de l’achat, qui jusqu’ici ne se parlaient Présentation que par bannières agressives interposées. A l’inverse, nous Informations supplémentaires Nous créons un lien entre le monde du contenu et de l’achat, tâchons de reproduire un maximum de l’expérience utilisateur http://corporate.chefjerome.com en développant une gamme d’interfaces qui permettent d’un magasin, directement dans la page d’origine. adurieux@chefjerome.com d’apporter des magasins en ligne directement dans des sites Là où la plupart des usages BigData se contentent de de contenu, dans des formats reprenant les codes de la chercher de vagues corrélations dans des volumes de publicité en ligne classique. données importantes, l’originalité de notre approche est de Grâce à une analyse sémantique, nous affichons au sein de privilégier une compréhension profonde et sémantique de cette interface des produits parfaitement qualifiés, afin de données complexes et intriquées. permettre à un utilisateur de commencer ou de compléter un panier sans même quitter la page. Résultats Nous avons lancé en Décembre 2012 dans le domaine de Nos interfaces sont non-intrusives, parfaitement qualifiées et l’alimentaire, en apportant des supermarchés en ligne apportent un service supplémentaire à la page qui les (CasinoExpress, CasinoDrive, MesCoursesCasino, Mon- héberge, ce qui nous permet d’atteindre des taux de clics Marché) dans des sites culinaires (l’AtelierDesChefs, C’vous, absolument stupéfiants, signe d’un nouveau vecteur blogs, forums)… d’acquisition de clients et de monétisation du contenu. Porteur du projet Jerome SAS Partenaires Groupe SEB – François-Xavier Meyer Groupe CASINO – Patrick Garrel
  • 13. CLIRIS, plate-forme de pilotage des points de vente par l’analyse des flux shoppers Objectifs Innovation Prochaines étapes Délivrer aux Retailers des indicateurs-clés de performance Accès à de nouveaux leviers de pilotage de leur réseau, Nouveaux modules : inédits et développer ainsi de nouveaux leviers d’optimisation auparavant inexploités : •  cartographie des mesures de performance des ventes grâce à l’analyse du comportement des « •  attractivité des vitrines, des points de vente •  gestion de la planification des ressources RH d’une shoppers ». •  adéquation des équipes de vente au flux client, boutique •  optimisation du plan merchandising et circulation des •  module prédictif Présentation clients au sein des boutiques, •  module de simulation de l’activité d’un réseau et d’une Conception et mis en œuvre d’une plateforme d’analyse de •  optimisation du calendrier des opérations commerciales boutique données Big Data. •  impact des opérations commerciales Cliris reçoit chaque jour un volume de données exceptionnel depuis les box en points de vente et les SI clients. Ce flux de Résultats données asynchrone est intégré de façon périodique, avec •  Fiabilité des données une actualisation chaque minute possible. Les informations •  Prise en compte et exploitation en temps réel sont consolidées, croisées et structurées avant d’être •  Restitution d’indicateurs de pilotage inédits et restituées sur notre portail de reporting permettant une personnalisés supervision de la performance des points de vente et l’édition de tableaux de bord. Porteur du projet Anne Steinberg Directeur Marketing
  • 14. ELLICIBLE Objectifs Innovation Prochaines étapes Pour répondre aux évolutions technologiques et à la Ellicible s’appuie sur une technologie européenne novatrice Réel projet d’entreprise associant tant la direction générale demande du « realtime marketing » où l'information produite et apporte la commodité du « search » grand public au poste que les experts métier et les marketeurs, l’objectif de n'est plus segmentée en silos fonctionnels mais selon les de travail du professionnel en marketing direct. Dans les www.ellicible.fr est de créer avec cette technologie innovante usages de la cible, Coface Services a entrepris la refonte de sélections, elle rend la donnée accessible immédiatement et unique sur son marché de nouvelles opportunités de son offre « Solutions Data ». Lancée le 20 mars 2013, élimine les temps de latence dans l’affichage des résultats. développement en « Solutions Data ». www.ellicible.fr est une plateforme marketing direct « big Exprimé d’une autre manière, l'application utilisant le moteur Dans les étapes à venir pour accompagner les besoins data» en temps réel et à haut débit. Sa vocation est de cibler, de ParStream réalise à grande échelle un « facetted search » utilisateurs, sera associée à cet outil une politique trier, ventiler, explorer, segmenter, surveiller et extraire des sur plus d'une centaine de dimensions en temps réel. d’intégration de données complémentaires avec la possibilité populations d’entreprises dans un espace multidimensionnel L’outil associe à cette technique novatrice une politique de recherche textuelle. de plusieurs dizaines de milliards de données. d’intégration de nouvelles sources partenaires visant des données riches et volumineuses tant nationales ou Présentation internationales que métiers. Ellicible intègre le moteur « big data analytics » de ParStream La combinaison « technique » et « données » permet de GmbH. Elle transforme le concept de ciblage et comptage répondre aux nouveaux usages et demandes de nos clients à haut débit temps réel en réalité opérationnelle sur des la recherche de performances permettant de cibler le plus données volumineuses. juste et le plus rapidement possible leurs clients potentiels. Ce moteur repose sur une approche innovante d’index compressés à très hautes performances couplée à un Résultats traitement parallèle de requêtes. Cette mécanique permet Ellicible permet de traiter des milliers de requêtes à très forte l’accès aux données à haut débit et à très faible latence. volumétrie d’informations (milliards de données) en temps C’est ainsi que sous une faible empreinte énergétique et réel (millisecondes). L’utilisateur, à travers la combinaison de matérielle des milliers de requêtes sont traitées sur de très multiples critères, compte de manière instantanée des fortes volumétries d’informations (milliards de données) en potentiels au fur et mesure de l’élaboration de ces stratégies temps réel (millisecondes). et identifie des entreprises. Le rôle d’Ellicible est de Avec cette technologie novatrice associée à ses solutions construire des groupes homogènes pour mettre en place des métiers, Coface Services a su surmonter les problématiques opérations de marketing direct différenciées en fonction de techniques traditionnelles des bases de données. Ellicible segments identifiés. s’affranchit de l’UX « essai-erreur » et de la gestion des tâches complexes et asynchrones tout en maintenant une très forte réactivité data avec de faibles ressources. Ces performances comparées aux technologies traditionnelles, ou même avec NoSql, bouleversent les usages de la profession du marketing direct habituée à des Porteur du projet temps de calcul et d’affichage importants avant d’avoir le Bernard Simon – Responsable Marketing Data Solutions résultat d’un ciblage. – COFACE SERVICES Partenaires Partream GMBH : Peter Livaudais, Sr. Director Solutions
  • 15. Tableau de bord des Territoires Objectifs Innovation Prochaines étapes Proposer aux utilisateurs une base de données toujours à L’innovation du projet tient à (i) la mise à disposition de Data Publica est « développeur de jeux de données », c'est- jour de l’ensemble des données de description l’ensemble des données structurée selon la dimension à-dire qu’il produit des jeux de données pour ses clients. (démographiques, économiques, immobilier, activité, mobilité, géographique, (ii) la mise à jour automatique et permanente Pour cette production, Data Publica identifie les sources, …) des territoires (bassin d’emplois, communes, …) et (iii) la disponibilité en ligne customisée au besoin du client, extrait les données brutes des sources, transforme les en terme de géographie et de dimensions de contenu. données brutes en données structurées et livre ses données, Présentation sous forme de flux ou de visualisation. Ces jeux de données Les données sont issues de toutes les sources publiques sont produits sur mesure (le client spécifie ses besoins et accessibles en ligne et susceptibles de contribuer au portrait Data Publica produit le jeu de données suivant ses des territoires. spécifications) ou sur étagère (Data Publica définit et produit le jeu de données après une analyse des besoins du Le volume est d’abord dimensionné par le nombre de marché). Les jeux de données sont livrés en DaaS (Data as a territoires, de l’ordre de 37.000, et quelques dizaines/ Service) et facturés sous forme d’abonnement (un jeu de centaines de données par territoire. Ces données sont données est un objet vivant mis à jour en permanence). chacune rafraîchies une ou plusieurs fois par an, ce qui fait de la mise à jour automatique une difficulté significative du projet. Ce projet est déployé, les données étant d’ores et déjà accessibles pour les clients de Data Publica. Porteur du projet François Bancilhon – PDG – DATA PUBLICA Partenaires F. Lainée, PDG CetaData
  • 16. Domirama, un outil d'exploration des historiques de comptes au service de nos clients Objectifs Innovation Prochaines étapes L'objectif de ce projet est la création d'un outil permettant à L'aspect le plus novateur est de redonner la maîtrise de leurs Les évolutions visant à enrichir les opérations de nos sociétaires et clients d'effectuer des recherches sur opérations à nos sociétaires et clients, et ce sur une métadonnées seront sources de création de valeur l'historique des opérations réalisées sur leurs comptes profondeur d'historique sans équivalent puisque nos supplémentaire. bancaires et d'enrichir ces historiques par des métadonnées concurrents se limitent généralement dans le meilleur des personnalisées. cas à 12 mois d'historique. Informations supplémentaires Ce projet s'inscrit dans une démarche Big Data plus large Présentation Résultats visant à valoriser le patrimoine 'données' du groupe Crédit Les données manipulées dans le cadre de ce projet sont La possibilité d'effectuer des recherches en temps réel sur Mutuel Arkéa. constituées de l'ensemble des mouvements bancaires de nos l'historique de leurs opérations permet à nos clients clients depuis mai 2001. La date retenue correspond au d'appréhender la gestion de leurs finances dans d'excellentes Ce projet a été réalisé par des équipes internes du Crédit moment où les opérations en francs ne représentaient plus conditions. Mutuel Arkéa, garantissant au groupe l'exclusivité de la qu'une part infime du flux, et ce afin d'éviter d'avoir à gérer maîtrise des technologies mises en œuvre, gage d'avantage une approche multi-devises. concurrentiel durable. Ce projet est l'un des premiers s'appuyant sur la plate-forme Big Data basée sur Hadoop mise en place dès 2009 au Crédit Mutuel Arkéa. Il est issu d'un travail conjoint entre les équipes en charge du périmètre banque à distance pour les aspects restitution, les équipes des différents métiers (comptes à vue, livrets, cartes, SEPA) pour la fourniture des données, et l'équipe Big Data/Hadoop pour la mise au point du moteur de recherche. Les données sont stockées dans HBase, permettant un accès en temps-réel à celles-ci. Le moteur de recherche est optimisé pour n'indexer les opérations qu'à la demande, offrant ainsi des performances élevées. Une recherche complexe sur près de 12 années d'historique s'effectue dans 90% des cas en moins de 500ms. Ce service est en production depuis fin 2011 pour nos sociétaires et clients des fédérations du Crédit Mutuel de Bretagne, du Sud-Ouest et du Massif-Central, de Fortunéo ainsi que de la Banque Privée Européenne. Porteur du projet Matthias Herberts – Engineer – CREDIT MUTUEL ARKEA
  • 17. BIG DATA GETS PERSONAL Objectifs Innovation Prochaines étapes •  Récompenser les clients les plus fidèles de l’enseigne En relation avec les marques nous constituons au fil de La personnalisation des offres a permis de doubler le taux de avec des offres personnalisées l’année une banque de coupons. Pendant la phase de retour des coupons par rapport à des coupons non •  Créer une occasion supplémentaire de venir en magasin préparation du mailing, nous entrons les offres disponibles personnalisés. •  Exploiter et valoriser l’intégralité des données de dans un outil propre à dunnhumby. L’algorithme d’allocation transactions intégré à cet outil a été développé grâce à l’expérience Tesco Ce premier mailing personnalisé a été envoyé à partir de •  Améliorer le retour sur investissement du programme de en Angleterre et Kroger aux Etats Unis. Il permet parmi des février 2012. Au fur et mesure que les mailings ont été reçus Fidélité millions de possibilités de sélectionner la combinaison par les clients et analysés en terme de performance, le d’offres la plus pertinente pour chaque client en regard de ciblage des clients a été optimisé pour privilégier les clients Présentation son comportement d’achat. Le niveau de récompense des les plus appétant à ce type d’offre. Ceci a également permis Nous avons créé avec Monoprix un rendez-vous mensuel offres peut lui aussi être personnalisé selon sa fidélité à de développer des supports pour les clients sensibles à dédié aux clients les plus Fidèles pour les récompenser avec l’enseigne. d’autres canaux de communication tels que les emails et les des offres personnalisées sur leurs marques et rayons coupons caisse. Nous pouvons ainsi optimiser chaque point préférés. L’exploitation des big data nous permet de Résultats de contact avec le client. personnaliser un mailing intégrant 8 coupons envoyé à Plus de 33 millions de transactions des clients les plus environ 600 000 clients par mois. Fidèles à Monoprix sur tous les formats (y compris le site Informations supplémentaires marchand) ont été analysées, représentant environ 350 L’équipe dédiée chez dunnhumby est composée de : millions articles achetés. •  1 Project Manager pour adapter l’outil Media Centre pour Cet outil d’allocation d’offres et de contenus au niveau client la base de données Monoprix permet une véritable personnalisation de la communication. Il •  1 Data Manager est capable de traiter cette énorme quantité de données : en •  1 Analyste pour sélectionner les clients éligibles pour les moins d’une heure les offres sont allouées parmi les milliers offres proposés de possibilités. •  1 Campaign Manager pour organiser et coordonner la Plus de 80% des clients ciblés reçoit une version unique de mise en place du ciblage ce mailing Chez Monoprix le projet était mené par l’équipe Fidélité avec deux personnes dédiées à la mise en place opérationnelle. La conception et création du mailing était mené par l’agence Rosa Parks. Porteur du projet Hannah Whittall – Directrice Coms & Media – DUNNHUMBY France Partenaires Monoprix Stéphanie Guillonneau Directrice Fidélité
  • 18. ECO2DATA Objectifs Innovation Prochaines étapes Répondre aux impératifs d’accès à l’information dans un eCO2data est à ce jour la plus grande base de données sur Nous travaillons actuellement sur 2 axes : marché réglementé en croissance et décentralisé. Permettre le marché du carbone. Elle innove dans la mesure ou les •  Extension de la plateforme au domaine de la foret. La aux acteurs du marché de la finance environnementale données sont récupérées systématiquement et ce en temps foret est le poumon de notre planète car elle stocke d’avoir accès à un niveau de transparence et de traçabilité du réel là ou nos concurrent reposent essentiellement sur un naturellement le CO2. Des projets d’investissements de niveau d’un marché mature alors que le marché est encore traitement manuel des données. Cet aspect de la plateforme taille massive sont pour l’instant bloqués car il n’existe très jeune. nous permet de proposer des services inédits comme celui pas à ce jour d’outil de suivi d’un investissement forestier des « eCO2data alerts » qui permettent à nos clients de à grande échelle sous l’égide des normes internationales Présentation recevoir des alertes emails dés qu’un de leur portefeuille de l’ONU. Nous sommes associés à une entreprise Le but du projet est de construire un tableau de bord temps environnemental connait un changement. franco-allemande du secteur de la défense et qui réel qui centralise toutes les informations relatives aux projets posséde un réseau satellitaire de premier plan pour de réduction de gaz à effet de serres qui génèrent des crédits Résultats connecter les données satelitaires à notre outil et carbones. Ces projets sont jusqu’ici la meilleure arme mis en L’une des principales valorisation de la donnée est le fait de proposer « eCO2data Forest » afin de combattre la place au niveau international contre la menace du travailler sur les données non structurées pour recontruire à problématique de la deforrestation et plus généralement réchauffement climatique et constituent à ce titre un enjeu la volée le portefeuille de n’importe quel acteur du marché. de la conservation de la foret. décisif. Ces projets sont répartis à travers le monde et Ainsi « BNP », « BNP Aribitrage », « Banque Nationale de •  Nouvelle plateforme sur le marché du Gas Naturel obtiennent chaque jour 1 crédit pour chaque tonne de CO2 Paris » ou encore « BNP, SA » sont automatiquement Liquéfié (LNG). Nous appliquons actuellement notre économisée. Un projet prend de 18 à 36 mois à se aggrégé en un seul participant et permet à nos clients technologie propriétaire au marché du LNG qui connait concrétiser. Il est soutenu par un conglomérat très vaste d’accéder à un niveau de transparence inégalé jusqu’ici. une croissance rapide et pour lequel il existe les mêmes d’acteurs privés et publics et est évalué par des organismes problématiques de suivi de l’activité du marché et de externes tout au long de sa vie qui peut durer plus de 20 ans. monitoring des acteurs que sur nos précédentes réalisations. En détournant l’usage initial des balises de positionnement AIS contenues dans chaque navire on créé une carte interactive et temps réel de l’acheminement des volumes de LNG actuellement en transit à travers le monde. Porteur du projet François Cazor – Président – Kpler SAS
  • 19. Artémis : « De la logique du service public…à la logique de rendre le service au public » Objectifs Innovation Résultats « campagnes multicanaux sur mesure : rendre le service au La solution proposée couvre l’ensemble du protocole Pour l’année 2013 les perspectives sur la big data sont public » décisionnel de traitement de la donnée avec trois briques nombreuses : Pour cela, générer des campagnes multicanaux qui ont pour fonctionnelles : •  Industrialisation de l’application destinée à l’aide à la objectifs : •  Brique 1 : Collecter : cette brique est au cœur de la décision, •  De cibler : le ciblage est le facteur clés de succès d’une donnée, l’objectif est simple, une donnée active, propre et •  Intégration des données clients complémentaires, campagne de communication réussie : quel client ? Sur juste. Pour cela : auditer, redresser, enrichir et fiabiliser. •  Intégration d’une couche de données relatives aux quel sujet ? Avec quel discours ? Avec quel canal de •  Brique 2 : Comprendre pour mieux cibler : avec un outil potentiels de marchés : par communes et par Iris. contact (Téléphone, SMS, Email) ? d’aide à la décision sur l’analyse de la performance •  Enrichissement des tableaux de bord : part de marché •  De fidéliser : En identifiant les bons clients et en les commerciale construit sur le principe du géo- modale, taux de pénétration mobilité, identification des remerciant (Opération de parrainage). En identifiant les référencement de l’individu : 1 point = 1 client. zones potentielles de développement. clients en phase d’abandon (Relance commerciale et •  Brique 3 : Agir : par des campagnes multicanaux ciblées analyse des causes). pour fidéliser les clients. Prospecter : « Changer vos •  De prospecter : Avec une meilleure connaissance de habitudes de mobilité au moins une fois dans l’année », client, il est plus facile de créer le profil type et de avec une meilleure connaissance client, la recherche des rechercher les jumeaux (Bases de données scorées : Par « jumeaux » par le scoring des données est plus efficace. zone géographique, données sociologiques et données comportementales). •  D’informer en mode sur mesure : En fonction de la nature des perturbations (Exemple : Travaux), des zones géographiques impactées et des statuts des clients (Exemple : Personnes à mobilité réduite). •  De créer du ROI sur les campagnes : L’Emailing permet le déploiement d’une stratégie de « tracking » avec : taux d’ouverture, liste des ouvreurs et taux de rebond. Porteur du projet Daniel Aubaret – Directeur Marketing – EFFIA SYNERGIES
  • 20. BRAND IMAGE & BIG DATA : COMMENT VALORISER LA DONNEE ISSUE DES RESEAUX SOCIAUX POUR NOURRIR LA STRATEGIE DE MARQUE Objectifs Innovation Prochaines étapes Comprendre et valoriser la donnée issue des plateformes des Approche en rupture avec les approches classiques de Déploiement d’une offre complète à destination des réseaux sociaux pour : valorisation de la donnée (type CRM), pour lesquelles les annonceurs. 1- Monitorer et mesurer en temps réel le ROI/ROE de ses coûts d’entrée sont forts (notamment en outil & système) Partenariat avec agences de communication sur la actions de communication pour valorisation à terme souvent limitée et en silo de la couverture évènementielle. 2- Comprendre les mécanismes de viralité et identifier les donnée (CRM & stratégie relationnelle / marketing / Couverture d’évènement mondiaux dans une logique de PR leaders d’opinion communication). (worldcup 2014 / fashion weeks / olympic games). 3- Saisir les tendances, et identifier des territoires de marque Ici l’approche est « smart », donc cost-effective, et permet de 4- Détecter les ambassadeurs des marques de demain façon simple et immédiate de tracker, mesurer, piloter des 5- Comprendre les proximités de produits et de marques données individuelles publiques pour des usages marketing dans une perspective de cross-sell / faciliter les logiques de multiples et immédiats (cf. objectifs du projet). partenariat entre marques (via du maching learning). Alors que le tracking de données issues des réseaux sociaux 6- Enrichissement des bases de données clients des s’est beaucoup développé ces dernières années, notre annonceurs à partir de données publiques issues des valeur-ajoutée réside non pas dans la barrière technologique réseaux sociaux nécessaire à leur récupération, mais surtout dans leur valorisation orientée « usages ». Présentation •  La démarche consiste en la récupération en temps réel Résultats de l’ensemble des données issues des plateformes de Au-delà de simples tableaux de reporting, nous valorisons la réseaux sociaux (Twitter / Facebook / Instagram / donnée par le déploiement de modèles statistiques ad-hoc et Pinterest, Youtube, Tumblr) relié à un évènement ou à complexes (ce qui constitue véritablement le coeur de métier sujet d’intérêt. Puis à analyser cette donnée pour la de notre entreprise). valoriser, et multiplier ses usages, pour nourrir la stratégie Notamment, utilisation de techniques telles que: marketing, et plus spécifiquement la stratégie de marque. •  Réseaux de neurones & modèles bayésiens : outil de •  La volumétrie reste assez limitée, mais nécessite recommandation. néanmoins l’usage de technologies big data notamment •  Analyse de données: segmentation / scoring orientée en ce qui concerne la collecte et le traitement de flux de connaissance client données en temps réel (Node.j, Base de données •  Séries temporelles : impact & ROI des actions de NoSQL, Map Reduce). communication •  Les ressources mises à disposition : 2 hommes à temps •  Analyses sémantiques plein pendant 4 mois •  Le déploiement s’est fait sur 1 an et demi, dans une démarche test & learn après une première implémentation réussie lors des jeux olympiques de Londres, puis lors de la couverture systématique d’évènement mondiaux, en déployant à chaque fois de nouveaux usages et de nouvelles démarches analytiques. Porteur du projet Quentin Michard – Directeur Général – Ekimetrics SAS
  • 21. Roland-Garros SlamTracker Objectifs Innovation Prochaines étapes Le Roland-Garros SlamTracker développé par IBM permet de L’aspect innovant de ce projet consiste à mettre à la La démarche Big data continue à la FFT. Au delà de l’analyse fournir aux fans de tennis une information complète et disposition des joueurs mais également des spectateurs une prédictive utilisée dans le SlamTracker dans le contexte des précise sur le déroulement des matchs à Roland-Garros, solution habituellement développée pour aider les entreprises matchs, des analyses des médias sociaux sont conduites avec notamment l’utilisation de l’analyse prédictive pour à mieux prévoir leurs ventes, les niveaux de stocks durant la durée du turnoi pour étudier les flux d’intérêt qui font déterminer les clés du match : 3 critères définis en début de nécessaires, l’efficacité des campagnes de promotion. lumière au cours du tournoi, tant au niveau des joueurs, match, sur la base des données complètes des tournois du qu’au niveau de l’environnement et de l’organisation du Grand Chelem. Résultats tournoi. Avec le Slamtracker, « les données prennent vie » Présentation •  les clés du match permettent d’utiliser de façon Informations Supplémentaires Avec plus de 41 millions de points collectés lors des 8 intelligente tous les scores passés et de leur donner un L’analyse prédictive appliquée à Roland-Garros a permis dernières années de Grand Chelem, la Fédération Française sens pour mieux anticiper le match qui va se jouer et d’utiliser de nombreuses informations des matchs passés de Tennis et IBM disposent d’un historique colossal sur les comprendre les points forts de chaque adversaire pour déterminer des styles de joueurs et mieux analyser les scores détaillés des matchs. Et les joueurs de tennis se •  la courbe de dynamique donnent une vision temps réel comportements. Les critères sont classés par type : rencontrent fréquemment lors des tournois, ils ont déjà joué de l’ascendant des joueurs, avec visualisation graphique - offensifs les uns contre les autres. L’analyse poussée de leurs scores de chaque type de point en fonction du temps - défensifs a permis de montrer que chacun a un comportement assez •  les statistiques mises à jour en temps réel permettent de - endurance prévisible et un style de jeu, en fonction de son adversaire. mieux comprendre les éléments clés du match en - style Ces scores, couplés avec la solution d’analyse prédictive comparant les adversaires. L’outil est sans cesse affiné pour devenir plus pertinent. On IBM Smarter Analytics (SPSS Modeler) permettent de définir voit que si un joueur atteint ses 3 clés et l’autre aucune clé, les critères clés que chaque joueur doit atteindre pour dans 98% des cas, le gagnant est celui qui a atteint ses 3 maximiser ses chances de gagner. Le système va choisir les clés. Des statistiques assez poussées existent maintenant 3 critères les plus pertinents par joueur parmi une sur la fiabilité du modèle. cinquantaine de possibilités. Chaque joueur n’aura pas La finale Nadal-Djokovic de Roland-Garros 2012 est assez forcément les mêmes critères que son adversaire. parlante car Nadal a gagné, en atteignant ses clés à moins de 1% près ! Djokovic n’a atteint qu’une seule clé mais n’était Le projet a été testé lors de l’édition 2011 de Roland-Garros pas si loin des 2 autres. puis lancé à Wimbledon, utilisé à l’US Open et pendant l’Australian Open. Lors de l’annonce officielle pour l’édition 2012 de Roland-Garros, la FFT a donc bénéficié d’une solution déjà bien testée et éprouvée sur les autres tournois. Les clés du Match sont mis à disposition des joueurs et de leurs équipes mais également depuis 2012 sur le site web public de Roland Garros afin de permettre à chaque Porteur du projet spectateur d’enrichir son expérience du match en bénéficiant Alex Loth – DSI Roland-Garros – Fédération Française de des informations supplémentaires mises à sa disposition, et Tennis en permettant de suivre leur évolution au cours du match, par une mise à jour en temps réel des indicateurs. Partenaires IBM France Claire Herrenschmidt
  • 22. Search Analytics Objectifs du projet : Innovation Prochaines étapes Améliorer la pertinence du moteur de recherche de L’exploitation des données de webanalyse permet à Le modèle de prédiction et la méthodologie élaborés pour PagesJaunes. PagesJaunes d’améliorer en continu, de façon automatique cette mission sont en cours d’internalisation et d’intégration et collaborative (donc à moindre coût) la pertinence de son dans les process métiers. Présentation du projet : moteur. Les applications potentiellement dérivées de cette mission La catégorisation des requêtes est cruciale pour la pertinence sont multiples. L’architecture mise en place permet par des résultats affichés par PagesJaunes. Si un visiteur tape « exemple d’envisager une personnalisation des résultats, une acacias, Toulouse », on peut penser qu’il veut acheter des Résultats évolution du système de monétisation de PagesJaunes acacias. Cela signifie qu’on catégorise « acacias » en objet La précision du ciblage des requêtes mal catégorisées a (fondée sur le taux de clic, etc) ou encore la prise en compte (« Quoi ? »). Et si l’utilisateur cherchait en fait l’adresse d’un augmenté d’un facteur 10. de nouveaux critères pour le classement des blocs-réponses. restaurant appelé « Les Acacias » à Toulouse ? Il faut comprendre « Les Acacias » comme le nom d’une entreprise (« Qui ? »). Dans un cas, la réponse attendue est une liste de Informations supplémentaires pépinières, dans l’autre, l’adresse d’un restaurant bien Cette mission constitue un excellent exemple de ce que identifié. l’Analytics peut apporter aux organisations, à condition d’y La correction des requêtes mal catégorisées est un enjeu construire la bonne architecture de données, ce qui permet majeur pour l’annuaire, et pour les professionnels répertoriés, de développer ensuite des applications adaptées pour puisque 74 % des recherches effectuées sur PagesJaunes.fr améliorer la performance. aboutissent à un contact professionnel physique. La mission de fifty-five était d’exploiter les données de webanalyse de PagesJaunes pour établir un modèle de prédiction permettant d’automatiser la détection de requêtes mal catégorisées. S’appuyant sur l’analyse de 3 terabytes de logs de webanalyse et des dernières technologies de big data et de machine learning, l’équipe de fifty-five, composée d’ingénieurs, de data scientists et de spécialistes de datavisualisation, a amélioré d’un facteur 10 le ciblage des catégories mal catégorisées. La mission s’est déroulée en 3 étapes : collecte, traitement, puis visualisation de la donnée. Après la mise en place d’un Data Management Platform (DMP) pour structurer la donnée, fifty-five a élaboré un modèle de machine learning calculant un score de prédiction. L’équipe a ensuite créé une interface interactive dédiée pour rendre lisible l’intelligence extraite de l’analyse des données. Porteur du projet Lan Anh VU HONG – Responsable Marketing - 55 SAS
  • 23. Focusmatic : Accurate Digital Reach Objectifs Innovation Prochaines étapes Focusmatic propose plusieurs applications du Big Data au Notre projet est novateur car il aide des opérationnels en L’entreprise toute entière est tournée vers le BigData. A date marketing digital pour le rendre « opérationnel », c’est-à-dire extrayant de la valeur métier des données sociales. Cela est nous avons des fonctionnalités analytiques sur notre outil, utilisable par le métier. Un de nos exemples est la mesure de possible car il y a trois innovations technologiques : capable de gérer la big data. Nous travaillons à continuer à l’impact d’investissements médias de type co-branding ou la 1.  business intelligence sur des Big Data améliorer les capacités d’analyses sémantiques, notamment priorisation d’une liste longue de partenaires potentiels. 2.  calculs orientés métier : calcul d’audience par exemple en travaillant sur la clusterisation et le maintient temps réel (nombre de personnes ayant vus) au lieu d’un reporting des clusters de messages. Cela permet de répondre à la Présentation du nombre de messages. Tous n’ayant pas le même question : « De quels sujets parle-t-on ? ». Notre projet consiste à collecter les données pertinentes sur impact… le web et les réseaux sociaux pour nos clients. Nous 3.  le tout en temps réel pour apporter des réponses au organisons cela par « univers logique d’écoute » comme par moment où les questions sont posées exemple une marque et ses concurrents ou encore des usages. Résultats Nous collectons chiffres, textes, images et vidéos sur les Nous aidons nos clients à isoler les données qui sont utiles à principales plateformes de réseaux sociaux, les blogs, etc. leur question business et de les traiter instantanément. Les Selon les projets nous récoltons typiquement de 50,000 à données servent à prendre des décisions, typiquement 1,000,000 de messages par jour et conservons toute d’investissement de co-marketing ou de focalisation des l’historique pour le client. Cela monte rapidement à des efforts commerciaux. volumes très élevés. On est typiquement en big data car les volumes à traiter comprennent aussi l’historique, les flux sont très variables et les données hétérogènes. Dans le cas d’une de nos plateforme, celle qui absorbe parfois jusqu’à 1,000,000 de messages par jour, il y a un pic à 20h le soir couvrant en général la moitié du volume de la journée. Ce genre de projet passe par une phase de compréhension de besoin du client et un travail pour paramétrer notre plateforme générique au client. Ce travail qui est plus business que technique prend une à deux semaines. Le projet commence ensuite mais la performance du système est améliorée en continue car l’analyse sémantique s’appuie notamment sur des algorithmes de machine learning qui prennent compte des résultats passés validés ou infirmés pour mieux prédire le futur. Cela s’applique notamment à ce qui est analyse sémantique (sentiment, émotions, etc.) Porteur du projet Malekzadeh Amirhossein – Président – Focusmatic
  • 24. Gamned – Le Big Data au service de l’Advertising Intelligence Objectifs Innovation Informations supplémentaires Ajouter de la Data Intelligence pour le RTB (Real Time Gamned innove dans le domaine du RTB par l’utilisation du Dans le cadre du rachat de Gamned par LeadMedia, Bidding) pour mieux cibler et acheter des espaces Big Data dont les technologies ont été éprouvées et validées l’infrastructure Big Data de Gamned va être généralisée pour publicitaires en temps réel et mieux personnaliser l’affichage dans d’autres domaines tels que les secteurs tous les domaines nécessitant stockage et/ou calcul en publicitaire pour les Internautes pharmaceutiques, industriels et aéronautiques. masse. Les compétences métier de fouille de données déjà présente chez Gamned et LeadMedia vont aussi être Ajouter de la valeur sur le reporting, pour le Media Traders en Ces technologies font maintenant partie du cœur fusionnées pour répondre plus largement aux besoins des interne, et pour nos clients qui doivent avoir accès à des technologique de Gamned. clients. informations disponibles en temps réel pour optimiser les campagnes publicitaires, avec une bonne profondeur et un Résultats bon historique. En résumé : •  nous stockons plusieurs milliards d’impressions nouvelles Présentation par mois, Pour stocker, gérer et analyser une très grosse quantité de •  nous en extrayons, en temps-réel ou en différé, des données, nous avons mis en place une infrastructure Big partitionnements et des indicateurs pour : Data basée sur Hadoop, Hive, HBase. Cette infrastructure •  personnaliser l’affichage par Internaute, est flexible pour le stockage, extensible et nous donne une •  créer un reporting solide pour nos clients, très grande puissance de calculs distribués. •  Nous utilisons notre infrastructure Big Data pour optimiser en temps réel les achats d’espaces publicitaires. Nous intégrons aussi d’autres technologies directement branchées sur notre Big Data comme Néo4J pour optimiser nos algorithmes de parcours de graphs ou MemCached pour servir efficacement certaines données à nos applications Porteur du projet Denis GARCIA - Gamned - Directeur R&D
  • 25. DEUS Objectif du projet Innovation Etapes à venir et démarche Big Data dans l’entreprise Réaliser sur un des plus grands supercalculateurs au monde, Le projet DEUS a pour la première fois disposé de Les mécanismes de délégation des entrées/sorties réalisés le premier calcul de la formation des structures cosmiques l’infrastructure, capable de charger en mémoire TOUT par le projet DEUS seront ré-utilisées pour des applications dans TOUT l’Univers observable du Big-bang à aujourd’hui l’Univers observable et permettre des simulations dans des comme l’évolution du climat, la fusion par confinement pour trois modèles d’énergie noire, mystérieuse composante temps de calcul satisfaisants et, surtout, capable de stocker magnétique (ITER) ou la combustion. Une autre option représentant plus de 70% du contenu énergétique de et de post traiter à la volée à un débit soutenu de 50Go/s plus consistera à évaluer des approches type Map/Reduce sur l’Univers et moteur de son expansion accélérée. de 150 péta octets de données réduits à un volume final utile des données scientifiques complexes, en utilisant des et acceptable de 1.5 péta octets. Tous les aspects du calcul systèmes de fichiers parallèle Lustre ou GPFS avec des Présentation haute performance ont été sollicités durant ce défi numérique réseaux Infiniband. Chacune des simulations a permis de suivre l'évolution et les performances atteintes par notre application sont une gravitationnelle de 550 milliards de particules sur plus de première pour un code en production en astrophysique et 2500 milliards de points de calcul avec une résolution plus généralement pour le calcul haute performance. spatiale de la taille de la Voie Lactée à celle de l'Univers observable. Les 150 Poctets de données générées durant les Résultats calculs ont été finalement réduites à 1.5 Poctets grâce à une Les données résultant du projet DEUS sont à la disposition procédure innovante et performante de traitement de de la communauté scientifique internationale. Elles données indispensables pour un tel projet. constituent un support exceptionnel aux grands projets Pour la première fois nous disposons de la distribution de observationnels des agences spatiales ESA et NASA comme matière dans TOUT l’Univers observable semblable à celle le satellite européen Planck dont les résultats seront qui pourrait être observée par les télescopes et nous y prochainement publiques et le futur télescope spatial Euclid reconnaissons les structures cosmiques en formation tout au lancé en 2019. long de l’histoire de notre Univers. Porteur du projet Observatoire de Paris – Jean-Michel Alimi GENCI – Stéphane Requena
  • 26. GET PLUS Présentation GETPLUS www.getplus.fr , projet CLOUD basée sur l’agrégation annuelle de plus de 100 MILLIONS de données MARKETING comportementales en provenance de plus de 1000 DATAMARTS de WEB TRACKING. GETPLUS révèle l’identité des entreprises qui visitent un site Internet, même celles qui n’ont pas remplies de formulaire de contact, ce qui permet de réengager le bon prospect, avec le bon besoin au bon moment. Porteur du projet Porteur du projet Hervé Gonay – Fondateur – GET PLUS Partenaires RUNMYPROCESS : Alexandre LACHMANN