21/03/2014
SCIC MNEMOTIX
Société Coopérative en Ingénierie des Connaissances
Auteur : Mnémotix
1 
Sommaire
1 Présentation de la SCIC Mnémotix.......................................................................... ...
2 
1 Présentation de la SCIC Mnémotix
1.1 Contexte et origine de la création de la SCIC
Les associés fondateurs ont souha...
3 
Figure 1 Notre Framework Mnémokit : support de synergies
Proximité avec la recherche
MNEMOTIX intègre, dans les soluti...
4 
1.3 Le personnel
Nicolas Delaforge (Gérant co-fondateur - Directeur technique)
Nicolas Delaforge est ingénieur en géni...
5 
2 Notre positionnement marché
MNEMOTIX développe un écosystème logiciel basé sur les technologies du Web Sémantique et...
6 
données de capteurs de pollution), (2) d’expliciter des ressources embarquées dans des pages web (ex :
coordonnées, ca...
7 
2.2.2 Capter les interactions communautaires
Les interactions com-
munautaires au sein d’une
plate-forme métier peuven...
8 
2.3 Nos cas d’usages marché
Nous présentons nos deux principaux cas d’usage clients, déclinant l’utilisation de notre ...
9 
Le cas d’usage pour monitorer une communauté de pratique d’experts scientifiques
Une société spécialisée dans l’animat...
10 
des réseaux sociaux et de datamining dont nous augmentons la précision en exploitant la
sémantique de nos données.
4)...
11 
sémantique).
3.3 Analyses - Révéler les structures émergentes
L’étape d’analyse permet de révéler les structures émer...
12 
4 Bibliographie
[Brandes et al 2009] Ulrik Brandes, Patrick Kenis, Jürgen Lerner, and Denise van Raaij. 2009.
Network...
13 
5 Annexes
5.1 Cas d’usage 1 : le middleware MNEMOTIX pour l’Ademe
Figure 4 Schéma fonctionnel du middleware Mnémotix ...
14 
5.2 Cas d’usage 2 : le middleware MNEMOTIX pour monitorer une communauté de chercheurs
Figure 5 Schéma fonctionnel de...
15 
5.3 Couplage bookmarking social et extraction d’entités nommées :
un tagging sémantique
Figure 6 Editeur de Webmark, ...
16 
5.4 Analyse concurrentielle
Nous avons fait une étude des entreprises concurrentes de Mnémotix qui se situent à la cr...
Présentation mnémotix mars 2014
Prochain SlideShare
Chargement dans…5
×

Présentation mnémotix mars 2014

1 317 vues

Publié le

1 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
1 317
Sur SlideShare
0
Issues des intégrations
0
Intégrations
9
Actions
Partages
0
Téléchargements
23
Commentaires
1
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Présentation mnémotix mars 2014

  1. 1. 21/03/2014 SCIC MNEMOTIX Société Coopérative en Ingénierie des Connaissances Auteur : Mnémotix
  2. 2. 1  Sommaire 1 Présentation de la SCIC Mnémotix.......................................................................... 2 1.1 Contexte et origine de la création de la SCIC ................................................... 2 1.2 Stratégie de développement et fonctionnement............................................... 2 1.3 Le personnel...................................................................................................... 4 2 Notre positionnement marché ................................................................................. 5 2.1 Contexte technologique : le web 3.0 et les technologies sémantiques............. 5 2.2 Notre méthodologie : quand le lien fait sens.................................................... 6 2.2.1 Capter les traces d’activité en ligne ..........................................................................................6 2.2.2 Capter les interactions communautaires .................................................................................7 2.2.3 Fusion des données et analyse .................................................................................................7 2.3 Nos cas d’usages marché...................................................................................8 2.3.1 Monitoring d’activité communautaire en ligne .......................................................................8 2.3.2 Enrichissement d’un service client...........................................................................................8 3 Fonctionnement de notre API : donner du sens à la donnée .................................. 9 3.1 Extraction - collecter et libérer les données ................................................... 10 3.2 Structuration - Sémantisation des données ................................................... 10 3.3 Analyses - Révéler les structures émergentes..................................................11 3.4 Publication - Mise en forme et accès aux résultats .........................................11 4 Bibliographie ...........................................................................................................12 5 Annexes....................................................................................................................13 5.1 Cas d’usage 1 : le middleware MNEMOTIX pour l’Ademe .............................13 5.2 Cas d’usage 2 : le middleware MNEMOTIX pour monitorer une communauté de chercheurs .............................................................................................................14 5.3 Couplage bookmarking social et extraction d’entités nommées : un tagging sémantique.................................................................................................................15 5.4 Analyse concurrentielle....................................................................................16
  3. 3. 2  1 Présentation de la SCIC Mnémotix 1.1 Contexte et origine de la création de la SCIC Les associés fondateurs ont souhaité constituer une société pour permettre la pérennisation des travaux de recherche réalisés dans le cadre du projet ISICIL de 2009 à 2012, financé par l’ANR (ANR CONTINT 2008 - ANR-08-CORD-011-051). Il est à noter que tout notre personnel a travaillé dans le projet ISICIL : Nicolas Delaforge a été chef de projet en charge des développements du prototype de recherche ISICIL, Mylène Leitzelman a réalisé l’analyse fonctionnelle et encadré les tests auprès des utilisateurs de l’ADEME, et Guillaume Erétéo a effectué sa thèse sur l'analyse sémantique des réseaux sociaux. MNEMOTIX propose par sa structure coopérative (Société Coopérative à Intérêts Collectifs) une forme juridique permettant l'ajout progressif de partenaires académiques, territoriaux et/ou industriels en tant que membres de la coopérative, favorisant ainsi la création de synergies et donnant un cadre propice à l'émergence d'opportunités de fertilisations croisées entre les partenaires autour des technologies du Web Sémantique (WS) et de l'ingénierie des connaissances (IC). MNEMOTIX, suite à la présentation de son projet au comité INRIA-DTI de suivi des actions de transfert technologique (CSATT), a obtenu un soutien officiel avec le label «Startup INRIA», puis a été labélisée officiellement Jeune Entreprise Innovante (24/09/2013). 1.2 Stratégie de développement et fonctionnement MNEMOTIX a pour vocation de devenir le référent et l'organe fédérateur des projets collaboratifs et open-source autour des technologies WS et IC. Actuellement, l'activité de la société se découpe en trois axes principaux :  une activité d'assistance à maîtrise d'ouvrage (AMO) pour accompagner des entreprises dans l'intégration des technologies sémantiques au sein de leurs architectures logicielles,  une activité de prestation de services et d'intégration de briques technologiques open- source ou développées en interne dans le cadre de notre activité R&D ou de prestations de services. Ces développements sont mutualisés dans un tronc commun logiciel, le Mnémokit, dont le but est de faciliter la composition, à moindre coût pour les entreprises, de solutions logicielles de type middleware pour l'intégration technique de services d'analyse à forte valeur ajoutée dans les infrastructures de nos clients (cf. Figure 1).  une activité de service de veille et d'analyse de l'activité communautaire mise en place pour les entreprises désireuses de bénéficier de la puissance des technologies WS et IC, mais aussi de l'analyse des réseaux sociaux (SNA), dans leur veille stratégique ou dans le monitoring de leurs communautés d'intérêts. Dans ce but, le développement de notre première application, la plate-forme Webmarks pour le management collaboratif des connaissances, a été financé en 2013, principalement sur fonds propres. Cette plate-forme doit servir de support aux études et veilles commanditées par nos clients et permettre un suivi temporel et un reporting en temps réel de l'évolution des corpus surveillés. 1 http://isicil.inria.fr
  4. 4. 3  Figure 1 Notre Framework Mnémokit : support de synergies Proximité avec la recherche MNEMOTIX intègre, dans les solutions pour ses clients, des briques logicielles open-source directement issues des travaux de la recherche. Elle donne aux chercheurs des terrains d’expérimentation, des retours d'usage très concrets et souvent quantifiables ainsi que des pistes d'amélioration de leurs logiciels. De plus, MNEMOTIX contribue activement au code des briques logicielles qui se révèlent stratégiques pour le fonctionnement de ses services. Grâce à cette approche, nos clients bénéficient des dernières innovations technologiques, ce qui leur procure un avantage concurrentiel non négligeable. Nous restons de ce fait à la pointe des technologies IC et WS et les chercheurs disposent d'une structure qui leur permet de tester leurs prototypes en situation réelle. Cette relation gagnant-gagnant s'est avérée fructueuse en 2013 et a vocation à s'étendre en même temps que le volume d'activité de la coopérative. Actuellement, MNEMOTIX compte parmi ses partenaires l’équipe WIMMICS de INRIA2, le laboratoire I3S3 du CNRS, le département COSTECH de l’UTC4 ou encore le laboratoire Tech-CICO de l’UTT5. Stratégie Open-Source Dans le cadre de cette proximité avec la recherche, MNEMOTIX participe à certains projets open- source de ses partenaires scientifiques. En particulier, nous contribuons activement au développement de la librairie Corese/KGRAM6 portée par l'équipe WIMMICS. Depuis 2013, nous développons et intégrons dans les solutions de nos clients, un SPARQL Endpoint7 basé sur Corese/KGRAM permettant de publier une base de connaissances selon les standards du W3C. 2 http://wimmics.inria.fr/ 3 http://www.i3s.unice.fr/ 4 http://www.utc.fr/costech/ 5 http://techcico.utt.fr/ 6 https://wimmics.inria.fr/corese 7 http://www.w3.org/TR/sparql11-protocol/
  5. 5. 4  1.3 Le personnel Nicolas Delaforge (Gérant co-fondateur - Directeur technique) Nicolas Delaforge est ingénieur en génie informatique de Université de Technologie de Compiègne, spécialiste des architectures web orientées service/RIA, doctorant CIFRE à l'INA de 2005 à 2008, participant au projet d'archivage du Web français (Dépôt Légal du Web) sous la responsabilité de Bruno Bachimont, ingénieur de recherche et chef de projet au sein de l’équipe Edelweiss à l’INRIA de Sophia Antipolis dans le projet de recherche ISICIL financé par l'ANR de 2009 à 2012). Durant ses années de recherche, ses travaux se sont portés notamment sur la modélisation documentaire des contenus, sur la recherche d'information et sur les interfaces de recherche d'orientation au sein des grands corpus documentaires. Depuis 2009, il s’intéresse plus précisément aux rapprochements possibles entre sciences de la documentation et pratiques sociales de tagging et de bookmarking. Dans cette optique, il poursuit sa thèse en co-tutelle UTC/INRIA sous la direction de Fabien Gandon sur le sujet « Webmarks : contextualiser la référence à travers les dimensions du Web » qui vise à proposer modèles et outils pour la contextualisation et la stabilisation de la référence en ligne [Buffa, et al. 2013]. Nicolas Delaforge est aujourd’hui le Directeur technique de la société Mnémotix dont il est le gérant, en charge de l’écosystème logiciel Mnémokit qui constitue le cœur technologique de la coopérative. Guillaume Erétéo (Salarié - Directeur R&D) Docteur en informatique (Télécom Paristech) en 2011, Guillaume s’est spécialisé dans les technologies du Web Sémantique, les réseaux sociaux, et la recherche d’information depuis 2006. Il a effectué sa thèse, de 2008 à 2011, sur l’Analyse sémantique des réseaux sociaux8 sous la direction de Michel Buffa et de Fabien Gandon dans le cadre du projet ISICIL. Il a notamment défini une méthode pour modéliser des données sociales à base d’ontologies [Erétéo, et al. 2011] et réaliser une analyse du réseau social qui tire partie de la sémantique de ces représentations (SemSNA). Ses travaux ont été réinjectés et optimisés dans l’écosystème logiciel Mnémokit. Guillaume Erétéo est en charge des aspects R&D et des briques consacrées à l'analyse des réseaux sociaux et algorithmes de recommandation du Mnémokit. Mylène Leitzelman (co-fondateur - Resp. Prospection, administratif et spécialiste veille) Docteur en Sciences de l’Information et de la Communication auprès du CRRM obtenu en 1998 (Univ. Aix-Marseille III), Mylène Leitzelman est ingénieur R&D sur contrats de recherche depuis plus de 10 ans (notamment avec l’Ademe, I3S/UNICE/Télécom‐Paristech dans le projet ISICIL). Au cours de ses expériences, elle s’est spécialisée sur la constitution et l’animation de collectifs d’échange en ligne (échange de données brutes, d’informations élaborées ou de connaissances) au moyen d’un ensemble éprouvé de méthodologies et de pratiques (méthodes scientométriques et analyses des réseaux sociaux), facilitant la mise en synergie de connaissances éparses afin de créer une intelligence collective (création, transfert et actualisation des savoir, animation de communautés de pratique). Mylène Leitzelman gère dans MNEMOTIX la partie administrative, les relations client, la prospection et le montage de projets R&D. Son embauche est effective depuis janvier 2014. 8 http://tel.archives-ouvertes.fr/tel-00586677/fr/
  6. 6. 5  2 Notre positionnement marché MNEMOTIX développe un écosystème logiciel basé sur les technologies du Web Sémantique et l’Ingénierie des Connaissances afin de collecter, de structurer, d’analyser et de donner du sens aux données Web et Intranet de communautés en ligne. 2.1 Contexte technologique : le web 3.0 et les technologies sémantiques Les travaux de R&D et d’innovation de MNEMOTIX sont inscrits dans la continuité de l’évolution du Web, actuellement qualifiée de Web 3.0 (cf. Figure 2). Figure 2 Évolutions du web : du Web 1.0 au web 3.0 Le Web 1.0 est l’ère de la Diffusion (Web of Content) Les producteurs Web diffusent des contenus vers les usagers, à la manière des média classiques, communication uni-directionnelle (one to many). Il s'agit principalement de pages statiques composées de textes et d'images reliées entre elles à l'aide d'hyperliens. Les premiers acteurs majeurs de cette ère sont les moteurs de recherche généralistes comme Yahoo, Altavista, Voila ou Google pour faciliter la recherche et l’accès à ces ressources. Le Web 2.0 est l’ère de la Collaboration (Web of People) L’avènement de nouvelles plate-formes telles que les wikis, les blogs et les réseaux sociaux permet aux utilisateurs de contribuer au contenu du Web et d’en devenir des ressources à part entière. L’évolution logique du Web est donc de massivement créer des liens entre des personnes (relations explicites, interactions, affiliations) au point de bouleverser les modes de communication de nos sociétés. Le Web 3.0 marque l’ère du Sémantique (Web of “linked” Data) Dans la continuité du Web 2.0, de nouveaux types de ressources telles que des services, des lieux et des objets ont désormais leur propre existence en ligne. Tout particulièrement, nous assistons à une publication massive de données sur le Web. Ces données, à l’usage d’agents logiciels, ont principalement pour buts (1) de décrire et d’interagir avec des objets ou des services en ligne (ex:
  7. 7. 6  données de capteurs de pollution), (2) d’expliciter des ressources embarquées dans des pages web (ex : coordonnées, carte de visite, avis) et des métadonnées descriptives (ex : titre, auteur, genre, etc.), ou (3) tout simplement d’être à la disposition de services tiers qui proposent de nouveaux usages (ex : carte augmentée avec des données encyclopédiques issues de Wikipedia). Dans ce contexte, à l’instar des liens entre des pages web qui permettent à l’utilisateur de découvrir et de consulter de nouveaux documents, les liens entre les données et les différentes ressources du Web permettent aux agents logiciels de découvrir, d’agréger et d’exploiter toujours plus d’informations. L’évolution exponentielle du Web n’est plus seulement liée à la contribution de ses utilisateurs humains, mais surtout à la contribution d’agents logiciels qui le parcourent, consomment et en valorisent les données. Ces agents sont mis en place par des services web soucieux de proposer des agrégations et des mises en perspectives de données répondant aux besoins de leurs communautés d’utilisateurs. MNEMOTIX adresse, avec son API de valorisation de données, le marché des entreprises ayant besoin de nouvelles sources de connaissances pour, d’une part, améliorer leur système d’information interne et, d’autre part, ajouter de la valeur à leurs offres clients. 2.2 Notre méthodologie : quand le lien fait sens 2.2.1 Capter les traces d’activité en ligne L’API sémantique de Mnémotix extrait à la demande les traces laissées par un utilisateur sur la plupart des plates-formes populaires du Web pour en déduire un profil sémantique. L’API extrait aussi les informations concernant une entreprise à partir de différentes sources en ligne pour déduire également son profil sémantique.
  8. 8. 7  2.2.2 Capter les interactions communautaires Les interactions com- munautaires au sein d’une plate-forme métier peuvent également être captées pour la constitution d’un réseau social. 2.2.3 Fusion des données et analyse Une fois révélée l’empreinte sémantique individuelle, industrielle ou communautaire, les traces numériques sont mises en résonance pour produire des représentations et des métriques pertinentes dans une logique métier.
  9. 9. 8  2.3 Nos cas d’usages marché Nous présentons nos deux principaux cas d’usage clients, déclinant l’utilisation de notre API, d’une part en tant que solution de monitoring, veille et analyse de l'activité communautaire (en ligne sur le Web, en intranet ou extranet), et d’autre part en tant que solution middleware d’intégration de services d'analyse à forte valeur ajoutée dans les infrastructures des clients (Analytics as a Service - AaaS). 2.3.1 Monitoring d’activité communautaire en ligne Les intranets des entreprises reproduisent la plupart des succès du Web et les adaptent à leurs propres processus. L’avènement de l’entreprise 2.0 a marqué l’introduction d’outils tels que les Wikis, les CMS corporate et les Réseaux Sociaux d’Entreprises dans de nombreux intranets, afin de mettre en place des documentations collaboratives et de nouveaux modes d’interactions. Suivant la tendance du Web des données inter-reliées, les différentes sources de données internes commencent désormais à être interconnectées et enrichies par des sources externes (en relation avec les réseaux sociaux type Facebook, LinkedIn, Viadeo, ou Twitter). La réconciliation des données entre web interne et web externe est plus que jamais primordiale pour ajouter de la valeur aux systèmes d’informations et solutions collaboratives des intranets9. Le cas d’usage du Pôle Mobilités de l’ADEME : MNEMOTIX est soutenu par l’Ademe pour développer une instance de son API dédiée à l’animation du collectif du pôle Mobilités Ademe/Sophia Antipolis. Le pôle Mobilités traite des systèmes de transports pour les marchandises et de mobilités pour les personnes. Ce pôle vise à développer des approches intégrées pour optimiser le fonctionnement de ces systèmes complexes. Jusqu’à présent, le secteur des transports a essentiellement progressé par l’amélioration des composants du système. Or, pour atteindre le facteur 410, améliorer la qualité de l’air, réduire la dépendance au pétrole et la congestion, tout en limitant les dépenses publiques et privées, ces progrès doivent maintenant être complétés par des améliorations systémiques. Il s’agit pour l’Ademe de s’intéresser non seulement aux composants du système (véhicule, énergie, infrastructure et information), aux usagers dans leur multitude, aux contextes et aux territoires, mais également aux liens et interactions entre ces domaines et ces industries. Tous les acteurs sont également à analyser dans leur dynamique d’adaptation aux changements, leur modèle d’affaire, leur modèle d’innovation. MNEMOTIX équipe aujourd’hui le pôle Mobilités d’une solution logicielle de collecte, d’analyse, d’identification des personnes ou entités influentes et de cartographie des expertises et des innovations nécessaires pour mener à bien sa mission (cf. Schéma fonctionnel du middleware MNEMOTIX pour l’Ademe en Annexe). 2.3.2 Enrichissement d’un service client De nombreux sites communautaires (CMS, RSE, blogs) ne bénéficient pas toujours de fonctionnalités d’analyse poussées, que l’on trouve dans des applications de Business Intelligence ou de solutions de statistiques avancées. Nous proposons à nos clients l’intégration ou l’utilisation à façon de nos algorithmes d’analyse et de visualisation dans le but d’enrichir en données leur propre système d’information et de d’outiller l’animation de leurs communautés. 9 cf. la tendance montante en 2013 de mutualiser les ressources du web internet et du web externe : http://observatoire-intranet.com/insights/les-tendances-2013/ 10 http://fr.wikipedia.org/wiki/Facteur_4
  10. 10. 9  Le cas d’usage pour monitorer une communauté de pratique d’experts scientifiques Une société spécialisée dans l’animation de clusters de chercheurs a fait appel à l’expertise scientifique et technique de MNEMOTIX pour optimiser les performances d’animation de réseau social de sa plateforme communautaire. Nous proposons de mettre au point un algorithme de recommandation social et sémantique se basant sur les données brutes extraites des activités sur la plateforme (CMS classique), pour inférer ensuite le réseau social collaboratif et sémantique et appliquer au final une métrique de similarité de profil pour recommander des personnes et des contenus (cf. Schéma fonctionnel du middleware MNEMOTIX pour ce cas en Annexe). 3 Fonctionnement de notre API : donner du sens à la donnée Notre API est un middleware sémantique de gestion et d’extraction de connaissances, permettant d’accomplir des taches de collecte, de structuration, d’analyse et de visualisation de données. Une des premières instances de notre API, la plate-forme Webmarks, trouve notamment une application idéale dans le management de communautés en ligne et de leurs membres, qu’il s’agit de cartographier, structurer, animer et enrichir. Figure 3 Vue globale du Processus de valorisation de données de l’API Mnémotix La Figure 3 représente une vue globale du processus fonctionnel de l’API, qui se décompose en 4 grandes étapes, pouvant être appliquées indépendamment suivant le scénario d’usages de nos clients (veille de médias sociaux, analyse du Web, enrichissement de données…) : 1) Dans de nombreux cas, nos clients ont besoin de décloisonner leurs sources de données. Le Mnémokit propose différents connecteurs et outils pour importer des données à partir de plusieurs types de sources telles que des documents Web, des bases de données métiers, les réseaux sociaux ouverts (LinkedIn, Twitter, Facebook, etc.) ou d’autres services en ligne possédant des API (cf. Dropbox, GoogleDrive, Delicious, Diigo, etc.). 2) Une fois ces données décloisonnées, nous les modélisons et les structurons sémantiquement, avec des outils de conception de thésaurus et des algorithmes d’annotation de texte. 3) Une étape d’analyse nous permet de découvrir de nouvelles connaissances à partir de l’analyse structurelle des données. Nous nous basons à la fois sur des algorithmes d’analyse
  11. 11. 10  des réseaux sociaux et de datamining dont nous augmentons la précision en exploitant la sémantique de nos données. 4) Ce processus est enfin complété par des solutions de publication de données. Cette publication peut se faire sous différentes formes, telles qu’une api d’accès aux données structurées et aux résultats d’analyse, ou des mises en formes graphiques de ces données. Nous détaillons dans cette section ce processus de valorisation des données, que nous implémentons dans notre API de valorisation de données communautaires. 3.1 Extraction - collecter et libérer les données L’objectif de cette étape est de collecter et de rassembler les données utiles aux besoins de nos clients, les sources étant internes ou externes. Les sources internes incluent généralement des bases de données métiers, des solutions de documentation interne, et des plate-formes de collaboration type Réseaux Sociaux d’Entreprise ou CMS. Les sources externes sont plutôt des pages Web, des publications scientifiques, des réseaux sociaux (type Twitter, LinkedIn ou Viadéo) ou des données ouvertes. Nous fournissons donc un ensemble de connecteurs (et en développons des spécifiques si besoin), pour collecter ces différentes sources de données. Ensuite, dans la majorité des scénarios, ces données sont dans des formats différents (ex: base de données relationnels, xml, csv, json, texte, etc.). Il est donc essentiel de les convertir dans un format pivot permettant de les représenter dans une structure uniforme. Nous proposons de ce fait des solutions permettant de convertir ces données dans les formats standards du Web Sémantique définis par le W3C. 3.2 Structuration - Sémantisation des données Cette étape consiste à représenter les données dans un modèle uniforme et à les enrichir sémantiquement afin de pouvoir raisonner dessus et découvrir de nouvelles connaissances. Pour cela, nous nous basons toujours sur les technologies du Web Sémantique, qui fournissent des langages de description d’ontologies. Une ontologie décrit l’ensemble des concepts et relations, avec leur logique d’application, permettant de représenter un domaine de connaissances. L’exploitation de ces ontologies nous permet plusieurs opportunités pour structurer les données. Tout d’abord, nous les exploitons avec un moteur sémantique afin de redresser des données incomplètes ou inconsistantes, et d’inférer de nouvelles connaissances. Ensuite, nous exploitons à la fois ces données enrichies et les ontologies modélisées pour indexer et organiser les données textuelles des documents et de certains champs de bases de données. Par exemple, nous proposons un algorithme de détection sémantique d’entités nommées permettant d’annoter automatiquement (ou d’assister l’annotation manuelle) d’un texte avec les concepts d’une ontologie (cf. Annexes Couplage bookmarking social et extraction d’entités nommées : un tagging
  12. 12. 11  sémantique). 3.3 Analyses - Révéler les structures émergentes L’étape d’analyse permet de révéler les structures émergentes contenues dans les données afin d’en améliorer leur exploitation voire d’en proposer de nouveaux usages. Typiquement, nous analysons les données d’activité d’un réseau social pour révéler des acteurs influents et des positions stratégiques, détecter des communautés thématiques, ou encore recommander des contacts utiles. Pour cela, nous nous basons sur un ensemble d’algorithmes d’analyse de réseaux sociaux et de data mining dont nous améliorons la précision en exploitant la sémantique des ontologies utilisées pour décrire les données.L’analyse de réseaux sociaux inclue notamment des algorithmes de détection de communautés pour identifier la répartition des activités et des acteurs, et des algorithmes de centralité pour détecter les acteurs influents et les intermédiaires entre les communautés. Les techniques de data mining contiennent en particulier des algorithmes de recommandation que nous utilisons pour découvrir des relations entre des concepts ou suggérer des mises en relation pertinentes. 3.4 Publication - Mise en forme et accès aux résultats Cette partie en bout de chaîne représente la synthèse des points précédents dans le but d’outiller les utilisateurs finaux pour manipuler et donner du sens aux données enrichies. Nous proposons 3 types de mise à disposition des données enrichies et des résultats d’analyse:  Des API d’accès permettant aux applications de nos clients de les exploiter. Le scénario classique est une mise à disposition des données au format linked data recommandé par le W3C, avec ma possibilité d’adapter le format et le protocole d’accès à la demande du client.  Des mises en formes graphiques pouvant être intégrées dans des applications finales (type diagrammes, cartes géographiques, ou encore graphes de réseaux sociaux). Nous proposons en particulier de générer des codes javascript pouvant être intégrés dans une application Web.  Enfin, nous proposons également la construction d’applications finales, telles que des plate-formes de veille collaborative, d’analyse de réseaux sociaux ou d’observatoire avancé de contenus web (création d’états de l’art, management d’open directories, observatoires thématiques, etc...).
  13. 13. 12  4 Bibliographie [Brandes et al 2009] Ulrik Brandes, Patrick Kenis, Jürgen Lerner, and Denise van Raaij. 2009. Network analysis of collaboration structure in Wikipedia. In Proceedings of the 18th international conference on World wide web (WWW '09). ACM, New York, NY, USA, 731-740. [Buffa et al 2013] Michel Buffa, Nicolas Delaforge, Guillaume Erétéo, Fabien Gandon, Alain Giboin, Freddy Limpens: ISICIL: Semantics and Social Networks for Business Intelligence. SOFSEM 2013: 67- 85 [Erétéo 2011] Guillaume Erétéo, Semantic Social Network Analysis, PhD Thesis Telecom ParisTech Inria Orange Labs, April, 2011 [Erétéo, et al. 2011] Guillaume Erétéo, Michel Buffa, Olivier Corby, Fabien Gandon, Mylène Leitzelman, Freddy Limpens, and Peter Sander. Handbook of Research on Methods and Techniques for Studying Virtual Communities, chapter Semantic Social Network Analysis, a Concrete Case. 2011, IGI Global. [Kwak et al 2010] Kwak, H., Lee, C., Park, H., Moon, S.: What is Twitter, a Social Network or a News Media? In Proceedings of the 19th World Wide Web Conference, Raleigh, USA. (2010) [Liptchinsky et al 2013] Vitaliy Liptchinsky, Benjamin Satzger, Rostyslav Zabolotnyi, and Schahram Dustdar. 2013. Expressive languages for selecting groups from graph-structured data. In Proceedings of the 22nd international conference on World Wide Web (WWW '13). International World Wide Web Conferences Steering Committee, Republic and Canton of Geneva, Switzerland, 761-770. [Paolillo & Wright 2006] Paolillo, John, Wright, Elijah, Social Network Analysis on the Semantic Web: Xml-based Internet and Information Visualization. IN: Geroimenko, Vladimir ed. Techniques and Challenges for Visualizing FOAF. London, Springer,chapter 14,pp. 229-242 [San Martín & Gutierrez 2009] San Martín, M., Gutierrez, C., 2009. Representing, Querying and Transforming Social Networks with RDF/SPARQL. In Antoniou, G., Grobelnik, M., Paslaru Bontas Simperl, E., Parsia, B., Plexousakis, D., De Leenheer, P., Z. Pan, J. (Eds.), Proceedings of the 6th European Semantic Web Conference on The Semantic Web: Research and Applications, ESWC 2009 Heraklion. Berlin, Heidelberg: Springer-Verlag, pp. 293–307. [Scott 2000] Scott, J.: Social network analysis, a handbook. Deuxième edition, Edition Sage. (2000) [Wasserman & Faust 1994] Wasserman, S., Faust, K.: Social Network Analysis: Methods and Applications. Cambridge: Cambridge University Press. (1994)
  14. 14. 13  5 Annexes 5.1 Cas d’usage 1 : le middleware MNEMOTIX pour l’Ademe Figure 4 Schéma fonctionnel du middleware Mnémotix pour l’Ademe Nous monitorons comme données entrantes le blog Transports du Futur, les flux RSS agrégés dans Netvibes, le profil Twitter @TdF__ademe et le groupe Linkedin Transports du Futur. La partie veille collaborative de contenus web est réalisée avec le plugin de curation Webmarks (connecté à l’ontologie généraliste de l’environnement GEMET). Les données Utilisateurs/Ressources web/Concepts-tags sont modélisées pour permettre un ensemble de traitement, d'analyse et de visualisation des données collectées.
  15. 15. 14  5.2 Cas d’usage 2 : le middleware MNEMOTIX pour monitorer une communauté de chercheurs Figure 5 Schéma fonctionnel de l’intégration de services de Mnémotix dans la plateforme d’animation du cluster Une fois réalisée l’ontologie des concepts clés du domaine métier de la communauté, à partir de l’extraction et l’analyse de documents de référence ainsi que traces d’activités numériques laissées par ses membres, les champs d’intérêts individuels des utilisateurs seront analysés. Ces champs d’intérêts individuels permettront de calculer des similarités entre les utilisateurs et de proposer, pour un utilisateur donné, les profils qui lui sont sémantiquement proches.
  16. 16. 15  5.3 Couplage bookmarking social et extraction d’entités nommées : un tagging sémantique Figure 6 Editeur de Webmark, tagging sémantique et détection d'entités nommées L’innovation technologique de MNEMOTIX en 2013 est d’avoir développé une nouvelle approche pour la détection d’entités nommées basée sur les techniques recherche d’information (IR) qui peut s’appliquer à tout contenu web et qui est potentiellement plus souple et plus performante, même si elle est un peu moins précise. Elle demande plus de travail en amont pour optimiser la détection de mots- clés, mais permet très facilement d’augmenter le thésaurus avec des concepts émergents. De plus, cette approche fonctionne aussi sur les contenus où le NLP classique échoue. Dans la figure 9, les entités nommées détectée sont réparties en 4 groupes : les concepts directement détectés depuis le texte (étiquette 1), les lieux (étiquette 2), les personnes (pas de personne détecté dans l'exemple) et les concepts inférés (étiquette 3). Actuellement la plate-forme est en mesure de gérer 4 types de terminologies différentes :  Les thésaurus SKOS,  Les tags utilisateurs saisis manuellement ou importés,  Les lieux extraits de DBPedia ou de Geonames,  Les personnalités importées depuis les réseaux sociaux ou depuis DBPedia. Toujours sur la figure 9, dans la partie éditeur (à gauche), les champs "tags" (étiquette A) et "location" (étiquette B) correspondent très précisément aux entités nommées sélectionnées dans la partie droite. Le datamining effectuée par la détection d’entités nommées facilite ainsi l’activité de tagging de la ressource. 1 3 2 A B C D
  17. 17. 16  5.4 Analyse concurrentielle Nous avons fait une étude des entreprises concurrentes de Mnémotix qui se situent à la croisée d’un marché celui de la veille / Intelligence compétitive et d’une famille technologique celle du Web Sémantique. Nous présentons ci-après la matrice de positionnement des concurrents par rapport à deux axes : un axe positionnant sur le type de solution technologique vendue, à savoir si c’est sur l’exploitation d’une API (essentiellement en back-end), ou la mise en place d’une solution plus ou moins packagée (avec un interface utilisateur enrichie), un axe positionnant le type de marché, soit une présence sur une niche de marché spécifique (type e-tourisme pour Syllabs ou biodiversité pour Natural Solutions), ou sur le domaine entier de la veille. Niches de marché Généraliste sur la veille Positionnement Technologie Positionnement marché Vente d’accès à des technologies Vente de solutions (Saas ou software)

×