Présentation faite par Pierre Col au Meetup Lyon Data Science du 9 juin 2016 : l'intelligence artificielle et le machine learning, appliqués au texte mining (classification automatique, extraction d'entités nommées) permettent d'enrichir des corpus documentaires avec des métadonnées qui vont faciliter la recherche d'information et la navigation dans les documents, qui peuvent être liés selon l'approche du linked data.
Investigation d'un épisode épidémique - Conférence du 7e édition du Cours international « Atelier Paludisme » - RICHARD Vincent - Madagascar - vrichard@pasteur.mg
Blockchain et Smart Contract : de la théorie à la productionMathieu Durand
Présentation faite au Breizhcamp 2019
Blockchain, Ethereum, Smart-Contracts... on en entend souvent parler mais qu'est ce que ça donne réellement en production ?
Cette conférence sera l'occasion de présenter notre REX de mise en production d'une application web basée sur l'utilisation de Smart Contract Ethereum. Après avoir présenté brièvement les concepts clés de Blockchain Ethereum et Smart Contract, nous présenterons notre retour d'expérience sur le développement d'une application VueJs/Java permettant l'échange de cryptomonnaie dite "tokenisée" (EC-20) via Smart Contract Ethereum.
Investigation d'un épisode épidémique - Conférence du 7e édition du Cours international « Atelier Paludisme » - RICHARD Vincent - Madagascar - vrichard@pasteur.mg
Blockchain et Smart Contract : de la théorie à la productionMathieu Durand
Présentation faite au Breizhcamp 2019
Blockchain, Ethereum, Smart-Contracts... on en entend souvent parler mais qu'est ce que ça donne réellement en production ?
Cette conférence sera l'occasion de présenter notre REX de mise en production d'une application web basée sur l'utilisation de Smart Contract Ethereum. Après avoir présenté brièvement les concepts clés de Blockchain Ethereum et Smart Contract, nous présenterons notre retour d'expérience sur le développement d'une application VueJs/Java permettant l'échange de cryptomonnaie dite "tokenisée" (EC-20) via Smart Contract Ethereum.
Support du stage "Outils de recherche et de veille sur l'actualité", organisé par l'URFIST de Rennes, le 14 octobre 2014 (enrichissement et mise à jour du support précédent : datajournalisme, twitter, texmix...)
L'intelligence artificielle et les nouvelles technologies sont entourées de fantasmes. Il s'agit d'IA faibles et elles ne sont pas destinées à remplacer le soignant mais à l'accompagner et le soutenir. Le principal frein n'est pas la technologie, ni même le budget mais la résistance dans l'esprit des soignants eux-mêmes.
Le kyste hydatique du foie est une maladie parasitaire due à Echinoccocus granulosis. Les notions de bases de parasitologie, d'épidémiologie, d'histoire naturelle et de classification sont présentées. Les éléments de choix de la stratégie thérapeutique sont discutés.
Chapitre 1. Éléments du droit Marocain
1.1. Les sources du droit marocain
1.2. Les branches du droit
1.3. L’organisation judiciaire au Maroc
1.4. Les responsabilités civiles et pénales
Présentation en ligne | De la dématérialisation des factures à la digitalisat...Sollan France
Présentation en ligne | De la dématérialisation des factures à la digitalisation des processus comptables, animé par Cathy Jullien, Responsable des partenariats chez Esker et Marie-Ange Monard, Consultante Senior Dématérialisation chez Sollan
Première partie du ppt de cours sur la rédaction scientifique. Il aborde la question de la problématique, problème de recherche, question de recherche, objectifs, hypothèses et autres.
Machine learning, deep learning et search : à quand ces innovations dans nos ...Antidot
FORCE EST DE CONSTATER QUE DURANT CES 10 DERNIÈRES ANNÉES, IL N'Y A PAS EU D'ÉVOLUTION DANS LE DOMAINE DES MOTEURS DE RECHERCHE POUR LES ENTREPRISES. ET POURTANT LA TOILE BRUISSE DE LA RÉVOLUTION DU MACHINE LEARNING.
Ces nouvelles approches mathématiques révolutionnent le traitement de l'information. Les géants du web s'en sont saisis depuis quelques années déjà et les premiers résultats sont là. Votre recherche Web est plus personnalisée, elle prédit plus qu'elle ne trouve, elle anticipe.
Mais les travailleurs du savoir dans les entreprises classiques n'ont pas encore accès à ces innovations. Ont-ils été oubliés ?
La recherche d'information en entreprise est-elle condamnée à exploiter des technologies du 20ème siècle ?
William Lesguillier, responsable de l'offre Valorisation des Données chez Antidot, revient sur l'intérêt de ces approches de machine learning afin de comprendre à quoi elles servent. A travers divers retours d'expériences, nous illustrerons ce qu'elles apportent dans la recherche d'information.
Nous ouvrirons enfin les portes du laboratoire d'Antidot pour présenter les derniers travaux de recherche sur les algorithmes de pertinence. l
Du Big Data à la Smart Information : comment valoriser les actifs information...Antidot
Du Big Data à la Smart Information : quelle approche ?
- Linked Enterprise Data
Quels outils pour créer la Smart Information ?
- Web de données
- Machine Learning
Exemples variés
Présentation faite à l'IDRAC le 7 mars 2016 par Pierre Col
Support du stage "Outils de recherche et de veille sur l'actualité", organisé par l'URFIST de Rennes, le 14 octobre 2014 (enrichissement et mise à jour du support précédent : datajournalisme, twitter, texmix...)
L'intelligence artificielle et les nouvelles technologies sont entourées de fantasmes. Il s'agit d'IA faibles et elles ne sont pas destinées à remplacer le soignant mais à l'accompagner et le soutenir. Le principal frein n'est pas la technologie, ni même le budget mais la résistance dans l'esprit des soignants eux-mêmes.
Le kyste hydatique du foie est une maladie parasitaire due à Echinoccocus granulosis. Les notions de bases de parasitologie, d'épidémiologie, d'histoire naturelle et de classification sont présentées. Les éléments de choix de la stratégie thérapeutique sont discutés.
Chapitre 1. Éléments du droit Marocain
1.1. Les sources du droit marocain
1.2. Les branches du droit
1.3. L’organisation judiciaire au Maroc
1.4. Les responsabilités civiles et pénales
Présentation en ligne | De la dématérialisation des factures à la digitalisat...Sollan France
Présentation en ligne | De la dématérialisation des factures à la digitalisation des processus comptables, animé par Cathy Jullien, Responsable des partenariats chez Esker et Marie-Ange Monard, Consultante Senior Dématérialisation chez Sollan
Première partie du ppt de cours sur la rédaction scientifique. Il aborde la question de la problématique, problème de recherche, question de recherche, objectifs, hypothèses et autres.
Machine learning, deep learning et search : à quand ces innovations dans nos ...Antidot
FORCE EST DE CONSTATER QUE DURANT CES 10 DERNIÈRES ANNÉES, IL N'Y A PAS EU D'ÉVOLUTION DANS LE DOMAINE DES MOTEURS DE RECHERCHE POUR LES ENTREPRISES. ET POURTANT LA TOILE BRUISSE DE LA RÉVOLUTION DU MACHINE LEARNING.
Ces nouvelles approches mathématiques révolutionnent le traitement de l'information. Les géants du web s'en sont saisis depuis quelques années déjà et les premiers résultats sont là. Votre recherche Web est plus personnalisée, elle prédit plus qu'elle ne trouve, elle anticipe.
Mais les travailleurs du savoir dans les entreprises classiques n'ont pas encore accès à ces innovations. Ont-ils été oubliés ?
La recherche d'information en entreprise est-elle condamnée à exploiter des technologies du 20ème siècle ?
William Lesguillier, responsable de l'offre Valorisation des Données chez Antidot, revient sur l'intérêt de ces approches de machine learning afin de comprendre à quoi elles servent. A travers divers retours d'expériences, nous illustrerons ce qu'elles apportent dans la recherche d'information.
Nous ouvrirons enfin les portes du laboratoire d'Antidot pour présenter les derniers travaux de recherche sur les algorithmes de pertinence. l
Du Big Data à la Smart Information : comment valoriser les actifs information...Antidot
Du Big Data à la Smart Information : quelle approche ?
- Linked Enterprise Data
Quels outils pour créer la Smart Information ?
- Web de données
- Machine Learning
Exemples variés
Présentation faite à l'IDRAC le 7 mars 2016 par Pierre Col
Oxalide MorningTech #1 - BigData
1er MorningTech @Oxalide, animé par Ludovic Piot (@lpiot), le 15 décembre 2016.
Pour cette 1ère édition du Morning Tech nous vous proposons une overview sur un des thèmes du moment : le Big Data.
Au delà de ce buzz word nous aborderons :
Les grands concepts
Les étapes clés des projets Big Data et les technologies à utiliser (stockage, ingestion, …)
Les enjeux des architectures Big Data (architecture lambda, …)
L'intelligence artificielle (machine learning, deep learning, …)
Et nous finirons par un cas d'usage du big data sur AWS autour de l'utilisation des données gyroscopiques de vos internautes mobiles
Subject: Oxalide's 1st MorningTech talk about BigData.
Date: 15-dec-2016
Speakers: Ludovic Piot (@lpiot, @oxalide)
Language: french
Lien SpeakerDeck : https://speakerdeck.com/lpiot/oxalide-morningtech-number-1-bigdata
Lien SlideShare : https://www.slideshare.net/LudovicPiot/oxalide-morningtech-1-bigdata
YouTube Video capture: https://youtu.be/7O85lRzvMY0
Main topics:
* Les grands enjeux du BigData
** les 3 V du Gartner : volume, variété, vélocité
* Le stockage des données
** datalake
** les technos
* L'ingestion des données
** ETL
** datastream
** les technos
* Les enjeux du compute
** map-reduce
** spark
** lambda architecture
* Démo d'une plateforme BigData sur AWS
* L'intelligence artificielle
** datascience exploratoire et notebooks,
** machine learning,
** deep learning,
** data pipeline
** les technos
* Pour aller plus loin
** La gouvernance des données
** La dataviz
Au delà de ce buzz word :
Les grands concepts
Les étapes clés des projets Big Data et les technologies à utiliser (stockage, ingestion, …)
Les enjeux des architectures Big Data (architecture lambda, …)
L'intelligence artificielle (machine learning, deep learning, …)
Et un cas d'usage du big data sur AWS autour de l'utilisation des données gyroscopiques de vos internautes mobiles.
Slides diffusés pendant le webinaire animé par Victor Coustenoble de Trifacta et Marc Sallières et Malick Konate de Synaltic : "Préparez et visualisez vos Open Data avec Trifacta et Tableau"
Retrouvez la vidéo sur blog.synaltic.fr !
Cette présentation définit rapidement le Plan de gestion de données dans le cadre du Module Doctoral Cap sur les Données Environnement 2020 réalisé pour l'Université de Montpellier par la Commission Information Scientifique et Technique Agropolis.
Santé : accélérez avec la puissance du calcul intensif - GENCIFrenchTechCentral
Santé, intelligence artificielle... découvrez les ressources financières et stratégiques à votre disposition pour développer vos projets !
Explorez les ressources financières et stratégiques à votre disposition pour accélérer vos projets, avec les experts de GENCI. Intelligence artificielle, IoT médecine quantique... comment accéder aux outils de calcul et à l'accompagnement dont vous avez besoin?
IODS : Retour d’expériences au sein du Center for Data ScienceBorderCloud
Le Center for Data Science de l’université Paris Saclay met en oeuvre une solution opérationnelle depuis 2016 afin de référencer toutes les sources de données, fichiers ou d’API au sein de l’université. Nous verrons quelles opportunités apportent le respect des standards et bonnes pratiques pour faciliter la réutilisation et la valorisation des données de la recherche.
Version ouverte à tous : http://linkedwiki.com
Version de l’université Paris Saclay : https://io.datascience-paris-saclay.fr
Antidot Content Classifier - Valorisez vos contenusAntidot
Comment analyser sémantiquement et classer automatiquement des millions de documents sans avoir besoin de les lire ou de les relire ?
Antidot rend disponible à tous, les dernières technologies du Machine Learning pour :
- Trier, classer et mieux ranger automatiquement votre GED ou votre intranet : retrouver un document ou y trouver de l'information est enfin possible.
- Recommander les documents pertinents, contextualisés en fonction du profil de l’utilisateur.
- Segmenter finement des contenus payants et délivrer des abonnements sur mesure à vos clients
- Alerter de manière très ciblée vos utilisateurs sur les nouveaux documents utiles à leur activité
- Aiguiller automatiquement des demandes entrantes, selon leur sujet, leur niveau d’urgence.
- Analyser les réseaux sociaux, tweets, e-mails et contributions dans les forums afin de détecter les sujets et de réagir de façon ciblée.
- … et bien d’autres cas d’application
Profitez vite des innovations d’Antidot pour booster votre productivité et rester en tête du peloton !
Analytics & Machine Learning avec la Data VirtualizationDenodo
Watch full webinar here: [https://buff.ly/2ZaQk8S]
La data science avancée, telle que le machine learning, se révèle être un outil extrêmement utile pour tirer des informations et de la valeur des données existantes. Cependant, une grande partie des ressources (comme les data scientists) se voit affectée à la recherche des bonnes données et à leur préparation.
Dans ce nouveau webinar en français, nous vous montrerons comment utiliser la virtualisation des données pour obtenir les informations souhaitées de manière plus efficace et plus agile.
Rejoignez ce webinar le 6 juin pour découvrir:
*Comment la data virtualisation accélère l’acquisition et le traitement des données
*Comment la plateforme Denodo pour la virtualisation des données s'intègre à des outils tels que Spark, Python, Zeppelin, etc.
*Comment la virtualisation des données permet de gérer plus efficacement de gros volumes de données
*Cas client & démo
Festival Online de la Data 2020 - La data devient l'affaire de tousAlexandra Loria
La data est devenue le carburant de l’économie numérique : elle devient l’affaire de toutes et tous !
Tout le monde a ce mot à la bouche, Data, Data par ci, Data par là ! La donnée a pris une ampleur telle que beaucoup la qualifie tel le nouveau carburant de notre économie moderne, qui même en ces temps, très critiques, se retrouve sur le devant de la scène.
Chez Synaltic, dès nos débuts, avec l’Open Source, comme modèle, nous avons compris l’importance des processus métier, de l’organisation, et donc des Humains qui les animent et les composent. Il n’est point d’entité (entreprise, association, collectivité, Etat) qui savent rendre leur servir ou produire sans qu’à un moment ou l’autre leur activité n’est besoin de données.Dans un pareil cadre, chacun doit y trouver sa place grâce à la construction d’une culture ouverte, une culture des données associée à celle de son organisation.
Pour sûr, tout le monde ne pourra pas être informaticien ! Certes ! Mais tout le monde manipule de près ou de loin des données dans son activité quotidienne ; autant que toutes et tous y participent avec un esprit éclairé grâce à une culture des données partagée.
Dremio : Toutes les données accessibles à toute mon organisation voire même à mon écosystème et ce simplement.
Il n’est plus à démontrer que l’ensemble des collaborateurs doivent avoir accès aux données où qu’elles soient pour prendre leurs décisions. Toutefois, il convient de s’appuyer sur des outils qui facilitent ce partage de données aussi simplement que les meilleurs outils collaboratifs tels un google doc ou un office 365.
L’open source stimulée par l’écosystème big data et un certain nombre de grandes entreprises ont apporté des solutions pour permettre aux organisation de fédérer leur données et en offrir un accès sécurisé à leurs utilisateurs. Après un rapide panorama des solutions en open source existantes, et la manière dont de tels projets peuvent s’organiser il s’agira de détailler une mise en place de Dremio, une interface unique et centralisée sur l’ensemble de vos données. Un retour d’expérience réelle conclura la présentation.
Atelier Data&Musée au Ministère de la culture - 12/12/18Sandra Davené
L'atelier "Mutualisation et exploitation des données des structures culturelles" avait pour objectif d'expliquer comment la plateforme de mutualisation des données des structures culturelles – Data&Musée – permet de créer de nouveaux outils de pilotage pour aider au développement de leurs activités.
--
www.datamusee.fr
@DataMusee
Contact :
Sandra Davené, coordinatrice Data&Musée
sandra@orpheo.fr
01 86 27 51 89
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source ...Marc Dutoo
Bringing Entreprise Search in the Big Data era with PCU
The field of Entreprise Search may have left headlines, it has nonetheless a key role to play in the "digital entreprise". How to reimagine it so ? Enters the PCU project (*), which ushers Entreprise Search in the Big Data and Machine Learning era, allowing to :
- reconcile crawled files and documents with integrated entreprise data (customers, employees...)
- and make the entreprise smarter, through Machine Learning with Big Data scalability.
This presentation will explore which benefits Big Data and Machine Learning can bring to Entreprise Search, then introduce some of PCU's unique features, such as :
- light, flexible connector agents - script your crawler !
- Spark Streaming-powered document indexing and Machine Learning-enabled search
and conclude by a live demonstration.
(*) http://pcu-consortium.github.io gathers leading French Open Source companies Smile, Wallix, Proxem companies and LIPN, ESILV labs with sponsoring of BPI France and Région île de France.
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source S...PCU Consortium
The field of Entreprise Search may have left headlines, it has nonetheless a key role to play in the "digital entreprise". How to reimagine it so ? Enters the PCU project (*), which ushers Entreprise Search in the Big Data and Machine Learning era, allowing to :
- reconcile crawled files and documents with integrated entreprise data (customers, employees...)
- and make the entreprise smarter, through Machine Learning with Big Data scalability.
This presentation will explore which benefits Big Data and Machine Learning can bring to Entreprise Search, then introduce some of PCU's unique features, such as :
- light, flexible connector agents - script your crawler !
- Spark Streaming-powered document indexing and Machine Learning-enabled search
and conclude by a live demonstration.
(*) http://pcu-consortium.github.io gathers leading French Open Source companies Smile, Wallix, Proxem companies and LIPN, ESILV labs with sponsoring of BPI France and Région île de France.
Comment l’intelligence artificielle réinvente la fouille de texteAntidot
La fouille de texte a déjà prouvé son intérêt pour tirer le sens des contenus et les enrichir avec des informations contextuelles, ce qui facilite la navigation, la recherche et aujourd’hui la recommandation automatique d’information. Cependant, les approches conventionnelles sont complexes à mettre en œuvre et coûteuses à exploiter pour une qualité pas toujours au rendez-vous.
Grâce aux nouvelles approches statistiques issues du machine learning, la classification automatique de documents et l’extraction d’entités nommées deviennent très accessibles et bien plus qualitatives.
Antidot vous présentera deux retours d’expérience sur ces nouvelles approches dans des contextes clients opérationnels dans le domaine de l’information juridique avec le CAIJ (Centre d’Accès à l’Information Juridique du Québec) et dans le domaine de la presse avec l’hebdomadaire Le Point.
La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !OCTO Technology
Présentation du talk de Frederic Petit.
Mettre en place un Datalab, c'est simple, il suffit d'installer un cluster Hadoop ! Et bien non : 3 mois après le lancement de projet, toujours pas d'Hadoop mais des data-scientists heureux et productifs !
La recette d'un bon datalab : étudier les données, assurer leur qualité et qualifier des use cases métier précis.
Comment mettre en relation données et documents pour produire une informati...Antidot
Comment mettre en relation données et documents pour produire une information métier plus riche et plus utile ?
Présentation d'Antidot Information Factory et de l'approche Linked Enterprise Data, par Pierre Col, directeur marketing d'Antidot.
Retours d'expérience de Pierre Boudigues, directeur Projets et SI de Electre, et Marc Pautrat, responsable SI éditoriaux du Groupe Moniteur.
La solution la plus performante pour classer vos contenus
Outillé et efficace
Conçu pour les métiers, Antidot Content Classifier est accessible à tous. Il ne nécessite aucune compétence technique. Grâce à ses interfaces et sa méthodologie, il garantit un temps de mise en œuvre très court : un projet de classification d’un corpus de plusieurs millions de documents se réalise en quelques jours.
Précis et exhaustif
Nos clients sont unanimes : le classifieur Antidot est la solution la plus précise du marché. Il met en œuvre les algorithmes les plus pointus de machine learning. Et grâce à sa technologie d’active learning, même si vous ne disposez pas d’un corpus de référence, vous obtenez plus rapidement des résultats extrêmement précis.
Multilabel
Antidot Content Classifier appose sur chaque document tous les tags pertinents, sans limitation de nombre. Il tire profit de tous vos plans de classement (listes ou arborescents), quelles que soient leur largeur et leur profondeur.
Multilingue
Antidot Content Classifier est indépendant de la langue. Il classe les corpus multilingues en détectant automatiquement la langue de chaque document.
Véloce
La classification d’un document se fait en quelques millisecondes. La création d’une base de signatures à partir d’un corpus d’entraînement s’effectue en quelques minutes.
Flexible
Grâce à ses APIs REST compatibles JSON et XML, Antidot Content Classifier s’intègre facilement à toute application web ou solution logicielle métier. Il traite les documents à l’unité ou par lot.
Pourquoi classer ?
Gagnez en agilité
Boostez l’accessibilité : les étiquettes deviennent des filtres qui permettent à l’utilisateur d’affiner sa recherche en quelques clics et de cibler le contenu pertinent.
Avec des documents enrichis, créez des offres de contenus personnalisées qui proposent à chaque utilisateur les documents qui lui sont utiles.
Boostez la découverte des contenus de votre Digital Workplace
Classez automatiquement les documents dans votre GED ou système d’archivage pour les retrouver plus vite.
Recommandez les documents pertinents, contextualisés en fonction du profil de l’utilisateur.
Fluidifiez votre relation client
Aiguillez les demandes entrantes, selon leur sujet, le niveau d’urgence.
Analysez les tweets, e-mails et contributions dans les forums utilisateurs afin de détecter les sujets et de réagir de façon ciblée.
Comment fonctionne Antidot Content Classifier ?
1. Phase d’entraînement supervisé
En introduisant un échantillon significatif de documents déjà étiquetés, l’intelligence artificielle de la solution Antidot Content Classifier apprend automatiquement à détecter les caractéristiques attachées à tel ou tel tag.
2. Phase de classification industrielle
Une fois la base de signatures constituée pour l’ensemble des tags de votre plan de classement, vous injectez dans le système l’ensemble de votre corpus pouvant comporter plusieurs millions de documents.
Le CAIJ du Québec transforme l’accès à l’information juridique grâce au machine learning.
Créé en 2001, le CAIJ – Centre d’Accès à l’Information Juridique – a pour mission de faciliter l’accès à l’information juridique pour l’ensemble des membres du Barreau et de la magistrature du Québec. Pour ce faire, il opère un réseau de 40 bibliothèques, offre un service de recherche et de formation, et propose plus de 1,6 million de ressources via sa bibliothèque virtuelle www.caij. qc.ca. Il est la plus grande source d’information juridique au Québec.
Pour optimiser l’accès à l’information juridique, le CAIJ a besoin de classer finement chaque texte. Après avoir écarté l’hypothèse d’une approche manuelle qui aurait pris plusieurs années, et évalué sans succès des outils classiques de text-mining, le CAIJ a choisi la solution Antidot Content Classifier. En quelques semaines le projet était finalisé et les objectifs de qualité dépassés, pour un fonds documentaire de 1,7 millions de jurisprudences avec 10.000 nouveaux documents chaque mois.
Témoignage de Sonia Loubier, Directrice des technologies de l’information du CAIJ
"Antidot a su comprendre notre besoin et nous accompagner pas à pas dans la réalisation de notre projet. Leur parfaite compréhension de nos attentes leur a permis de nous aiguiller dans la mise en œuvre de notre solution qui se positionne désormais comme un maillon clé au sein de notre organisation."
Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"Antidot
Le 4 février 2016, Target2Sell, organisait une table ronde autour du thème « E- Commerce B2B : les leviers de la croissance ».
Organisée en partenariat avec Decade, iAdvize, Antidot et IBM, la table ronde a permis d’engager une discussion de fonds sur plusieurs thématiques passionnantes !
La table ronde était animée par François Ziserman (CEO, Target2Sell), avec la participation de :
• Martin Sauer (Directeur Digital, Manutan)
• Laurent Gicquel (Responsable E-Commerce, Raja)
• Antoine Revillon (Responsable E-Business, Orexad)
• Maxime Baumard (Directeur Marketing, iAdvize)
• Pierre Col (Directeur Marketing, Antidot)
• Jérome Fraissinet (Directeur Technique, Decade)
• Patrick Gourdon (Global Client Director for retail industry, IBM)
Web sémantique et Web de données, et si on passait à la pratique ?Antidot
Le web sémantique, théorisé il y a déjà longtemps par Tim Berners-Lee, a tardé à prendre son envol. Mais aujourd'hui la vague est là et les premiers à la surfer sont les grands acteurs du web, comme Google qui bâtit son Knowledge Graph. Les standards sont aujourd'hui matures, et des organisations de toutes tailles les mettent en oeuvre dans des projets concrets, avec un vrai retour sur investissement. Cependant faire une application à l’aide des technologies du Web Sémantique peut s’avérer être une tâche fastidieuse pour ceux qui souhaitent découvrir ce domaine. De nombreuses questions restent souvent en suspens. Quel est le rôle des ontologies ? Pourquoi utiliser RDF et SPARQL ? Qu’est ce qu’un triplestore et comment l’exploiter ? Comment tirer parti du Web de données pour enrichir ses données métier à l'aide de ces outils ? Autant de questions auxquelles nous essaieront de répondre à partir d’un exemple concret : les données de l'institution culturelle Les Champs Libres à Rennes.
AFS@Store : recherche sémantique et searchandising automatisé.
Augmentez votre taux de conversion de 30%
Installation rapide et maintenance simplifiée.
WISS 2015 - Machine Learning lecture by Ludovic Samper Antidot
Machine Learning Tutorial
- Study a classical task in Machine Learning : text classification - - Show scikit-learn.org Python machine learning library
- Follow the “Working with text data” tutorial :
http://scikit-learn.org/stable/tutorial/text_analytics/ working_with_text_data.html
- Additional material on http://blog.antidot.net/
Do’s and don'ts : la recherche interne aux sites de ecommerceAntidot
Vous exploitez un site de e-commerce exploitant Prestashop, Magento, OXID eSales… ou toute autre solution ou développement spécifique ?
Alors que vous investissez lourdement en acquisition de trafic, il est essentiel que vos visiteurs trouvent immédiatement le produit qu’ils recherchent sur votre site. En effet :
- selon votre activité, 20% à 60% de vos visiteurs passent par le moteur de recherche interne de votre site marchand
- ce moteur de recherche est impliqué dans plus de la moitié des parcours d’achat
- 43% des internautes abandonnent leur recherche et quittent votre site si leur première recherche est infructueuse
Grâce à notre intervention, présentée par Pierre Col, directeur marketing d'Antidot, vous découvrirez au travers d’exemples très concrets :
- Ce qu’est le searchandising et quels sont ses enjeux pour votre business
- Comment permettre à vos visiteurs de TROUVER à coups sûrs et rapidement les bons produits sur votre site
- Comment GUIDER l’internaute de sa saisie de mots-clés à la navigation dans les résultats
- Comment INFLUENCER l’internaute dans son choix
- Comment PILOTER le moteur de recherche de votre site interne pour l’adapter à votre métier et au comportement de vos visiteurs et clients
Nous vous ferons bénéficier du retour d’expérience et des bonnes pratiques mises en oeuvre par nos clients, au nombre desquels figurent notamment 4 Pieds, Actilev, But, Camaïeu, Casino, Cuisine Addict, Cultura, Damart, Decathlon, Du Pareil Au Même, King Jouet, Magma, Nature & Découvertes, Newpharma, Oreca, Pecheur.com, Petit Bateau, Saint Maclou, Top Office, Truffaut…
Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...Antidot
Vous exploitez un site de e-commerce exploitant Prestashop, Magento, OXID eSales… ou toute autre solution ou développement spécifique ?
Alors que vous investissez lourdement en acquisition de trafic, il est essentiel que vos visiteurs trouvent immédiatement le produit qu’ils recherchent sur votre site. En effet :
- selon votre activité, 20% à 60% de vos visiteurs passent par le moteur de recherche interne de votre site marchand
- ce moteur de recherche est impliqué dans plus de la moitié des parcours d'achat
- 43% des internautes abandonnent leur recherche et quittent votre site si leur première recherche est infructueuse
Au programme de notre intervention, vous découvrirez au travers d'exemples très concrets :
- Qu'est ce que le searchandising et quels sont ses enjeux pour votre business ?
- Comment permettre à vos visiteurs de TROUVER à coups sûrs et rapidement les bons produits sur votre site ?
- Comment GUIDER l’internaute de sa saisie de mots-clés à la navigation dans les résultats ?
- Comment INFLUENCER l’internaute dans son choix ?
- Comment PILOTER le moteur de recherche de votre site interne pour l’adapter à votre métier et au comportement de vos visiteurs et clients ?
Nous vous ferons bénéficier du retour d'expérience de nos clients, au nombre desquels figurent notamment But, Camaïeu, Casino, Cultura, Damart, Decathlon, Du Pareil Au Même, King Jouet, Magma, Nature & Découvertes, Newpharma, Oreca, Pecheur.com, Petit Bateau, Saint Maclou, Top Office, Truffaut…
Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...Antidot
La Fédération des Hôpitaux Vaudois partage avec vous son retour d’expérience sur la mise en œuvre de son portail collaboratif et social avec les solutions de Jalios et Antidot. Comment tirer davantage bénéfice des informations de vos organisations ? Qu’apporte la recherche sémantique sur toutes vos sources de données ? Que devient la gestion documentaire dans un intranet collaboratif ?
En 2015, quelles sont les bonnes pratiques du searchandising ?Antidot
Découvrez, au travers de nombreux exemples concrets, les bonnes pratiques du searchandising : la combinaison intelligente du moteur de recherche interne de votre site marchand et du merchandising automatisé augmente votre taux de conversion et accroît vos ventes.
Comment tirer profit des données publiques ouvertes dans un mashup web grâce ...Antidot
« Musées de France », exemple d’agrégation de données ouvertes pour la réalisation d’une application web qui a été primée en avril 2014 par le ministère de la Culture via le concours Semanticpedia.
Au travers d’un exemple réel, en ligne sur le site http://labs.antidot.net/museesdefrance/, on présente comment réaliser une application mettant en œuvre plusieurs sources de données ouvertes : les différentes étapes de conception et de réalisation de l’application seront présentées : récupération ou connexion à différents jeux de données, utilisation de web services pour l’enrichissement d’informations (géopositionnement, ajout d’objets multimédias…) puis restitution des données sous forme d’une application web utilisant un moteur de recherche sémantique.
Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...Antidot
Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour booster votre taux de conversion !
Vous avez réalisé votre site marchand avec Prestashop, et vous constatez que votre moteur de recherche interne n’est pas efficace ? C’est normal, le moteur de recherche standard de Prestashop est tout à fait rudimentaire. Il est incapable de tolérer les fautes de frappe ou les erreurs phonétiques, de suggérer automatiquement vos produits en promotion, de proposer intelligemment des filtres de sélection, de prendre en compte votre vocabulaire métier et de vous donner la vision précise de ce que cherchent vos visiteurs, pour vous permettre de mieux les transformer en clients.
Et c’est tout à fait regrettable, car cela pénalisela performance commerciale de votre site… Pour autant, grâce au moteur de searchandising AFS@Store, vous avez une solution industrielle, pour un coût mensuel à partir de 200 euros seulement ! Disponible en SaaS et installable rapidement dans votre site Prestashop, par votre équipe informatique ou par notre partenaire Dream Me Up, AFS@Store optimise le searchandising de votre site web : indexation intelligente de votre catalogue, mise en avant des produits selon votre merchandising, suggestions de produits, marques ou catégories dès la search box avec tolérance phonétique et orthographique, facettes de filtrage contextuelles, campagnes promotionnelles dans les résultats de recherche...
Guillaume Grosjean, Responsable E-Commerce chez Antidot, vous expliquera ces bonnes pratiques du searchandising : vous découvrirez concrètement comment Tous Ergo ou 4 Pieds ont augmenté le taux de transformation de leur site sous Prestashop !
Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...Antidot
En 2014, le moteur de recherche interne d’un site e-commerce est utilisé dans plus de la moitié des parcours d'achat. Les visiteurs qui l’utilisent ont un taux de conversion au moins 5 fois supérieur aux autres. Par ailleurs, chaque euro investi en optimisation de votre site est 9 fois plus rentable qu'un euro dépensé en acquisition de trafic.
Dès lors, le moteur de recherche interne de votre site web est un levier déterminant pour votre business, il est primordial de l’optimiser !
Nous présentons lors de cet atelier un éventail de bonnes pratiques pour :
- permettre à vos clients de trouver plus facilement les produits qu’ils cherchent
- restituer plus efficacement votre politique commerciale sur votre site web
Cette présentation très concrète et opérationnelle s’appuie sur de nombreux retours d’expérience clients et le témoignage du groupe Soledis, éditeur de la solution Boost E-Commerce et de Alexis Robert, spécialiste de la vente d’outillages professionnels et grand public depuis 1803.
Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...Antidot
Arobases, éditeur d’une plateforme e-commerce en mode hébergée, souhaitait proposer à ses clients un moteur de searchandising évolué, sous forme d’une option de service. Pour cela,
Arobases a choisi AFS@Store, et en a réalisé l’intégration technique au sein de sa plateforme.
Cuisine Addict, site spécialisé dans les ustensiles et le matériel de cuisine, a été parmi les premiers clients d’Arobase à en bénéficier et apporte son retour d’expérience.
Comment sélectionner, qualifier puis exploiter les données ouvertesAntidot
"Comment sélectionner, qualifier puis exploiter les données ouvertes" : exemples au travers de deux applications professionnelles, le mashup "Musées de France" et le service Ilosport de L'Équipe.
Journée DataViz et Open Data - 19 mai 2014, Lyon, Hôtel de la région Rhône-Alpes
Présentation par Pierre Col, directeur marketing d'Antidot
Wikidata : quand Wikipédia s'intéresse aux donnéesAntidot
Diaporama de la présentation effectuée le 27 mars 2014 à Numa (Paris) à l'occasion de la journée "Relier les données : un enjeu majeur pour les usages ?" et du lancement de la plate-forme Datalift
Comment booster de 30% et plus le taux de conversion de votre site marchand ?Antidot
Saviez-vous que vous pouvez accroître facilement votre taux de conversion de 30% ou plus ? Et cela pour un coût mensuel à partir de 350 euros seulement ?
Trois chiffres sont déterminants :
- Pour 68% des internautes, le moteur de recherche est la principale forme de navigation sur un site web
- 73% des visiteurs de site e-commerce quittent un site au bout de 2 minutes s’ils n’y trouvent pas ce qu’ils cherchent
- 43% des internautes abandonnent leur recherche après la première tentative
Dans ce contexte, et alors que vous investissez lourdement en acquisition de trafic, il est vital d’optimiser le moteur de recherche de votre site web : faites-en un vrai levier au service de votre stratégie commerciale et donc de vos actions de merchandising !
C’est ce que vous propose notre solution AFS@Store. Disponible en SaaS et installable en quelques jours seulement sur votre site marchand, elle comprend :
- indexation intelligente de votre catalogue avec mise en avant marketing des produits
- auto-complétion dès la search box, facettes de filtrage contextuelles
- propositions sémantiques, cross-selling, affichage des meilleures ventes
- navigation assistée créant un effet entonnoir
Guillaume Grosjean, Responsable E-Commerce chez Antidot, vous explique ces bonnes pratiques du searchandizing : à l’aide de cas concrets vous comprendrez comment les site marchand Oreca Store ou Top Office ont augmenté leur taux de transformation de plus de 30% !
Antidot Semantic Publishing - Réussir un site éditorial agrégeant plusieurs s...Antidot
Pour lancer à l'été 2013 Ilosport.fr, le premier portail Internet multisports dédié à la pratique sportive, L'Équipe souhaitait proposer une information complète autour des disciplines sportives les plus pratiquées en France avec la genèse et l'histoire de chaque sport, des conseils forme, matériel et sécurité, et toutes les informations utiles sur les lieux de pratique ainsi qu'un agenda d'événements.Pour offrir cette richesse de contenus, L'Équipe s'est appuyée sur plusieurs fournisseurs de données, institutionnels et privés. Antidot Information Factory a facilité la constitution d'une base d'informations très riche et le moteur de recherche sémantique Antidot Finder Suite a simplifié la restitution de ces informations au sein d'une interface web.
Avec le témoignage de Frédérique Lancien, Directrice Digital et New Business du groupe L'Équipe
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...Antidot
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entreprise
Créez de nouvelles applications qui répondent à des besoins métier, de façon rapide et agile, en réutilisant et valorisant les données déjà existantes dans votre système d’information. Déployez un moteur de recherche d’entreprise vraiment intelligent.
Les systèmes d’information des entreprises se sont construits de façon incrémentale. Chaque nouveau besoin opérationnel a déclenché la mise en œuvre d’une application ad hoc : ERP, CRM, GED, annuaire, messagerie, extranet… Le développement du SI a été pensé en termes d’applications et de processus. Chaque nouvelle application a entrainé la création d’un silo de données si bien que les entreprises sont aujourd’hui confrontées à un nouveau défi : la gestion et la valorisation de ces données par essence hétérogènes et cloisonnées.
Le Linked Enterprise Data repense l’accès à l’information pour atteindre cet objectif. Il crée un espace informationnel unifié qui se nourrit de l’ensemble des données de l’entreprise, structurées ou non, voire de données externes captées sur Internet.
Évolutif et agile par essence, le Linked Enterprise Data permet de créer les données opérationnelles demandées par les métiers sans modification des applications existantes ni perturbation du système d’information. Les bénéfices du Linked Enterprise Data sont nombreux :
- Décloisonner les données en offrant un hub informationnel qui permet à chaque application de s’enrichit des données en provenance de tout le SI.
- Bénéficier d’un cadre technologique ouvert, standardisé, sécurisé, pérenne et performant défini par le W3C (avec les standards XML, RDF, SPARQL, OWL).
- Réduire la complexité par une méthodologie unifiée pour l’échange de données entre applications, que les données soient internes ou externes à l’entreprise.
Le Linked Enterprise Data c’est aussi l’opportunité de créer de nouvelles applications pour répondre à des besoins métier spécifiques, comme des applications mobiles pour les ventes ou le support, de façon rapide et efficace en réutilisant et valorisant les données déjà existantes dans le système d’information.
En apportant à chaque utilisateur les vues métiers dont il a besoin, les solutions Antidot ouvrent une nouvelle voie dans la recherche et l’accès à l’information.
Présentation faite par Pierre Col (Antidot) lors de la conférence T2M Lyon le 13 novembre 2013
Web sémantique et référentiels : l'avenir de l'image sur le WebAntidot
Diaporama de la présentation de Gautier Poupeau (Antidot) faite à l'occasion de la journée d'études : indexation, Web sémantique, Web de données organisée à l'Ecole nationale de la photographie d'Arles
Web sémantique et référentiels : l'avenir de l'image sur le Web
Comment l'intelligence artificielle améliore la recherche documentaire
1. Comment l’intelligence artificielle améliore
la recherche documentaire
Meetup Lyon Data Science – 9 juin 2016
Pierre Col – Directeur Marketing Antidot
@PierreCol – @AntidotNet
2. 2
@AntidotNet
Agenda
● Antidot (en 2 slides)
● Où en est la recherche documentaire ?
● Comment enrichir les documents ?
● Text Mining et IA - créer des métadonnées
● Linked (Open) Data – lier les documents
● Exemples
4. 4
@AntidotNet
Antidot @AntidotNet
● Editeur de logiciels
● moteurs de recherche | enrichissement des données
● depuis 1999 | Paris, Lyon, Aix-en-Provence
● 47 collaborateurs | +150 clients
● Mission : fournir des solutions innovantes qui créent
de la valeur à partir des données et augmentent la
performance opérationnelle de nos clients
8. 8
@AntidotNet
Question :
Que s’est-il passé ces 10 dernières années
dans
le monde du moteur de recherche
documentaire ?
Notre réponse :
Rien de bien passionnant…
10. 10
@AntidotNet
Comment un moteur trouve-t-il ?
● Il recherche dans les documents
les mots-clés renseignés
● Il filtre les résultats trouvés selon les critères
demandés : type de document, taille,
fourchette de prix…
● Et enfin, le plus important : il ordonne les
document dans l’ordre « le plus pertinent »
12. 12
@AntidotNet
Qu’est-ce que la pertinence ?
● Cette méthode de pondération s’appelle TF-
IDF (Term Frequency - Inverse Document
Frequency)
● Elle a été inventée en 1970
par Gerry Salton, appelé le
père de la recherche d’information
16. 16
@AntidotNet
Pertinence des moteurs Web
● Étape 1 - 90s : algorithmes TF-IDF
● Étape 2 - 2000 : Google invente le Page Rank
● Étape 3 - 2005 : explosion du nombre de
paramètres de pondération
● Étape 4 - 2010 : le Machine Learning pour
trouver la meilleure pertinence pour chacun
17. 17
@AntidotNet
Pertinence des moteurs d’entreprise
● TF-IDF est toujours implémenté dans tous les
moteurs de recherche documentaires,
via les algorithmes appelés Best Match ou
Vector Space Model
● L’état de l’art scientifique de ces moteurs de
recherche a 45 ans !
19. 19
@AntidotNet
Disposer d’un contexte riche
● Les résultats sont d’autant plus pertinents que
le moteur de recherche dispose, pour chaque
document, de métadonnées riches
20. 20
@AntidotNet
Disposer d’un contexte riche
● Si nécessaire, avant indexation des
documents, créer des métadonnées pour
● caractériser finement chaque document
● lier les documents entre eux
● Des outils précieux :
● Text Mining / Machine Learning
● Linked Data
21. 21
@AntidotNet
Qu’est-ce que le Text Mining ?
● Fouille de textes : ensemble de
traitements informatiques consistant à
extraire des connaissances dans des
textes produits par des humains pour des
humains.
● Disciplines scientifiques :
● linguistique calculatoire, traitement automatique des
langues,
● apprentissage automatique, intelligence artificielle,
● statistique
22. 22
@AntidotNet
Qu’est-ce que le Machine Learning ?
● Définition : faculté donnée à un
ordinateur d’apprendre un
comportement à partir d’exemples
● Discipline scientifique :
● Intelligence Artificielle
● approche probabiliste ≠ approches par règles
23. 23
@AntidotNet
Disposer d’un contexte riche
● En exploitant les métadonnées, on peut
créer des liens entre documents
issus de silos différents
● Pour cela, on dispose de l’approche et des
standards du web de données : Linked Data
41. 41
@AntidotNet
www.caij.qc.ca
● L’information pour les avocats du Québec
● Une information « en vrac »
● 1,7 M documents sans classement à la source
● 10.000 nouveaux docs chaque mois
● Plan de classement : 600 domaines du droit
● Classer : une tâche surhumaine
● 10 à 15 minutes par document ?
● Un travail évalué à plus de 200 années hommes !
51. 51
@AntidotNet
Un projet mené en 3 mois
● 3 personnes ont travaillé itérativement pour
constituer le corpus d’entraînement :
≈ 20 docs x 600 domaines ≈ 12.000 docs
● 1,7M de documents classés en 10 h, à raison
de 23 ms par document
57. 57
@AntidotNet
Exploiter la variété des documents
● Tirer profit de l’énorme gisement de valeur
des données non structurées :
● documents bureautiques, courriels
● GED – gestion électronique de documents
● CRM – gestion de la relation clients
● ERP – outils de gestion d’entreprise
● …
et de leur richesse sémantique !
70. Des questions ?
Merci de votre attention
Meetup Lyon Data Science – 9 juin 2016
Pierre Col – Directeur Marketing Antidot
@PierreCol – @AntidotNet
Notes de l'éditeur
Avant de me présenter, une petite question : qui ici était né en 1978 ?
Peu de monde… et cela confirme ce que laisse penser ma barbe blanche : je suis devenu « un vieux con de l’informatique » :-)
En 1978, âgé de 15 ans, je codais mon premier programme en assembleur Z80 ensuite après une école d’ingénieurs en informatique et intelligence artificielle j’ai vu passer plusieurs vagues technologiques et pas des moindres : j’ai d’abord co-écrit un logiciel serveur pour le web 0.0, celui qu’on consultait sur un petit cube marron avec un écran N&B de 24 lignes par 40 caractères Puis j’ai vu les débuts du web il y a un peu plus de 20 ans et travaillé pour un des principaux hébergeurs français, Jet Multimédia, depuis vendu à SFR. J’ai ensuite accompagné le lancement de quelques startup lyonnaises avant de rejoindre l’éditeur de logiciels lyonnais Antidot. Je tiens aussi un blog chez ZDNet France où je parle d’infrastructures Internet. Je considère que la combinaison du web, du big data et de l’intelligence artificielle via le machine learning va apporter une accélération extraordinaire, non seulement de l’informatique mais bien au-delà, et pour toute l’humanité.
Distinguons 3 catégories de moteurs de recherche : les grands moteurs du web, les moteurs spécialisés et les moteurs d’entreprise
tf_idf : plus un mot recherché est présent dans le document A et moins ce mot est présent dans les autres documents, alors plus A est jugé pertinent pour ce mot et donc plus le document A doit être mis en tête de liste
Les moteurs spécialisés utilisent avant tout des règles de gestion métier pour suggérer des recherches ou des réponses : top des recherches, produits les plus vus…
Les moteurs spécialisés utilisent avant tout des règles de gestion métier pour ordonner les résultats de réponse : disponibilité, top ventes, marge etc
Les moteurs spécialisés apportent un maximum de filtres pour raccourcir le parcours client
La classification automatique de textes consiste à poser des étiquettes, ou tags, sur les textes. Chaque étiquette caractérise un « sujet » dont parle le texte.
Un corpus représentatif permet d’entraîner le logiciel de classification : il constitue une base de « signatures » caractéristique de chaque tag, qu’il va ensuite utiliser pour classer tous les autres textes. Le traitement du corpus d’entraînement prend quelques minutes, le classement de chaque document ne prenant ensuite que quelques millisecondes.
La première étape est manuelle : elle consiste à poser « à la main » les étiquettes sur les documents. Pour cela, un€ documentaliste choisit des documents, par exemple grâce à un moteur de recherche.
Les tags sont automatique proposés, selon le plan de classement retenu.
On itère pour poser toutes les étiquettes pertinentes sur chaque document.
On lance ensuite le processus d’apprentissage sur ce corpus représentatif : il faut en général entre 20 et 30 documents par étiquette.
Un rapport permet d’évaluer le niveau de qualité (indicateur F1)
On itère ensuite en enlevant / ajoutant des documents pour les tags qui manquent de précision.
On voit ici la précision s’améliorer asymptotiquement au fil des itérations sur le corpus d’entraînement.
En résumé : - à gauche, un apprentissage supervisé qui fait intervenir des experts humains
- à droite, une classification automatique ultra-rapide
Exemple avec le portail ISIDORE du CNRS
ISIDORE - http://www.rechercheisidore.fr - a vocation à agréger toutes les publications scientifiques en sciences humaines et sociales - SHS. Au lancement du projet, il comprenait 1,8 millions de documents, et en fournit aujourd’hui plus du double.
Chaque document a été classé selon la nomenclature officielles des sciences humaines et sociales qui couvre plus de trente disciplines.
Cette classification permet au moteur de recherche de proposer des facettes de filtrage des résultats très utiles.
Autre exemple, au Québec, dans le domaine juridique
L’objectif du CAIJ - http://caij.qc.ca - est de rendre facilement accessible une information foisonnante, et non classée à la source : en effet les avocats sont spécialisés par domaine du droit (famille, travail, pénal..) et n’ont pas de temps à perdre : ils veulent trouver très vite les infos utiles pour leur dossier.
Un classement par des humains était inenvisageable.
Là encore, la classification permet un filtrage très précis des résultats d’une recherche.
Dans un premier temps, des spécialistes du droit (étudiants en 3ème année) ont posé des étiquette spour constituer le corpus d’entraînement
Les étiquettes sont suggérées selon le plan de classement du CAIJ
Comme on l’a vu, la démarche
Chaque entraînement du classifieur automatique fournit un rapport analysé étiquette par étiquette.
Il est important d’avoir une vision globale de la précision
Le projet a été un vrai succès, et en à peine 3 mois.
Autre brique d’enrichissement, l’extraction d’entités nommées
L’idée est de partir d’un texte à plat, et d’en extraire les noms de personnes, de lieux, d’organisation etc. On peut entraîner un extracteur d’entités sur des vocabulaires spécifiques : par exemple dans la santé avec des noms de molécules, de maladies, de médicaments…
Implémenté au journal Le Point pour assister à l’étiquetage des articles de la rédaction. L’objectif est de favoriser le rebond vers des articles triatant de sujets connexes citant les mêmes personnes, organisations etc. Cet algorithme statistique, donc non basé sur des règles morpho-syntaxiques, est très indépendant des langues
Implémenté au journal Le Point pour assister à l’étiquetage des articles de la rédaction. L’objectif est de favoriser le rebond vers des articles triatant de sujets connexes citant les mêmes personnes, organisations etc. Cet algorithme statistique, donc non basé sur des règles morpho-syntaxiques, est très indépendant des langues
Le Linked Data, issu du web des données, permet d’enrichir le contexte de chaque document en le liant à d’autres
Toutes les applications produisent des données non structurées : comment en exploiter le sens ?
Les données sont le principal actif d’une entreprise. Des entreprises sont mortes d’avoir perdu leurs données… et aujourd’hui la plupart des entreprises sous-exploitent cet actif, disséminé dans des silos cloisonnées
En reliant des données et documents, on crée de la « smart information » dans laquelle l’utilisateur pourra naviguer, indépendamment du point d’entrée qui pourra bien sûr être le moteur de recherche.
Le courriel envoyé par le client X de l’entreprise E au commercial Y de votre entreprise parle du projet P, qui implique les produits A et B, etc… En trouvant un de ces documents, on pourra profiter de toutes les informations qui lui sont connexes.
Revenons à ISIDORE
La classification automatique permet de filtrer : ici o, part de plus de 113.000 résultats à une requête
Pour n’en avoir plus qu’un peu plus 2000 en choisissant les documents vieux de moins d’un an.
Une fois sélectionné un document, sont contexte se trouve exposé à droite : la classification, et les sujets / concepts qu’il couvre
En cliquant sur « Rebondir » l’utilisateur peut choisir de naviguer selon énormément d’axes : la source, la collection, la discipline, l’auteur, le type de doc etc. Il s’agit d’une forme de sérendipité orientée répondant exactement aux besoins d’un chercheur.Les chercheurs ont salué l’efficacité d’ISIDORE, qui réduit considérablement le temps passé à constituer une bibliographie
Pour aller plus loin, ISIDORE publie son modèle de données…
… et rend l’ensemble des contenus et de leurs métadonnées accessibles dans le Linked Open Data, via un triple store RDF requêtable en SPARQL.