Structures hybrides : l'apport des
   infrastructures libres aux moteurs de
           recherche sémantiques



www.lingwa...
2
Contexte


2001 Création par une équipe de 12 spécialistes du Traitement automatique
des langues (venant de Erli–Lexiquest...
Une centaine de clients
                          2 000 000
                          1 800 000
                          ...
> Quels moteurs pour quels usages

Moteurs généralistes
   Indexent tout : Web, Intranet, Desktop
   De manière indifféren...
> Le cœur de métier de Lingway

NLP natural language processing
   Equipe mixte informaticiens / linguistes
Tenir compte d...
L’offre LINGWAY
1. Spécialisations métiers




    LINGWAY                     LINGWAY                 LINGWAY            ...
Open source dans notre domaine


Logiciels généraux
Logiciels documentaires ou moteurs de
recherche
Logiciels NLP
Dictionn...
Logiciels généraux
Linux                                               Diverses distributions
Tomcat (serveur d’applicatio...
Logiciels moteurs de recherche

Lucene
•   Très largement répandu, diffusé par Apache
•   API et non produit complet
•   U...
Logiciels NLP Open source

Nombreuses initiatives
• Voir par exemple le site OpenNLP
Outils divers
• Analyseurs, taggers, ...
Interêt pour un (petit) éditeur


 On est trop petit pour tout faire
  • Se concentrer sur nos spécificités
 Permet l’indé...
Interêt pour un (petit) éditeur


 Petite équipe dans une grande communauté
  • Permet le développement de l’expertise
  •...
Interêt pour nos clients

 Réduction des risques
  • Infrastructure largement partagée
 Qualité de l’open source largement...
Conclusion


Une évolution majeure
 • Permet le développement rapide de très nombreux
   éditeurs logiciels spécialisés
 •...
Prochain SlideShare
Chargement dans…5
×

Structures hybrides : l'apport des infrastructures libres aux moteurs de recherche sémantiques

2 605 vues

Publié le

Publié dans : Voyages, Business
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
2 605
Sur SlideShare
0
Issues des intégrations
0
Intégrations
16
Actions
Partages
0
Téléchargements
22
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Structures hybrides : l'apport des infrastructures libres aux moteurs de recherche sémantiques

  1. 1. Structures hybrides : l'apport des infrastructures libres aux moteurs de recherche sémantiques www.lingway.com mai 08
  2. 2. 2
  3. 3. Contexte 2001 Création par une équipe de 12 spécialistes du Traitement automatique des langues (venant de Erli–Lexiquest) Choix de se baser sur des composants open-source dès le départ Afin de se concentrer sur notre cœur de compétence • NLP, analyse sémantique, extraction et catégorisation Tendance aujourd’hui se généralise • 80% des logiciels commerciaux contiendront des composants open source d’ici 2012 (Gartner) 3
  4. 4. Une centaine de clients 2 000 000 1 800 000 1 600 000 1 400 000 1 200 000 1 000 000 800 000 600 000 400 000 200 000 0 2005 2006 2007 4
  5. 5. > Quels moteurs pour quels usages Moteurs généralistes Indexent tout : Web, Intranet, Desktop De manière indifférenciée • Tous les documents et tous les utilisateurs sont traités de la même manière • Exemples : Google, Exalead. … Vista Moteurs spécialisés (vertical search) Ont une connaissance de la nature des documents • Outils de structuration / indexation dédiés Ont une connaissance des besoins de l’utilisateur • Adaptation du comportement rappel / précision Ont une connaissance du domaine d’application • Dictionnaires adaptés 5
  6. 6. > Le cœur de métier de Lingway NLP natural language processing Equipe mixte informaticiens / linguistes Tenir compte de la nature des documents Objectif : « Rendre le texte calculable » Transformer en une structure XML enrichie de nombreuses méta-données Tenir compte des besoins de l’utilisateur Les parties importantes dans un texte Les critères de recherche et de navigation adaptés Tenir compte du domaine d’application Des dictionnaires pour chaque langue et pour chaque métier 6
  7. 7. L’offre LINGWAY 1. Spécialisations métiers LINGWAY LINGWAY LINGWAY LINGWAY LINGWAY HR Suite Patent Suite e-commerce Suite Medical Suite Custom Search 2. Moteurs sémantiques Lingway Lingway KM Dictionnaires métiers: (Plateforme linguistique et sémantique) Médical, TIC… 3. Infrastructure Open Source Propriétaire 7
  8. 8. Open source dans notre domaine Logiciels généraux Logiciels documentaires ou moteurs de recherche Logiciels NLP Dictionnaires et réseaux sémantiques Corpus d’apprentissage 8
  9. 9. Logiciels généraux Linux Diverses distributions Tomcat (serveur d’applications) Apache Maven, ANT (outils de developpement) Apache CXF (génération WS Java) Apache Groovy (langage de scripts) Code Haus My-Sql My-SQL AB Open Office Sun FLEX Adobe Spring (framework de developpement) Interface 21 LINGWAY utilise largement ces outils Interactions régulières avec ces fondations et communautés Réactions variables ( CodeHaus beaucoup plus réactif que Apache) 9
  10. 10. Logiciels moteurs de recherche Lucene • Très largement répandu, diffusé par Apache • API et non produit complet • Utilisation à un niveau « rudimentaire » facile • Utilisation « évoluée » plus délicate • Initiatives complémentaires: SOLR, Nutch Il y en a d’autres • MG4J (Université de Milan) • Swish (C++,PHP) Lingway utilise Lucene • Avec nombreuses modifications (par surcharges) • Prépare des versions basées sur d’autres moteurs 10
  11. 11. Logiciels NLP Open source Nombreuses initiatives • Voir par exemple le site OpenNLP Outils divers • Analyseurs, taggers, gestion de corpus, etc. • Assez parcellaire et hétérogène • Pour spécialistes, monde plutôt universitaire Lingway n’utilise pas ces outils • C’est notre cœur de métier Cas particulier • Framework UIMA (issu d’IBM, distribué par Apache) 11
  12. 12. Interêt pour un (petit) éditeur On est trop petit pour tout faire • Se concentrer sur nos spécificités Permet l’indépendance • Offre autonome et complète • Mais reste compatible avec des solutions propriétaires Réduit les coûts et délais de développement 12
  13. 13. Interêt pour un (petit) éditeur Petite équipe dans une grande communauté • Permet le développement de l’expertise • Dialogue et partage avec des développeurs partout dans le monde Vitrine pour les experts et pour les sociétés • Exemple Doug Cutting chez Yahoo • Exemple article « Moving Lucene a step forward » de Cédric Champeau --> afflux de visiteurs sur le site Lingway 13
  14. 14. Interêt pour nos clients Réduction des risques • Infrastructure largement partagée Qualité de l’open source largement confirmée • Cf enquête Coverity de mai 2008 Non intrusif • Permet d’étendre facilement des infrastructures existantes sans tout refaire Complétude de la solution • Open Source + Lingway équivalents aux meilleures solutions propriétaires 14
  15. 15. Conclusion Une évolution majeure • Permet le développement rapide de très nombreux éditeurs logiciels spécialisés • Avec la garantie apportée par les grands éditeurs Il faut « jouer le jeu » • Accepter de contribuer aux communautés • Encourager la participation, afficher ses choix 15

×