Comment trouver linformationstructurée pour servir de pivot      au futur du web ?           Gil Francopoulo         Spott...
Le titre pose la question de ce que sera            la futur du Web• Ma foi ... qui le sait ? qui connaît le futur ???=> T...
• Actuellement, les outils qui filtrent ou indexent (ce qui  revient à la même chose) ont une connaissance très  superfici...
On pourrait envisager de demander à lauteur de la  page dannoter son texte, mais cela semble  irréaliste car:• lauteur nes...
• Une autre option est de calculer une représentation  sémantique automatiquement à laide dun pivot qui  est une base de c...
• Dautre part, il est souhaitable que cette base de  connaissances puisse "traverser" les langues de  manière sensée car l...
• Une solution possible est de sappuyer sur une  base de connaissances comme GlobalAtlas qui  comporte deux parties:• une ...
Ontologie des types = 1 millier en OWL                www.spotter.com
Création initiale de GlobalAtlas            Geonames                  filtrer            Base version#1              www.s...
Mise à jour tous les week-ends        Wikipedia FR       Wikipedia EN              Wikipedia ES          1,4 Gmots        ...
Conclusion• Disposer dune bonne base de connaissances  nest pas suffisant, il faut de plus bien analyser  les textes pour ...
Prochain SlideShare
Chargement dans…5
×

[FR] Comment trouver l'information structurée pour servir de pivot au futur du web ?

632 vues

Publié le

Comment trouver l'information structurée pour servir de pivot au futur du web ?

Gil Francopoulo
Tagmatic

Publié dans : Technologie
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
632
Sur SlideShare
0
Issues des intégrations
0
Intégrations
12
Actions
Partages
0
Téléchargements
7
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

[FR] Comment trouver l'information structurée pour servir de pivot au futur du web ?

  1. 1. Comment trouver linformationstructurée pour servir de pivot au futur du web ? Gil Francopoulo Spotter + Tagmatica www.spotter.com / www.tagmatica.com www.spotter.com
  2. 2. Le titre pose la question de ce que sera la futur du Web• Ma foi ... qui le sait ? qui connaît le futur ???=> Trois directions:1) proportion + importante quactuellement du Web mobile / Web fixe2) au moins aussi participatif quactuellement (Web 2.0)3) outils + puissants pour filtrer ou retrouver linformation (point que lon va développer) www.spotter.com
  3. 3. • Actuellement, les outils qui filtrent ou indexent (ce qui revient à la même chose) ont une connaissance très superficielle des contenus• Cela se limite à des comptages de mots, des comptages de liens, des comptages daccès• Le problème est que les mots des textes en langage naturel sont souvent ambigus. Il y a des homonymes, des synonymes. Et ce qui nous intéresse, ce ne sont pas les mots pris isolément, cest le sens dun texte, qui, la plupart du temps, lui, nest pas ambigu• Demain, je pense que nous aurons des outils qui auront une connaissance sémantique des contenus textuels et audio-visuels• Une solution technique serait davoir une annotation sémantique qui décrive de manière non-ambiguë quel est le sens dune page. Ensuite, des logiciels calculeraient à partir de ces annotations. Le problème est comment produire et maintenir une telle annotation ? www.spotter.com
  4. 4. On pourrait envisager de demander à lauteur de la page dannoter son texte, mais cela semble irréaliste car:• lauteur nest pas nécessairement la meilleure personne pour annoter car il na pas connaissance des capacités de compréhension du lecteur• quid du coût ?• si la page change, quid de lannotation ?• et les pages engendrées dynamiquement par des programmes ?• et les conventions dannotations ?• etc.=> en définitive, un nombre infime de pages seraient ainsi annotées www.spotter.com
  5. 5. • Une autre option est de calculer une représentation sémantique automatiquement à laide dun pivot qui est une base de connaissances associée à un analyseur linguistique• Oh là là ... cela fait peur car cela risque dêtre compliqué à construire et surtout à mettre à jour car les connaissances changent tout le temps. Il y a des personnes qui deviennent célèbres du jour au lendemain, des événements nouveaux chaque semaine etc.• SOLUTION => Il est possible de construire une base de connaissances en se "branchant" sur une source dinformation qui rende compte de ces mots nouveaux => Wikipedia www.spotter.com
  6. 6. • Dautre part, il est souhaitable que cette base de connaissances puisse "traverser" les langues de manière sensée car les utilisateurs sont de plus en plus multilingues: je cherche des pages traitant de tel ou tel sujet et je suis capable de lire les pages en français et anglais• On pourrait dire: mais pourquoi ne pas utiliser des bases de lOpen Linked Data comme Yago ou DBPedia ? Le problème est que les versions dune langue à lautre ne sont pas rapprochées et quelles ne sont pas rafraichies assez fréquemment pour suivre lactualité www.spotter.com
  7. 7. • Une solution possible est de sappuyer sur une base de connaissances comme GlobalAtlas qui comporte deux parties:• une ontologie des types en OWL écrite à la main de manière raisonnée=> relativement stable et multilingue qui va permettre de rapprocher sémantiquement des Wikipedias de langues différentes• une base dinstances en RDF=> mise à jour automatique tous les week-ends www.spotter.com
  8. 8. Ontologie des types = 1 millier en OWL www.spotter.com
  9. 9. Création initiale de GlobalAtlas Geonames filtrer Base version#1 www.spotter.com
  10. 10. Mise à jour tous les week-ends Wikipedia FR Wikipedia EN Wikipedia ES 1,4 Gmots filtrer filtrer filtrer Infobox FR Infobox EN Infobox ES extraire Noms typés #1 Noms typés #2 ... Noms typés #50 50 types intégrer en fusionnant Base version#N+1 www.spotter.com 450 K mots
  11. 11. Conclusion• Disposer dune bonne base de connaissances nest pas suffisant, il faut de plus bien analyser les textes pour produire des annotations sémantiques de qualité• Merci de votre attention www.spotter.com

×