Une introduction au TextMininget à la sémantiqueSeth Grimes<br />
New York Times,<br />9 octobre, 1958<br />
«Le texteexprimeunegammevaste et riche d’information, mais encode cette information dansuneforme qui estdificileàdéchiffre...
Input et traitement des documents<br />L’extractiond’information<br />La gestion des connaissances<br />Hans Peter Luhn, “...
«L’information statistique obtenue de la fréquence et de la distribution des mots est utilisée par la machine afin de calc...
«Cette argumentation assez simple sur la ‘signification’ ignore de tels aspects linguistiquesque la grammaire et la syntax...
Miranda: O, merveille! Combien de belles créatures vois-je ici réunies! Que l&apos;humanité est admirable! O splendide Nou...
New York Times,<br />8 septembre, 1957<br />Anaphore / coréférence: “They”<br />
“Kind” = genre, variété, pasune indication de sentiment.<br />Répetitions non filtrés<br />Référenceexterne<br />
“L&apos;émission, les médias et les industries de récréation recueillent environ 4% des revenus du monde, mais produisent ...
Le défide “l’information non structurée”:<br />Les sites Web, les articles des journaux et des magazines, les images, le v...
Comment sont la qualité, la valeur et l&apos;autorité de résultats de recherche?<br />L’opinion de l’hôtel<br />À qui prof...
Comment pouvons-nous faire mieux?<br />“«Nous avons en place plusieurs instruments -- des technologies Web 2.0…»<br />“The...
«Le Web 2.0 est la révolution d&apos;affaires dans l&apos;industrie de l&apos;informatique provoquée par le mouvement à In...
Le Web 2.0 est affectueux, interactif, collaboratif, dynamique. Mais comment pouvons-nous faire mieux?<br />«Nous avons en...
Le text analytics soutientrechercheplus intelligente, qui cible les buts de l’utilisateur, par exemple, qui répond aux que...
Pour trouvabilité même mieux:<br />«Le Web sémantique est un web de données, sous certains aspects comme une base de donné...
Le text mining soutient le Web 3.0 et le Web sémantique.<br />La catégorisation et la classification automatique du conten...
J’ai publié récemment un rapport, “Text Analytics 2009: User Perspectives on Solutions and Providers” («TextAnalytics 2009...
Quelles sont vos applications primaires où le texte joue un rôle?<br />
Quels renseignements textuels analysez-vous ou projetez-vous d&apos;analyser? Les utilisateurs actuels ont répondu:<br />
Avez vous (ou aurez vous) besoin d’extraire ou d’analyser:<br />
Veuillezjugervotre expérience générale – votre satisfaction – avec le textanalytics.<br />
Prochain SlideShare
Chargement dans…5
×

Une introduction au Text Mining et à la sémantique

3 294 vues

Publié le

Présentation sur text mining, Web 3.0, et le Web sémantique, par Seth Grimes, juin 2009

Publié dans : Business, Formation, Technologie
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
3 294
Sur SlideShare
0
Issues des intégrations
0
Intégrations
48
Actions
Partages
0
Téléchargements
72
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Une introduction au Text Mining et à la sémantique

  1. 1. Une introduction au TextMininget à la sémantiqueSeth Grimes<br />
  2. 2. New York Times,<br />9 octobre, 1958<br />
  3. 3. «Le texteexprimeunegammevaste et riche d’information, mais encode cette information dansuneforme qui estdificileàdéchiffrerautomatiquement.»-- Marti A. Hearst,<br />“Untangling Text Data Mining,” 1999<br />
  4. 4. Input et traitement des documents<br />L’extractiond’information<br />La gestion des connaissances<br />Hans Peter Luhn, “A Business Intelligence System,” IBM Journal, Octobre1958<br />
  5. 5. «L’information statistique obtenue de la fréquence et de la distribution des mots est utilisée par la machine afin de calculer une mesure relative de leur importance.»<br />-- Hans Peter Luhn,<br />“The Automatic Creation of Literature Abstracts,” <br />IBM Journal, Avril1958<br />
  6. 6. «Cette argumentation assez simple sur la ‘signification’ ignore de tels aspects linguistiquesque la grammaire et la syntaxe... Aucune attention n’estaccordée aux rapports logiques et sémantiquesétablis par l’auteur.»<br />-- Hans Peter Luhn, 1958<br />
  7. 7. Miranda: O, merveille! Combien de belles créatures vois-je ici réunies! Que l&apos;humanité est admirable! O splendide Nouveau Monde, Qui compte de pareils habitants ! <br />Prospero: C’est nouveau pour toi.<br />Le naufrage dans la Tempête, l&apos;acte I, la Scène 1, dans une gravure 1797 basée sur une peinture par George Romney.<br />
  8. 8. New York Times,<br />8 septembre, 1957<br />Anaphore / coréférence: “They”<br />
  9. 9. “Kind” = genre, variété, pasune indication de sentiment.<br />Répetitions non filtrés<br />Référenceexterne<br />
  10. 10. “L&apos;émission, les médias et les industries de récréation recueillent environ 4% des revenus du monde, mais produisent déjà, dirigent, ou supervisent autrement 50% de l&apos;univers numérique.”<br />Environs 70% de l’universe numériqueestcréépar les individus.<br />“The Diverse and Exploding Digital Universe,” (IDC, 2008)<br />
  11. 11. Le défide “l’information non structurée”:<br />Les sites Web, les articles des journaux et des magazines, les images, le video.<br />Les blogs, les forums, et les médiassociales.<br />Le mél, les notes et les transcriptions de centres de contact; les interactions enregistrées.<br />Les sondages, le feed-back, les demandesd’indemnité et de garantie.<br />Les documents, les rapports, les papiersscientifiques,.<br />Et chaquesorte de document imaginable.<br />Est-ce que la recherche est suffisante?<br />
  12. 12. Comment sont la qualité, la valeur et l&apos;autorité de résultats de recherche?<br />L’opinion de l’hôtel<br />À qui profitela recherche?<br />L’opinion de l’invité… à propos de Priceline<br />
  13. 13. Comment pouvons-nous faire mieux?<br />“«Nous avons en place plusieurs instruments -- des technologies Web 2.0…»<br />“The Diverse and Exploding Digital Universe,” (IDC, 2008)<br />
  14. 14. «Le Web 2.0 est la révolution d&apos;affaires dans l&apos;industrie de l&apos;informatique provoquée par le mouvement à Internet comme une plate-forme.»-- Tim O’Reilly, 2004<br />Le Web 2.0 marque un «mouvement des sites Internet personnels aux blogs et l&apos;agrégation de sites blogs, de publier à la participation, … un processus en cours et interactif ... vers les liens basés sur le balisage.» <br />-- Terry Flew, “New Media: An Introduction,” 2008<br />
  15. 15. Le Web 2.0 est affectueux, interactif, collaboratif, dynamique. Mais comment pouvons-nous faire mieux?<br />«Nous avons en place plusieurs instruments -- des technologies Web 2.0… aux logiciels qui fouillent les données non structurées et le Web Sémantique -- pour apprivoiser l&apos;univers numérique. Fait correctement, nous pouvons transformer la croissance d&apos;information en croissance économique.»<br />“The Diverse and Exploding Digital Universe,” (IDC, 2008)<br />
  16. 16. Le text analytics soutientrechercheplus intelligente, qui cible les buts de l’utilisateur, par exemple, qui répond aux questions –<br />
  17. 17. Pour trouvabilité même mieux:<br />«Le Web sémantique est un web de données, sous certains aspects comme une base de données globale.» -- Tim Berners-Lee, 1998<br />Le Web 3.0 = le Web 2.0 + le Web sémantique + les outilssémantiques.<br />Des thèmesfréquents du Web 3.0:<br />Contenusenrichi en sémantique.<br />LinkedData (donnéesreliées)<br />Sensible au contexte.<br />Conscientd’endroit.<br />
  18. 18.
  19. 19. Le text mining soutient le Web 3.0 et le Web sémantique.<br />La catégorisation et la classification automatique du contenu.<br />L’augmentation de texte: la création de metadonnées; le balisage du contenu.<br />L’extractiond’informationvers les bases de données.<br />L’analyseexploratoire et la visualisation.<br />Concepts techniques:<br />Les microformats<br />RDF, SPARQL<br />OWL<br />
  20. 20. J’ai publié récemment un rapport, “Text Analytics 2009: User Perspectives on Solutions and Providers” («TextAnalytics 2009: les perspectives des utilisateurs sur les solutions et les fournisseurs»).<br />J’ai estimé un marché global de $350 millions en 2008, une croissance de 40% de 2007.<br />J’ai présenté les résultats d’un sondage dans lequel j’ai posé les questions…<br />
  21. 21. Quelles sont vos applications primaires où le texte joue un rôle?<br />
  22. 22. Quels renseignements textuels analysez-vous ou projetez-vous d&apos;analyser? Les utilisateurs actuels ont répondu:<br />
  23. 23. Avez vous (ou aurez vous) besoin d’extraire ou d’analyser:<br />
  24. 24. Veuillezjugervotre expérience générale – votre satisfaction – avec le textanalytics.<br />

×