Des applications plus intelligentesBashar Al-Fallouji
Qui suis-je ?Bashar Al-Fallouji 	Architecte de Solution chez OpenText (Nstein)Mon Blog : bashar.alfallouji.comSujets d’intérêt Génie logicielInformatique décisionnelle (BI)Bashar Al-Fallouji - Des Applications Plus Intelligentes2
ObjectifPrésenter les technologies de Text-Mining existantes et leurs fonctionnalités.Vous sensibiliser au potentiel énorme que le Text-Mining peut apporter dans vos applications (Web).Bashar Al-Fallouji - Des Applications Plus Intelligentes3
AgendaRappel sur le textmining  (définition, concepts clés, etc.)Présentation des technologies existantes  (produits, API, fonctionnalités, etc.)Intégration du Text-Mining dans les applications (Web)Bashar Al-Fallouji - Des Applications Plus Intelligentes4
Deux questions pour vous …Que signifie le terme Text-Mining ?Qui a déjà utilisé une technologie de Text-Mining ?Bashar Al-Fallouji - Des Applications Plus Intelligentes5
#1 – Rappel sur le Text-Mining
Différents types de donnéesdansnos applicationsLes applications de traitement de l’information gère en général différents types de données Données structuréesDateBooléen Valeur numérique (prix, pourcentage, quantité, etc.)Types énumérés (Mr, Ms, etc.)Données non-structuréesImageVidéoSonCorps de texteBashar Al-Fallouji - Des Applications Plus Intelligentes7
Différents types de donnéesdansnos applicationsIl est facile de comprendre et de retrouver de l’information à partir de données structurésSELECT  *   FROM   TBL_FACTURE   WHERE  prix > 100Moins évident avec les données non-structuréesPourtant les données non-structurées peuvent receler une grande quantité d’information!Bashar Al-Fallouji - Des Applications Plus Intelligentes8
Données non-structurées sont des mine d’or d’informationBashar Al-Fallouji - Des Applications Plus Intelligentes9
Données non-structurées sont des mine d’or d’informationBashar Al-Fallouji - Des Applications Plus Intelligentes10
Données non-structurées sont des mine d’or d’informationBashar Al-Fallouji - Des Applications Plus Intelligentes11Femme flottant sur le dos dans la mer avec une vue à l’horizon sur des montagnes durant une journée ensoleillée.
Mine d’or d’informationBashar Al-Fallouji - Des Applications Plus Intelligentes12ConstatVidéos, Photos, Son et Texte recèlent / cachent des informations de hautes qualités.ButExtraire cette information et automatiser le processus d’extraction.
Données non-structurées80%Source : Experts Corner: Seth GrimesBashar Al-Fallouji - Des Applications Plus Intelligentes13
Définition Text-Mining  Processusd’extractiond’information de hautes-qualités à partir d’un texteLe but étant de réduire l’effort (automatiser) liée à l’extraction des ces informations.Le Text-Mining mélange plusieurs disciplines Recherche d’information (Information Retrieval);Data Mining;Apprentissage Machine (Machine Learning);Linguistique;Statistique.Plusieurs domaines d’application (Média, Publishing, Securité, Biomédical, Académique, etc.)Bashar Al-Fallouji - Des Applications Plus Intelligentes14
Text-MiningNécessite du texte (quantitéimportanted’information se trouvedans le corps de texte)Données non-structurées, Bloc de texte : Article (e.g. news, blogs)Email (e.g. feedback client)Post, Commentaire (e.g. forum)Logs  (Server logs)Le Text-Mining permet d’enrichir le contenu et de mieux les structurerPlus les données sont structurées, plus facile il est de les Retrouver (Recherche facilitée)Analyser (Interprétation des données)Regrouper, relier RéutiliserBashar Al-Fallouji - Des Applications Plus Intelligentes15
Quelques concepts clésTraitementautomatique du language naturelou NLP (Natural Language Processing)Discipline mélangeant informatique et linguistiqueApplication de programmes et techniques à tous les aspects du language humain Traduction, Correction Orthographique, Résumé automatique, Synthèse de la parole, reconnaissance vocale, classification et catégorisation de documents, etc.Source : WikipediaEntitéCatégories Fichiers d’autorité
Taxonomie  = Classification d’entités (souvent représenté sous forme d’un arbre)
Onthologie = Description de l’ensemble (Possède une grammaire, des relations entres les entités)Bashar Al-Fallouji - Des Applications Plus Intelligentes16
Text-Mining ?Permet de répondre à des questions précisesQui, Quand, Où, etc.Détection de la langueGénération automatisée de résumés Détection du ton (Sentiment Analysis)Bashar Al-Fallouji - Des Applications Plus Intelligentes17
Extraction d’entitésBashar Al-Fallouji - Des Applications Plus Intelligentes18
ExempleBashar Al-Fallouji - Des Applications Plus Intelligentes19Several people are dead and more than a dozen others are injured following an avalanche in the interior of British Columbia. Numerous others may be missing and a massive search operation is underway.Late Saturday night, three people were reported dead and 17 others were injured. Among the injured, two are in critical condition, CTV News reports. The avalanche occurred near Revelstoke, which is in the province's rugged interior, about 200 kilometres northeast of Kelowna.The slide occurred as about 200 people were taking part in a large snowmobile gathering on Boulder Mountainon Saturday afternoon. Helicopters and search dogs were scouring the area on Saturday and the mountain has been shut down. The snowmobiling event is known as the Big Iron Shootout. CTV camera operator Rod Romano arrived at the avalanche scene about three minutes after the slide occurred around 3 p.m. local time.MinedwithAlchemyAPI
Garbage in = Garbage outBashar Al-Fallouji - Des Applications Plus Intelligentes20
#2 – Technologies existantes
SaaSvs not SaaSSaaSAvantages Accès facile aux fonctionnalités (Rest, Soap)Généralement moins coûteux en terme d’Infrastructure (Coût en serveur, Maintenance, Mise à niveau, etc.)DésavantagesRestrictions au niveau APIPotentiels problèmes au niveau performance (ping, blocage IP)Disponibilité du service (Service Level Agreement)Bashar Al-Fallouji - Des Applications Plus Intelligentes22Not SaaSAvantages
Peut être plus performant  (temps de latence, pas de restriction à priori)
Possibilité d’avoir des taxonomies et AF personnalisés
Désavantages
Coût
Complexité et maintenanceGate (Not SaaS)Suite logiciel Open Source Existe depuis 15 ans (Java)La suite est composéeUn IDE - GATE Developer4 : Environnement de développement intégré (plusieurs plugins disponible)Une web app - GATE Teamware : Un outil d’annotation (collaboratif) offrant un backendUn framework - GATE Embedded: Librairie orientée objet exposant l’APIan architecture: a high-levelorganisationalpicture of how languageprocessing software compositiona process for the creation of robust and maintainable servicesBashar Al-Fallouji - Des Applications Plus Intelligentes23
Technologies existantes (SaaS)Quelquesnoms (listes non-exhaustive!)Open CalaisAlchemyAPIOpenAmplifyBeliefNetworksYahoo Term ExtractionEvriWingifyZemantaUClassifyAlias-IEtc…Bashar Al-Fallouji - Des Applications Plus Intelligentes24
FonctionnalitéesoffertesAnnotateur d'entité, extraction de concepts, catégorisation, génération de résumé, analyse du sentiment, détection de la langueLangues supportées  (EN, FR, SP)Format supportés (HTML, Microformats)API existantes (PHP, Perl, .NET, etc.)Bashar Al-Fallouji - Des Applications Plus Intelligentes25
OpenCalaisRachat par Reuters de ClearForest en 2007Reuters a démarré OpenCalais en Janvier 2008Fonctionnalités principalesCatégorisationExtraction d’entité, faits et événementsLangues supportées : Anglais, Français (Espagnol)Quota : 50,000 transactions / jour, 4 transactions par secondeBashar Al-Fallouji - Des Applications Plus Intelligentes26
OpenCalais : Exempled’appelBashar Al-Fallouji - Des Applications Plus Intelligentes27
AlchemyAPIProduit de Orchestr8 (2005)Fonctionnalités principalesConcept / Keywords ExtractionsCategorizationEntityLanguagedetectionMicroformatParsing, RSS / ATOM FeedDetection / Web page cleansingQuota : 30,000 API appel / jourAnglais, Français, Espagnol, (Allemand, Italien, Portuguais, Russe et Suédois)PluginsWordpressAlchemySEO : Tagging Automatique (SEO) basé sur les microformatsBashar Al-Fallouji - Des Applications Plus Intelligentes28
OpenAmplifyWeb service développé par HapaxFonctionnalités principalesCatégorisationExtraction d’entitéAnalyse du Sentiment Format de sortie supporté : DART, OAS, RDF, RDFa, HTML1000 transactions / jourSource : www.openAmplify.comBashar Al-Fallouji - Des Applications Plus Intelligentes29
Yahoo Term ExtractionFonctionnalités principalesExtraction d’entité5000 transactions / jour et IP (utilisation non-commerciale)Seule l’anglais est supportéeOutput : JSON / PHPBashar Al-Fallouji - Des Applications Plus Intelligentes30
NaCTeMNational Center for TextMiningNaCTeMoffredifférentes solutions TerMine : Reconnaissance automatique de termesdans un documentAcroMine : Recherched’acronyme (biomédical)Medie : Engin de rechercheSémantique (Biomédical)Facta+ : Engin de recherched’association entre concept (biomédical)KLEIO : Recherchesémantique par facette (biomédical)Info-PubMed : Fournit de l’information (graphique) sur les maladies et les organismesBashar Al-Fallouji - Des Applications Plus Intelligentes31
#3 – L’intégration du Text-Mining dans les applications (Web)
Intégration typiqueBashar Al-Fallouji - Des Applications Plus Intelligentes33
Intégration du Text-Mining dans des applications open sourceOpenCalaisDrupalhttp://drupal.org/project/opencalaisWordpresshttp://tagaroo.opencalais.com/Plugin Firefoxhttps://addons.mozilla.org/en-US/firefox/addon/3999Bashar Al-Fallouji - Des Applications Plus Intelligentes34
Intégration du Text-Mining dans des applications open sourceAlchemyAPIPluginWordpresshttp://wordpress.org/extend/plugins/tags/alchemyapiAlchemySEOAutomatic tagging for SEO using MicroFormatsGénéreune version sémantique de votre page pour les moteurs de recherche (Extraction d’entités)http://www.alchemyapi.com/tools/alchemyseo/Exemple (tags générés automatiquement) Bashar Al-Fallouji - Des Applications Plus Intelligentes35
Intégration du Text-Mining dans des applications open sourceOpenAmplifyDrupalhttp://drupal.org/project/amplifyGmail Addonhttp://community.openamplify.com/media/p/1029.aspxPluginsdisponiblessurhttp://community.openamplify.com/media/g/gallery/default.aspxBashar Al-Fallouji - Des Applications Plus Intelligentes36
Autresexemples :RechercheSémantiqueOntoText KIMBashar Al-Fallouji - Des Applications Plus Intelligentes37

Des applications plus intelligentes

  • 1.
    Des applications plusintelligentesBashar Al-Fallouji
  • 2.
    Qui suis-je ?BasharAl-Fallouji Architecte de Solution chez OpenText (Nstein)Mon Blog : bashar.alfallouji.comSujets d’intérêt Génie logicielInformatique décisionnelle (BI)Bashar Al-Fallouji - Des Applications Plus Intelligentes2
  • 3.
    ObjectifPrésenter les technologiesde Text-Mining existantes et leurs fonctionnalités.Vous sensibiliser au potentiel énorme que le Text-Mining peut apporter dans vos applications (Web).Bashar Al-Fallouji - Des Applications Plus Intelligentes3
  • 4.
    AgendaRappel sur letextmining (définition, concepts clés, etc.)Présentation des technologies existantes (produits, API, fonctionnalités, etc.)Intégration du Text-Mining dans les applications (Web)Bashar Al-Fallouji - Des Applications Plus Intelligentes4
  • 5.
    Deux questions pourvous …Que signifie le terme Text-Mining ?Qui a déjà utilisé une technologie de Text-Mining ?Bashar Al-Fallouji - Des Applications Plus Intelligentes5
  • 6.
    #1 – Rappelsur le Text-Mining
  • 7.
    Différents types dedonnéesdansnos applicationsLes applications de traitement de l’information gère en général différents types de données Données structuréesDateBooléen Valeur numérique (prix, pourcentage, quantité, etc.)Types énumérés (Mr, Ms, etc.)Données non-structuréesImageVidéoSonCorps de texteBashar Al-Fallouji - Des Applications Plus Intelligentes7
  • 8.
    Différents types dedonnéesdansnos applicationsIl est facile de comprendre et de retrouver de l’information à partir de données structurésSELECT * FROM TBL_FACTURE WHERE prix > 100Moins évident avec les données non-structuréesPourtant les données non-structurées peuvent receler une grande quantité d’information!Bashar Al-Fallouji - Des Applications Plus Intelligentes8
  • 9.
    Données non-structurées sontdes mine d’or d’informationBashar Al-Fallouji - Des Applications Plus Intelligentes9
  • 10.
    Données non-structurées sontdes mine d’or d’informationBashar Al-Fallouji - Des Applications Plus Intelligentes10
  • 11.
    Données non-structurées sontdes mine d’or d’informationBashar Al-Fallouji - Des Applications Plus Intelligentes11Femme flottant sur le dos dans la mer avec une vue à l’horizon sur des montagnes durant une journée ensoleillée.
  • 12.
    Mine d’or d’informationBasharAl-Fallouji - Des Applications Plus Intelligentes12ConstatVidéos, Photos, Son et Texte recèlent / cachent des informations de hautes qualités.ButExtraire cette information et automatiser le processus d’extraction.
  • 13.
    Données non-structurées80%Source :Experts Corner: Seth GrimesBashar Al-Fallouji - Des Applications Plus Intelligentes13
  • 14.
    Définition Text-Mining Processusd’extractiond’information de hautes-qualités à partir d’un texteLe but étant de réduire l’effort (automatiser) liée à l’extraction des ces informations.Le Text-Mining mélange plusieurs disciplines Recherche d’information (Information Retrieval);Data Mining;Apprentissage Machine (Machine Learning);Linguistique;Statistique.Plusieurs domaines d’application (Média, Publishing, Securité, Biomédical, Académique, etc.)Bashar Al-Fallouji - Des Applications Plus Intelligentes14
  • 15.
    Text-MiningNécessite du texte(quantitéimportanted’information se trouvedans le corps de texte)Données non-structurées, Bloc de texte : Article (e.g. news, blogs)Email (e.g. feedback client)Post, Commentaire (e.g. forum)Logs (Server logs)Le Text-Mining permet d’enrichir le contenu et de mieux les structurerPlus les données sont structurées, plus facile il est de les Retrouver (Recherche facilitée)Analyser (Interprétation des données)Regrouper, relier RéutiliserBashar Al-Fallouji - Des Applications Plus Intelligentes15
  • 16.
    Quelques concepts clésTraitementautomatiquedu language naturelou NLP (Natural Language Processing)Discipline mélangeant informatique et linguistiqueApplication de programmes et techniques à tous les aspects du language humain Traduction, Correction Orthographique, Résumé automatique, Synthèse de la parole, reconnaissance vocale, classification et catégorisation de documents, etc.Source : WikipediaEntitéCatégories Fichiers d’autorité
  • 17.
    Taxonomie =Classification d’entités (souvent représenté sous forme d’un arbre)
  • 18.
    Onthologie = Descriptionde l’ensemble (Possède une grammaire, des relations entres les entités)Bashar Al-Fallouji - Des Applications Plus Intelligentes16
  • 19.
    Text-Mining ?Permet derépondre à des questions précisesQui, Quand, Où, etc.Détection de la langueGénération automatisée de résumés Détection du ton (Sentiment Analysis)Bashar Al-Fallouji - Des Applications Plus Intelligentes17
  • 20.
    Extraction d’entitésBashar Al-Fallouji- Des Applications Plus Intelligentes18
  • 21.
    ExempleBashar Al-Fallouji -Des Applications Plus Intelligentes19Several people are dead and more than a dozen others are injured following an avalanche in the interior of British Columbia. Numerous others may be missing and a massive search operation is underway.Late Saturday night, three people were reported dead and 17 others were injured. Among the injured, two are in critical condition, CTV News reports. The avalanche occurred near Revelstoke, which is in the province's rugged interior, about 200 kilometres northeast of Kelowna.The slide occurred as about 200 people were taking part in a large snowmobile gathering on Boulder Mountainon Saturday afternoon. Helicopters and search dogs were scouring the area on Saturday and the mountain has been shut down. The snowmobiling event is known as the Big Iron Shootout. CTV camera operator Rod Romano arrived at the avalanche scene about three minutes after the slide occurred around 3 p.m. local time.MinedwithAlchemyAPI
  • 22.
    Garbage in =Garbage outBashar Al-Fallouji - Des Applications Plus Intelligentes20
  • 23.
  • 24.
    SaaSvs not SaaSSaaSAvantagesAccès facile aux fonctionnalités (Rest, Soap)Généralement moins coûteux en terme d’Infrastructure (Coût en serveur, Maintenance, Mise à niveau, etc.)DésavantagesRestrictions au niveau APIPotentiels problèmes au niveau performance (ping, blocage IP)Disponibilité du service (Service Level Agreement)Bashar Al-Fallouji - Des Applications Plus Intelligentes22Not SaaSAvantages
  • 25.
    Peut être plusperformant (temps de latence, pas de restriction à priori)
  • 26.
    Possibilité d’avoir destaxonomies et AF personnalisés
  • 27.
  • 28.
  • 29.
    Complexité et maintenanceGate(Not SaaS)Suite logiciel Open Source Existe depuis 15 ans (Java)La suite est composéeUn IDE - GATE Developer4 : Environnement de développement intégré (plusieurs plugins disponible)Une web app - GATE Teamware : Un outil d’annotation (collaboratif) offrant un backendUn framework - GATE Embedded: Librairie orientée objet exposant l’APIan architecture: a high-levelorganisationalpicture of how languageprocessing software compositiona process for the creation of robust and maintainable servicesBashar Al-Fallouji - Des Applications Plus Intelligentes23
  • 30.
    Technologies existantes (SaaS)Quelquesnoms(listes non-exhaustive!)Open CalaisAlchemyAPIOpenAmplifyBeliefNetworksYahoo Term ExtractionEvriWingifyZemantaUClassifyAlias-IEtc…Bashar Al-Fallouji - Des Applications Plus Intelligentes24
  • 31.
    FonctionnalitéesoffertesAnnotateur d'entité, extractionde concepts, catégorisation, génération de résumé, analyse du sentiment, détection de la langueLangues supportées (EN, FR, SP)Format supportés (HTML, Microformats)API existantes (PHP, Perl, .NET, etc.)Bashar Al-Fallouji - Des Applications Plus Intelligentes25
  • 32.
    OpenCalaisRachat par Reutersde ClearForest en 2007Reuters a démarré OpenCalais en Janvier 2008Fonctionnalités principalesCatégorisationExtraction d’entité, faits et événementsLangues supportées : Anglais, Français (Espagnol)Quota : 50,000 transactions / jour, 4 transactions par secondeBashar Al-Fallouji - Des Applications Plus Intelligentes26
  • 33.
    OpenCalais : Exempled’appelBasharAl-Fallouji - Des Applications Plus Intelligentes27
  • 34.
    AlchemyAPIProduit de Orchestr8(2005)Fonctionnalités principalesConcept / Keywords ExtractionsCategorizationEntityLanguagedetectionMicroformatParsing, RSS / ATOM FeedDetection / Web page cleansingQuota : 30,000 API appel / jourAnglais, Français, Espagnol, (Allemand, Italien, Portuguais, Russe et Suédois)PluginsWordpressAlchemySEO : Tagging Automatique (SEO) basé sur les microformatsBashar Al-Fallouji - Des Applications Plus Intelligentes28
  • 35.
    OpenAmplifyWeb service développépar HapaxFonctionnalités principalesCatégorisationExtraction d’entitéAnalyse du Sentiment Format de sortie supporté : DART, OAS, RDF, RDFa, HTML1000 transactions / jourSource : www.openAmplify.comBashar Al-Fallouji - Des Applications Plus Intelligentes29
  • 36.
    Yahoo Term ExtractionFonctionnalitésprincipalesExtraction d’entité5000 transactions / jour et IP (utilisation non-commerciale)Seule l’anglais est supportéeOutput : JSON / PHPBashar Al-Fallouji - Des Applications Plus Intelligentes30
  • 37.
    NaCTeMNational Center forTextMiningNaCTeMoffredifférentes solutions TerMine : Reconnaissance automatique de termesdans un documentAcroMine : Recherched’acronyme (biomédical)Medie : Engin de rechercheSémantique (Biomédical)Facta+ : Engin de recherched’association entre concept (biomédical)KLEIO : Recherchesémantique par facette (biomédical)Info-PubMed : Fournit de l’information (graphique) sur les maladies et les organismesBashar Al-Fallouji - Des Applications Plus Intelligentes31
  • 38.
    #3 – L’intégrationdu Text-Mining dans les applications (Web)
  • 39.
    Intégration typiqueBashar Al-Fallouji- Des Applications Plus Intelligentes33
  • 40.
    Intégration du Text-Miningdans des applications open sourceOpenCalaisDrupalhttp://drupal.org/project/opencalaisWordpresshttp://tagaroo.opencalais.com/Plugin Firefoxhttps://addons.mozilla.org/en-US/firefox/addon/3999Bashar Al-Fallouji - Des Applications Plus Intelligentes34
  • 41.
    Intégration du Text-Miningdans des applications open sourceAlchemyAPIPluginWordpresshttp://wordpress.org/extend/plugins/tags/alchemyapiAlchemySEOAutomatic tagging for SEO using MicroFormatsGénéreune version sémantique de votre page pour les moteurs de recherche (Extraction d’entités)http://www.alchemyapi.com/tools/alchemyseo/Exemple (tags générés automatiquement) Bashar Al-Fallouji - Des Applications Plus Intelligentes35
  • 42.
    Intégration du Text-Miningdans des applications open sourceOpenAmplifyDrupalhttp://drupal.org/project/amplifyGmail Addonhttp://community.openamplify.com/media/p/1029.aspxPluginsdisponiblessurhttp://community.openamplify.com/media/g/gallery/default.aspxBashar Al-Fallouji - Des Applications Plus Intelligentes36
  • 43.
    Autresexemples :RechercheSémantiqueOntoText KIMBasharAl-Fallouji - Des Applications Plus Intelligentes37

Notes de l'éditeur

  • #10 80% of all potentially usable business information originates in unstructured form (MerryllLinch, 1998)