Identification de compatibilites sémantiques entre descripteurs de lieuxEstelle Delpech
Présentation effectuée lors de la 13e Conférence Francophone sur l'Extraction et la Gestion des Connaissances, le 31/12/2013, Toulouse, France.
Vidéo : http://www.canalc2.tv/video.asp?idVideo=11682
Article associé : http://hal.archives-ouvertes.fr/hal-00912332
Presentation for a theoretical and practical session focused on best practices and data quality principles in the context of data digitization. Includes a short presentation on data quality and coherence (especially on subjects like georeferencing, dates, names and taxa cross-checking), followed by a group discussion on good practices and a practical exercise using simple spreadsheets.
-----
Présentation pour une session pratique et théorique centrée sur les bonnes pratiques et les principes sur la qualité des données dans le contexte de la numérisation de données. Cette session comprend une courte présentation sur la qualité et la cohérence des données (notamment sur les sujets tels que le géoréférencement, les dates, noms scientifiques et vérification de taxons), suivie d’une discussion de groupe sur les bonnes pratiques et un exercice pratique d’utilisation de tableurs.
Identification de compatibilites sémantiques entre descripteurs de lieuxEstelle Delpech
Présentation effectuée lors de la 13e Conférence Francophone sur l'Extraction et la Gestion des Connaissances, le 31/12/2013, Toulouse, France.
Vidéo : http://www.canalc2.tv/video.asp?idVideo=11682
Article associé : http://hal.archives-ouvertes.fr/hal-00912332
Presentation for a theoretical and practical session focused on best practices and data quality principles in the context of data digitization. Includes a short presentation on data quality and coherence (especially on subjects like georeferencing, dates, names and taxa cross-checking), followed by a group discussion on good practices and a practical exercise using simple spreadsheets.
-----
Présentation pour une session pratique et théorique centrée sur les bonnes pratiques et les principes sur la qualité des données dans le contexte de la numérisation de données. Cette session comprend une courte présentation sur la qualité et la cohérence des données (notamment sur les sujets tels que le géoréférencement, les dates, noms scientifiques et vérification de taxons), suivie d’une discussion de groupe sur les bonnes pratiques et un exercice pratique d’utilisation de tableurs.
Découverte du Traitement Automatique des LanguesEstelle Delpech
Conférence donnée dans le cadre du meet-up "Toulouse Data Science".
L'exposé est une introduction du domaine du traitement automatique des langues (aussi connu comme TAL, text mining, ou NLP, fouille de texte, analyse sémantique...). L'exposé est à destination de tout public (informaticien, statisticien, linguiste, manageur, curieux).
Corpus comparables et traduction assistée par ordinateur, contributions à la ...Estelle Delpech
Soutenance de thèse en Informatique, spécialité Traitement Automatique des Langues.
Soutenue le 2 juillet 2013 à l'Université de Nantes.
Manuscrit de thèse disponible ici : http://tel.archives-ouvertes.fr/tel-00905930
Usage du TAL dans des applications industrielles : gestion des contenus multi...Estelle Delpech
Intervention dans le cadre du Master Ergonomie Cognitive et Ingénierie Linguistique (ECIL 2012), UE 352 - "Production, gestion et exploitation de documents textuels", Université de Toulouse Le Mirail, Toulouse, France.
Institution : Nomao
Nomao: local search and recommendation engineEstelle Delpech
Nomao is a local search engine that uses social data and personalized search results to recommend places to users. It aggregates information from multiple sources, processes the content using natural language processing and data mining, and generates summaries of places. Current features include collaborative filtering to recommend places liked by similar users, user profiling to suggest places based on interests, and place merging, term classification, and summary generation from content. The company aims to expand its user base through better integration with Facebook and early adopter targeting.
Extraction of domain-specific bilingual lexicon from comparable corpora: comp...Estelle Delpech
Material presented at the 24th International Conference on Computational Linguistics (COLING 2012), Mumbai, India.
Paper download at http://hal.archives-ouvertes.fr/hal-00743807.
Institutions: Laboratoire d'Informatique de Nantes Atlantique (LINA), Lingua et Machina, Gremuts.
Identification of Fertile Translations in Comparable Corpora: a Morpho-Compos...Estelle Delpech
Material presented at the Tenth Biennial Conference of the
Association for Machine Translation in the Americas (AMTA 2012), San Diego, CA.
Download paper at http://hal.archives-ouvertes.fr/hal-00730325.
Instiutions: Laboratoire d'Informatique de Nantes Atlantique (LINA), Lingua et Machina, Gremuts
Applicative evaluation of bilingual terminologiesEstelle Delpech
Material presented at the 18th Nordic Conference of Computational Linguistics (NODALIDA 2011), Riga, Latvia.
Download paper: http://hal.archives-ouvertes.fr/hal-00585187
Institutions: Laboratoire d'Informatique de Nantes Atlantique (LINA), Lingua et Machina
Évaluation applicative des terminologies destinées à la traduction spécialiséeEstelle Delpech
Présentation effectuée lors du 7ème atelier "Qualité des données et des connaissances, évaluation des méthodes d'extraction de données" (2011), Brest, France.
Articles associés :
- http://hal.archives-ouvertes.fr/hal-00912320 (actes atelier)
- http://hal.archives-ouvertes.fr/hal-00605304 (revue RNTI)
Institutions : Laboratoire d'Informatique de Nantes Atlantique, Lingua et Machina
Dealing with Lexicon Acquired from Comparable Corpora: post-edition and exchangeEstelle Delpech
Material presented at the TKE (Terminology and Knowledge Engineering) Conference 2010, Dublin, Ireland.
Download paper at http://hal.archives-ouvertes.fr/hal-00544403
Insitutions: Laboratoire d'Informatique de Nantes Atlantique (LINA), Lingua et Machina.
Material of the 4th Intensive Summer school and collaborative workshop on Natural Language Processing (NAIST Franco-Thai Workshop 2010).
Bangkok, Thaıland.
Institution: Institut de Recherche en Informatique de Toulouse (IRIT), Lingua et Machina
Material of the 4th Intensive Summer school and collaborative workshop on Natural Language Processing (NAIST Franco-Thai Workshop 2010).
Bangkok, Thaıland.
Material of the Natural Language Processing (NLP) Workshop with STIC-Asia representatives and the Nepal team.
August 30-31, 2007.
Patan Dhoka, Lalitpur, Nepal.
Material of the Natural Language Processing (NLP) Workshop with STIC-Asia representatives and the Nepal team.
August 30-31, 2007.
Patan Dhoka, Lalitpur, Nepal.
Text Processing for Procedural Question AnsweringEstelle Delpech
Material of the Natural Language Processing (NLP) Workshop with STIC-Asia representatives and the Nepal team.
August 30-31, 2007.
Institution: Institut de Recherche en Informatique de Toulouse (IRIT)
Patan Dhoka, Lalitpur, Nepal.
Si la baisse de la productivité est effective dans toutes les économies développées... elle est particulièrement marquée en France. Au niveau national, cet essoufflement touche tous les secteurs, et plus particulièrement celui de l’industrie, usuellement caractérisé par des gains de productivité élevés. Depuis la crise Covid, le secteur industriel contribue pour 35 % environ à cette perte, alors qu’il ne représente que 9,3 % de la valeur ajoutée nationale brute en 2023. Dans ce contexte, est-il possible de mener une politique de réindustrialisation du pays sans y associer un objectif de hausse des gains de productivité ?Non rappelle ce Cube. Au contraire, ces deux objectifs, jusqu’alors indépendants l’un de l’autre, sont désormais deux défis à relever conjointement. En analysant les différents explications à la baisse de celle-ci observée en France et dans les autres économies développées, ce Cube suggère que l’augmenter en parallèle d’une politique de réindustrialisation sous-entend une réallocation des facteurs de production vers les entreprises industrielles à fort potentiel. Elle suppose également une une meilleure affectation des ressources.
Découverte du Traitement Automatique des LanguesEstelle Delpech
Conférence donnée dans le cadre du meet-up "Toulouse Data Science".
L'exposé est une introduction du domaine du traitement automatique des langues (aussi connu comme TAL, text mining, ou NLP, fouille de texte, analyse sémantique...). L'exposé est à destination de tout public (informaticien, statisticien, linguiste, manageur, curieux).
Corpus comparables et traduction assistée par ordinateur, contributions à la ...Estelle Delpech
Soutenance de thèse en Informatique, spécialité Traitement Automatique des Langues.
Soutenue le 2 juillet 2013 à l'Université de Nantes.
Manuscrit de thèse disponible ici : http://tel.archives-ouvertes.fr/tel-00905930
Usage du TAL dans des applications industrielles : gestion des contenus multi...Estelle Delpech
Intervention dans le cadre du Master Ergonomie Cognitive et Ingénierie Linguistique (ECIL 2012), UE 352 - "Production, gestion et exploitation de documents textuels", Université de Toulouse Le Mirail, Toulouse, France.
Institution : Nomao
Nomao: local search and recommendation engineEstelle Delpech
Nomao is a local search engine that uses social data and personalized search results to recommend places to users. It aggregates information from multiple sources, processes the content using natural language processing and data mining, and generates summaries of places. Current features include collaborative filtering to recommend places liked by similar users, user profiling to suggest places based on interests, and place merging, term classification, and summary generation from content. The company aims to expand its user base through better integration with Facebook and early adopter targeting.
Extraction of domain-specific bilingual lexicon from comparable corpora: comp...Estelle Delpech
Material presented at the 24th International Conference on Computational Linguistics (COLING 2012), Mumbai, India.
Paper download at http://hal.archives-ouvertes.fr/hal-00743807.
Institutions: Laboratoire d'Informatique de Nantes Atlantique (LINA), Lingua et Machina, Gremuts.
Identification of Fertile Translations in Comparable Corpora: a Morpho-Compos...Estelle Delpech
Material presented at the Tenth Biennial Conference of the
Association for Machine Translation in the Americas (AMTA 2012), San Diego, CA.
Download paper at http://hal.archives-ouvertes.fr/hal-00730325.
Instiutions: Laboratoire d'Informatique de Nantes Atlantique (LINA), Lingua et Machina, Gremuts
Applicative evaluation of bilingual terminologiesEstelle Delpech
Material presented at the 18th Nordic Conference of Computational Linguistics (NODALIDA 2011), Riga, Latvia.
Download paper: http://hal.archives-ouvertes.fr/hal-00585187
Institutions: Laboratoire d'Informatique de Nantes Atlantique (LINA), Lingua et Machina
Évaluation applicative des terminologies destinées à la traduction spécialiséeEstelle Delpech
Présentation effectuée lors du 7ème atelier "Qualité des données et des connaissances, évaluation des méthodes d'extraction de données" (2011), Brest, France.
Articles associés :
- http://hal.archives-ouvertes.fr/hal-00912320 (actes atelier)
- http://hal.archives-ouvertes.fr/hal-00605304 (revue RNTI)
Institutions : Laboratoire d'Informatique de Nantes Atlantique, Lingua et Machina
Dealing with Lexicon Acquired from Comparable Corpora: post-edition and exchangeEstelle Delpech
Material presented at the TKE (Terminology and Knowledge Engineering) Conference 2010, Dublin, Ireland.
Download paper at http://hal.archives-ouvertes.fr/hal-00544403
Insitutions: Laboratoire d'Informatique de Nantes Atlantique (LINA), Lingua et Machina.
Material of the 4th Intensive Summer school and collaborative workshop on Natural Language Processing (NAIST Franco-Thai Workshop 2010).
Bangkok, Thaıland.
Institution: Institut de Recherche en Informatique de Toulouse (IRIT), Lingua et Machina
Material of the 4th Intensive Summer school and collaborative workshop on Natural Language Processing (NAIST Franco-Thai Workshop 2010).
Bangkok, Thaıland.
Material of the Natural Language Processing (NLP) Workshop with STIC-Asia representatives and the Nepal team.
August 30-31, 2007.
Patan Dhoka, Lalitpur, Nepal.
Material of the Natural Language Processing (NLP) Workshop with STIC-Asia representatives and the Nepal team.
August 30-31, 2007.
Patan Dhoka, Lalitpur, Nepal.
Text Processing for Procedural Question AnsweringEstelle Delpech
Material of the Natural Language Processing (NLP) Workshop with STIC-Asia representatives and the Nepal team.
August 30-31, 2007.
Institution: Institut de Recherche en Informatique de Toulouse (IRIT)
Patan Dhoka, Lalitpur, Nepal.
Si la baisse de la productivité est effective dans toutes les économies développées... elle est particulièrement marquée en France. Au niveau national, cet essoufflement touche tous les secteurs, et plus particulièrement celui de l’industrie, usuellement caractérisé par des gains de productivité élevés. Depuis la crise Covid, le secteur industriel contribue pour 35 % environ à cette perte, alors qu’il ne représente que 9,3 % de la valeur ajoutée nationale brute en 2023. Dans ce contexte, est-il possible de mener une politique de réindustrialisation du pays sans y associer un objectif de hausse des gains de productivité ?Non rappelle ce Cube. Au contraire, ces deux objectifs, jusqu’alors indépendants l’un de l’autre, sont désormais deux défis à relever conjointement. En analysant les différents explications à la baisse de celle-ci observée en France et dans les autres économies développées, ce Cube suggère que l’augmenter en parallèle d’une politique de réindustrialisation sous-entend une réallocation des facteurs de production vers les entreprises industrielles à fort potentiel. Elle suppose également une une meilleure affectation des ressources.
Deuxième actualisation estimation élections européennes 2024
Identification de compatibilités entre tages descriptifs de lieux
1. Identification de
compatibilités entre tags
descriptifs de lieux
Estelle Delpech1,2
, Laurent Candillier1,2
, Léa Laporte1,2,3
, Samuel Phan1,2
1Nomao, 2Ebuzzing , 3IRIT
13e Conférence Francophone sur l’Extraction et la Gestion des Connaissances
Toulouse, 31 janvier 2013
2. Plan
1. Contexte & travaux apparentés
2. Expériences
3. Conclusion et perspectives
3. Plan
1. Contexte & travaux apparentés
2. Expériences
3. Conclusion et perspectives
6. Dédoublonnage de données
DESCRIPTIF 1
nom : Les Caves de La Maréchale
adresse :
rue : Rue Chalande
ville : Toulouse
tel : 05.61.23.89.88
tags : restaurant, sud-ouest
DESCRIPTIF 2
nom : Caves de La Maréchale SARL
adresse :
rue : Rue Jules Chalande
ville : Toulouse
tel : 0561238988
tags : manger, français
3 / 29
7. Données bruitées
DESCRIPTIF
nom : Milhau Jean-Paul
adresse :
rue : 147 avenue des minimes
ville : Toulouse
tel : 05.61.47.40.40
tags : pédiatre, médecin , spécialiste, vie pratique
santé, installations et techniques sanitaires, plomberie
4 / 29
8. Objectif : acquisition de compatibilités
entre tags
Compatibilité
Deux tags sont compatibles s’ils peuvent être associés au
même lieu sans qu’il en résulte une incohérence pragmatique
⇒ relation symétrique
⇒ binaire ou graduelle selon besoins
restaurant vs. manger : compatible
médecin vs. plombier : incompatible
concessionaire vs. réparation vélo : ?
5 / 29
11. Hiérarchie de tags - travaux apparentés
Mesures d’affinités sémantiques calculées à partir de ressources
structurées en graphes [Budanitsky and Hirst, 2006] :
ressources
– réseaux lexicaux : WordNet
– ontologies : MeSH
– dictionnaires : arc entre vedette et mots définition
Mesures basées sur :
– plus court chemin
– profondeur des nœuds
– plus proche parent
– étiquette de l’arc
Évaluation :
– applicative
– corrélation jugements humains
8 / 29
12. Descriptifs de lieux
Descriptif = diverses informations dont :
– identifiant de lieu
– ensemble de tags
– sources ayant fourni le lieu
Indices de compatibilité :
– tendance de deux tags à apparaître dans les mêmes lieux
– tendance de deux tags à apparaître avec les mêmes tags
– tendance de deux tags à être donné par les mêmes sources
[non fait]
– etc...
9 / 29
13. Travaux apparentés : folksonomies
Classification issue d’une communauté
Exemples : Flickr, Delicious
– ensemble de ressources : pages web, photos,
– annotées par des utilisateurs,
– à l’aide de tags.
10 / 29
14. Définition [Hotho et al., 2006]
Folksonomie := (U, T, R, Y)
– T = {t1, ...tm} est un ensemble de tags
– U = {u1, ...un} est un ensemble d’utilisateurs ↔ sources
– R = {r1, ...rp} est un ensemble de ressources ↔ lieux
– Y ⊆ U × T × R
– triplet (u, t, r) ∈ Y
. attribution du tag t à la ressource r par l’utilisateur u
↔ attribution du tag t au lieu r par la source u
11 / 29
15. Identification d’affinités entre tags
Applications :
– aide à la navigation : recommandation, affinage de
requêtes
– acquisition d’ontologies
Calcul de l’affinité basée sur
[Cattuto et al., 2008, Markines et al., 2009] :
– mesure statistique de la co-occurrence de t1 et t2 dans les
mêmes ressources
– représentation vectorielle : comparaison des ressources ou
tags ou utilisateurs associés à t1 et t2
Evaluation :
– applicative
– corrélation avec la mesure de [Jiang and Conrath, 1997]
12 / 29
16. Plan
1. Contexte travaux apparentés
2. Expériences
3. Conclusion et perspectives
18. CHEVAUCHLIEUX
Compatibilité de t1 et t2 =
coefficient de chevauchement entre les lieux ayant reçu
t1 et les lieux ayant reçu t2
Overlap(t1, t2) =
|L(t1) ∩ L(t2)|
min(|L(t1)|, |L(t2)|)
14 / 29
19. TAGSVOISINS
Compatibilité de t1 et t2 =
similarité entre le voisinage de t1 et le voisinage de t2
Voisinage d’un tag =
vecteur contenant le nombre de fois ce tag où il
co-occurre avec les autres tags
Cos(t1, t2) =
t1 · t2
t1 · t2
15 / 29
20. LIEUX
Modèle de classification appris à partir de 4 variables :
– |L(t1) ∩ L(t2)|
– |L(t1) ∪ L(t2)|
– min(|L(t1)|, |L(t2)|)
– max(|L(t1)|, |L(t2)|)
16 / 29
21. HIERARCHIETAGS
Modèle de classification appris à partir de 10 variables
tirées de la hiérarchie de tags :
1. nb. de chemins entre t1 et t2
2. distance min. entre t1 et t2
3. distance max. entre t1 et t2
4. nb. de chemins dans lesquels t1 précède t2 ou t2 précède t1
5. nb. de tags dans {t1, t2} correspondant à un nom de marque
(i.e Campanile, Ikéa...)
6. ...
17 / 29
22. COMBINAISON
Modèle de classification appris à partir de 16 variables :
– score co-occurrence : CHEVAUCHLIEUX
– score voisinage : TAGSVOISINS
– 10 variables de HIERARCHIETAGS
– 4 variables de LIEUX
18 / 29
23. Données expérimentales
15 millions de lieux
3696 tags
590 paires de tags annotées avec 2 classes : COMPATIBLE/
INCOMPATIBLE
– 7 annotateurs
– 1/3 paires annotées par au moins deux annotateurs
– Taux de désaccord entre annotateurs : 12%
– Désaccords : annotation de l’annotateur le plus consensuel
⇒ 41%COMPATIBLE/ 59% INCOMPATIBLE
19 / 29
29. Plan
1. Contexte travaux apparentés
2. Expériences
3. Conclusion et perspectives
30. Conclusion
Méthode choisie : LIEUX
– parmi les meilleures
– robuste
– simple à mettre en œuvre
Taux d’erreur : 25,8%
Taux de désaccords entre humains : 12%
⇒ Apport pour le dédoublonnage, nettoyage
25 / 29
32. Perspectives
Méthode perfectible
– utilisation des sources
– ressources sémantiques non spécifiques à Nomao
Intégration au processus de dédoublonnage
Méthode applicable à d’autres champs des descriptifs :
– termes
– commentaires
27 / 29
33. Références I
Budanitsky, A. and Hirst, G. (2006).
Evaluating WordNet-based measures of lexical semantic relatedness.
Journal of Computational Linguistics, 32(1) :13–47.
Cattuto, C., Benz, D., Hotho, A., and Stumme, G. (2008).
Semantic grounding of tag relatedness in social bookmarking systems.
In Proceedings of the 7th International Conference on The Semantic Web,
pages 615–631, Karlsruhe, Germany.
Hotho, A., Jäschke, R., Schmitz, C., and Stumme, G. (2006).
Information retrieval in folksonomies : search and ranking.
In Proceedings of the 3rd European conference on The Semantic Web :
research and applications, pages 411–426, Budva, Montenegro.
Jiang, J. J. and Conrath, D. W. (1997).
Semantic similarity based on corpus statistics and lexical taxonomy.
In Proceedings of the International Conference on Research in
Computational Linguistics, Taïwan.
34. Références II
Markines, B., Cattuto, C., Menczer, F., Benz, D., Hotho, A., and Stumme, G.
(2009).
Evaluating similarity measures for emergent semantics of social tagging.
In Proceedings of the 18th international conference on World wide web,
pages 641–650, Madrid, Spain.
Quinlan, R. (1996).
Bagging, boosting and c4.5.
In 13th National Conference on Artificial Intelligence, pages 725–730.