Proposition d’un modèle Text Mining pour un système de résolution automatique des problèmes détectés à partir des échanges par messageries entre collaborateurs
Rapport pfe 2017 Système de gestion des rendez-vous médicaux fehmi arbi
Etant donnée l'émergence de technologie mobile et le taux d’acquisition croissant des
Smartphones et tablettes chez le grand public, beaucoup d'applications ont été développées
dans divers domaines. Parmi ces domaines, nous trouvons les domaines de la santé
Présentation pfe - Etude, conception et réalisation d'une application web de ...Ayoub Mkharbach
C'est la présentation de mon projet de fin d'études en licence génie informatique à la faculté des sciences et techniques de settat, le stage a été effectué au sein de l'entreprise Pluralis Consulting.
Projet de fin étude ( LFIG : Conception et Développement d'une application W...Ramzi Noumairi
Ce présent rapport a été rédigé dans le cadre du projet de fin d’étude pour l’obtention du diplôme de la licence en informatique de gestion. Ce projet consiste a développer une application web et mobile d’SOS remorquage. Afin de mettre en œuvre ce projet, nous avons utilisé le Framework « symfony2 »pour le développement web et Android pour le développement mobile.
Ce projet de fin d'étude avait pour but de tester les connaissances et l'expérience que nous avons acquises tout au long de notre cursus, dans un projet qui a qui englobe plusieurs technologies, il s'agit de réaliser une plateforme d'elearning, suivre les comportements de l'apprenant et de récupérer ses traces pendant une session d'apprentissage, nous avons expliqué les différentes étapes du processus du projet au cours de cette présentation.
DOWNLOAD : https://drive.google.com/file/d/1Z5d3V96Gc1Fob5yQseIh18zryge4xQ_k/view
TEMPLATE : https://drive.google.com/file/d/11plmfBHh9UHd9Vrmn41s6vx_oJorlkys/view?usp=sharing
Rapport pfe 2017 Système de gestion des rendez-vous médicaux fehmi arbi
Etant donnée l'émergence de technologie mobile et le taux d’acquisition croissant des
Smartphones et tablettes chez le grand public, beaucoup d'applications ont été développées
dans divers domaines. Parmi ces domaines, nous trouvons les domaines de la santé
Présentation pfe - Etude, conception et réalisation d'une application web de ...Ayoub Mkharbach
C'est la présentation de mon projet de fin d'études en licence génie informatique à la faculté des sciences et techniques de settat, le stage a été effectué au sein de l'entreprise Pluralis Consulting.
Projet de fin étude ( LFIG : Conception et Développement d'une application W...Ramzi Noumairi
Ce présent rapport a été rédigé dans le cadre du projet de fin d’étude pour l’obtention du diplôme de la licence en informatique de gestion. Ce projet consiste a développer une application web et mobile d’SOS remorquage. Afin de mettre en œuvre ce projet, nous avons utilisé le Framework « symfony2 »pour le développement web et Android pour le développement mobile.
Ce projet de fin d'étude avait pour but de tester les connaissances et l'expérience que nous avons acquises tout au long de notre cursus, dans un projet qui a qui englobe plusieurs technologies, il s'agit de réaliser une plateforme d'elearning, suivre les comportements de l'apprenant et de récupérer ses traces pendant une session d'apprentissage, nous avons expliqué les différentes étapes du processus du projet au cours de cette présentation.
DOWNLOAD : https://drive.google.com/file/d/1Z5d3V96Gc1Fob5yQseIh18zryge4xQ_k/view
TEMPLATE : https://drive.google.com/file/d/11plmfBHh9UHd9Vrmn41s6vx_oJorlkys/view?usp=sharing
La professionnalisation des étudiants en informatique par les projets libres,...Morgan Magnin
Ce diaporama est le support de présentation de l’article suivant :
M. Magnin et G. Moreau. La professionnalisation des étudiants en informatique par les projets libres. Dans : 6ème Colloque Questions de pédagogies dans l'enseignement supérieur (QPES), 5 pages, Angers, Juin 2011.
L’article, téléchargeable sur http://eat-tice.ec-nantes.fr/?p=750, constitue une analyse de l'implication des étudiants dans le développement de logiciels libres (tels que OpenOffice.org, OOo4kids et MarkUs) au cours de leur cursus d'ingénieur, expérience menée à l'École Centrale de Nantes depuis plusieurs années.
Réussir son analyse des besoins dans la conduite d'un projet informatique (2007)Ardesi Midi-Pyrénées
Présentation des points essentiels à l’analyse des besoins. Dans le cadre de la mise en œuvre d’un projet il faut prendre en compte : son environnement, la constitution de son équipe projet, la communication …
BigText, compréhension et inférence avancées sur les textesPALO IT
Les groupes de travail de l’association EGC – « Fouille de Données Complexes » (GT-FDC), « Fouille de Grands Graphes » (GT-FGG), « Visualisation d’informations, interaction et fouille de données » (GT-VIF, commun avec l’AFIHM) et « Gestion et Analyse de données Spatiales et Temporelles » (GT-GAST, commun avec l’action prospective EXCES, GDR MAGIS) – organisent la 7ème édition des journées thématiques visant d’une part à poursuivre les activités des groupes et d’autre part à développer des axes communs autour de la prise en compte, la gestion, l’analyse, le traitement et la visualisation des données massives (Big Data).
Patrick LAFFITTE, Raja HADDAD et Yassin CHABEB ont présenté la conférence : BigText, compréhension et inférence avancées sur les textes.
Aujourd’hui, le volume des données textuelles échangées par les systèmes numériques est en croissance continue. L’exploitation de ces données offre de nombreuses perspectives de développement de nouveaux services pour les particuliers comme pour les professionnels.
Pour exploiter cette richesse, il est indispensable d’extraire et de produire des connaissances à partir de ce type de données.
Chapitre 1 - Introcution & cycles de développement - Etudiant.pptxssuserec8501
Quand on accède à un Site Web Dynamique, c’est le serveur qui contrôle l’accès à la base de données (affiche ou modifie seulement les informations autorisées)
Pour administrer une BD, on peut aussi s’y connecter directement via un terminal
Implémentation d’un atelier agile de génération de code d\'une application riche Spring basé sur l\'approche MDSD.
Mots clés: Eclipse, MDSD, DSL, EMF, GMF, Acceleo, Hibernate, Spring, JSF, JBoss Richfaces, Spring Security.
Expériences de gestion des connaissances avec IDELIANCE: supprimons le document!Jean Rohmer
Cet article tire quelques leçons de la conception et
de l’usage de l’outil IDELIANCE depuis une di-
zaine d’années. Idéliance est un outil de gestion de
réseaux sémantiques développé à partir de 1993,
c’est à dire à une époque où Internet était encore
très peu répandu dans l’industrie, et le Web sé-
mantique tout à fait in
existant. Nous résumons
brièvement les caractéristiques de Idéliance, et
nous nous intéressons surtout aux applications in-
dustrielles qui en ont été faites. Ceci est l’occasion
de s’interroger sur les
motivations des « cols
blancs » vis à vis de la gestion des connaissances,
que nous opposerons ici à la gestion documen-
taire.
Mots clés :
Ingénierie des connaissances ; représen-
tation des connaissances ; attitudes personnelles et
collectives face à la gestion des connaissances
Similaire à Présentation FADEL Wiam sur le nlp et machine learning (20)
MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...Horgix
This is the slide deck of a talk by Alexis "Horgix" Chotard and Laurentiu Capatina presented at the MongoDB Paris User Group in June 2024 about the feedback on how PayFit move away from a monolithic hell of a self-hosted MongoDB cluster to managed alternatives. Pitch below.
March 15, 2023, 6:59 AM: a MongoDB cluster collapses. Tough luck, this cluster contains 95% of user data and is absolutely vital for even minimal operation of our application. To worsen matters, this cluster is 7 years behind on versions, is not scalable, and barely observable. Furthermore, even the data model would quickly raise eyebrows: applications communicating with each other by reading/writing in the same MongoDB documents, documents reaching the maximum limit of 16MiB with hundreds of levels of nesting, and so forth. The incident will last several days and result in the loss of many users. We've seen better scenarios.
Let's explore how PayFit found itself in this hellish situation and, more importantly, how we managed to overcome it!
On the agenda: technical stabilization, untangling data models, breaking apart a Single Point of Failure (SPOF) into several elements with a more restricted blast radius, transitioning to managed services, improving internal accesses, regaining control over risky operations, and ultimately, approaching a technical migration when it impacts all development teams.
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)Laurent Speyser
(Conférence dessinée)
Vous êtes certainement à l’origine, ou impliqué, dans un changement au sein de votre organisation. Et peut être que cela ne se passe pas aussi bien qu’attendu…
Depuis plusieurs années, je fais régulièrement le constat de l’échec de l’adoption de l’Agilité, et plus globalement de grands changements, dans les organisations. Je vais tenter de vous expliquer pourquoi ils suscitent peu d'adhésion, peu d’engagement, et ils ne tiennent pas dans le temps.
Heureusement, il existe un autre chemin. Pour l'emprunter il s'agira de cultiver l'invitation, l'intelligence collective , la mécanique des jeux, les rites de passages, .... afin que l'agilité prenne racine.
Vous repartirez de cette conférence en ayant pris du recul sur le changement tel qu‘il est généralement opéré aujourd’hui, et en ayant découvert (ou redécouvert) le seul guide valable à suivre, à mon sens, pour un changement authentique, durable, et respectueux des individus! Et en bonus, 2 ou 3 trucs pratiques!
L'IA connaît une croissance rapide et son intégration dans le domaine éducatif soulève de nombreuses questions. Aujourd'hui, nous explorerons comment les étudiants utilisent l'IA, les perceptions des enseignants à ce sujet, et les mesures possibles pour encadrer ces usages.
Constat Actuel
L'IA est de plus en plus présente dans notre quotidien, y compris dans l'éducation. Certaines universités, comme Science Po en janvier 2023, ont interdit l'utilisation de l'IA, tandis que d'autres, comme l'Université de Prague, la considèrent comme du plagiat. Cette diversité de positions souligne la nécessité urgente d'une réponse institutionnelle pour encadrer ces usages et prévenir les risques de triche et de plagiat.
Enquête Nationale
Pour mieux comprendre ces dynamiques, une enquête nationale intitulée "L'IA dans l'enseignement" a été réalisée. Les auteurs de cette enquête sont Le Sphynx (sondage) et Compilatio (fraude académique). Elle a été diffusée dans les universités de Lyon et d'Aix-Marseille entre le 21 juin et le 15 août 2023, touchant 1242 enseignants et 4443 étudiants. Les questionnaires, conçus pour étudier les usages de l'IA et les représentations de ces usages, abordaient des thèmes comme les craintes, les opportunités et l'acceptabilité.
Résultats de l'Enquête
Les résultats montrent que 55 % des étudiants utilisent l'IA de manière occasionnelle ou fréquente, contre 34 % des enseignants. Cependant, 88 % des enseignants pensent que leurs étudiants utilisent l'IA, ce qui pourrait indiquer une surestimation des usages. Les usages identifiés incluent la recherche d'informations et la rédaction de textes, bien que ces réponses ne puissent pas être cumulées dans les choix proposés.
Analyse Critique
Une analyse plus approfondie révèle que les enseignants peinent à percevoir les bénéfices de l'IA pour l'apprentissage, contrairement aux étudiants. La question de savoir si l'IA améliore les notes sans développer les compétences reste débattue. Est-ce un dopage académique ou une opportunité pour un apprentissage plus efficace ?
Acceptabilité et Éthique
L'enquête révèle que beaucoup d'étudiants jugent acceptable d'utiliser l'IA pour rédiger leurs devoirs, et même un quart des enseignants partagent cet avis. Cela pose des questions éthiques cruciales : copier-coller est-il tricher ? Utiliser l'IA sous supervision ou pour des traductions est-il acceptable ? La réponse n'est pas simple et nécessite un débat ouvert.
Propositions et Solutions
Pour encadrer ces usages, plusieurs solutions sont proposées. Plutôt que d'interdire l'IA, il est suggéré de fixer des règles pour une utilisation responsable. Des innovations pédagogiques peuvent également être explorées, comme la création de situations de concurrence professionnelle ou l'utilisation de détecteurs d'IA.
Conclusion
En conclusion, bien que l'étude présente des limites, elle souligne un besoin urgent de régulation. Une charte institutionnelle pourrait fournir un cadre pour une utilisation éthique.
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...OCTO Technology
Par Nicolas Bordier (Consultant numérique responsable @OCTO Technology) et Alaric Rougnon-Glasson (Sustainable Tech Consultant @OCTO Technology)
Sur un exemple très concret d’audit d’éco-conception de l’outil de bilan carbone C’Bilan développé par ICDC (Caisse des dépôts et consignations) nous allons expliquer en quoi l’ACV (analyse de cycle de vie) a été déterminante pour identifier les pistes d’actions pour réduire jusqu'à 82% de l’empreinte environnementale du service.
Vidéo Youtube : https://www.youtube.com/watch?v=7R8oL2P_DkU
Compte-rendu :
PRESENTATION DE L'ACTIVE DIRECTORY SOUS WINDOWS SERVEUR.pptx
Présentation FADEL Wiam sur le nlp et machine learning
1. Proposition d’un modèle Text Mining
pour un système de résolution automatique des problèmes détectés
à partir des échanges par messageries entre collaborateurs
Soutenu par:
Wiam FADEL
Année Universitaire: 2019-2020
Membres de Jury :
Présidente : Dr. Badia ETTAKI, Prof à L’ESI.
Encadrant : Dr. Ing. Walid CHERIF, Prof à l’ESI.
Tuteur : Ing. Imane BELLA, Chef de projet Junior à Soft Centre.
Royaume du Maroc
Haut-Commissariat au Plan
Ecole Des Sciences de l’Information
Projet de fin d’étude pour l’obtention du titre:
Ingénieur d’Etat
En Ingénierie des Connaissances et Données
3. “Le Graal du 20ème siècle, c'était le pétrole. Le 21ème est celui des données,”Jalil Bensouda
3
4. “ La « data » est au cœur de l’IA,” Ghita Ammor
4
5. Contexte général
Présentation
de l’organisme
Conception du projet Réalisation Conclusion
Etude de l’existant Problématique Etude de besoins
Objectif du projet
Président Mr
Azzelarab HASSIBI
Directeur Général
Mr Jamal
BENHAMOU
26 donneurs
d’ordre clients Comité de Projet
Chef de projet
junior Mme.
Imane BELLA
Développeurs
Ingénieurs PFE
Ingénieurs
Permanents
Chercheurs Thésards
Développement
logiciel
Centre de
services partagés
Valorisation des
activités R&D
Services
mobiles
Monétique
Progiciels
Multimédia
Big Data
Analytic
5
6. Contexte général
Présentation
de l’organisme
Conception du projet Réalisation Conclusion
Etude de l’Existant Problématique
Profil
Connaissances
Discussion
Commentaire
Publication
Communautés
SoulChain est une plateforme sociale d’échange et de
partage.
Etude de besoins
Objectif du projet
Messages
6
7. Contexte général
Présentation
de l’organisme
Conception du projet Réalisation Conclusion
Etude de l’existant Problématique
La plateforme SoulChain doit être intelligente, de
manière qu’elle va comprendre les problèmes d’un
membre via ses messages qui sont liés au monde
professionnel, et cela, pour qu’elle soit capable de
recommander des solutions pertinentes.
Etude de besoins
Objectif du projet
Quels sont les opérations à réaliser pour recommander
la bonne solution, automatiquement et instantanément,
pour un problème exprimé dans les messages d’un
utilisateur
7
8. Contexte général
Présentation
de l’organisme
Conception du projet Réalisation Conclusion
Etude de l’existant Problématique Objectif du projet
L’objectif principal est d’aider les utilisateurs de la
plateforme ayant des problèmes en leur proposant des
ressources (vidéos tutoriels, articles, …) afin de les consulter
pour en ressortir des pistes utiles, ainsi que d’optimiser le
temps de la recherche et la lecture d’une panoplie des pages
web.
Etude de besoins
8
9. MESSAGES
Q W R U I P
S D F H J K L
Z X C V B
SPACE
SEN
D
Hi, I have a good accuracy for
my ML model, but prediction
is random,what’s problem?
Y O
N
E
M ‘
G
T
.
A
Message :
Hi, I have a good accuracy for my ML model, but
prediction is random,what’s problem?
Il s’agit d’un problème
professionnel
I don’t have ideas, check at
stackoverflow!
User is Writing….
Contexte général Conception du projet Réalisation Conclusion
Etude
de besoins
Récupération
de message
Prétraitement
de message
Classification
de message
Reformulation
de message en
une requête de
recherche
Questions de la recherche
9
10. MESSAGES
Q W R U I P
S D F H J K L
Z X C V B
SPACE
ROBOT : www.solute.... SEN
D
We are Happy to help you, I
will send a url where you can
find solution for your
problem
Y O
N
E
M ‘
G
T
.
A
www.solute....
Contexte général Conception du projet Réalisation Conclusion
Etude
de besoins
Choisir
la meilleur solution
Recommander
la solution
Questions de la recherche
10
12. “En 1956 , Newel, Simon & Shaw écrivent Logic Theorist, le premier programme délibérément
conçu pour imiter les capacités de résolution des problèmes d'un être humain. ”
12
15. Contexte général
Conception Général
Conception du projet Réalisation Conclusion
Conception phase 2
Conception phase 1
Acquisition
de messages
Nettoyage
de messages
Vectorisation
de messages
Entrainement
du modèle
Evaluation
du modèle
15
16. Contexte général
Conception Général
Conception du projet Réalisation Conclusion
Conception phase 2
Conception phase 1
Acquisition
de messages
Nettoyage
de messages
Vectorisation
de messages
Entrainement
du modèle
Evaluation
du modèle
16
17. Contexte général
Conception Général
Conception du projet Réalisation Conclusion
Conception phase 2
Conception phase 1
Acquisition
de messages
Nettoyage
de messages
Vectorisation
de messages
Entrainement
du modèle
Evaluation
du modèle
17
1
2
3
18. Contexte général
Conception Général
Conception du projet Réalisation Conclusion
Conception phase 2
Conception phase 1
Acquisition
de messages
Nettoyage
de messages
Vectorisation
de messages
Entrainement
du modèle
Evaluation
du modèle
18
19. Contexte général
Conception Général
Conception du projet Réalisation Conclusion
Conception phase 2
Conception phase 1
Acquisition
de messages
Nettoyage
de messages
Vectorisation
de messages
Entrainement
du modèle
Evaluation
du modèle
19
21. 21i
Contexte général
Conception Général
Conception du projet Réalisation Conclusion
Conception phase 1 Conception phase 2
Input: message
Prétraitement
Un mot de message est trouvé dans le
dictionnaire
Comparer le score total de chaque
catégorie
Dictionnaire
de la vie
privée
Output: message classifié
Si oui Sinon
Augmenter le score
de la catégorie ‘privé’
Augmenter le score de la
catégorie ‘professionnel’
23. Contexte général
Outils et technologies
Conception du projet Réalisation Conclusion
Simulation du projet
Langage de programmation Outils de développement Environnement de Travail
23
24. Contexte général
Outils et technologies
Conception du projet Réalisation Conclusion
Simulation du projet
24
25. 25
“Le grand paradoxe de l'automatisation est que le désir d'éliminer le travail
humain génère toujours de nouvelles tâches pour les humains.” Mary
L.Gray
26. Contexte général Conception du projet Réalisation Conclusion
Pour classifier les messages en deux catégories, on a
opté pour deux approches:
L’approche basée sur le Machine Learning pour la
classification en message problème et message
non-problème.
L’approche basée sur le dictionnaire pour filtrer les
messages professionnels des messages privés.
Améliorer la pertinence de sélection des messages
problèmes professionnels.
Trouver la bonne solution au problème du message
et la recommander aux utilisateurs.
Perspectives
26
28. Proposition d’un modèle Text Mining
pour un système de résolution automatique des problèmes détectés
à partir des échanges par messageries entre collaborateurs
Soutenu par:
Wiam FADEL
Année Universitaire: 2019-2020
Membres de Jury :
Présidente : Dr. Badia ETTAKI, Prof à L’ESI.
Encadrant : Dr. Ing. Walid CHERIF, Prof à l’ESI.
Tuteur : Ing. Imane BELLA, Chef de projet Junior à Soft Centre.
Royaume du Maroc
Haut-Commissariat au Plan
Ecole Des Sciences de l’Information
Projet de fin d’étude pour l’obtention du titre:
Ingénieur d’Etat
En Ingénierie des Connaissances et Données
Notes de l'éditeur
Madame la présidente, honorable jury, bonjour. Je m’appelle FADEL Wiam, Aujourd’hui et dans le cadre de l’obtention de mon diplôme d’ingénieur d’Etat en Connaissances et Données, j’ai l’honneur de soumettre a votre appréciation le résultat de mon projet de fin d’étude , réalisé au sein de soft Centre sous titre :
Intitulé: « ……. » .
Pour bien mener cette présentation nous adopterons le plan suivant (plan):, je commencerai d’abord par une introduction, je présenterai ensuite le contexte général du projet,
Je me focaliserai dans la troisième partie sur la conception du projet, après, une réalisation qui contient une simulation de notre travail et finissant enfin par une conclusion et une perspective.
l’intelligence artificielle est déjà très présente dans nos vies, à travers évidemment nos smartphones – nouveaux GPS, assistants vocaux, etc.
Pour le moment, les observateurs soulignent que les sociétés marocaines sont assez peu avancées sur ce sujet. Les grandes entreprises pour l’instant hésitent à capitaliser sur leurs données, à part dans les secteurs banque et assurance, et les télécoms.Plus généralement, la marche vers l’IA se fait progressivement, avec par exemple la multiplication des chatbots pour répondre aux clients
Chez la startup marocaine soft centre , j’ai l’occasion de travailler dans leur projet un use case qui se concentre sur une messagerie en combinant l’intelligence artificielle.
Nous entamons d’abord par le contexte général qui a pour objectif de présenter l’organisme d’accueil,l’etude de l’existant, la problématique, l’objectif principal , l’etude des besoins et les questions de recherche
Comme chaque entreprise ou société, Soft Center comprend une hiérarchie que l’on présente sous forme de l’organigramme suivant :
Mon projet PFE est effectué au sein du département de Développement en tant qu’ingénieur PFE.
Le Soft Centre, dont la Présidence est assurée par l’ANRT ,est un Centre de développement logiciel mis à disposition des opérateurs du secteur de l’Industrie des Technologies de l’Information ;
Il y a 3 domaines d’intervention de soft centre :
• La recherche appliquée et le développement logiciel; à savoir la génération de projets de recherche et développement logiciel ‘’à la demande’’.
• Le centre de services partagés, via la mise à disposition de ressources mutualisées au profit des opérateurs du secteur des TI,.
• Valorisation des activités R&D, via la mise en œuvre de programmes d’accélération technologiques,.
Les axes de recherche du Soft Centre sont:
Services mobiles Monétique Progiciels Multimédia Big Data Analytic
SoulChain est une application mobile consiste à concevoir et à développer une plateforme sociale d’échange et de partage, qui va regrouper des personnes possédant un centre d'intérêt, ou un besoin commun.
Nous décrivons cette plateforme a travers ces simples fonctions de base:
un profil membre personnelle
une liste des connaissances
un espace de discussion
elle donne la possibilité de publier des commentaires et des publications
Elle offre aussi La possibilité de créer des communautés autour d'un thème d'intérêt.
Mon sujet de PFE est basé sur cet espace de discussion tout en exploitant les messages de chat comme matière première. Mais réellement toute l’application est en cours de construction.Et nous travaillons sur messages aléatoires
Afin de bien comprendre notre problématique,……,.
Puisque le projet est en cours de construction, nous allons donner d’après le cahier de charge, un schéma qui ressemble à l’environnement dont nous allons appliquer notre système. Ce schéma va nous aider a faire une étude de besoins détaillée pour bien déterminer ce que veut le client.
Dans la plateforme Soulchain , les utilisateurs échangent des messages dans une messagerie. Un utilisateur dit <<…..>>,l’autre repons<<….>>.afin d’appliquer l’intelligence artificielle a cette messagerie,notre système a besoin de récupérer le message de notre utilisateur, ensuite il passe a prétraiter le message, après il a besoin de classifier le message afin de déterminer s’il s’agit d’un problème professionnel ou pas , si oui , le système a besoin de reformuler le message comme une requête de recherche pour le moteur de recherche.
L’etape suivante consiste a choisir parmi les résultats du moteur de recherche , la bonne solution ,c’est une étape critique, car c’est le choix de la solution qui va évaluer la pertinence de système. et a la fin, le système recommande la solution , automatiquement et instantanément a l’utilisateur.par exemple il dit :<<…>>. Nous passons maintenant a poser les questions de recherche pour réaliser le projet
Notre matière première est les messages, et on n’a pas une accessibilité à une base de données réelle du projet en question, alors quel sont les sources et les méthodes pour construire une grande base de données labélisée des messages?
Pour classifier le message,Quelle est la meilleure approche pour classifier le texte, le machine Learning ou bien l’approche basée sur le dictionnaire ?Quels sont les algorithmes les plus performants pour la classification de texte?
Enfin pour Trouver la solution pour un message détecté problème professionnel.
Comment on peut reformuler une requête de recherche d’après un message détecté problème ?
Quelles sont les démarches pour choisir la solution la plus pertinente ?
nous allons définir une conception adaptée aux besoins collectés afin de détailler chaque phase de la réalisation du projet.
Nous entamons d’abord par une conception général, et par la suite une conception détaillée de chaque phase qu’on a realise.
Pour la conception générale,
Le processus de travail comporte quatre phases principales, phase 1,phase 2, phase3 et phase 4.
Notre Input : est les messages de chat d’un membre de la plateforme SoulChain.
D’abord le système récupère le messages de cet utilisateur.
Pour la Phase 1 : on fait une Classification des messages en Message problème et Message non-problème.
Pour la Phase 2 : on fait une Classification des Messages détectés problème, en Problème de monde professionnel et Problème de la vie privée.
Pour la Phase 3 : on fait une Extraction du Sujet d’un message détecté problème professionnel, en reformulant le message comme une requête pour les moteurs de recherche.
Pour la Phase 4 :on fait le Choix de la solution la plus pertinente pour le problème, et faire la recommander automatiquement au membre concerné.
Pour les messages qui ne porte aucun problème nous avons les ignorer, de même pour les messages prives.
Comme Output :nous obtiendrons des Solutions sous format des documents, des articles, des vidéos...qu’on va recommander automatiquement.
Étant donné la complexité du projet et en raison des contraintes de temps, nous n'arrivions pas à réaliser le mécanisme de recommandation. Nous nous focalisons sur la détection automatique des messages problèmes qui appartiennent au monde professionnel
Cette phase va se concentrer sur la classification des messages en message problème et message non problème.
Pour réaliser la phase 1, nous choisissons d’appliquer le Machine Learning pour une classification binomiale de texte. L’algorithme qu’on a utilisé derrière est Logistic Regression. Notre input est une base de données de messages labélisés, qui sera nettoyée, vectorisée et entrainée, ensuite on a évalué le modele,et avec une bonne accuracy , nous avons enregistre le modele, afin de donner à notre système la capacité de prédire sur des nouveaux messages.
Nous allons détailler par la suite chaque etape de ce processus de machine learning
Dans cette étape notre input est pas de données, alors Pour l’acquisition des messages, nous avons fait du Web Scraping. Au départ , nous avons identifie la structure de notre base de données , elle contient juste une colonne a part la colonne des labels,c’est les messages , de type Texte. Apres nous avons entame l’etape de web scraping c.-à-d., nous avons fait une extraction des publications des utilisateurs à partir des sites web de questions-réponses par sujets. Nous avons considéré les publications des utilisateurs comme des messages SMS, et pour labelliser ces messages, on a étiqueté les publications des utilisateurs qui appartiennent au sujet ‘problème’ avec le label ‘problem’, tandis que pour les publications de différents sujets on a les étiquetés avec le label ‘not problem’. Lors de l’implémentation du code d’extraction, nous avons choisi d’enregistrer tous les messages et leurs labels dans un fichier CSV.
Une fois que notre base de données est prête, dans cette étape, nous avons transforme les valeurs du label d’un type textuel à un type numérique, car la majorité des algorithmes agit mieux avec des entrées numériques.
Apres Nous avons élimine les éléments qui peuvent impacter le succès de l’apprentissage comme les valeurs manquantes.
Aussi, nous avons divise les messages en listes des mots ainsi que nous avons converti tous en minuscules,
Apres nous avons eliminer la ponctuation, les mots vides, …, surtout que les messages longs contiennent un nombre important de ponctuations, ce qui nécessitent un traitement avec dévouement. Les expressions de la question et le point d’interrogation ‘?’ peuvent être un pattern important pour identifier qu’un message contient un problème, c’est pour cela qu’on ne va pas les éliminer.et cela, pour appliquer une lemmatisation sur chaque mot du message.
Cette opération va réduire les différentes formes d’un mot, et gagner du temps et du stockage
Comme output on a un dateset nettoyé
D’abord on a divisé notre base de données en 2/3 apprentissage (Train) et 1/3 test.
Afin d’entrainer notre modèle d’apprentissage, nous devons préparer les données au format adéquat à l’entrée de l’algorithme, à savoir des vecteurs. Pour ce faire nous utiliserons la technique du CountVectorizer qui permet de représenter les données sous formats des vecteurs de nombres entiers.
CountVectorizer implémente la représentation avec bags-of-words qui se déroule en 3 étapes distinctes :
Tokenisation de chaque message de la base de données d’apprentissage.
Construction du vocabulaire avec cette base de données d’apprentissage, on récupère tous les tokens existant.
On construit un vecteur pour chaque message avec le nombre d'apparition de chaque mot du vocabulaire.
Après la construction de vocabulaire nous avons transformé toute la base de données en vecteurs de nombre entiers.
Une fois que nos données sont préparées pour l’entrainement, l’étape d’apprentissage consiste à faire des calculs, extraire les caractéristiques des messages et les classifier en deux catégories ‘problem’ et ‘not problem’. L’algorithme derrière est la régression logistique, c’est la meilleure pour la classification binaire.
Après l’entraînement du modèle, l'objectif de l'évaluation est de tester un modèle sur des données différentes de celles sur lesquelles il a été entraîné. Cela permet d'obtenir une estimation non biaisée des performances d'apprentissage. Comme métrique d’évaluation, nous allons utiliser l’Accuracy de la classification pour mesurer la performance de notre modèle.
Pour la description complète de modèle on a utilisé la matrice de confusion
Si l’Accuracy donne de bons résultats on enregistre le modèle et on l’utilise pour la prédiction sur des nouveaux messages, sinon, on essaie d’appliquer la méthode de Hyperparamètre de tuning pour choisir les meilleurs paramètres pour l’entrainement du modèle ou bien de revoir notre base de données si elle est bien labélisée et équilibrée
Cette phase va se concentrer sur la classification des messages détectés problèmes en message professionnel et message privé.
Pour réaliser la phase 2, nous choisissons d’appliquer l’approche basée sur le dictionnaire pour une classification binomiale de texte. Notre input est un message, qui sera nettoyé, divisé en liste des mots et lemmatisé, afin de faire une comparaison avec le dictionnaire et filtrer à travers des calculs les messages professionnels des messages privées.
Un mot est considéré privé lorsqu’il est trouvé dans le dictionnaire, et tout ce qui n’est pas privé est professionnel.
Le score d’un mot privé est 1.
Le score d’un mot professionnel est 0.75 s’il est un nom, sinon le score est 0.5
Nous passant maintenant a la réalisation , dont nous allons voir les outils open source qu’on a utilise, ainsi que une simulation par une simple flask api.
Madame la présidente, honorable jury, bonjour. Je m’appelle FADEL Wiam, Aujourd’hui et dans le cadre de l’obtention de mon diplôme d’ingénieur d’Etat en Connaissances et Données, j’ai l’honneur de soumettre a votre appréciation le résultat de mon projet de fin d’étude , réalisé au sein de soft Centre sous titre :
Intitulé: « ……. » .