### Maximisez vos Performances en Machine Learning avec GitHub
GitHub est bien plus qu'une simple plateforme de gestion de versions. En tant que chercheur ou praticien en machine learning, vous pouvez l'utiliser pour optimiser vos workflows et maximiser les performances de vos modèles. Dans ce texte, nous explorerons comment GitHub peut être un outil puissant pour votre parcours en machine learning.
#### Gestion de Versions
La gestion de versions est au cœur de GitHub. En machine learning, où les expérimentations sont monnaie courante, cette fonctionnalité devient cruciale. En utilisant des dépôts Git, vous pouvez suivre l'évolution de vos modèles, expériences et scripts. Chaque changement est enregistré, ce qui vous permet de revenir à des versions antérieures en cas de besoin, ou de collaborer efficacement avec d'autres chercheurs.
#### Collaboration Facilitée
GitHub facilite la collaboration à grande échelle. Que vous travailliez en équipe ou que vous souhaitiez simplement partager vos travaux avec la communauté, GitHub offre un environnement convivial pour la collaboration. Des fonctionnalités telles que les requêtes de tirage (pull requests) et les problèmes (issues) permettent des discussions approfondies et une révision par les pairs, améliorant ainsi la qualité de votre code et de vos modèles.
#### Réutilisation des Codes
En publiant vos codes sur GitHub, vous contribuez à la communauté du machine learning en permettant à d'autres chercheurs de réutiliser et de construire sur vos travaux. De la mise en œuvre de modèles standard à la résolution de problèmes spécifiques, la réutilisation des codes peut accélérer le processus de développement et permettre des avancées plus rapides dans le domaine.
#### Documentation et Transparence
GitHub encourage la documentation et la transparence. En ajoutant des descriptions détaillées, des guides d'utilisation et des explications sur vos dépôts, vous rendez vos travaux plus accessibles et compréhensibles pour les autres chercheurs. Cela favorise également la reproductibilité des expériences, un aspect essentiel de la science des données et du machine learning.
#### Intégration Continue
L'intégration continue (CI) est une pratique essentielle en machine learning. GitHub propose des outils d'intégration continue tels que GitHub Actions, qui vous permettent d'automatiser les tests, les validations de code et même les déploiements de modèles. En intégrant ces processus dans votre flux de travail GitHub, vous pouvez garantir la qualité de vos modèles à chaque étape du développement.
#### Apprentissage et Communauté
GitHub est une mine de ressources pour l'apprentissage et la communauté. Des dépôts de codes open source aux forums de discussion, en passant par les tutoriels et les projets collaboratifs, vous pouvez trouver une multitude de ressources pour approfondir vos connaissances en machine learning et rester à jour avec les dernières avancées du domaine.
En conclusion, GitHub offre bien pl
1. Présenté par :
GNABRO Mathy Aristide
KONAN Kouassi Trésor
Elèves Ingénieurs Statisticiens Economistes 3ème année
A la demande de :
M. Alassane KONE, ISE 2019
Sr Data Scientist, Endeavor Mining
Enseignant de ML Optimization
Février 2024
Union-Discipline-Travail Ecole Nationale Supérieure de
Statistique et d’Economie Appliquée
Ministère du plan et du développement
REPUBLIQUE DE COTE D’IVOIRE
2. PLAN DE LA PRESENTATION
01
Introduction
02
Importance de GitHub pour
le ML Optimization
03
GitHub pour les Projets
de Machine Learning
04
Cas Pratique
3. GitHub, fondée en 2008 par Chris Wanstrath, PJ Hyett et Tom Preston-Werner, est une plateforme
majeure de développement collaboratif reposant sur Git, un système de contrôle de version
distribué.
GitHub est très utiliser de nos jours, favorisant la collaboration et l'innovation à grande échelle tout
en préservant son caractère ouvert et communautaire. Son histoire illustre son rôle central dans le
paysage technologique actuel.
Dans le domaine du machine learning optimisé, GitHub joue un rôle crucial en facilitant la
collaboration, la gestion des versions et la transparence des projets. En offrant des fonctionnalités
avancées telles que la gestion des dépôts, le suivi des problèmes et l'intégration continue
1. Introduction
4. Facilite le partage et la collaboration sur les projets de machine learning (optimise les ressources)
Permet le suivi et la gestion des versions des modèles de machine learning
Favorise la reproductibilité des expériences et la transparence dans le développement des modèles
02. Importance de Git Hub
5. Gestion des dépôts : création, clonage, forking
Suivi des problèmes (issues) : signalement, attribution, suivi
Gestion des branches : développement parallèle, fusion (merge), résolution des conflits
Intégration continue (CI) et Déploiement continu (CD) : automatisation des tests, déploiement
Utilisation des actions GitHub pour automatiser les tâches récurrentes
03. Fonctionnalités clés de GitHub
6. Créer un « repository »
C’est un dossier virtuel en ligne ou vous pouvez stocker des fichiers et des dossiers
Comment faire des « commit »
C’est une confirmation dans un dépôt git
Comment faire des « push »
"Push" se réfère à l'action d'envoyer les modifications locales d'une branche vers un référentiel distant,
comme un dépôt sur une plateforme d'hébergement comme GitHub, GitLab.
Comment cloné un projet ?
04. Cas Pratique
7. $ git init [nom-du-projet]: Crée un dépôt local à partir du nom spécifié
$ git clone [url]: Télécharge un projet et tout son historique de versions
$ git status: Liste tous les nouveaux fichiers et les fichiers modifiés à commiter
$ git add [fichier]: Ajoute un instantané du fichier, en préparation pour le suivi de version
$ git commit -m "[message descriptif]": Enregistre des instantanés de fichiers de façon permanente
dans l'historique des versions
$ git pull Récupère tout l'historique du dépôt nommé et incorpore les modifications
04. Cas Pratique
8.
9. Montrons comment faire par la pratique
https://github.com/Mathy27/DemoMathyKT/blob/main/TP%20Synth%C3%A8se%20ML%20Avanc%
C3%A9%202024.ipynb
04. Cas Pratique
10. Pourquoi utiliser Git Hub ?
Optimiser les ressources lors d’une collaboration sur un projet de machine learning ;
Permettre le suivi ainsi que la gestion des versions des modèles de machine learning ;
Favoriser la reproductibilité des expériences et la transparence dans le développement des modèles
CONCLUSION
11. Pourquoi utiliser Git Hub ?
Optimiser les ressources lors d’une collaboration sur un projet de machine learning ;
Permettre le suivi ainsi que la gestion des versions des modèles de machine learning ;
Favoriser la reproductibilité des expériences et la transparence dans le développement des modèles
CONCLUSION
13. Avènement d’Internet
Mouvement open data
Rendre les données officielles
publiques
Mais, problème de divulgation des données individuelles
(2006). L’entreprise américaine AOL a publier une base de
donnée contenant :
o 20millions de recherche/650milles utilisateurs/3mois
o La base exclut les informations directement identifiantes
o Elle inclut les liens entre les recherches dâ€
’un utilisateur
o Les journalistes ont identifié F. Thelma Arnold, 62 ans,
habitant Lilburn, Georgie
o Dégat d’image démission des deux responsables
14. Nombreuses Juridictions
1ère conférence (CODASPY) en 2001 :
Loi sur la diffusion Suppression des identifiants directs
6 -ème conférence (CODASPY) en 2006 :
Loi sur la diffusion Suppression des identifiants directs
et de toutes les informations secondaires dont leur combinaison
Identifie un individu
Loi sur la protection des donnée de 2013 en Cote d’Ivoire
Nécessité d’anonymiser les données avant publication
15. Enquête sur les filets sociaux en Cote d’Ivoire (2019)
Allocation monétaire aux ménages fragiles
Sensibilité des données
Attention particulière à la protection des données des répondants
Mettre en œuvres des mesures de protection de ces données
16. Enquête sur les filets sociaux en Cote d’Ivoire (2019)
Allocation monétaire aux ménages fragiles
Donnée conservées dans une base de donnée
Risque de divulgation des données personnelles sensibles
Nécessité de mettre en place une procédure d’anonymisation
Utilisation de la base par des personnes tiers
17. Difficulté de choix d’une procédure d’anonymisation
Divers et chacune s’adapte à un type d’attaque
Plusieurs peuvent être combinés pour contrer divers attaques
Quelle est la procédure d’anonymisation adaptée dans le contexte
de l’enquête des filets sociaux ?
18. Difficulté de choix d’une procédure d’anonymisation
Divers et chacune s’adapte à un type d’attaque
Plusieurs peuvent être combinés pour contrer divers attaques
Quelle est la procédure d’anonymisation adaptée dans le contexte
de l’enquête des filets sociaux ?