SlideShare une entreprise Scribd logo
BILAN DES LOGICIELS DE FOUILLE DE
DONNEES
Etudiant : SONFACK SOUNCHIO. Serge
Enseignant : NGUYEN Thi Minh Huyen
23 janvier 2018
BILAN DES LOGICIELS DE FOUILLE DE DONNEES
Table des mati`eres
Introduction 1
1 Les cat´egories de logiciels 2
1.1 Les logiciels Libres/Open Sources . . . . . . . . . . . . . . . . 2
1.2 Les logiciels propri´etaires . . . . . . . . . . . . . . . . . . . . . 2
2 M´ethode descriptive 2
2.1 Les logiciels libre/open source . . . . . . . . . . . . . . . . . . 3
2.2 Les logiciels propri´etaires . . . . . . . . . . . . . . . . . . . . . 3
3 M´ethode pr´edictive 4
3.1 Les logiciels Libres/Open Sources . . . . . . . . . . . . . . . . 4
3.2 Les logiciels propri´etaires . . . . . . . . . . . . . . . . . . . . . 5
Conclusion 6
Redig´e par SONFACK SOUNCHIO Serge i
BILAN DES LOGICIELS DE FOUILLE DE DONNEES
Liste des tableaux
Redig´e par SONFACK SOUNCHIO Serge ii
BILAN DES LOGICIELS DE FOUILLE DE DONNEES
Introduction
Depuis longtemps, l’Homme cherche `a connaˆıtre en avance des ´ev`ene-
ments, des faits ou `a faire des choix face aux probl`emes qu’il rencontre. Dans
la plus part de temps le nombre de crit`eres ou de param`etres sur les quels il
doit d´ecider d´epassent sont entendement. N´eanmoins, grˆace au num´erique et
`a nos donn´ees anciennes ou nouvelles, la fouille de donn´ees se veut un outil
tr`es important pour soutenir l’Homme lorsqu’il fait face `a un grand volume
de donn´ees et doit prendre des d´ecisions. Dans la suite de notre rapport, nous
allons pr´esenter les cat´egories de logiciels en fonction de leur licence et par la
suite les outils logiciels utilis´es dans le domaine de fouille de donn´ees en les
classant par fonctionnalit´e et en fonction de leur licence d’utilisation
Redig´e par SONFACK SOUNCHIO Serge 1
BILAN DES LOGICIELS DE FOUILLE DE DONNEES
1 Les cat´egories de logiciels
Le logiciel est une suite d’instruction ex´ecutable par un processeur et
permettant de r´esoudre un probl`eme ou une tache bien d´efinie. Le logiciel
est g´en´eralement accompagner d’un certain nombre de document ; les plus
importants sont ceux qui pr´esentent le mode d’utilisation du logiciel et ceux
qui pr´esente le contrat d’utilisation entre l’´editeur du logiciel et l’utilisateur
du logiciel. En fonction du type de licence, on peut trouver
1.1 Les logiciels Libres/Open Sources
Les logiciels Libres / Open Sources sont des logiciels donc la licence d’uti-
lisation offre `a l’utilisation 04 libert´es fondamentales, qui sont :
Libert´e d’ex´ecuter : l’utilisateur `a le droit d’installer le logiciel comme
bon le semble
Libert´e d’´etudier : cette libert´e donne le droit d’´etudier le logiciel.
L’acc`es au code source est une condition importante.
Libert´e de modifier : la licence donne le droit `a l’utilisateur de modifier
le logiciel a sa guise.
Libert´e de redistribuer : la redistribution du code
1.2 Les logiciels propri´etaires
Les logiciels propri´etaires encore appel´e logiciels privateurs, sont des lo-
giciels dont la licence ne comporte pas les 04 Libert´es fondamentaux que
nous avons cit´e plus haut. G´en´eralement ce sont des logiciels ´edit´es par des
entreprises en opposition des la plus part de logiciels Libres ´edit´es pare des
communaut´es ; et munis d’un contrat de licence utilisateur final, encore ap-
pel´e licence propri´etaire.
2 M´ethode descriptive
La m´ethode descriptive vise `a mettre en ´evidence des informations pr´e-
sentes mais cach´ees par le volume des donn´ees
Redig´e par SONFACK SOUNCHIO Serge 2
BILAN DES LOGICIELS DE FOUILLE DE DONNEES
2.1 Les logiciels libre/open source
Les logiciels aux licence libre ou open source qui sont utilis´es pour des
analyses descriptive sont :
Knime prononcer NA¨IM, est l’acronyme de Konstanz Information Mi-
ner1, logiciel libre ´edit´e par un laboratoire de l’universit´e de Constance
d´enomm´e Nycomed Chair for Bioinformatics and Information Mi-
ning2,3. Il int`egre tous les modules d’analyse de Weka et permet de
cr´eer des scripts en langage R.
Tanagra est un logiciel sous licence open source et gratuit d’exploration
de donn´ees destin´e `a l’enseignement et `a la recherche. Il impl´emente
une s´erie de m´ethodes de fouille de donn´ees issues du domaine de la
statistique exploratoire, de l’analyse de donn´ees, de l’apprentissage
automatique et des bases de donn´ees.
Anaconda est une logiciel libre et gratuit d’analyse distribu´e en Pythan
et en langage R. Il est utiliser l’analyse de grand volume de donn´ees
et des calcul scientifique.
2.2 Les logiciels propri´etaires
Les logiciels ´edit´es par les entreprises et ne disposants pas les libert´es tel
que d´efinies par la Free Software Foundation.
SAS Enterprise Miner est un outil commercial ´edit´e par la soci´et´e
SAS Institute Inc.12. C’est un logiciel offrant toutes les facettes de
l’exploration de donn´ees dont le processus est facilit´e par son inter-
face homme-machine bien con¸cue. Le logiciel SAS traditionnel se com-
pose d’un ensemble de modules permettant de r´epondre aux besoins
suivants par la programmation :
1. cr´eation et gestion de bases de donn´ees ;
2. traitements analytiques des bases de donn´ees ;
3. cr´eation et diffusion de rapports de synth`ese et de listing.
Disponible sur les plate-formes Windows, Linux, HP-UX, AIX, Solaris,
z/OS
Redig´e par SONFACK SOUNCHIO Serge 3
BILAN DES LOGICIELS DE FOUILLE DE DONNEES
SPSS mis pour Statistical Package for the Social Sciences, est un logiciel
utilis´e pour l’analyse statistique. C’´etait aussi le nom de la soci´et´e qui
l’avait vendu `a IBM. Les fonctionnalit´es de SPSS sont accessibles via
les menus d´eroulants ou peuvent ˆetre programm´ees avec un langage
en ligne de commande appel´e 4GL (licence propri´etaire). La program-
mation par lignes de commande permet la reproductibilit´e et de la
manipulation et de l’analyse de donn´ees complexes. Tourne sur les
plate-formes Mac, Linux, Windows
Kxen est une outil logiciel d’analyse de donn´ees de facon g´en´eral et sert
`a l’analyse descriptive aussi. Il est aujourd’hui la propri´et´e de SAP.
3 M´ethode pr´edictive
La m´ethode pr´edictive permet `a partir des donn´ees pr´esentes, pass´ees de
cherch´e `a connaˆıtre un ´ev`enement dans le future.
Pour cette fonctionnalit´e, les logiciels de Data mining les plus utilis´es en
fonction des licences
3.1 Les logiciels Libres/Open Sources
Les logiciels aux licence libre ou open source qui sont utilis´es pour des
analyses pr´edictives sont :
Orange Datamining :est un logiciel libre d’exploration de donn´ees qui
propose des fonctionnalit´es de mod´elisation `a travers une interface
visuelle, une grande vari´et´e de modalit´es de visualisation et des affi-
chages vari´es dynamiques. D´evelopp´e en Python, il existe des versions
Windows, Mac et Linux
R-Datamining est un langage et une infrastructure sp´ecialis´es pour les
traitements statistiques. R est l’un des nombreux projets GNU distri-
bu´e sous licence GPL (logiciel libre). R est ´ecrit en langage compil´e
(principalement en C), ce qui autorise de bonnes performances. La
qualit´e de cet environnement et son ouverture ont permis `a une my-
riade de th´eoriciens, statisticiens et informaticiens de compl´eter cette
plate-forme d’un nombre impressionnant de fonctionnalit´es.
Redig´e par SONFACK SOUNCHIO Serge 4
BILAN DES LOGICIELS DE FOUILLE DE DONNEES
Weka est acronyme pour Waikato environment for knowledge analysis,
en fran¸cais : environnement Waikato pour l’analyse de connaissances
c’est une suite de logiciels d’apprentissage automatique. ´Ecrite en
Java, d´evelopp´ee `a l’universit´e de Waikato en Nouvelle-Z´elande. L’es-
pace de travail Weka contient une collection d’outils de visualisation et
d’algorithmes pour l’analyse des donn´ees et la mod´elisation pr´edictive,
alli´e `a une interface graphique pour un acc`es facile de ses fonctionna-
lit´es. La version « non-Java » originale de Weka ´etait un front-end en
Tcl/Tk pour des algorithmes de mod´elisation (essentiellement tierces)
impl´ement´es dans d’autres langages de programmation, compl´et´e par
un des utilitaires de pr´eprocesseur de donn´ees en C, et un syst`eme `a
base de makefile pour lancer les exp´eriences d’apprentissage automa-
tique. Weka est logiciel libre et disponible sous la Licence publique
g´en´erale GNU (GPL)
3.2 Les logiciels propri´etaires
Les logiciels privateurs ´edit´e par les entreprises utilis´es dans l’analyse
pr´edictive sont les suivants :
SAS Enterprise Miner est un outil commercial ´edit´e par la soci´et´e
SAS Institute Inc.12. C’est un logiciel offrant toutes les facettes de
l’exploration de donn´ees dont le processus est facilit´e par son interface
homme-machine bien con¸cue. Disponible sur les plate-formes Win-
dows, Linux, HP-UX, AIX, Solaris, z/OS
RapidMiner est distribu´e par la soci´et´e Rapid-I7 bas´ee `a Dortmund en
Allemagne. Il int`egre le Business Intelligence dont les principales fonc-
tionnalit´es sont l’Extract-transform-load , l’OnLine Analytical Proces-
sing, la production d’´etats et l’exploration de donn´ees et les techniques
classiques comme les machines `a vecteurs de support, l’analyse en com-
posantes principales, les arbres de d´ecision et les r´eseaux neuronaux.
Oracle DataMining est une option du syst`eme de gestion de base de
donn´ees relationnelle de l’entreprise Oracle Coperation. Cet outil contient
beaucoup d’algorithmes d’analyse de donn´ees, `a savoir les algorithme
de pr´ediction, classification, de regression, ...
Redig´e par SONFACK SOUNCHIO Serge 5
BILAN DES LOGICIELS DE FOUILLE DE DONNEES
Conclusion
La fouille de donn´ees est une discipline connexe `a bien d’autre comme
la statistique, l’informatique, l’intelligence artificielle, etc. Elle fait appelle `a
plusieurs logiciels et peut ˆetre abord´ee de plusieurs fa¸con. Dans le cadre de
notre travail, nous avons regard´e les logiciels de fouille de donn´ees sur deux
grands mod`ele d’analyse, `a savoir :
l’analyse descriptive ;
l’analyse pr´edictive .
Pour chacun d’eux mod`eles, nous avons pr´esent´e les outils logiciels permet-
tant le traitement de donn´ees sous deux grands groupes :
Logiciel Libre/Open Source ;
Logiciel propri´etaire .
Bien que nous ayons faits un classement en fonction du type d’analyse et de la
licence d’utilisation, il serait important de regarder d’autres crit`eres `a l’instar
du type de donn´ees `a traiter, de la plate-forme, le nombre d’utilisateurs ou
mˆeme de la connaissance recherch´ee.
Redig´e par SONFACK SOUNCHIO Serge 6
BILAN DES LOGICIELS DE FOUILLE DE DONNEES
R´ef´erences
[1] ANACONDA https://anaconda.com/
[2] KNIME https://www.knime.com/data-mining
[3] SPSS http://www.ibm.com/software/analytics/spss/products/statistics/index.html
[4] Touriaelouahabi https://touriaelouahabi.wordpress.com/ecbd/outils-
du-data-mining/
[5] Orange-datamining https://orange.biolab.si/
[6] Wikiversity https://fr.wikiversity.org/wiki/Datamining/Logiciels
[7] Wikipedia-Logiciel, https://fr.wikipedia.org/wiki/Logiciel
[8] Wikipedia-SPSS, https://fr.wikipedia.org/wiki/SPSS
[9] Wikipedia-SAS, https://fr.wikipedia.org/wiki/SAS
[10] Wikipedia-Freeware https://fr.wikipedia.org/wiki/Freeware
Redig´e par SONFACK SOUNCHIO Serge 7

Contenu connexe

Similaire à Fouille logiciel

Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...
Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...
Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...
Véronique Gambier
 
Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...
Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...
Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...
Véronique Gambier
 
Drupal et les Systèmes de gestion de contenu
Drupal et les Systèmes de gestion de contenuDrupal et les Systèmes de gestion de contenu
Drupal et les Systèmes de gestion de contenu
Mario Marcello Verona
 

Similaire à Fouille logiciel (20)

Cours SE linux
Cours SE linuxCours SE linux
Cours SE linux
 
La face cachée de l'informatique d'entreprise: Une étude de Softchoice sur ...
La face cachée de l'informatique d'entreprise: Une étude de Softchoice sur ...La face cachée de l'informatique d'entreprise: Une étude de Softchoice sur ...
La face cachée de l'informatique d'entreprise: Une étude de Softchoice sur ...
 
Captronic grenoble 01102014 version presentee
Captronic grenoble 01102014 version presenteeCaptronic grenoble 01102014 version presentee
Captronic grenoble 01102014 version presentee
 
Logiciellibre
LogiciellibreLogiciellibre
Logiciellibre
 
Programmation linéniaire
Programmation linéniaire Programmation linéniaire
Programmation linéniaire
 
ICDL MODULE 1 Lesson 3
ICDL MODULE 1 Lesson 3ICDL MODULE 1 Lesson 3
ICDL MODULE 1 Lesson 3
 
L'analyse qualitative informatique pas cher
L'analyse qualitative informatique pas cherL'analyse qualitative informatique pas cher
L'analyse qualitative informatique pas cher
 
Introduction à Linux et aux logiciels libres
Introduction à Linux et aux logiciels libresIntroduction à Linux et aux logiciels libres
Introduction à Linux et aux logiciels libres
 
Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...
Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...
Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...
 
Panorama de l'offre de logiciels libres pour bibliothèque v2
Panorama de l'offre de logiciels libres pour bibliothèque v2Panorama de l'offre de logiciels libres pour bibliothèque v2
Panorama de l'offre de logiciels libres pour bibliothèque v2
 
Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...
Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...
Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...
 
Business modèles pour l'Open Source
Business modèles pour l'Open SourceBusiness modèles pour l'Open Source
Business modèles pour l'Open Source
 
Les technologies big data avec speech commentaries
Les technologies big data avec speech commentariesLes technologies big data avec speech commentaries
Les technologies big data avec speech commentaries
 
Ch2. Développement mobile
Ch2. Développement mobileCh2. Développement mobile
Ch2. Développement mobile
 
Livre blanc v1.0
Livre blanc v1.0Livre blanc v1.0
Livre blanc v1.0
 
Guide pratique des logiciels libres dans les administrations
Guide pratique des logiciels libres dans les administrationsGuide pratique des logiciels libres dans les administrations
Guide pratique des logiciels libres dans les administrations
 
OWF12/Security and Free Software
OWF12/Security and Free SoftwareOWF12/Security and Free Software
OWF12/Security and Free Software
 
Les types de licence des logiciels
Les types de licence des logicielsLes types de licence des logiciels
Les types de licence des logiciels
 
Drupal et les Systèmes de gestion de contenu
Drupal et les Systèmes de gestion de contenuDrupal et les Systèmes de gestion de contenu
Drupal et les Systèmes de gestion de contenu
 
Une Analyse Economique des Logiciels à Sources Ouvertes
Une Analyse Economique des Logiciels à Sources OuvertesUne Analyse Economique des Logiciels à Sources Ouvertes
Une Analyse Economique des Logiciels à Sources Ouvertes
 

Plus de serge sonfack

Plus de serge sonfack (19)

Plongement de mots :Modèle basé sur les réseaux de neurones
Plongement de mots :Modèle basé sur les réseaux de neuronesPlongement de mots :Modèle basé sur les réseaux de neurones
Plongement de mots :Modèle basé sur les réseaux de neurones
 
Presentation Interaction Homme Machine
Presentation Interaction Homme MachinePresentation Interaction Homme Machine
Presentation Interaction Homme Machine
 
Semantic annotation
Semantic annotation Semantic annotation
Semantic annotation
 
Suivi de l’avancement d’un projet Agile/Scrum
Suivi de l’avancement d’un projet Agile/ScrumSuivi de l’avancement d’un projet Agile/Scrum
Suivi de l’avancement d’un projet Agile/Scrum
 
Traitement d'image
Traitement d'image Traitement d'image
Traitement d'image
 
Expose : Fashion
Expose : FashionExpose : Fashion
Expose : Fashion
 
Rapport genie logiciel
Rapport genie logicielRapport genie logiciel
Rapport genie logiciel
 
Réalité virtuelle
Réalité virtuelle Réalité virtuelle
Réalité virtuelle
 
Coder
CoderCoder
Coder
 
Ckomsa
Ckomsa Ckomsa
Ckomsa
 
Diplomarbeit ens renewed
Diplomarbeit ens renewedDiplomarbeit ens renewed
Diplomarbeit ens renewed
 
Presentation du Laboratoire Open Source
Presentation du Laboratoire Open SourcePresentation du Laboratoire Open Source
Presentation du Laboratoire Open Source
 
IMPROVING GUINEA PIGS QUALITY AND QUANTITY IN CAMEROON
IMPROVING GUINEA PIGS QUALITY AND QUANTITY  IN CAMEROONIMPROVING GUINEA PIGS QUALITY AND QUANTITY  IN CAMEROON
IMPROVING GUINEA PIGS QUALITY AND QUANTITY IN CAMEROON
 
Migration vers les Solutions Libres/Open Sources
Migration vers les Solutions Libres/Open SourcesMigration vers les Solutions Libres/Open Sources
Migration vers les Solutions Libres/Open Sources
 
Develop your first app on Firefox OS
Develop your first app on Firefox OSDevelop your first app on Firefox OS
Develop your first app on Firefox OS
 
Firefox os
Firefox os Firefox os
Firefox os
 
Opensource
Opensource Opensource
Opensource
 
Emmabuntus
EmmabuntusEmmabuntus
Emmabuntus
 
Jerry SFD Cameroon
Jerry SFD CameroonJerry SFD Cameroon
Jerry SFD Cameroon
 

Fouille logiciel

  • 1. BILAN DES LOGICIELS DE FOUILLE DE DONNEES Etudiant : SONFACK SOUNCHIO. Serge Enseignant : NGUYEN Thi Minh Huyen 23 janvier 2018
  • 2. BILAN DES LOGICIELS DE FOUILLE DE DONNEES Table des mati`eres Introduction 1 1 Les cat´egories de logiciels 2 1.1 Les logiciels Libres/Open Sources . . . . . . . . . . . . . . . . 2 1.2 Les logiciels propri´etaires . . . . . . . . . . . . . . . . . . . . . 2 2 M´ethode descriptive 2 2.1 Les logiciels libre/open source . . . . . . . . . . . . . . . . . . 3 2.2 Les logiciels propri´etaires . . . . . . . . . . . . . . . . . . . . . 3 3 M´ethode pr´edictive 4 3.1 Les logiciels Libres/Open Sources . . . . . . . . . . . . . . . . 4 3.2 Les logiciels propri´etaires . . . . . . . . . . . . . . . . . . . . . 5 Conclusion 6 Redig´e par SONFACK SOUNCHIO Serge i
  • 3. BILAN DES LOGICIELS DE FOUILLE DE DONNEES Liste des tableaux Redig´e par SONFACK SOUNCHIO Serge ii
  • 4. BILAN DES LOGICIELS DE FOUILLE DE DONNEES Introduction Depuis longtemps, l’Homme cherche `a connaˆıtre en avance des ´ev`ene- ments, des faits ou `a faire des choix face aux probl`emes qu’il rencontre. Dans la plus part de temps le nombre de crit`eres ou de param`etres sur les quels il doit d´ecider d´epassent sont entendement. N´eanmoins, grˆace au num´erique et `a nos donn´ees anciennes ou nouvelles, la fouille de donn´ees se veut un outil tr`es important pour soutenir l’Homme lorsqu’il fait face `a un grand volume de donn´ees et doit prendre des d´ecisions. Dans la suite de notre rapport, nous allons pr´esenter les cat´egories de logiciels en fonction de leur licence et par la suite les outils logiciels utilis´es dans le domaine de fouille de donn´ees en les classant par fonctionnalit´e et en fonction de leur licence d’utilisation Redig´e par SONFACK SOUNCHIO Serge 1
  • 5. BILAN DES LOGICIELS DE FOUILLE DE DONNEES 1 Les cat´egories de logiciels Le logiciel est une suite d’instruction ex´ecutable par un processeur et permettant de r´esoudre un probl`eme ou une tache bien d´efinie. Le logiciel est g´en´eralement accompagner d’un certain nombre de document ; les plus importants sont ceux qui pr´esentent le mode d’utilisation du logiciel et ceux qui pr´esente le contrat d’utilisation entre l’´editeur du logiciel et l’utilisateur du logiciel. En fonction du type de licence, on peut trouver 1.1 Les logiciels Libres/Open Sources Les logiciels Libres / Open Sources sont des logiciels donc la licence d’uti- lisation offre `a l’utilisation 04 libert´es fondamentales, qui sont : Libert´e d’ex´ecuter : l’utilisateur `a le droit d’installer le logiciel comme bon le semble Libert´e d’´etudier : cette libert´e donne le droit d’´etudier le logiciel. L’acc`es au code source est une condition importante. Libert´e de modifier : la licence donne le droit `a l’utilisateur de modifier le logiciel a sa guise. Libert´e de redistribuer : la redistribution du code 1.2 Les logiciels propri´etaires Les logiciels propri´etaires encore appel´e logiciels privateurs, sont des lo- giciels dont la licence ne comporte pas les 04 Libert´es fondamentaux que nous avons cit´e plus haut. G´en´eralement ce sont des logiciels ´edit´es par des entreprises en opposition des la plus part de logiciels Libres ´edit´es pare des communaut´es ; et munis d’un contrat de licence utilisateur final, encore ap- pel´e licence propri´etaire. 2 M´ethode descriptive La m´ethode descriptive vise `a mettre en ´evidence des informations pr´e- sentes mais cach´ees par le volume des donn´ees Redig´e par SONFACK SOUNCHIO Serge 2
  • 6. BILAN DES LOGICIELS DE FOUILLE DE DONNEES 2.1 Les logiciels libre/open source Les logiciels aux licence libre ou open source qui sont utilis´es pour des analyses descriptive sont : Knime prononcer NA¨IM, est l’acronyme de Konstanz Information Mi- ner1, logiciel libre ´edit´e par un laboratoire de l’universit´e de Constance d´enomm´e Nycomed Chair for Bioinformatics and Information Mi- ning2,3. Il int`egre tous les modules d’analyse de Weka et permet de cr´eer des scripts en langage R. Tanagra est un logiciel sous licence open source et gratuit d’exploration de donn´ees destin´e `a l’enseignement et `a la recherche. Il impl´emente une s´erie de m´ethodes de fouille de donn´ees issues du domaine de la statistique exploratoire, de l’analyse de donn´ees, de l’apprentissage automatique et des bases de donn´ees. Anaconda est une logiciel libre et gratuit d’analyse distribu´e en Pythan et en langage R. Il est utiliser l’analyse de grand volume de donn´ees et des calcul scientifique. 2.2 Les logiciels propri´etaires Les logiciels ´edit´es par les entreprises et ne disposants pas les libert´es tel que d´efinies par la Free Software Foundation. SAS Enterprise Miner est un outil commercial ´edit´e par la soci´et´e SAS Institute Inc.12. C’est un logiciel offrant toutes les facettes de l’exploration de donn´ees dont le processus est facilit´e par son inter- face homme-machine bien con¸cue. Le logiciel SAS traditionnel se com- pose d’un ensemble de modules permettant de r´epondre aux besoins suivants par la programmation : 1. cr´eation et gestion de bases de donn´ees ; 2. traitements analytiques des bases de donn´ees ; 3. cr´eation et diffusion de rapports de synth`ese et de listing. Disponible sur les plate-formes Windows, Linux, HP-UX, AIX, Solaris, z/OS Redig´e par SONFACK SOUNCHIO Serge 3
  • 7. BILAN DES LOGICIELS DE FOUILLE DE DONNEES SPSS mis pour Statistical Package for the Social Sciences, est un logiciel utilis´e pour l’analyse statistique. C’´etait aussi le nom de la soci´et´e qui l’avait vendu `a IBM. Les fonctionnalit´es de SPSS sont accessibles via les menus d´eroulants ou peuvent ˆetre programm´ees avec un langage en ligne de commande appel´e 4GL (licence propri´etaire). La program- mation par lignes de commande permet la reproductibilit´e et de la manipulation et de l’analyse de donn´ees complexes. Tourne sur les plate-formes Mac, Linux, Windows Kxen est une outil logiciel d’analyse de donn´ees de facon g´en´eral et sert `a l’analyse descriptive aussi. Il est aujourd’hui la propri´et´e de SAP. 3 M´ethode pr´edictive La m´ethode pr´edictive permet `a partir des donn´ees pr´esentes, pass´ees de cherch´e `a connaˆıtre un ´ev`enement dans le future. Pour cette fonctionnalit´e, les logiciels de Data mining les plus utilis´es en fonction des licences 3.1 Les logiciels Libres/Open Sources Les logiciels aux licence libre ou open source qui sont utilis´es pour des analyses pr´edictives sont : Orange Datamining :est un logiciel libre d’exploration de donn´ees qui propose des fonctionnalit´es de mod´elisation `a travers une interface visuelle, une grande vari´et´e de modalit´es de visualisation et des affi- chages vari´es dynamiques. D´evelopp´e en Python, il existe des versions Windows, Mac et Linux R-Datamining est un langage et une infrastructure sp´ecialis´es pour les traitements statistiques. R est l’un des nombreux projets GNU distri- bu´e sous licence GPL (logiciel libre). R est ´ecrit en langage compil´e (principalement en C), ce qui autorise de bonnes performances. La qualit´e de cet environnement et son ouverture ont permis `a une my- riade de th´eoriciens, statisticiens et informaticiens de compl´eter cette plate-forme d’un nombre impressionnant de fonctionnalit´es. Redig´e par SONFACK SOUNCHIO Serge 4
  • 8. BILAN DES LOGICIELS DE FOUILLE DE DONNEES Weka est acronyme pour Waikato environment for knowledge analysis, en fran¸cais : environnement Waikato pour l’analyse de connaissances c’est une suite de logiciels d’apprentissage automatique. ´Ecrite en Java, d´evelopp´ee `a l’universit´e de Waikato en Nouvelle-Z´elande. L’es- pace de travail Weka contient une collection d’outils de visualisation et d’algorithmes pour l’analyse des donn´ees et la mod´elisation pr´edictive, alli´e `a une interface graphique pour un acc`es facile de ses fonctionna- lit´es. La version « non-Java » originale de Weka ´etait un front-end en Tcl/Tk pour des algorithmes de mod´elisation (essentiellement tierces) impl´ement´es dans d’autres langages de programmation, compl´et´e par un des utilitaires de pr´eprocesseur de donn´ees en C, et un syst`eme `a base de makefile pour lancer les exp´eriences d’apprentissage automa- tique. Weka est logiciel libre et disponible sous la Licence publique g´en´erale GNU (GPL) 3.2 Les logiciels propri´etaires Les logiciels privateurs ´edit´e par les entreprises utilis´es dans l’analyse pr´edictive sont les suivants : SAS Enterprise Miner est un outil commercial ´edit´e par la soci´et´e SAS Institute Inc.12. C’est un logiciel offrant toutes les facettes de l’exploration de donn´ees dont le processus est facilit´e par son interface homme-machine bien con¸cue. Disponible sur les plate-formes Win- dows, Linux, HP-UX, AIX, Solaris, z/OS RapidMiner est distribu´e par la soci´et´e Rapid-I7 bas´ee `a Dortmund en Allemagne. Il int`egre le Business Intelligence dont les principales fonc- tionnalit´es sont l’Extract-transform-load , l’OnLine Analytical Proces- sing, la production d’´etats et l’exploration de donn´ees et les techniques classiques comme les machines `a vecteurs de support, l’analyse en com- posantes principales, les arbres de d´ecision et les r´eseaux neuronaux. Oracle DataMining est une option du syst`eme de gestion de base de donn´ees relationnelle de l’entreprise Oracle Coperation. Cet outil contient beaucoup d’algorithmes d’analyse de donn´ees, `a savoir les algorithme de pr´ediction, classification, de regression, ... Redig´e par SONFACK SOUNCHIO Serge 5
  • 9. BILAN DES LOGICIELS DE FOUILLE DE DONNEES Conclusion La fouille de donn´ees est une discipline connexe `a bien d’autre comme la statistique, l’informatique, l’intelligence artificielle, etc. Elle fait appelle `a plusieurs logiciels et peut ˆetre abord´ee de plusieurs fa¸con. Dans le cadre de notre travail, nous avons regard´e les logiciels de fouille de donn´ees sur deux grands mod`ele d’analyse, `a savoir : l’analyse descriptive ; l’analyse pr´edictive . Pour chacun d’eux mod`eles, nous avons pr´esent´e les outils logiciels permet- tant le traitement de donn´ees sous deux grands groupes : Logiciel Libre/Open Source ; Logiciel propri´etaire . Bien que nous ayons faits un classement en fonction du type d’analyse et de la licence d’utilisation, il serait important de regarder d’autres crit`eres `a l’instar du type de donn´ees `a traiter, de la plate-forme, le nombre d’utilisateurs ou mˆeme de la connaissance recherch´ee. Redig´e par SONFACK SOUNCHIO Serge 6
  • 10. BILAN DES LOGICIELS DE FOUILLE DE DONNEES R´ef´erences [1] ANACONDA https://anaconda.com/ [2] KNIME https://www.knime.com/data-mining [3] SPSS http://www.ibm.com/software/analytics/spss/products/statistics/index.html [4] Touriaelouahabi https://touriaelouahabi.wordpress.com/ecbd/outils- du-data-mining/ [5] Orange-datamining https://orange.biolab.si/ [6] Wikiversity https://fr.wikiversity.org/wiki/Datamining/Logiciels [7] Wikipedia-Logiciel, https://fr.wikipedia.org/wiki/Logiciel [8] Wikipedia-SPSS, https://fr.wikipedia.org/wiki/SPSS [9] Wikipedia-SAS, https://fr.wikipedia.org/wiki/SAS [10] Wikipedia-Freeware https://fr.wikipedia.org/wiki/Freeware Redig´e par SONFACK SOUNCHIO Serge 7