1. INTRODUCTION
La manipulation de données est la ruée de beaucoup d’outils informatiques (Python,
java, opl…), statistiques (R, Excel, SPSS,…), mathématiques (Théorie des graphes,
modèle aléatoire, calculs stochastique, Modélisation, Recherche opérationnelle…),
Géographie (SIG (QGIS, ILWIS, SURVEY MONKEY), Netcdf4, Python…). Les
bases de données manipulées par ces outils sont des images structurées ou semi-
structurées de la démographie, l’économie, le cours des marchés, les bourses, la
clientèle, la concurrence, les banques, les sites internet, les tweets, les cartes, les
données satellites, les ménages, les produits, la santé, le changement climatique…
Les bases de données sont de plus en plus adaptées aux besoins des analystes et de la
population. Les plus grands concepteurs de bases de données et d’analyse (Oracle,
Acces…) sont de nos jours concurrencés pour des outils open sources comme python
et R.
Le lien suivant montre comment concevoir une base de données de façon générale.
http://www.i3s.unice.fr/~nlt/cours/licence/sgbd1/sgbd1_cours.pdf
Aujourd’hui on parle de data lake ou lac de données, cela veut dire que les données de
nos jours sont générés par milliers à la seconde et sont facteurs de développement.
https://www.boozallen.com/content/dam/boozallen/documents/Data_Lake.pdf
L’analyse de donnée vise de façon générale à:
– Cibler les failles,
– Mieux comprendre son domaine,
– Instaurer une nouvelle stratégie intelligente,
– Minimiser les pertes et maximiser le profit,
– Viabiliser le secteur.
Structure de données
Les données sont classées dans deux groupes principaux: Les données structurées et
les données non structurées.
A) Les donnée structurées
La dynamique actuelle des choses à modifiée la structure de ce type de données, un
2. type qui 20 ans derrière était facilement manipulés à partir de tableaux dans Excel avec
des courbes jolie et des statistiques très basiques (moyenne, variance) ne traduisent pas
grand-chose aujourd’hui. La complexité des affaires de nos jours engendre des lacs de
données structurées pour certains et presque impossible à manipuler avec l’aide d’une
seule application il faut minimum deux application pour venir à bout de ce monsieur
qui se nomme DONNEE.
Les formats de données structurées sont d’habitude le format xls, xlsx, nc (netcdf)…
Ils sont représentés dans des matrices dont la première ligne est celle des variables
(Couleur, sex, age, densité, préférence, réponses,… ), la première colonne celle des
individus (Nom, années, mois,…).
https://www.irif.fr/~treinen/teaching/ads4/cours/cours1.handout.pdf
B) Données semi-structurée.
C’est une donnée qui n’est pas arrangée et pas facile à comprendre à première vue. Ce
le type qui est au cœur des débats et beaucoup d’applications gravitent autour d’elle.
C’est le type de données qui intéressent le monde des affaires à cause de sa complexité
et de son importance. Ce jeux de données traduit la réalité de façon visible (carte
géolocalisée d’un pays par exemple), la manipulation optimale de cette carte prise
pour exemple peut varier d’un analyste A à un analyste B, les résultats seront
différents et l’analyste A ou B gagne le marché. Pour mieux manipuler ce type de data
lake et gagner le marché il faut impérativement avoir des connaissances transversales
en Statistique (ACP, ACM, AFC, sta inférentielle), informatique (Python, R,
développement), mathématiques (Théorie des graphes, optimisation) et Système
d’information géographique(ILWIS, QGIS).
https://liris.cnrs.fr/inforsid/sites/default/files/article170c1.pdf