Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

Data Analysis pas à pas avec R

644 vues

Publié le

D'une logique projet à l'analyse quanti dans R - toutes les étapes

Publié dans : Données & analyses
  • Soyez le premier à commenter

Data Analysis pas à pas avec R

  1. 1. + Data Analysis La première phase d’une enquête est celle de sa conception c’est-à-dire de sa raison d’être.
  2. 2. + L’étude est une démarche scientifique de fabrication de la vérité  L’enquête est un concept ambigu signifiant quête d'information, collecte de témoignages, recherches pour savoir quelque chose, il se fonde sur la pratique inquisitoriale émergeant au haut Moyen-âge (et plus loin du travail de l’historien grec Herodote).  On préfère le mot étude qui souligne une démarche rationnelle essayant de réduire la part de subjectivité dans la représentation simplifiée d’une réalité. Elle est le fondement de la vérité scientifique.  C’est une recherche d'information réalisée par observation systématique d’une problématique sur une population déterminée, pour décrire, comparer ou expliquer une pratique.  Les 4 grandes étapes de l’étude sont : La construction de la problématique (I) La collecte de données (II) Analyse de résultat (III) l’interprétation théorique (IV)
  3. 3. + 8 étapes pour conduire un projet d’études (ou un préprojet !)  ÉTAPE À : Problématiser l’étude.  Définir les objectifs : la première étape consiste à définir l'objectif général. C'est l'énoncé du problème qui nécessite le recours à l'enquête, la question de départ et les grands objectifs du projet.  Lire l’état de l’art : il s’agit d’utiliser de nombreuses sources d’information pour se renseigner sur le phénomène à étudier. Web, Presse, Revues spécialisées, Revues scientifiques, Livre…une somme de connaissances stables doit être mobilisée pour mieux appréhender le phénomène en dégageant les concepts et les hypothèses à étudier.  Mobiliser l’expérience : la réflexion avancée peut être nourrie par des brainstormings avec des experts sur le domaine. Un réseau doit être constitué fait de chercheurs, de professionnel très expérimenté, mais aussi d’acteur ou de témoins privilégiés voire d’un pré-échantillon.  Définir les Hypothèses : la seconde étape consiste à décomposer l'objectif général en objectifs ou questions plus limités. Ces questions mettent en relation des concepts ou notions pas un mode de corrélation. Les objectifs spécifiques peuvent aussi être énoncés sous forme d'hypothèses.  ÉTAPE B : Designer l’enquête  Constituer le set de variables : la troisième étape est la préparation de l'instrument d'observation par l'élaboration du questionnaire en concepts opérationnalisés en indicateurs.  Constituer de l’échantillonnage : quelle population va être interrogée, qui est soumis à l'enquête, ET quelle est la taille de l'échantillon, comment seront choisis les répondants, quelle est la modalité d’échantillonnage ?  Organiser le Plan de collecte : dans la cinquième étape, on tente de définir le plan de collecte, c'est-à-dire la façon d'organiser le déroulement de l'enquête par les différents acteurs de l’ étude. Il comprend aussi l'élaboration d'un pré test  ÉTAPE C : conduire l’enquête  Recueillir les données : la sixième étape est le recueil de l'information proprement dit. Le questionnement des sujets et la réalisation sur le terrain selon la modalité choisie dans une démarche de pilotage assurant la qualité de l’observation.  Nettoyer et recoder des données : s’en suit la préparation des données. Les données sont non seulement nettoyées, mais une série d’opérations en génèrent de nouvelles. On réalise le codage des données en prévision d'analyse statistique.  ÉTAPE D : Analyser les données  La septième étape consiste à analyser les données. Les informations sont traitées en fonction de la nature des données et les objectifs de l'étude (description, comparaison ou vérification d'hypothèses). On se préoccupe aussi de la qualité des données recueillies.  L’interprétation des analyses : Les différentes analyses servent de preuves à une interprétation du phénomène et à la réponse aux différentes hypothèses émises. On décrit, compare, répond aux hypothèses et ouvre vers de nouvelles interrogations. Communiquer le Rapport final est le moment stratégique des études. C’est un vrai projet de communication, tant dans sa conception que dans sa diffusion. S’il n’est pas rattaché à la fabrication du support, il est à lui seul un projet qu’il faut appréhender dans sa globalité.
  4. 4. + Comprendre le problème Fabriquer des hypothèses de travail pour l’étude
  5. 5. + Définition des objectifs de l’étude  Il s’agit d’essayer de cadrer le problème sur une étude réalisable dans le temps et le budget imparti.  On distingue des enquêtes descriptives, explicatives, comparatives et/ou longitudinales  La mise en place d’un comité d’expert peut permettre de faire un rendu intermédiaire et par des méthodologies de brainstorming, tester le travail préalable et les hypothèses émergentes  Il faut pouvoir se documenter et s’informer pour élaborer des hypothèses réalistes  Information documentaire : on cherche dans la documentation préalable des descriptions du phénomène, des théories, des explications, etc.  On recherche du plus général au plus spécifique par rapport au sujet  Parfois on établit une préenquête qualitative et ouverte auprès d’experts, auprès de témoins privilégiés ou auprès de la population cible en petit échantillon non représentatif  On n’oublie pas de se documenter sur l’existence d’études préexistantes.  Quand le budget le permet, on peut préparer son étude par une préétude qualitative ouverte  Parfois on établit une préenquête qualitative et ouverte auprès d’experts, auprès de témoins privilégiés ou auprès de la population cible en petit échantillon non représentatif  La préétude n’est pas une mini-étude, mais bien une recherche de la plus grande variabilité du phénomène sur un échantillon moindre (notamment avec la question ouverte « autre »).
  6. 6. + Choisir le type d’étude : variables qualitatives ou quantitatives  On dit des variables d’une enquête qu’elles sont ouvertes ou fermées, qualitatives ou quantitatives, mais par extension (et abus de langage) on parle d’un projet d’étude « qualitative » ou « quantitative » :  Étude qualitative : Une enquête possédant de nombreuses questions ouvertes qualitatives d’ordre textuelles ou images qui subiront un traitement postérieur par thématisation, synthèse et résumé. Ce sens des enquêtes à « large maille » pour appréhender des phénomènes complexes, mal connus ou en phase préparatoire d’une enquête. On aborde souvent les représentations, les modes de vie, les types de discours par une enquête qualitative. On traite aussi les situations nouvelles, les innovations ou les pratiques marginales ou atypiques…  Études quantitatives : Une enquête possédant de nombreuses questions fermées (pas nécessairement) quantitatives, mais qui subiront des analyses et des traitements quantitatifs de dénombrement pour décrire, trier, comparer et évaluer des facteurs d’un phénomène. Cette approche extensive est nécessaire sur des grands nombres afin de réduire l’observation d’une réalité à des marqueurs précis qui sont corrélés aux phénomènes étudiés. Cette construction de la réalité doit être mise à l’épreuve d’une discussion scientifique.  On distingue aussi l’approche individuelle de l’approche de population. c’est à dire la logique de l’étude de cas ou étude clinique ou l’on s’intéresse à l’individu de manière extensive et l’étude de population qui s’intéresse à un phénomène précis et à ses facteurs déterminants  L’échelle de distinction entre les différentes approches repose sur la capacité à réduire la réalité à une grille de facteurs précis. Plus la réalité est complexe, inconnue et subjective plus l’étude sera globale et ouverte. Plus le phénomène sera étudié et connu plus on tendra vers des approches quantitatives et fermées.
  7. 7. + Fabriquer les hypothèses On doit choisir les hypothèses les plus utiles et les plus plausibles au regard de l’étude préalable. On essaye d’avoir un juste équilibre entre l’utilité de l’étude (au regard de la problématique et des possibilités de trouver une réponse pertinente). Facteurs (ou concepts) Les relation Indicateur Définir les concepts qui décrivent le phénomène étudié et qui sont susceptible de l’influencer La relation permet de définir le lien de corrélation qui devrait lier les facteurs entre eux C’est une variable observable qui permet de donner sens à la variation du concept. Elle doit être facilement observable et corrélée aux états du concept Donner des exemples clair et anticiper sa variation. Donner des relations qui sont plausible et logique. Ex. plus le niveau d’étude est élevé, plus le salaire est élevé Ex. Température est un indicateur corrélé à la chaleur du climat ou à l’état de santé d’un patient… Facteur explicatif Indicateur 1 Indicateur 2 Indicateur 3 … Concept expliqué Indicateur 1 Indicateur 2 Indicateur 3 … Relation Pour étudier les notions qui constituent l'objet de l’enquête, il faut trouver les indicateurs empiriques, des moyens de les approcher, de les mesurer. On distingue donc le niveau théorique de la notion, le niveau intermédiaire des indicateurs, et le niveau de réalité des questions-réponses.
  8. 8. + Planifier ses études:  Le premier moment d’une enquête est dit descriptif ou transversal en ce qu’elle décrit la population des individus en les discriminant selon les indicateurs normés. Elle peut aboutir à une clustérisassions en sociotype.  Puis peut venir un second temps des explications des phénomènes en faisant corréler un ou plusieurs facteurs les uns avec les autres tout en essayant d’interpréter cette corrélation. Les différentes régressions sont les outils clés de cette approche.  La comparaison permet de distinguer deux échantillons d’une population selon un ou plusieurs critères discriminants  Comparaison expérimentale : on compare un groupe qui a subi des expériences au regard d’un groupe ayant les mêmes caractéristiques, mais qui ne les a pas subies [UNE Variable binaire].  Comparaison cas-témoins : comparer des groupes qui se distingue selon les [Les modalités d’UNE variable kali].  Comparaison longitudinale : Comparer un même groupe après et avant l’intervention d’un facteur causal. [DEUX OU PLUSIEURS MESURES d’UNE variable]  Les études de tendances visent à tirer périodiquement des échantillons d’une même population à travers plusieurs enquêtes. Quand il s’agit exactement du même échantillon, on parle d’étude de panel.
  9. 9. + Système de documentation et reproductibilité des résultats  Journal de recherche  Dispositif d’annotation
  10. 10. + Extraire les données S’assurer de la qualité des données
  11. 11. + Choisir sa méthode d’enquête selon les cas à observer  Il existe plusieurs méthodes qui se distinguent par la méthode de collecte de données et l’objet étudié.  L’analyse de données permet bien souvent l'observation de traces recueillies indépendamment du projet de l’étude, mais qui ont la particularité d’être des marqueurs des phénomènes étudiés.  Observation directe permet de relever des données directement en contact avec les phénomènes étudiés. Ils sont enregistrables. Ce qui n’empêche que l’observateur peut être engagé ou pas dans la situation voire médiatiser son observation.  L’expérimentation (ou expérience) consiste à modifier intentionnellement un facteur dans le phénomène étudié pour observer ses conséquences sur les autres facteurs. La méthode peut être plus ou moins contrainte dans un « laboratoire ».  Le questionnaire d’enquête vise à relever des témoignages du phénomène auprès des acteurs en lien avec le phénomène pour qu’ils nous rapportent, nous représente une réalité vécue, une opinion, une croyance, des imaginaires.
  12. 12. + Observer un phénomène directement  Le cas de l’étude directe de données.  On peut utiliser des données non standardisées déjà existantes et appliquer une standardisation par codage  Les données dites primaires peuvent être de plusieurs natures : Mesures quantitatives, texte, vidéos, images.  Elles sont recodées selon une règle de transformation des données transparente et repliable.  Les données peuvent être recodées de manière algorithmique ce qui limite les risques d’erreurs  On parle d’observation directe quand l’enquêteur est en prise directe avec le phénomène étudié.  Une observation directe exige lui aussi un codage rigoureux d’où souvent la nécessité d’une préétude préalable pour maitriser la variabilité du phénomène et le type de traitement nécessaire.  On dit que l’observation est participante (située) ou non en fonction de la relation entre l’enquêteur et l’échantillon étudié.  L’observation humaine, mais selon des grilles de codage très claires. En cas de pluralité des observateurs, il faut pouvoir doubler les observations et tester la variabilité de résultats.
  13. 13. + Fabriquer une enquête faisable Il existe un cout financier à l’unité d’enquête payée par le client et il faut pouvoir le quantifier. Mais il existe aussi un coût cognitif pour l’enquêté qui est un être vivant et il faut pouvoir aussi l’évaluer. Les deux coûts sont fondamentaux pour mesurer la faisabilité de l’étude. Il faut toujours être sûr que les coûts sont supportés par le client et les interviewés.  Le coût cognitif est une inéquation entre la motivation moins le dérangement.  Motivation : le coût cognitif disponible au début de l’entretien dépend de la motivation de l’enquête qui est variable selon les objectifs de l’enquête, la légitimité de l’enquêteur, les conditions d’administration de l’enquête.  Dérangement : chaque question mène à un dérangement qui dépend :  De la durée pour y répondre  Ouverte ou fermée  Difficile à se remémorer  Gênante, intime, voire personnelle, dans la prise de position  Désirabilité : diminuer le risque que les réponses soient biaisées par une norme supposée attendue par l’enquêteur (par ex à l’associer avec des opinions légitimes ou illégitimes d’une personne connue ou moralement connoté)  On distingue les parties de l’enquête sur les comportements, sur les représentations et sur la description de l’individu.  Astuce pour faire baisser le coût cognitif du questionnaire  Préférer les questions fermées aux questions ouvertes  Poser des questions ciblées et concrètes autour d’éléments/indicateurs simples  Ne pas utiliser un vocabulaire autre que courant dans l’univers de vos interlocuteurs  Faire des questions courtes avec peu d’items (5- 6 au plus)  Toujours placer les échelles dans le même sens et changer le moins possible d’échelles  Les échelles doivent avoir un nombre suffisant de nuances (en général 4 ou 5 items)  Ne pas faire appel à des souvenirs de la mémoire longue ou moyenne (sinon avec une assistance mémorielle ou une recontextualisation)  Éviter les questions qui obligent à refuser, à négativiser, à demander le changement  Une question qui à une modalité qui dépasse 80% est une question mal construite
  14. 14. + La qualité de l‘extraction de données : guide de l’enquêteur  De nombreux biais peuvent se glisser dans l’administration d’un questionnaire de mauvaise qualité.  Un questionnaire faisable : les conditions d’administration déterminent la charge cognitive demandée  Le questionnaire à 1) une présentation brise-glace qui campe un contrat de communication rassurant et motivant, l’accroche (2) des questions claires avec des instructions pour les enquêteurs ayant levé toutes les ambiguïtés (3) les remerciements, formules de politesse et suite…  Le questionnaire sera toujours testé et analysé sur un échantillon pilote de 20 ou 50 individus en condition réelle d’extraction. Il s’agit d’évaluer les représentations de l’enquêteur et de l’enquêté Pd la passation (complexité, gênes, ruptures, incohérence). Le coût cognitif doit être compensé par un contexte de mise en confiance  Les Biais introduits par le [manque] de sérieux des enquêteurs durant l’enquête.  Motivation et pugnacité gérées par des réunions de motivation et d’explication.  Guide de l’enquêteur ou on explique les enjeux du questionnaire et le sens de chaque question  La méthode d’extraction à une influence sur le coût cognitif possible. Face à face, téléphone, auto administrée, observation directe ?
  15. 15. + Fabriquer son échantillon représentatif  Un échantillon représentatif : étudier une partie de la population en s’assurant d’une homologie des deux.  Population parente : somme totale des individus (unité statistique) définis par des caractéristiques structurales, comportementales ou représentationnelles  La représentativité doit assurer des réponses plus ou moins identiques entre échantillons et population parente  Une enquête exhaustive est non seulement souvent impossible, mais sa réalisation serait très difficile et donc emplie d’erreur. Un échantillon doit être défini en taille (n vers 1000 à 10000) et selon la méthode d’échantillonnage.  La meilleure méthode : « chaque individu a une égale chance d’être présent dans l’échantillon »  Techniques probabilistes ou aléatoires : Pour supprimer tous les biais, le tirage systématique et/ou aléatoire est le meilleur moyen. Cas de population instituée (en entreprise par exemple). La population peut être tirée au hasard en strates (tirage au hasard à chaque niveau) ou par grappe (tirage en strates avec exhaustivité de la dernière strate dite grappe)  http://www.statcan.gc.ca/edu/power- pouvoir/ch13/prob/5214899-fra.htm.  Méthode des quotas : Reconstituer une population ayant des critères donnés (variables contrôlées).Cet échantillon peut être redressé a posteriori pour correspondre aux quotas.  À l’inverse un échantillon peut être un prisme dans le sens où il définit une population selon ses critères ou ses techniques de constitutions. Population qu’on découvrira à postériorité (cas des populations définies par leurs comportements ou leur représentation)  Il reste l’échantillonnage par boule de neige dans les réseaux d’individus connectés jusqu’à épuisement du réseau. Pour l’analyse, on doit connaître les caractéristiques de l’échantillon, vérifier la représentativité, évaluer les non- réponses aux questions.
  16. 16. + Analyse mono-Variée Comparer des variables deux à deux.
  17. 17. + L’intervalle de confiance des résultats Une règle veut que le taux de réponse d’un échantillon représentatif soit d’au moins 80%. À partir de là on peut estimer les chances d’avoir une réponse représentative :  le passage du particulier, l'échantillon, vers le général, la population se fait par inférence. Cette inférence était un risque qu'il faut prendre à partir d'un calcul rationnel l'échantillon reste une estimation de la population.  Les résultats obtenus dans l’échantillon permettent de calculer la chance que nous avons de connaître le véritable résultat dans une fourchette probable  On appelle cette fourchette l’intervalle de confiance qui est restreint proportionnellement à la taille de l’échantillon  On doit fixer son niveau de confiance, et en tirer une constante de confiance pour avoir la marge +/- du résultat (90%, 95%, 99%)  P le pourcentage et ne la taille de l’échantillon ICx c = C p*(1- p) n
  18. 18. + Préparation des données avec Open Refine  Encodage et agrégation : Il faut nettoyer les données de toutes les erreurs, les manquements et les erreurs de remplissage.  Décider d’une valeur aux non-réponse  Agréger les réponses en modalités aux réponses suffisantes  Encoder les variables en variables plus synthétiques ou plus combinées (type indice)  Changement de nature entre variables qualitatives et variables quantitatives On distingue les variables primaires présentent lors de l’observation, des variables synthétiques issues d’opération d’agrégation  Il faut produire un dictionnaire de codes qui résume la nature des variables primaires et des variables synthétiques  Les sets de données contenant toutes les réponses s’appellent le tableau de données  Il faut penser à parcourir entièrement le set de données pour vérifier les incohérences et les erreurs.
  19. 19. + TD – Installer son espace de travail dans R.  Installer R et R Studio  Installer les packages  instables.packages("plots", dep=TRUE)  installe.packages("epitools")  etc.  Charger les packages avant utilisation  library(epitools)  library(prettyR)  Etc.  Sauvegarder le Travail  Les Datas : save(dataset, file=”xxxx.Rdata”)/load(« xxxx.Rdata »)  Les instructions : savehistory(“myfile.R”)  L’espace de travail complet : sache.image(file =« myfile.Rdata »)  Écrire un centisievert write.table(MyData, file = "MyData.csv",row.names=FALSE, na="",col.names=FALSE, sep=",") ou write.csv(MyData, file = "MyData.csv",row.names=FALSE, na="")  Importer des données dans un tableau  Chemin de base : setwd("D:/moque")  smp <- read.csv2("D:/moque/smp1.csv")  Etc.  Manipuler le tableau  view(smp)  dim(smp); nrow(smp), ncol(smp)  names(smp)  str(smp); summary(smp); describe(smp) dans prettyR  smp$variable; head(smp$variable, n); tail(smp$variable, n), sort(smp$variable, decreasing=TRUE)  length(v)  cbind (d1, dé) #pour coller deux tableau  merge(d1, d2, by=« id ») (voir)  Aide sur les fonctions  Hells.search(« fonction »)
  20. 20. + Recoder les variables dans R  Renommer  names(d)[names(d)=="emitter_type"] <- « emit »  Supprimer  remove(D)  d$v <- NULL  Recoder  To bin  var <- ifelse(test, 1, 0)  To character/numérique  v.char <- as.caractère(v)  V.nom <- as.numérique(v.char)  To date  https://fr.wikibooks.org/wiki/Programmer _en_R/Manipuler_les_dates_et_les_heures  To Class  range(d$âge) pour avoir les min et max // d$age20 <- cut(d$âge, c(min, 20, 40, 60, 80, max) ou un Nb de classes, include.lowest = TRUE et/ou right = FALSE, labels = c("<20ans", "21-40 ans", "41-60ans", "61-80ans", ">80ans")) // table(d$age20)  library(questionr) // icut(d, var)  d$age6cl <- quant.cut(d$age, 6) pour des classes à eff égal  quantile(var, prob=c(0.1,0.2))  To factor  v<- factor(v, levels =, labels =)  levels(d$fs.fac)  Compacter factor  v.comp <- as.character(v) // v.comp[v == "Ouvrier spécialise" | v == "Ouvrier qualifie"] <- "Ouvrier" // v com[v == "Profession intermédiaire" | v == "Technicien"] <- "Intermediaire" // v.comp <- factor(v.comp)  library(questionr) // irec(d, qualif)  V.distr <- interaction(v1, v2)  Normaliser une variable  scale(as.numeric(ess$facebook_like), center = TRUE, scale = FALSE) #scaler une variable centrée sur la moyenne  Pour qualifier les Na  V.sansNA <- as.character(v) // v.sansNA[is.na(v)] <- "Manquant » // v.sansNA<- factor(v sansNA)  Tableau disjonctif complet variable quali  dummy_cols()  https://alea.fr.eu.org/post/2011/02/21/D ichotomiser-des-variables-sous-R  Variable aberrantes ou outlier  taille <- c(1.88, 1.65, 1.92, 1.7
  21. 21. + Analyser une variable qualitative  Il s’agit ici d’étudier des variables selon leurs modalités soit quantitatives soit qualitatives.  Quand la modalité est qualitative, l’échelle des modalités est soit nominale ou soit ordinale  Une variable qualitative a pour fonction de discriminer une population, ses comportements et ses représentations selon ses qualités.  L’observation peut amener à une recodification de la variable voire à la fabrication d’indice.  On repère le mode et sa part dans la population (la modalité la plus présente)  Dans les variables qualitatives nominales, on tris les modalités par ordre ASC ou desc pour regrouper les modalités par taille et observer si ces regroupements cachent d’autres variables  Dans les variables qualitatives ordinales, l’ordre ne peut être changé, car c’est la répartition qui est signifiante. On peut y repérer la médiane.  Une variable qualitative prend tout son sens dans un ensemble de variables autour d’un thème donné ou en comparaison d’autres études de référence.
  22. 22. + Analyser une variable quantitative  Il s’agit ici d’étudier des variables selon leurs modalités soit quantitatives soit qualitatives.  Quand la modalité est quantitative, l’échelle des modalités est soit discrète (séparation stricte) soit continue (infinie décimale)  Une variable quantitative vise à mesurer l’intensité d’un phénomène selon une variable mesurable  On repère le mode, la médiane et la moyenne. C’est l’étude entre ces trois chiffres qui peut être très instructive sur la variable.  On calcule aussi l’écart type de la moyenne, l’étendue, les quartiles et les déciles pour mieux comprendre la répartition  On peut encoder une variable quantitative en classes qualitatives (ex. âge)  La notion de test paramétrique ou non paramétrique est essentielle
  23. 23. + Analyse Monovariée  Variable 1 d’im = vecteur  taille <- c(1.88, 1.65, 1.92, 1.76)  class (taille)  rep(c("a", "b"), 3) (répète en boucle)  sec(from, to, by=n) (ou raccourcis froids:to)  Name(vecteur) <- c(« toto », etc.)  vecteur[n] or [n:n] or [c(1, 3, 5)] ou [c(-3, -6)]  Vecteur[vecteur comme condition == ou != etc.)] avec & ou | (shift ale L)  Le cas de !is.na(vecteur) pour « qui ne sont pas NA »  which (v == valeur)  subset(dataset, condition & | (shift+alt+l) condition 2)  Variable Quali  table(v, useNA=”always/ifany/no”) ou summary(v); sort(table(v), decreasing = TRUE); freq(d$qualif, cum = TRUE, total = TRUE, sort = "inc", digits = 2, exclude = NA)  which (v == valeur)  pro.table(tab, margin=1 OR 2)*100 pour proportion des effectifs en % ou sur la la ligne ou la colonne  Graphique  plot(table(v, v2))  plot(table(d$frères.soeurs), main = "Nombre de frères, soeurs, demi-frères et demi-soeurs", ylab = "Effectif », las = 2) #las pour les labels clair  Variable Quanti ,  mean(v, na.rm=true), median (v), min (v), max(v), sd(v), range(v), quantile(v)  summary(v)  Graphique  plot(fonction(v.quanti), v.quali)[essayez avec fonction ecdf()]  hist(d$heures.tv, main = "Nombre d'heures passées devant la télé par jour", xlab = "Heures", ylab = "Effectif », probability=TRUE, class=n, col=« blue »)  boxplot(d$heures.tv, main = "Nombre d'heures passées devant la télé parnjour", ylab = "Heures")  Variable aberrantes ou outlier  taille <- c(1.88, 1.65, 1.92, 1.7
  24. 24. + Ggplot2 dans R  library("ggplot2")  ggplot(data = labd, aes(x = var.x, y = var.y, col = var.multiple))+ geom_point(colour = var.coul, alpha = .n, size=n, shape = var.shpe , fill = ) # si variables enfermer param dans aes( colour = var, etc)  ggplot(data = labd, aes(x = var.quanti, y = var.quanti)) + geom_point() + geom_smooth(method = "lm", level = 0.9))  ggplot(data = labd, aes(x = var.x, y = var.y, group|col = var.multiple)) + geom_lines()  ggplot(data = labd, aes(x = var.quali|factor(1), y = var.quanti, fill = var.couleur)) + geom_boxplot()  ggplot(data = labd, aes(x = var.quali, y = var.quanti, col = var.quali)) + geom_jitter()  ggplot(data = labd, aes(x = var, fill = country))+ geom_histogram(binwidth = 0.1, colour = "dark grey")
  25. 25. + Corrélation de variables Les régressions
  26. 26. + Corréler deux variables qualitatives : Tris croisés et Khi2  On peut rechercher les corrélations entre deux variables qualitatives en faisant un tri croisé en tableau  La variable en colonne est la variable à expliquer, la variable en ligne est la variable explicative  On considère que les variables sont indépendantes si le tableau observé est proche du tableau théorique de répartition.  S’il est différent, alors le test du Khi2 permet de montrer si cette différence est suffisamment significative pour deviner une corrélation  On calcule donc un écart absolu quand on fait la différence entre l'effectif observé et l'effectif théorique. Ces écarts absolus montrent quand ils sont positifs qu'il y a x individus en trop par rapport à la situation d'indépendance (phénomène d'attraction) et quand les valeurs sont négatives (phénomène de répulsion) qu'il manque des individus par rapport à la situation d’indépendance.  On calculera l'écart relatif en rapportant l'écart absolu sur l'effectif théorique afin de pouvoir exprimer l'intensité de la répulsion ou de l'attraction entre modalités de deux variables.  La distance Khi2 est la somme des Khi2 de chaque case calculée comme l’écart relatif multiplié par l’écart absolu
  27. 27. + Analyse quali dans R  Table (v1, v2) ou xtabs(~v1+v2, dataset)  prop.table(tab, margin=1 OR 2)*100  Graphique  barplot(prop.table(table(dab$media_ type, dab$emitter_type)), legend.text = TRUE, col = rainbow(9))  mosaicplot(v1~ v2, data = d, shade = TRUE, main = "Graphe en mosaïque")  library(vcd)/ mosaic(~sport + cuisine + sexe, d, highlighting = "sexe", main = "Exemple de graphique en mosaïque à 3 dimensions")  Test de Chi2  Tab <- table(v1, v2) khi <- chisq.test (tab) khi$residuals
  28. 28. + Corréler deux variables quantitatives : corrélation et régressions  On peut comparer la variance de deux variables d’un même échantillon si elles sont de même nature. On dit alors que les échantillons sont appariées. On utilise le Test de Student pour les P (même variance ?) ou de Wilcoxon/Mann- Whitney pour les non-P.  On peut aussi utilisé la comparaison linéaire de deux variables même si elles sont différentes. On utilise alors les coefficients de corrélation de Pearson (Pour les NON-P. la Corrélation de Spearman).  Deux variables quantitatives forment un nuage de points qui peuvent entretenir une relation qui signifierait une corrélation entre les phénomènes  Cette corrélation peut être approchée par une régression dites linéaire (qd la fonction est une droite) ou muliple ou polynomiale (asymptotique, exponentielle, etc).  Le coef. de corrélation r compris entre -1 et +1 montre le sens d’un corrélation  Test T (p) donne la validité d’une corrélation significative  r2 (coefficient de détermination) donne l’intensité de la corrélation soit la part de Y expliqué par X rXY = (Xi - X)´(Yi -Y) i=1 n å (Xi - X)2 i=1 n å ´ (Yi -Y)2 i=1 n å
  29. 29. + Analyse quanti dans R  Tests de deux var apparié  T.test(v1, v2) (si normal shapiro.test(v) et même variance var.test(v1~v2))  wilcox.test(V1, V2) pour les non-p  t.test(v, mu=valeur de référence)  Graphique  plot(rp99$dipl.sup, rp99$cadres, ylab = "Part des cadres", xlab = "Part des diplômés du supérieur », pch = 19, col = rgb(1, 0, 0, 0.1))  plot(jitter(smp$age, factor=n), jitter(smp$n enfant, factor=n)) giter pour décaler les points et tous les noirs  plots(rp99$diple.aucun, rp99$tx.chom, cex = rp99$pop.tot/10^4) (pour 3e variable)  plotmeans(variable~temps)/interaction.p lot(temps, individus, variables)  Corrélation et Regression  cor(v.quanti1, v.quanti2, method = c("pearson", "kendall", "spearman"), use = "complete.obs")  Sinon cor.test(x,y, method=”spearman”) pour les non-p  reg <- lm(v quanti1~ v quanti2, data = dataset) // summary(reg) // sabline(reg, lwd=2)  Régression linéaire multiple  reg <- lm(v.quanti1~ v.quanti2 + vQuanti3 + v.quanti…, data = dataset) // summary(reg) // sabline(reg, lwd=2)  On peut aussi tester la synergie (avec *) entre deux variables pour voir si le modèle additif est simple reg <- lm(v1~v2+V3*V4..., data=dataset)  Conditions de validité : Normalité du bruit (le bruit est indépendant et sans corrélation) : hist(resid(modl), col=”grey”, main) https://www.youtube.com/watch?v=ys4Q8R9yRxk https://www.youtube.com/watch?v=nzIL8sQ3auI
  30. 30. + Regression linéaire simple et multiple  Formules  reg <- lm(v.quanti1~ v.quanti2, data = dataset) // summary(reg) // abline(reg, lwd=2) // si même variance t.test(x, y, paired=TRUE)  reg <- lm(v.quanti1~ v.quanti2 + vQuanti3 + v.quanti…, data = dataset) // summary(reg) //  On peut aussi tester la synergie (avec *) entre deux variable pour voir si le modèle additif est simple reg <- lm(v1~v2+V3*V4..., data=dataset)  Confint(reg) # intervalle de confiance du modèle  Condition d’utilisation et de validité  Normalité du bruit et pas d’autocorrélation des erreur qui prennent une forme hasardeuse. (le bruit est indépendant et sans corrélation)  Homogénéité des variances.  Chasser les points aberrant qui font levier. Distance de Cook = les coef changent-il beaucoup si on retire certains individus  hist(resid(modl), col=”grey”, main) et plot(reg) et shapiro.test(resid(reg)) et which.max(cooks.distance(reg))  Interprétation  Interpréter le p pour connaître la significativité de la variable explicative et le p globale du modèle  Le R2 et le R2 adjusté dans les modèles multivariés https://www.youtube.com/watch?v=ys4Q8R9yRxk https://www.youtube.com/watch?v=nzIL8sQ3auI
  31. 31. + Regression linéaire multiple et predictibilité  Préparer un subset d’apprentissage et un subset de validation  # Splitting the dataset into the Training set and Test set - # install.packages('caTools')  library(caTools)  set.seed(123) #fixer le moteur aléatoire pour reproductibilité  split = sample.split(dataset$Profit, SplitRatio = 0.8) #créer un facteur de split sur la variable dépendante  training_set = subset(dataset, split == TRUE)  test_set = subset(dataset, split == FALSE)  Faire le modèle  Modl = lm(formula = Profit ~ .,data = training_set)  Interpréter  summary(modl)  Prédire  y_pred = predict(regressor, newdata = test_set)  OU y_pred <- predict(regressor, newdata = test_set, interval=« pred », level=0.95)  Optimisation des choix de variables  Step(modl, direction = « backward »)  Ou library(leaps)//choixOptim <- regsubset(var ~., data=d)/ plot(choixOptm, scale=« bic ») # « bic » ou « Cp » [C de mallow], ou « adjR2 »  Pour réussir une prédiction, les variables explicatives ne doivent pas être intercorrélées tout en étant fortement corrélées à la variable expliquée. On peut avoir recours à des ACP voir des PLS (Partial Least Squares Regression) pour faire des corrélation sur des facteurs qui par nature ne devraient pas être corrélés
  32. 32. + ANOVA - Corrélation entre une variable quali et une variable quanti  Une variable quantitative peut être comparée en classes ou sous- groupes selon les modalités d’une variable qualitative. On utilise pour cela des tests d’échantillons indépendant.  Quand la variable qualitative est binaire, on utilise le Test T de Student non appariée (Pour P Normale et Variance)ou les tests de Kolmogorov-Smirnov ou Mann- Whitney (pour Non-P).  Quand la variable qualitative a plus de deux modalités on utilise le test de l’ANOVA (ou analyse de la variance) pour P et test de KrustalWallis pour Non-P  La variable p permet de connaître les risques d’erreurs à rejeter H0 : Les deux échantillons ont le même comportement.  Chaque test a ses propres paramètres qui permettent de compléter les informations pour analyser les différences.  Chaque groupe est défini selon l’effet différentiel sur la moyenne « a » propre à chaque groupe
  33. 33. + ANOVA - Analyse Quanti/Quali dans R  Test  Test T de student en loi normale  qqnorm(var.quanti) ou shapiro.test(v) #normalité  By(var.quanti, var.binaire, sd, na.rm=TRUE) # égalité de variance (+-50%)  t.test(var.quanti~var.binaire, var.equal =TRUE) si variance égal sinon rien  var.test(v1~v2) #même variance  Test de Mann Whitney/Wicoxon pour les non P  wilcox.test(Var.quanti ~Var.binaire)  Kolmogorov-Smirnov  Ks.test (var.quanti[var.quali=1], var.quanti[var.quali=2]  Graphique  boxplot(var.quanti ~ var.quali, data = d)  Tapply(var.quanti, INDEX = var.quali, FUN = mean)  ATTENTION avec des V.QUALi, R recode toutes les variables.quali en variables.bin et fait une régression multiple quanti.  Regression linéaire dans R :  aovmodl <- aov(var.quanti ~ var.quali + var.quali +var.quali:var.quali, data=dataset)  modl <- lm(v.quanti1~ v.quali, data = dataset)  summary(modl)  drop1(modl, .~., test=”F”) #pour regrouper les var.quali  Library(car) // Anova(modl)  TukeyHSD(aovmodel) et plot(TukeyHSD(aovmodel))  Les contraintes des modèles  [Par défaut] la modalité de référence est la base (intercept):  vQuali <- relevel(vQuali, ref=”modalitechoisie”) ##changer la modalité de référence  contrast(var.quali) = « cont.treatement »  La contrainte à somme nulle s’arrange pour que tous les alpha = à 0 sur la base de la moyenne en général  contrast(var.quali) = « cont.sum »  Condition d’utilisation et de validité  Normalité du bruit et pas d’autocorrélation des erreur qui prennent une forme hasardeuse. (le bruit est indépendant et sans corrélation) shapiro.test(resid(reg)) ou tapply(resid, INDEX = var.quanti, FUN=shapiro.test)  Homogénéité des variances. Boxplot(var.quanti ~ var.quali, data = d) // tapply(var.quali, INDEX = var.quanti, FUN=var)// bartlett.test(var.quanti ~ var.quali, data=d)  Chasser les points aberrant qui font levier. Distance de Cook = les coef changent-il beaucoup si on retire certains individus  hist(resid(modl), col=”grey”, main=« ») et plot(reg) et et which.max(cook.distance(reg))
  34. 34. + Le test de Kruskal Wallis pour les variables non-P  kruskal.test( var.quanti ~ var.quali)  OU library (« agricolae ») // kruskal(y=var.quanti, trt = var.quali, p.adj=« holm », console = TRUE)  Test de Validité  library(coin) // pairwise.wilcox.test(var.qnati, var.quali, paired=FALSE, p.adj=« holm »)  library(FSA) //dunnTest(quanti ~ quali, paired = FALSE, p.adj = « holm »)  (voir les test avec « bonferroni »)  bartlett.test(var.quanti ~ var.quali, data = d) Homogeneité de la variance
  35. 35. + ANOVA à deux facteurs  Test  Normalité  tapply(X,interaction(Fact1,Fact2), mean) OU tapply(X,Fact1:Fact2,mean)  tapply(X,interaction(Fact1,Fact2),shapiro.test) OU tapply(X,Fact1:Fact2,shapiro.test)  Homogénéité de variance  tapply(X,interaction(Fact1,Fact2),var) OU …  bartlett.test(split(X,list(Fact1,Fact2))) OU …  # Validation synthétique du modèle :  par(mfrow=c(2,2))  plot(modMK)  Anova à 2 facteur  summary(aov(X~Fact1*Fact2)) Ou summary(aov(X~Fact1+Fact2+Fact1:Fact2))  modMK <- lm(Conformity ~ Auth*partnerStatus, data=exp)  # Table d'ANOVA de type II (l’effet de A après avoir retirer effet de B):  library(car) // Anova(modMK) //summary(modMK)  # Table d'ANOVA de type III (effet de A après avoir retirer effet de B et Interaction):  contrasts(exp$partnerStatus) = "contr.sum" # on redéfinit les contrastes (nécessaire pour le type III !)  contrasts(exp$Auth) = "contr.sum"  modMK3 <- lm(Conformity ~ Auth*partnerStatus, data=exp)  summary(modMK3)  Anova(modMK3, type="III »)
  36. 36. + Analyse binaire des var qualité : la régression logistique  Variable expliquée binaire s’explique comme le log des probabilités des réponses de variable binaire ou ordonnée ou libre  vQuali <- relevel(vQuali, ref=”modalitechoisie”) ##changer la modalité de référence  modl <- glm(v1~v2+V3+V4..., data=dataset, family=”binomial”)  summary(modl)  Et drop1(modl, .~., test=”Chisq”) ## donne le test avec variable quali compactée  On peut aussi tester la synergie (avec *) entre deux variable pour voir si le modèle additif est simple : modl <- glm(v1~v2+V3*V4..., data=dataset, family=”binomial”)  Odd ration pour une variable binaire ou ordonnée  ensuite exp(coefficients(modl)) donne l’odd ratio de ces facteurs (augmentation de probabilité) : pour binaire ou ordinal (à chaque cran de l’ordre !!!).  Condition de validité : au moins 5 à 10 événements(individus) dans chaque variable explicative https://www.youtube.com/watch?v=fUmDPVHah1U https://www.youtube.com/watch?v=hzwLWbngzVo
  37. 37. + Profilisation des individus La clusterisation
  38. 38. + Analyse des Composantes principales : Variables Quanti  Partition de groupes d’individus homogènes selon les valeurs des Variables centrées réduites (fonction scale dans R) : Valeur - moyenne/écart-type (% de l’écart-type, 1,96 est 95% de la normale)  On fait un nuage de point d’individus à K variables dimensions. La Ressemblance égale faible distance entre individus  On réduit cet espace complexe en 2 facteurs qui sont les coordonnées des individus sur ces 2 dimensions (F1 et F2)  Liaisons linéaires entre variables (matrice de corrélation). On fait un Cercle des corrélations : On lit le coef des variables à l’axe(1) puis le cos entre variables (attention proche du cercle avec d=Racine[2(1-r)])  Variables et individus sont liés et s’explicite l’un l’autre  https://www.youtube.com/watch?v=KrNbyM925wI&list=PLnZgp6e pRBbRn3FeMdaQgVsFh9Kl0fjqX
  39. 39. + ACP In R  Matrice de corrélation de v quanti  Éliminer les données manquantes. use=« complete.obs » use=« pairwise.complete.obs »  modl <- c(« name.v1 », « name.v2 », etc.) ou names (d[, n:n])  round(cor(Ast[, modl],use="complete.obs") , digits=2) #digits pour les virgule  library(corrplot)//corrplot(cor(d[,var],use=« complete.o bs »), method=« circle »)  heatmap(cor(d[,modl],use=« pairwise.complete.obs » ), col=gray(seq(1,0, length=16)))  ACP  modl <- c(« name.v1 », « name.v2 », etc.)  library(psy)  mdspca(d[,modl])  sphpca(d[,modl]) #pour la 3D  ACP avec factominer  library(FactomineR)  res <- PCA (d, quanti.sup=n:n, quali.sup=n, ncp=inf ou 5 par défaut)  Summary (res, nbelements=Inf, file=« essais.txt »)  Plot(res, cex=0.8, habillage:v, select=« cos2 0.7 »))  dimdesc(res)  ACP dans Factoshiny  Library(Factoshiny)  modl=PCAshiny(d)  PCAshiny(modl)  Modl  ACP Focalisée : Cas d’une variable à expliquer par d’autres variables  modl.plique <- « name.vplique »  modl.catif <- c(« name.v1 », « name.v2 », etc.)  library(psy)  fpca(data=d, y=modl.que, x=modl.catif, partial=« No »)  Très utiles pour la régression multiple https://www.youtube.com/watch?v=- 9NUzhdMbEo&list=PLnZgp6epRBbRn3FeMdaQgVsFh9Kl0fjqX&index=5
  40. 40. + ACP : Interprétations  Intérpreter le graph des variables pour comprendre les axes  Intérpreter le graph des individus  Lire somme des % d’inertie de chaque axe pour voir (au regard d’un tableau d’inertie) si la représentation est de qualité suffisante.  Lire la somme des contributions des variables sur axes pour comprendre comment chaque axe est construit (il représente quelles variables)  Lire la somme des contributions des individus pour vori si des individus ne pesent pas trop sur l’axe (a exclure ?)  Lire la qualité de représentation des individus et/ou variables par somme des Cos2 sur deux axes montre si on peut interpréter la variable ou s’il elle est mal projeter et donc être prudent.  Au final toujours revenir aux données brutes pour interpréter
  41. 41. + Analyse des correspondances multiples : Variables Quali  Tableau disjonctif complet : Ligne X modalités (0,1)  Chaque modalité est une variable qu’anti 1/0 que l’on pondère par la rareté : 1/p  Cette pondération forme une coordonnée dans un espace à K dimension pour le tableau d’individus  Tout le reste proche de ACP  Nuages des modalités : constituée au barycentre des individus qui la possède  https://www.youtube.com/watch?v=bihScz3OXbw&list=PLnZgp 6epRBbTvk5fznOuiZSz8ZC6aS5sz
  42. 42. + ACM dans R  ACM avec FactomineR  library (FactomineR)  res <- MCA (d, quanti.sup=v, quali.sup=v, ncp=inf ou 5)  summary(res, nbelements=Inf)  plot(res, invisible= c(« ind », « quali », « quanti », « quali.sup », « quanti.sup », « var »), label=c(« ind », « quali », « quanti », « quali.sup », « quanti.sup », « var »), autolab=« y », cex=0.7, selectMod=critère )  dimdesc(res)  Factoshiny  library(Factoshiny)  MCAshiny(Mydata)
  43. 43. + ACM : Interprétations  Intérpreter le graph des variables pour comprendre les axes  Intérpreter le graph des individus  Lire somme des % d’inertie de chaque axe pour voir (au regard d’un tableau d’inertie) si la représentation est de qualité suffisante.  Lire la somme des contributions des variables sur axes pour comprendre la nature de chaque axe  Lire la somme des contributions des individus pour vori si des individus ne pesent pas trop sur l’axe (a exclure ?)  Lire la qualité de représentation des individus et/ou variables par somme des Cos2 sur deux axes  Au final toujours revenir aux données brutes pour interpréter
  44. 44. + Analyse des Facteurs multiples.  https://www.youtube.com/watch?v=wCTaFaVKGAM
  45. 45. + Les Classificateurs
  46. 46. + Classification ascendante Hierarchique  Il faut une mesure de proximité ou de similarité entre individus (distance entre valeur d’une variable, distance euclidienne ou indice spécifique métier)  Par itération, on regroupe deux à deux la plus petite distance en un groupe…  Ratio Inertie Inter/Inerte Total donne la qualité de la partition (0 à 1). On choisit le nombre de groupe selon l’inertie conservée après partition (InerInter/InerTotal > inertie d’Axe 1)  Une ACM/ACP transforme le tableau en facteurs quantitatifs moindres. On peut ensuite faire une CAH sur ces dimensions.  https://www.youtube.com/watch?v=SE_4dLh5vXY&list=PLnZgp6e pRBbRwGBLnM8GEmcxuQGM0_oIk
  47. 47. + CAH in R  CAH de variables  modl <- c(« name.v1 », « name.v2 », etc.)  cah.vars <- hclust(dist(t(scale(d[,modl]))),method=« ward ») #pour une classification des variables  cah.vars <- hclust(dist(scale(d[,modl])),method=« ward ») #pour une classification des variables  plot(cah.vars, xlab=« », ylab=« », main =« CAH de variables »)  Matricecor <- cor(data[,varS], use=« pairwise.complete.obs »)  heatmap(Matricecor, col =red|blue|gray(1, 2, 3…))  CAH avec FactomineR à pâtir de ACP ou ACM  res.hcpc <- HCPC(res.ACP ou ACM)  res.hcpc$data.clust (la bd avec les clusters)  res.hcpc§desc.var (décris le rapport variable et classes)  res.hcpc$desc.ind (les parangons)  Factoshiny  library(Factoshiny)  MCAshiny(Mydata)
  48. 48. + Partitionnement en classes par les K-Means  Par itérations, on choisit nombre de classes et on rassemble les individus par proximité des barycentres.  Une ACM transforme le tableau en facteurs quantitatifs moindres. On peut ensuite faire un K Means sur ces dimensions.  On peut faire une partition par CAH en initialisation et consolider par K-Means ou l’inverse.  Puis lire  (1) parangon de chaque classe = individu le plus proche  (2) on peut chercher les p par ANOVA de chaque variable sur les classes. Plus le p est petit, plus la variable a pesé sur la classe. (pour quali on fait un Khi2 et on utilise aussi p)  (3) v test pour valeur test (>1,96 pour la normale) caractérise le poids de la variable sur la classe. Pour les modalités :on regarde aussi les p et les v tests
  49. 49. + SVM
  50. 50. + Text Mining et Text analysis R et Iramutec
  51. 51. + Introduction au text analysis avec tm  corpus <- VCorpus(VectorSource(data, , encoding = "UTF-8"), readerControl = list(reader = « readPDF », language = "lat") ) #voir la fonction getSources() pour les DirSource(), DataframeSource(), et getReaders et aussi SimpleCorpus très rapide  writeCorpus(corpus)  inspect(corpus[1:6]) / inspect(corpus[[2]]) / lapply(corpus[1:2], as.character)  meta(corpus[[n]], "id") ou DublinCore(corpus[[1]], "Creator") <- "Ano Nymous"  corpus[meta(reuters, "id") == ’n' & meta(reuters, "heading") == ’letitre’]  #cleaning  Corpus <- tm_map(corpus, des paramètres) > voir removeNumbers, removePunctuation, removeWords, stemDocument, stripWhitespace, content_transformer  #Nettoyer le corpus  tm_map(corpus, content_transformer(tolower)) # et toutes les fonction text usuelle de R  tm_map(corpus, stripWhitespace)  tm_map(corpus, removeNumbers)  tm_map(corpus, removePunctuation)  tm_map(corpus, removeWords, stopwords("english"))  tm_map(corpus, stemDocument)  tdm <- DocumentTermMatrix(corpus, list(removePunctuation = TRUE, stopwords = TRUE, stemming = TRUE, removeNumbers = TRUE, dictionary =leDictionnaire)) # Create a document term matrix.  inspect(tdm)/ findFreqTerms(dtm, 5) /findAssocs(dtm, "un mot", 0.8)/ inspect(removeSparseTerms(dtm, 0.4)) le % de 0 dans les documents  train <- as.matrix(tdm) # Convert to a data.frame for training and assign a classification (factor) to each document.  Words <- as.data.frame(train)  Sur le train, on applique un ACP puis un CAH pour regrouper les documents en classes comparables
  52. 52. + Analyse des réseaux sociaux
  53. 53. + La relation au cœur des facteurs comportementaux  Deux tables : Des nœuds et des relations  Des qualifications du réseau et de ses sous réseau  Des qualifications structurales des nœuds  Analyse du comportement relationnel comme facteurs expliquant ou expliquer  Des visualisations de réseaux heuristiques  Analyser les réseaux (comparaison ou longitudinal)  Sum Nœud, Sum Degré, Statistiques des degrés (Moyenne, Quartiles, Déciles, etc.), Statistiques des propriétés qualité et qu’anti  Plus court Chemin, Diamètre, Chemin Moyen, Coefficient de clustering, Densité  Composante connexe; Modularity (w Resolution), NB Communautés
  54. 54. + Analyse de la situation du nœud  Nb degrés (in, out, weigted) ex. les isolés ? Les réciprocités ? Triades et transitivités [Indice de transitivités]?  Centrality Betweeness/Closeness or Eccentricity/Egenvector or Page Rank  Hub / Authority  Modularity/Composante connexe/Coefficient de clustering
  55. 55. + Analyse du comportement de lien  Type de lien (directed – undirected )  Source – destinataire et leurs attributs respectifs  Poids des liens  Propriétés des liens et multiplexité  Durée de vie du lien (Intervalle de dates)
  56. 56. + Les grandes lois des réseaux  Rôles : Similarités des comportements envers les autres [équivalence structurale]  Effet Saint Mathieu: ce qui attirent beaucoup attirent encore plus  6 degrés de connexions  La limite des 148 contacts actifs (690 max)  La taille compte (pour l’accès aux ressources)  Relation influence / sélection dans la Network théorie
  57. 57. + À voir  Intervalle de confiance  Moyenne : t test(d$heures.tv, conf.lever = 0.9)  D’une pro pour variablebinaire: prop.test(table(relevel(d$sport, "Oui")), conf.lever = 0.9)  Ou encore : library(binom) / binom.confine(x,ne méthode=”all”)

×