SlideShare une entreprise Scribd logo
1  sur  22
Télécharger pour lire hors ligne
Les prénoms, une donnée populaire
Simon Chignard - @schignard
simonchignard@mac.com
www.donneesouvertes.info
1
Atelier «Prénoms»
Sommaire
Découverte du sujet
1/ Dans la presse quotidienne régionale : les 1ers bébés de l’année
2/ En vidéos : la Saint Méthode (1964), Attention aux prénoms farfelus (2003)
3/ Les premières perceptions : un bien de mode, la recherche de l’extravagance
Les données disponibles
1/ Sur les portails Open Data des collectivités
2/ Le fichier Insee
3/ Les prénoms des candidats au bac
Lecture critique des données disponibles
1/ Périmètre et constitution du fichier
2/ N = ?
3/ Où êtes-vous vraiment nés ?
Des réutilisations possibles
1/ La diversité des prénoms et l’évolution dans le temps
2/ Les effets de mode et l’influence d’évènements extérieurs
3/ Le prénom un indicateur social ?
4/ Les prénoms et la crise
Le lien entre matière première disponible et réutilisations possibles
1
2
3
4
5
2
Découverte du sujet1
3
Presse Océan
2/01/2013
4
Le Telegramme
2/01/2013
5
Le Pays Malouin
3/01/13
6
Découverte du sujet
Les prénoms comme un bien de
mode
Le Top des prénoms : Emma et
Matthis
«Le retour de Lola, face à
l’indétronable Enzo»
L’influence d’évènements
extérieurs : les stars de cinéma, les
chanteurs, etc...
Les prénoms farfelus
Attention aux prénoms farfelus !
Loréal, Ikea, Tartempion, MJ, ...
les premières perceptions du phénomène
7
Les données
disponibles2
8
Les jeux de données disponibles
Sur les portails Open Data des
collectivités ou data.gouv.fr
Bordeaux
Coulommiers
La Rochelle
Nantes
Rennes
Montpellier
Paris
Sarlat-la-Canéda
Digne-les-Bains
Toulouse
...
Le fichier prénoms de l’INSEE
Soumis à redevance mais disponible en
ligne sur nosdonnees.fr
Sur demande auprès de l’état-civil
en application de la loi CADA
Poitiers
Le fichier des candidats au bac 2011 et 2012
compilé par Baptiste Coulmont à partir du site
web de l’Education nationale
Un recensement rapide
9
Lecture critique
des données3
10
Lecture critique des données
Qui figure dans le fichier ?
Comment est-il constitué ?
Le fichier représente-t-il l’ensemble
des naissances ?
Les premières questions
11
Lecture critique des données
N=?
Le fichier prénoms de l’INSEE
N = naissances enregistrées (bulletin de
naissance) sur le territoire y compris
DOM de 1900 à 2009, à l’exception des
enfants portant un prénom donné moins
de 3 fois au cours d’une année (prénoms
«rares».
Le fichier de Paris en Open Data
N = naissances à la date
d’enregistrement à l’état-civil sur le
territoire de Paris, à l’exception des
enfants portant un prénom donné moins
de 5 fois au cours de l’année
Le fichier des candidats au bac en
2012
N = candidats au bac 2012 ayant accepté
la publication de leurs résultats
12
Des réutilisations
possibles4
13
Relativiser la part des prénoms
figurant dans le Top
Comment illustrer la courbe de
distribution de type longue traîne ?
(Loi de Zipf)
Montrer la diversité dans le
temps
Indicateur : nombre de prénoms
nécessaires pour nommer la moitié
d’une classe d’âge
Indicateur : pourcentage des
enfants qui portent un prénom du
Top 50 (les plus donnés)
Indicateur : pourcentage des
enfants recevants un prénom
unique dans une ville
a - Montrer la diversité des prénoms
Des réutilisations possibles
«scoring prénoms»
en marketing
14
La mode des prénoms courts
Enrichissement du fichier : nombre
de lettres dans le prénom
Attention : Tom et Léa, 3 lettres
chacun !
Les terminaisons à la mode
Enrichissement du fichier : prénoms
ayant une terminaison en -a ou -ah
(Léa, Sarah, Emma, ...)
vs.
prénoms ayant une terminaison en
-ette (Bernadette)
b - Le prénom, un bien de mode
Des réutilisations possibles
L’influence d’un évènement
externe
Un fait divers
Une chanteuse à la mode
...
La recherche d’éventuelles
spécificités locales
Est-on plus originaux à Paris, La
Rochelle ou Nantes ?
15
b - Le prénom, un bien de mode
L’influence d’un évènement externe : un fait divers
%desnaissances(garçons)portantleprénom
5700
2200
16
b - Le prénom, un bien de mode
L’influence d’un évènement externe : une chanteuse
%desnaissances(filles)portantleprénom
1200
550
17
Les mentions au bac en fonction
du prénom (Baptiste Coulmont)
c - Le prénom, un indicateur social
Des réutilisations possibles
18
Le carnet du Figaro
Enrichissement du fichier : prénoms
figurant dans le carnet du Figaro
Attention : Justin !
(Parenthèse juridique)
Selon la licence choisie pour le jeu
de données initial, on devra
republier ces enrichissements selon
les mêmes conditions... (ODbL)
Ilustration concrète du partage à
l’identique (share-alike).
c - Le prénom, un indicateur social
Des réutilisations possibles
19
d - Le prénom en
période de crise
Des réutilisations possibles
20
Le lien entre la matière première
disponible et les réutilisations possibles5
21
Une très grande hétérogénéité
des jeux disponibles
Analyse de Charles Népote sur les
jeux disponibles : contenu du
fichier, plage temporelle, licence, le
troncage réalisé
La comparaison entre territoires est
très difficile.
Un troncage lié à leur ouverture
Les prénoms rares ne figurent pas
dans les fichiers. Or ils sont
indispensables pour répondre à
certaines questions :
«Je veux donner à mon enfant un
prénom qui n’a jamais été donné
dans cette ville»
La matière disponible détermine les
réutilisations possibles
Certains phénomènes relèvent
du temps long
Un prénom revient à la mode
suivant un cycle de 80 à 120 ans.
Les fichiers publiés couvrent des
périodes temporelles beaucoup
plus limitées...
22

Contenu connexe

En vedette

Facebook y sus efectos negativos en la poblacion juvenil
Facebook y sus efectos negativos en la poblacion juvenilFacebook y sus efectos negativos en la poblacion juvenil
Facebook y sus efectos negativos en la poblacion juvenilsegundouzhca
 
Actividad 4 laboratorio 2
Actividad 4 laboratorio 2Actividad 4 laboratorio 2
Actividad 4 laboratorio 2Meybeline10
 
PROBLEMAS FRECUENTES DEL DESAROLLO APEGO Y ANSIEDAD
PROBLEMAS FRECUENTES DEL DESAROLLO APEGO Y ANSIEDADPROBLEMAS FRECUENTES DEL DESAROLLO APEGO Y ANSIEDAD
PROBLEMAS FRECUENTES DEL DESAROLLO APEGO Y ANSIEDADMony Lozado
 
Las drogas
Las drogasLas drogas
Las drogasgfnunezp
 
Grande distribution et réseaux sociaux
Grande distribution et réseaux sociauxGrande distribution et réseaux sociaux
Grande distribution et réseaux sociauxMarketingZ
 
Mitos y realidades de las sustancias psicoactivas
Mitos y realidades de las sustancias psicoactivasMitos y realidades de las sustancias psicoactivas
Mitos y realidades de las sustancias psicoactivasAngiie Vanegas
 
Cezanne.manet.zola.beuvelet
Cezanne.manet.zola.beuveletCezanne.manet.zola.beuvelet
Cezanne.manet.zola.beuveletOlivier Beuvelet
 
Ciclo de refrigeración por la compresión a vapor
Ciclo de refrigeración por la compresión a vaporCiclo de refrigeración por la compresión a vapor
Ciclo de refrigeración por la compresión a vaporeliosilvestri
 
Aprendizaje Significativo
Aprendizaje SignificativoAprendizaje Significativo
Aprendizaje Significativonerybety
 
Diapositivas de celeste
Diapositivas de celesteDiapositivas de celeste
Diapositivas de celestemari_10
 
Présentation de la conférence Horizon 2010
Présentation de la conférence Horizon 2010Présentation de la conférence Horizon 2010
Présentation de la conférence Horizon 2010BOURBON
 
IKTak hezkuntza aireberritzeko aitzakia
IKTak hezkuntza aireberritzeko aitzakiaIKTak hezkuntza aireberritzeko aitzakia
IKTak hezkuntza aireberritzeko aitzakiaItxaso Vazquez
 
Suunto - Au sommet de l'outdoor
Suunto - Au sommet de l'outdoorSuunto - Au sommet de l'outdoor
Suunto - Au sommet de l'outdoorFabien Vella
 
La elipse diapositiva
La elipse diapositiva La elipse diapositiva
La elipse diapositiva dani34444
 

En vedette (20)

500 brandon 10a
500 brandon 10a500 brandon 10a
500 brandon 10a
 
Navegacion espacial
Navegacion espacialNavegacion espacial
Navegacion espacial
 
Facebook y sus efectos negativos en la poblacion juvenil
Facebook y sus efectos negativos en la poblacion juvenilFacebook y sus efectos negativos en la poblacion juvenil
Facebook y sus efectos negativos en la poblacion juvenil
 
Actividad 4 laboratorio 2
Actividad 4 laboratorio 2Actividad 4 laboratorio 2
Actividad 4 laboratorio 2
 
La martinique
La martiniqueLa martinique
La martinique
 
PROBLEMAS FRECUENTES DEL DESAROLLO APEGO Y ANSIEDAD
PROBLEMAS FRECUENTES DEL DESAROLLO APEGO Y ANSIEDADPROBLEMAS FRECUENTES DEL DESAROLLO APEGO Y ANSIEDAD
PROBLEMAS FRECUENTES DEL DESAROLLO APEGO Y ANSIEDAD
 
Las drogas
Las drogasLas drogas
Las drogas
 
Grande distribution et réseaux sociaux
Grande distribution et réseaux sociauxGrande distribution et réseaux sociaux
Grande distribution et réseaux sociaux
 
Gastronomie lyonnaise
Gastronomie lyonnaiseGastronomie lyonnaise
Gastronomie lyonnaise
 
La nanotecnologia
La nanotecnologiaLa nanotecnologia
La nanotecnologia
 
Mitos y realidades de las sustancias psicoactivas
Mitos y realidades de las sustancias psicoactivasMitos y realidades de las sustancias psicoactivas
Mitos y realidades de las sustancias psicoactivas
 
Cezanne.manet.zola.beuvelet
Cezanne.manet.zola.beuveletCezanne.manet.zola.beuvelet
Cezanne.manet.zola.beuvelet
 
Ciclo de refrigeración por la compresión a vapor
Ciclo de refrigeración por la compresión a vaporCiclo de refrigeración por la compresión a vapor
Ciclo de refrigeración por la compresión a vapor
 
Aprendizaje Significativo
Aprendizaje SignificativoAprendizaje Significativo
Aprendizaje Significativo
 
Diapositivas de celeste
Diapositivas de celesteDiapositivas de celeste
Diapositivas de celeste
 
Catalogue pédagogique primaire 2014 2015
Catalogue pédagogique primaire 2014 2015Catalogue pédagogique primaire 2014 2015
Catalogue pédagogique primaire 2014 2015
 
Présentation de la conférence Horizon 2010
Présentation de la conférence Horizon 2010Présentation de la conférence Horizon 2010
Présentation de la conférence Horizon 2010
 
IKTak hezkuntza aireberritzeko aitzakia
IKTak hezkuntza aireberritzeko aitzakiaIKTak hezkuntza aireberritzeko aitzakia
IKTak hezkuntza aireberritzeko aitzakia
 
Suunto - Au sommet de l'outdoor
Suunto - Au sommet de l'outdoorSuunto - Au sommet de l'outdoor
Suunto - Au sommet de l'outdoor
 
La elipse diapositiva
La elipse diapositiva La elipse diapositiva
La elipse diapositiva
 

Plus de Simon Chignard

La Fabrique des Mobilités: la Data et les nouveaux services de mobilité
La Fabrique des Mobilités: la Data et les nouveaux services de mobilitéLa Fabrique des Mobilités: la Data et les nouveaux services de mobilité
La Fabrique des Mobilités: la Data et les nouveaux services de mobilitéSimon Chignard
 
Pourquoi contribue-t-on ?
Pourquoi contribue-t-on ?Pourquoi contribue-t-on ?
Pourquoi contribue-t-on ?Simon Chignard
 
L'ouverture des données publiques (Open Data) : pour quoi faire ?
L'ouverture des données publiques (Open Data) : pour quoi faire ?L'ouverture des données publiques (Open Data) : pour quoi faire ?
L'ouverture des données publiques (Open Data) : pour quoi faire ?Simon Chignard
 
Open data et biens communs : 4 pistes à explorer
Open data et biens communs : 4 pistes à explorerOpen data et biens communs : 4 pistes à explorer
Open data et biens communs : 4 pistes à explorerSimon Chignard
 
[Open Data] Evaluer l’impact économique local de l’open data
[Open Data] Evaluer l’impact économique local de l’open data[Open Data] Evaluer l’impact économique local de l’open data
[Open Data] Evaluer l’impact économique local de l’open dataSimon Chignard
 
[Infomobilité] Mobilite urbaine 2.0 : participation, innovation et usagers
[Infomobilité] Mobilite urbaine 2.0 : participation, innovation et usagers[Infomobilité] Mobilite urbaine 2.0 : participation, innovation et usagers
[Infomobilité] Mobilite urbaine 2.0 : participation, innovation et usagersSimon Chignard
 

Plus de Simon Chignard (6)

La Fabrique des Mobilités: la Data et les nouveaux services de mobilité
La Fabrique des Mobilités: la Data et les nouveaux services de mobilitéLa Fabrique des Mobilités: la Data et les nouveaux services de mobilité
La Fabrique des Mobilités: la Data et les nouveaux services de mobilité
 
Pourquoi contribue-t-on ?
Pourquoi contribue-t-on ?Pourquoi contribue-t-on ?
Pourquoi contribue-t-on ?
 
L'ouverture des données publiques (Open Data) : pour quoi faire ?
L'ouverture des données publiques (Open Data) : pour quoi faire ?L'ouverture des données publiques (Open Data) : pour quoi faire ?
L'ouverture des données publiques (Open Data) : pour quoi faire ?
 
Open data et biens communs : 4 pistes à explorer
Open data et biens communs : 4 pistes à explorerOpen data et biens communs : 4 pistes à explorer
Open data et biens communs : 4 pistes à explorer
 
[Open Data] Evaluer l’impact économique local de l’open data
[Open Data] Evaluer l’impact économique local de l’open data[Open Data] Evaluer l’impact économique local de l’open data
[Open Data] Evaluer l’impact économique local de l’open data
 
[Infomobilité] Mobilite urbaine 2.0 : participation, innovation et usagers
[Infomobilité] Mobilite urbaine 2.0 : participation, innovation et usagers[Infomobilité] Mobilite urbaine 2.0 : participation, innovation et usagers
[Infomobilité] Mobilite urbaine 2.0 : participation, innovation et usagers
 

Infolab : les prénoms, une donnée populaire

  • 1. Les prénoms, une donnée populaire Simon Chignard - @schignard simonchignard@mac.com www.donneesouvertes.info 1
  • 2. Atelier «Prénoms» Sommaire Découverte du sujet 1/ Dans la presse quotidienne régionale : les 1ers bébés de l’année 2/ En vidéos : la Saint Méthode (1964), Attention aux prénoms farfelus (2003) 3/ Les premières perceptions : un bien de mode, la recherche de l’extravagance Les données disponibles 1/ Sur les portails Open Data des collectivités 2/ Le fichier Insee 3/ Les prénoms des candidats au bac Lecture critique des données disponibles 1/ Périmètre et constitution du fichier 2/ N = ? 3/ Où êtes-vous vraiment nés ? Des réutilisations possibles 1/ La diversité des prénoms et l’évolution dans le temps 2/ Les effets de mode et l’influence d’évènements extérieurs 3/ Le prénom un indicateur social ? 4/ Les prénoms et la crise Le lien entre matière première disponible et réutilisations possibles 1 2 3 4 5 2
  • 7. Découverte du sujet Les prénoms comme un bien de mode Le Top des prénoms : Emma et Matthis «Le retour de Lola, face à l’indétronable Enzo» L’influence d’évènements extérieurs : les stars de cinéma, les chanteurs, etc... Les prénoms farfelus Attention aux prénoms farfelus ! Loréal, Ikea, Tartempion, MJ, ... les premières perceptions du phénomène 7
  • 9. Les jeux de données disponibles Sur les portails Open Data des collectivités ou data.gouv.fr Bordeaux Coulommiers La Rochelle Nantes Rennes Montpellier Paris Sarlat-la-Canéda Digne-les-Bains Toulouse ... Le fichier prénoms de l’INSEE Soumis à redevance mais disponible en ligne sur nosdonnees.fr Sur demande auprès de l’état-civil en application de la loi CADA Poitiers Le fichier des candidats au bac 2011 et 2012 compilé par Baptiste Coulmont à partir du site web de l’Education nationale Un recensement rapide 9
  • 11. Lecture critique des données Qui figure dans le fichier ? Comment est-il constitué ? Le fichier représente-t-il l’ensemble des naissances ? Les premières questions 11
  • 12. Lecture critique des données N=? Le fichier prénoms de l’INSEE N = naissances enregistrées (bulletin de naissance) sur le territoire y compris DOM de 1900 à 2009, à l’exception des enfants portant un prénom donné moins de 3 fois au cours d’une année (prénoms «rares». Le fichier de Paris en Open Data N = naissances à la date d’enregistrement à l’état-civil sur le territoire de Paris, à l’exception des enfants portant un prénom donné moins de 5 fois au cours de l’année Le fichier des candidats au bac en 2012 N = candidats au bac 2012 ayant accepté la publication de leurs résultats 12
  • 14. Relativiser la part des prénoms figurant dans le Top Comment illustrer la courbe de distribution de type longue traîne ? (Loi de Zipf) Montrer la diversité dans le temps Indicateur : nombre de prénoms nécessaires pour nommer la moitié d’une classe d’âge Indicateur : pourcentage des enfants qui portent un prénom du Top 50 (les plus donnés) Indicateur : pourcentage des enfants recevants un prénom unique dans une ville a - Montrer la diversité des prénoms Des réutilisations possibles «scoring prénoms» en marketing 14
  • 15. La mode des prénoms courts Enrichissement du fichier : nombre de lettres dans le prénom Attention : Tom et Léa, 3 lettres chacun ! Les terminaisons à la mode Enrichissement du fichier : prénoms ayant une terminaison en -a ou -ah (Léa, Sarah, Emma, ...) vs. prénoms ayant une terminaison en -ette (Bernadette) b - Le prénom, un bien de mode Des réutilisations possibles L’influence d’un évènement externe Un fait divers Une chanteuse à la mode ... La recherche d’éventuelles spécificités locales Est-on plus originaux à Paris, La Rochelle ou Nantes ? 15
  • 16. b - Le prénom, un bien de mode L’influence d’un évènement externe : un fait divers %desnaissances(garçons)portantleprénom 5700 2200 16
  • 17. b - Le prénom, un bien de mode L’influence d’un évènement externe : une chanteuse %desnaissances(filles)portantleprénom 1200 550 17
  • 18. Les mentions au bac en fonction du prénom (Baptiste Coulmont) c - Le prénom, un indicateur social Des réutilisations possibles 18
  • 19. Le carnet du Figaro Enrichissement du fichier : prénoms figurant dans le carnet du Figaro Attention : Justin ! (Parenthèse juridique) Selon la licence choisie pour le jeu de données initial, on devra republier ces enrichissements selon les mêmes conditions... (ODbL) Ilustration concrète du partage à l’identique (share-alike). c - Le prénom, un indicateur social Des réutilisations possibles 19
  • 20. d - Le prénom en période de crise Des réutilisations possibles 20
  • 21. Le lien entre la matière première disponible et les réutilisations possibles5 21
  • 22. Une très grande hétérogénéité des jeux disponibles Analyse de Charles Népote sur les jeux disponibles : contenu du fichier, plage temporelle, licence, le troncage réalisé La comparaison entre territoires est très difficile. Un troncage lié à leur ouverture Les prénoms rares ne figurent pas dans les fichiers. Or ils sont indispensables pour répondre à certaines questions : «Je veux donner à mon enfant un prénom qui n’a jamais été donné dans cette ville» La matière disponible détermine les réutilisations possibles Certains phénomènes relèvent du temps long Un prénom revient à la mode suivant un cycle de 80 à 120 ans. Les fichiers publiés couvrent des périodes temporelles beaucoup plus limitées... 22