Evolution de la mise en chantier résidentiel depuis 1980 à 2013 dans la RMR de Québec
1.
UNIVERSITÉ LAVAL
FACULTÉ DES SCIENCES DE L’ADMINISTRATION
ÉCONOMIE URBAINE ET MARCHÉS IMMOBILIERS
GUI-4100/6100
Évolution de la mise en chantier résidentiel depuis 1980 à 2013 dans la
RMR de Québec
Travail de session remis à M. François Des rosiers
Par Florian POIX
florian.poix.1@ulaval.ca
# 111 099 739
Michael LEFEBVRE
michael.lefebvre.1@ulaval.ca
# 903 178 548
Katerine GIRARD
katerine.girard.1@ulaval.ca
# 910 052 569
Automne 2014
2. Table
des
matières
Introduction
.................................................................................................................................................................
2
Méthodologie
...............................................................................................................................................................
3
Analyse
et
interprétation
.......................................................................................................................................
7
-‐Analyse
de
la
base
de
données……………………………………………………………………………….…………………………7
-‐Tests
de
normalité………………………………………………………………………………………………………………………....11
-‐Analyse
de
corrélation………………………………………………………………….....................................................................13
-‐Tests
de
colinéarité…………………………………………………………………………………………………………………..…...16
-‐Interprétation
de
la
qualité
du
modèle
de
régression…………..…………………………………………………………..20
-‐Interprétation
de
l'ajustement
du
modèle
de
régression…………………………………………………………….……21
-‐Évaluation
et
interprétation
des
paramètres
du
modèle………………………………………………………………….23
Conclusion
et
Interpretation
globale
.............................................................................................................
27
Bibliographie
..............................................................................................................................................................
28
ANNEXE
1
:
Carte
de
la
RMR
de
Québec
.......................................................................................................
30
ANNEXE
2
:
Base
de
données
.............................................................................................................................
31
ANNEXE
3
:
Histogramme
et
nuage
de
points
du
modèle
de
régression
........................................
33
ANNEXE
4
:
Histogrammes
et
Normogrammes
Q-‐Q
du
test
de
normalité
.....................................
34
ANNEXE
5
:
Test
de
normalité
sur
les
variables
retenues
....................................................................
39
Table
des
figures
Figure
1
:
Mise
en
chantier
et
variables
connexes
.......................................................................................
7
Figure
2:
relations
entre
les
données
économiques
...................................................................................
8
Figure
3
:
évolution
des
facteurs
démographiques
.....................................................................................
9
Figure
4
:
évolution
des
facteurs
économiques
............................................................................................
9
Figure
5
:
Évolution
des
facteurs
socioéconomiques
..............................................................................
10
Figure
6
:
nuages
de
dispersion
des
variables
indépendantes
retenues
........................................
26
Table
des
tableaux
Tableau 1 : Liste des données primaires à l'étude
.............................................................................................
4
Tableau
2
:
test
de
normalité
sur
l’ensemble
des
données
à
l’étude
................................................
11
Tableau
3
:
Test
de
normalité
sur
les
données
transformées
..............................................................
12
Tableau
4
:
Analyse
de
corrélation
..................................................................................................................
13
Tableau
5
:
Statistiques
de
colinéarité
...........................................................................................................
16
Tableau
6
:
analyse
de
régression
avec
des
variables
log
.....................................................................
17
Tableau
7
:
analyse
intégrant
différentes
variables
.................................................................................
18
Tableau
8
:
analyse
intégrant
différentes
variables
.................................................................................
18
Tableau
9
:
analyse
intégrant
d'autres
variables
......................................................................................
19
Tableau
10:
Analyse
de
variances
...................................................................................................................
21
Tableau
11
:
Analyse
de
régression
................................................................................................................
21
Tableau
12
:
Coefficients
du
modèle
...............................................................................................................
23
Tableau
13
:
Équation
de
régression
pour
prédir
une
valeur
de
"y"
................................................
25
3. 2
Introduction
La situation économique et démographique du Québec évolue sans cesse. Il en est de même pour
le marché résidentiel. Partout, on remarque un développement relativement constant d’immeubles
à condominiums et à appartements, des maisons individuelles et jumelées qui prennent forme
dans les paysages urbains pour répondre aux besoins d’une population changeante. Après une
période d’effervescence à la fin des années 1970 qui a conduit vers un boom immobilier de 1985
à 1989, la demande dans le marché du logement tend à ralentir, bien que le marché reste encore
très actif. Depuis 2000, le marché du logement maintient une certaine vigueur qui semble vouloir
perdurer. Les faibles taux d’intérêt sont en grandes parties responsables de la prospérité du
marché. Plusieurs recherches démontrent que le marché de la propriété tout comme le marché
locatif représentent des très bons potentiels de développement futur. C’est un secteur actif qui
évolue constamment. À titre d’exemple, on compte 386 mises en chantier résidentiel pour la
période de janvier à mars 2014 sur le territoire de Québec et une prédiction de 4125 pour l’année
2014 contre un total de 6652 pour l’année 2010. (Société canadienne d’hypothèques et de
logement).
Plusieurs études sur le marché résidentiel sont menées régulièrement. Une étude de la FCIQ a
notamment permis de créer un modèle pour mieux comprendre l’impact de ces facteurs sur
l’évolution des prix. En parallèle, on peut se poser la question, à savoir quels sont les facteurs qui
influencent cette fois la mise en chantier ? Le marché du logement et les constructions de
logements neufs sont des facteurs importants de l’économie nationale et régionale c’est pourquoi
il sera question de tenter de mesurer les impacts de différentes variables sur ce phénomène.
Le thème de la recherche portera sur l’évolution de la mise en chantier résidentiel dans la région
métropolitaine de Québec depuis 1980 à 2013. Pour tenter de mesurer ce phénomène, plusieurs
données de type économique, socio-économique et démographique seront analysées.
4. 3
L’outil d’analyse utilisée sera l’analyse de régression, qui permettra de comprendre comment
évolue la mise en chantier résidentiel depuis 1980 jusqu'à 2013. En d’autres termes, l’analyse de
régression servira d’outils de mesure pour mieux connaître l’influence des facteurs externes sur le
nombre de mise en chantier résidentiel. Notre variable dépendante, à savoir la mise en chantier
résidentiel, sera mise en relation avec les variables issues des données économiques, socio-
économiques et démographiques qui seront abordées dans la prochaine section. Il s’agira de faire
corréler les variables les plus importantes pour évaluer leur degré de signification grâce au
coefficient (R²) et ainsi pouvoir mieux comprendre quelles sont les variables qui influencent de
façon significative la variable dépendante. Un modèle essentiellement empirique sera élaboré afin
de mieux comprendre le phénomène. Le contenu du travail comprendra d’une part la
méthodologie, l’analyse détaillée des variables grâce à des graphiques inter reliés, des figures et
des tableaux, l’interprétation des résultats obtenus et finalement, la conclusion du travail et la
partie bibliographique.
Méthodologie
Pour effectuer ce travail, il fut question tout d’abord de rechercher des données sur différentes
variables. Des données ont été compilées à partir du coeur du sujet, donc sur le nombre de mise
en chantier des maisons individuelles et des jumelés ainsi que la mise en chantier des
appartements dans la RMR de Québec. Ces informations ont été compilées sous la forme d’une
seule variable, sois la mise en chantier globale. D’autres données ont été récoltées tel que les taux
hypothécaires réels sur 5 ans, les données sur les prix moyens du logement, l’indice du prix du
neuf, la quantité d’unités écoulées sur le marché et les taux d’inoccupation.
Un certain nombre de variables socio-économiques ont également été compilées, telles que la
population active chez les femmes, la population active totale, les revenus moyens par ménages et
la taille des ménages. La taille des ménages fut regroupée en deux variables, sois les ménages de
1 et 2 personnes et les ménages de 3 personnes et plus. D’autres données de types
démographiques ont été compilées, telles que le taux de natalité, la population totale
d’immigrants et les différentes tranches d’âges de la population. Les recherches se sont
concentrées sur la tranche d’âge de 15 à 54 ans. Les deux tranches d’âge de 15 à 34 ans et de 35 à
54 ont été regroupées afin de contenir les tranches d’âge de 15 à 54 ans.
Ces données ont été récoltées pour la population de la RMR de Québec de 1980 à 2013 tel que
mentionné plus haut. Les données sur la population de 15 à 54 ans, la taille des ménages, la
population active chez les femmes et la population active totale proviennent du recensement de
5. 4
Statistique Canada. Les données sur l’immigration, le revenu moyen par ménages, la population
active, le taux hypothécaire, le taux d’inoccupation et l’indice des prix du neuf proviennent de la
banque de données CANSIM. Les données sur le loyer moyen proviennent de la société
canadienne d’hypothèque et du logement. Le nombre d’unités écoulées proviennent des données
de la Société canadienne de l’hypothèque et de logement. Bien qu’elle ait été compilée, cette
dernière variable n’a pas été utilisée dans le modèle, car une sélection des variables fut nécessaire
afin de ne pas surcharger l’analyse.
Pour la majorité des variables, les données les plus récentes dataient de 2011. Des procédures
d’extrapolation et d’interpolation ont été effectuées pour aller chercher les données manquantes
pour 2012 et 2013, mais aussi pour certaines données manquantes jusqu’en 1980. Pour les
variables disponibles aux 5 ans dans les recensements et celles tout simplement absentes pour
certaines années, une série d’interpolation a été effectuée.
Au départ, une quinzaine de variables ont été récoltées. Avant d’entamer le processus d’analyse,
celles-ci ont été revues afin d’effectuer une présélection. Après consultation, 13 variables
seulement ont été retenues (Tableau 1).
Tableau 1 : Liste des données primaires à l'étude
DONNÉES À L’ÉTUDE SOURCE
Population âgée de 15 à 54 ans Statistique Canada – Recensement
Ménages de 1 à 2 personnes Statistique Canada- Recensement
Ménages de 3 personnes et plus Statistique Canada – Recensement
Immigration Statistique Canada – Cansim
Revenu moyen par ménages Statistique Canada - Cansim
La population active Statistique Canada - Cansim
La population active chez les femmes Statistique Canada - Recensement
La population totale Statistique Canada - Recensement
Le Taux hypothécaire réel Statistique Canada – Cansim
Taux d’inoccupation Statistique Canada - CANSIM
Indice des prix du neuf Statistique Canada - CANSIM
Loyer moyen Société Canadienne d’hypothèque et du logement
6. 5
Avant l’utilisation de SPSS, 4 graphiques et un histogramme ont été élaborés avec Excel, afin de
pouvoir mieux saisir la relation entre les différentes variables. Cela a notamment permis de faire
la sélection des variables du premier modèle étudié. Une analyse sommaire a été effectuée.
Pour chaque variable, la forme de la distribution a été mesurée pour s’assurer que le modèle de
régression suive une distribution normale. Un test de normalité de Kolmogorov-Smirnov et de
Shapiro-Wilks a été effectué. Toutefois, une attention plus particulière a été accordée au test de
Shapiro-Wilks en raison de sa meilleure fiabilité en général. Une analyse sommaire des
coefficients d’asymétrie et d’aplatissement a également été effectuée grâce aux tableaux générés
par SPSS. Ces tableaux ne figurent toutefois pas dans l’analyse afin de ne pas alourdir le travail.
Sur ces 13 variables, 7 ont révélé une distribution anormale. La variable dépendante, soit la mise
en chantier résidentiel présentait une distribution normale. Pour les variables indépendantes
anormales, une transformation logarithmique a été effectuée à l’aide de la fonction arithmétique
Lg10. Seules 2 variables présentaient alors une distribution normale. Une autre transformation a
donc été faite, mais cette fois, en grossissant nos variables, c’est-à-dire en ajoutant +1 à chaque
transformation de variable. Par la suite, les variables qui présentaient toujours une distribution
anormale ont été mises de côté.
Une analyse de corrélation a également été effectuée en intégrant tous les variables à l’étude. Par
la suite, l’analyse de régression linéaire via la méthode « Enter » ainsi qu’un diagnostic de
colinéarité ont été effectués avec les variables qui présentaient toutes une distribution normale. Il
s’est alors avéré qu’il existait une très forte multi colinéarité entre les variables ce qui venait
fausser le modèle. Après plusieurs tentatives, en retirant des variables en alternance, seules deux
variables présentaient un VIF de 10.00, qui étaient la valeur minimum. Cette valeur n’était pas
satisfaisante. Toutes les variables dites normales présentaient une forte colinéarité. Une
alternative à ce problème fut d’introduire certaines variables à distribution anormale
préalablement rejetées. Ces variables furent introduites au modèle de régression linéaire par
essais et erreur, en alternance, afin de déterminer celles qui présentaient les plus faibles indices de
colinéarité. Les nombreux tests effectués incluaient parfois un mélange de données à distribution
normale et anormale.
Suite à cette série d’analyses et d’épuration, il s’est avéré que seules les variables suivantes
détenaient un VIF dans la mesure de l’acceptable : Le taux hypothécaire moyen, le taux
d’inoccupation, le revenu moyen par ménages et la population âgée de 15 à 54 ans. Les autres
variables ont été rejeté car elles détenaient un VIF supérieur ou égal à 10,00, ou elles
intervenaient de façon à faire augmenter la multi-colinéarité autres variables. L’immigration
7. 6
présentait parfois un vif acceptable, mais il prenait ensuite une ampleur significative lorsque mis
en relation avec le revenu moyen par ménages. Il fallait donc faire un choix entre les deux
variables. Au final, le choix s’est arrêté sur ces 4 variables indépendantes énumérées ci-haut. Ces
variables ont été conservées dans le modèle de régression.
Plusieurs analyses de régression ont été effectuées en intégrant ces 4 variables. La première
analyse s’est effectuée avec les variables ayant subi une transformation logarithmique de base. La
deuxième s’est effectuée avec les variables ayant subi une transformation logarithmique exagérée
de +1. La troisième analyse comprenait les variables n’ayant pas subi de transformation
logarithmique. C’est cette troisième et dernière analyse qui a été retenue en raison des résultats
obtenus dans le modèle. Les variables avant subies une transformation log + 1 n’ont pas été
retenus, car les résultats générés par la transformation n’étaient pas significatifs.
Finalement, une évaluation de la qualité du modèle de régression par une analyse de variance, une
évaluation de l’ajustement du modèle de régression aux données et une évaluation des paramètres
du modèle a été complétée.
8. 7
Analyse
et
interprétation
Analyse
de
la
base
de
données
Afin de mieux définir les variables indépendantes à utiliser face à la variable dépendante, il fut
question d’analyser préalablement l’interrelation et les tendances des données par le biais de
graphiques en courbes et un histogramme.
La figure 1 présente un graphique qui met en relation les mises en chantier de différents types de
propriétés (individuels, jumelés et appartements) face au loyer moyen, aux unités écoulées et
celles achevées, mais non écoulées sur le marché de la RMR de Québec. Après analyse, il a été
décidé de conserver la variable « mise en chantier » et de revoir celle-ci de façon globale afin
qu’elle comprenne tous les types de propriétés.
Figure
1
:
Mise
en
chantier
et
variables
connexes
La figure 2 permet de comprendre la relation entre plusieurs données économiques tels les taux
hypothécaires moyens, taux de chômage, taux d’inoccupation et les prix moyens des propriétés
résidentielles. Ces variables ont toutes été approfondies afin d’être utilisées dans l’étude, compte
tenu de leur importance à première vue.
400
450
500
550
600
650
700
750
0
250
500
750
1000
1250
1500
1750
2000
2250
2500
2750
3000
3250
3500
3750
4000
4250
4500
4750
1990
1993
1996
1999
2002
2005
2008
2011
2014
Mises
en
chan?er
Période
Mises en chantier vs. unités achevés mais non écoulés
Achevés
mais
non
écoulés
Unités
écoulés
sur
le
marché
Mises
en
chan>er
(individuels
et
jumelés)
Mises
en
chan>er
(appartements)
Loyers
moyens
9. 8
Figure
2:
relations
entre
les
données
économiques
L’histogramme de la figure 3 a été élaboré afin de pouvoir visualiser les tendances
démographiques de la RMR de Québec selon différentes tranches d’âge ou spécificités (ex. :
natalité).
0
15000
30000
45000
60000
75000
90000
105000
120000
135000
150000
165000
180000
195000
210000
225000
240000
255000
270000
285000
300000
315000
330000
0.00
1.00
2.00
3.00
4.00
5.00
6.00
7.00
8.00
9.00
10.00
11.00
12.00
13.00
14.00
15.00
1990
1993
1996
1999
2002
2005
2008
2011
2014
prix
Taux
Période
Taux d'intérêt vs. prix moyens vs. taux de chômage
Taux
hyp.
moyen
annoncé
5
ans
Taux
de
chômage
Taux
d'inoccupa>on
(logement)
Prix
moyens
Enreg.
(Taux
hyp.
moyen
annoncé
5
ans)
Enreg.
(Taux
de
chômage)
Enreg.
(Taux
d'inoccupa>on
(logement))
Enreg.
(Prix
moyens)
10. 9
Figure
3
:
évolution
des
facteurs
démographiques
Figure
4
:
évolution
des
facteurs
économiques
0
10000
20000
30000
40000
50000
60000
70000
80000
90000
100000
110000
120000
130000
140000
150000
160000
170000
180000
190000
200000
210000
220000
230000
240000
250000
1986
1991
1996
2001
2006
2011
Nombre
de
personnes
Années
Évolution des facteurs démographiques
natalité
(Capitale-‐Na>onale)
pop.
totale
d'imigrants
popula>on
0-‐14
ans
popula>on
15-‐34
ans
popula>on
35-‐54
ans
popula>on
55-‐64
ans
popula>on
65
ans
et
+
126660
158595
163225
175835
194065
32873
42164
43737
50230
60884
69504
64.5
67.28
64.4
65.6
67.4
67.4
60
65
70
0
20000
40000
60000
80000
100000
120000
140000
160000
180000
200000
1981
1986
1991
1996
2001
2006
2011
Pourcentage(%)
Population(Nombredepersonnes)
Évolution des facteurs économiques
pop.
active
chez
les
femmes
revenus
moyens
par
menage
taux
d'activité
Enreg.
(pop.
active
chez
les
femmes)
Enreg.
(revenus
moyens
par
menage)
Enreg.
(taux
d'activité)
11. 10
La figure 4 a permis d’entrevoir l’évolution de trois facteurs liés au contexte économique de la
RMR de Québec.
Les facteurs tels la composition des ménages et le nombre de divorcés qui sont présentés à la
figure 5, permettent de présenter les certaines tendances de l’évolution socioéconomique pour la
RMR de Québec.
Sur la base des données économiques, démographiques et socioéconomiques travaillées et
analysées à travers ces différents graphiques des figures 1 à 5, une première analyse de régression
linéaire pouvait voir le jour en intégrant les variables indépendantes suivantes : taux hypothécaire
5 ans, taux d’inoccupation, indice du logement neuf, revenu moyen, loyer moyen, population de
15 à 54 ans, population active, population active chez les femmes, ménage de 2 personnes et
moins, ménage de 3 personnes et plus et finalement les immigrants.
17740
36860
49750
58510
39405
43880
0
10000
20000
30000
40000
50000
60000
70000
0
20000
40000
60000
80000
100000
120000
140000
160000
180000
200000
220000
240000
1986
1991
1996
2001
2006
2011
Divorcés
Nombredeménage
Année
Évolution
des
facteurs
socioéconomiques
1
à
2
personnes
3
personnes
4
personnes
et
+
divorcés
Enreg.
(1
à
2
personnes)
Enreg.
(3
personnes)
Enreg.
(4
personnes
et
+)
Enreg.
(divorcés)
Figure
5
:
Évolution
des
facteurs
socioéconomiques
12. 11
Test
de
normalité
Afin de s’assurer d’une meilleure performance de notre modèle, un test de normalité a été
effectué sur la totalité des variables à l’étude.
Tableau
2
:
test
de
normalité
sur
l’ensemble
des
données
à
l’étude
Suivant le test Shapiro-Wilk, on considère qu’une variable est normale quand la valeur de la
signification est supérieure à 0,05.
Afin de pouvoir poursuivre l’analyse, une attention particulière fut portée sur la variable
dépendante, afin de s’assurer qu’elle soit supérieure à cette valeur.
Variable « Mise en chantier » = 0.127 > 0.05 avec un échantillon de 34 observations,
ce qui
amène à conclure au non-rejet de l’hypothèse nulle. De ce fait, rien n’indique que la distribution
n’est pas normale.
13. 12
Par la suite, en appliquant la même analyse, il est possible de faire ressortir les variables
indépendantes ayant une distribution considérée comme normale (signification > 0.05) :
-‐ Loyer moyen : signification = 0.215
-‐ Population totale : signification = 0.058
-‐ Ménages de 1 & 2 personnes : signification = 0,157
-‐ Population active des femmes : signification = 0.182
-‐ Population active : signification = 0.168
Voir les histogrammes en annexe #4.
Afin d’obtenir un maximum de variables dans le modèle, celles qui étaient considérées comme
non normales ont été transformées à l’aide d’un modèle mathématique. Le tableau suivant intègre
des données transformées.
Tableau
3
:
Test
de
normalité
sur
les
données
transformées
Dans le tableau ci-dessus, les variables ayant une distribution initialement non normales on subit
une transformation logarithmique.
Le tableau #3 permet de retenir comme variables normalement distribuées :
-‐ log prix des logements neufs avec une signification de ,134
-‐ log des immigrants avec une signification de ,068
La variable de la population de 15 à 54 ans étant importante pour l’analyse, elle sera conservée
dans le modèle étant donné que la normalité n’est pas un critère indispensable pour les variables
indépendantes.
14. 13
Analyse
de
corrélation
Tableau
4
:
Analyse
de
corrélation
15. 14
En analysant le contenu du tableau 4, il apparaît que les variables indépendantes ont une faible
corrélation avec la variable dépendante : « mise en chantiers de logements », avec une corrélation
de Pearson ne dépassant pas les 0,229. Certaines variables présentent même une corrélation
négative telles que les ménages de 3 personnes et plus avec une valeur de - 0,42 ou encore la
population de 15 à 54 ans avec une valeur de -0,194. Cela nous amène à supposer que les
variables indépendantes ont un faible pouvoir explicatif envers la variable dépendante « mise en
chantier »
Des données sont néanmoins intéressantes à retenir. En effet, les prix des logements neufs ainsi
que les loyers moyens présentent une forte corrélation avec les variables indépendantes étudiées.
Il apparaît notamment une corrélation positive avec :
-‐ L’immigration :
o corrélation de Pearson prix des logements neufs = 0,949
o corrélation de Pearson loyers moyens = 0,964
-‐ Le revenu moyen :
o corrélation de Pearson prix des logements neufs = 0,817
o corrélation de Pearson loyers moyens = 0,840
-‐ Le Loyer moyen :
o corrélation de Pearson prix des logements neufs = 0,995
-‐ Le prix des logements neufs :
o corrélation de Pearson loyers moyens = 0,995
-‐ La population de 15 à 54 ans :
o corrélation de Pearson prix des logements neufs = 0,863
o corrélation de Pearson loyers moyens = 0,866
-‐ La population totale :
o corrélation de Pearson prix des logements neufs = 0,971
o corrélation de Pearson loyers moyens = 0,988
-‐ Les ménages de 1 et 2 personnes :
o corrélation de Pearson prix des logements neufs = 0,969
o corrélation de Pearson loyers moyens = 0,995
-‐ La population active :
o corrélation de Pearson prix des logements neufs = 0,989
o corrélation de Pearson loyers moyens = 0,994
16. 15
-‐ La population active chez les femmes :
o corrélation de Pearson prix des logements neufs = 0,983
o corrélation de Pearson loyers moyens = 0,992
La similitude entre la corrélation des variables « prix des logements neufs » et « loyers moyens et
les autres variables est flagrante. Ces 2 variables ont sensiblement la même relation avec les
autres variables indépendantes.
Certaines variables ont également une corrélation négative, cela signifie qu’il existe une relation
linéaire négative entre le prix des logements neufs et :
-‐ Taux d’inoccupation :
o corrélation de Pearson prix des logements neufs = -0,367
o corrélation de Pearson loyers moyens = -0,427
-‐ Les ménages de 3 personnes et plus :
o corrélation de Pearson prix des logements neufs = -0,348
o corrélation de Pearson loyers moyens = -0,431
La valeur absolue des coefficients n’étant cependant pas extrêmement forte, la corrélation est
donc moins significative que pour les variables précédentes.
17. 16
Tests
de
colinéarité
Cette analyse de régression a été effectuée en incluant toutes les variables du modèle à
distribution normale ainsi que la population de 15 à 54 ans.
Tableau
5
:
Statistiques
de
colinéarité
18. 17
Afin de se prémunir de risques de multi-colinéarité des données, le coefficient VIF (ou facteur
d’inflation de la variance) doit être inférieur à 10. Comme le démontre le contenu du tableau 5, il
y a une forte multi-colinéarité des données ce qui vient fausser l’analyse. Il est possible de
constater que plus il y a de variables, plus la multi-colinéarité est importante. Cela est d’autant
plus marquant pour la population active avec un VIF de 1965,989 et la population active chez les
femmes où le VIF est de 1563,447. Les chances sont donc très fortes pour que les deux variables
d’expliquent mutuellement.
Il a donc été décidé de refaire un modèle en supprimant les variables les plus colinéaires telles
que la population active et la population active chez les femmes.
Parmi les tests, il fut question de les remplacer les données brutes par des données transformées
par un log. Compte tenu de la présence importante de multi-colinéarité, il est accepté que le
modèle ne contienne pas que de variables normales.
Tableau
6
:
analyse
de
régression
avec
des
variables
log
Il est possible de constater dans le tableau 6 un VIF acceptable pour les variables suivantes :
-‐ Log de la population de 14 à 54 ans : 6.001 < 10
-‐ Log des taux hypothécaires : 1.603 < 10
-‐ Log des logements inoccupés : 3.758 < 10
Concernant le log « ménagetrois » (ménage de 3 personnes et plus), le VIF est de 9,574 donc
également inférieurs à 10, mais s’en rapproche très fortement, ce qui n’est pas idéal.
19. 18
Afin d’avoir un modèle plus significatif, avec une multi colinéarité moindre, plusieurs tests ont
été fait avec l’ensemble des données du modèle.
Voici quelques exemples d’autres tests qui ont été effectués.
Test 1 :
Tableau
7
:
analyse
intégrant
différentes
variables
Dans le tableau 7, il apparaît que le log des immigrants et la population de 15 à 54 ans respecte
les tolérances de colinéarité. Le problème se révèle lorsque l’on ajoute la variable loyer moyen.
Dans ce cas, le VIF des immigrants passe à 16,302 et le loyer moyen à 24,793.
Test 2 :
Tableau
8
:
analyse
intégrant
différentes
variables
20. 19
Le tableau 8, met en évidence que le problème de multi corrélation du modèle dans le tableau 7
était lié à la variable "immigrant" qui présentait une forte colinéarité avec le loyer moyen. Dans le
cas présent le modèle ne contient que 2 variables, mais le VIF est acceptable.
Test 3 :
Tableau
9
:
analyse
intégrant
d'autres
variables
Ce test semble pertinent, néanmoins, il apparaît un coefficient VIF pour la variable immigrants
important (>10) ce qui amène un fort risque de multi-colinéarité. Il a donc été décidé de
reproduire un modèle sans cette variable. Ce qui a généré le modèle final qui suit dans la
prochaine section .
21. 20
Interprétation de la qualité du modèle de régression
L’interprétation débute en évaluant la qualité du modèle. On vérifie si la première étape du
modèle explique significativement plus de variabilité qu’un modèle sans prédicteur. Ensuite, il
s'agit de s'assurer que toutes les variables introduites contribuent à améliorer significativement la
variabilité expliquée par le modèle final.
Analyse de variance : L’objectif de l’analyse de la variance est de décomposer la variabilité
existante dans la variable dépendante en deux sources de variation : une attribuable aux diverses
modalités des facteurs considérés et une autre attribuable à toute autre source de variation non
prise en considération. Pour tester l’influence du facteur a du tableau 10, la démarche du test de
Fisher a été utilisée.
1. Hypothèses statistiques :
• Hypothèse nulle : H0 = µ1 = µ2 = … µK (les moyennes sont toutes égales)
• Contre-hypothèse : H1 = les µj ne sont toutes égales.
2. Seuil de signification : α = 0,05
3. Conditions d’application du test : On suppose que les observations constituent des échantillons prélevés au
hasard et indépendamment de k populations normales de variance identiques σ2
.
4. La statistique qui convient pour le test est le rapport des carrés moyens. En supposant H0 vrai et selon les
conditions d’application, la quantité F= CMA/CM RES est distribuée selon la loi de Fisher avec (k-1) et (n-k)
degré de liberté.
5. Règle de décision. Au seuil α, la valeur critique F de fisher est Fα ;(k-1),(n-k). Donc F0,05 ;(4),(29) = 2,70 selon les
valeurs de la distribution F.
6. Calcul du quotient des carrés moyens : F= CMA/CM RES = 3,463
7. Décision et conclusion : Étant que F est supérieur à la valeur critique (3,462 > 2,70), H0 est rejeté et H1
favorisé. Une influence significative du facteur a est donc présente.
L’essentiel de l’analyse de variance se résume au tableau 10 qui permet d’obtenir les deux carrés
moyens (les variances) pour tester l’hypothèse nulle.
Le tableau 10 reproduit les résultats de l’analyse de variance permettant de vérifier si l’ensemble
des variables indépendantes expliquent globalement «Y» de façon significative. Comme il est
possible de le constater, le F calculé est de 3,463, ce qui excède la valeur critique de 2,70. La
probabilité que ce résultat soit dû au hasard est, en fait, inférieure à 0,05 (colonne Sig).
L’hypothèse nulle H0 est donc exclue et, on peut interpréter que l’ensemble des variables
indépendantes du modèle explique l’évolution de la mise en chantier de façon significative.
22. 21
ANOVAb
33136356 4 8284088,967 3,463 ,020a
69366730 29 2391956,192
102503085 33
Régression
Résidu
Total
Modèle
1
Somme
des carrés ddl Carré moyen F Signification
Valeurs prédites : (constantes), TREND(Pop15_54_1), Taux_innoccupation, Taux_
hyp5ans, TREND(Revenu_moyen)
a.
Variable dépendante : Misenchantierb.
Interprétation
de
l'ajustement
du
modèle
de
régression
aux
données
Maintenant que l’on sait que le modèle est significatif, le tableau récapitulatif du modèle permet
de déterminer la contribution de bloc de variables.
Récapitulatif du modèle(b)
Tableau
11
:
Analyse
de
régression
Modèle R R2
R2
ajusté
Erreur
standard de
l'estimation
1a ,569(a) ,323 ,230 1546,59503
2b ,103(b) ,011 -,053 1808,72951
3c ,231(c) ,053 -,008 1769,37600
4d ,250(d) ,062 ,002 1760,80363
5e
,194(e) ,038 -,024 1783,77475
6f ,229(f) ,053 -,009 1769,96418
7g ,448(g) ,201 ,121 1652,44039
8h ,231(h) ,053 -,041 1798,56580
a. Valeurs prédites : (constantes), TREND(Pop15_54_1), Taux_innoccupation, Taux_hyp5ans,
TREND(Revenu_moyen)
b. Valeurs prédites : (constantes), Taux_innoccupation, Taux_hyp5ans
c. Valeurs prédites : (constantes), TREND(Pop15_54_1), Taux_innoccupation
d. Valeurs prédites : (constantes), Taux_innoccupation, TREND(Revenu_moyen)
e. Valeurs prédites : (constantes), Taux_hyp5ans, TREND(Pop15_54_1)
f. Valeurs prédites : (constantes), TREND(Revenu_moyen), Taux_hyp5ans)
g. Valeurs prédites : (constantes), TREND(Pop15_54_1), Taux_hyp5ans, TREND(Revenu_moyen)
h. Valeurs prédites : (constantes), Taux_innoccupation, Taux_hyp5ans, TREND(Pop15_54_1)
b Variable dépendante : Misenchantier
Tableau
10:
Analyse
de
variances
23. 22
Corrélation multiple R : La valeur de la corrélation multiple R est un indice standardisé, variant
entre -1 et +1, de la force de la relation entre l'ensemble des variables indépendantes et la variable
dépendante. C'est la corrélation entre les valeurs prédites et les valeurs réelles. Une valeur de
0,569 pour le modèle 1 suggère que les données sont ajustées au modèle et qu’il existe une
relation entre l’ensemble des variables indépendantes et l’évolution des mises en chantier. Quand
R > ,75 on peut affirmer qu’il existe une forte relation entre l'ensemble des variables, ce qui n’est
pas le cas pour le modèle 1. Les variables suivantes permettent au modèle 1 d’obtenir la meilleure
relation entre les variables indépendantes et la variable dépendante :
• Population de 15-54 ans ;
• Taux d’inoccupation ;
• Taux hypothécaire 5 ans ;
• Revenu moyen.
Corrélation multiple (R2)
: Le coefficient de détermination est un indicateur de la performance
explicative du modèle. Il représente la proportion de la variation totale de la variable dépendante
expliquée par l’ensemble des variables explicatives de l’échantillon. Ainsi, on dira que la
combinaison des variables population de 15-54 ans, taux d’inoccupation, taux hypothécaire 5
ans et revenu moyen expliquent seulement 32,3% de la variance de l’évolution des mises en
chantier.
Le R² ajusté : Les variables explicatives dans l’équation de régression ont pour effet de faire
augmenter le (R²) de façon non proportionnelle au (R²) ajusté. Le coefficient (R²) ajusté
expliquerait donc plus précisément le pouvoir explicatif du modèle.
L’erreur standard de l’estimation est l’indicateur de la performance prédictive du modèle de
régression. Exprimé en nombre dans la forme linéaire du modèle, cet indicateur représente
l’erreur commise dans l’estimation des mises en chantiers par le modèle.
24. 23
Coefficientsa
-629,338 5525,759 -,114 ,910
-6,901 17,071 -,063 -,404 ,689 ,969 1,032
470,293 205,316 ,607 2,291 ,029 ,333 3,005
,359 ,105 1,076 3,402 ,002 ,233 4,285
-,050 ,015 -,723 -3,340 ,002 ,498 2,006
(constante)
Taux_hyp5ans
Taux_innoccupation
TREND(Revenu_moyen)
TREND(Pop15_54_1)
Modèle
1
B
Erreur
standard
Coefficients non
standardisés
Bêta
Coefficients
standardisés
t Signification Tolérance VIF
Statistiques de
colinéarité
Variable dépendante : Misenchantiera.
Évaluation
et
interprétation
des
paramètres
du
modèle
Il a été vérifié que le modèle est significatif et que le modèle 1 est celui qui explique le plus de
variance même si le pouvoir explicatif reste faible. Il est tout de même possible de construire
l’équation de régression pour prédire une valeur de Y. L’équation de base est la suivante :
Yi : (b0 + b1X1 + b2X2 + … + bnXn) + εi
En remplaçant maintenant les b par les coefficients fournis dans le tableau ci-dessus :
Yprédit = (-629,34 - 6,90taux_hyp5ans + 470,29Taux_innoccupation +
0.36TREND(Revenu_moyen) - 0,05TREND(Pop15_54_1))
Pour 2013, un nombre de mises en chantier prédit de :
Yprédit = (-629,34 – 6,90*0,04 +470,29*0,02 + 0,36*73808,30 – 0,05*435770,87)
Yprédit = 4162.24 = 4162 mises en chantier en 2013
Le signe du coefficient indique le sens de la relation. Il est à noter que plus le revenu moyen et le
taux d’inoccupation augmente, plus le nombre de mise en chantier augmente. On interprète aussi
avec l’équation de régression que quand les taux hypothécaires et la population de 15-54 ans
diminue, la mise en chantier augmente.
Tableau
12
:
Coefficients
du
modèle
25. 24
De plus, le coefficient Beta nous informe également sur le degré auquel les variables
indépendantes influencent la variable dépendante si elles sont toutes constantes. Par exemple, le
nombre de mises en chantier est diminué de 629 annuellement. Ensuite, la valeur de t nous
indique si le coefficient est significatif. Alors que le tableau sur le récapitulatif du modèle
confirmait si le modèle était significatif, la signification de t nous permet de répondre si chaque
variable contribue significativement au modèle. Plus la valeur de t est élevée, plus la variable
contribue au modèle. On constate donc que trois variables sur quatre sont significatives et que la
variabilité expliquée par le revenu moyen et la population 15-54 ans sont plus importantes que
celle expliquée par le taux d’inoccupation.
Finalement, la valeur VIF des variables indépendantes tend vers 1 et est en déca de 5. Une valeur
VIF de 10 est problématique au niveau de la multi-colinéarité.
En observant le tableau 13 construit à partir de l’équation de régression pour prédire une valeur
de Y, on peut constater de faibles et de grandes différences entre le Yprédit et la valeur réelle de la
variable dépendante mise en chantier. Les variables indépendantes revenu moyen des ménages et
la population 15-54 ans font varier fortement à la hausse ou à la baisse l’évolution de la mise en
chantier de la RMR de Québec.
26. 25
Tableau
13
:
Équation
de
régression
pour
prédire
une
valeur
de
"y"
27. 26
Figure
6
:
nuages
de
dispersion
des
variables
indépendantes
retenues
Les graphiques ci dessus permettent d’illustrer les relations entre la variable dépendante et les
variables indépendantes. En analysant ces graphiques, il n’apparaît pas de relation claire entre la
variable dépendante et chaque variable prise individuellement.
28. 27
Conclusion
et
interprétation
globale
Les résultats ont montré que le revenu moyen des ménages et la population 15-54 ans
sont des variables significative pour le modèle présenté. Par contre, le modèle mis de
l’avant par notre étude ne permet pas d’affirmer qu’il est prédicteur de l’évolution de la
mise en chantier de la RMR de Québec car il n’explique pas de façon significative la
compréhension de la situation. En fait, l’étude effectuée ne démontre pas suffisamment la
pertinence de faire intervenir les valeurs de notre modèle dans l'explication. Parmi les
valeurs qui pourraient expliquer de façon plus probante l’évolution de la mise en chantier,
l'importance accordée au vieillissement de la population et l’activité économique propre
de la RMR apparaîtrait comme les plus importantes.
Les limites ayant empêché de rendre le modèle plus pertinent ont tout d’abord été
l’obligation d’interpoler et extrapoler les données afin de les obtenir par années de 1980 à
2013 pour chacune des variables. La distribution normale était respectée que pour une
faible partie de l’ensemble des variables de l’étude. Et le problème majeur provient de la
multi-colinéarité des variables ce qui a obligé de réduire le modèle à simplement 4
variables indépendantes.
De plus il est à noter que l’évolution de la mise en chantier est une question peu
documentée par les chercheurs qui se sont penchés sur divers sujets connexes comme le
besoin en logements ou le prix de ventes des propriétés pour la RMR de Québec. On
retrouve davantage de données provinciales que de données reliées à la RMR de Québec.
En conclusion, l'analyse des données indique clairement que l'hypothèse de cette
recherche, selon laquelle l’évolution de la mise en chantier est expliqué par le revenu
moyen des ménages, du nombre de personnes composant la population des 15-54 ans, des
taux hypothécaire 5 ans et du taux d’inoccupation n’est pas confirmée.
29. 28
Bibliographie
Statistique Canada : CANSIM
Construction résidentielle : [en ligne]
http://www5.statcan.gc.ca/cansim/a33?RT=TABLE&themeID=2166&spMode=tables&la
ng=fra (page consultée le 20 novembre 2014)
Divorces et séparation : [en ligne]
http://www5.statcan.gc.ca/cansim/a33?RT=TABLE&themeID=40001&spMode=tables&
lang=fra (Page consultée le 21 novembre 2014)
Emploi et chômage : [en ligne]
http://www5.statcan.gc.ca/cansim/a33?RT=TABLE&themeID=1803&spMode=tables&lang=fra
(page consultée le 21 novembre 2014)
Immigration : [en ligne]
http://www5.statcan.gc.ca/cansim/a33?lang=fra&spMode=master&themeID=30000&RT=TABL
E (Page consultée le 13 novembre)
Bibliothèque de l’Université Laval, données Recensement
Statistique Canada, Dictionnaire du recensement 1981 [en ligne] http://ariane.ulaval.ca/cgi-
bin/recherche.cgi?qu=01-1116321 (page consultée le 3 novembre 2014)
Statistique Canada, Dictionnaire du recensement1986 [en ligne] http://ariane.ulaval.ca/cgi-
bin/recherche.cgi?qu=01-1356834 (Page consultée le 3 novembre 2014)
Statistique Canada, Dictionnaire du recensement 1991 [en ligne] http://ariane.ulaval.ca/cgi-
bin/recherche.cgi?qu=01-0061667 (Page consultée le 3 novembre 2014)
Statistique Canada, Dictionnaire du recensement 1996 [en ligne] http://ariane.ulaval.ca/cgi-
bin/recherche.cgi?qu=01-0521272 (Page consultée le 4 novembre 2014)
Statistique Canada, Dictionnaire du recensement 2001 [en ligne] http://ariane.ulaval.ca/cgi-
bin/recherche.cgi?qu=01-0641765 (Page consultée le 4 novembre 2014)
Statistique Canada, Dictionnaire du recensement 2006 [en ligne] http://ariane.ulaval.ca/cgi-
bin/recherche.cgi?qu=a1591874 (Page consultée le 3 novembre 2014)
Université Laval. Bibliothèque. Données statistiques en ligne
http://www.bibl.ulaval.ca/web/economique/donnees-statistiques (Page consultée le 1 novembre
2014)
30. 29
Autres sites internet
Université de Sherbrooke, SPSS17 [en ligne] : http://spss.espaceweb.usherbrooke.ca/pages/stat-
inferentielles/regression-multiple.php (Page consultée le 25 novembre 2014)
Université de Montréal, Département de sociologie, L’analyse de régression multiple [en ligne]
https://www.webdepot.umontreal.ca/Enseignement/SOCIO/Intranet/SOL6210/public/notesdecour
s/REGRES.pdf (document PDF consultée le 25 novembre 2014)
Société canadienne d’hypothèque et du logement [en ligne] https://www.cmhc-
schl.gc.ca/fr/index.cfm (page consultée le 31 octobre 2014)
Société canadienne d’hypothèque et de logement, Perspectives du marché de l’habitation, RMR
de Québec [en ligne] http://www.cmhc-
schl.gc.ca/odpub/esub/64281/64281_2014_B02.pdf?fr=1417909487534 (document PDF
consultée le 6 décembre 2014)
Magazine FORCES - Le marché immobilier au Québec [en ligne]
http://www.magazineforces.com/quebec/le-marche-immobilier-au-quebec-atterr (Page consultée
le 3 décembre 2014)
UQAM, Table B.3b 5% Critical Values of the F Distribution [en ligne]
http://www.er.uqam.ca/nobel/k23546/eco8600/tables/FisherCValues-0.05.png (Page consultée au
2014-12-05)
Université LAVAL – Gestion urbaine et immobilière, La modélisation statistique en analyse et
évaluation immobilières, Guide méthodologique par François DES ROSIERS (document PDF)
Gaston Quirion, M.S.I. (Conseiller à la documentation, Information statistique)