Les médias sociaux comme source de données pour les statistiques officielles; l’Indice de confiance des consommateurs des Pays-Bas
Section 3. Modélisation de séries chronologiques structurelle de l’ICC et de l’IMS
La présente section décrit l’élaboration de modèles de séries
chronologiques structurels univarié et bivarié pour l’ICC et l’IMS. Dans un modèle
de séries chronologiques structurel, la série est décomposée en une composante
tendance, une composante saisonnière, d’autres composantes cycliques, une
composante de régression et une composante irrégulière. Chaque composante est
supposée suivre un modèle stochastique, ce qui permet que les composantes
tendance, saisonnière et cyclique, mais aussi les coefficients de régression dépendent
du temps. Au besoin, des composantes autorégressives-moyennes mobiles (ARMA)
peuvent être ajoutées pour tenir compte de l’autocorrélation dans la série au-delà
de ces composantes structurelles. Consulter Harvey (1989) ou Durbin et Koopman (2012) pour des précisions au sujet de la
modélisation de séries chronologiques structurelle.
La question abordée dans le présent article est celle de savoir dans
quelle mesure l’IMS suit une courbe semblable à l’ICC, de sorte que l’IMS puisse
être utilisé dans la procédure d’estimation de l’ICC, voire, dans le cas le
plus extrême, le remplacer. Pour traiter cette question, nous élaborons un
modèle de séries chronologiques structurel bivarié pour l’ICC et pour l’IMS, et
modélisons la corrélation entre les termes de perturbation des différentes composantes
du modèle structurel pour les deux séries. Nous appliquons le concept de cointégration
pour déterminer si les composantes non observées des deux séries sont
sous-tendues par des facteurs communs. Si, par exemple, les tendances des deux
séries sont sous-tendues par une tendance commune, on pourrait soutenir que l’IMS
représente une évolution des sentiments comparable à l’ICC. L’IMS pourrait
aussi être utilisé comme une série auxiliaire dans une procédure d’estimation
de l’ICC fondée sur un modèle ou dans une procédure de prédiction immédiate pour
obtenir des estimations en temps réel plus précises.
3.1 Modèle
univarié de la série de l’ICC
En guise de première étape, nous proposons un modèle de séries
chronologiques univarié pour la série de l’ICC. Selon l’approche fondée sur le
plan de sondage décrite à la section 2.1, l’information observée chaque
mois sur l’échantillon sert à calculer une estimation de l’ICC pour le mois en
question. Un inconvénient de cette approche est que l’information observée lors
des périodes précédentes n’est pas utilisée pour obtenir des estimations plus
précises de l’ICC. Dans le domaine des techniques d’enquête, il est fréquent
d’appliquer des modèles de séries chronologiques pour obtenir des estimations pour
des enquêtes périodiques. Blight et Scott
(1973) et Scott et Smith (1974) ont proposé de considérer les paramètres de
population inconnus comme une réalisation d’un processus stochastique qui peut
être décrit au moyen d’un modèle de séries chronologiques. Cela introduit des relations
entre les paramètres de population estimés à différents points dans le temps
dans le cas d’échantillons non chevauchants ainsi que chevauchants. La modélisation
explicite de cette relation entre les estimations issues de l’enquête au moyen
d’un modèle de séries chronologiques peut servir à combiner l’information
observée sur l’échantillon dans le passé pour améliorer la précision des
estimations obtenues au moyen d’enquêtes périodiques. Parmi les références clés
à des auteurs qui ont appliqué l’approche des séries chronologiques aux données
d’enquêtes répétées pour améliorer l’efficacité des estimations par sondage,
nous mentionnerons Scott, Smith et Jones (1977), Tam (1987), Binder et Dick
(1989, 1990), Bell et Hillmer (1990),
Tiller (1992), Rao et Yu (1994), Pfeffermann
et Burck (1990), Pfeffermann (1991), Pfeffermann
et Rubin-Bleuer (1993), Pfeffermann, Feder et Signorelli (1998), Pfeffermann
et Tiller (2006), Harvey et Chung (2000), Feder (2001), Lind (2005) et van den Brakel et Krieg (2009, 2015).
L’élaboration d’un modèle de séries chronologiques pour les estimations
par sondage observées au moyen d’une enquête périodique débute par un modèle énonçant
que l’estimation par sondage peut être décomposée en la valeur de la variable
dans la population et une erreur d’échantillonnage :
où
désigne l’ICC réel au mois
sous un dénombrement complet de
la population cible et
l’erreur d’échantillonnage.
L’ICC est observé mensuellement. Par
conséquent, à titre de première étape, la série du paramètre de population
finie peut être décomposée en une tendance stochastique, une composante
saisonnière pour modéliser les écarts systématiques par rapport à la tendance durant
une année, et une composante de bruit blanc pour les variations restantes,
inexpliquées. Ces considérations mènent au modèle qui suit pour la série du
paramètre de population finie :
où
désigne une tendance
stochastique,
une composante saisonnière
stochastique et
la variation inexpliquée du
paramètre de population finie. L’insertion de (3.2) dans le modèle de mesure
(3.1) donne
Dans une enquête transversale, il est
difficile de séparer l’erreur d’échantillonnage du bruit blanc du paramètre de
population. Donc, les deux composantes sont combinées en un terme de
perturbation
Nous supposons que
et
Pour tenir compte de la
variance non homogène dans les erreurs d’échantillonnage, Binder et Dick (1990)
ont proposé une erreur de mesure où les termes de perturbation
sont proportionnels aux erreurs-types
de
c’est-à-dire
avec
et où
est définie par (2.3) et est utilisée
comme une information a priori dans le modèle de séries chronologiques. Un
tel modèle serait utile si l’erreur d’échantillonnage est plus importante que
le bruit blanc dans le paramètre de population. Pour la présente application,
les premières analyses indiquent que la variance du bruit blanc de la
population est importante, ce qui invalide (3.5). En outre, toujours dans cette
application, la variance de l’erreur d’échantillonnage est constante au cours
du temps. Nous avons donc décidé de combiner l’erreur d’échantillonnage et le bruit
blanc de la population, et avons supposé que la variance était constante au
cours du temps. Savoir comment tenir compte de la variance d’échantillonnage est
une question qui se pose également dans le cas des variances de désaisonnalisation
(Pfeffermann et Sverchkov, 2014). Bell (2005) a étudié la contribution de la
variance d’échantillonnage à la variance de l’erreur d’estimation des séries
désaisonnalisées et à la composante non saisonnière. Dans le cas de panels
(rotatifs), l’erreur d’échantillonnage peut être isolée du bruit blanc de la
population. Dans le cas des enquêtes transversales répétées, il est difficile d’identifier
les composantes distinctes et les deux termes sont donc combinés en un terme de
perturbation qui inclut à la fois la variance d’échantillonnage et la variation
inexpliquée du paramètre de population.
Un exercice approfondi de sélection du
modèle a montré qu’un modèle de tendance lissé est le plus approprié pour
représenter la tendance et le cycle économique dans la série de l’ICC. Le modèle
de tendance lissé est défini comme étant (Durbin et Koopman, 2012) :
L’ajout d’une composante aléatoire pour
le niveau dans (3.6) améliore la log-vraisemblance de cinq unités, mais aboutit
à un surajustement des données en ce sens que le signal lissé suit presque exactement
la série observée, avec une très petite variance de l’erreur de mesure. Un modèle
au niveau local (niveau aléatoire sans une pente) améliore la log-vraisemblance
de trois unités, mais a également tendance à surajuster les données.
La composante saisonnière est modélisée
par un modèle trigonométrique, qui est défini comme étant (Durbin et Koopman, 2012) :
avec
Ici,
désigne la fréquence des
différents cycles exprimée en radians et définie comme étant
Pour les termes de perturbation, il est
supposé que
Par souci de parcimonie, nous supposons
que la structure de variance est la même avec le même hyperparamètre pour
Qui plus est, nous supposons
que
et
ne sont pas corrélés.
Après l’introduction de la composante
de tendance stochastique (3.6) et de la composante saisonnière (3.7), aucune
autre composante cyclique n’est nécessaire. La procédure de sélection du modèle
a montré que deux changements de niveau sont nécessaires pour modéliser des
sauts soudains dans la série. Le premier est dû à la crise financière de septembre
2008, et le second, au ralentissement économique de septembre 2011. Enfin, une
valeur aberrante ponctuelle est nécessaire pour septembre 2007. L’ajout de ces trois
composantes accroît la log-vraisemblance de 15 unités. Nous arrivons ainsi
au modèle qui suit pour la série observée de l’ICC
avec
et
représente les coefficients de
régression correspondants.
Enfin, des composantes autorégressives
(AR) et de moyennes mobiles (MA pour moving
average) peuvent être ajoutées au modèle de séries chronologiques structurel
(3.8). Dans la présente application, rien n’indique que de telles composantes soient
nécessaires, puisqu’il n’y a aucun signe évident d’une corrélation sériale
résiduelle entre les innovations standardisées. L’ajout d’un processus AR(1) ou
MA(1) à (3.8) augmente la log-vraisemblance de 5 et de 4,5 unités,
respectivement. L’ajout de modèles AR ou MA d’ordre deux n’améliore pas
davantage la log-vraisemblance. L’ajout d’un processus ARMA(1,1) n’accroît pas
non plus davantage la log-vraisemblance. Un processus AR(1) ou MA(1) améliore
légèrement le corrélogramme, mais augmente aussi l’erreur-type des signaux
lissés filtrés. Donc, nous avons finalement choisi le modèle (3.8) pour la série
de l’ICC.
Les modèles espace-état supposent que
les termes de perturbation suivent des lois normales indépendantes. Ces hypothèses
se traduisent en l’hypothèse que les innovations suivent des lois normales
indépendantes. Le tableau A.1 en annexe donne un aperçu des statistiques de
qualité de l’ajustement appliquées aux innovations standardisées. Les valeurs obtenues
pour l’asymétrie, l’aplatissement et le test de Bowman-Shenton
ne révèlent pas d’écarts par rapport à la loi normale pour les innovations
standardisées. Les valeurs pour le test de Ljung-Box
et le test de Durban-Watson n’indiquent aucune corrélation sériale entre les innovations
standardisées. Ces observations sont également confirmées par un corrélogramme
(non présenté). En conclusion, selon ces diagnostics, le modèle (3.8) est
raisonnablement bien ajusté à la série de l’ICC.
3.2 Modèle
bivarié des séries de l’ICC et de l’IMS
L’étape suivante consiste à combiner le
modèle univarié pour l’ICC avec la série pour l’IMS. Avant de combiner l’ICC et
l’IMS dans un modèle bivarié, nous élaborons un modèle univarié pour l’IMS afin
de mieux comprendre le comportement de cette série. Une procédure de sélection
de modèle similaire à celle effectuée pour la série de l’ICC à la
sous-section 3.1 indique que la série observée pour l’IMS peut être
modélisée avec un modèle de tendance lisse et une composante de bruit blanc
pour la variation inexpliquée. Aucune présence significative d’une composante
saisonnière ou d’un cycle économique n’est établie. Il n’existe aucun signe de valeur
aberrante ni de changements de niveau. Nous n’avons pas inclus de composante AR(1)
et MA(1) puisqu’il n’existe aucune corrélation sériale entre les innovations
standardisées. Ces observations ont mené à un modèle bivarié pour l’ICC et
l’IMS dans lequel l’ICC comprend une tendance et une composante saisonnière, tandis
que l’IMS comprend une composante tendance.
Les tableaux A.2 et A.3 en annexe donnent
un aperçu des statistiques de qualité de l’ajustement pour les innovations
standardisées de l’ICC et de l’IMS, respectivement. Rien n’indique que les innovations
standardisées s’écartent d’une loi normale dans l’une ou l’autre des deux
séries. L’hypothèse nulle d’absence de corrélation sériale entre les
innovations standardisées n’a pas pu être rejetée. Le corrélogramme des innovations
pour l’IMS montre toutefois un patron saisonnier non significatif (données non
présentées). Les innovations de l’IMS présentent aussi une hétéroscédasticité.
Les termes de perturbation des
tendances des deux séries sont corrélés. Puisque la série pour l’IMS est disponible
à partir de juin 2010, le modèle pour l’ICC contient aussi le dernier
changement de niveau en septembre 2011, mais non la valeur aberrante ponctuelle
en septembre 2007 et le changement de niveau en septembre 2008. Par conséquent,
nous obtenons le modèle bivarié suivant :
dans lequel
et
désignent le modèle de tendance
lissé défini en (3.6) avec la structure de covariance
Dans la dernière expression,
désigne la corrélation entre les
perturbations de la pente de l’ICC et de l’IMS. De surcroît,
représente l’effet saisonnier
défini par (3.7) et
le changement de niveau en
septembre 2011 avec le coefficient de régression correspondant
Enfin,
et
sont les termes de
perturbation pour les séries de l’ICC et de l’IMS, qui sont définis comme il
suit :
Si le modèle détecte une forte
corrélation entre les tendances de l’ICC et de l’IMS, alors les tendances des
deux séries se développeront dans la même direction plus ou moins simultanément.
Dans ces conditions, l’information supplémentaire provenant de la série de l’IMS
aboutira à une plus grande précision des estimations des chiffres de l’ICC. Dans
le cas d’une forte corrélation entre les perturbations des tendances, c’est-à-dire
si
les tendances sont dites cointégrées.
Dans ces conditions, il existe une tendance commune sous-jacente qui dicte l’évolution
des tendances des deux séries observées. Pour le voir, nous notons que la matrice
de covariance des perturbations de la pente est obtenue sous forme d’une décomposition
en valeurs singulières :
Au lieu de
et
ce sont les paramètres
et
qui sont estimés. Si
il s’ensuit que
Dans ces conditions, la
matrice de covariance des perturbations de la pente est de rang réduit et les
deux tendances sont sous-tendues par une tendance commune. Cela implique que
les perturbations des pentes des deux séries montent ou descendent
simultanément et que les perturbations de la pente de l’IMS peuvent être
prédites parfaitement à partir des perturbations de la pente de l’ICC au moyen
de
En outre, la pente de la
série de l’IMS peut s’exprimer sous forme d’une combinaison linéaire de la
pente de la série de l’ICC par l’expression
De même, la tendance de la
série de l’IMS peut être exprimée sous forme d’une combinaison linéaire de la
tendance pour la série de l’ICC par l’expression
Notons que
et
sont des constantes qui sont
calculées à partir des états estimés aux deux dernières périodes de la série.
La cointégration accroît la précision des
estimations de la tendance et du signal de la série de l’ICC, permet de
formuler des modèles plus parcimonieux, mais pourrait aussi être considérée
comme un argument en vue de remplacer la série de l’ICC par celle de l’IMS, puisque
les deux séries sont sous-tendues par une même tendance commune et représentent
toutes deux cette tendance. Pour une discussion plus détaillée de la
cointégration dans le contexte de la modélisation espace-état, consulter Koopman, Harvey, Shephard et Doornik (2009, sections 6.4 et 9.1).
3.3
Estimation des modèles de séries chronologiques structurels
Le moyen général d’analyser un modèle
de séries chronologiques structurel consiste à l’exprimer dans la représentation
dite espace-état et à appliquer le filtre de Kalman
pour obtenir des estimations optimales pour les variables d’état (voir par exemple,
Durbin et Koopman (2012)). Le logiciel
pour l’analyse et l’estimation des modèles de séries chronologiques est développé
en Ox en combinaison avec les sous-routines de SsfPack 3.0;
voir Doornik (2009) et Koopman, Shephard et Doornik (2008).
Toutes les variables d’état sont non
stationnaires et initialisées au moyen d’un prior diffus, c’est-à-dire que les espérances
des états initiaux sont nulles et que la matrice de covariance initiale des
états est diagonale avec de grands éléments diagonaux. Dans Ssfpack 3.0, une fonction de log-vraisemblance
diffuse exacte s’obtient à l’aide de la procédure proposée par Koopman (1997). Les estimations du maximum de
vraisemblance (MV) pour les hyperparamètres, c’est-à-dire les composantes de
variance des processus stochastiques pour les variables d’état, sont obtenues avec
une procédure d’optimisation numérique (algorithme de Broyden-Fletcher-Goldfarb-Shanno (BFGS), Doornik, 2009). Pour
éviter d’obtenir des estimations de variance négatives, on estime les variances
log-transformées. Le lecteur trouvera d’autres renseignements techniques sur l’analyse
des modèles espace-état dans Harvey (1989) ou dans Durbin et Koopman (2012).
Sous l’hypothèse que les termes de
perturbation suivent une loi normale, on peut appliquer le filtre de Kalman pour obtenir des estimations optimales
des variables d’état, voir par exemple, Durbin et Koopman (2012). Le filtre de Kalman
suppose que les termes de variance et de covariance sont connus d’avance et ces
termes sont souvent appelés hyperparamètres. En pratique, ces hyperparamètres sont
inconnus et, par conséquent, remplacés par l’estimation de leur MV. Les estimations
pour les variables d’état pour la période
fondées sur l’information disponible
jusqu’à la période
inclusivement sont appelées estimations filtrées. Elles s’obtiennent
à l’aide du filtre de Kalman où les
estimations du MV des hyperparamètres sont fondées sur la série chronologique
complète. Les estimations filtrées des vecteurs d’état antérieurs peuvent être
mises à jour si de nouvelles données deviennent disponibles. Cette procédure,
appelée lissage, donne des estimations
lissées qui sont fondées sur la série chronologique complète.
Les erreurs-types des estimations
obtenues avec le filtre de Kalman ne
reflètent pas l’incertitude supplémentaire due à l’utilisation des estimations
du MV pour les hyperparamètres inconnus. Donc, les estimations des
erreurs-types sont trop optimistes.