2. Estimation par la régression modifiée
John Preston
Précédent | Suivant
Considérons une population finie
à la période
partitionnée en
strates non chevauchantes
où
est constituée
de
unités. Un
échantillon aléatoire simple sans remise
de
unités est sélectionné avec les probabilités
d'inclusion
dans chaque strate
à la période
ce qui donne un échantillon total
de taille
Une estimation sans biais du total de
population
est donnée par l'estimateur de Horvitz-Thompson (HT)
où
est le poids de sondage de l'unité
à la période
et
est la valeur de la variable d'intérêt
pour l'unité
à la période
Supposons qu'il existe un ensemble de
variables auxiliaires
à la période
pour lequel les totaux de population
sont connus et les variables
sont connues pour chaque
L'estimateur par la régression généralisée
(RG) (Särndal, Swensson et Wretman 1992)
est un estimateur assisté par modèle, conçu en vue d'améliorer l'exactitude des
estimations en utilisant des variables auxiliaires qui sont corrélées à la
variable d'intérêt. L'estimateur RG est donné par :
où
est le vecteur des paramètres du
modèle de régression linéaire donné par :
et les
sont les facteurs spécifiés qui
se rapportent à la structure de variance du modèle de régression linéaire
associé à l'estimateur RG
avec
et
pour tout
L'estimateur RG peut aussi
s'écrire sous la forme :
où
et
est le poids
pour l'unité
à la période
donné par :
À la période
, définissons un
ensemble de variables auxiliaires composites
pour lequel les « pseudo-totaux
de référence »
(basés sur les estimations des variables clés
de l'enquête à la période
sont connus et
peut être calculé pour chaque
L' estimateur par la régression modifiée (RM)
est l'estimateur RG dans lequel les variables
du modèle de régression sont les variables auxiliaires
et les variables auxiliaires composites
L'estimateur RM est donné par :
où
est le vecteur des paramètres du
modèle de régression linéaire donné par :
L'estimateur RM peut aussi s'écrire
sous la forme :
où
et
est le poids
pour l'unité
à la période
donné par :
La clé de l'efficacité de
l'estimateur RM tient à la définition des variables auxiliaires
composites. Idéalement, les valeurs des variables auxiliaires composites à la
période
seraient égales aux valeurs des variables clés
de l'enquête à la période
Cependant, en raison du roulement dû aux unités
qui entrent dans l'échantillon et aux unités qui en sortent d'une période à la
suivante, les valeurs des variables clés de l'enquête à la période
manqueront, par conception, pour les unités
présentes dans l'échantillon à la période
mais non à la période
Plusieurs méthodes existent pour définir
les variables auxiliaires composites. Les estimateurs par la régression
modifiée les plus anciens étaient l'estimateur RM1 (Singh et Merkouris 1995; Singh 1996) et l'estimateur RM2 (Singh,
Kennedy, Wu et Brisebois 1997) dans lesquels les valeurs utilisées pour
les variables auxiliaires composites étaient données, respectivement,
par :
et
représente les
estimateurs par la régression composites de la moyenne de population dans la
strate
pour les variables clés de
l'enquête à la période
Pour les valeurs RM1 des variables
auxiliaires composites, on applique une méthode d'imputation par la moyenne
pour imputer les valeurs manquantes, tandis que pour les valeurs RM2, on
utilise une méthode d'imputation historique inverse pour imputer les valeurs
manquantes, puis on modifie les valeurs qui n'ont pas été imputées de manière que l'estimateur HT des
variables auxiliaires composites
à la période
soit sans biais pour les variables d'enquête
clés correspondantes
à la période
L'estimateur RM1 s'est avéré donner
de meilleurs résultats pour les estimations ponctuelles, tandis que
l'estimateur RM2 s'est avéré donner de meilleurs résultats pour les
estimations des variations. Fuller et Rao
(2001) ont proposé un estimateur de rechange qui offre un compromis entre
l'amélioration des estimations ponctuelles et l'amélioration des estimations
des variations grâce à l'utilisation de valeurs des variables auxiliaires
composites données par :
L'expression (2.11) pour les variables
auxiliaires composites requiert une décision quant au choix de
qui dépendra des corrélations des variables
d'enquête clés dans le temps et de l'importance relative des estimations
ponctuelles et des estimations des variations.
Beaumont et Bocci (2005) ont proposé un perfectionnement des variables auxiliaires
composites qui, selon eux, ne nécessite pas de choix arbitraire de
Dans l'approche perfectionnée RMP, une
méthode d'imputation historique inverse est utilisée pour imputer les valeurs
manquantes des variables auxiliaires composites, puis les valeurs imputées sont
modifiées afin que l'estimateur HT des variables auxiliaires composites
à la période
soit sans biais pour les variables d'enquête
clés
à la période
Les estimateurs RM peuvent s'écarter
de l'estimateur RG au cours du temps (Fuller
et Rao 2001). Dans une enquête répétée, ce problème de
« dérive » sera caractérisé par un écart important qui s'agrandit au
cours du temps entre l'estimateur RM et l'estimateur RG, tandis
qu'une étude par simulation sera caractérisée par une réduction au cours du
temps de l'efficacité relative de l'estimateur RM comparativement à
l'estimateur RG. Une solution éventuelle au problème de
« dérive » consisterait à utiliser une moyenne pondérée de
l'estimateur RM et de l'estimateur RG (Bell
1999) donnée par :
L'estimateur par la régression modifiée de
compromis (RMC) doit aussi offrir un compromis entre les gains d'efficacité
pour les estimations ponctuelles et les estimations des variations, parce que
les estimateurs RM donnent généralement de meilleurs résultats que
l'estimateur RG pour les estimations des variations, mais ne donnent pas
toujours de meilleurs résultats pour les estimations ponctuelles; en
particulier les estimateurs RM2 et RMP.
L'estimateur RMC requiert une
décision quant au choix de
En utilisant des méthodes de linéarisation (ou
de développement en série de Taylor) pour
approximer la variance de (2.13), il est possible de trouver une expression
relativement simple pour
qui minimise la variance sur les estimations
des variations tout en maintenant la variance sur les estimations ponctuelles
produites en utilisant l'estimateur RG.
Les estimateurs RM courants donnent
leurs meilleurs résultats lorsque les unités de la population ne changent pas
entre la période précédente et la période courante. En cas de changements
importants dans la population au cours du temps, ces estimateurs par la
régression modifiée ne conviennent pas sous leur forme actuelle, car ils
peuvent accumuler un biais important au cours du temps. Bien qu'un facteur
simple
puisse être appliqué aux valeurs RM1, RM2
et RMP pour tenir compte des changements de la taille de la population dans la
strate
entre les périodes
et
ces estimateurs par la régression modifiée
peuvent encore accumuler un biais considérable au cours du temps.
Précédent | Suivant