Recherche par

2. Estimation par la régression modifiée

John Preston

Considérons une population finie $U^{(t)}$ à la période $t$ partitionnée en $H$ strates non chevauchantes $U_{1}^{(t)}, \dots, U_{h}^{(t)}, \dots, U_{H}^{(t)},$ où $U_{h}^{(t)}$ est constituée de $N_{h}^{(t)}$ unités. Un échantillon aléatoire simple sans remise $s_{h}^{(t)}$ de $n_{h}^{(t)}$ unités est sélectionné avec les probabilités d'inclusion $π_{i}^{(t)} = n_{h}^{(t)} / N_{h}^{(t)} (i \in U_{h}^{(t)})$ dans chaque strate $h$ à la période $t,$ ce qui donne un échantillon total $s^{(t)} = \cup_{h = 1}^{H} s_{h}^{(t)}$ de taille $n^{(t)} = \sum_{h = 1}^{H} n_{h}^{(t)} .$ Une estimation sans biais du total de population $Y^{(t)} = \sum_{h = 1}^{H} \sum_{i \in U_{h}^{(t)}} y_{i}^{(t)}$ est donnée par l'estimateur de Horvitz-Thompson (HT) ${\hat{Y}}_{HT}^{(t)} = \sum_{h = 1}^{H} \sum_{i \in s_{h}^{(t)}} w_{i}^{(t)} y_{i}^{(t)},$ où $w_{i}^{(t)} = 1 / π_{i}^{(t)}$ est le poids de sondage de l'unité $i$ à la période $t$ et $y_{i}^{(t)}$ est la valeur de la variable d'intérêt $y$ pour l'unité $i$ à la période $t .$ Supposons qu'il existe un ensemble de variables auxiliaires $x^{(t)}$ à la période $t$ pour lequel les totaux de population $X^{(t)} = \sum_{i \in U^{(t)}} x_{i}^{(t)}$ sont connus et les variables $x_{i}^{(t)}$ sont connues pour chaque $i \in s^{(t)} .$

L'estimateur par la régression généralisée (RG) (Särndal, Swensson et Wretman 1992) est un estimateur assisté par modèle, conçu en vue d'améliorer l'exactitude des estimations en utilisant des variables auxiliaires qui sont corrélées à la variable d'intérêt. L'estimateur RG est donné par :

${\hat{Y}}_{RG}^{(t)} = {\hat{Y}}_{HT}^{(t)} + {(X^{(t)} - {\hat{X}}_{HT}^{(t)})}^{T} {\hat{β}}_{RG}^{(t)} (2.1)$

où ${\hat{β}}_{RG}^{(t)}$ est le vecteur des paramètres du modèle de régression linéaire donné par :

${\hat{β}}_{RG}^{(t)} = {(\sum_{i \in s^{(t)}} \frac{w_{i}^{(t)} x_{i}^{(t)} x_{i}^{(t)}^{T}}{c_{i}^{(t)}})}^{- 1} (\sum_{i \in s^{(t)}} \frac{w_{i}^{(t)} x_{i}^{(t)} y_{i}^{(t)}}{c_{i}^{(t)}}) (2.2)$

et les $c_{i}^{(t)}$ sont les facteurs spécifiés qui se rapportent à la structure de variance du modèle de régression linéaire associé à l'estimateur RG $y_{i}^{(t)} = x_{i}^{(t)}^{T} {\hat{β}}_{RG}^{(t)} + ε_{i}^{(t)},$ avec $E (ε_{i}^{(t)}) = 0,$ $Var (ε_{i}^{(t)}) = c_{i}^{(t)} σ^{2}$ et $Cov (ε_{i}^{(t)}, ε_{j}^{(t)}) = 0$ pour tout $i \neq j .$ L'estimateur RG peut aussi s'écrire sous la forme :

${\hat{Y}}_{RG}^{(t)} = \sum_{i \in s^{(t)}} {\tilde{w}}_{i}^{(t)} y_{i}^{(t)} (2.3)$

où ${\tilde{w}}_{i}^{(t)} = w_{i}^{(t)} {\tilde{g}}_{i}^{(t)}$ et ${\tilde{g}}_{i}^{(t)}$ est le poids $g$ pour l'unité $i$ à la période $t$ donné par :

${\tilde{g}}_{i}^{(t)} = 1 + {(X^{(t)} - {\hat{X}}_{HT}^{(t)})}^{T} {(\sum_{i \in s^{(t)}} \frac{w_{i}^{(t)} x_{i}^{(t)} x_{i}^{(t)}^{T}}{c_{i}^{(t)}})}^{- 1} \frac{x_{i}^{(t)}}{c_{i}^{(t)}} . (2.4)$

À la période $t > 1$ , définissons un ensemble de variables auxiliaires composites $z^{(t)}$ pour lequel les « pseudo-totaux de référence » ${\tilde{Z}}^{(t)}$ (basés sur les estimations des variables clés de l'enquête à la période $t - 1)$ sont connus et $z_{i}^{(t)}$ peut être calculé pour chaque $i \in s^{(t)} .$ L' estimateur par la régression modifiée (RM) est l'estimateur RG dans lequel les variables du modèle de régression sont les variables auxiliaires $x^{(t)}$ et les variables auxiliaires composites $z^{(t)} .$ L'estimateur RM est donné par :

${\hat{Y}}_{RM}^{(t)} = {\hat{Y}}_{HT}^{(t)} + {((X^{(t)}, {\tilde{Z}}^{(t)}) - ({\hat{X}}_{HT}^{(t)}, {\hat{Z}}_{HT}^{(t)}))}^{T} {\hat{β}}_{RM}^{(t)} (2.5)$

où ${\hat{β}}_{RM}^{(t)}$ est le vecteur des paramètres du modèle de régression linéaire donné par :

${\hat{β}}_{RM}^{(t)} = {(\sum_{i \in s^{(t)}} \frac{w_{i}^{(t)} (x_{i}^{(t)}, z_{i}^{(t)}) {(x_{i}^{(t)}, z_{i}^{(t)})}^{T}}{c_{i}^{(t)}})}^{- 1} (\sum_{i \in s^{(t)}} \frac{w_{i}^{(t)} (x_{i}^{(t)}, z_{i}^{(t)}) y_{i}^{(t)}}{c_{i}^{(t)}}) . (2.6)$

L'estimateur RM peut aussi s'écrire sous la forme :

${\hat{Y}}_{RM}^{(t)} = \sum_{i \in s^{(t)}} {\overset{⌣}{w}}_{i}^{(t)} y_{i}^{(t)} (2.7)$

où ${\overset{⌣}{w}}_{i}^{(t)} = w_{i}^{(t)} {\overset{⌣}{g}}_{i}^{(t)}$ et ${\overset{⌣}{g}}_{i}^{(t)}$ est le poids $g$ pour l'unité $i$ à la période $t$ donné par :

$\begin{array}{l} {\overset{⌣}{g}}_{i}^{(t)} & = & 1 + {((X^{(t)}, {\tilde{Z}}^{(t)}) - ({\hat{X}}_{HT}^{(t)}, {\hat{Z}}_{HT}^{(t)}))}^{T} \\ \times & {(\sum_{i \in s^{(t)}} \frac{w_{i}^{(t)} (x_{i}^{(t)}, z_{i}^{(t)}) {(x_{i}^{(t)}, z_{i}^{(t)})}^{T}}{c_{i}^{(t)}})}^{- 1} \frac{(x_{i}^{(t)}, z_{i}^{(t)})}{c_{i}^{(t)}} . (2.8) \end{array}$

La clé de l'efficacité de l'estimateur RM tient à la définition des variables auxiliaires composites. Idéalement, les valeurs des variables auxiliaires composites à la période $t$ seraient égales aux valeurs des variables clés de l'enquête à la période $t - 1.$ Cependant, en raison du roulement dû aux unités qui entrent dans l'échantillon et aux unités qui en sortent d'une période à la suivante, les valeurs des variables clés de l'enquête à la période $t - 1$ manqueront, par conception, pour les unités présentes dans l'échantillon à la période $t,$ mais non à la période $t - 1.$

Plusieurs méthodes existent pour définir les variables auxiliaires composites. Les estimateurs par la régression modifiée les plus anciens étaient l'estimateur RM1 (Singh et Merkouris 1995; Singh 1996) et l'estimateur RM2 (Singh, Kennedy, Wu et Brisebois 1997) dans lesquels les valeurs utilisées pour les variables auxiliaires composites étaient données, respectivement, par :

$z_{(RM 1) i}^{(t)} = {\begin{array}{l} y_{i}^{(t - 1)}, & si i \in s_{h}^{(t)} \cap s_{h}^{(t - 1)} \\ {\bar{Y}}_{(RM) h}^{(t - 1)}, & si i \in s_{h}^{(t)} \ s_{h}^{(t - 1)} \end{array} (2.9)$

$z_{(RM 2) i}^{(t)} = {\begin{array}{l} y_{i}^{(t)} + (\sum_{i \in s_{h}^{(t)}} w_{i}^{(t)} / \sum_{i \in s_{h}^{(t)} \cap s_{h}^{(t) - 1}} w_{i}^{(t)}) (y_{i}^{(t - 1)} - y_{i}^{(t)}), & si i \in s_{h}^{(t)} \cap s_{h}^{(t - 1)} \\ y_{i}^{(t)}, & si i \in s_{h}^{(t)} \ s_{h}^{(t) - 1} \end{array} (2.10)$

et ${\bar{Y}}_{(RM) h}^{(t - 1)}$ représente les estimateurs par la régression composites de la moyenne de population dans la strate $h$ pour les variables clés de l'enquête à la période $t - 1.$

Pour les valeurs RM1 des variables auxiliaires composites, on applique une méthode d'imputation par la moyenne pour imputer les valeurs manquantes, tandis que pour les valeurs RM2, on utilise une méthode d'imputation historique inverse pour imputer les valeurs manquantes, puis on modifie les valeurs qui n'ont pas été imputées de manière que l'estimateur HT des variables auxiliaires composites ${\hat{Z}}_{HT}^{(t)} = \sum_{h = 1}^{H} \sum_{i \in s_{h}^{(t)}} w_{i}^{(t)} z_{(RM 2) i}^{(t)}$ à la période $t$ soit sans biais pour les variables d'enquête clés correspondantes $Y^{(t - 1)}$ à la période $t - 1.$

L'estimateur RM1 s'est avéré donner de meilleurs résultats pour les estimations ponctuelles, tandis que l'estimateur RM2 s'est avéré donner de meilleurs résultats pour les estimations des variations. Fuller et Rao (2001) ont proposé un estimateur de rechange qui offre un compromis entre l'amélioration des estimations ponctuelles et l'amélioration des estimations des variations grâce à l'utilisation de valeurs des variables auxiliaires composites données par :

$z_{(RM) i}^{(t)} = (1 - α) z_{(RM 1) i}^{(t)} + α z_{(RM 2) i}^{(t)} . (2.11)$

L'expression (2.11) pour les variables auxiliaires composites requiert une décision quant au choix de $α,$ qui dépendra des corrélations des variables d'enquête clés dans le temps et de l'importance relative des estimations ponctuelles et des estimations des variations.

Beaumont et Bocci (2005) ont proposé un perfectionnement des variables auxiliaires composites qui, selon eux, ne nécessite pas de choix arbitraire de $α :$

$z_{(RMP) i}^{(t)} = {\begin{array}{l} y_{i}^{(t - 1)}, & si i \in s_{h}^{(t)} \cap s_{h}^{(t - 1)} \\ y_{i}^{(t)} + (\sum_{i \in s_{h}^{(t)} \cap s_{h}^{(t - 1)}} w_{i}^{(t)} (y_{i}^{(t - 1)} - y_{i}^{(t)}) / \sum_{i \in s_{h}^{(t)} \cap s_{h}^{(t - 1)}} w_{i}^{(t)}), & si i \in s_{h}^{(t)} \ s_{h}^{(t - 1)} . \end{array} (2.12)$

Dans l'approche perfectionnée RMP, une méthode d'imputation historique inverse est utilisée pour imputer les valeurs manquantes des variables auxiliaires composites, puis les valeurs imputées sont modifiées afin que l'estimateur HT des variables auxiliaires composites ${\hat{Z}}_{HT}^{(t)} = \sum_{h = 1}^{H} \sum_{i \in s_{h}^{(t)}} w_{i}^{(t)} z_{(RMP) i}^{(t)}$ à la période $t$ soit sans biais pour les variables d'enquête clés $Y^{(t - 1)}$ à la période $t - 1.$

Les estimateurs RM peuvent s'écarter de l'estimateur RG au cours du temps (Fuller et Rao 2001). Dans une enquête répétée, ce problème de « dérive » sera caractérisé par un écart important qui s'agrandit au cours du temps entre l'estimateur RM et l'estimateur RG, tandis qu'une étude par simulation sera caractérisée par une réduction au cours du temps de l'efficacité relative de l'estimateur RM comparativement à l'estimateur RG. Une solution éventuelle au problème de « dérive » consisterait à utiliser une moyenne pondérée de l'estimateur RM et de l'estimateur RG (Bell 1999) donnée par :

${\hat{Y}}_{RMC}^{(t)} = α {\hat{Y}}_{RG}^{(t)} + (1 - α) {\hat{Y}}_{RM}^{(t)} . (2.13)$

L'estimateur par la régression modifiée de compromis (RMC) doit aussi offrir un compromis entre les gains d'efficacité pour les estimations ponctuelles et les estimations des variations, parce que les estimateurs RM donnent généralement de meilleurs résultats que l'estimateur RG pour les estimations des variations, mais ne donnent pas toujours de meilleurs résultats pour les estimations ponctuelles; en particulier les estimateurs RM2 et RMP.

L'estimateur RMC requiert une décision quant au choix de $α .$ En utilisant des méthodes de linéarisation (ou de développement en série de Taylor) pour approximer la variance de (2.13), il est possible de trouver une expression relativement simple pour $α$ qui minimise la variance sur les estimations des variations tout en maintenant la variance sur les estimations ponctuelles produites en utilisant l'estimateur RG.

Les estimateurs RM courants donnent leurs meilleurs résultats lorsque les unités de la population ne changent pas entre la période précédente et la période courante. En cas de changements importants dans la population au cours du temps, ces estimateurs par la régression modifiée ne conviennent pas sous leur forme actuelle, car ils peuvent accumuler un biais important au cours du temps. Bien qu'un facteur simple $(\sum_{i \in s_{h}^{(t - 1)}} w_{i}^{(t - 1)} / \sum_{i \in s_{h}^{(t)}} w_{i}^{(t)})$ puisse être appliqué aux valeurs RM1, RM2 et RMP pour tenir compte des changements de la taille de la population dans la strate $h$ entre les périodes $t - 1$ et $t,$ ces estimateurs par la régression modifiée peuvent encore accumuler un biais considérable au cours du temps.

Précédent | Suivant

Date de modification :: 2015-11-27

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

2. Estimation par la régression modifiée