Recherche par

4. Pondération par calage en deux étapes

Phillip S. Kott et Dan Liao

4.1 Pondération par calage en deux étapes

En pratique, les composantes de $x_{k}$ sont souvent des identificateurs d’appartenance à un groupe de type 0/1, et les groupes sont mutuellement exclusifs et exhaustifs. Dans cette situation, $g^{T} x_{k}$ ne peut prendre que $P$ valeurs. Presque toute fonction d’ajustement des poids, $α (g^{T} x_{k}),$ donnera des résultats équivalents. La fonction linéaire, $α (g^{T} x_{k}) = 1 + g^{T} x_{k},$ de Lundström et Särndal (1999) en est un exemple.

Une fonction d’ajustement des poids d’usage répandu qui, parfois, ne peut pas être utilisée (noter le mot « presque » en italiques dans le paragraphe précédent) est $α (g^{T} x_{k}) = 1 + \exp (g^{T} x_{k}),$ qui suppose que la réponse est une fonction logistique de $x_{k} .$ Le problème est que cette fonction d’ajustement des poids ne peut pas retourner des valeurs plus petites que l’unité. Nous avons mentionné à la section précédente que, parfois, on peut avoir besoin que $α_{k}$ soit plus petit que 1. Une routine qui essaie d’utiliser $α (g^{T} x_{k}) = 1 + \exp (g^{T} x_{k})$ et d’ajuster les équations de calage échouera.

Cela peut poser problème en particulier quand on émet l’hypothèse d’un modèle de réponse logistique et que l’on essaie de le caler sur la population en une seule étape. Il pourrait exister une composante de $z_{k},$ disons $z_{k a},$ qui est toujours non négative, mais l’échantillon original et l’ensemble de réponses sont tels que $\sum_{R} d_{k} z_{k a} > \sum_{U} z_{k a}$ même si $\sum_{R} d_{k} z_{k a}$ ne peut pas excéder $\sum_{S} d_{k} z_{k a} .$ Donc, le calage sur la population échouera toujours, parce qu’aucun $α_{k}$ ne peut être plus petit que 1.

Le calage sur l’échantillon original, par contre, ne doit pas échouer, puisque $\sum_{R} d_{k} z_{k a} \leq \sum_{S} d_{k} z_{k a} .$ Cela suggère que l’on effectue d’abord le calage sur l’échantillon original, ce qui élimine le biais de réponse si le modèle hypothétique de réponse est vérifié, puis sur la population, ce qui élimine le biais de réponse si le modèle de prédiction est vérifié. Estevao et Särndal (2002) discutent de divers moyens de procéder au calage par étapes, mais nous nous concentrons sur une seule méthode ici.

Un deuxième avantage de la pondération par calage en deux étapes tient au fait qu’elle peut être réalisée même si les variables de calage utilisées aux deux étapes sont les mêmes ou sont un sous-ensemble de celles utilisées dans la méthode en une seule étape. Cela se produit quand le modèle de réponse est vérifié et que le modèle de prédiction linéaire n’est qu’approximativement vrai. Une certaine version ou estimation « optimale » peut alors être utilisée à la deuxième étape de pondération par calage pour accroître l’efficacité. Rao (1994) a introduit la notion d’estimateur par la régression optimal. Il a été mis sous forme de pondération par calage et discuté plus en détail dans Bankier (2002) et dans Kott (2009, section 4.2). Des renseignements détaillés sur la façon dont cela peut être fait sont fournis aux sections 4.2 et 5.

4.2 Estimation et estimation de la variance sous calage en deux étapes

À la présente sous-section, nous commençons par décrire un estimateur par calage en deux étapes assez général d’un total, puis nous abordons l’estimation de sa variance. La première étape de pondération par calage, qui est effectuée sur l’échantillon original, emploie $x_{1 k}$ comme vecteur des variables du modèle de réponse et $z_{1 k}$ comme vecteur de calage. Chacun possède $P_{1}$ composantes. La fonction d’ajustement des poids est de la forme décrite à l’équation (2.4) où $g_{1}$ remplace maintenant $g .$ L’équation de calage est $\sum_{R} d_{k} α (g_{1}^{T} x_{1 k}) z_{1 k} = \sum_{S} d_{k} z_{1 k} .$

La deuxième étape de la pondération par calage, qui est effectuée sur la population, emploie $x_{2 k}$ et $z_{2 k},$ chacun ayant $P_{2}$ composantes. Le biais de non-réponse sous le modèle de réponse est éliminé à la première étape. Comme fonction d’ajustement des poids pour la deuxième étape, nous proposons d’utiliser

$h_{k} (g_{2}^{T} x_{2 k}) = \frac{ℓ_{k} + \exp (g_{2}^{T} x_{2 k})}{1 + \exp (g_{2}^{T} x_{2 k}) / u_{k}}, (4.1)$

où l’on peut fixer $u_{k} > ℓ_{k} > 0$ presque à sa guise (mais voir plus bas). Le deuxième membre de l’équation (4.1) peut varier sur les unités $k$ (et peut donc dépendre de $d_{k}$ et $α_{k}),$ pourtant $h_{k} (0) = {h^{'}}_{k} (0) = 1,$ ce qui la rend asymptotiquement indistinguable de la fonction linéaire : $1 + g_{2}^{T} x_{2 k} .$ Pour simplifier, nous désignerons $h_{k} (g_{2}^{T} x_{2 k})$ et ${h^{'}}_{k} (g_{2}^{T} x_{2 k}), p a r h_{k}$ et ${h^{'}}_{k},$ respectivement. Du point de vue d’un quasi-plan d’échantillonnage, les deux fonctions sont asymptotiquement identiques à l’unité. La deuxième équation de calage est $\sum_{S} d_{k} h_{k} (g_{2}^{T} x_{2 k}) z_{2 k} = \sum_{U} z_{2 k} .$ Comme cette équation doit être vérifiée, il existe des limites aux choix disponibles pour $u_{k}$ et $ℓ_{k}$ dans l’équation (4.1).

Un bon estimateur simultané des variances pour $t_{y} = \sum_{R} w_{k} y_{k} = \sum_{R} d_{k} α (g_{1}^{T} x_{1 k}) h_{k} (g_{2}^{T} x_{2 k}) y_{k}$ est (comme nous le verrons)

$\begin{array}{l} v (t_{y}) = & \sum_{k, j \in S} (1 - \frac{π_{k} π_{j}}{π_{k j}}) [d_{k} (z_{1 k}^{T} b_{1} + α_{k} h_{k} e_{1 k})] [d_{j} (z_{1 j}^{T} b_{1} + α_{j} h_{j} e_{1 j})] \\ + \sum_{k \in R} d_{k} (h_{k}^{2} α_{k}^{2} - h_{k} α_{k}) e_{1 k}^{2}, \end{array} (4.2)$

où

$e_{2 k} = y_{k} - z_{2 k}^{T} {(\sum_{S} d_{j} α_{j} {h^{'}}_{j} x_{2 j} z_{2 j}^{T})}^{- 1} \sum_{S} d_{j} α_{j} {h^{'}}_{j} x_{2 j} y_{j}, (4.3)$

$b_{1} = {(\sum_{S} d_{f} {α^{'}}_{f} x_{1 f} z_{1 f}^{T})}^{- 1} \sum_{S} d_{f} {α^{'}}_{f} h_{f} x_{1 f} e_{2 f}, (4.4)$

$e_{1 k} = e_{2 k} - x_{1 k}^{T} b_{1} . (4.5)$

Soit maintenant $x_{k}$ le vecteur composé des composantes non en double de $x_{1 k}$ et $x_{2 k},$ et définissons $z_{k}$ de manière analogue. Les conditions suffisantes pour que (4.2) soit un estimateur simultané des variances comprennent les composantes correspondantes de l’équation (4.1) selon que le modèle de réponse de l’équation (2.4) est vérifié avec $x_{1 k}$ remplaçant $x_{k}$ ou que le modèle de prédiction est $E (y_{k} | x_{k}, z_{k}) = z_{2 k}^{T} β_{2},$ que l’unité $k$ soit ou non échantillonnée ou réponde ou non si elle est échantillonnée, et les $ε_{2 k} = y_{k} - z_{2 k}^{T} β_{2}$ sont des variables aléatoires non corrélées de variances égales à $σ_{2 k}^{2} = z_{2 k}^{T} η_{2},$ où $η_{2}$ ne doit pas être spécifié outre le fait que ses composantes doivent être finies. Maintenant, $N^{- 1} \sum_{R} d_{k} α^{'} (g_{1}^{T} x_{1 k}) z_{1 k} x_{1 k}^{T}$ ainsi que $N^{- 1} \sum_{R} d_{k} {h^{'}}_{k} (g_{2}^{T} x_{2 k}) z_{2 k} x_{2 k}^{T}$ sont considérées comme étant de plein rang et bornées quand la taille de l’échantillon devient arbitrairement grande.

L’estimateur de variance donné par l’équation (4.2) est presque le même que l’estimateur donné en (3.1): $x_{k}$ a été remplacé par $x_{1 k}$ et $z_{k},$ par $z_{1 k},$ tandis que $h_{k} e_{2 k}$ se substitue à $y_{k}$ (nous parlerons sous peu d’une petite différence). Observons que $e_{2 k}$ est effectivement une expression du « résidu » de la deuxième étape de pondération par calage. Ce résidu est multiplié par la fonction d’ajustement des poids $h_{k},$ qui est asymptotiquement égale à l’unité dans la perspective fondée sur le quasi-plan d’échantillonnage et à une constante du point de vue du modèle de prédiction. Le produit est alors utilisé pour créer le « coefficient de régression » de la première étape $b_{1}$ dans l’équation (4.4) et ses « résidus » connexes $e_{1 k}$ dans l’équation (4.5). Nous effectuons la régression de la deuxième étape pour commencer, parce que $t_{y} - T_{y} = \sum_{R} w_{k} y_{k} - \sum_{U} y_{k} = \sum_{R} w_{k} e_{2 k} - \sum_{U} e_{2 k} .$

C’est pour estimer le modèle de prédiction de $t_{y}$ en tant qu’estimateur de $T_{y}, \sum_{S} (w_{k}^{2} - w_{k}) σ_{2 k}^{2},$ que la dernière apparition de $h_{k}$ dans le deuxième membre de l’équation (4.2) n’est pas élevée au carré, comme elle le serait si $h_{k} e_{2 k}$ se substituait à $y_{k}$ partout. Du point de vue d’un quasi-plan, $h_{k}$ est asymptotiquement identique à l’unité, de sorte que, qu’elle soit élevée au carré ou non ne fait asymptotiquement aucune différence.

Notons que les ${h^{'}}_{j}$ ont été insérées dans l’équation (4.3) pour la même raison que $α^{'}$ a été inséré dans $b$ dans l’équation (3.1). Cependant, comme les ${h^{'}}_{j}$ sont asymptotiquement égales à l’unité, elles ne sont pas vraiment nécessaires (et ne remplissent aucune fonction du point de vue d’un modèle de prédiction). Un argument similaire s’applique aux $h_{f}$ dans l’équation (4.4): elles sont asymptotiquement égales à l’unité du point de vue du quasi-plan d’échantillonnage (et font partie d’une estimation de 0 du point de vue du modèle de prédiction).

Précédent | Suivant

Date de modification :: 2015-11-27

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

4. Pondération par calage en deux étapes

4.1 Pondération par calage en deux étapes

4.2 Estimation et estimation de la variance sous calage en deux étapes