4. Pondération par calage en deux étapes
Phillip S. Kott et Dan Liao
Précédent | Suivant
4.1 Pondération par calage
en deux étapes
En pratique, les composantes de
sont souvent des identificateurs
d’appartenance à un groupe de type 0/1, et les groupes sont mutuellement
exclusifs et exhaustifs. Dans cette situation,
ne peut prendre que
valeurs. Presque toute fonction d’ajustement des poids,
donnera des résultats équivalents. La fonction
linéaire,
de Lundström et Särndal (1999) en est un
exemple.
Une fonction d’ajustement des poids
d’usage répandu qui, parfois, ne peut pas être utilisée (noter le mot « presque » en italiques dans le
paragraphe précédent) est
qui suppose que la réponse est une fonction
logistique de
Le problème est que cette fonction
d’ajustement des poids ne peut pas retourner des valeurs plus petites que
l’unité. Nous avons mentionné à la section précédente que, parfois, on peut
avoir besoin que
soit plus petit que 1. Une routine qui essaie
d’utiliser
et d’ajuster les équations de calage échouera.
Cela peut poser problème en particulier
quand on émet l’hypothèse d’un modèle de réponse logistique et que l’on essaie
de le caler sur la population en une seule étape. Il pourrait exister une
composante de
disons
qui est toujours non négative, mais
l’échantillon original et l’ensemble de réponses sont tels que
même si
ne peut pas excéder
Donc, le calage sur la population échouera
toujours, parce qu’aucun
ne peut être plus petit que 1.
Le calage sur l’échantillon original,
par contre, ne doit pas échouer, puisque
Cela suggère que l’on effectue d’abord le calage sur l’échantillon
original, ce qui élimine le biais de réponse si le modèle hypothétique de
réponse est vérifié, puis sur la population, ce qui élimine le biais de réponse
si le modèle de prédiction est vérifié. Estevao et Särndal (2002) discutent de
divers moyens de procéder au calage par étapes, mais nous nous concentrons sur
une seule méthode ici.
Un deuxième avantage de la pondération
par calage en deux étapes tient au fait qu’elle peut être réalisée même si les
variables de calage utilisées aux deux étapes sont les mêmes ou sont un
sous-ensemble de celles utilisées dans la méthode en une seule étape. Cela se
produit quand le modèle de réponse est vérifié et que le modèle de prédiction
linéaire n’est qu’approximativement vrai. Une certaine version ou estimation
« optimale » peut alors être utilisée à la deuxième étape de
pondération par calage pour accroître l’efficacité. Rao (1994) a introduit la
notion d’estimateur par la régression optimal. Il a été mis sous forme de
pondération par calage et discuté plus en détail dans Bankier (2002) et dans
Kott (2009, section 4.2). Des renseignements détaillés sur la façon dont
cela peut être fait sont fournis aux sections 4.2 et 5.
4.2 Estimation et
estimation de la variance sous calage en deux étapes
À la présente sous-section, nous
commençons par décrire un estimateur par calage en deux étapes assez général
d’un total, puis nous abordons l’estimation de sa variance. La première étape
de pondération par calage, qui est effectuée sur l’échantillon original, emploie
comme vecteur des variables du
modèle de réponse et
comme vecteur de calage. Chacun
possède
composantes. La fonction d’ajustement des
poids est de la forme décrite à l’équation (2.4) où
remplace maintenant
L’équation de calage est
La deuxième étape de la pondération par
calage, qui est effectuée sur la population, emploie
et
chacun ayant
composantes. Le biais de non-réponse sous le
modèle de réponse est éliminé à la première étape. Comme fonction d’ajustement
des poids pour la deuxième étape, nous proposons d’utiliser
où l’on peut fixer
presque à
sa guise (mais voir plus bas). Le deuxième membre de l’équation (4.1) peut varier sur les
unités
(et peut donc dépendre de
et
pourtant
ce qui la rend
asymptotiquement indistinguable de la fonction linéaire :
Pour simplifier, nous désignerons
et
et
respectivement. Du point de
vue d’un quasi-plan d’échantillonnage, les deux fonctions sont asymptotiquement
identiques à l’unité. La deuxième équation de calage est
Comme cette
équation doit être vérifiée, il existe des limites aux choix disponibles pour
et
dans
l’équation (4.1).
Un bon estimateur simultané des variances
pour
est (comme nous le verrons)
où
et
Soit maintenant
le vecteur composé des composantes non en
double de
et
et définissons
de manière analogue.
Les conditions suffisantes pour que (4.2) soit un estimateur simultané des
variances comprennent les composantes correspondantes de l’équation (4.1) selon
que le modèle de réponse de l’équation (2.4) est vérifié avec
remplaçant
ou que le modèle de prédiction
est
que l’unité
soit ou non échantillonnée ou
réponde ou non si elle est échantillonnée, et les
sont des variables aléatoires non corrélées de
variances égales à
où
ne doit pas être spécifié outre
le fait que ses composantes doivent être finies. Maintenant,
ainsi que
sont considérées comme étant de plein rang et
bornées quand la taille de l’échantillon devient arbitrairement grande.
L’estimateur de variance donné par
l’équation (4.2) est presque le même que l’estimateur donné en (3.1):
a été remplacé par
et
par
tandis que
se substitue à
(nous parlerons sous peu d’une petite différence).
Observons que
est effectivement une expression du « résidu » de la deuxième
étape de pondération par calage. Ce résidu est multiplié par la fonction
d’ajustement des poids
qui est asymptotiquement égale
à l’unité dans la perspective fondée sur le quasi-plan d’échantillonnage et à une
constante du point de vue du modèle de prédiction. Le produit est alors utilisé
pour créer le « coefficient de régression » de la première étape
dans l’équation (4.4) et ses « résidus »
connexes
dans l’équation (4.5). Nous effectuons la régression
de la deuxième étape pour commencer, parce que
C’est pour estimer le modèle de
prédiction de
en tant qu’estimateur de
que la dernière apparition de
dans le deuxième membre de
l’équation (4.2) n’est pas élevée au carré, comme elle le serait si
se substituait à
partout. Du point de vue d’un quasi-plan,
est asymptotiquement identique à l’unité, de
sorte que, qu’elle soit élevée au carré ou non ne fait asymptotiquement aucune différence.
Notons que les
ont été insérées dans
l’équation (4.3) pour la même raison que
a été inséré dans
dans l’équation (3.1). Cependant, comme les
sont asymptotiquement égales à l’unité, elles
ne sont pas vraiment nécessaires (et ne remplissent aucune fonction du point de
vue d’un modèle de prédiction). Un argument similaire s’applique aux
dans l’équation (4.4): elles sont asymptotiquement
égales à l’unité du point de vue du quasi-plan
d’échantillonnage (et font partie d’une estimation de 0 du point de vue du modèle
de prédiction).
Précédent | Suivant