5. L’estimateur proposé et l’estimation de sa variance
Alina Matei et M. Giovanna Ranalli
Précédent | Suivant
Rappelons que nous avons une variable d’intérêt
particulier
et qu’il existe une non-réponse
partielle pour cette variable. Si nous souhaitons estimer le total de
population
de
un estimateur naïf ne
comprenant de correction ni pour la non-réponse totale ni pour la non-réponse
partielle est donné par
La repondération des répondants aux items
est aussi une approche pour traiter la non-réponse partielle. Moustaki et Knott (2000) proposent de
pondérer les répondants aux items par l’inverse de la probabilité prédite de réponse
à l’item
en supposant que
Par conséquent, un poids
d’ajustement possible pour les non-réponses partielle et totale associées à
l’unité
est donné par
Nous proposons d’utiliser
l’estimateur sous échantillonnage à trois phases ajusté pour les non-réponses
partielle et totale par repondération donné par
où
est fourni par
le modèle (4.4), et
par le modèle
(4.2). Des propositions faisant appel à l’imputation des valeurs de
pour
pour traiter la
non-réponse partielle sont également prises en considération, mais ne sont pas présentées faute d’espace. Elles peuvent être
obtenues sur demande auprès des auteurs.
Les propriétés de l’estimateur proposé
(5.2) dépendent des hypothèses faites au sujet des mécanismes de non-réponse
totale ainsi que partielle. En particulier, l’estimateur (5.2) suppose une
deuxième phase d’échantillonnage avec probabilités de réponse inconnues. Si
nous ignorons l’estimation de
dans le modèle (4.4), les
résultats présentés dans Kim et Kim
(2007) concernant la convergence de l’estimateur sous un plan échantillonnage à
deux phases utilisant les probabilités de réponse estimées sont vérifiés ici, si
l’on considère les estimations du maximum de vraisemblance pour les paramètres
et
En ignorant l’estimation de
la variable latente
et en utilisant les
estimations du maximum de vraisemblance marginale pour les paramètres
et
dans le modèle (4.2), l’estimateur
sera convergent si les
modèles pour les probabilités de non-réponse totale et partielle sont spécifiés
correctement.
Nous pouvons considérer des méthodes de
rééchantillonnage pour l’estimation de la variance de l’estimateur proposé et
combiner les propositions pour l’échantillonnage à deux phases (Kim, Navarro et Fuller 2006) et pour le calage
généralisé en présence de non-réponse (Kott
2006). En particulier, l’estimateur de variance par rééchantillonnage peut
s’écrire comme
où
est la
version de
basée sur les observations
incluses dans la
réplique,
est le nombre de
répliques,
est un facteur
associé à la réplique
déterminé
par la méthode de rééchantillonnage. La
réplique de
peut s’écrire
sous la forme
où
désigne le poids
de rééchantillonnage de la
unité dans la
réplique.
Ces poids de rééchantillonnage sont calculés en utilisant une procédure en deux
étapes.
Premièrement, notons que, si nous ignorons
pour le moment la présence de la non-réponse partielle, l’estimateur sous
échantillonnage à deux phases
a pour poids
avec
(voir l’équation
(4.4)). Soit
l’estimation de première phase du total de la
variable
définie
comme
Alors,
les paramètres
et
sont
tels que
Cette procédure équivaut à obtenir
des estimations non pondérées du maximum de vraisemblance, mais il est commode
de la configurer comme un problème de calage généralisé non linéaire. De cette
façon, il est possible d’utiliser l’approche décrite dans Kott (2006), combinée à celle décrite dans Kim et coll. (2006), pour obtenir les
poids de rééchantillonnage en utilisant les étapes suivantes.
Étape 1 : Calculer l’estimation de première
phase du total de
en
supprimant la
observation, c’est-à-dire
où
est le
poids de rééchantillonnage jackknife classique pour l’unité
dans la
réplique
Calculer
les poids jackknife pour l’échantillonnage de deuxième phase en utilisant
comme
valeur étalon. En particulier, les
sont
choisis comme étant
avec
et
tels que
Cette procédure fournit des poids qui
sont très similaires à ceux considérés dans Kott
(2006) et peuvent être calculés en se servant des logiciels existants qui
prennent en charge le calage généralisé.
La non-réponse partielle est traitée
de manière similaire en considérant que
(comparé à l’équation (4.3)).
Ici, une approximation importante consiste à supposer que, sachant
les paramètres
et
sont estimés en utilisant un modèle logistique
classique (au lieu d’un modèle 2PL) et sont tels que
où
et
Un autre
inconvénient est que les variables auxiliaires
dépendent de
et,
donc, que des ensembles de poids différents doivent être produits pour les
diverses variables d’intérêt.
Étape 2 : Les poids jackknife de troisième
phase sont obtenus en calculant d’abord l’estimation de deuxième phase du total
de
avec
suppression de l’unité
en
utilisant les poids provenant de l’étape 1,
Alors,
en utilisant
comme
valeur étalon, les
sont
choisis comme étant
avec
et
calculés
au moyen de
Précédent | Suivant