Recherche par

5. L’estimateur proposé et l’estimation de sa variance

Alina Matei et M. Giovanna Ranalli

Rappelons que nous avons une variable d’intérêt particulier $y_{j}$ et qu’il existe une non-réponse partielle pour cette variable. Si nous souhaitons estimer le total de population $Y_{j}$ de $y_{j},$ un estimateur naïf ne comprenant de correction ni pour la non-réponse totale ni pour la non-réponse partielle est donné par

${\hat{Y}}_{j, naïf} = N \sum_{k \in r_{j}} \frac{y_{k j}}{π_{k}} / \sum_{k \in r_{j}} \frac{1}{π_{k}} . (5.1)$

La repondération des répondants aux items est aussi une approche pour traiter la non-réponse partielle. Moustaki et Knott (2000) proposent de pondérer les répondants aux items par l’inverse de la probabilité prédite de réponse à l’item ${\hat{q}}_{k ℓ},$ en supposant que ${\hat{q}}_{k ℓ} > 0.$ Par conséquent, un poids d’ajustement possible pour les non-réponses partielle et totale associées à l’unité $k \in r_{j}$ est donné par $1 / ({\hat{p}}_{k} {\hat{q}}_{k j}) .$ Nous proposons d’utiliser l’estimateur sous échantillonnage à trois phases ajusté pour les non-réponses partielle et totale par repondération donné par

${\hat{Y}}_{j, p q} = \sum_{k \in r_{j}} \frac{y_{k j}}{π_{k} {\hat{p}}_{k} {\hat{q}}_{k j}}, (5.2)$

où ${\hat{p}}_{k}$ est fourni par le modèle (4.4), et ${\hat{q}}_{k j},$ par le modèle (4.2). Des propositions faisant appel à l’imputation des valeurs de $y_{k j}$ pour $k \in r \ r_{j}$ pour traiter la non-réponse partielle sont également prises en considération, mais ne sont pas présentées faute d’espace. Elles peuvent être obtenues sur demande auprès des auteurs.

Les propriétés de l’estimateur proposé (5.2) dépendent des hypothèses faites au sujet des mécanismes de non-réponse totale ainsi que partielle. En particulier, l’estimateur (5.2) suppose une deuxième phase d’échantillonnage avec probabilités de réponse inconnues. Si nous ignorons l’estimation de $θ_{k}$ dans le modèle (4.4), les résultats présentés dans Kim et Kim (2007) concernant la convergence de l’estimateur sous un plan échantillonnage à deux phases utilisant les probabilités de réponse estimées sont vérifiés ici, si l’on considère les estimations du maximum de vraisemblance pour les paramètres $α_{0}$ et $α_{1} .$ En ignorant l’estimation de la variable latente $θ_{k}$ et en utilisant les estimations du maximum de vraisemblance marginale pour les paramètres $β_{ℓ 0}$ et $β_{ℓ 1}$ dans le modèle (4.2), l’estimateur ${\hat{Y}}_{j, p q}$ sera convergent si les modèles pour les probabilités de non-réponse totale et partielle sont spécifiés correctement.

Nous pouvons considérer des méthodes de rééchantillonnage pour l’estimation de la variance de l’estimateur proposé et combiner les propositions pour l’échantillonnage à deux phases (Kim, Navarro et Fuller 2006) et pour le calage généralisé en présence de non-réponse (Kott 2006). En particulier, l’estimateur de variance par rééchantillonnage peut s’écrire comme

${\hat{V}}_{r} = \sum_{l = 1}^{L} c_{l} {({\hat{Y}}_{j, p q}^{(l)} - {\hat{Y}}_{j, p q})}^{2},$

où ${\hat{Y}}_{j, p q}^{(l)}$ est la $l^{e}$ version de ${\hat{Y}}_{j, p q}$ basée sur les observations incluses dans la $l^{e}$ réplique, $L$ est le nombre de répliques, $c_{l}$ est un facteur associé à la réplique $l$ déterminé par la méthode de rééchantillonnage. La $l^{e}$ réplique de ${\hat{Y}}_{j, p q}$ peut s’écrire sous la forme ${\hat{Y}}_{j, p q}^{(l)} = \sum_{k \in r_{j}} w_{3 k}^{(l)} y_{k j},$ où $w_{3 k}^{(l)}$ désigne le poids de rééchantillonnage de la $k^{e}$ unité dans la $l^{e}$ réplique. Ces poids de rééchantillonnage sont calculés en utilisant une procédure en deux étapes.

Premièrement, notons que, si nous ignorons pour le moment la présence de la non-réponse partielle, l’estimateur sous échantillonnage à deux phases ${\hat{Y}}_{j, p} = \sum_{k \in r} w_{2 k} y_{k j},$ a pour poids

$w_{2 k} = 1 / (π_{k} p_{k}) = w_{1 k} F ({\hat{θ}}_{k}; α_{0}, α_{1}),$

avec $w_{1 k} = 1 / π_{k}, F ({\hat{θ}}_{k}; α_{0}, α_{1}) = 1 + \exp (- (α_{0} + α_{1} {\hat{θ}}_{k}))$ (voir l’équation (4.4)). Soit ${\hat{z}}_{1} = \sum_{k \in s} w_{1 k} z_{1 k}$ l’estimation de première phase du total de la variable $z_{1}$ définie comme $z_{1 k} = π_{k} p_{k} {(1, {\hat{θ}}_{k})}^{'} .$ Alors, les paramètres $α_{0}$ et $α_{1}$ sont tels que

$\sum_{k \in r} w_{1 k} F ({\hat{θ}}_{k}; α_{0}, α_{1}) z_{1 k} = {\hat{z}}_{1} . (5.3)$

Cette procédure équivaut à obtenir des estimations non pondérées du maximum de vraisemblance, mais il est commode de la configurer comme un problème de calage généralisé non linéaire. De cette façon, il est possible d’utiliser l’approche décrite dans Kott (2006), combinée à celle décrite dans Kim et coll. (2006), pour obtenir les poids de rééchantillonnage en utilisant les étapes suivantes.

Étape 1 : Calculer l’estimation de première phase du total de $z_{1 k}$ en supprimant la $l^{e}$ observation, c’est-à-dire ${\hat{z}}_{1}^{(l)} = \sum_{k \in s} w_{1 k}^{(l)} z_{1 k},$ où $w_{1 k}^{(l)}$ est le poids de rééchantillonnage jackknife classique pour l’unité $k$ dans la réplique $l .$ Calculer les poids jackknife pour l’échantillonnage de deuxième phase en utilisant ${\hat{z}}_{1}^{(l)}$ comme valeur étalon. En particulier, les $w_{2 k}^{(l)}$ sont choisis comme étant $w_{2 k}^{(l)} = w_{2 k} w_{1 k}^{(l)} F ({\hat{θ}}_{k}; α_{0}, α_{1}) / w_{1 k}$ avec $α_{0}$ et $α_{1}$ tels que

$\sum_{k \in r} w_{2 k}^{(l)} z_{1 k} = {\hat{z}}_{1}^{(l)} .$

Cette procédure fournit des poids qui sont très similaires à ceux considérés dans Kott (2006) et peuvent être calculés en se servant des logiciels existants qui prennent en charge le calage généralisé.

La non-réponse partielle est traitée de manière similaire en considérant que $w_{3 k} = 1 / (π_{k} p_{k} q_{k j}) =$ $w_{2 k} F ({\hat{θ}}_{k}; β_{j 0}, β_{j 1})$ (comparé à l’équation (4.3)). Ici, une approximation importante consiste à supposer que, sachant ${\hat{θ}}_{k},$ les paramètres $β_{j 0}$ et $β_{j 1}$ sont estimés en utilisant un modèle logistique classique (au lieu d’un modèle 2PL) et sont tels que

$\sum_{k \in r_{j}} w_{2 k} F ({\hat{θ}}_{k}; β_{j 0}, β_{j 1}) z_{2 k} = {\hat{z}}_{2},$

où ${\hat{z}}_{2} = \sum_{k \in r} w_{2 k} z_{2 k}$ et $z_{2 k} = π_{k} p_{k} q_{k j} {(1, {\hat{θ}}_{k})}^{T} .$ Un autre inconvénient est que les variables auxiliaires $z_{2 k}$ dépendent de $j$ et, donc, que des ensembles de poids différents doivent être produits pour les diverses variables d’intérêt.

Étape 2 : Les poids jackknife de troisième phase sont obtenus en calculant d’abord l’estimation de deuxième phase du total de $z_{2 k}$ avec suppression de l’unité $l$ en utilisant les poids provenant de l’étape 1, ${\hat{z}}_{2}^{(l)} = \sum_{k \in r} w_{2 k}^{(l)} z_{2 k} .$ Alors, en utilisant ${\hat{z}}_{2}^{(l)}$ comme valeur étalon, les $w_{3 k}^{(l)}$ sont choisis comme étant $w_{3 k}^{(l)} = w_{3 k} w_{2 k}^{(l)} F ({\hat{θ}}_{k}; β_{j 0}, β_{j 1}) / w_{2 k}$ avec $β_{j 0}$ et $β_{j 1}$ calculés au moyen de

$\sum_{k \in r_{j}} w_{3 k}^{(l)} z_{2 k} = {\hat{z}}_{2}^{(l)} .$

Précédent | Suivant

Date de modification :: 2015-11-27

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

5. L’estimateur proposé et l’estimation de sa variance