Recherche par

3. Méthode proposée

Jae Kwang Kim et Shu Yang

Nous examinons d’abord une méthode d’imputation fractionnaire hot deck appelée imputation fractionnaire complète, où les valeurs imputées sont tirées de l’ensemble de répondants désigné par $A_{R} = {i \in A; δ_{i} = 1}$ . C’est-à-dire que la $j -ième$ valeur imputée de la donnée manquante $y_{i},$ désignée par $y_{i}^{* (j)},$ est égale à la $j -ième$ valeur de $y$ dans l’ensemble $A_{R} .$ Nous proposons une méthode d’imputation fractionnaire hot deck qui utilise l’hypothèse du modèle paramétrique $f (y | x; θ)$ . Si tous les éléments de $A_{R}$ sont choisis comme valeurs imputées de la donnée manquante $y_{i},$ nous pouvons traiter ${y_{j}; j \in A_{R}}$ comme une réalisation de $f (y_{j} | δ_{j} = 1)$ et, si $h (y_{j} | x_{i}) = f (y_{j} | δ_{j} = 1)$ est choisi en (2.6), le poids fractionnaire assigné au donneur $y_{j}$ pour la donnée manquante $y_{i}$ devient

$\begin{array}{l} w_{i j}^{*} & \propto & f (y_{j} | x_{i}, δ_{i} =0; \hat{θ}) / f (y_{j} | δ_{j} =1) & (3.1) \\ \propto & f (y_{j} | x_{i;} \hat{θ}) / f (y_{j} | δ_{j} =1), \end{array}$

où $\sum_{j; δ_{j} = 1} w_{i j}^{*} = 1$ et $\hat{θ}$ est l’estimateur du maximum de vraisemblance (EMV) obtenu de l’équation (2.4). La deuxième ligne découle de l’hypothèse des données manquant au hasard. Nous pouvons aussi écrire

$\begin{array}{l} f (y_{j} | δ_{j} =1) & = & \int f (y_{j} | x, δ_{j} =1) f (x | δ_{j} =1) d x & (3.2) \\ = & \int f (y_{j} | x) f (x | δ_{j} =1) d x \\ ≅ & \frac{1}{N_{R}} \sum_{k =1}^{N} δ_{k} f (y_{j} | x_{k}), \end{array}$

où la deuxième égalité découle de l’hypothèse des valeurs manquant au hasard, et la dernière égalité (approximative) est obtenue en approximant l’intégrale par distribution empirique de la population. $N_{R}$ est le nombre de répondants dans la population. En utilisant les poids d’enquête, nous pouvons approximer

$f (y_{j} | δ_{j} = 1) ≅ \frac{\sum_{k \in A_{R}} w_{k} f (y_{j} | x_{k})}{\sum_{k \in A_{R}} w_{k}}$

et les poids fractionnaires en (3.1) sont calculés comme suit :

$w_{i j}^{*} \propto \frac{f (y_{j} | x_{i}; \hat{θ})}{\sum_{k \in A_{R}} w_{k} f (y_{j} | x_{k}; \hat{θ})} (3.3)$

où $\sum_{j \in A_{R}} w_{i j}^{*} = 1$ . En (3.3), la masse ponctuelle $w_{i j}^{*}$ assignée au donneur $y_{j}$ pour l’unité manquante $i$ est exprimée par le ratio de la densité $f (y | x) .$ Ainsi, pour chaque unité manquante $i, n_{R} = | A_{R} |$ , nous utilisons les observations comme donneurs pour l’imputation hot deck et $w_{i j}^{*}$ comme poids fractionnaires. Cette méthode d’imputation fractionnaire peut être qualifiée d’imputation fractionnaire complète (IFC) en l’absence de caractère aléatoire attribuable au mécanisme d’imputation. L’estimateur IFC de $η,$ défini par $\sum_{i = 1}^{N} U (η; x_{i}, y_{i}) = 0$ est alors calculé en résolvant

$\sum_{i \in A} w_{i} {δ_{i} U (η; x_{i}, y_{i}) + (1 - δ_{i}) \sum_{j \in A_{R}} w_{i j}^{*} U (η; x_{i}, y_{j})} = 0, (3.4)$

où $w_{i j}^{*}$ est défini en (3.3). Il est à noter que l’équation d’estimation imputée (3.4) est une bonne approximation de l’équation d’estimation prévue en (2.2).

En échantillonnage, un ensemble de données imputées où la quantité d’imputation est importante n’est pas toujours souhaitable. Au lieu d’utiliser toutes les observations en $A_{R}$ comme donneurs pour chaque donnée manquante, nous pouvons sélectionner un sous-ensemble de $A_{R}$ afin de réduire la taille de l’ensemble donneur de la donnée manquante $y_{i} .$ Ainsi, la sélection des donneurs est considérée comme un problème d’échantillonnage et nous utilisons un plan d’échantillonnage et des techniques de pondération efficaces pour obtenir des estimateurs par imputation efficaces. Des plans d’échantillonnage efficaces, comme un échantillonnage stratifié ou un échantillonnage systématique avec probabilité proportionnelle à la taille (PPT), peuvent être utilisés pour sélectionner des donneurs de taille $m .$ Un échantillonnage PPT systématique pour l’imputation fractionnaire hot deck peut être décrit comme suit :

Dans chaque $i$ où $δ_{i} = 0,$ trier les donneurs de l’ensemble complet de répondants ${y_{j}; δ_{j} = 1}$ par ordre croissant où $y_{(1)} \leq \dots \leq y_{(r)}$ et utiliser $w_{i (j)}^{*}$ pour désigner le poids fractionnaire associé à $y_{(j)}$ , c’est-à-dire $w_{i (j)}^{*} = w_{i k}^{*}$ pour $y_{(j)} = y_{k} .$
Partitionner $[0,1]$ par ${I_{j} \equiv [\sum_{k = 0}^{j} w_{i (j)}^{*}, \sum_{k = 0}^{j + 1} w_{i (j)}^{*}), j = 1, \dots, r - 1},$ où $w_{i (0)}^{*} = 0.$
Générer $u \sim uniforme (0, 1 / m)$ et poser $u_{k} = u + k / m,$ $k = 0, \dots, m - 1.$ Pour $k = 0, \dots, m - 1,$ si $u_{k} \in I_{j}$ pour certains $0 \leq j \leq r - 1,$ inclure $j$ dans l’échantillon $D_{i} .$

Après avoir sélectionné $D_{i}$ dans l’ensemble complet de répondants, nous assignons les poids fractionnaires initiaux $w_{i j 0}^{*} = 1 / m$ aux donneurs choisis en $D_{i}$ . D’autres ajustements sont apportés aux poids fractionnaires afin de satisfaire

$\sum_{i \in A} w_{i} {(1 - δ_{i}) \sum_{j \in D_{i}} w_{i j, c}^{*} q (x_{i}, y_{j})} = \sum_{i \in A} w_{i} {(1 - δ_{i}) \sum_{j \in A_{R}} w_{i j}^{*} q (x_{i}, y_{j})}, (3.5)$

pour certains $q (x_{i}, y_{j})$ , et $\sum_{j \in D_{i}} w_{i j, c}^{*} = 1$ pour tous les $i$ où $δ_{i} = 0,$ $w_{i j}^{*}$ étant les poids fractionnaires pour la méthode d’IFC définie en (3.3). En ce qui concerne le choix de la fonction de contrôle $q (x, y)$ en (3.5), nous pouvons utiliser $q (x, y) = {(y, y^{2})}^{'}$ , ce qui rapproche le plus possible les distributions empiriques de $y$ pour $D_{i}$ et $A_{R}$ en ce sens que les premier et second moments de $y$ sont les mêmes. D’autres choix peuvent être envisagés. Voir Fuller et Kim (2005).

Le problème d’ajustement des poids initiaux afin de respecter certaines contraintes est souvent qualifié de calage et les poids fractionnaires résultants peuvent être qualifiés de poids fractionnaires calés. En utilisant la pondération par régression, nous pouvons calculer des poids fractionnaires finaux de calage qui satisfont à (3.5) et $\sum_{j} w_{i j, c}^{*} = 1$ comme suit :

$w_{i j, c}^{*} = w_{i j 0}^{*} + w_{i j 0}^{*} Δ (q_{i j}^{*} - {\bar{q}}_{i \cdot}^{*}), (3.6)$

où $q_{i j}^{*} = q (x_{i}, y_{j}), {\bar{q}}_{i \cdot}^{*} = \sum_{j \in A_{R}} w_{i j 0}^{*} q_{i j}^{*},$

$Δ = {C_{q} - \sum_{i \in A} w_{i} (1 - δ_{i}) \sum_{j \in A_{R}} w_{i j 0}^{*} q_{i j}^{*}}^{T} {\sum_{i \in A} w_{i} (1 - δ_{i}) \sum_{j \in A_{R}} w_{i j 0}^{*} {(q_{i j}^{*} - {\bar{q}}_{i \cdot}^{*})}^{\otimes 2}}^{- 1}$

et $C_{q} = \sum_{i \in A} w_{i} {(1 - δ_{i}) \sum_{j \in A_{R}} w_{i j}^{*} q (x_{i}, y_{j})}$ . Ici, $B^{\otimes 2}$ désigne $B B^{T} .$ Certains des poids fractionnaires calculés en (3.6) peuvent prendre des valeurs négatives. Le cas échéant, il faut utiliser des algorithmes remplaçant la pondération par régression. Par exemple, considérons la pondération par l’entropie, où les poids fractionnaires de la forme

$w_{i j, c}^{*} = \frac{w_{i j}^{*} \exp (Δ q_{i j}^{*})}{\sum_{k \in A_{R}} w_{i k}^{*} \exp (Δ q_{i k}^{*})} (3.7)$

sont à peu près égaux aux poids fractionnaires par régression en (3.6) et sont toujours positifs. Après avoir obtenu les poids fractionnaires de calage, nous pouvons calculer l’estimateur IFHD de $η$ en résolvant

$\sum_{i \in A} w_{i} {δ_{i} U (η; x_{i}, y_{i}) + (1 - δ_{i}) \sum_{j \in D_{i}} w_{i j, c}^{*} U (η; x_{i}, y_{j})} = 0. (3.8)$

Une méthode par rééchantillonnage peut être utilisée pour estimer la variance. L’annexe A.1 contient une brève discussion de l’estimateur de variance par rééchantillonnage pour la méthode proposée.

La méthode proposée peut aussi traiter la non-réponse non ignorable sous spécification correcte du modèle de réponse. Voir l’annexe A.3 pour l’extension à un cas de non-réponse non ignorable.

Précédent | Suivant

Date de modification :: 2017-09-20

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

3. Méthode proposée