3. Méthode proposée
Jae Kwang Kim et Shu Yang
Précédent | Suivant
Nous examinons d’abord une méthode
d’imputation fractionnaire hot deck appelée imputation fractionnaire complète, où les valeurs imputées sont
tirées de l’ensemble de répondants désigné par
. C’est-à-dire
que la
valeur imputée de la donnée
manquante
désignée par
est égale à la
valeur de
dans l’ensemble
Nous proposons une méthode d’imputation
fractionnaire hot deck qui utilise l’hypothèse du modèle paramétrique
. Si tous les
éléments de
sont choisis comme valeurs imputées de la
donnée manquante
nous pouvons traiter
comme une réalisation de
et, si
est choisi en (2.6), le poids fractionnaire assigné
au donneur
pour la donnée manquante
devient
où
et
est l’estimateur du maximum
de vraisemblance (EMV) obtenu de l’équation (2.4). La deuxième ligne découle
de l’hypothèse des données manquant au hasard. Nous pouvons aussi écrire
où la deuxième
égalité découle de l’hypothèse des valeurs manquant au hasard, et la dernière
égalité (approximative) est obtenue en approximant l’intégrale par distribution
empirique de la population.
est le nombre de répondants dans la
population. En utilisant les poids d’enquête, nous pouvons approximer
et les poids
fractionnaires en (3.1) sont calculés comme suit :
où
. En (3.3), la
masse ponctuelle
assignée au donneur
pour l’unité manquante
est exprimée par le ratio de
la densité
Ainsi, pour chaque unité manquante
, nous utilisons les
observations comme donneurs pour l’imputation hot deck et
comme poids fractionnaires.
Cette méthode d’imputation fractionnaire peut être qualifiée d’imputation
fractionnaire complète (IFC) en l’absence de caractère aléatoire attribuable au
mécanisme d’imputation. L’estimateur IFC de
défini par
est alors calculé en résolvant
où
est défini en (3.3). Il est à
noter que l’équation d’estimation imputée (3.4) est une bonne approximation de
l’équation d’estimation prévue en (2.2).
En échantillonnage, un ensemble de données imputées où la quantité
d’imputation est importante n’est pas toujours souhaitable. Au lieu d’utiliser
toutes les observations en
comme donneurs pour chaque donnée manquante,
nous pouvons sélectionner un sous-ensemble de
afin de réduire la taille de l’ensemble
donneur de la donnée manquante
Ainsi, la sélection des donneurs est
considérée comme un problème d’échantillonnage et nous utilisons un plan d’échantillonnage
et des techniques de pondération efficaces pour obtenir des estimateurs par
imputation efficaces. Des plans d’échantillonnage efficaces, comme un
échantillonnage stratifié ou un échantillonnage systématique avec probabilité
proportionnelle à la taille (PPT), peuvent être utilisés pour sélectionner des
donneurs de taille
Un échantillonnage PPT systématique pour
l’imputation fractionnaire hot deck peut être décrit comme suit :
- Dans chaque
où
trier les donneurs de l’ensemble complet de
répondants
par ordre croissant où
et utiliser
pour désigner le poids fractionnaire associé à
, c’est-à-dire
pour
- Partitionner
par
où
- Générer
et poser
Pour
si
pour certains
inclure
dans l’échantillon
Après avoir sélectionné
dans l’ensemble complet de répondants, nous
assignons les poids fractionnaires initiaux
aux donneurs choisis en
. D’autres
ajustements sont apportés aux poids fractionnaires afin de satisfaire
pour certains
, et
pour tous les
où
étant les poids fractionnaires pour la méthode
d’IFC définie en (3.3). En ce qui concerne le choix de la fonction de contrôle
en (3.5), nous pouvons utiliser
, ce qui
rapproche le plus possible les distributions empiriques de
pour
et
en ce sens que les premier et second moments
de
sont les mêmes. D’autres choix peuvent être
envisagés. Voir Fuller et Kim (2005).
Le problème d’ajustement des poids
initiaux afin de respecter certaines contraintes est souvent qualifié de calage
et les poids fractionnaires résultants peuvent être qualifiés de poids
fractionnaires calés. En utilisant la pondération par régression, nous pouvons
calculer des poids fractionnaires finaux de calage qui satisfont à (3.5) et
comme suit :
où
et
. Ici,
désigne
Certains des poids fractionnaires calculés en
(3.6) peuvent prendre des valeurs négatives. Le cas échéant, il faut utiliser
des algorithmes remplaçant la pondération par régression. Par exemple,
considérons la pondération par l’entropie, où les poids fractionnaires de la
forme
sont à peu près
égaux aux poids fractionnaires par régression en (3.6) et sont toujours
positifs. Après avoir obtenu les poids fractionnaires de calage, nous pouvons
calculer l’estimateur IFHD de
en résolvant
Une méthode par rééchantillonnage peut
être utilisée pour estimer la variance. L’annexe A.1 contient une brève
discussion de l’estimateur de variance par rééchantillonnage pour la méthode
proposée.
La méthode proposée peut aussi traiter
la non-réponse non ignorable sous spécification correcte du modèle de réponse.
Voir l’annexe A.3 pour l’extension à un cas de non-réponse non ignorable.
Précédent | Suivant