1. Introduction

Jae Kwang Kim et Shu Yang

Précédent | Suivant

L’imputation est une méthode courante de compensation de la non-réponse partielle dans les enquêtes sur échantillon. Soit y MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGabiqaaiaabeqaamaabaabaaGcbaGaamyEaaaa@36E3@  la variable étudiée sujette à la non-réponse et x MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGabiqaaiaabeqaamaabaabaaGcbaGaaCiEaaaa@36E6@  le vecteur des variables auxiliaires complètement observées. On utilise souvent un modèle de distribution conditionnelle f( y|x ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGabiqaaiaabeqaamaabaabaaGcbaGaamOzamaabm aabaGaamyEaiaacYhacaWH4baacaGLOaGaayzkaaaaaa@3B58@  afin de générer des valeurs imputées pour la donnée y i MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGabiqaaiaabeqaamaabaabaaGcbaGaamyEamaaBa aaleaacaWGPbaabeaakiaac6caaaa@38B9@  manquante. Cette méthode d’imputation fondée sur un modèle a fait l’objet de nombreuses études. L’imputation multiple de Rubin (1987) est une approche bayésienne d’imputation fondée sur un modèle. L’algorithme EM Monte Carlo de Wei et Tanner (1990) peut être traité comme une approche fréquentiste d’imputation fondée sur un modèle. Kim (2011) proposait une imputation fractionnaire paramétrique pour traiter les données manquantes multivariées.

Cependant, la méthode d’imputation fondée sur un modèle qui génère des valeurs imputées à partir de f( y|x ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGabiqaaiaabeqaamaabaabaaGcbaGaamOzamaabm aabaGaamyEaiaacYhacaWH4baacaGLOaGaayzkaaaaaa@3B58@  n’est pas une imputation hot deck en ce sens que les valeurs artificielles sont construites après l’imputation. Une caractéristique souhaitable de l’imputation hot deck est que toutes les valeurs imputées sont des valeurs observées. Par exemple, les valeurs imputées pour des variables catégoriques seront elles aussi catégoriques et le nombre de catégories est le même que celui observé pour les répondants. Pour cette raison, l’imputation hot deck est la méthode d’imputation la plus populaire, particulièrement dans les enquêtes-ménages. L’imputation par la méthode du plus proche voisin est une autre imputation hot deck. Chen et Shao (2001), Beaumont et Bocci (2009), Kim, Fuller et Bell (2011) ont eux aussi examiné l’imputation par la méthode du plus proche voisin en contexte d’échantillonnage. Durrant (2009), Haziza (2009) et Andridge et Little (2010) ont donné des aperçus détaillés des méthodes d’imputation hot deck en échantillonnage.

Kalton et Kish (1984) ont proposé une imputation fractionnaire hot deck afin d’assurer l’efficacité de l’imputation hot deck. Kim et Fuller (2004) et Fuller et Kim (2005) ont soumis l’imputation fractionnaire hot deck à un examen rigoureux et examiné l’estimation de la variance. Cependant, leur approche s’applique seulement lorsque x MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGabiqaaiaabeqaamaabaabaaGcbaGaaCiEaaaa@36E6@  est catégorique. Pour les covariables continues, l’appariement d’après la moyenne prédictive peut être traité comme une méthode d’imputation par le plus proche voisin fondée sur la valeur prédite obtenue à partir de f( y|x ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGabiqaaiaabeqaamaabaabaaGcbaGaamOzamaabm aabaGaamyEaiaacYhacaWH4baacaGLOaGaayzkaaaaaa@3B58@ , mais ses propriétés statistiques ne sont pas traitées de façon approfondie dans la littérature.

Dans le présent article, nous proposons une nouvelle méthode d’imputation fractionnaire hot deck (IFHD) fondée sur un modèle paramétrique de f( y|x ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGabiqaaiaabeqaamaabaabaaGcbaGaamOzamaabm aabaGaamyEaiaacYhacaWH4baacaGLOaGaayzkaaaaaa@3B58@  qui permet des covariables continues. La méthode proposée présente plusieurs avantages par rapport aux méthodes existantes. Premièrement, cette imputation hot deck préserve la structure de corrélation entre les éléments. Deuxièmement, elle est robuste en ce sens que l’estimateur résultant est moins sensible à l’échec du modèle théorique f( y|x ). MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGabiqaaiaabeqaamaabaabaaGcbaGaamOzamaabm aabaGaamyEaiaacYhacaWH4baacaGLOaGaayzkaaGaaiOlaaaa@3C0A@  Troisièmement, elle fournit des estimateurs de variance convergents pour différents paramètres sans exiger la condition de compatibilité de Meng (1994). L’imputation multiple exige toutefois la condition de compatibilité pour valider l’estimation de la variance. Lorsque la condition de compatibilité n’est pas satisfaite, l’imputation multiple donne souvent lieu à une inférence prudente qui, à son tour, réduit la puissance des tests. Voir la section 5.2 pour plus de détails.

La présentation de l’article suit. Dans la section 2, nous décrivons la configuration de base. La méthode proposée est présentée dans la section 3. La robustesse de l’IFHD est traitée dans la section 4. Dans la section 5, nous présentons les résultats de deux études par simulation et, dans la section 6, nous formulons nos conclusions.

Précédent | Suivant

Date de modification :