Imputation multiple de données manquantes sur le revenu aux niveaux individuel et familial par régression séquentielle : application à la « National Health Interview Survey » - ARCHIVÉ
Articles et rapports : 11-522-X20020016715
Dans cet article, on décrit l'imputation multiple de données sur le revenu dans le cas de la National Health Interview Survey et les problèmes méthodologiques qui se posent. En outre, on présente des résumés empiriques des imputations ainsi que les résultats d'une évaluation par la méthode de Monte Carlo des inférences basées sur des données sur le revenu résultant d'une imputation multiple.
Les analystes de données sur la santé cherchent souvent à étudier les liens qui existent entre le revenu et la santé. La National Health Interview Survey, réalisée par le National Center for Health Statistics des Centers for Disease Control and Prevention aux États-Unis, constitue une riche source de données pour l'étude de tels liens. Cependant, les taux de non-réponse à deux questions essentielles sur le revenu, à savoir le revenu personnel et le revenu familial total, sont supérieurs à 20 %. En outre, ces taux de non-réponse semblent augmenter au fil du temps. Un projet en cours de réalisation vise à procéder à une imputation multiple du revenu personnel et du revenu familial, ainsi que des valeurs de certaines autres covariables pour les cycles de la National Health Interview Survey de 1997 et des années subséquentes.
La mise au point de méthodes d'imputation multiple appropriées pour des enquêtes à aussi grande échelle pose de nombreux défis. D'abord, il existe un grand nombre de variables de divers types pour lesquelles les sauts de questions et les relations logiques diffèrent. Ensuite, on ignore quelles associations seront étudiées par les analystes des données résultant d'imputations multiples. Enfin, les données sur certaines variables, comme le revenu familial, sont recueillies à l'échelle des familles et d'autres, comme le revenu tiré d'un travail, le sont à l'échelle des particuliers. Afin que les imputations pour les variables à l'échelle des familles et des particuliers soient subordonnées à un aussi grand nombre de prédicteurs que possible, et pour simplifier la modélisation, on utilise une version modifiée de la méthode d'imputation par régression séquentielle décrite dans Raghunathan et coll. (Techniques d'enquête, 2001).
Outre les problèmes liés à la nature hiérarchique des imputations qu'on vient de décrire, d'autres questions méthodologiques méritent d'être examinées, comme l'utilisation de transformations des variables de revenu, l'imposition de restrictions sur les valeurs des variables, la validité générale de l'imputation par régression séquentielle et, de façon encore plus générale, la validité des inférences basées sur une imputation multiple dans le cas d'enquêtes à plan d'échantillonnage complexe.
Produit principal : La série des symposiums internationaux de Statistique Canada : recueil
Format | Date de sortie | Informations supplémentaires |
---|---|---|
CD-ROM | 13 septembre 2004 | |
13 septembre 2004 |
Information connexe
Sujets et mots-clés
Sujets
Mots-clés
- Date de modification :