Les modèles d’apprentissage profond sont-ils plus efficaces pour l’imputation de données manquantes dans les enquêtes ? Une comparaison empirique fournit des éléments de preuve

Articles et rapports : 12-001-X202200200009

Description :

L’imputation multiple est une approche populaire pour traiter les données manquantes découlant de la non-réponse dans les enquêtes-échantillons. L’imputation multiple au moyen d’équations en séries (MICE) est l’un des algorithmes d’imputation multiple les plus utilisés pour les données multivariées, mais son fondement théorique est insuffisant et elle exige beaucoup de calculs. Récemment, des méthodes d’imputation des données manquantes fondées sur des modèles d’apprentissage profond ont été élaborées, ce qui a donné des résultats encourageants dans de petites études. Cependant, peu de recherches ont été menées sur l’évaluation de leur rendement dans des contextes réalistes par rapport à la MICE, en particulier dans le cadre de grandes enquêtes. Nous menons de vastes études de simulation fondées sur un sous-échantillon de l’American Community Survey afin de comparer les propriétés d’échantillonnage répété de quatre méthodes d’apprentissage automatique fondées sur l’imputation multiple : MICE avec arbres de classification; MICE avec forêts aléatoires; réseaux antagonistes génératifs pour l’imputation; et imputation multiple à l’aide d’autoencodeurs débruiteurs. Nous constatons que les méthodes d’imputation fondées sur des modèles d’apprentissage profond sont plus efficaces que la MICE en ce qui a trait au temps de calcul. Cependant, étant donné le choix par défaut des hyperparamètres dans les progiciels communs, la MICE avec arbres de classification dépasse constamment, souvent de loin, les méthodes d’imputation fondées sur l’apprentissage profond quant au biais, à l’erreur quadratique moyenne et à la couverture dans une gamme de paramètres réalistes.

Numéro d'exemplaire : 2022002
Volume : 48
Auteur(s) : Wang, Zhenhua; Akande, Olanrewaju ; Poulos, Jason; Li, Fan

Produit principal : Techniques d'enquête

FormatDate de sortieInformations supplémentaires
HTML15 décembre 2022
PDF15 décembre 2022

Information connexe

Sujets et mots-clés

Sujets

Date de modification :