Intégration de données d’enquêtes probabilistes et de mégadonnées aux fins d’inférence de population finie au moyen d’une imputation massive
Section 1. Introduction

Dans l’inférence de population finie, l’échantillonnage probabiliste est la norme de référence pour l’obtention d’un échantillon représentatif de la population cible. Comme la probabilité de sélection est connue, l’inférence subséquente à partir d’un échantillon probabiliste est souvent fondée sur le plan et respecte la façon dont les données ont été recueillies; voir les discussions dans les manuels de Särndal, Swensson et Wretman (2003), Cochran (2007), Fuller (2009). Cependant, les programmes d’enquête à grande échelle se heurtent continuellement à des exigences accrues malgré des ressources réduites. Ils doivent notamment répondre à des demandes d’estimations pour des domaines avec une petite taille d’échantillon et des demandes d’estimations plus rapides. Simultanément, les compressions budgétaires des programmes entraînent des réductions de la taille des échantillons, et la diminution des taux de réponse fait du biais de non-réponse une préoccupation importante. Baker, Brick, Bates, Battaglia, Couper, Dever, Gile et Tourangeau (2013) traitent des difficultés actuelles concernant l’utilisation d’échantillons probabilistes aux fins d’inférences de population finie.

Afin de remédier à ces difficultés, les organismes statistiques sont de plus en plus poussés à utiliser des mégadonnées qui sont des sources certes pratiques, mais non contrôlées, comme des données satellitaires (McRoberts, Tomppo et Næsset, 2010), des données de capteurs mobiles (Palmer, Espenshade, Bartumeus, Chung, Ozgencil et Li, 2013) et des panels d’enquête sur le Web (Tourangeau, Conrad et Couper, 2013). Couper (2013), Citro (2014), Tam et Clarke (2015) et Pfeffermann, Eltinge et Brown (2015) expliquent les résultats prometteurs de l’exploitation des mégadonnées dans le calcul de statistiques officielles et d’enquête, mais soulèvent aussi de nombreuses interrogations concernant les sources de mégadonnées. Bien que ces sources de données fournissent rapidement des données pour un grand nombre de variables et d’éléments de population, il s’agit d’échantillons non probabilistes qui, souvent, ne représentent pas la population cible d’intérêt en raison des biais de sélection inhérents. Tam et Kim (2018) traitent également de défis d’ordre éthique posés par les mégadonnées pour les statisticiens officiels et discutent de certaines méthodes préliminaires de correction du biais de sélection des mégadonnées. Voir Keiding et Louis (2016), Elliott et Valliant (2017), Buelens, Burger et van den Brakel (2018) et Beaumont (2020) pour lire de récents examens des difficultés liées à l’utilisation d’échantillons non probabilistes dans les inférences.

Pour utiliser les sources de données modernes de façon statistiquement défendable, il est important d’élaborer des outils statistiques d’intégration des données permettant de combiner un échantillon probabiliste avec des mégadonnées non probabilistes. L’intégration des données aux fins d’inférence de population finie ressemble au problème de la combinaison d’études cliniques randomisées et d’études épidémiologiques non randomisées aux fins d’inférence causale des effets de traitement (Keiding et Louis, 2016). Plus particulièrement, nous nous sommes intéressés à l’élaboration d’une intégration des données dans un contexte où la variable de l’étude est observée dans les mégadonnées seulement, mais que d’autres variables sont couramment observées dans les deux groupes de données. Pour ce cas, les statisticiens d’enquête et les biostatisticiens ont fourni différentes méthodes permettant de combiner l’information provenant de sources de données multiples. Lohr et Raghunathan (2017), Yang et Kim (2020) et Rao (2020) présentent un examen des méthodes statistiques d’intégration des données aux fins d’inférence de population finie. Les méthodes actuelles d’intégration des données peuvent être classées en trois catégories, comme suit.

Le premier type est ce qu’on appelle ajustement du score de propension (Rosenbaum et Rubin, 1983). Dans cette méthode, la probabilité qu’une unité soit sélectionnée dans le grand échantillon, qu’on appelle score de propension, est modélisée et estimée pour toutes les unités de l’échantillon de mégadonnées. Les ajustements suivants, comme la stratification ou la pondération du score de propension, peuvent servir à tenir compte des biais de sélection; voir, par exemple, Lee et Valliant (2009), Valliant et Dever (2011), Elliott et Valliant (2017). Stuart, Bradshaw et Leaf (2015), Stuart, Cole, Bradshaw et Leaf (2011), Buchanan, Hudgens, Cole, Mollan, Sax, Daar, Adimora, Eron et Mugavero (2018) utilisent la pondération du score de propension pour généraliser les résultats des essais randomisés à une population cible. O’Muircheartaigh et Hedges (2014) proposent d’utiliser une stratification de score de propension pour analyser une expérience sociale non randomisée. L’un des inconvénients notables des méthodes se fondant sur le score de propension est qu’elles dépendent d’un modèle du score de propension explicite et sont biaisées en cas de spécification erronée du modèle (Kang et Schafer, 2007).

Le deuxième type utilise le calage (Deville et Särndal, 1992; Kott, 2006; Dong, Yang, Wang, Zeng et Cai, 2020). Cette technique peut servir à calibrer l’information auxiliaire de l’échantillon de mégadonnées avec celle de l’échantillon probabiliste, de sorte qu’après le calage, l’échantillon de mégadonnées soit semblable à la population cible (DiSogra, Cobb, Chan et Dennis, 2011). Comme le calage ne nécessite pas de modélisation paramétrique, il est intéressant pour les spécialistes des enquêtes. Toutefois, cette méthode nécessite que l’information (par exemple les moments) des variables auxiliaires de la population soit connue ou, à tout le moins, qu’elle puisse être estimée à partir d’un échantillon probabiliste.

Le troisième type est l’imputation massive, dans laquelle les valeurs imputées sont créées pour les éléments entiers de l’échantillon probabiliste. Dans l’imputation habituelle aux fins d’analyse des données manquantes, les répondants de l’échantillon fournissent un ensemble de données d’entraînement servant à l’élaboration d’un modèle d’imputation. Dans l’imputation massive, un échantillon indépendant de mégadonnées est utilisé comme ensemble de données d’entraînement, et l’imputation est appliquée à toutes les unités de l’échantillon probabiliste. Bien que l’idée d’incorporer l’information provenant de mégadonnées par une imputation massive soit très naturelle, la littérature sur l’imputation massive elle-même est rare. Breidt, McVey et Fuller (1996) traitent de l’imputation massive pour échantillonnage à deux phases. Rivers (2007) propose une méthode d’imputation massive utilisant l’imputation par le plus proche voisin, mais la théorie n’est pas totalement développée. Kim et Rao (2012) élaborent une théorie rigoureuse d’imputation massive à l’aide de deux échantillons probabilistes indépendants. Chipperfield, Chessman et Lim (2012) discutent de l’estimation composite quand une des enquêtes fait l’objet d’une imputation massive. Bethléem (2016) discute de questions pratiques liées à l’appariement d’échantillons. Récemment, Kim et Wang (2019) ont élaboré une théorie d’imputation massive de mégadonnées à l’aide d’une approche de modèle paramétrique. Toutefois, les hypothèses du modèle paramétrique ne se vérifient pas nécessairement en pratique. Pour que l’imputation massive soit plus utile et plus pratique, les hypothèses doivent être aussi faibles que possible.

Les contributions que nous apportons dans le présent article peuvent se résumer comme suit.

  1. Nous élaborons d’abord un cadre officiel d’imputation massive qui incorpore l’information de mégadonnées dans un échantillon probabiliste et nous présentons des résultats asymptotiques rigoureux pour les estimateurs d’imputation massive. Notre cadre couvre l’estimateur d’imputation par le plus proche voisin de Rivers (2007). Contrairement à Kim et Wang (2019), nous ne posons pas d’hypothèses fortes de modèle paramétrique pour l’imputation massive. C’est pourquoi la méthode proposée est intéressante pour les spécialistes des enquêtes.
  2. Nous étudions également deux stratégies d’amélioration de l’estimateur d’imputation par le plus proche voisin, l’une utilisant l’imputation par les k MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBamXvP5wqonvsaeHbmv3yPrwyGmuy SXwANjxyWHwEaebbnrfifHhDYfgasaacH8rrps0lbbf9q8qqaqpepe c8Eiea0dYdf9arpi0xb9Lqpe0dbvb9frpepeI8k8hiNsFfY=qqqrFf pie9qqpe0dd9q8qi0de9Fve9Fve9pXqaaeaabiGaciaacaqabeaadi qaaqaaaOqaeCU=caWGRbaaaa@3D34@ plus proches voisins (Mack et Rosenblatt, 1979) et l’autre utilisant des modèles additifs généralisés (Wood, 2006). Dans l’imputation par les k MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBamXvP5wqonvsaeHbmv3yPrwyGmuy SXwANjxyWHwEaebbnrfifHhDYfgasaacH8rrps0lbbf9q8qqaqpepe c8Eiea0dYdf9arpi0xb9Lqpe0dbvb9frpepeI8k8hiNsFfY=qqqrFf pie9qqpe0dd9q8qi0de9Fve9Fve9pXqaaeaabiGaciaacaqabeaadi qaaqaaaOqaeCU=caWGRbaaaa@3D34@ plus proches voisins, au lieu d’utiliser un plus proche voisin, nous identifions plusieurs plus proches voisins dans l’échantillon de mégadonnées et utilisons la réponse moyenne comme valeur imputée. Cette méthode est couramment utilisée par la communauté internationale des inventaires forestiers pour combiner des observations au sol et des images obtenues à partir de capteurs à distance (McRoberts et coll., 2010). Dans l’article, nous établissons des résultats asymptotiques pour l’estimateur des k MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBamXvP5wqonvsaeHbmv3yPrwyGmuy SXwANjxyWHwEaebbnrfifHhDYfgasaacH8rrps0lbbf9q8qqaqpepe c8Eiea0dYdf9arpi0xb9Lqpe0dbvb9frpepeI8k8hiNsFfY=qqqrFf pie9qqpe0dd9q8qi0de9Fve9Fve9pXqaaeaabiGaciaacaqabeaadi qaaqaaaOqaeCU=caWGRbaaaa@3D34@ plus proches voisins. Dans la deuxième stratégie, nous étudions les techniques modernes de prédiction pour l’imputation massive au moyen de modèles souples. Nous utilisons des modèles additifs généralisés (Wood, 2006) pour connaître la relation entre le résultat et les covariables à partir des mégadonnées et créer des prévisions pour les échantillons probabilistes. Nous constatons que cette stratégie peut s’appliquer à une plus grande catégorie d’estimateurs semi-paramétriques et non paramétriques comme les modèles à indice unique, les estimateurs de Lasso (Belloni, Chernozhukov, Chetverikov et Kato, 2015) et les méthodes d’apprentissage automatique, par exemple les forêts d’arbres décisionnels (Breiman, 2001).
  3. À l’aide d’une nouvelle idée de pondération par calage, nous proposons un estimateur d’imputation massive efficace et développons ses résultats asymptotiques. Le gain d’efficacité est justifié selon un cadre fondé purement sur le plan et aucune hypothèse de modèle n’est utilisée. Nous examinons un cas où il est de plus possible de déterminer l’appartenance aux mégadonnées dans tout l’échantillon probabiliste. La principale idée est que le sous-échantillon d’unités de l’échantillon A appartenant aux mégadonnées constitue un échantillon de deuxième phase de l’échantillon de mégadonnées, qui agit comme une nouvelle population. Nous calons l’information de l’échantillon de deuxième phase pour qu’elle soit identique à celle de l’échantillon agissant comme une nouvelle population. Le processus de calage améliore alors l’exactitude de l’estimateur d’imputation massive sans spécification d’hypothèses de modèle.

Le plan de l’article est structuré comme suit. Dans la section 2, nous présentons le scénario de base. Dans la section 3, nous présentons la méthodologie pour l’imputation par le plus proche voisin et établissons ses propriétés asymptotiques. À la section 4, nous examinons deux stratégies d’amélioration de l’estimateur d’imputation par le plus proche voisin, l’une utilisant l’imputation par les k MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBamXvP5wqonvsaeHbmv3yPrwyGmuy SXwANjxyWHwEaebbnrfifHhDYfgasaacH8rrps0lbbf9q8qqaqpepe c8Eiea0dYdf9arpi0xb9Lqpe0dbvb9frpepeI8k8hiNsFfY=qqqrFf pie9qqpe0dd9q8qi0de9Fve9Fve9pXqaaeaabiGaciaacaqabeaadi qaaqaaaOqaeCU=caWGRbaaaa@3D33@ plus proches voisins et l’autre utilisant des modèles additifs généralisés. À la section 5, nous proposons une technique de calage par régression pour améliorer l’efficacité des estimateurs d’imputation massive quand en plus, l’appartenance aux mégadonnées est observée dans tout l’échantillon probabiliste. Dans la section 6, nous démontrons que les estimateurs proposés sont robustes et efficaces au moyen d’études par simulations fondées sur des données artificielles et des données réelles tirées de la Monthly Retail Trade Survey du U.S. Census Bureau. Dans la section 7, nous présentons une étude de cas qui applique la méthode proposée pour intégrer les données nationales de santé et les dossiers nationaux d’assurance-santé. Enfin, les conclusions de l’étude sont présentées à la section 8.


Date de modification :