Appariement statistique par imputation fractionnaire 1. Introduction
L’échantillonnage d’enquête est un outil scientifique permettant de faire des inférences à propos de la population cible. Toutefois, il arrive souvent que toutes les données nécessaires ne soient pas recueillies dans le cadre d’une même enquête, à cause de contraintes de temps et de coût. Dans ce cas, on souhaite exploiter le plus possible les données existantes provenant d’autres sources portant sur la même population cible. L’appariement statistique, que l’on appelle parfois « fusion de données » (Baker, Harris et O’Brien 1989) ou « combinaison de données » (Ridder et Moffit 2007), vise à intégrer deux ou plusieurs ensembles de données lorsque les renseignements nécessaires pour apparier les enregistrements des participants individuels dans les ensembles de données sont incomplets. D’Orazio, Zio et Scanu (2006) ainsi que Leulescu et Agafitei (2013) présentent un bon aperçu des techniques d’appariement statistique dans l’échantillonnage d’enquête.
L’appariement statistique peut être considéré comme un problème de données manquantes en vertu duquel on souhaite effectuer une analyse conjointe de variables qui ne sont jamais observées ensemble. Moriarity et Scheuren (2001) proposent un cadre théorique pour l’appariement statistique en vertu d’une hypothèse de normalité multivariée. Rässler (2002) a mis au point des techniques d’imputation multiple pour l’appariement statistique à l’aide de valeurs prédéterminées pour les paramètres non identifiables. Lahiri et Larsen (2005) traitent de l’analyse par régression à l’aide de données couplées. Ridder et Moffit (2007) présentent un traitement rigoureux des hypothèses et des approches pour l’appariement statistique dans le domaine de l’économétrie.
L’appariement statistique vise à construire des fichiers de données entièrement augmentées pour effectuer des analyses conjointes statistiquement valides. Pour simplifier la mise en situation, supposons que deux enquêtes, l’enquête A et l’enquête B, offrent des données partielles à propos de la population, et que l’on observe et dans l’échantillon de l’enquête A et et dans l’échantillon de l’enquête B. Le tableau 1.1 illustre une structure de données simple pour l’appariement. Si l’échantillon de l’enquête B (échantillon B) est un sous-ensemble de l’échantillon de l’enquête A (échantillon A), on peut employer les techniques de couplage d’enregistrements (Herzog, Scheuren et Winkler 2007) pour obtenir les valeurs de pour l’échantillon de l’enquête B. Toutefois, dans de nombreux cas, un tel appariement parfait n’est pas possible (par exemple, parce que les échantillons peuvent contenir des sous-ensembles non chevauchants); on dépend alors d’une méthode probabiliste d’identification des « jumeaux statistiques » de l’autre échantillon, c’est-à-dire que l’on doit créer pour chaque élément de l’échantillon B en trouvant son plus proche voisin dans l’échantillon A. L’imputation par la méthode du plus proche voisin a été examinée par de nombreux auteurs, dont Chen et Shao (2001) et Beaumont et Bocci (2009), dans le contexte des réponses manquantes.
Échantillon A | o | o | Cette cellule ne contient aucune données |
---|---|---|---|
Échantillon B | o | Cette cellule ne contient aucune données | o |
La détermination du plus proche voisin repose souvent sur la « proximité » en fonction de la valeur de seulement. Ainsi, dans de nombreux cas, l’appariement statistique est fondé sur l’hypothèse que et sont indépendants, conditionnellement à c’est-à-dire
L’hypothèse (1.1) est souvent appelée « hypothèse d’indépendance conditionnelle (IC) » et est très utilisée dans la pratique.
Dans le présent article, nous examinons une autre approche, qui ne repose pas sur l’hypothèse d’IC. Nous présentons les hypothèses à la section 2, puis les méthodes proposées à la section 3. Nous examinons en outre deux extensions de l’approche, l’une aux plans de sondage à questionnaire scindé (section 4) et l’autre aux modèles d’erreur de mesure (section 5). Les résultats de deux études par simulation sont présentés à la section 6. La section 7 conclut l’article.
- Date de modification :