Estimation de la variance par le bootstrap avec remise pour les enquêtes auprès des ménages Principes, exemples et mise en œuvre
Section 1. Introduction

L’estimation de la variance est un problème difficile dans les enquêtes. Les poids finaux utilisés à l’étape de l’estimation comprennent plusieurs traitements statistiques, notamment la correction de la non-réponse totale et le calage, dont l’effet sur la variance doit être évalué. Le bootstrap est un instrument utile, qui permet de créer les poids dits bootstrap publiés avec l’ensemble de données de l’enquête. Ces poids peuvent servir à calculer de façon répétée la version bootstrap du paramètre d’intérêt, ce qui donne un estimateur de la variance ou un intervalle de confiance basés sur des simulations. L’intérêt pour les utilisateurs est le fait qu’aucune information autre que les poids bootstrap n’est requise pour l’estimation de la variance. En particulier, il n’est pas nécessaire de décrire de façon exhaustive le plan de sondage initial et le processus d’estimation, ce qui serait le cas dans le cadre d’une approche analytique où l’estimateur de la variance doit être mis au point. Ainsi, un même ensemble de poids bootstrap sert à obtenir l’estimation de la variance, que les paramètres d’intérêt soient des totaux, des médianes ou des coefficients de régression. Même si l’on dispose de la description complète du plan de sondage et du processus d’estimation, l’approche analytique pose des problèmes pour des paramètres importants pour lesquels l’estimation de la variance par linéarisation n’est pas simple; voir par exemple Shao (1994) pour les L MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfpu0de9LqFHe9Lq pepeea0xd9q8as0=LqLs=Jirpepeea0=as0Fb9pgea0lrP0xe9Fve9 Fve9qapdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamitaaaa@38E7@  -statistiques, et Shao et Rao (1993) pour les proportions de faible revenu.

La littérature sur le bootstrap dans l’échantillonnage d’enquête est abondante; on trouve par exemple des revues détaillées dans Rao et Wu (1988), Rao, Wu et Yue (1992), Shao et Tu (1995, chapitre 6), Davison et Hinkley (1997, section 3.7), Davison et Sardy (2007), Chauvet (2007) et Mashreghi, Haziza et Léger (2016). L’une de ces techniques est le dit rescaled bootstrap (bootstrap rééchelonné) proposé par Rao et Wu (1988), qui peut se résumer comme suit. Premièrement, à l’intérieur de chaque échantillon au premier degré S h MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfpu0de9LqFHe9Lq pepeea0xd9q8as0=LqLs=Jirpepeea0=as0Fb9pgea0lrP0xe9Fve9 Fve9qapdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaam4uamaaBa aaleaacaWGObaabeaaaaa@3A07@  de taille n h MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfpu0de9LqFHe9Lq pepeea0xd9q8as0=LqLs=Jirpepeea0=as0Fb9pgea0lrP0xe9Fve9 Fve9qapdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamOBamaaBa aaleaacaWGObaabeaaaaa@3A22@  sélectionné dans la strate h, MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfpu0de9LqFHe9Lq pepeea0xd9q8as0=LqLs=Jirpepeea0=as0Fb9pgea0lrP0xe9Fve9 Fve9qapdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiAaiaacY caaaa@39B3@  un échantillon aléatoire simple avec remise de taille m h MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfpu0de9LqFHe9Lq pepeea0xd9q8as0=LqLs=Jirpepeea0=as0Fb9pgea0lrP0xe9Fve9 Fve9qapdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyBamaaBa aaleaacaWGObaabeaaaaa@3A21@  est sélectionné, ce qui donne les poids bootstrap initiaux. Ensuite, ces poids peuvent être rééchelonnés de façon à reproduire un estimateur de la variance sans biais pour l’estimation d’un total (cas linéaire). Comme l’expliquent Rao et Wu (1988), le bootstrap rééchelonné peut être appliqué à divers plans de sondage, y compris l’échantillonnage à deux degrés et l’échantillonnage avec ou sans remise au premier degré. Toutefois, il n’est pas facile de tenir compte de certaines caractéristiques pratiques des enquêtes, comme le traitement de la non-réponse totale. Cette question est examinée par Yeo, Mantel et Liu (1999) et Girard (2009). Un sujet connexe est traité dans Kim, Navarro et Fuller (2006), qui se penchent sur l’estimation de la variance par répliques pour un échantillonnage à deux phases.

L’application du bootstrap Rao-Wu dans le cas particulier où les tailles de rééchantillonnage sont m h = n h 1 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfpu0de9LqFHe9Lq pepeea0xd9q8as0=LqLs=Jirpepeea0=as0Fb9pgea0lrP0xe9Fve9 Fve9qapdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyBamaaBa aaleaacaWGObaabeaakiaaysW7caaI9aGaaGjbVlaad6gadaWgaaWc baGaamiAaaqabaGccaaMe8UaeyOeI0IaaGjbVlaaigdaaaa@44E4@  donne ce qu’on appelle bootstrap des unités primaires d’échantillonnage (UPE) ou bootstrap avec remise (McCarthy et Snowden, 1985). Le bootstrap avec remise est assez simple à mettre en œuvre, notamment parce qu’il suffit de rééchantillonner les unités primaires d’échantillonnage, et non les unités finales. La prise en compte du traitement de la non-réponse et du calage est assez naturelle, comme l’explique le présent article. Une des propriétés importantes de toute méthode bootstrap consiste à reproduire (au moins approximativement) un estimateur de la variance connu dans le cas linéaire, que nous appelons estimateur repère de la variance. Pour le bootstrap avec remise, il est possible d’énoncer précisément cet estimateur repère de la variance à toute étape de la méthode, ce qui est utile afin de comprendre le fonctionnement de la méthode pour évaluer l’erreur d’enquête totale. Le bootstrap avec remise donne une estimation prudente de la variance, en ce sens que la variance d’échantillonnage au premier degré est surestimée si les plans de sondage utilisés à l’intérieur des strates au premier degré sont plus efficaces que l’échantillonnage multinomial, ce que nous supposons vrai dans le présent article. Il s’agit donc d’une méthode prudente de production des intervalles de confiance. Le biais positif de l’estimateur de la variance bootstrap devrait être négligeable lorsque les taux de sondage au premier degré à l’intérieur des strates sont négligeables, ce qui est souvent le cas dans les enquêtes téléphoniques. De plus, si l’enquête est répétée au fil du temps, il est probable que la contribution de la variance due à l’échantillonnage au premier degré s’estompe, tandis que la variance attribuable à l’attrition et à la non-réponse totale augmente.

Notre article, qui porte sur le bootstrap avec remise, se veut axé sur les utilisateurs. C’est pourquoi nous ne proposons pas de modifications particulières du bootstrap avec remise. Nous expliquons plutôt comment appliquer cette méthode bootstrap pour tenir compte de l’échantillonnage, du traitement de la non-réponse et du calage et, ce faisant, quel est l’estimateur de la variance que nous cherchons à reproduire lors de l’estimation d’un total. Nous donnons des exemples en fil rouge pour illustrer comment les poids bootstrap sont calculés dans des cas simples. Deux macros SAS mettant en œuvre les méthodes bootstrap proposées sont présentées, évaluées au moyen d’une étude par simulations et illustrées sur un ensemble réel de données d’enquête, tirées du Panel Politique de la Ville.

Pour simplifier la présentation, notre terminologie est celle des enquêtes auprès des ménages, qui sont également la motivation première de notre article. Nous examinons deux cas : premièrement, quand un échantillon de ménages seulement est sélectionné et deuxièmement, quand un sous-échantillon de personnes est sélectionné dans les ménages sélectionnés. Malgré cette terminologie particulière, notre démarche est générale et peut être appliquée à toute autre situation où l’enquête est effectuée par sondage à un degré (premier cas) ou par sondage à deux degrés (deuxième cas).

Nous nous intéressons plus particulièrement aux enquêtes téléphoniques auprès des ménages, largement utilisées à l’Institut national d’études démographiques (Ined) français au cours des dernières décennies. À l’origine, un échantillon de numéros de téléphone était sélectionné dans un registre de numéros de téléphone fixes, et plus récemment, les numéros de téléphone utilisés dans l’enquête sont générés de façon aléatoire pour tenir compte des ménages non couverts dans les registres (numéros de téléphone non répertoriés et numéros de téléphone cellulaire). À la deuxième étape, des personnes sont sélectionnées au sein des ménages, au moyen de méthodes de sélection classiques (par exemple individu Kish). Les sondages téléphoniques ont prouvé leur efficacité, en particulier pour des sujets sensibles comme la sexualité, la violence ou les dépendances. Parmi les exemples d’enquêtes réalisées par l’Ined, citons l’enquête nationale sur les violences faites aux femmes en France (Enveff) en 2000, l’enquête Violences et rapports de genre en 2015 et 2018 (Virage et Virage Dom, respectivement), ou l’enquête nationale sur le contexte de la sexualité en France en 2006. Le même protocole sera probablement utilisé dans un proche avenir pour des enquêtes aux sujets similaires, comme l’enquête sur la sexualité des jeunes adultes ou celle sur le contrôle des naissances, qui doivent commencer entre 2021 et 2023.

L’article est organisé comme suit. À la section 2, nous définissons nos principales notations et nous considérons l’estimation d’un total en tenant compte de l’échantillonnage, de la non-réponse totale et du calage. Nous traitons à la section 2.1 la situation où un échantillon de ménages seulement est sélectionné (scénario à un degré) et à la section 2.2 le cas où des personnes sont sous-échantillonnées au sein des ménages (scénario à deux degrés). La méthode bootstrap de base est décrite à la section 3 : le scénario à un degré est examiné aux sections 3.1 et 3.2, et le scénario à deux degrés est examiné aux sections 3.3 et 3.4. Nous expliquons à la section 3.5 comment on peut appliquer la procédure bootstrap élémentaire pour obtenir un estimateur de la variance ou un intervalle de confiance. Les méthodes bootstrap proposées sont évaluées à la section 4 au moyen d’une étude par simulations. À la section 5, nous illustrons les méthodes au moyen d’un échantillon de ménages et d’individus du Panel Politique de la Ville français. Des conclusions sont données à la section 6. Les estimateurs repères de la variance pour l’échantillon de personnes sont présentés à l’annexe A. Le programme SAS qui a servi à réaliser l’estimation de la variance bootstrap est présenté aux annexes B et C. Ces programmes SAS peuvent être mis à disposition par l’auteur correspondant sur demande.


Date de modification :